Gemini 2.0 Flash 即将关闭:2026 年替代模型与 API 价格比较
Google 已标示 Gemini 2.0 Flash 与 2.0 Flash-Lite 将在 2026-06-01 停止服务。本文比较 2.5 Flash-Lite、2.5 Flash、Gemini 3 Flash 与 3.1 Flash-Lite 的价格与迁移选择。
1. 为什么现在要处理
Google 的 Gemini 淘汰项目页面
已经把 gemini-2.0-flash 和 gemini-2.0-flash-lite 的停用日期列为
2026-06-01。这不是普通的版本提醒;模型关闭后,端点就不能继续使用。生产环境如果还在调用 2.0 Flash 系列,最好在停用前完成迁移,而不是等错误日志出现。
纸面上的迁移路径很直接:2.0 Flash 换到 2.5 Flash,2.0 Flash-Lite 换到 2.5 Flash-Lite。但成本并不只是换个 model id。2.5 Flash-Lite 大致保留旧 Flash 的价格级距;2.5 Flash 的 output 价格明显更高;Gemini 3 系列则提供更新的模型生命周期,但 token 单价也会上升。
2. 替代模型快速比较
| 目前模型 | 默认替代 | 适合情境 |
|---|---|---|
gemini-2.0-flash-lite | gemini-2.5-flash-lite | 大量分类、资料抽取、路由、翻译、简单多模态任务。 |
gemini-2.0-flash | gemini-2.5-flash | 聊天、RAG、agent 工作流,以及需要 1M context window 的应用。 |
| 准备做第二次迁移 | gemini-3.1-flash-lite | 想转向较新的 Gemini 3 低价模型、且能接受较高 token 单价的团队。 |
Gemini 3 Flash Preview 和 Gemini 3.5 Flash 对多数 2.0 Flash 使用者来说不是「维持原成本」的替代品。只有当模型能力、grounding 或更新行为比账单稳定更重要时,才值得优先测试。
3. 价格差在哪里
下表使用 Google Gemini API 价格页 在 2026-05-24 查阅到的公开数字。除非特别说明,价格单位都是每 100 万文字 / 图片 / 影片 tokens 的美元价格。
| 模型 | Input | Output | Cached input |
|---|---|---|---|
| Gemini 2.0 Flash | $0.10 | $0.40 | $0.025 |
| Gemini 2.0 Flash-Lite | $0.075 | $0.30 | 不支持 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | $0.01 |
| Gemini 2.5 Flash | $0.30 | $2.50 | $0.03 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $0.025 |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $0.05 |
最大的变化在 output。2.0 Flash 换到 2.5 Flash 时,input 从 $0.10 到 $0.30,是 3 倍;output 从 $0.40 到 $2.50,是 6.25 倍。如果你的应用会输出长回答、解释文字或 agent 轨迹,这次迁移就不只是小版本升级。
Search grounding 也要分开看。2.5 Flash 系列沿用旧结构:付费层级每天 1,500 个 grounded prompts 免费,之后每 1,000 个 grounded prompts 收 $35。Gemini 3 系列则是所有 Gemini 3 模型共享每月免费额度,之后每 1,000 个 search queries 收 $14。一个 prompt 可能触发多次 search query,所以不要只看表面单价。
4. 依工作负载选模型
大量分类、资料抽取、内容审核、路由和翻译,先从 2.5 Flash-Lite 开始。它最接近 2.0 Flash-Lite,也能覆盖不少轻量 2.0 Flash 工作负载。
客服聊天和 RAG,先测 2.5 Flash。output 价格确实提高,但 1M context window 与 context caching 对长 system prompt、政策文件、检索片段反复使用的工作流很重要。
Agent 与工具调用工作流,2.5 Flash-Lite 和 2.5 Flash 都要测。真正的成本取决于模型重试次数、工具调用次数,以及是否产生很长的中间推理。Google 定价页标示 output 含 thinking tokens 的模型,账单可能比可见回答长度涨得更快。
Search-grounded 回答要把 token 成本和 grounding 成本拆开看。Gemini 3 系列的 search 单位价格看起来更低,但模型 token 价更高,且一次 prompt 可能产生多个 search queries。
5. 迁移检查清单
- 先在 staging 环境替换 model id,不要直接改 production。
- 重放真实 prompts,并记录 input tokens、output tokens、thinking tokens、cache hit 与工具调用。
- 用真实 input/output 比例估算月费,不要只看定价表。
- 检查是否依赖 preview 模型、rate limit 或 search grounding 行为。
- 在 2026-06-01 前至少并跑几天,再逐步切流量。
如果只想要一个默认答案:2.0 Flash-Lite 迁到 2.5 Flash-Lite;2.0 Flash 迁到 2.5 Flash 之前,先量 output 长度。如果 output 账单太高,先试 2.5 Flash-Lite,不要直接跳到 Gemini 3 模型。