Gemini 2.0 Flash 即将关闭：2026 年替代模型与 API 价格比较

Google 已标示 Gemini 2.0 Flash 与 2.0 Flash-Lite 将在 2026-06-01 停止服务。本文比较 2.5 Flash-Lite、2.5 Flash、Gemini 3 Flash 与 3.1 Flash-Lite 的价格与迁移选择。

1. 为什么现在要处理

Google 的 Gemini 淘汰项目页面已经把 gemini-2.0-flash 和 gemini-2.0-flash-lite 的停用日期列为 2026-06-01。这不是普通的版本提醒；模型关闭后，端点就不能继续使用。生产环境如果还在调用 2.0 Flash 系列，最好在停用前完成迁移，而不是等错误日志出现。

纸面上的迁移路径很直接：2.0 Flash 换到 2.5 Flash，2.0 Flash-Lite 换到 2.5 Flash-Lite。但成本并不只是换个 model id。2.5 Flash-Lite 大致保留旧 Flash 的价格级距；2.5 Flash 的 output 价格明显更高；Gemini 3 系列则提供更新的模型生命周期，但 token 单价也会上升。

2. 替代模型快速比较

目前模型	默认替代	适合情境
`gemini-2.0-flash-lite`	`gemini-2.5-flash-lite`	大量分类、资料抽取、路由、翻译、简单多模态任务。
`gemini-2.0-flash`	`gemini-2.5-flash`	聊天、RAG、agent 工作流，以及需要 1M context window 的应用。
准备做第二次迁移	`gemini-3.1-flash-lite`	想转向较新的 Gemini 3 低价模型、且能接受较高 token 单价的团队。

Gemini 3 Flash Preview 和 Gemini 3.5 Flash 对多数 2.0 Flash 使用者来说不是「维持原成本」的替代品。只有当模型能力、grounding 或更新行为比账单稳定更重要时，才值得优先测试。

3. 价格差在哪里

下表使用 Google Gemini API 价格页在 2026-05-24 查阅到的公开数字。除非特别说明，价格单位都是每 100 万文字 / 图片 / 影片 tokens 的美元价格。

模型	Input	Output	Cached input
Gemini 2.0 Flash	$0.10	$0.40	$0.025
Gemini 2.0 Flash-Lite	$0.075	$0.30	不支持
Gemini 2.5 Flash-Lite	$0.10	$0.40	$0.01
Gemini 2.5 Flash	$0.30	$2.50	$0.03
Gemini 3.1 Flash-Lite	$0.25	$1.50	$0.025
Gemini 3 Flash Preview	$0.50	$3.00	$0.05

最大的变化在 output。2.0 Flash 换到 2.5 Flash 时，input 从 $0.10 到 $0.30，是 3 倍；output 从 $0.40 到 $2.50，是 6.25 倍。如果你的应用会输出长回答、解释文字或 agent 轨迹，这次迁移就不只是小版本升级。

Search grounding 也要分开看。2.5 Flash 系列沿用旧结构：付费层级每天 1,500 个 grounded prompts 免费，之后每 1,000 个 grounded prompts 收 $35。Gemini 3 系列则是所有 Gemini 3 模型共享每月免费额度，之后每 1,000 个 search queries 收 $14。一个 prompt 可能触发多次 search query，所以不要只看表面单价。

4. 依工作负载选模型

大量分类、资料抽取、内容审核、路由和翻译，先从 2.5 Flash-Lite 开始。它最接近 2.0 Flash-Lite，也能覆盖不少轻量 2.0 Flash 工作负载。

客服聊天和 RAG，先测 2.5 Flash。output 价格确实提高，但 1M context window 与 context caching 对长 system prompt、政策文件、检索片段反复使用的工作流很重要。

Agent 与工具调用工作流，2.5 Flash-Lite 和 2.5 Flash 都要测。真正的成本取决于模型重试次数、工具调用次数，以及是否产生很长的中间推理。Google 定价页标示 output 含 thinking tokens 的模型，账单可能比可见回答长度涨得更快。

Search-grounded 回答要把 token 成本和 grounding 成本拆开看。Gemini 3 系列的 search 单位价格看起来更低，但模型 token 价更高，且一次 prompt 可能产生多个 search queries。

5. 迁移检查清单

先在 staging 环境替换 model id，不要直接改 production。
重放真实 prompts，并记录 input tokens、output tokens、thinking tokens、cache hit 与工具调用。
用真实 input/output 比例估算月费，不要只看定价表。
检查是否依赖 preview 模型、rate limit 或 search grounding 行为。
在 2026-06-01 前至少并跑几天，再逐步切流量。

如果只想要一个默认答案：2.0 Flash-Lite 迁到 2.5 Flash-Lite；2.0 Flash 迁到 2.5 Flash 之前，先量 output 长度。如果 output 账单太高，先试 2.5 Flash-Lite，不要直接跳到 Gemini 3 模型。

本文由 Allen Pan 撰写。如有勘误或想交流，欢迎来信 allen@xyzsleep.com。

1. 为什么现在要处理

2. 替代模型快速比较

3. 价格差在哪里

4. 依工作负载选模型

5. 迁移检查清单

延伸阅读