Gemini 2.0 Flash 即將關閉:2026 年替代模型與 API 價格比較

Google 已標示 Gemini 2.0 Flash 與 2.0 Flash-Lite 將在 2026-06-01 停止服務。本文比較 2.5 Flash-Lite、2.5 Flash、Gemini 3 Flash 與 3.1 Flash-Lite 的價格與遷移選擇。

1. 為什麼現在要處理

Google 的 Gemini 淘汰項目頁面 已經把 gemini-2.0-flashgemini-2.0-flash-lite 的停用日期列為 2026-06-01。這不是普通的版本提醒;模型關閉後,端點就不能繼續使用。生產環境如果還在呼叫 2.0 Flash 系列,最好在停用前完成遷移,而不是等錯誤日誌出現。

紙面上的遷移路徑很直接:2.0 Flash 換到 2.5 Flash,2.0 Flash-Lite 換到 2.5 Flash-Lite。但成本並不只是換個 model id。2.5 Flash-Lite 大致保留舊 Flash 的價格級距;2.5 Flash 的 output 價格明顯更高;Gemini 3 系列則提供更新的模型生命週期,但 token 單價也會上升。

2. 替代模型快速比較

目前模型 預設替代 適合情境
gemini-2.0-flash-lite gemini-2.5-flash-lite 大量分類、資料抽取、路由、翻譯、簡單多模態任務。
gemini-2.0-flash gemini-2.5-flash 聊天、RAG、agent 工作流,以及需要 1M context window 的應用。
準備做第二次遷移 gemini-3.1-flash-lite 想轉向較新的 Gemini 3 低價模型、且能接受較高 token 單價的團隊。

Gemini 3 Flash Preview 和 Gemini 3.5 Flash 對多數 2.0 Flash 使用者來說不是「維持原成本」的替代品。只有當模型能力、grounding 或更新行為比帳單穩定更重要時,才值得優先測試。

3. 價格差在哪裡

下表使用 Google Gemini API 定價頁 在 2026-05-24 查閱到的公開數字。除非特別說明,價格單位都是每 100 萬文字 / 圖片 / 影片 tokens 的美元價格。

模型 Input Output Cached input
Gemini 2.0 Flash $0.10 $0.40 $0.025
Gemini 2.0 Flash-Lite $0.075 $0.30 不支援
Gemini 2.5 Flash-Lite $0.10 $0.40 $0.01
Gemini 2.5 Flash $0.30 $2.50 $0.03
Gemini 3.1 Flash-Lite $0.25 $1.50 $0.025
Gemini 3 Flash Preview $0.50 $3.00 $0.05

最大的變化在 output。2.0 Flash 換到 2.5 Flash 時,input 從 $0.10 到 $0.30,是 3 倍;output 從 $0.40 到 $2.50,是 6.25 倍。如果你的應用會輸出長回答、解釋文字或 agent 軌跡,這次遷移就不只是小版本升級。

Search grounding 也要分開看。2.5 Flash 系列沿用舊結構:付費層級每天 1,500 個 grounded prompts 免費,之後每 1,000 個 grounded prompts 收 $35。Gemini 3 系列則是所有 Gemini 3 模型共享每月免費額度,之後每 1,000 個 search queries 收 $14。一個 prompt 可能觸發多次 search query,所以不要只看表面單價。

4. 依工作負載選模型

大量分類、資料抽取、內容審核、路由和翻譯,先從 2.5 Flash-Lite 開始。它最接近 2.0 Flash-Lite,也能覆蓋不少輕量 2.0 Flash 工作負載。

客服聊天和 RAG,先測 2.5 Flash。output 價格確實提高,但 1M context window 與 context caching 對長 system prompt、政策文件、檢索片段反覆使用的工作流很重要。

Agent 與工具呼叫工作流,2.5 Flash-Lite 和 2.5 Flash 都要測。真正的成本取決於模型重試次數、工具呼叫次數,以及是否產生很長的中間推理。Google 定價頁標示 output 含 thinking tokens 的模型,帳單可能比可見回答長度漲得更快。

Search-grounded 回答要把 token 成本和 grounding 成本拆開看。Gemini 3 系列的 search 單位價格看起來更低,但模型 token 價更高,且一次 prompt 可能產生多個 search queries。

5. 遷移檢查清單

  1. 先在 staging 環境替換 model id,不要直接改 production。
  2. 重放真實 prompts,並記錄 input tokens、output tokens、thinking tokens、cache hit 與工具呼叫。
  3. 用真實 input/output 比例估算月費,不要只看定價表。
  4. 檢查是否依賴 preview 模型、rate limit 或 search grounding 行為。
  5. 在 2026-06-01 前至少並跑幾天,再逐步切流量。

如果只想要一個預設答案:2.0 Flash-Lite 遷到 2.5 Flash-Lite;2.0 Flash 遷到 2.5 Flash 之前,先量 output 長度。如果 output 帳單太高,先試 2.5 Flash-Lite,不要直接跳到 Gemini 3 模型。