DeepSeek V4-Pro 與 Mimo V2.5 永久降價:LLM API 價格戰真的開始了嗎?

DeepSeek V4-Pro 把 75% 折扣變成正式價格,小米 Mimo V2.5 系列也宣布最高 99% 永久降價。這不是單一模型促銷,而是 LLM API 成本下限被重新定義。

1. 一週內兩次永久降價

2026 年 5 月底,LLM API 買家連續看到兩個同方向訊號。DeepSeek 的 官方 API 價格頁寫明: deepseek-v4-pro 在 75% 折扣促銷於 2026-05-31 15:59 UTC 結束後,模型 API 價格會正式調整為原價的 1/4。接著小米 MiMo-V2.5 價格調整公告 宣布 MiMo-V2.5 系列 API 永久降價,最高降幅可達 99%,北京時間 2026-05-27 00:00 起生效。

重點不是某一家在做促銷,而是兩家中國模型團隊把長 context、agent-ready 的 API 推到幾乎同一價格帶。這開始不像短期補貼,更像新的市場地板價。

2. 新價格下限是多少

下表優先使用官方 API 價格。價格單位都是每 100 萬 tokens 美元價,查閱日期為 2026-05-28。

模型 Cache hit Input Output Context
DeepSeek V4-Flash$0.0028$0.14$0.281M
DeepSeek V4-Pro$0.003625$0.435$0.871M
MiMo-V2.5$0.0028$0.14$0.281M
MiMo-V2.5-Pro$0.0036$0.435$0.871M
GPT-5.5$0.50$5.00$30.00標準檔低於 270K
Claude Opus 4.7$0.50$5.00$25.001M
Gemini 3 Flash Preview$0.05$0.50$3.001M

DeepSeek V4-Pro 和 MiMo-V2.5-Pro 的公開 API 價格幾乎對齊:input 約 $0.435/M,output $0.87/M,cache-hit input 約三到四千分之一美元。這才是值得重新打開成本模型的地方。

3. Cache hit 才是真正的殺手鐧

Output 價格最容易被討論,但 cache-hit 價格才真正改變 agent 和長 context 工作流的經濟模型。DeepSeek V4-Pro 的 cache-hit input 是 $0.003625/M,小米 MiMo-V2.5-Pro 是 $0.0036/M。如果你的應用反覆送同一個程式碼庫、政策文件、system prompt 或對話前綴,被快取的部分相對旗艦 API 幾乎變成零成本。

小米公告也把原因指向推理系統優化:Sliding Window Attention、SGLang HiCache,以及減少 GPU memory、CPU memory、SSD 之間的 KV cache 傳輸。換句話說,它想傳達的不是「限時補貼」,而是「長 prompt 服務成本真的下降了」。

4. 哪些工作負載該測

最適合先測試的是高量、可回滾的任務:批次抽取、文件分類、程式碼審查、日誌分析、內部文件 QA、可以重試或升級處理的背景 agent。這些場景中,10 到 100 倍的 token 價差足以把每週批次處理變成常駐基礎設施。

但不要因為表格便宜就全量遷移。醫療、法律、金融、安全、客戶面對面的高風險場景,仍然需要品質評估、資料保留審查、資料落地確認和 fallback routing。便宜 token 降低的是實驗成本,不是供應商風險。

5. 便宜之外的風險清單

  1. 比較第一方 API 與 aggregator 價格;中間路由商可能還沒同步官方降價。
  2. 用真實 session 測 cache hit rate,不要只看合成 prompt。
  3. 確認 prompts、檔案、日誌和 telemetry 在哪裡處理、保留多久。
  4. 自己評估長 context 召回、tool use、程式碼修改和拒答行為。
  5. 高風險任務保留 GPT、Claude 或 Gemini fallback,直到可靠性被證明。

結論很務實:價格戰已經真實到足以改變你的 spreadsheet,但還不足以取代架構紀律。DeepSeek V4-Pro 和 MiMo-V2.5-Pro 應該被當成 multi-model routing 裡的低成本通道,而不是所有高價模型的萬能替代品。