DeepSeek V4-Pro 与 Mimo V2.5 永久降价:LLM API 价格战真的开始了吗?

DeepSeek V4-Pro 把 75% 折扣变成正式价格,小米 Mimo V2.5 系列也宣布最高 99% 永久降价。这不是单一模型促销,而是 LLM API 成本下限被重新定义。

1. 一周内两次永久降价

2026 年 5 月底,LLM API 买家连续看到两个同方向信号。DeepSeek 的 官方 API 价格页写明: deepseek-v4-pro 在 75% 折扣促销于 2026-05-31 15:59 UTC 结束后,模型 API 价格会正式调整为原价的 1/4。接着小米 MiMo-V2.5 价格调整公告 宣布 MiMo-V2.5 系列 API 永久降价,最高降幅可达 99%,北京时间 2026-05-27 00:00 起生效。

重点不是某一家在做促销,而是两家中国模型团队把长 context、agent-ready 的 API 推到几乎同一价格带。这开始不像短期补贴,更像新的市场地板价。

2. 新价格下限是多少

下表优先使用官方 API 价格。价格单位都是每 100 万 tokens 美元价,查阅日期为 2026-05-28。

模型 Cache hit Input Output Context
DeepSeek V4-Flash$0.0028$0.14$0.281M
DeepSeek V4-Pro$0.003625$0.435$0.871M
MiMo-V2.5$0.0028$0.14$0.281M
MiMo-V2.5-Pro$0.0036$0.435$0.871M
GPT-5.5$0.50$5.00$30.00标准档低于 270K
Claude Opus 4.7$0.50$5.00$25.001M
Gemini 3 Flash Preview$0.05$0.50$3.001M

DeepSeek V4-Pro 和 MiMo-V2.5-Pro 的公开 API 价格几乎对齐:input 约 $0.435/M,output $0.87/M,cache-hit input 约三到四千分之一美元。这才是值得重新打开成本模型的地方。

3. Cache hit 才是真正的杀手锏

Output 价格最容易被讨论,但 cache-hit 价格才真正改变 agent 和长 context 工作流的经济模型。DeepSeek V4-Pro 的 cache-hit input 是 $0.003625/M,小米 MiMo-V2.5-Pro 是 $0.0036/M。如果你的应用反复发送同一个代码库、政策文件、system prompt 或对话前缀,被缓存的部分相对旗舰 API 几乎变成零成本。

小米公告也把原因指向推理系统优化:Sliding Window Attention、SGLang HiCache,以及减少 GPU memory、CPU memory、SSD 之间的 KV cache 传输。换句话说,它想传达的不是「限时补贴」,而是「长 prompt 服务成本真的下降了」。

4. 哪些工作负载该测

最适合先测试的是高量、可回滚的任务:批量抽取、文件分类、代码审查、日志分析、内部文件 QA、可以重试或升级处理的背景 agent。这些场景中,10 到 100 倍的 token 价差足以把每周批处理变成常驻基础设施。

但不要因为表格便宜就全量迁移。医疗、法律、金融、安全、客户面对面的高风险场景,仍然需要质量评估、资料保留审查、数据驻留确认和 fallback routing。便宜 token 降低的是实验成本,不是供应商风险。

5. 便宜之外的风险清单

  1. 比较第一方 API 与 aggregator 价格;中间路由商可能还没同步官方降价。
  2. 用真实 session 测 cache hit rate,不要只看合成 prompt。
  3. 确认 prompts、文件、日志和 telemetry 在哪里处理、保留多久。
  4. 自己评估长 context 召回、tool use、代码修改和拒答行为。
  5. 高风险任务保留 GPT、Claude 或 Gemini fallback,直到可靠性被证明。

结论很务实:价格战已经真实到足以改变你的 spreadsheet,但还不足以取代架构纪律。DeepSeek V4-Pro 和 MiMo-V2.5-Pro 应该被当成 multi-model routing 里的低成本通道,而不是所有高价模型的万能替代品。