MiniMax M3 专题:1M context、首周 $0.30/M,coding agent 价格战升级

MiniMax M3 把 1M context、原生多模态、coding agent benchmark、OpenRouter 路由与首周 50% API 折扣放在同一个产品里。它不是直接取代 Claude,而是在压低长任务 agent 的价格下限。

MiniMax 在 2026-06-01 发布了 MiniMax M3。重点不是「又一个新模型」,而是它把 1M tokens context window、原生文字/图片/视频理解、coding agent 定位,以及首周 API 折扣后的 $0.30/M input$1.20/M output 放在同一条产品线上。

这让 M3 很适合放进 DeepSeek、MiMo V2.5 之后的价格战脉络来看。它不一定能直接取代 Claude Code 或 Cursor 里常用的高价模型;更实际的问题是:M3 能不能成为长 context planning、代码库问答、批量 agent loop 和多模态开发工作流里的低价路由?

1. 为什么 M3 不只是发布新闻

MiniMax 的模型页把 M3 定位为 coding 与 agentic frontier model,基于 MiniMax Sparse Attention,最高支持 1M context,并保证至少 512K tokens。它也强调 M3 是原生多模态:文字、图片、视频都可以作为输入,而这个 text model 的输出仍然是文字。

这个组合重要,是因为 coding agent 的 token 消耗方式和聊天机器人完全不同。真正的 agent 会把 repo context、 指令、日志、diff、工具输出、截图和失败尝试都放进循环。一个模型如果短 prompt 很便宜,但长 prompt 很贵或不稳定, 对 agentic work 来说就不是真的便宜。

MiniMax 也把 M3 的叙事放在多步骤工作,而不是单轮补全。官方博客列出 SWE-Bench Pro、Terminal-Bench 2.1、 MCP Atlas、论文复现、CUDA kernel 优化等内部测试结果。这些数字可以引用,但要当作厂商公布 benchmark, 不能替代自己的 repo eval。

2. 价格很好,但分层很重要

价格上最容易看错的是:M3 对一般输入长度和超长输入长度分开计价。在 MiniMax pay-as-you-go 页面, 截至 2026-06-05,standard service tier 的 M3 是这样列的:

输入长度 Input Output Cache read 备注
≤512K input tokens $0.30/M $1.20/M $0.06/M 首 7 日 50% off;原价是 $0.60/$2.40/$0.12。
>512K input tokens $1.20/M $4.80/M $0.24/M 上线初期供应有限,主要面向超长 prompt。

OpenRouter 也把 MiniMax M3 标成 50% off,价格是 $0.30/M input、$1.20/M output,并列出 1M context。对已经用 aggregator routing 的团队来说很方便, 但真正跑量前仍要对照 MiniMax 官方 API 条款,因为折扣、cache 行为、长 context 限制可能不完全一样。

MiniMax 也在 M3 发布时更新 Token Plan:Plus $20/月、Max $50/月、Ultra $120/月。官方博客称三档大约对应 1.7B、5.1B、9.8B 的月度 M3 token 用量。对个人开发者和小团队来说,这可能比 API 表更重要;但前提是工具集成稳定, 而且 quota 规则真的符合你的工作方式。

3. 1M context 和多模态真正买到什么

1M context 不是让你每次都把整个 monorepo 塞进去。它真正买到的是:模型不必太早忘掉有用的工作状态。 好的 M3 测试案例应该是长但有结构的输入:repo map、设计文档、失败日志、选中的源代码、截图、API trace, 再加上清楚的目标任务。

原生多模态尤其适合跨越「代码」和「产品状态」的开发任务。例如:让 agent 看 UI 截图后找出相关 CSS, 对比生成图表和测试期望,或从产品 demo 的视频帧里整理 bug report。不要把这里的「multimodal」理解成图片或视频生成; M3 text model 的定位是文字输出,输入可以包含文字、图片和视频。

Cache 价格是另一个杠杆。Coding agent 经常重复发送同一份 repo summary、system prompt 和任务规则。 如果 cache hit 稳定,重复输入的成本会明显下降;如果 cache hit 率不好,标题价格就会低估真实账单。

4. M3 在 M2.5、M2.7 之后的位置

M2.5 和 M2.7 已经让 MiniMax 在低价 coding 与 agent 实验里变得有存在感。M3 的不同点在于 MiniMax 同时推三件事: 更强的 coding-agent benchmark、更大的 context 叙事、原生多模态输入。这更像新旗舰路线,而不是单纯小改版。

代价是 M3 不一定永远是最便宜的 MiniMax 路径。官方 API 页面仍然保留 M2.5 和 M2.7,一些高频、纯文字任务的 cache/read 经济性可能仍然有吸引力。如果你的任务只是简单抽取或分类,旧路线仍可能胜出;如果任务包含多步骤 repo 工作、长日志、截图或工具密集 planning,M3 才是优先测试的模型。

还有一个 open-weight 限制需要讲清楚。MiniMax 把 M3 称为 open-weight model,产品页也链接到 Hugging Face 和 GitHub。但截至本文撰写时,公开 GitHub repo 仍写着 M3 is coming,也没有发布 release。换句话说, self-hosting 可以先观察,但不要在权重和部署文档真正上线前,把它当成 production-ready 预算方案。

5. 能不能替代 Claude 的 coding 路由

更好的说法是「路由选择」,不是「替代」。Claude、GPT、Gemini、DeepSeek、MiMo、MiniMax 可以在同一个工程工作流里分工。 当失败成本很高,例如架构调整、安全敏感修改、高风险迁移或最终 review,premium model 仍然有价值。M3 更适合测试在成本、 context 和迭代次数占主导的环节。

工作负载 M3 适配度 原因
代码库问答与 planning 很值得测 长 context 和较低 input 成本比完美 edit quality 更重要。
批量重构草稿 值得测试 便宜迭代有帮助,但最终 diff 仍要测试和 review。
带截图的 UI bug triage 有潜力 原生图片输入可以把视觉状态接回源代码。
安全敏感的生产修改 谨慎使用 厂商 benchmark 不能替代本地 eval、规则检查和 review gate。

MiniMax 模型页明确列出 API integration、AI coding tools、MiniMax Code 和未来 local deployment 等路径。 但接第三方工具时,要确认具体协议支持:OpenAI-compatible、Anthropic-compatible、tool calling、streaming、 reasoning fields、patch application 都会影响 coding agent 的真实可用性。

6. 采用前检查清单

  1. 开跑前同时看 MiniMax API 与 OpenRouter 实时价格;首周折扣有时限。
  2. 把 ≤512K input 和 >512K input 的任务分开算,因为后者价格更高。
  3. 用真实 agent session 测 cache hit rate,不要只看一次性 prompt。
  4. 做一个小型内部 eval:代码库问答、一次重构、一个 failing test、一个截图驱动 bug。
  5. 高风险 patch 保留 premium model 最终 review 路由。
  6. M3 权重和部署文档真正发布前,不要把 self-hosting 当成已落地方案。

实用结论是:MiniMax M3 让「低价长 context coding agent」第一次像一个严肃采购品类。它不会让 Claude 或 GPT 从高风险工作里消失,但它给 exploration、planning、多模态 triage 和高频 agent loop 增加了一条新路线。