开放权重性价比之王怎么选：DeepSeek V4、MiniMax M3、Kimi K2.6、GLM 5.2 实战比较

2026 年最划算的模型几乎全是开放权重，而且多半来自中国团队。DeepSeek V4 Flash（$0.09、AA 40）、MiniMax M3（$0.30、AA 44、1M context）、Kimi K2.6（agentic 强）、GLM 5.2（$1.2、AA 51、coding 68.8）各有定位。本文用真实定价与 coding／agentic 指数把四强放进同一张价格–能力定位图，告诉你哪个场景该选哪一个。

1. 开放权重模型为何在 2026 年拿下性价比赛道

两年前，LLM 市场有一个隐含的交易：花更多，得到更好的。前沿能力由 OpenAI 和 Anthropic 掌控，任何开放权重的替代品都带着明显的能力妥协，需要你自己说服自己接受。这个交易现在已经不成立了——至少在性价比赛道上是这样。

转变发生得很快，几乎全部来自中国团队。DeepSeek 的 V4 架构证明了大规模 Mixture-of-Experts 训练可以用极低的计算成本达到接近前沿的质量。论文一出，所有认真的团队要么复制这一技术，要么落后。MiniMax、Moonshot AI、智谱 AI（GLM 背后的团队）以及小米，都在同一个六个月窗口期内推出了有竞争力的模型。结果是：到 2026 年中，如果你按照本站的性价比排行用每美元智能分数排序，顶端几乎全是中国团队的开放权重模型。

"开放权重"在这里意味着模型权重可下载、可自部署。但实际上，大多数开发者仍然通过 API 端点消费这些模型——无论是团队自己的云服务还是 OpenRouter 这样的路由层——因为在持续高吞吐量以下自托管的运维成本依然很高。开放权重标签最重要的意义是价格信号：这些团队不需要通过利润率来回收一亿美元的训练成本，所以 API 定价比美国闭源提供商能承受的更激进。

作为参照：GPT-5.4 的价格是 $2.50/$15（每 1M tokens 输入/输出），Artificial Analysis 智能指数（AA）51.4。Claude Opus 4.8 是 $5/$25，AA 55.7。我们这次分析的开放权重模型，以 5–30 倍更低的价格达到了这些模型 70–95% 的能力分数。这个差距不是噪声——这是 2026 年 API 市场的核心事实。

2. 四位竞争者逐一解析

这四个模型并不在每一个维度上正面竞争。每一个都在自己的细分领域站稳了脚跟，理解这些细分定位是做正确选择的第一步。

DeepSeek V4 Flash（$0.09/$0.18，AA 40.3，1M context）是本站最便宜的"真的能用"模型。AA 40.3 分明显低于本组其他选手，但它不是玩具。对于分类、结构化提取、简单问答、RAG 检索，以及任何需要跑几百万次请求、成本是硬约束的工作流，V4 Flash 是明显的起点。$0.09 的 input 价格极低，即使质量中等，规模上的性价比依然无可匹敌。

DeepSeek V4 Pro（$0.435/$0.87，AA 44.3，coding 47.5，1M context）是中端档位。AA 分数比 Flash 高约 10%，编程指数 47.5，价格仍然比 GPT-5.4 低 80–90%。当你在自己的工作流上压测 Flash 后发现质量差距确实存在时，V4 Pro 是最自然的升级选项——尤其对于多跳推理、结构化代码生成，或者输出质量直接决定下游价值的任务。

MiniMax M3（$0.30/$1.20，AA 44.4，coding 43.4，1M context）是本次比较中被低估的选手。尽管 input 价格比 V4 Pro 低 30%，AA 分数却几乎持平。编程指数略低于 V4 Pro（43.4 vs 47.5），但真正的 1M context 窗口、扎实的通用能力和这个价格组合在一起，使它成为长 context 工作流的默认推荐——文档分析、大型代码库问答、长文摘要链——每次调用塞很多 token 但账单不会失控。

智谱 Z.ai GLM 5.2（$1.20/$4.20，AA 51.1，coding 68.8，1M context）是本组能力最强的选手。AA 51.1 分已经逼近 GPT-5.4（51.4）——基本上是同一个通用智能档位。但最引人注目的是编程指数：68.8，不仅是本组最高，更超过大多数美国旗舰模型。如果编程质量是你工作流的核心轴，GLM 5.2 以 $1.20/$4.20 对阵 GPT-5.4 的 $2.50/$15，是真正颠覆性的选择。

月之暗面 Kimi K2.6（$0.67/$3.50，AA 42.8，coding 47.1，262K context）占据了一个不同类型的细分市场。AA 分数是本组除 Flash 外最低的，但 Kimi 的架构和训练专门针对智能体工作流进行了调优——多步任务执行、工具调用、浏览器自动化。Moonshot 还提供了Kimi K2.7 Code（$0.74/$3.50，coding 45.6），适合编程质量比智能体广度更重要的场景。262K context 窗口是唯一的硬约束；如果你的任务放得进去，在选择更昂贵的替代品之前，Kimi 值得在智能体流水线上测试一下。

3. 价格与能力定位图

下表把所有六个模型放在同一坐标轴上。"输入"和"输出"是每 1M tokens 的美元价格。"AA"是 Artificial Analysis 智能指数（0–100 分，当前最高约 60 分）。"Cod"是 AA 编程指数。"Ctx"是最大 context 窗口。两个美国高端模型在表底作为参照点。

模型	输入 $/M	输出 $/M	AA	Cod	Ctx
DeepSeek V4 Flash	$0.09	$0.18	40.3	—	1M
小米 MiMo-V2.5	$0.14	$0.28	40.1	42.1	1M
MiniMax M3	$0.30	$1.20	44.4	43.4	1M
DeepSeek V4 Pro	$0.435	$0.87	44.3	47.5	1M
Kimi K2.6	$0.67	$3.50	42.8	47.1	262K
Kimi K2.7 Code	$0.74	$3.50	—	45.6	262K
智谱 GLM 5.2	$1.20	$4.20	51.1	68.8	1M
Qwen3.7 Max	$1.25	$3.75	46.0	50.1	1M
GPT-5.4（参照）	$2.50	$15.00	51.4	—	—
Claude Opus 4.8（参照）	$5.00	$25.00	55.7	—	—

这张表有两个值得关注的地方。第一，MiniMax M3 和 DeepSeek V4 Pro 的 AA 分数几乎一样（44.4 vs 44.3），但 M3 的 input 价格低 30%。output 定价方向相反——M3 的 $1.20 output 比 V4 Pro 的 $0.87 高 38%——所以谁赢取决于你的输入/输出比例。如果你的工作流是长 context 读取加短回答（RAG、摘要），M3 胜出；如果是短 prompt 生成长输出（代码生成、草稿撰写），V4 Pro 胜出。

第二，GLM 5.2 以 $1.20 input 价格交付 AA 51.1——基本上和 $2.50 input 的 GPT-5.4 一样的通用智能，而且 output 价格差异更大（$4.20 vs $15）。对于 API 工作流，唯一值得考虑用 GPT-5.4 而不用 GLM 5.2 的情况，是你有 OpenAI 合规、特定工具调用行为或不支持非 OpenAI 端点的生态系统集成等硬性要求。能力本身不是理由。

4. 编程 vs 智能体：谁赢哪个任务

AA 编程指数衡量编程基准测试的表现：代码补全、调试、算法实现、测试生成。高编程分不自动预测智能体表现——编排多步计划、可靠使用工具、从错误中恢复的能力是不同的技能，与原始代码质量可能有很大差异。

纯编程任务——自动补全、代码审查、测试生成、独立文件中的错误修复——GLM 5.2 的编程指数 68.8 是最清晰的信号。这个分数不只是本组最高，还高于 Qwen3.7 Max（50.1）、两个 Kimi 变体（47.1/45.6）和 V4 Pro（47.5）。如果生成代码的质量是最重要的，GLM 5.2 即便在溢价价格下也是答案——因为你仍然只付 GPT-5.4 约一半的 input 价格和 28% 的 output 价格。用费用计算器可以量化你每月 token 用量下具体能省多少。

智能体工作流——浏览器自动化、多步研究流水线、工具调用链、自主任务执行——情况更微妙。Kimi K2.6 的架构专门针对这种模式进行了调优。AA 42.8 孤立来看并不出彩，但 Moonshot 发布的基准测试结果显示，它在智能体相关任务上表现突出：执行长指令链、从工具错误中恢复、在多轮对话中维护状态。如果你在构建需要通过工具接口与外部系统交互的智能体，即使 Kimi 的通用智能分数看起来平平，也值得先做基准测试。

Qwen3.7 Max（$1.25/$3.75，AA 46.0，coding 50.1）在编程任务上是 GLM 5.2 的替代选项。编程指数比 GLM 5.2 低 27%——差距显著——但对很多实际工作流仍然够用，且 input 价格几乎一样（$1.25 vs $1.20）。两者之间的决定因素几乎总是：编程指数是否比通用智能更重要。GLM 5.2 在 AA 和编程两个维度同时领先，如果预算不是约束条件，它是主导选择。

小米 MiMo-V2.5（$0.14/$0.28，AA 40.1，coding 42.1）以极低预算的编程辅助任务选手身份收尾。编程指数与 GLM 或 Kimi 相比没有竞争力，但对于极高量的代码相关任务——lint 建议、样板代码生成、正则表达式构造——在默认选择 DeepSeek V4 Flash 之前值得看一眼。

5. 上下文窗口与部署弹性

本组除 Kimi K2.6 和 K2.7 Code 之外的所有模型都配备了 1M token 上下文窗口。这足以放入完整的代码库、很长的文档语料库，或扩展的对话历史，无需分块。Kimi 的 262K 窗口按历史标准依然慷慨，但对于 1M 真正重要的那类工作流（大型代码库理解、全书分析），这确实成为硬约束。

API 访问方面：所有六个模型都可通过各团队自己的 API 获取，大多数也可通过 OpenRouter 路由。本站的对比工具可以让你把任意两个模型并排对比，看实时定价。延迟因提供商地区、流量负载和模型量化而异——在固定某个端点之前，用你自己的工作流做基准测试。

自托管方面：DeepSeek V4 变体的权重和部分 GLM 版本是公开可下载的。自托管的盈亏平衡点大约在每天持续吞吐量 5,000 万到 1 亿 tokens；低于这个量，GPU 集群成本（硬件摊销、电力、运维人力）就会超过这些模型的 API 费用。大多数低于这个量的团队应该继续用托管 API。模型更新、量化决策和正常运行时间管理的运维负担是真实成本，很少出现在简单的估算中。

MiniMax M3 的权重分发不像 DeepSeek 那么广泛，更偏向 API 优先。Kimi K2.6 目前仅提供 API 访问。GLM 5.2 同时提供托管 API 和权重下载，但为消费级硬件提供的量化版本相比托管版本有可测量的质量下降。

6. 结论：按场景选模型

与其宣布单一赢家——那样做是错误的，因为这些模型确实适合不同的使用场景——不如给出一个决策树。用性价比排行和计算器核对你具体 token 用量下的数字。

最低成本、够用质量（分类、提取、规模化 RAG 检索）：从 DeepSeek V4 Flash 的 $0.09/$0.18 开始。它是本站最便宜且生产可用的模型。如果 Flash 不通过你的质量测试，在考虑 V4 Pro 之前先试 MiniMax M3——你以相近或更低的价格（取决于输入/输出比）获得明显更高的 AA 分数。

长上下文工作流（文档分析、大型代码库问答、全书摘要）：MiniMax M3（$0.30/$1.20）。真正的 1M context，AA 44.4，价格低到即使每次调用 50 万 token 账单也不会失控。如果每次调用都需要完整的 1M 窗口，而输出质量比成本更重要，GLM 5.2 是升级选项。

编程质量是首要轴：GLM 5.2（$1.20/$4.20，coding 68.8）。本组没有其他开放权重替代品在编程基准上接近它。以约 GPT-5.4 一半的 input 价格和 28% 的 output 价格，性价比案例不言而喻。

智能体流水线和多步工具使用：如果你的 context 放得进 262K，首选 Kimi K2.6（$0.67/$3.50）做测试。如果智能体 context 需要 1M 窗口，MiniMax M3 是在跳到 GLM 5.2 之前的下一个选项。

什么时候才值得付美国旗舰模型的价格：GLM 5.2（AA 51.1）和 GPT-5.4（AA 51.4）之间的能力差距基本上是误差范围。Claude Opus 4.8 的 AA 55.7 是真实的差距——大约高 8–9% 的通用智能。如果你的任务真的需要那最后 8%，而且你已经在自己的评测集上验证过，那就付钱买它。否则，开放权重性价比赛道赢了。

本文由 Allen Pan 撰写。如有勘误或想交流，欢迎来信 allen@xyzsleep.com。