2026 LLM API 性价比实测：用真实定价算出每种任务的最低成本

「最便宜」不等于「最划算」。本文用本站每日更新的真实定价与 Artificial Analysis 智能指数，先设一条 AA Index ≥ 40 的质量门槛，再依「每一美元买到多少智能」排序，找出各价位带的性价比王——并用三种典型用量算出实际月成本。

1. 为什么"最便宜"是错误的问题

每隔几个月，就会出现一个定价在 $0.01–$0.05 / 百万 input tokens 的超低价新模型，AI 圈立刻宣布"够用" 已经接近免费。问题是，这些模型几乎无一例外地落在 AA Intelligence Index 的底部区间——100 分满分里得 15 到 25 分——意味着它们在多步骤推理上容易掉链子、产出的摘要流于表面、会编造一个稍强的模型本不会犯的事实错误。你省了 $0.04 / 百万 tokens，却要花三倍代价在重跑、人工纠错和用户投诉上。

用我们当前数据集（408 个活跃模型）里的两个真实案例来说明。inclusionAI Ling-2.6-flash 定价 $0.01 / $0.03（input / output，每百万 tokens），几乎免费，AA Index 得 19.3。OpenAI 的 gpt-oss-120b 贵一些，$0.039 / $0.18，AA 得 23.8。两者都没过 25。在实践中，这两个模型都无法处理需要同时保持多个事实、或需要真正逻辑推理而非模式补全的任务。如果你的场景只是回答「营业时间是几点」这类问题，也许勉强够用。但凡涉及真正的知识工作，它们反而有害——以比人工审核更快的速度输出听起来像样实则错误的答案。

正确的提问方式不是"最便宜的模型"，而是"在我这个具体任务上能过最低质量门槛的最便宜模型"。门槛会随你做的东西不同而移动——轻量内容标签器需要的远比自主编程 agent 少——但底线始终存在。本文提议以 AA Intelligence Index ≥ 40 作为专业工作流的通用底线，然后告诉你哪些模型在这条线以上提供了最高的每美元智能量。

2. 设定质量门槛：AA Index ≥ 40

Artificial Analysis Intelligence Index（AA Index）是一个综合基准分数，由推理、编程、数学和指令执行等多项任务组成，归一化到 0–100。当前数据集 212 个已评分模型的最高分约为 60。其中只有约 6 个模型超过 50 分，约 22 个过了 40 分的门槛。这个 40 分的截止线不是随意设的：大致在这个位置，模型开始能稳定完成多步推理链、以每十条提示少于一次误解的频率跟随复杂指令、以及让生成的代码首次运行成功率超过一半。

低于 AA 40，你就踩进了生产力陷阱。一个 AA 25 的模型可能有 70% 的回答是对的——听起来还行，直到你意识到员工仍然必须审核每一条输出（自动化收益归零），而那 30% 的失败率并非随机分布（偏偏集中在最难、最高价值的任务上）。超过 AA 40 之后，每提升 5 分，在你查询分布硬尾部分的可靠性都有实质性的进步。

用高端参考模型来印证这一点。GPT-5.4 得 51.4 分，定价 $2.50 / $15.00。Claude Opus 4.8 得 55.7 分，定价 $5.00 / $25.00。Claude Fable 5 以 59.9 分领跑当前榜单，定价 $10.00 / $50.00。这些模型在复杂任务上无疑更强——但问题是，那边际的能力提升，相比门槛以上最优性价比模型，值不值得 5×–50× 的价格溢价？对大多数规模化运行的专业工作流来说，答案是不值。

3. 各价位区间的性价比冠军

下表列出了我们数据集中 AA Index ≥ 40 的所有模型，按 input 单价升序排列。"每美元智能量"是 AA 分与每百万 tokens 混合成本之比（权重 80% input / 20% output，近似典型 RAG 工作流）。低于 $0.50 input 的价位区间提供了目前最强的性价比。

模型	Input $/1M	Output $/1M	AA Index	备注
DeepSeek V4 Flash	$0.09	$0.18	40.3	数据集中每美元智能量最高
Xiaomi MiMo-V2.5	$0.14	$0.28	40.1	AA 略低于 Flash，价格却更高
MiniMax M3	$0.30	$1.20	44.4	1M token 上下文；中端最高 AA 分
DeepSeek V4 Pro	$0.435	$0.87	44.3	推理能力优于 V4 Flash
Xiaomi MiMo-V2.5-Pro	$0.435	$0.87	42.2	与 V4 Pro 同价位，AA 略低
MoonshotAI Kimi K2.6	$0.67	$3.50	42.8	output 价格偏高，适合 input 密集的 RAG
Z.ai GLM 5.1	$0.98	$3.08	40.2	相比更低价替代品性价比偏低
Z.ai GLM 5.2	$1.20	$4.20	51.1	$2 input 以下 AA 最高；接近高端品质
Qwen3.7 Max	$1.25	$3.75	46.0	推理能力强；$1–2 input 区间有竞争力
GPT-5.4（参考）	$2.50	$15.00	51.4	高端基准线
Claude Opus 4.8（参考）	$5.00	$25.00	55.7	高端基准线

两个模型明显胜出，适合作为注重性价比的团队首选。DeepSeek V4 Flash 以 $0.09 / $0.18 的定价，在整个数据集（限 AA ≥ 40）中实现了最高的每美元智能量。Z.ai GLM 5.2 以 $1.20 / $4.20 定价， AA 51.1 让它逼近 GPT-5.4 的能力，但 input 价格不到其一半——对于需要稳定高质量但不想全额支付高端价格的团队，是当前最具吸引力的选项。两者都值得在你的具体 benchmark 任务上跑一遍，再决定是否要选更贵的默认选项。

4. 根据任务类型匹配模型

没有单一模型在同等价位对所有任务类型都最优。正确的选择取决于你的工作流实际需要什么。轻量对话聊天 ——客服、FAQ 问答、基础写作——DeepSeek V4 Flash 是自然的起点。AA 40.3 对大多数指令执行任务已经足够，而且超低价格让你有余力一次生成多个版本、让用户或审核者挑选最好的。主要风险在边缘案例：不寻常的措辞、多语言混合查询、或者需要模型训练不足领域的专业知识的问题。

对于 RAG（检索增强生成）服务，关键变量转向上下文处理能力和输出的忠实度。MiniMax M3 在这里脱颖而出： 1M token 的上下文窗口是真正的差异化能力，能直接省掉整类分块和检索工程工作。以 $0.30 / $1.20 和 AA 44.4，它能处理全文档摄取任务，而同价位上下文更短的模型则需要复杂的预处理。Kimi K2.6 也值得评估，但 $3.50 的 output 价格在答案较长时代价不菲——先量清楚你的实际 output/input 比例。

编程和长程自主 agent 是质量门槛最重要的使用场景。一个中途无声失败、输出看起来合理实则有问题的 agent，比没有自动化更糟糕。对编程而言，AA Index 的编程子分数（可在对比工具中查询）比综合分更重要。 Z.ai GLM 5.2 和 Qwen3.7 Max 在各自价位上展示了强劲的编程表现；DeepSeek V4 Pro 是 $0.50 input 以下最适合多步 agent 循环（需要长程连贯性）的选项。只有当你在实际代码库上做基准测试、发现低价模型在你具体需要的任务模式上失败时，再考虑升级到 GPT-5.4 或 Claude Opus 4.8。

5. 真实月费：三种工作流实算

抽象的每 token 价格比较掩盖了真实的业务成本。下表展示三种典型工作流在四个模型上的月度 API 账单：最强性价比模型（DeepSeek V4 Flash）、最佳中端选项（MiniMax M3），以及两个最常见的高端默认选项（GPT-5.4、Claude Opus 4.8）。所有费用单位为美元。

工作流	DeepSeek V4 Flash	MiniMax M3	GPT-5.4	Claude Opus 4.8
A：轻量聊天机器人 5M in + 1M out / 月	$0.63	$2.70	$27.50	$50.00
B：RAG 服务 100M in + 5M out / 月	$9.90	$36.00	$325.00	$625.00
C：编程 agent 500M in + 50M out / 月	$54.00	$210.00	$2,000.00	$3,750.00

规模化之后，差距触目惊心。在工作流 C 的吞吐量下，从 Claude Opus 4.8 换到 DeepSeek V4 Flash，每月节省 $3,696——近乎每年 $44,000——而能力下降在大多数真实任务上可能完全察觉不到。即便只是从 GPT-5.4 换到 MiniMax M3，在该体量下每月也节省 $1,790。以数据驱动的模型选型，商业价值不是边际的——它可能是一个 AI 功能盈亏的分水岭。

两个重要说明。第一，以上数字假设你支付的是标准定价，不含缓存、批量折扣或 Batch API 价格。光是 prompt caching，对于系统提示稳定的工作流就能把 input 成本砍掉 75–90%——完全重塑这张对比表。第二，表中的 token 数量是示意性的；你实际的 input/output 比例取决于你的提示设计。 95% input + 5% output 的 RAG 系统与生成密集型管线非常不同。正式决策前，请用费用计算器填入你的真实数字。

6. 如何用本站排行榜做决策

本站的最高性价比排行默认应用了 AA ≥ 40 的门槛，并按每美元智能量降序排列符合条件的模型——这是最接近你真正想问的那个问题的单一数字： "在我的 token 用量下，我能负担得起的最聪明的模型是什么？"这个排行是你的起始名单，不是终答案。正确的工作流是：（1）锁定价格区间内的两三个模型，（2）用对比工具把你的真实任务提示跑过一遍，（3）不只看通过/失败，还要看输出质量分布，（4）用计算器按预计体量算全包月费，（5）选最便宜的、在提示分布硬尾上能通过你质量门槛的那个模型。

最强模型排行作为参考点很有用：它告诉你选择不用高端档需要放弃什么。如果头对头测试显示最优性价比模型在超过 5–10% 的真实提示上失败，而那些失败后果严重（面向用户的错误、发布了有 bug 的代码），升级到高端档的成本几乎肯定值得。本站数据存在的意义就是让这个权衡变得可以用真实数字衡量，而不是凭直觉。

最后一点值得强调：竞争格局变化很快。DeepSeek V4 Flash 一年前根本不在任何性价比短名单上。来自中国实验室的新模型正在以激进的定价持续进入市场，并快速缩小能力差距。本站的 AA Index 分数和价格每天从 408 个活跃模型的实时 API 数据更新——每次重要的采购决策之前都应该回来查一遍，三个月前的最优性价比选择往往已经过时。

本文由 Allen Pan 撰写。如有勘误或想交流，欢迎来信 allen@xyzsleep.com.