2026 LLM API 性价比实测:用真实定价算出每种任务的最低成本

「最便宜」不等于「最划算」。本文用本站每日更新的真实定价与 Artificial Analysis 智能指数,先设一条 AA Index ≥ 40 的质量门槛,再依「每一美元买到多少智能」排序,找出各价位带的性价比王——并用三种典型用量算出实际月成本。

1. 为什么"最便宜"是错误的问题

每隔几个月,就会出现一个定价在 $0.01–$0.05 / 百万 input tokens 的超低价新模型,AI 圈立刻宣布"够用" 已经接近免费。问题是,这些模型几乎无一例外地落在 AA Intelligence Index 的底部区间——100 分满分里得 15 到 25 分——意味着它们在多步骤推理上容易掉链子、产出的摘要流于表面、会编造一个稍强的模型本不会犯的 事实错误。你省了 $0.04 / 百万 tokens,却要花三倍代价在重跑、人工纠错和用户投诉上。

用我们当前数据集(408 个活跃模型)里的两个真实案例来说明。inclusionAI Ling-2.6-flash 定价 $0.01 / $0.03(input / output,每百万 tokens),几乎免费,AA Index 得 19.3。OpenAI 的 gpt-oss-120b 贵一些,$0.039 / $0.18,AA 得 23.8。两者都没过 25。在实践中,这两个模型都无法 处理需要同时保持多个事实、或需要真正逻辑推理而非模式补全的任务。如果你的场景只是回答「营业时间是几点」 这类问题,也许勉强够用。但凡涉及真正的知识工作,它们反而有害——以比人工审核更快的速度输出听起来像样 实则错误的答案。

正确的提问方式不是"最便宜的模型",而是"在我这个具体任务上能过最低质量门槛的最便宜模型"。门槛会随 你做的东西不同而移动——轻量内容标签器需要的远比自主编程 agent 少——但底线始终存在。本文提议以 AA Intelligence Index ≥ 40 作为专业工作流的通用底线,然后告诉你哪些模型在这条线以上提供了最高的 每美元智能量。

2. 设定质量门槛:AA Index ≥ 40

Artificial Analysis Intelligence Index(AA Index)是一个综合基准分数,由推理、编程、数学和 指令执行等多项任务组成,归一化到 0–100。当前数据集 212 个已评分模型的最高分约为 60。其中只有约 6 个模型超过 50 分,约 22 个过了 40 分的门槛。这个 40 分的截止线不是随意设的:大致在这个位置, 模型开始能稳定完成多步推理链、以每十条提示少于一次误解的频率跟随复杂指令、以及让生成的代码首次 运行成功率超过一半。

低于 AA 40,你就踩进了生产力陷阱。一个 AA 25 的模型可能有 70% 的回答是对的——听起来还行,直到 你意识到员工仍然必须审核每一条输出(自动化收益归零),而那 30% 的失败率并非随机分布 (偏偏集中在最难、最高价值的任务上)。超过 AA 40 之后,每提升 5 分,在你查询分布硬尾部分的 可靠性都有实质性的进步。

用高端参考模型来印证这一点。GPT-5.4 得 51.4 分,定价 $2.50 / $15.00。Claude Opus 4.8 得 55.7 分,定价 $5.00 / $25.00。Claude Fable 5 以 59.9 分领跑当前榜单,定价 $10.00 / $50.00。 这些模型在复杂任务上无疑更强——但问题是,那边际的能力提升,相比门槛以上最优性价比模型,值不值得 5×–50× 的价格溢价?对大多数规模化运行的专业工作流来说,答案是不值。

3. 各价位区间的性价比冠军

下表列出了我们数据集中 AA Index ≥ 40 的所有模型,按 input 单价升序排列。"每美元智能量"是 AA 分与每百万 tokens 混合成本之比(权重 80% input / 20% output,近似典型 RAG 工作流)。 低于 $0.50 input 的价位区间提供了目前最强的性价比。

模型 Input $/1M Output $/1M AA Index 备注
DeepSeek V4 Flash $0.09 $0.18 40.3 数据集中每美元智能量最高
Xiaomi MiMo-V2.5 $0.14 $0.28 40.1 AA 略低于 Flash,价格却更高
MiniMax M3 $0.30 $1.20 44.4 1M token 上下文;中端最高 AA 分
DeepSeek V4 Pro $0.435 $0.87 44.3 推理能力优于 V4 Flash
Xiaomi MiMo-V2.5-Pro $0.435 $0.87 42.2 与 V4 Pro 同价位,AA 略低
MoonshotAI Kimi K2.6 $0.67 $3.50 42.8 output 价格偏高,适合 input 密集的 RAG
Z.ai GLM 5.1 $0.98 $3.08 40.2 相比更低价替代品性价比偏低
Z.ai GLM 5.2 $1.20 $4.20 51.1 $2 input 以下 AA 最高;接近高端品质
Qwen3.7 Max $1.25 $3.75 46.0 推理能力强;$1–2 input 区间有竞争力
GPT-5.4(参考) $2.50 $15.00 51.4 高端基准线
Claude Opus 4.8(参考) $5.00 $25.00 55.7 高端基准线

两个模型明显胜出,适合作为注重性价比的团队首选。DeepSeek V4 Flash 以 $0.09 / $0.18 的定价, 在整个数据集(限 AA ≥ 40)中实现了最高的每美元智能量。Z.ai GLM 5.2 以 $1.20 / $4.20 定价, AA 51.1 让它逼近 GPT-5.4 的能力,但 input 价格不到其一半——对于需要稳定高质量但不想全额支付 高端价格的团队,是当前最具吸引力的选项。两者都值得在你的具体 benchmark 任务上跑一遍,再决定 是否要选更贵的默认选项。

4. 根据任务类型匹配模型

没有单一模型在同等价位对所有任务类型都最优。正确的选择取决于你的工作流实际需要什么。轻量对话聊天 ——客服、FAQ 问答、基础写作——DeepSeek V4 Flash 是自然的起点。AA 40.3 对大多数指令执行任务已经 足够,而且超低价格让你有余力一次生成多个版本、让用户或审核者挑选最好的。主要风险在边缘案例: 不寻常的措辞、多语言混合查询、或者需要模型训练不足领域的专业知识的问题。

对于 RAG(检索增强生成)服务,关键变量转向上下文处理能力和输出的忠实度。MiniMax M3 在这里脱颖而出: 1M token 的上下文窗口是真正的差异化能力,能直接省掉整类分块和检索工程工作。以 $0.30 / $1.20 和 AA 44.4,它能处理全文档摄取任务,而同价位上下文更短的模型则需要复杂的预处理。Kimi K2.6 也值得评估, 但 $3.50 的 output 价格在答案较长时代价不菲——先量清楚你的实际 output/input 比例。

编程和长程自主 agent 是质量门槛最重要的使用场景。一个中途无声失败、输出看起来合理实则有问题的 agent,比没有自动化更糟糕。对编程而言,AA Index 的编程子分数(可在对比工具中查询)比综合分更重要。 Z.ai GLM 5.2 和 Qwen3.7 Max 在各自价位上展示了强劲的编程表现;DeepSeek V4 Pro 是 $0.50 input 以下最适合多步 agent 循环(需要长程连贯性)的选项。只有当你在实际代码库上做基准测试、发现 低价模型在你具体需要的任务模式上失败时,再考虑升级到 GPT-5.4 或 Claude Opus 4.8。

5. 真实月费:三种工作流实算

抽象的每 token 价格比较掩盖了真实的业务成本。下表展示三种典型工作流在四个模型上的月度 API 账单: 最强性价比模型(DeepSeek V4 Flash)、最佳中端选项(MiniMax M3),以及两个最常见的高端默认选项 (GPT-5.4、Claude Opus 4.8)。所有费用单位为美元。

工作流 DeepSeek V4 Flash MiniMax M3 GPT-5.4 Claude Opus 4.8
A:轻量聊天机器人
5M in + 1M out / 月
$0.63 $2.70 $27.50 $50.00
B:RAG 服务
100M in + 5M out / 月
$9.90 $36.00 $325.00 $625.00
C:编程 agent
500M in + 50M out / 月
$54.00 $210.00 $2,000.00 $3,750.00

规模化之后,差距触目惊心。在工作流 C 的吞吐量下,从 Claude Opus 4.8 换到 DeepSeek V4 Flash, 每月节省 $3,696——近乎每年 $44,000——而能力下降在大多数真实任务上可能完全察觉不到。即便只是从 GPT-5.4 换到 MiniMax M3,在该体量下每月也节省 $1,790。以数据驱动的模型选型,商业价值不是边际 的——它可能是一个 AI 功能盈亏的分水岭。

两个重要说明。第一,以上数字假设你支付的是标准定价,不含缓存、批量折扣或 Batch API 价格。 光是 prompt caching,对于系统提示稳定的工作流就能把 input 成本砍掉 75–90%——完全重塑这张 对比表。第二,表中的 token 数量是示意性的;你实际的 input/output 比例取决于你的提示设计。 95% input + 5% output 的 RAG 系统与生成密集型管线非常不同。正式决策前,请用 费用计算器填入你的真实数字。

6. 如何用本站排行榜做决策

本站的最高性价比排行默认应用了 AA ≥ 40 的门槛, 并按每美元智能量降序排列符合条件的模型——这是最接近你真正想问的那个问题的单一数字: "在我的 token 用量下,我能负担得起的最聪明的模型是什么?"这个排行是你的起始名单,不是 终答案。正确的工作流是:(1)锁定价格区间内的两三个模型,(2)用 对比工具把你的真实任务提示跑过一遍,(3)不只看通过/失败,还要看输出质量分布, (4)用计算器按预计体量算全包月费,(5)选最便宜的、 在提示分布硬尾上能通过你质量门槛的那个模型。

最强模型排行作为参考点很有用:它告诉你选择不用 高端档需要放弃什么。如果头对头测试显示最优性价比模型在超过 5–10% 的真实提示上失败,而那些 失败后果严重(面向用户的错误、发布了有 bug 的代码),升级到高端档的成本几乎肯定值得。本站数据 存在的意义就是让这个权衡变得可以用真实数字衡量,而不是凭直觉。

最后一点值得强调:竞争格局变化很快。DeepSeek V4 Flash 一年前根本不在任何性价比短名单上。 来自中国实验室的新模型正在以激进的定价持续进入市场,并快速缩小能力差距。本站的 AA Index 分数和价格每天从 408 个活跃模型的实时 API 数据更新——每次重要的采购决策之前都应该回来查一遍, 三个月前的最优性价比选择往往已经过时。