同一个模型，为什么在不同平台价格不同？OpenRouter、官方 API、云端代管的定价逻辑

同一个模型，在官方 API、OpenRouter、Bedrock／Vertex／Azure 上的价格可能不一样。本文解释这些价差从何而来——路由 margin、批量与承诺用量折扣、地区与承载成本、batch API——以及为什么本站显示的是 OpenRouter 的路由价（不等于官方价，是特性不是 bug）。看完你会知道怎么替自己的用量找到最便宜的来源。

1. 同一个模型，好几个价格

你在 Anthropic 官方定价页上看到 Claude Opus 4.8 标价每 100 万 input tokens $5。打开 OpenRouter，同一个模型——相同权重、相同能力——价格略有不同，取决于你路由到哪个 provider。同事说他们在 AWS Bedrock 上跑，又是另一个数字。你没有被骗。这些数字是真实不同的，背后有结构性原因，弄清楚这一点对你在规模化之前选平台非常关键。

这种现象在整个市场都存在。OpenAI 直连 API 上 GPT-5.4 标价 $2.50 input / $15 output， Azure OpenAI 上可能不同。Google AI Studio 上 Gemini 3.5 Flash 标价 $1.50 input / $9 output， Vertex AI 上不一定相同。OpenRouter 上 DeepSeek V4 Flash 的 $0.09 input / $0.18 output 反映的是某种特定的路由安排。这些报价都没有错，只是描述了建立在同一个模型之上的不同商业产品。

本文将逐层拆解：OpenRouter 这类路由市场实际做了什么、AWS Bedrock 和 Google Vertex 这类云端代管服务如何加上自己的商业封装、具体价差从哪里来、本站选择显示什么定价以及为什么、以及最后，在理解架构之后如何为你的用量找到最便宜的来源。

2. OpenRouter 路由价格是怎么算的

OpenRouter 是一个路由市场，不是模型提供商。它不训练模型，也不为顶级模型自己跑 GPU 集群。它维护来自几十个 provider 的模型目录——Anthropic、OpenAI、Google、Mistral、Meta、DeepSeek 等等——并代你把 API 请求路由到合适的 provider 端点。

当你通过 OpenRouter 调用模型时，请求会发送到上游 provider。你支付的价格是上游 provider 费率的函数，有时会叠加一小笔 OpenRouter 的 margin，有时也会按成本直通，取决于具体模型和 provider 的商业安排。这意味着某个模型的「OpenRouter 价格」不是官方价格固定加上某个差值——它因 provider、因模型、因 OpenRouter 谈判来的商务条款而不同。

OpenRouter 还允许你在一个模型有多个上游选项时选择路由到哪个 provider。同一个模型因 provider 基础设施不同，可能延迟不同、速率限制不同、价格也略有不同。这实际上很有用：同一个模型在某个 provider 上运行可能比另一个更便宜或更快。

实际的结果就是 OpenRouter 的价格是路由价格，不是官方第一方 API 价格。它反映的是一个路由层——这是特性，不是局限。你获得的是跨越几十个 provider 的统一 API 和统一账单，并且当某个 provider 限速或宕机时可以自动切换或故障转移。

3. 官方 API vs 云端代管（Bedrock / Vertex / Azure）

价格分歧最明显的例子是模型 provider 直连 API 与同一个模型跑在大型云厂商托管 AI 服务上的差距。AWS Bedrock、Google Vertex AI、Azure OpenAI Service 都提供来自外部 provider 的模型——但它们用自己的基础设施、SLA、合规体系和账单系统把这些模型封装起来。

实际含义是：模型权重是相同的。AWS Bedrock 上的 Claude Opus 4.8 跑的是和 Anthropic 直连 API 上相同的权重。Azure 上的 GPT-5.4 跑的是和 OpenAI 直连 API 上相同的权重。不同的是权重周边的一切：它运行在哪个基础设施上、SLA 保障是什么、数据驻留选项、合规认证（HIPAA、SOC 2、FedRAMP）、以及定价结构。

云端代管服务按需使用通常比 provider 直连 API 贵。你付出的额外成本是：接入现有云厂商关系的便利、合规开销、以及企业级 SLA。对于工作负载已经跑在 AWS、Azure 或 GCP 上的组织来说，这仍然可能是正确选择——简化采购、统一账单、合规覆盖往往可以证明这笔溢价合理。但对于不需要这些功能的成本敏感型生产工作负载，直连 API 通常更便宜。

云厂商也提供批量和承诺用量定价，可以缩小甚至逆转与直连 API 的价差——但这些安排需要大量前期承诺，对早期阶段的工作负载来说很少是正确选择。

4. 价差从何而来

理解了结构层次，具体的价差来源就很清晰了。主要驱动因素并不是任意的——它们遵循 stack 各个部分的经济逻辑。

因素	对价格的影响	备注
路由 margin	小幅加价或直通	OpenRouter 的商业层；因模型和 provider 安排而不同
云端代管开销	通常高于直连 API	Bedrock / Vertex / Azure 加上了 SLA、合规和基础设施成本
批量与承诺用量折扣	可显著降低有效费率	provider 和云厂商均提供；需要承诺
Batch API	约为标准费率的 50%（典型值）	Anthropic、OpenAI 等均提供；需要异步工作流
Prompt caching	标准 input 费率的 10–50%	因 provider 而异；对 agent 工作负载可能主导总成本
地区与出口流量	通常较小；大规模时有影响	跨区数据传输增加成本；某些地区的推理成本更高

Batch API 是最常被忽视的杠杆。当你的工作负载不需要实时响应时—— 分类、文档抽取、内容审核、离线摘要——batch 端点通常可以把账单砍掉约 50%。Anthropic 的 batch API、OpenAI 的 batch 端点以及其他 provider 的等效产品都遵循相同原理：你提交一批请求文件，provider 在时间窗口内（通常 24 小时）处理，你支付约一半的按需价格。对于高量离线工作负载，这通常是最大的单项降本手段。

Prompt caching 是另一个主要变量。当相同的前缀反复出现时——长 system prompt、检索上下文、待分析文档——已缓存的 input tokens 按标准 input 费率的某个比例计费。比例因 provider 而异：Anthropic 对 Claude 模型的缓存费率是标准 input 的 10%；其他 provider 在 20–50% 之间。对于每轮都重发一个大型 system prompt 的 agent 工作流， cache 命中率超过 60–70% 是可以实现的，10% 和 50% 缓存费率之间的差异在数百万 tokens 上会不断复利累积。

批量与承诺用量折扣对企业客户来说可见度最低，但潜在影响最大。直连 API provider 和云厂商都为承诺最低月度消费或 token 量的客户提供议价折扣。这些折扣没有公开列出，使得跨平台比较在不接触销售团队的情况下无法完成。值得知道的是：公开价格并不总是大客户实际支付的价格。

5. 本站显示什么，为什么这样显示

本站的定价数据来自 OpenRouter。你在这里看到的每一个价格——input、output、context window、provider——都是该模型在 OpenRouter 上的路由价格，通过 OpenRouter 的 API 每天更新。我们对此保持透明，因为这件事很重要。

OpenRouter 价格不等于模型 provider 的官方第一方 API 价格。它可能更高（当 OpenRouter 收取 margin 时），也可能更低（当 OpenRouter 有有利的 provider 安排时），或者大致相等。我们没有 OpenRouter 与每个上游 provider 之间精确定价条款的访问权，所以无法为你分解价差。

我们能提供的是可比性和新鲜度。OpenRouter 的统一 API 使得以一致基准对数百个模型定价成为可能——相同的计费单位、相同的 token 定义、相同的每日更新周期。如果你想比较运行 Claude Opus 4.8 vs DeepSeek V4 Flash vs Gemini 3.5 Flash 的相对成本， OpenRouter 价格能给你一个准确的相对量级图景。Claude 旗舰的 $5 input / $25 output 比 DeepSeek V4 Flash 的 $0.09 input 大约贵 55 倍——即便各平台的绝对数字略有出入，这个相对差距是真实且稳定的。

如果你需要用于采购或财务规划的官方第一方价格，请务必与 provider 自己的定价页交叉核对。我们从每个模型的详情页链接到对应 provider。请参阅关于页面，了解我们数据来源和方法论的完整说明。

我们选择 OpenRouter 作为数据源，因为它：机器可读（稳定的 JSON API，不是抓取网页）、覆盖广泛（数十个 provider 的数百个模型）、每日更新（价格变动在 24 小时内反映）。这些特性使其成为一个真正有用的比价站最可靠的基础，而不是一次性快照。

6. 怎么找到最适合你用量的最便宜来源

理解了架构之后，以下是为特定工作负载寻找最便宜来源的实用决策流程。正确答案取决于你的用量、延迟要求、合规需求和 prompt 结构。

第一步：确定你的 input/output 比例。使用费用计算器以不同 input/output 比例建模你预期的月度 token 量。output 价格通常是 input 的 3–10 倍——产出长 output 的工作负载与从长 context 中产出短答案的工作负载看起来截然不同。这个单一数字会改变哪个模型和哪个平台在比较中胜出。

第二步：检查 batch 资格。如果你工作负载中有相当比例是离线的—— 不需要在一秒内获得响应——就用 batch API 价格而非按需价格来做比较。对于 Anthropic 和 OpenAI 模型，batch 定价通常约为标准费率的 50%。这通常意味着 batch 模式下「更贵」的模型比按需模式下「更便宜」的模型实际上更划算。

第三步：建模你的缓存结构。如果你有一个在多个请求中重复出现的稳定 system prompt 或文档，估计你的 cache 命中率。节省额会复利累积：在 10% 缓存 input 费率（Anthropic 对 Claude 的费率）和 70% 命中率下，你的有效 input 成本是 0.1 × 0.7 + 1.0 × 0.3 = 标准费率的 0.37。这是 input 端 63% 的降幅，足以翻转模型间的成本排名。

第四步：了解承诺用量选项。如果你在某个 provider 上的月度消费超过大约 $5,000–$10,000，值得直接联系 provider 了解批量折扣。在较大用量下，公开价格与议价企业费率之间的差距可能相当可观——通常在公开价格基础上 20–40%，非常大的客户有时更多。

第五步：考虑合规和基础设施要求。如果你的工作负载需要数据驻留、 SOC 2 合规、HIPAA 合规，或者与现有云厂商的日志和访问控制集成，无论价格如何，云端代管路径（Bedrock、Vertex、Azure）可能是必须的。这些要求有其成本，但在直连 API 上自己搭建合规层通常比价格溢价更贵。

本站的性价比排行以 OpenRouter 价格为基准，按每美元质量对模型排序。这是一个合理的起点。但在考虑 batch 资格、缓存结构和合规要求后，绝对价格最便宜的模型很少是特定工作负载成本最低的模型。排行告诉你从哪里开始看；你自己的 production log 告诉你最终落在哪里。

本文由 Allen Pan 撰写。如有勘误或想交流，欢迎来信 allen@xyzsleep.com。