同一個模型，為什麼在不同平台價格不同？OpenRouter、官方 API、雲端代管的定價邏輯

同一個模型，在官方 API、OpenRouter、Bedrock／Vertex／Azure 上的價格可能不一樣。本文解釋這些價差從何而來——路由 margin、批量與承諾用量折扣、地區與承載成本、batch API——以及為什麼本站顯示的是 OpenRouter 的路由價（不等於官方價，是特性不是 bug）。看完你會知道怎麼替自己的用量找到最便宜的來源。

1. 同一個模型，好幾個價格

你在 Anthropic 官方定價頁上看到 Claude Opus 4.8 標價每 100 萬 input tokens $5。打開 OpenRouter，同一個模型——相同權重、相同能力——價格略有不同，取決於你路由到哪個 provider。同事說他們在 AWS Bedrock 上跑，又是另一個數字。你沒有被騙。這些數字是真實不同的，背後有結構性原因，搞清楚這一點對你在規模化之前選擇平台非常關鍵。

這種現象遍及整個市場。OpenAI 直連 API 上 GPT-5.4 標價 $2.50 input / $15 output， Azure OpenAI 上可能不同。Google AI Studio 上 Gemini 3.5 Flash 標價 $1.50 input / $9 output，Vertex AI 上不一定相同。OpenRouter 上 DeepSeek V4 Flash 的 $0.09 input / $0.18 output 反映的是某種特定的路由安排。這些報價都沒有錯，只是描述了建立在同一個模型之上的不同商業產品。

本文將逐層拆解：OpenRouter 這類路由市場實際做了什麼、AWS Bedrock 和 Google Vertex 這類雲端代管服務如何加上自己的商業封裝、具體價差從哪裡來、本站選擇顯示什麼定價以及為什麼、以及最後，在理解架構之後如何為你的用量找到最便宜的來源。

2. OpenRouter 路由價格是怎麼算的

OpenRouter 是一個路由市場，不是模型提供商。它不訓練模型，也不為頂級模型自己跑 GPU 叢集。它維護來自幾十個 provider 的模型目錄——Anthropic、OpenAI、Google、Mistral、Meta、 DeepSeek 等等——並代你把 API 請求路由到合適的 provider 端點。

當你透過 OpenRouter 呼叫模型時，請求會發送到上游 provider。你支付的價格是上游 provider 費率的函數，有時會疊加一小筆 OpenRouter 的 margin，有時也會按成本直通，取決於具體模型和 provider 的商業安排。這意味著某個模型的「OpenRouter 價格」不是官方價格固定加上某個差值——它因 provider、因模型、因 OpenRouter 談判來的商務條款而不同。

OpenRouter 還允許你在一個模型有多個上游選項時選擇路由到哪個 provider。同一個模型因 provider 基礎設施不同，可能延遲不同、速率限制不同、價格也略有不同。這實際上很有用：同一個模型在某個 provider 上執行可能比另一個更便宜或更快。

實際的結果就是 OpenRouter 的價格是路由價格，不是官方第一方 API 價格。它反映的是一個路由層——這是特性，不是局限。你獲得的是跨越幾十個 provider 的統一 API 和統一帳單，並且當某個 provider 限速或宕機時可以自動切換或故障轉移。

3. 官方 API vs 雲端代管（Bedrock / Vertex / Azure）

價格分歧最明顯的例子是模型 provider 直連 API 與同一個模型跑在大型雲端廠商代管 AI 服務上的差距。AWS Bedrock、Google Vertex AI、Azure OpenAI Service 都提供來自外部 provider 的模型——但它們用自己的基礎設施、SLA、合規體系和帳單系統把這些模型封裝起來。

實際含義是：模型權重是相同的。AWS Bedrock 上的 Claude Opus 4.8 跑的是和 Anthropic 直連 API 上相同的權重。Azure 上的 GPT-5.4 跑的是和 OpenAI 直連 API 上相同的權重。不同的是權重周邊的一切：它執行在哪個基礎設施上、SLA 保障是什麼、資料駐留選項、合規認證（HIPAA、SOC 2、FedRAMP）、以及定價結構。

雲端代管服務按需使用通常比 provider 直連 API 貴。你付出的額外成本是：接入現有雲端廠商關係的便利、合規開銷、以及企業級 SLA。對於工作負載已經跑在 AWS、Azure 或 GCP 上的組織來說，這仍然可能是正確選擇——簡化採購、統一帳單、合規覆蓋往往可以證明這筆溢價合理。但對於不需要這些功能的成本敏感型生產工作負載，直連 API 通常更便宜。

雲端廠商也提供批量和承諾用量定價，可以縮小甚至逆轉與直連 API 的價差——但這些安排需要大量前期承諾，對早期階段的工作負載來說很少是正確選擇。

4. 價差從何而來

理解了結構層次，具體的價差來源就很清晰了。主要驅動因素並不是任意的——它們遵循 stack 各個部分的經濟邏輯。

因素	對價格的影響	備注
路由 margin	小幅加價或直通	OpenRouter 的商業層；因模型和 provider 安排而不同
雲端代管開銷	通常高於直連 API	Bedrock / Vertex / Azure 加上了 SLA、合規和基礎設施成本
批量與承諾用量折扣	可顯著降低有效費率	provider 和雲端廠商均提供；需要承諾
Batch API	約為標準費率的 50%（典型值）	Anthropic、OpenAI 等均提供；需要非同步工作流
Prompt caching	標準 input 費率的 10–50%	因 provider 而異；對 agent 工作負載可能主導總成本
地區與出口流量	通常較小；大規模時有影響	跨區資料傳輸增加成本；某些地區的推理成本更高

Batch API 是最常被忽視的槓桿。當你的工作負載不需要即時回應時—— 分類、文件抽取、內容審核、離線摘要——batch 端點通常可以把帳單砍掉約 50%。Anthropic 的 batch API、OpenAI 的 batch 端點以及其他 provider 的等效產品都遵循相同原理：你提交一批請求檔案，provider 在時間窗口內（通常 24 小時）處理，你支付約一半的按需價格。對於高量離線工作負載，這通常是最大的單項降本手段。

Prompt caching 是另一個主要變數。當相同的前綴反覆出現時——長 system prompt、檢索 context、待分析文件——已快取的 input tokens 按標準 input 費率的某個比例計費。比例因 provider 而異：Anthropic 對 Claude 模型的快取費率是標準 input 的 10%；其他 provider 在 20–50% 之間。對於每輪都重發一個大型 system prompt 的 agent 工作流，快取命中率超過 60–70% 是可以實現的，10% 和 50% 快取費率之間的差異在數百萬 tokens 上會不斷複利累積。

批量與承諾用量折扣對企業客戶來說可見度最低，但潛在影響最大。直連 API provider 和雲端廠商都為承諾最低月度消費或 token 量的客戶提供議價折扣。這些折扣沒有公開列出，使得跨平台比較在不接觸銷售團隊的情況下無法完成。值得知道的是：公開價格並不總是大客戶實際支付的價格。

5. 本站顯示什麼，為什麼這樣顯示

本站的定價資料來自 OpenRouter。你在這裡看到的每一個價格——input、output、context window、provider——都是該模型在 OpenRouter 上的路由價格，透過 OpenRouter 的 API 每天更新。我們對此保持透明，因為這件事很重要。

OpenRouter 價格不等於模型 provider 的官方第一方 API 價格。它可能更高（當 OpenRouter 收取 margin 時），也可能更低（當 OpenRouter 有有利的 provider 安排時），或者大致相等。我們沒有 OpenRouter 與每個上游 provider 之間精確定價條款的存取權，所以無法為你分解價差。

我們能提供的是可比性和即時性。OpenRouter 的統一 API 使得以一致基準對數百個模型定價成為可能——相同的計費單位、相同的 token 定義、相同的每日更新週期。如果你想比較執行 Claude Opus 4.8 vs DeepSeek V4 Flash vs Gemini 3.5 Flash 的相對成本， OpenRouter 價格能給你一個準確的相對量級圖景。Claude 旗艦的 $5 input / $25 output 比 DeepSeek V4 Flash 的 $0.09 input 大約貴 55 倍——即便各平台的絕對數字略有出入，這個相對差距是真實且穩定的。

如果你需要用於採購或財務規劃的官方第一方價格，請務必與 provider 自己的定價頁交叉核對。我們從每個模型的詳情頁連結到對應 provider。請參閱關於頁面，了解我們資料來源和方法論的完整說明。

我們選擇 OpenRouter 作為資料來源，因為它：機器可讀（穩定的 JSON API，不是抓取網頁）、覆蓋廣泛（幾十個 provider 的數百個模型）、每日更新（價格變動在 24 小時內反映）。這些特性使其成為一個真正有用的比價站最可靠的基礎，而不是一次性快照。

6. 怎麼找到最適合你用量的最便宜來源

理解了架構之後，以下是為特定工作負載尋找最便宜來源的實用決策流程。正確答案取決於你的用量、延遲要求、合規需求和 prompt 結構。

第一步：確定你的 input/output 比例。使用費用計算器以不同 input/output 比例建模你預期的月度 token 量。output 價格通常是 input 的 3–10 倍——產出長 output 的工作負載與從長 context 中產出短答案的工作負載看起來截然不同。這個單一數字會改變哪個模型和哪個平台在比較中勝出。

第二步：檢查 batch 資格。如果你工作負載中有相當比例是離線的—— 不需要在一秒內獲得回應——就用 batch API 價格而非按需價格來做比較。對於 Anthropic 和 OpenAI 模型，batch 定價通常約為標準費率的 50%。這通常意味著 batch 模式下「更貴」的模型比按需模式下「更便宜」的模型實際上更划算。

第三步：建模你的快取結構。如果你有一個在多個請求中重複出現的穩定 system prompt 或文件，估計你的快取命中率。節省額會複利累積：在 10% 快取 input 費率（Anthropic 對 Claude 的費率）和 70% 命中率下，你的有效 input 成本是 0.1 × 0.7 + 1.0 × 0.3 = 標準費率的 0.37。這是 input 端 63% 的降幅，足以翻轉模型間的成本排名。

第四步：了解承諾用量選項。如果你在某個 provider 上的月度消費超過大約 $5,000–$10,000，值得直接聯繫 provider 了解批量折扣。在較大用量下，公開價格與議價企業費率之間的差距可能相當可觀——通常在公開價格基礎上 20–40%，非常大的客戶有時更多。

第五步：考慮合規和基礎設施要求。如果你的工作負載需要資料駐留、 SOC 2 合規、HIPAA 合規，或者與現有雲端廠商的日誌和存取控制整合，無論價格如何，雲端代管路徑（Bedrock、Vertex、Azure）可能是必須的。這些要求有其成本，但在直連 API 上自己搭建合規層通常比價格溢價更貴。

本站的性價比排行以 OpenRouter 價格為基準，按每美元品質對模型排序。這是一個合理的起點。但在考慮 batch 資格、快取結構和合規要求後，絕對價格最便宜的模型很少是特定工作負載成本最低的模型。排行告訴你從哪裡開始看；你自己的 production log 告訴你最終落在哪裡。

本文由 Allen Pan 撰寫。如有勘誤或想交流，歡迎來信 allen@xyzsleep.com。