LLM token 計價完全指南:input、output、cached、reasoning token 怎麼算,帳單為什麼比你想的貴

同樣是「$/1M tokens」,input、output、cached input 與 reasoning token 的算法完全不同,而帳單最後的數字往往由你看不到的部分決定。本文用真實模型的定價(例如 Claude 把 cached input 壓到標準價 10%、OpenAI o1 只打到 50%)說清楚每種 token 怎麼計費、為什麼 output 通常貴 3–5 倍,以及怎麼估算與壓低成本。

1. 什麼是 token,怎麼數

每一張 LLM API 帳單上都有一個大多數人沒有直覺感受的單位:token。計費單位不是字元,不是單字,不是句子,而是模型的 tokenizer 在處理文字之前把它切成的子詞塊。理解這一點,是理解帳單為什麼是這個數字的第一步。

對英文散文來說有一條實用經驗:大約每個 token 對應 0.75 個詞,反過來就是每個詞約 1.33 個 token。500 個英文單字的文件大概對應 650 到 750 個 token。程式碼和結構化資料往往更密——Python 變數名和 JSON key 分詞很緊湊,但 XML 或 YAML 這類冗長格式會接近 1.5–2 個 token 每個詞等效,因為角括號和冒號都是獨立的 token 或共用一個。非英文語言差異很大:CJK 文字(中文、日文、韓文)通常 1–2 個字元一個 token,相比芬蘭語這類黏著語言(一個變形詞可能變成 3–4 個 token),token 效率算是偏高的。

你可以在送出 API 之前驗證 token 數量。大多數提供商都提供 tokenizer 端點或用戶端函式庫(OpenAI 的 tiktoken、Anthropic 的 token counting API)。用你的典型 prompt 跑一遍,再和實際帳單校準——「0.75 個詞」的規則在邊界情況下會失效(非常短的 prompt、程式碼密集型 prompt、多語言 prompt),而帳單上的意外幾乎都發生在這些邊界情況。

一個值得注意的細節:tokenization 是模型家族專屬的。GPT-4o 和 GPT-5 用的 tokenizer 和 Claude 不同,Claude 和 Gemini 也不同。用 tiktoken 測出來 1,000 個 token 的系統提示,在 Claude tokenizer 下可能是 950 或 1,100 個。做跨模型成本比較時,要用各家提供商實際的 tokenizer 來數,不要用通用估算值。

最後一個讓很多人吃驚的地方:空白字元和格式 token 是真實計費的。一個充滿 Markdown 的系統提示——標題、列表、程式碼圍欄——每個格式字元都消耗 token。把系統提示從豐富 Markdown 壓縮成簡潔純文字,可以在不影響模型理解的情況下減少 5–15% 的 input token 數量。這個節省每次送出都會疊加。

2. Input vs output:為什麼 output 更貴

幾乎每家 LLM 定價頁都會顯示兩個數字:input 價格和 output 價格。幾乎在所有情況下,output 都更貴——而且貴得明顯。理解為什麼,是管控它的前提。

這個不對稱性有硬體層面的解釋。處理 input token 可以部分平行化:模型可以在一次前向傳播中對整個 prompt 做 attention。產生 output token 則是自回歸的——每個 token 必須按順序產生,依賴前面的所有內容,才能開始下一個。推理硬體在生成階段的使用率更低,因此每 token 的計算成本更高。提供商把這個成本差以更高的 output 單價傳遞出去。

這個倍數在市場上差異很大。以下是 2026 年中的真實數據(USD / 1M tokens):

模型 Input Output Output / Input
Claude Opus 4.8(標準) $5 $25
GPT-5.5 $5 $30
MiniMax M3 $0.30 $1.20
DeepSeek V4 Pro $0.435 $0.87

這個範圍是 2–6 倍。DeepSeek V4 Pro 相對緊湊的比例(2×)反映了面向高吞吐量 agentic 任務的定價策略;GPT-5.5 的 6× 倍數則體現了不同的市場定位。這個差異很重要:單看 input 單價最便宜的模型,一旦考慮真實的 output 用量,可能反而變成最貴的。

大多數真實應用的 input/output 比例並不是 50/50。一個客服 bot 發送 1,000 token 的 FAQ context 然後收到 100 token 的回答,91% 的 token 花在 input 上。一個程式碼生成器從 200 token 的需求說明產出 2,000 token 的實作,91% 花在 output 上。這兩種工作流應該用完全不同的標準來評估模型。本站的費用計算器讓你填入自己的 input/output 比例,看清楚哪個模型在你的具體數字下勝出。

3. Cached input:最大的單一成本槓桿

Prompt caching 讓你對模型在上一次請求中已經處理過的 input token 支付折扣價。當一個請求的前綴——通常是長系統提示或擷取到的文件——和快取前綴完全匹配,你就按快取價計費,而不是標準 input 價。2026 年,這已經成為大多數開發者影響月費最大的單一槓桿。

但這個折扣在各提供商之間差異很大。這是很多團隊踩坑的地方。以下是 2026 年中的真實數字:

  • Claude Opus 4.8:標準 input $10/M → cached input $1/M。也就是標準價的 10%——快取前綴打了九折(省 90%)
  • Claude Opus 4.6:標準 input $5/M → cached input $0.50/M。同樣是標準價的 10%。
  • OpenAI GPT-5 Image:標準 input $10/M → cached input $1.25/M。是標準價的 12.5%——折扣深度接近 Anthropic。
  • OpenAI o3 Deep Research:標準 input $10/M → cached input $2.50/M。是標準價的 25%——折扣比 Anthropic 淺。
  • OpenAI o1:標準 input $15/M → cached input $7.50/M。是標準價的 50%——折扣最淺。對 o1 來說,快取讓 input 成本減半;對 Claude 來說,快取把它壓到十分之一。

這意味著「cached input」不是一個統一的功能——它的折扣幅度從 50%(OpenAI o1)到 90%(Anthropic Claude)不等。對一個每天用同一條 4,000 token 系統提示發 1,000 個請求的 agent 工作流來說,快取 token 收 50% vs 收 10% 的提供商之間的月費差異是顯著的。在確定提供商之前,務必用你自己的用量算一遍。

機制上也有區別。Anthropic 的快取是前綴匹配的,只要你在訊息裡加上 cache_control 斷點,就會自動預熱。OpenAI 的自動快取在前綴超過 1,024 token 之後第一個請求完成後才開始生效。兩家都不保證命中——如果模型基礎設施把你路由到不同的 pod,快取可能是冷的。真實命中率取決於你的流量模式和提供商基礎設施,不只是你的 prompt 結構。本站的最低 input 價排行會同時顯示快取 input 價和標準 input 價,方便直接對比。

4. 推理 token:你付錢卻看不到的輸出

OpenAI 的 o 系列模型(o1、o3、o4)和 Claude 的 extended thinking 模式都有一個讓很多使用者第一次看到帳單時大吃一驚的特性:它們對推理 token 計費。這些是模型在產出可見答案之前內部產生的 chain-of-thought token——用來思考問題的草稿紙。你永遠看不到它們出現在回應本體裡,但它們會出現在用量統計中,並按 output token 計費。

實際影響很大。對一個典型的「請認真思考」prompt,內部推理痕跡可能比可見答案長 5–20 倍。一個看起來只有 100 個 output token 的回應,一旦算上推理痕跡,實際計費可能是 1,000–2,000 個 output token。由於 output token 本來就是最貴的 token 類型(見第 2 節),這個疊加效應很快就會累積起來。

推理痕跡會有多長,沒有簡單的規律——它取決於模型對任務複雜度的感知,而這又是你 prompt 措辭的函數。說「請逐步思考,探索多種方案,然後給我最佳答案」的 prompt 會持續產生比「請簡短回答」更長的推理痕跡。一些 API 參數允許你設定推理 token 的預算(Anthropic API 裡的 thinking.budget_tokens,OpenAI API 裡的推理力度檔位),但模型不一定會精確遵守預算。

由此產生兩個實際推論。第一,對成本敏感的工作流,按標題 output 單價看最便宜的推理模型,算上推理開銷之後很可能比最貴的非推理模型還貴。第二,你不能只用 $/M output tokens 來對比推理和非推理模型——你需要在自己的 prompt 集上測量「每個已完成任務的成本」。在你的費用報告裡,把推理 token 用量和標準用量分開列出,這樣財務不會被帳單嚇到。

一個有用的心智模型:推理 token 更像「背景算力」而不是「可見輸出」。你買的是模型的思考時間。這段思考時間是否帶來了值得付費的品質提升,完全取決於任務類型。對高度結構化的抽取任務,一個調優好的非推理模型往往能以五分之一的成本打敗推理模型。對複雜的多步規劃任務,推理痕跡則物有所值。

5. 多模態與其他計費維度

Token 不是唯一的計費維度。隨著 LLM 擴展到圖片、音訊、影片和其他模態,提供商引入了與 token 定價並列的按單位計費方式。如果你只看定價表裡的文字 token 欄,可能會漏掉帳單裡相當一部分的費用。

圖片 input 是最常見的非文字維度。大多數提供商把圖片轉換成等效 token 數(OpenAI 的 GPT-4o 根據解析度把圖片分塊成 85 或 170 token 的瓦片;Claude 根據像素面積把圖片換算成固定 token 數)。實際效果是:一張高解析度圖片的成本可能等同於幾百個詞的文字 input。如果你的管道會發送全解析度截圖或產品圖,在發送前把它們縮放到模型要求的最低解析度是一個直接的成本優化——通常可以減少 30–60% 的圖片相關費用,只要內容在小尺寸下仍然清晰可讀,品質不會有損失。

按請求收費在某些模型上會在 token 價格之外額外收一筆固定費用。這種情況最常見於特殊模型(網路搜尋增強端點、圖像生成模型,以及部分微調變體)。對於短 prompt、高請求量的工作流,按請求收費可能主導帳單:如果你每天發 10 萬個請求,每請求 $0.01 的費用就是 $1,000/天,可能遠超 token 本身的費用。

音訊和影片計費還在發展中。OpenAI 的即時音訊 API 按音訊秒數收費,而不是按 token,價格對長內容場景來說偏貴。影片理解模型通常把影片轉為影格序列,按影格或按秒等效計費。這些數字變化很快,最好直接查提供商當前的定價頁,而不是依賴聚合平台。

本站的價格來自 OpenRouter,它會路由請求,並在提供商成本之上可能會加一小段路由 margin。要了解路由價為什麼和官方價不同、什麼時候這個差異對你的預算有影響,參見平台價差分析文章

6. 如何估算並壓低帳單

在構建之前估算帳單比看起來更容易實現。關鍵是測量一些有代表性的 prompt,而不是推導精確模型。這是一套實用框架:

  1. 準確數清你的 prompt token。用提供商的 tokenizer 跑 10–20 個有代表性的 prompt,不要用通用估算器。對結果取平均值,同時記錄分布範圍——範圍寬意味著成本波動會大。
  2. 測量你的 input/output 比例。對每個有代表性的 prompt,記錄模型實際產生了多少 token。這個比例常常讓人意外——一個「生成摘要」的任務,一旦模型加上注意事項和背景說明,輸出量可能是預期的 3 倍。
  3. 測量你的快取命中率。如果你有任何重複前綴(系統提示、擷取到的 context),模擬一週的流量,測量有多少比例的 input token 命中了快取。即使是 50% 的命中率配上 90% 的折扣,也能減少 45% 的 input 成本。
  4. 如果使用 extended thinking 模型,要計入推理開銷。用實際 prompt 跑一遍模型,查 usage 回應欄位裡的 reasoning_tokens。不要靠估算。
  5. 使用本站的費用計算器填入你的數字,一次對比多個模型。

在壓低成本方面,有四個高槓桿動作:

把 prompt 結構化以最大化快取命中。快取前綴必須在每次請求中完全一致——哪怕改了一個字元都會導致快取未命中。把所有穩定的內容(系統指令、參考文件、few-shot 範例)放在 prompt 最前面,把每次請求特有的內容(使用者訊息、檢索結果)放在最後面。這樣能最大化可以被快取的前綴長度。

管控輸出長度。如果你的場景不需要長回答,就在系統提示裡明確說清楚。「用一段話回答」或「回答不超過 100 個字」都很有效。Output token 是最貴的,每個你阻止模型產生的 token 就是一個不需要付費的 token。這也是模型選擇的關鍵點:DeepSeek V4 Pro 這類 output/input 比例只有 2× 的模型,對需要大量輸出的任務來說,比 GPT-5.5 這類 6× 比例的模型要便宜得多。

對延遲不敏感的任務使用批次 API。OpenAI 的 Batch API 和 Anthropic 的 Message Batches 都在 24 小時內完成的前提下提供約 50% 的處理價格折扣。對後台任務——夜間文件處理、隔夜微調資料生成、每週分析——批次模式可以在不改變工程架構的情況下把帳單減半,只需要改一下 API 呼叫模式。查看本站的最高性價比排行了解哪些模型也提供批次定價。

根據任務複雜度匹配模型。把每個請求都發給最大的旗艦模型是超支最快的方式。對分類、路由和簡單抽取任務,$0.10/M input 的模型通常和 $5/M input 的模型無法區分。把貴的模型留給智能每美元真正產生差異的任務——複雜推理、多步規劃、需要正確性保障的程式碼生成。本站的入門指南介紹了在優化價格之前如何設定品質門檻。