2026 年選 LLM API 的 5 個重點

價格已經不是主要痛點。Context window、推理 token、cache 命中率、輸出速度、開源 vs 閉源——這 5 件事在 2026 年才是選型的關鍵。

1. 標價不是你的實際帳單

定價頁上的標題數字——例如「每 1M input tokens $0.50」——其實是你最沒辦法控制的部分。2026 年各大主流提供商的 input 單價已經差不多收斂：旗艦模型大致落在 $1～$5 / M tokens 之間；中階模型（GPT-4o mini、Claude Haiku、Gemini Flash）彼此差距已經只剩幾美分。

真正會拉開差距的是 output 單價，通常是 input 的 3～5 倍，而且會隨你的 prompt 讓模型「話多不多」線性擴張。一個 $3 input / $15 output 的模型，對一個回答簡短但 context 很長的 RAG 系統而言，會遠比 $1 input / $20 output 便宜。先量你的實際 input/output 比例，再選模型——而不是反過來。

2. 推理 token 是新的隱形成本

OpenAI o 系列和 Claude 的 extended thinking 模式都會計費推理 token——模型在產出可見答案前內部跑過的 chain-of-thought。這些 token 算 output。一個「請認真思考」的 prompt，推理過程可能比最終答案長 5～20 倍。也就是說：可見輸出只有 100 tokens 的問題，實際付費的可能是 2,000 tokens——而你看不到。

兩個推論：（1）對成本敏感的工作流，最便宜的推理模型往往比最貴的非推理模型還貴；（2）比價時必須比「每個任務的全包成本」，不是 $/M output tokens。提供商的定價頁很少把這件事講清楚，得自己用真實 prompt 量一遍。

3. 快取命中率比單價更重要

Prompt caching 從 2024 年的「錦上添花」，到 2026 年已經變成影響月費最大的單一槓桿。各家提供商的 cached input 現在都收 10～25% 標準價。對 agent 類工作流——長 system prompt 在多輪對話裡反覆出現——快取命中率高的話，月費可以直接砍掉 60～80%。

但有個陷阱：快取命中率取決於你的 prompt 結構，不是模型本身。兩家標價完全一樣 $/M 的提供商，最終帳單可能差好幾倍——差異來自他們怎麼去重前綴、快取保留多久。在 scale 之前一定要先跑一週真實流量、從 dashboard 拉 cache hit 指標。標價「比較貴」的那家常常反而勝出。

4. 輸出速度決定單位經濟模型

對聊天 UX 來說，tokens/秒每翻一倍，感受到的回應時間就砍半。但對批次和背景作業，輸出速度決定一台機器在撞到 concurrency limit 之前能並發多少請求——這是單位經濟模型的硬天花板，不只是體驗問題。

2026 年最快的模型（Groq 上跑的 Llama 變種、Gemini Flash、高吞吐量的 DeepSeek V4）可以推到 200～400 tokens/秒。最慢的推理模型，一旦 thinking trace 開始跑，可能掉到 20～40 tps。這是 10 倍的吞吐量差距。要做即時應用就實測和你工作流相似的速度，別看官方行銷圖。

5. 開源 vs 閉源：差距已經不在能力，在維運

2026 年，最強的開源權重模型（Llama 4、DeepSeek V4、Qwen 3）在多數 benchmark 上已經逼近 GPT-5 和 Claude Opus 4.6。「開源夠不夠強」這個問題對多數工作流來說已經不再重要——答案是夠。真正的問題變成：你想不想自己跑推理。

盈虧平衡點大致在每天 5,000 萬～1 億 tokens 的持續吞吐量。超過這個量級，自己跑一組 GPU 集群跑開源模型，會比同等閉源模型的 API 便宜。低於這個量級，維運成本——uptime、scaling、模型更新、量化選擇——幾乎都讓數字回頭傾向 managed API。如果你的流量起伏大、不穩定，就算尖峰時段自 host 看起來更便宜，還是留在 API 上比較安穩。

總結

挑模型時，價格應該是最後一步——前面要先量過：你的 input/output 比例、prompt 結構（快取命中潛力）、是否需要推理、延遲預算。本站的模型表是依 input 單價排序的，那是起點不是答案。答案來自你自己的 production log。

本文由 Allen Pan 撰寫。如有勘誤或想交流，歡迎來信 allen@xyzsleep.com。

1. 標價不是你的實際帳單

2. 推理 token 是新的隱形成本

3. 快取命中率比單價更重要

4. 輸出速度決定單位經濟模型

5. 開源 vs 閉源：差距已經不在能力，在維運

總結

延伸閱讀