2026 年選 LLM API 的 5 個重點
價格已經不是主要痛點。Context window、推理 token、cache 命中率、輸出速度、開源 vs 閉源——這 5 件事在 2026 年才是選型的關鍵。
1. 標價不是你的實際帳單
定價頁上的標題數字——例如「每 1M input tokens $0.50」——其實是你最沒辦法控制的部分。2026 年各大主流提供商的 input 單價已經差不多收斂:旗艦模型大致落在 $1~$5 / M tokens 之間;中階模型(GPT-4o mini、Claude Haiku、Gemini Flash)彼此差距已經只剩幾美分。
真正會拉開差距的是 output 單價,通常是 input 的 3~5 倍,而且會隨你的 prompt 讓模型「話多不多」線性擴張。一個 $3 input / $15 output 的模型,對一個回答簡短但 context 很長的 RAG 系統而言,會遠比 $1 input / $20 output 便宜。先量你的實際 input/output 比例,再選模型——而不是反過來。
2. 推理 token 是新的隱形成本
OpenAI o 系列和 Claude 的 extended thinking 模式都會計費推理 token——模型在產出可見答案前內部跑過的 chain-of-thought。這些 token 算 output。一個「請認真思考」的 prompt,推理過程可能比最終答案長 5~20 倍。也就是說:可見輸出只有 100 tokens 的問題,實際付費的可能是 2,000 tokens——而你看不到。
兩個推論:(1)對成本敏感的工作流,最便宜的推理模型往往比最貴的非推理模型還貴;(2)比價時必須比「每個任務的全包成本」,不是 $/M output tokens。提供商的定價頁很少把這件事講清楚,得自己用真實 prompt 量一遍。
3. 快取命中率比單價更重要
Prompt caching 從 2024 年的「錦上添花」,到 2026 年已經變成影響月費最大的單一槓桿。各家提供商的 cached input 現在都收 10~25% 標準價。對 agent 類工作流——長 system prompt 在多輪對話裡反覆出現——快取命中率高的話,月費可以直接砍掉 60~80%。
但有個陷阱:快取命中率取決於你的 prompt 結構,不是模型本身。兩家標價完全一樣 $/M 的提供商,最終帳單可能差好幾倍——差異來自他們怎麼去重前綴、快取保留多久。在 scale 之前一定要先跑一週真實流量、從 dashboard 拉 cache hit 指標。標價「比較貴」的那家常常反而勝出。
4. 輸出速度決定單位經濟模型
對聊天 UX 來說,tokens/秒每翻一倍,感受到的回應時間就砍半。但對批次和背景作業,輸出速度決定一台機器在撞到 concurrency limit 之前能並發多少請求——這是單位經濟模型的硬天花板,不只是體驗問題。
2026 年最快的模型(Groq 上跑的 Llama 變種、Gemini Flash、高吞吐量的 DeepSeek V4)可以推到 200~400 tokens/秒。最慢的推理模型,一旦 thinking trace 開始跑,可能掉到 20~40 tps。這是 10 倍的吞吐量差距。要做即時應用就實測和你工作流相似的速度,別看官方行銷圖。
5. 開源 vs 閉源:差距已經不在能力,在維運
2026 年,最強的開源權重模型(Llama 4、DeepSeek V4、Qwen 3)在多數 benchmark 上已經逼近 GPT-5 和 Claude Opus 4.6。「開源夠不夠強」這個問題對多數工作流來說已經不再重要——答案是夠。真正的問題變成:你想不想自己跑推理。
盈虧平衡點大致在每天 5,000 萬~1 億 tokens 的持續吞吐量。超過這個量級,自己跑一組 GPU 集群跑開源模型,會比同等閉源模型的 API 便宜。低於這個量級,維運成本——uptime、scaling、模型更新、量化選擇——幾乎都讓數字回頭傾向 managed API。如果你的流量起伏大、不穩定,就算尖峰時段自 host 看起來更便宜,還是留在 API 上比較安穩。
總結
挑模型時,價格應該是最後一步——前面要先量過:你的 input/output 比例、prompt 結構(快取命中潛力)、是否需要推理、延遲預算。本站的模型表是依 input 單價排序的,那是起點不是答案。答案來自你自己的 production log。