開放權重性價比之王怎麼選：DeepSeek V4、MiniMax M3、Kimi K2.6、GLM 5.2 實戰比較

2026 年最划算的模型幾乎全是開放權重，而且多半來自中國團隊。DeepSeek V4 Flash（$0.09、AA 40）、MiniMax M3（$0.30、AA 44、1M context）、Kimi K2.6（agentic 強）、GLM 5.2（$1.2、AA 51、coding 68.8）各有定位。本文用真實定價與 coding／agentic 指數把四強放進同一張價格–能力定位圖，告訴你哪個場景該選哪一個。

1. 開放權重模型為何在 2026 年拿下性價比賽道

兩年前，LLM 市場有一個隱含的交易：花更多，得到更好的。前沿能力由 OpenAI 和 Anthropic 掌控，任何開放權重的替代品都帶著明顯的能力妥協，需要你自己說服自己接受。這個交易現在已經不成立了——至少在性價比賽道上是這樣。

轉變發生得很快，幾乎全部來自中國團隊。DeepSeek 的 V4 架構證明了大規模 Mixture-of-Experts 訓練可以用極低的計算成本達到接近前沿的質量。論文一出，所有認真的團隊要麼複製這一技術，要麼落後。MiniMax、Moonshot AI、智譜 AI（GLM 背後的團隊）以及小米，都在同一個六個月窗口期內推出了有競爭力的模型。結果是：到 2026 年中，如果你按照本站的性價比排行用每美元智能分數排序，頂端幾乎全是中國團隊的開放權重模型。

「開放權重」在這裡意味著模型權重可下載、可自部署。但實際上，大多數開發者仍然透過 API 端點消費這些模型——無論是團隊自己的雲服務還是 OpenRouter 這樣的路由層——因為在持續高吞吐量以下自託管的維運成本依然很高。開放權重標籤最重要的意義是價格信號：這些團隊不需要透過利潤率來回收一億美元的訓練成本，所以 API 定價比美國閉源提供商能承受的更激進。

作為參照：GPT-5.4 的價格是 $2.50/$15（每 1M tokens 輸入/輸出），Artificial Analysis 智能指數（AA）51.4。Claude Opus 4.8 是 $5/$25，AA 55.7。我們這次分析的開放權重模型，以 5–30 倍更低的價格達到了這些模型 70–95% 的能力分數。這個差距不是噪音——這是 2026 年 API 市場的核心事實。

2. 四位競爭者逐一解析

這四個模型並不在每一個維度上正面競爭。每一個都在自己的細分領域站穩了腳跟，理解這些細分定位是做正確選擇的第一步。

DeepSeek V4 Flash（$0.09/$0.18，AA 40.3，1M context）是本站最便宜的「真的能用」模型。AA 40.3 分明顯低於本組其他選手，但它不是玩具。對於分類、結構化提取、簡單問答、RAG 檢索，以及任何需要跑幾百萬次請求、成本是硬約束的工作流，V4 Flash 是明顯的起點。$0.09 的 input 價格極低，即使質量中等，規模上的性價比依然無可匹敵。

DeepSeek V4 Pro（$0.435/$0.87，AA 44.3，coding 47.5，1M context）是中端檔位。AA 分數比 Flash 高約 10%，編程指數 47.5，價格仍然比 GPT-5.4 低 80–90%。當你在自己的工作流上壓測 Flash 後發現質量差距確實存在時，V4 Pro 是最自然的升級選項——尤其對於多跳推理、結構化程式碼生成，或者輸出質量直接決定下游價值的任務。

MiniMax M3（$0.30/$1.20，AA 44.4，coding 43.4，1M context）是本次比較中被低估的選手。儘管 input 價格比 V4 Pro 低 30%，AA 分數卻幾乎持平。編程指數略低於 V4 Pro（43.4 vs 47.5），但真正的 1M context 視窗、紮實的通用能力和這個價格組合在一起，使它成為長 context 工作流的預設推薦——文件分析、大型程式碼庫問答、長文摘要鏈——每次呼叫塞很多 token 但帳單不會失控。

智譜 Z.ai GLM 5.2（$1.20/$4.20，AA 51.1，coding 68.8，1M context）是本組能力最強的選手。AA 51.1 分已經逼近 GPT-5.4（51.4）——基本上是同一個通用智能檔位。但最引人注目的是編程指數：68.8，不只是本組最高，更超過大多數美國旗艦模型。如果編程質量是你工作流的核心軸，GLM 5.2 以 $1.20/$4.20 對陣 GPT-5.4 的 $2.50/$15，是真正顛覆性的選擇。

月之暗面 Kimi K2.6（$0.67/$3.50，AA 42.8，coding 47.1，262K context）佔據了一個不同類型的細分市場。AA 分數是本組除 Flash 外最低的，但 Kimi 的架構和訓練專門針對智能體工作流進行了調優——多步任務執行、工具呼叫、瀏覽器自動化。Moonshot 還提供了Kimi K2.7 Code（$0.74/$3.50，coding 45.6），適合編程質量比智能體廣度更重要的場景。262K context 視窗是唯一的硬約束；如果你的任務放得進去，在選擇更昂貴的替代品之前，Kimi 值得在智能體流水線上測試一下。

3. 價格與能力定位圖

下表把所有六個模型放在同一坐標軸上。「輸入」和「輸出」是每 1M tokens 的美元價格。「AA」是 Artificial Analysis 智能指數（0–100 分，當前最高約 60 分）。「Cod」是 AA 編程指數。「Ctx」是最大 context 視窗。兩個美國高端模型在表底作為參照點。

模型	輸入 $/M	輸出 $/M	AA	Cod	Ctx
DeepSeek V4 Flash	$0.09	$0.18	40.3	—	1M
小米 MiMo-V2.5	$0.14	$0.28	40.1	42.1	1M
MiniMax M3	$0.30	$1.20	44.4	43.4	1M
DeepSeek V4 Pro	$0.435	$0.87	44.3	47.5	1M
Kimi K2.6	$0.67	$3.50	42.8	47.1	262K
Kimi K2.7 Code	$0.74	$3.50	—	45.6	262K
智譜 GLM 5.2	$1.20	$4.20	51.1	68.8	1M
Qwen3.7 Max	$1.25	$3.75	46.0	50.1	1M
GPT-5.4（參照）	$2.50	$15.00	51.4	—	—
Claude Opus 4.8（參照）	$5.00	$25.00	55.7	—	—

這張表有兩個值得關注的地方。第一，MiniMax M3 和 DeepSeek V4 Pro 的 AA 分數幾乎一樣（44.4 vs 44.3），但 M3 的 input 價格低 30%。Output 定價方向相反——M3 的 $1.20 output 比 V4 Pro 的 $0.87 高 38%——所以誰贏取決於你的輸入/輸出比例。如果你的工作流是長 context 讀取加短回答（RAG、摘要），M3 勝出；如果是短 prompt 生成長輸出（程式碼生成、草稿撰寫），V4 Pro 勝出。

第二，GLM 5.2 以 $1.20 input 價格交付 AA 51.1——基本上和 $2.50 input 的 GPT-5.4 一樣的通用智能，而且 output 價格差異更大（$4.20 vs $15）。對於 API 工作流，唯一值得考慮用 GPT-5.4 而不用 GLM 5.2 的情況，是你有 OpenAI 合規、特定工具呼叫行為或不支援非 OpenAI 端點的生態系統整合等硬性要求。能力本身不是理由。

4. Coding vs Agentic：誰贏哪個任務

AA 編程指數衡量編程基準測試的表現：程式碼補全、除錯、演算法實作、測試生成。高編程分不自動預測智能體表現——編排多步計劃、可靠使用工具、從錯誤中恢復的能力是不同的技能，與原始程式碼質量可能有很大差異。

純編程任務——自動補全、程式碼審查、測試生成、獨立檔案中的錯誤修復——GLM 5.2 的編程指數 68.8 是最清晰的信號。這個分數不只是本組最高，還高於 Qwen3.7 Max（50.1）、兩個 Kimi 變體（47.1/45.6）和 V4 Pro（47.5）。如果生成程式碼的質量是最重要的，GLM 5.2 即便在溢價價格下也是答案——因為你仍然只付 GPT-5.4 約一半的 input 價格和 28% 的 output 價格。用費用計算器可以量化你每月 token 用量下具體能省多少。

Agentic 工作流——瀏覽器自動化、多步研究流水線、工具呼叫鏈、自主任務執行——情況更微妙。Kimi K2.6 的架構專門針對這種模式進行了調優。AA 42.8 孤立來看並不出彩，但 Moonshot 發佈的基準測試結果顯示，它在智能體相關任務上表現突出：執行長指令鏈、從工具錯誤中恢復、在多輪對話中維護狀態。如果你在構建需要透過工具介面與外部系統交互的智能體，即使 Kimi 的通用智能分數看起來平平，也值得先做基準測試。

Qwen3.7 Max（$1.25/$3.75，AA 46.0，coding 50.1）在編程任務上是 GLM 5.2 的替代選項。編程指數比 GLM 5.2 低 27%——差距顯著——但對很多實際工作流仍然夠用，且 input 價格幾乎一樣（$1.25 vs $1.20）。兩者之間的決定因素幾乎總是：編程指數是否比通用智能更重要。GLM 5.2 在 AA 和編程兩個維度同時領先，如果預算不是約束條件，它是主導選擇。

小米 MiMo-V2.5（$0.14/$0.28，AA 40.1，coding 42.1）以極低預算的編程輔助任務選手身份收尾。編程指數與 GLM 或 Kimi 相比沒有競爭力，但對於極高量的程式碼相關任務——lint 建議、樣板程式碼生成、正規表示式構造——在預設選擇 DeepSeek V4 Flash 之前值得看一眼。

5. Context Window 與部署彈性

本組除 Kimi K2.6 和 K2.7 Code 之外的所有模型都配備了 1M token 上下文視窗。這足以放入完整的程式碼庫、很長的文件語料庫，或擴展的對話歷史，無需分塊。Kimi 的 262K 視窗按歷史標準依然慷慨，但對於 1M 真正重要的那類工作流（大型程式碼庫理解、全書分析），這確實成為硬約束。

API 存取方面：所有六個模型都可透過各團隊自己的 API 取得，大多數也可透過 OpenRouter 路由。本站的對比工具可以讓你把任意兩個模型並排對比，看即時定價。延遲因提供商地區、流量負載和模型量化而異——在固定某個端點之前，用你自己的工作流做基準測試。

自託管方面：DeepSeek V4 變體的權重和部分 GLM 版本是公開可下載的。自託管的損益平衡點大約在每天持續吞吐量 5,000 萬到 1 億 tokens；低於這個量，GPU 叢集成本（硬體攤銷、電力、維運人力）就會超過這些模型的 API 費用。大多數低於這個量的團隊應該繼續用托管 API。模型更新、量化決策和正常運行時間管理的維運負擔是真實成本，很少出現在簡單的估算中。

MiniMax M3 的權重散佈不像 DeepSeek 那麼廣泛，更偏向 API 優先。Kimi K2.6 目前僅提供 API 存取。GLM 5.2 同時提供托管 API 和權重下載，但為消費級硬體提供的量化版本相比托管版本有可測量的質量下降。

6. 結論：按場景選模型

與其宣布單一贏家——那樣做是錯誤的，因為這些模型確實適合不同的使用場景——不如給出一個決策樹。用性價比排行和計算器核對你具體 token 用量下的數字。

最低成本、夠用質量（分類、提取、規模化 RAG 檢索）：從 DeepSeek V4 Flash 的 $0.09/$0.18 開始。它是本站最便宜且生產可用的模型。如果 Flash 不通過你的質量測試，在考慮 V4 Pro 之前先試 MiniMax M3——你以相近或更低的價格（取決於輸入/輸出比）獲得明顯更高的 AA 分數。

長 context 工作流（文件分析、大型程式碼庫問答、全書摘要）：MiniMax M3（$0.30/$1.20）。真正的 1M context，AA 44.4，價格低到即使每次呼叫 50 萬 token 帳單也不會失控。如果每次呼叫都需要完整的 1M 視窗，而輸出質量比成本更重要，GLM 5.2 是升級選項。

編程質量是首要軸：GLM 5.2（$1.20/$4.20，coding 68.8）。本組沒有其他開放權重替代品在編程基準上接近它。以約 GPT-5.4 一半的 input 價格和 28% 的 output 價格，性價比案例不言而喻。

Agentic 流水線和多步工具使用：如果你的 context 放得進 262K，首選 Kimi K2.6（$0.67/$3.50）做測試。如果智能體 context 需要 1M 視窗，MiniMax M3 是在跳到 GLM 5.2 之前的下一個選項。

什麼時候才值得付美國旗艦模型的價格：GLM 5.2（AA 51.1）和 GPT-5.4（AA 51.4）之間的能力差距基本上是誤差範圍。Claude Opus 4.8 的 AA 55.7 是真實的差距——大約高 8–9% 的通用智能。如果你的任務真的需要那最後 8%，而且你已經在自己的評測集上驗證過，那就付錢買它。否則，開放權重性價比賽道贏了。

本文由 Allen Pan 撰寫。如有勘誤或想交流，歡迎來信 allen@xyzsleep.com。