DeepSeek開源V4預覽版，支援100萬Token的脈絡長度

新聞

DeepSeek在V4導入了新的注意力機制，並結合DSA稀疏注意力（DeepSeek Sparse Attention）與Token壓縮設計，以降低長脈絡處理所需的運算與顯示記憶體（VRAM，顯存）成本。此外，從V4開始，100萬個Token脈絡長度將成為DeepSeek官方服務的標準能力。

在代理人應用上，DeepSeek-V4已支援包括Claude Code、OpenClaw、OpenCode與CodeBuddy等主流開發框架，可整合至既有工具中執行任務。官方指出，模型已針對程式生成、文件撰寫與多步驟流程進行優化，使其能連續處理從資料蒐集、整理到輸出的完整工作流程，而非僅限於單次回應。

事實上，DeepSeek內部已採用V4作為實際運作的Agentic Coding模型，執行程式開發相關任務。

DeepSeek-V4分為V4-Pro與V4-Flash兩個版本。V4-Pro主打高性能，在世界知識、數學、STEM與競賽型程式任務上表現較強；V4-Flash則採較小參數與激活設計，推理能力接近Pro版，但速度較快、API成本較低，適合日常與大規模部署。

相較於頂級的閉源模型，V4-Pro在多項評測中已展現具競爭力的表現。例如在世界知識測試中領先其他開源模型，僅略遜於Google的Gemini 3.1 Pro；在數學、STEM與競賽型程式任務中則已達到頂級閉源模型水準；在Agentic Coding相關評測中，V4-Pro亦優於Claude Sonnet 4.5，並接近Claude Opus 4.6的非思考模式表現。不過，在更高強度推理的思考模式下，V4-Pro與頂級閉源模型仍存在差距。

DeepSeek-V4延續其低價策略，根據官方公布的API定價，V4-Pro每百萬Token輸入價格約為1元人民幣（快取命中）或12元人民幣（未命中），輸出為24元人民幣；V4-Flash則分別為0.2元、1元與2元人民幣。

相較之下，OpenAI GPT-5.4每百萬Token輸入約2.5美元、輸出約15美元，而Claude Opus 4.6則約為輸入5美元、輸出25美元，顯示DeepSeek-V4在長文本與大規模推論場景中具備顯著成本優勢。

值得注意的是，DeepSeek官方發布內容與華為相關公開資訊中，並未明確說明V4與華為之間的合作細節。路透社則引用華為說法指出，該公司的晶片已被應用於V4的部分訓練過程。

DeepSeek開源V4預覽版，支援100萬Token的脈絡長度

Comments (0)