DeepSeek開源V4預覽版,支援100萬Token的脈絡長度
DeepSeek在V4導入了新的注意力機制,並結合DSA稀疏注意力(DeepSeek Sparse Attention)與Token壓縮設計,以降低長脈絡處理所需的運算與顯示記憶體(VRAM,顯存)成本。此外,從V4開始,100萬個Token脈絡長度將成為DeepSeek官方服務的標準能力。
在代理人應用上,DeepSeek-V4已支援包括Claude Code、OpenClaw、OpenCode與CodeBuddy等主流開發框架,可整合至既有工具中執行任務。官方指出,模型已針對程式生成、文件撰寫與多步驟流程進行優化,使其能連續處理從資料蒐集、整理到輸出的完整工作流程,而非僅限於單次回應。
事實上,DeepSeek內部已採用V4作為實際運作的Agentic Coding模型,執行程式開發相關任務。
DeepSeek-V4分為V4-Pro與V4-Flash兩個版本。V4-Pro主打高性能,在世界知識、數學、STEM與競賽型程式任務上表現較強;V4-Flash則採較小參數與激活設計,推理能力接近Pro版,但速度較快、API成本較低,適合日常與大規模部署。
相較於頂級的閉源模型,V4-Pro在多項評測中已展現具競爭力的表現。例如在世界知識測試中領先其他開源模型,僅略遜於Google的Gemini 3.1 Pro;在數學、STEM與競賽型程式任務中則已達到頂級閉源模型水準;在Agentic Coding相關評測中,V4-Pro亦優於Claude Sonnet 4.5,並接近Claude Opus 4.6的非思考模式表現。不過,在更高強度推理的思考模式下,V4-Pro與頂級閉源模型仍存在差距。

DeepSeek-V4延續其低價策略,根據官方公布的API定價,V4-Pro每百萬Token輸入價格約為1元人民幣(快取命中)或12元人民幣(未命中),輸出為24元人民幣;V4-Flash則分別為0.2元、1元與2元人民幣。
相較之下,OpenAI GPT-5.4每百萬Token輸入約2.5美元、輸出約15美元,而Claude Opus 4.6則約為輸入5美元、輸出25美元,顯示DeepSeek-V4在長文本與大規模推論場景中具備顯著成本優勢。
值得注意的是,DeepSeek官方發布內容與華為相關公開資訊中,並未明確說明V4與華為之間的合作細節。路透社則引用華為說法指出,該公司的晶片已被應用於V4的部分訓練過程。
Comments (0)