Anthropic推出Claude Opus 4.8，強化代理式任務與程式開發表現

新聞

根據Anthropic公布的測試結果，Claude Opus 4.8在多數評測項目中，表現優於Opus 4.7、GPT-5.5及Gemini 3.1 Pro，包括代理式程式開發測試SWE-Bench Pro、跨領域推理測試Humanity’s Last Exam、代理式電腦操作測試OSWorld-Verified、知識工作測試GDPval-AA，以及代理式金融分析測試Finance Agent v2；不過，在代理式終端機程式開發測試Terminal-Bench 2.1，Opus 4.8仍低於GPT-5.5。

Anthropic特別強調，Opus 4.8在代理式任務中的可靠性與判斷能力有所改善。該公司指出，早期測試者認為新版模型更能指出自身工作中的不確定性，也較不會在證據不足時過早宣稱已有進展。Anthropic內部評測也顯示，與前一代相比，若交由Opus 4.8自行產生程式碼而其未能察覺其中缺陷的情況，明顯減少，這類情況的發生率約降至Opus 4.7的四分之一。

Anthropic同時宣布，AI程式開發輔助工具Claude Code推出動態工作流程（Dynamic workflows），目前以研究預覽版形式提供。這項功能可讓Claude先規畫任務，接著讓數百個子代理在單一工作階段中平行執行，並在驗證輸出結果後回報使用者。Anthropic舉例，搭配Opus 4.8的Claude Code可處理橫跨數十萬行程式碼的程式碼庫遷移，並以既有測試套件作為驗收標準。此功能提供給Claude Code Enterprise、Team與Max方案使用。

在使用者操作體驗方面，claude.ai與Claude Cowork新增投入程度控制功能（effort control），讓使用者可在模型選擇器旁調整Claude產生回應時的思考投入程度。設定較高時，模型會更頻繁且更深入地推理，以提高回應品質；設定較低時，則可加快回應速度，並讓可用額度消耗得更慢。Opus 4.8預設採用高投入設定。針對Claude Code，Anthropic也同步提高用量限制，以支援較高投入設定所需的額外token用量。

開發者工具方面，Anthropic更新Messages API，支援在messages陣列中加入system項目，讓開發者可於任務執行期間更新Claude指令，不必透過使用者對話回合轉送，也不會中斷提示快取（prompt caching）。Anthropic表示，這項能力可用於代理執行期間調整權限、token預算或環境脈絡。

Claude Opus 4.8已開始供應，開發者可透過Claude API使用claude-opus-4-8。Opus 4.8一般用量價格維持與Opus 4.7相同，每百萬輸入token為5美元、每百萬輸出token為25美元；若同樣採用快速模式（fast mode），Opus 4.8的價格則降為先前模型的三分之一，每百萬輸入token為10美元、每百萬輸出token為50美元。

Anthropic推出Claude Opus 4.8，強化代理式任務與程式開發表現

Comments (0)