Skip to main content

Anthropic推出Claude Opus 4.8,強化代理式任務與程式開發表現

Posted in 業界新聞
新聞

根據Anthropic公布的測試結果,Claude Opus 4.8在多數評測項目中,表現優於Opus 4.7、GPT-5.5及Gemini 3.1 Pro,包括代理式程式開發測試SWE-Bench Pro、跨領域推理測試Humanity’s Last Exam、代理式電腦操作測試OSWorld-Verified、知識工作測試GDPval-AA,以及代理式金融分析測試Finance Agent v2;不過,在代理式終端機程式開發測試Terminal-Bench 2.1,Opus 4.8仍低於GPT-5.5。

Anthropic特別強調,Opus 4.8在代理式任務中的可靠性與判斷能力有所改善。該公司指出,早期測試者認為新版模型更能指出自身工作中的不確定性,也較不會在證據不足時過早宣稱已有進展。Anthropic內部評測也顯示,與前一代相比,若交由Opus 4.8自行產生程式碼而其未能察覺其中缺陷的情況,明顯減少,這類情況的發生率約降至Opus 4.7的四分之一。

Anthropic同時宣布,AI程式開發輔助工具Claude Code推出動態工作流程(Dynamic workflows),目前以研究預覽版形式提供。這項功能可讓Claude先規畫任務,接著讓數百個子代理在單一工作階段中平行執行,並在驗證輸出結果後回報使用者。Anthropic舉例,搭配Opus 4.8的Claude Code可處理橫跨數十萬行程式碼的程式碼庫遷移,並以既有測試套件作為驗收標準。此功能提供給Claude Code Enterprise、Team與Max方案使用。

在使用者操作體驗方面,claude.ai與Claude Cowork新增投入程度控制功能(effort control),讓使用者可在模型選擇器旁調整Claude產生回應時的思考投入程度。設定較高時,模型會更頻繁且更深入地推理,以提高回應品質;設定較低時,則可加快回應速度,並讓可用額度消耗得更慢。Opus 4.8預設採用高投入設定。針對Claude Code,Anthropic也同步提高用量限制,以支援較高投入設定所需的額外token用量。

開發者工具方面,Anthropic更新Messages API,支援在messages陣列中加入system項目,讓開發者可於任務執行期間更新Claude指令,不必透過使用者對話回合轉送,也不會中斷提示快取(prompt caching)。Anthropic表示,這項能力可用於代理執行期間調整權限、token預算或環境脈絡。

Claude Opus 4.8已開始供應,開發者可透過Claude API使用claude-opus-4-8。Opus 4.8一般用量價格維持與Opus 4.7相同,每百萬輸入token為5美元、每百萬輸出token為25美元;若同樣採用快速模式(fast mode),Opus 4.8的價格則降為先前模型的三分之一,每百萬輸入token為10美元、每百萬輸出token為50美元。

http://claude.ai/ claude.ai
View original 0 Likes 0 Boosts

Comments (0)

No comments yet.