Cursor發布Composer 2模型,強調高階程式開發能力與較低詞元成本
官方公布的CursorBench圖表顯示,Composer 2在較低成本下仍維持61.3分,位置略低於GPT-5.4的high與medium設定,但高於GPT-5.4的low設定,單次任務的中位成本也更低。若與Opus 4.6的high、medium、low三種設定相比,Composer 2則同時位於更高分且較低成本的位置。
Composer 2在CursorBench得分61.3,明顯高於Composer 1.5的44.2與Composer 1的38.0,在Terminal-Bench 2.0與SWE-bench Multilingual兩項評測中,Composer 2分別為61.7與73.7,也都高於前兩代。
Cursor表示,Composer 2的提升來自新採用的持續預訓練,讓後續強化學習建立在更強的基礎上,之後再針對長任務訓練,使模型能處理需要數百個操作步驟的問題。官方將此類需要連續執行多步驟操作的程式開發工作,稱為長程程式開發任務(Long-horizon Coding Tasks)。
當開發者愈來愈常將AI用於程式開發、除錯與推理等工作,詞元成本已成為評估模型時不可忽略的因素。從Cursor這次公布的資料來看,Composer 2的重點除了模型能力提升,也試圖在效能與使用成本之間取得更具吸引力的平衡。
不過,這組模型比較結果的測試條件並不完全相同,Cursor指出,Anthropic模型分數採用Claude Code評測執行器,OpenAI模型分數採用Simple Codex評測執行器,Cursor自己的分數則依Terminal-Bench 2.0指定的Harbor評測框架,在預設設定下執行,每組模型與代理組合各測試5次後取平均。因此,這些數據可作為觀察模型表現的參考,但若要直接比較不同模型,仍需考慮代理執行方式與測試條件存在差異。
Comments (0)