Cursor發布Composer 2模型，強調高階程式開發能力與較低詞元成本

新聞

官方公布的CursorBench圖表顯示，Composer 2在較低成本下仍維持61.3分，位置略低於GPT-5.4的high與medium設定，但高於GPT-5.4的low設定，單次任務的中位成本也更低。若與Opus 4.6的high、medium、low三種設定相比，Composer 2則同時位於更高分且較低成本的位置。

Composer 2在CursorBench得分61.3，明顯高於Composer 1.5的44.2與Composer 1的38.0，在Terminal-Bench 2.0與SWE-bench Multilingual兩項評測中，Composer 2分別為61.7與73.7，也都高於前兩代。

Cursor表示，Composer 2的提升來自新採用的持續預訓練，讓後續強化學習建立在更強的基礎上，之後再針對長任務訓練，使模型能處理需要數百個操作步驟的問題。官方將此類需要連續執行多步驟操作的程式開發工作，稱為長程程式開發任務（Long-horizon Coding Tasks）。

當開發者愈來愈常將AI用於程式開發、除錯與推理等工作，詞元成本已成為評估模型時不可忽略的因素。從Cursor這次公布的資料來看，Composer 2的重點除了模型能力提升，也試圖在效能與使用成本之間取得更具吸引力的平衡。

不過，這組模型比較結果的測試條件並不完全相同，Cursor指出，Anthropic模型分數採用Claude Code評測執行器，OpenAI模型分數採用Simple Codex評測執行器，Cursor自己的分數則依Terminal-Bench 2.0指定的Harbor評測框架，在預設設定下執行，每組模型與代理組合各測試5次後取平均。因此，這些數據可作為觀察模型表現的參考，但若要直接比較不同模型，仍需考慮代理執行方式與測試條件存在差異。

Cursor發布Composer 2模型，強調高階程式開發能力與較低詞元成本

Comments (0)