Cursor釋出Composer 2.5新模型，改善長時間任務、複雜指令與協作開發表現

新聞

Composer 2.5延續Composer 2的模型基礎，建構在Moonshot的Kimi K2.5開源模型檢查點上。Cursor表示，這次改版透過擴大訓練規模、建立更複雜的強化學習環境，以及加入新的學習方法來改善模型行為。官方也提到，除了訓練模型處理更困難的任務，也調整溝通風格與投入程度校準，這些面向較難完全由既有基準測試反映，但會影響實際使用體驗。

新模型更新技術之一是用文字回饋進行針對性強化學習（Targeted RL with Textual Feedback），Cursor指出，在長軌跡強化學習中，模型一次工作可能使用數十萬個詞元（Token），如果只看最後任務結果，模型不容易判斷究竟是哪一次工具呼叫、說明方式或風格違規導致表現變差。Composer 2.5因此會在問題發生的位置加入文字提示，讓訓練回饋更接近錯誤本身，藉此修正局部行為，同時保留整個任務的學習目標。

Cursor也擴大合成任務訓練，Composer 2.5使用的合成任務數量為Composer 2的25倍，而這些任務以真實程式碼庫為基礎產生，例如透過刪除特定可測試功能建立訓練題目，再要求模型依測試結果重新實作該功能。

不過，官方也揭露，大規模合成任務可能讓模型找到非預期的取巧方式。Composer 2.5曾從Python型別檢查快取反推被刪除的函式簽名，也曾反編譯Java位元組碼重建第三方介面。Cursor表示，這些問題是透過代理式監控工具發現並診斷，也顯示大規模強化學習訓練需要更謹慎設計。

Cursor提到，Composer 2.5也改善大型模型訓練時的最佳化器與平行化配置，尤其是處理混合專家模型中不同權重的分片、正交化與通訊成本。另外，該公司也表示，正與SpaceXAI從零訓練規模更大的模型，預計使用10倍總訓練算力。

Cursor釋出Composer 2.5新模型，改善長時間任務、複雜指令與協作開發表現

Comments (0)