Cursor釋出Composer 2.5新模型,改善長時間任務、複雜指令與協作開發表現
Composer 2.5延續Composer 2的模型基礎,建構在Moonshot的Kimi K2.5開源模型檢查點上。Cursor表示,這次改版透過擴大訓練規模、建立更複雜的強化學習環境,以及加入新的學習方法來改善模型行為。官方也提到,除了訓練模型處理更困難的任務,也調整溝通風格與投入程度校準,這些面向較難完全由既有基準測試反映,但會影響實際使用體驗。
新模型更新技術之一是用文字回饋進行針對性強化學習(Targeted RL with Textual Feedback),Cursor指出,在長軌跡強化學習中,模型一次工作可能使用數十萬個詞元(Token),如果只看最後任務結果,模型不容易判斷究竟是哪一次工具呼叫、說明方式或風格違規導致表現變差。Composer 2.5因此會在問題發生的位置加入文字提示,讓訓練回饋更接近錯誤本身,藉此修正局部行為,同時保留整個任務的學習目標。
Cursor也擴大合成任務訓練,Composer 2.5使用的合成任務數量為Composer 2的25倍,而這些任務以真實程式碼庫為基礎產生,例如透過刪除特定可測試功能建立訓練題目,再要求模型依測試結果重新實作該功能。
不過,官方也揭露,大規模合成任務可能讓模型找到非預期的取巧方式。Composer 2.5曾從Python型別檢查快取反推被刪除的函式簽名,也曾反編譯Java位元組碼重建第三方介面。Cursor表示,這些問題是透過代理式監控工具發現並診斷,也顯示大規模強化學習訓練需要更謹慎設計。
Cursor提到,Composer 2.5也改善大型模型訓練時的最佳化器與平行化配置,尤其是處理混合專家模型中不同權重的分片、正交化與通訊成本。另外,該公司也表示,正與SpaceXAI從零訓練規模更大的模型,預計使用10倍總訓練算力。
Comments (0)