Skip to main content

GitHub Copilot CLI新增Rubber Duck審查代理,以雙模型審查機制提供第二意見

Posted in 業界新聞
新聞

現行AI程式開發代理的工作流程通常是評估任務、擬定計畫、實作、測試,再根據結果迭代修正。該流程雖然有效,但要是代理在早期規畫階段做出錯誤判斷,後續所有工作都會建立在有問題的基礎上,等到開發者察覺時,往往已經牽連多處程式碼。過去的做法是讓模型自我審查,但同一個模型受限於相同的訓練資料與偏差,很難發現自身盲點。

Rubber Duck的做法,是引入不同模型家族擔任獨立審查者。當使用者在Copilot CLI的模型選擇器中選用Claude系列模型作為主要模型時,Rubber Duck會以GPT-5.4進行獨立審查,提出主模型可能遺漏的細節與值得質疑的假設,以及需納入考量的邊界情況。GitHub表示,目前Claude家族模型Opus、Sonnet與Haiku皆可搭配Rubber Duck使用,也正探索GPT-5.4擔任主要模型時的其他模型組合。

GitHub以開源專案中大型、高難度的實際程式問題SWE-Bench Pro進行評測,結果顯示Claude Sonnet 4.6搭配由GPT-5.4驅動的Rubber Duck,可補上Sonnet與Opus之間74.7%的效能差距。在跨越3個以上檔案,通常需要70個以上步驟的困難任務中,效果更明顯,較Sonnet基準高3.8%,在三次試驗辨識出的最困難問題上則高4.8%。

在觸發機制上,Rubber Duck會在3個檢查點自動啟動,分別是規畫草案完成後、複雜實作完成後,以及測試撰寫完成但尚未執行前。此外,當代理陷入迴圈無法推進時,也會主動尋求Rubber Duck的回饋。使用者則可在任意時間點手動要求Copilot進行審查。GitHub強調,Rubber Duck僅在回饋價值最高的時機介入,以避免干擾正常工作流程。

目前該功能需在Copilot CLI中執行/experimental斜線指令啟用,並需具備GPT-5.4的存取權限。GitHub表示,Rubber Duck較適合用於複雜重構、架構變更、高風險任務,以及需要確認測試覆蓋率是否完整的情境。

View original 0 Likes 0 Boosts

Comments (0)

No comments yet.