GitHub Copilot CLI新增Rubber Duck審查代理，以雙模型審查機制提供第二意見

新聞

現行AI程式開發代理的工作流程通常是評估任務、擬定計畫、實作、測試，再根據結果迭代修正。該流程雖然有效，但要是代理在早期規畫階段做出錯誤判斷，後續所有工作都會建立在有問題的基礎上，等到開發者察覺時，往往已經牽連多處程式碼。過去的做法是讓模型自我審查，但同一個模型受限於相同的訓練資料與偏差，很難發現自身盲點。

Rubber Duck的做法，是引入不同模型家族擔任獨立審查者。當使用者在Copilot CLI的模型選擇器中選用Claude系列模型作為主要模型時，Rubber Duck會以GPT-5.4進行獨立審查，提出主模型可能遺漏的細節與值得質疑的假設，以及需納入考量的邊界情況。GitHub表示，目前Claude家族模型Opus、Sonnet與Haiku皆可搭配Rubber Duck使用，也正探索GPT-5.4擔任主要模型時的其他模型組合。

GitHub以開源專案中大型、高難度的實際程式問題SWE-Bench Pro進行評測，結果顯示Claude Sonnet 4.6搭配由GPT-5.4驅動的Rubber Duck，可補上Sonnet與Opus之間74.7%的效能差距。在跨越3個以上檔案，通常需要70個以上步驟的困難任務中，效果更明顯，較Sonnet基準高3.8%，在三次試驗辨識出的最困難問題上則高4.8%。

在觸發機制上，Rubber Duck會在3個檢查點自動啟動，分別是規畫草案完成後、複雜實作完成後，以及測試撰寫完成但尚未執行前。此外，當代理陷入迴圈無法推進時，也會主動尋求Rubber Duck的回饋。使用者則可在任意時間點手動要求Copilot進行審查。GitHub強調，Rubber Duck僅在回饋價值最高的時機介入，以避免干擾正常工作流程。

目前該功能需在Copilot CLI中執行/experimental斜線指令啟用，並需具備GPT-5.4的存取權限。GitHub表示，Rubber Duck較適合用於複雜重構、架構變更、高風險任務，以及需要確認測試覆蓋率是否完整的情境。

GitHub Copilot CLI新增Rubber Duck審查代理，以雙模型審查機制提供第二意見

Comments (0)