微軟Copilot Researcher新增多模型協作模式，提升研究報告準確度

新聞

Critique將過去由單一模型一手包辦的規畫、檢索、綜合與撰寫等工作，拆分為兩個階段。第一階段由一個模型負責任務規畫、資料檢索迭代與初稿撰寫；第二階段則由另一個模型擔任審查者，依據結構化評分標準，從來源可靠性、報告完整度、證據引用精確度三個面向進行審閱，確認關鍵主張皆有可靠來源支撐後，再產出最終報告。該流程類似學術與專業研究中的同儕審查機制，讓評估環節獲得與生成環節同等的重視。

微軟以DRACO基準進行效能驗證，微軟採用OpenAI GPT-5.2作為評審模型，並依照該基準論文公開的評測協議執行測試，每道題目進行五次獨立評測後取平均值。

搭載Critique的Researcher總分達57.4分，較該基準中表現最佳的Perplexity Deep Research高出7.0分。在四個評測維度中，分析廣度與深度的改善最為顯著，提升3.33分，其次為呈現品質提升3.04分、事實準確度提升2.58分，各維度均達統計顯著水準。微軟認為，審查層有效促使系統辨識遺漏的分析角度、強化組織架構，同時挑戰薄弱論述以提高引用精確度。不過，Critique的測試分數並非出自DRACO原始論文，而是微軟依相同協議自行測試後加入比較。

Council則是另一種運作方式。Anthropic與OpenAI的模型會各自獨立產出完整研究報告，再由專門的評審模型彙整重點，指出雙方的共識、分歧，以及各自提供的獨特觀點，供使用者對照參考。使用者可在Researcher的模型選擇器中選擇Model Council啟用該模式。

此外，微軟也宣布Copilot Cowork已透過Frontier計畫開放早期存取。Copilot Cowork是一款處理長時間、多步驟工作的AI代理，使用者只需描述期望成果，系統即自動建立計畫，跨工具與檔案進行推理並逐步執行，過程中使用者可隨時檢視進度與介入調整。微軟表示，Copilot Cowork整合了Claude與微軟自身的技能模組，涵蓋行事曆管理與每日摘要等功能，適用於從單次任務到定期重複流程等不同場景。

微軟Copilot Researcher新增多模型協作模式，提升研究報告準確度

Comments (0)