微軟Copilot Researcher新增多模型協作模式,提升研究報告準確度
Critique將過去由單一模型一手包辦的規畫、檢索、綜合與撰寫等工作,拆分為兩個階段。第一階段由一個模型負責任務規畫、資料檢索迭代與初稿撰寫;第二階段則由另一個模型擔任審查者,依據結構化評分標準,從來源可靠性、報告完整度、證據引用精確度三個面向進行審閱,確認關鍵主張皆有可靠來源支撐後,再產出最終報告。該流程類似學術與專業研究中的同儕審查機制,讓評估環節獲得與生成環節同等的重視。
微軟以DRACO基準進行效能驗證,微軟採用OpenAI GPT-5.2作為評審模型,並依照該基準論文公開的評測協議執行測試,每道題目進行五次獨立評測後取平均值。
搭載Critique的Researcher總分達57.4分,較該基準中表現最佳的Perplexity Deep Research高出7.0分。在四個評測維度中,分析廣度與深度的改善最為顯著,提升3.33分,其次為呈現品質提升3.04分、事實準確度提升2.58分,各維度均達統計顯著水準。微軟認為,審查層有效促使系統辨識遺漏的分析角度、強化組織架構,同時挑戰薄弱論述以提高引用精確度。不過,Critique的測試分數並非出自DRACO原始論文,而是微軟依相同協議自行測試後加入比較。

Council則是另一種運作方式。Anthropic與OpenAI的模型會各自獨立產出完整研究報告,再由專門的評審模型彙整重點,指出雙方的共識、分歧,以及各自提供的獨特觀點,供使用者對照參考。使用者可在Researcher的模型選擇器中選擇Model Council啟用該模式。
此外,微軟也宣布Copilot Cowork已透過Frontier計畫開放早期存取。Copilot Cowork是一款處理長時間、多步驟工作的AI代理,使用者只需描述期望成果,系統即自動建立計畫,跨工具與檔案進行推理並逐步執行,過程中使用者可隨時檢視進度與介入調整。微軟表示,Copilot Cowork整合了Claude與微軟自身的技能模組,涵蓋行事曆管理與每日摘要等功能,適用於從單次任務到定期重複流程等不同場景。
Comments (0)