先進AI模型處理長流程文件任務仍不可靠，內容遭改寫更難察覺

VentureBeat也報導這項研究，指出這類問題凸顯目前圍繞完全自主AI代理的熱潮，仍需要更務實的可靠性檢驗。

這項研究關注的是「委派式工作」（delegated work），也就是使用者讓AI代為分析、修改與重組文件。研究團隊指出，這類應用的前提是信任，因為使用者未必有時間或專業能力逐一檢查AI完成的每項修改；若模型在過程中加入未經檢查的錯誤、刪除內容或產生幻覺，這些問題可能會在後續流程中被持續放大。

為了測試AI系統是否適合這類工作，研究團隊建立DELEGATE-52基準測試，涵蓋52個專業領域、310個工作環境，包括財務會計、軟體工程、結晶學（Crystallography），以及樂譜記譜等。每個環境都使用真實文件，並設計5到10項複雜編輯任務。研究團隊也在測試環境中加入與主題相關、但完成任務時不需要使用的參考文件，用來觀察模型是否會引用錯誤資料。研究團隊先要求模型依指令修改文件，再要求模型將文件還原，藉此評估模型經過多輪文件修改後，是否仍能維持原始內容的完整性與正確性。

研究團隊測試OpenAI、Anthropic、Google、Mistral、xAI與Moonshot等業者的19個模型。結果顯示，從所有受測模型整體來看，在20次連續互動後，文件平均出現50%的內容劣化，也就是原始內容出現缺漏、扭曲或錯誤；即使是Gemini 3.1 Pro、Claude 4.6 Opus與GPT 5.4等表現最佳的先進模型，平均仍會造成約25%的文件內容劣化。其中，整體表現最佳的Gemini 3.1 Pro，也只在52個領域中的11個領域，達到研究團隊定義的委派式工作可用門檻。

圖片來源/微軟研究院

研究也指出，模型能否穩定處理委派任務，與文件所屬領域高度相關。在52個測試領域中，廣泛用於程式開發與資料處理的程式語言Python，是唯一有多數模型達到研究團隊對於可用門檻定義的領域。相較之下，模型在自然語言文件，以及較少見的專業文件格式中，較容易出現嚴重錯誤。

值得注意的是，文件內容劣化並非大量小錯誤逐步累積，而是少數關鍵失敗造成。研究指出，約80%的總劣化來自少數關鍵錯誤。表現較差的模型失敗時，常見問題是刪除內容；但先進模型更常是改寫、扭曲或產生幻覺內容，文字看似仍在，實際內容卻已偏離原始文件。

研究團隊也測試讓模型搭配檔案讀寫與程式碼執行等通用型代理式工具，但結果並未改善表現，反而平均增加6%的內容劣化。研究人員認為，問題不在於工具使用本身，而是通用工具未必能支援不同專業文件所需的精準操作；當模型無法以程式化方式完成修改時，仍可能改以讀取並重寫整份文件的方式處理，進而增加內容被誤刪、改寫或摻入幻覺內容的風險。

VentureBeat進一步指出，這項研究對企業常見的檢索增強生成（Retrieval-Augmented Generation，RAG）系統也具有警示意義。若企業RAG系統在多步驟任務中提供過多看似相關、但實際上不該納入判斷的內容，模型可能在後續處理過程中引用錯誤資料，並使錯誤逐步累積。VentureBeat引述論文共同作者、微軟研究院資深研究員Philippe Laban的說法指出，RAG流程不應只用單輪檢索基準測試評估，而應放到多步驟工作流程中觀察，才能反映檢索不精準在長流程任務中造成的連鎖影響。

對企業與AI系統導入者而言，這項研究凸顯，部署AI代理處理知識工作時，應把工作流程拆成短程、可檢查且透明的任務，並在每個關鍵步驟後進行人工審查。

對開發者而言，研究人員也提醒，單純提供AI代理檔案讀寫或程式碼執行等通用工具並不夠，還需要建立特定領域、範圍明確的工具與測試流程。例如，針對帳冊或企業內部文件格式設計專用函式，讓模型能以更受控的方式完成資料計算、項目移動、格式轉換或內容合併。

先進AI模型處理長流程文件任務仍不可靠，內容遭改寫更難察覺

Comments (0)