五眼聯盟發布AI代理人指引,要求防範權限擴張與自主行動風險
代理式AI系統是由一個或多個代理人組成,通常依賴大型語言模型來理解環境、進行推理、做出決策並採取行動。和傳統生成式AI不同,代理式AI不只是產生文字、圖片或影音,而是能串接工具、外部資料、記憶與工作流程,自主完成目標,甚至建立子代理人執行任務。
此一指引是針對政府、關鍵基礎設施及大型組織所發布,提醒它們在導入代理式AI之前,必須先評估其資安風險。主要原因之一為代理式AI繼承了大型語言模型原有的風險,例如提示注入、越獄與幻覺;同時,因為它會連接工具、資料來源、記憶庫與其他系統,每增加一個元件,就擴大攻擊面。若代理人可執行指令、寄送郵件或存取內部系統,攻擊者便可能利用這些權限發動更複雜的攻擊。
指引將代理式AI風險分為權限風險、行為風險、結構風險與問責風險。其中,權限風險包括過度授權、權限蔓延、身分冒充,以及代理人被劫持;行為風險包括目標錯置、欺瞞行為、不可預期能力與惡意操縱;結構風險來自多代理人、工具與第三方元件的交互依賴;問責風險則是代理人決策過程不透明,事故發生後難以追查責任。
因此,組織在設計階段就應限制代理人可存取的脈絡及資料來源,預先設定行動邊界;亦應建立明確的指令層級,並在執行高風險動作前加入人工監督;每個代理人都應具備獨立身分,以利追蹤、限制或停用;不論是代理人之間,或是代理人與服務之間的API呼叫,都應經過強身分驗證,並採最小權限原則,以避免權限擴張。
在開發階段則應進行對抗測試、紅隊演練、沙盒測試、輸入驗證與第三方元件管理。於部署階段應先進行威脅建模,並分階段導入,從低風險任務開始,逐步提高自主程度,同時設下防護欄與隔離機制。在營運階段也必須持續監控代理人的行為、工具呼叫、權限變更、輸出結果與異常模式。
指引最後指出,代理式AI雖具備強大的自動化效益,但因其可跨工具、資料與環境自主行動,帶來的風險已超越傳統軟體或生成式AI。因此,組織不應只追求效率,而應優先考量韌性、可回復性及風險限制。
Comments (0)