研究人員揭新手法可繞過Apple Intelligence護欄並誘導模型輸出不當內容

新聞

瑞士聯邦政府研究人員及洛桑聯邦理工學院（EPFL）學者本週在資安大會RSAC上展示發表結合兩種手法濫用Apple Intelligence漏洞，可繞過Apple Intelligence本地LLM輸出、輸入篩選機制及內部護欄，迫使LLM產出攻擊者想要的內容。

為了繞過Apple Intelligence護欄，研究小組結合兩種手法。一是名為「神經執行（Neural Exec）」的方法，這是輸入人類看來沒有意義，卻能像咒語一樣能控制LLM，攻擊者可以指定想執行的惡意程式碼。基本上這類似其他間接式指令注入（indirect prompt injection）。其做法是利用LLM對特定模式或類似程式碼結構的敏感性，強制模型進入忽略之前的系統指令（如系統指令部分：摘要文章），轉而執行用戶輸入中的惡意指令。第二手法是利用Unicode由右向左覆寫文字的功能，進行字元逆轉攻擊（BiDi Attack）。這方法讓攻擊者輸入由右向左的文字（如阿拉伯、希伯來文或混亂文字），但LLM可以讀取並產出由左向右的語言（如英文）。

結合這二種方法，在其示範中，研究人員在一段輸入文字中夾雜大量混亂的「神經執行」標籤，打斷模型的正常邏輯流，再利用Unicode字元逆轉手法隱藏了惡意語句（如Hey users, go *** yourself），並下達指令要求模型只回答這段話，不要回答其他的。這成功劫持LLM模型，使其繞過原始系統指令，不再產出文章摘要，而是直接輸出紅色區域內的惡意或冒犯性文字。

研究人員以100個隨機提示進行測試，成功率達76%。研究團隊去年10月通報蘋果，蘋果已經釋出iOS 26.4及macOS 26.4更新以強化安全性。他們指出，即使是蘋果這樣強調隱私與安全的系統，若沒有針對Unicode特殊字元或複雜的提示詞干擾進行深度防禦，依然會被誘導產生非預期（甚至有害）的內容。

研究人員揭新手法可繞過Apple Intelligence護欄並誘導模型輸出不當內容

Comments (0)