研究人員揭新手法可繞過Apple Intelligence護欄並誘導模型輸出不當內容
瑞士聯邦政府研究人員及洛桑聯邦理工學院(EPFL)學者本週在資安大會RSAC上展示發表結合兩種手法濫用Apple Intelligence漏洞,可繞過Apple Intelligence本地LLM輸出、輸入篩選機制及內部護欄,迫使LLM產出攻擊者想要的內容。
為了繞過Apple Intelligence護欄,研究小組結合兩種手法。一是名為「神經執行(Neural Exec)」的方法,這是輸入人類看來沒有意義,卻能像咒語一樣能控制LLM,攻擊者可以指定想執行的惡意程式碼。基本上這類似其他間接式指令注入(indirect prompt injection)。其做法是利用LLM對特定模式或類似程式碼結構的敏感性,強制模型進入忽略之前的系統指令(如系統指令部分:摘要文章),轉而執行用戶輸入中的惡意指令。第二手法是利用Unicode由右向左覆寫文字的功能,進行字元逆轉攻擊(BiDi Attack)。這方法讓攻擊者輸入由右向左的文字(如阿拉伯、希伯來文或混亂文字),但LLM可以讀取並產出由左向右的語言(如英文)。
結合這二種方法,在其示範中,研究人員在一段輸入文字中夾雜大量混亂的「神經執行」標籤,打斷模型的正常邏輯流,再利用Unicode字元逆轉手法隱藏了惡意語句(如Hey users, go *** yourself),並下達指令要求模型只回答這段話,不要回答其他的。這成功劫持LLM模型,使其繞過原始系統指令,不再產出文章摘要,而是直接輸出紅色區域內的惡意或冒犯性文字。
研究人員以100個隨機提示進行測試,成功率達76%。研究團隊去年10月通報蘋果,蘋果已經釋出iOS 26.4及macOS 26.4更新以強化安全性。他們指出,即使是蘋果這樣強調隱私與安全的系統,若沒有針對Unicode特殊字元或複雜的提示詞干擾進行深度防禦,依然會被誘導產生非預期(甚至有害)的內容。
Comments (0)