主流LLM出現新型態資安風險,ISC基準測試揭合法任務能誘發危險輸出
ISC不同於靠直接惡意提示詞觸發的傳統越獄,而是透過任務(Task)、驗證器(Validator)、資料(Data)組成的TVD框架,將任務條件設計成模型必須產出有害內容,才算完成任務。研究人員據此在論文中建立含53個情境、橫跨8個專業領域的ISC-Bench,試圖將這類風險從單一案例擴大成可系統化測試的研究對象。GitHub公開的ISC-Bench專案目前則整理為56個提示詞範本,並持續收錄社群重現案例。
該基準測試涵蓋計算生物、計算化學、資安、流行病學、藥理與毒理、臨床基因體、AI安全與機器學習,以及媒體與傳播等領域,對應分子模擬、漏洞分析、內容審查與資料分類等工具型任務。研究團隊指出,幾乎各個專業領域都已使用會處理敏感資料的工具,而這些工具常同時涉及資料處理、內容生成與結果驗證,一旦任務條件設計不當,就可能把模型推向持續產出有害內容的狀態。
ISC不是固定提示詞,而是一種可被用於日常工作格式的模式,研究人員強調,這類任務不一定要包裝成攻擊指令,也可能藏在LaTeX表格、YAML設定檔、CSV檔案甚至FASTA序列等結構化資料中,只要模型必須把敏感欄位補齊,才算完成任務,就可能被推進ISC狀態,甚至連檔案上傳也能降低觸發門檻。
在既有越獄測試基準JailbreakBench的評估中,3個代表性ISC情境使4個主流LLM的最差情況安全失敗率(Worst-case Safety Failure Rate)平均達95.3%,其中包括GPT-5.2與Claude Sonnet 4.5,明顯高於標準越獄攻擊。研究團隊認為,主流模型較強的任務執行能力,在這類情境下反而可能成為新的風險來源,也使主流模型比早期LLM更容易暴露這種失效模式。
Comments (0)