主流LLM出現新型態資安風險，ISC基準測試揭合法任務能誘發危險輸出

新聞

ISC不同於靠直接惡意提示詞觸發的傳統越獄，而是透過任務（Task）、驗證器（Validator）、資料（Data）組成的TVD框架，將任務條件設計成模型必須產出有害內容，才算完成任務。研究人員據此在論文中建立含53個情境、橫跨8個專業領域的ISC-Bench，試圖將這類風險從單一案例擴大成可系統化測試的研究對象。GitHub公開的ISC-Bench專案目前則整理為56個提示詞範本，並持續收錄社群重現案例。

該基準測試涵蓋計算生物、計算化學、資安、流行病學、藥理與毒理、臨床基因體、AI安全與機器學習，以及媒體與傳播等領域，對應分子模擬、漏洞分析、內容審查與資料分類等工具型任務。研究團隊指出，幾乎各個專業領域都已使用會處理敏感資料的工具，而這些工具常同時涉及資料處理、內容生成與結果驗證，一旦任務條件設計不當，就可能把模型推向持續產出有害內容的狀態。

ISC不是固定提示詞，而是一種可被用於日常工作格式的模式，研究人員強調，這類任務不一定要包裝成攻擊指令，也可能藏在LaTeX表格、YAML設定檔、CSV檔案甚至FASTA序列等結構化資料中，只要模型必須把敏感欄位補齊，才算完成任務，就可能被推進ISC狀態，甚至連檔案上傳也能降低觸發門檻。

在既有越獄測試基準JailbreakBench的評估中，3個代表性ISC情境使4個主流LLM的最差情況安全失敗率（Worst-case Safety Failure Rate）平均達95.3%，其中包括GPT-5.2與Claude Sonnet 4.5，明顯高於標準越獄攻擊。研究團隊認為，主流模型較強的任務執行能力，在這類情境下反而可能成為新的風險來源，也使主流模型比早期LLM更容易暴露這種失效模式。

主流LLM出現新型態資安風險，ISC基準測試揭合法任務能誘發危險輸出

Comments (0)