AI自主網攻能力加速，資安任務長度每4.7個月翻倍

新聞

AISI這次主要在名為Narrow Cyber Suite的封閉式資安測試環境中評估模型能力，測試內容涵蓋逆向工程（Reverse Engineering）、Web漏洞利用（Web Exploitation）等任務，要求模型自主辨識並利用目標系統弱點。此外，AISI也測試模型在模擬企業網路攻擊環境（Cyber Ranges）中的表現，其中包括32步驟的企業網路攻擊場景「The Last Ones」，以及先前從未被AI模型成功完成的「Cooling Tower」。

AISI會根據模型在各項任務中的成功率，推估AI在80%成功率下，可自主完成相當於人類資安專家需花多久處理的任務。

最新估算顯示，自2024年底以來，先進AI模型可穩定完成的資安任務長度，約每4.7個月翻倍。也就是說，若AI原本可完成相當於人類專家需花10分鐘處理的任務，約4.7個月後，就可能完成20分鐘等級的任務，能力成長速度也快於2025年11月估計的每8個月翻倍。AISI指出，Claude Mythos Preview與GPT-5.5在最新測試中的表現，也明顯超出原本的能力成長曲線。

在測試中，AISI將每項任務限制於250萬個token，以便不同時期模型的結果可互相比較。目前測試集中最長的任務，約需人類資安專家花費12小時完成。即使在此限制下，Claude Mythos Preview仍在6項「人類專家需花8小時以上完成」的長資安測試任務中達到100%成功率；GPT-5.5則完成其中5項，其餘1項在移除token限制後也能成功完成。

此外，新版Claude Mythos Preview已可在10次測試中成功完成「The Last Ones」6次，以及「Cooling Tower」3次，成為首個成功完成後者的AI模型；GPT-5.5則在「The Last Ones」中成功3次。

AISI指出，由於Claude Mythos Preview與GPT-5.5在最長任務中的成功率已接近100%，目前這組測試已逐漸接近可衡量的上限。

AI自主網攻能力加速，資安任務長度每4.7個月翻倍

Comments (0)