Skip to main content

AI自主網攻能力加速,資安任務長度每4.7個月翻倍

Posted in 業界新聞
新聞

AISI這次主要在名為Narrow Cyber Suite的封閉式資安測試環境中評估模型能力,測試內容涵蓋逆向工程(Reverse Engineering)、Web漏洞利用(Web Exploitation)等任務,要求模型自主辨識並利用目標系統弱點。此外,AISI也測試模型在模擬企業網路攻擊環境(Cyber Ranges)中的表現,其中包括32步驟的企業網路攻擊場景「The Last Ones」,以及先前從未被AI模型成功完成的「Cooling Tower」。

AISI會根據模型在各項任務中的成功率,推估AI在80%成功率下,可自主完成相當於人類資安專家需花多久處理的任務。

最新估算顯示,自2024年底以來,先進AI模型可穩定完成的資安任務長度,約每4.7個月翻倍。也就是說,若AI原本可完成相當於人類專家需花10分鐘處理的任務,約4.7個月後,就可能完成20分鐘等級的任務,能力成長速度也快於2025年11月估計的每8個月翻倍。AISI指出,Claude Mythos Preview與GPT-5.5在最新測試中的表現,也明顯超出原本的能力成長曲線。

在測試中,AISI將每項任務限制於250萬個token,以便不同時期模型的結果可互相比較。目前測試集中最長的任務,約需人類資安專家花費12小時完成。即使在此限制下,Claude Mythos Preview仍在6項「人類專家需花8小時以上完成」的長資安測試任務中達到100%成功率;GPT-5.5則完成其中5項,其餘1項在移除token限制後也能成功完成。

此外,新版Claude Mythos Preview已可在10次測試中成功完成「The Last Ones」6次,以及「Cooling Tower」3次,成為首個成功完成後者的AI模型;GPT-5.5則在「The Last Ones」中成功3次。

AISI指出,由於Claude Mythos Preview與GPT-5.5在最長任務中的成功率已接近100%,目前這組測試已逐漸接近可衡量的上限。

View original 0 Likes 0 Boosts

Comments (0)

No comments yet.