AI自主資安能力加速突破 先進模型超越既有評測標準
根據英國AI安全研究院(United Kingdom’s AI Security Institute, AISI)與派拓網路(Palo Alto Networks)於週三發布的獨立報告指出,Anthropic的Claude Mythos Preview和OpenAI的GPT-5.5這兩款最先進的人工智慧模型,在自主網路安全任務的表現上,已大幅超越既有評測標準,並呈現加速發展的態勢。
AISI受英國政府委託,負責對前沿AI模型進行部署前評估。該機構表示,Claude Mythos Preview與GPT-5.5的進步幅度,已遠超其自2024年末以來觀察到的穩定增長趨勢。AISI今年稍早曾估計,前沿模型在80%可靠度的網路任務處理時間(作為AI自主性的替代指標)上,約每五個月就能翻倍,此速度已較2025年11月估計的八個月大幅縮短。
最新的數據顯示,Claude Mythos Preview與GPT-5.5已超越所有預期曲線。其中,Claude Mythos Preview更是首度成功完成了AISI的兩項網路攻防模擬測試。它在模擬企業網路攻擊的「The Last Ones」32步驟任務中,10次嘗試裡成功了6次;對於過去所有模型都未能破解的「Cooling Tower」任務,也成功了3次。GPT-5.5則在「The Last Ones」任務中取得了10次成功3次的表現。AISI引述指出:「前沿AI的自主網路與軟體能力正快速進步:前沿模型能自主完成的網路任務長度,是以數月而非數年為單位翻倍成長。」
派拓網路透過自身的測試也得出了類似的結論。該公司表示,自今年四月起,便作為Anthropic Project Glasswing的合作夥伴,開始測試Claude Mythos。隨後,也參與OpenAI’s Trusted Access for Cyber program,測試了Claude Opus 4.7和OpenAI’s GPT-5.5-Cyber。透過AI模型對逾130項產品進行掃描,派拓網路共識別出26個CVE(共通漏洞和暴露),涵蓋75個問題,相較於每月通常少於5個CVE的數量,顯示AI在漏洞挖掘上的驚人效率。派拓網路強調:「最新模型在尋找漏洞並將其轉化為關鍵利用路徑方面,表現出非凡的能力,幾乎能即時完成。」該公司已修補其SaaS產品中的所有重要漏洞,並為客戶營運的產品提供了修補程式。
儘管AISI強調其數據僅基於相對少量模型,且最困難任務的人類比較數據較少,但該機構認為整體趨勢依然穩固。該機構補充說明:「任何單一基準結果都不應被視為對AI能力的精確衡量。然而,無論我們檢視的模型、方法選擇和獨立數據為何,變革方向和快速增長始終保持一致。」獨立的「模型評估與威脅研究機構」(METR)也在其研究中發現,自2024年末以來,AI處理軟體任務的速度約每四個月翻倍,與AISI的觀察結果幾乎一致。
面對AI自主資安能力快速提升的現況,派拓網路提出了四項企業應立即採取的應對策略:首先,搶在攻擊者之前找出並修補程式碼與應用程式中的漏洞;其次,縮小攻擊面,並利用AI來發現資安組態錯誤;第三,在所有系統中部署偵測與回應工具,運用機器學習即時捕捉威脅;最後,快速建立資安營運機制,以在數分鐘內回應潛在的AI驅動攻擊,因為這類攻擊很快也可能以如此高速展開。AISI也正開發更具挑戰性的評估方式,包含新的網路攻防模擬及加入主動網路防禦措施,以期更貼近真實世界情境。