Artificial Analysis與IBM推出ITBench-AA,先進AI模型企業IT維運任務得分仍不到5成
ITBench-AA是Artificial Analysis與IBM合作開發的新系列AI模型評測項目,其底層資料集由IBM軟體創新實驗室(IBM Software Innovation Lab)建立,並納入IBM在企業IT維運與事件處理上的經驗。雙方表示,這項評測先從SRE任務開始,後續將擴展到財務營運(FinOps)與資訊安全長(CISO)相關情境。
首波ITBench-AA SRE共包含59項任務,其中40項為公開任務,19項為未公開的保留測試任務。每項任務都提供一份Kubernetes事件快照(incident snapshot),內容涵蓋警示(alerts)、事件(events)、追蹤資料、效能指標、日誌與應用程式拓撲。受測模型必須從這些資料中,找出導致事件的最小且彼此獨立的Kubernetes根本原因實體,例如Deployment、Service或Pod等叢集資源。
ITBench-AA採用Artificial Analysis開源的Stirrup參考框架。Stirrup是一套讓AI代理檢查離線Kubernetes事件快照,並輸出結構化診斷結果的測試環境。模型可透過Shell存取沙箱檔案系統中的事件資料,每項任務最多可執行100個回合,並重複測試3次。評分方式採完整召回下的平均精確率,也就是模型必須先找齊所有標準答案中的根本原因;若漏掉任何一項,該次測試即得0分,若全部找出,則再依其提交結果中真正屬於根本原因的比例計分。

圖片來源/Artificial Analysis
ITBench-AA SRE評測結果顯示,Claude Opus 4.7以47%得分居首,其次為GPT-5.5的46%,以及Qwen3.7 Max的42%。在開放權重模型方面,GLM-5.1以40%得分領先,DeepSeek V4 Pro為38%,Gemma 4 31B為37%。Artificial Analysis指出,所有先進AI模型的得分皆低於50%,也反映現階段AI代理面對複雜的企業IT維運事件時,仍不容易準確判斷真正造成故障的根本原因。
評測結果也顯示,AI代理調查步驟愈多,不一定能提高判斷準確度。GPT-5.5平均每項任務使用31個回合,得分46%;Google Gemini 3.1 Pro Preview平均使用83個回合,得分30%。Artificial Analysis認為,其中,發生過度調查(over-investigate)狀況的模型,容易把用來觸發故障的上游機制或事件發生時同時出現的症狀,誤判為真正根本原因,而將不相關項目納入答案。
ITBench-AA也比較各模型執行每項任務的平均成本。Artificial Analysis指出,Gemma 4 31B得分37%,每項任務成本為0.14美元,在分數與成本上都優於Gemini 3.1 Pro Preview,後者得分30%、每項任務成本為2.23美元。GLM-5.1得分40%,每項任務成本為1.23美元,分數與Gemini 3.5 Flash相當,但成本低於Gemini 3.5 Flash的1.70美元。Claude Opus 4.7以47%得分位居第一,但每項任務成本為5.38美元,也是這次比較中成本最高的模型。
Developing AI Agents for IT Automation Tasks with ITBench for AAAI 2026
Developing AI Agents for IT Automation Tasks with ITBench for AAAI 2026 by Bhavya Bhavya et al.
research.ibm.com
Comments (0)