AI仍無法超越人類現場工程師 Datadog報告揭人機協作潛力
根據一份由美國雲端監控服務供應商 Datadog 與卡內基美隆大學(Carnegie Mellon University)合作發布的最新基準測試報告 ARFBench 顯示,目前最先進的人工智慧模型,仍無法在實際生產環境的故障排除方面超越人類工程師。這項發現對科技業中日益增長的「自主運維代理」(autonomous site reliability engineer agents)趨勢提出了重要思考。
ARFBench 是首個完全基於真實生產事故構建的人工智慧基準測試,旨在評估 AI 模型在分析系統中斷問題時的表現。研究人員指出,全球每年因系統停機造成的損失高達數兆美元,而此測試正是要檢驗 AI 能否有效改善這一狀況。該基準測試集結了 63 起真實生產事故,包含 750 個多重選擇題、142 項監控指標及 538 萬個資料點,每個問題均經過人工驗證。
測試結果顯示,OpenAI 最新的 GPT-5 模型以 62.7% 的準確率領先所有現有 AI 模型,但仍遠低於領域專家 72.7% 的準確率。其他模型如 Gemini 3 Pro 獲得 58.1%,Claude Opus 4.6 為 54.8%,Claude Sonnet 4.5 則為 47.2%。即使是沒有廣泛觀察經驗的非領域專家,準確率也達到 69.7%,超越所有 AI 模型。這項數據明確指出,沒有任何單一 AI 模型能勝過人類的基線表現。
儘管通用型 AI 模型表現仍有落差,但 Datadog 內部結合了自家時間序列預測模型 Toto 與多模態模型 Qwen3-VL 32B 的混合模型 Toto-1.0-QA-Experimental,卻取得了 63.9% 的準確率,微幅超越 GPT-5。該模型在異常識別任務上的 F1 分數領先其他模型至少 8.8 個百分點,顯示專為可觀測性資料訓練的領域模型,在特定任務上能優於通用的前沿系統。
研究人員強調,AI 模型與人類專家在錯誤模式上存在顯著差異,這表明兩者的優勢具有互補性。AI 模型可能出現「幻覺」、忽略元數據或失去領域上下文,而人類則可能誤讀精確的時間戳或在處理複雜指令時失誤。這些錯誤類型鮮少重疊。報告中提出一個理論上的「模型-專家預言機」(Model-Expert Oracle),透過結合 AI 和人類判斷,其準確率可達 87.2%,這不僅量化了人機協作在解決問題上的潛在效益,也為科技業描繪了未來協同工作的目標藍圖。這份基準測試結果已在 Hugging Face 平台上公開,供各界檢視。