財經

AI仍無法超越人類現場工程師 Datadog報告揭人機協作潛力

商商傳媒 2026-05-19 18:22 📖 3 分鐘閱讀

📋 重點摘要

● 最新報告指出，目前最先進的人工智慧模型在實際生產環境的故障排除方面，準確率仍低於人類工程師。

● 即使是沒有廣泛經驗的非領域專家，其準確率也超越了所有測試中的 AI 模型。

● 專為可觀測性資料訓練的領域模型，在特定任務上能優於通用型 AI 模型。

● AI 模型與人類專家在錯誤模式上存在差異，顯示兩者優勢具有互補性。

● 結合 AI 和人類判斷的「模型-專家預言機」，準確率可達 87.2%，展現人機協作的巨大潛力。

#工程師 #AI #人機協作 #故障排除

相關組織： Datadog 卡內基美隆大學 OpenAI

商傳媒｜葉安庭／綜合外電報導

根據一份由美國雲端監控服務供應商 Datadog 與卡內基美隆大學（Carnegie Mellon University）合作發布的最新基準測試報告 ARFBench 顯示，目前最先進的人工智慧模型，仍無法在實際生產環境的故障排除方面超越人類工程師。這項發現對科技業中日益增長的「自主運維代理」（autonomous site reliability engineer agents）趨勢提出了重要思考。

ARFBench 是首個完全基於真實生產事故構建的人工智慧基準測試，旨在評估 AI 模型在分析系統中斷問題時的表現。研究人員指出，全球每年因系統停機造成的損失高達數兆美元，而此測試正是要檢驗 AI 能否有效改善這一狀況。該基準測試集結了 63 起真實生產事故，包含 750 個多重選擇題、142 項監控指標及 538 萬個資料點，每個問題均經過人工驗證。

測試結果顯示，OpenAI 最新的 GPT-5 模型以 62.7% 的準確率領先所有現有 AI 模型，但仍遠低於領域專家 72.7% 的準確率。其他模型如 Gemini 3 Pro 獲得 58.1%，Claude Opus 4.6 為 54.8%，Claude Sonnet 4.5 則為 47.2%。即使是沒有廣泛觀察經驗的非領域專家，準確率也達到 69.7%，超越所有 AI 模型。這項數據明確指出，沒有任何單一 AI 模型能勝過人類的基線表現。

儘管通用型 AI 模型表現仍有落差，但 Datadog 內部結合了自家時間序列預測模型 Toto 與多模態模型 Qwen3-VL 32B 的混合模型 Toto-1.0-QA-Experimental，卻取得了 63.9% 的準確率，微幅超越 GPT-5。該模型在異常識別任務上的 F1 分數領先其他模型至少 8.8 個百分點，顯示專為可觀測性資料訓練的領域模型，在特定任務上能優於通用的前沿系統。

研究人員強調，AI 模型與人類專家在錯誤模式上存在顯著差異，這表明兩者的優勢具有互補性。AI 模型可能出現「幻覺」、忽略元數據或失去領域上下文，而人類則可能誤讀精確的時間戳或在處理複雜指令時失誤。這些錯誤類型鮮少重疊。報告中提出一個理論上的「模型-專家預言機」（Model-Expert Oracle），透過結合 AI 和人類判斷，其準確率可達 87.2%，這不僅量化了人機協作在解決問題上的潛在效益，也為科技業描繪了未來協同工作的目標藍圖。這份基準測試結果已在 Hugging Face 平台上公開，供各界檢視。