商傳媒|何映辰/台北報導

科技新創 DeepReinforce 於 6 月 25 日推出一套名為 Ornith-1.0 的開源編碼模型,這組模型專為「AI代理人」(AI Agent)設計,而非傳統上供人類直接使用的工具。這項發布預期將推動人工智慧在自動化程式開發領域的應用。

AI代理人與傳統人工智慧不同,它能接收一項任務,然後自主執行多步驟行動來完成,中間無需人類不斷介入。在程式開發的脈絡下,AI代理人可以自行閱讀程式碼文件、執行測試、識別失敗環節、修正錯誤,並重複這個循環直到任務完成,大幅減少人類在鍵盤前的操作時間。DeepReinforce 形容 Ornith-1.0 是「專為代理人編碼任務設計,且能自我改進的開源模型家族」。

Ornith-1.0 系列模型以 MIT授權條款 在 Hugging Face 上發布,共有四種尺寸:90億、310億、350億混合專家模型,以及旗艦級的 3970億參數混合專家模型。該系列模型專為 AI 編碼代理人設計,適用於真實的終端機與程式碼儲存庫環境。

在多項基準測試中,Ornith-1.0 展現了亮眼表現。在 SWE-bench Verified 測試(一項要求 AI 在不查看測試套件的情況下修復開源 GitHub 儲存庫中的真實錯誤的測驗)中,Ornith-1.0 的 90億參數版本得分達 69.4,優於谷歌(Google)的 Gemma 4-31B(52.0分),且與 Qwen 3.5-35B 的 70分表現相當,儘管其參數規模僅為後者約三分之一。旗艦級的 3970億參數模型在 SWE-bench Verified 上獲得 82.4 分。

此外,Ornith-1.0-397B 在 Terminal Bench 2.1 測試(模擬容器化終端環境中的 89 項任務,如偵錯非同步程式碼、解決安全漏洞)中取得 77.5 分,超越了 Anthropic 的 Claude Opus 4.7(70.3分)。不過,Anthropic 目前最新的旗艦模型 Claude Opus 4.8 在綜合編碼基準測試中的表現則更優於 Ornith-1.0-397B。

DeepReinforce 表示,Ornith 模型透過一種獨特的強化學習機制,不僅優化程式碼本身的生成,更重視改進解決問題的策略。在訓練過程中,模型會先提出精煉的任務處理策略,然後才利用該策略生成解決方案,並從結果中學習回饋,以提升策略優化能力。為了確保模型可靠性,Ornith 設置了三層防禦機制,防止模型鑽漏洞(reward hacking),確保其穩定運作。

Ornith-1.0 並非通用型人工智慧。模型文件明確指出,它可能在非編碼任務上的表現不佳。例如,如果使用者想讓 AI 總結文件、撰寫博士論文或草擬電子郵件,Ornith-1.0 並不是合適的選擇。它專為解決特定問題集而優化:在開發者工作流程中,AI代理人接收任務描述後,能在程式碼儲存庫或終端機工作階段中自主執行多步驟工作,無需人類干預。

這套模型主要針對已經建構 AI代理人基礎設施的開發者,對於那些仍在評估 AI 是否值得使用的普羅大眾來說,或許有其他更適合的選擇。然而,對於正在建立自主託管編碼流程或類似程式開發任務的開發者而言,這些開源的小型到中型模型在邊緣硬體上運行,將具有實質效益。