財經

專為AI代理人設計開源編碼模型Ornith-1.0正式亮相

商商傳媒 2026-06-30 11:57 📖 4 分鐘閱讀

📋 重點摘要

● 科技新創 DeepReinforce 推出專為 AI 代理人設計的開源編碼模型 Ornith-1.0。

● Ornith-1.0 模型能自主執行多步驟程式開發任務，無需人類持續介入。

● 在 SWE-bench Verified 和 Terminal Bench 2.1 等多項基準測試中，Ornith-1.0 展現優異表現，部分超越業界領先模型。

● 模型採用獨特的強化學習機制，並設有三層防禦機制以確保可靠性。

● Ornith-1.0 專注於編碼任務，不適用於通用型 AI 應用，主要目標為已建構 AI 代理人基礎設施的開發者。

#AI代理人 #程式開發 #開源編碼模型

相關組織： DeepReinforce Google Anthropic

商傳媒｜何映辰／台北報導

科技新創 DeepReinforce 於 6 月 25 日推出一套名為 Ornith-1.0 的開源編碼模型，這組模型專為「AI代理人」（AI Agent）設計，而非傳統上供人類直接使用的工具。這項發布預期將推動人工智慧在自動化程式開發領域的應用。

AI代理人與傳統人工智慧不同，它能接收一項任務，然後自主執行多步驟行動來完成，中間無需人類不斷介入。在程式開發的脈絡下，AI代理人可以自行閱讀程式碼文件、執行測試、識別失敗環節、修正錯誤，並重複這個循環直到任務完成，大幅減少人類在鍵盤前的操作時間。DeepReinforce 形容 Ornith-1.0 是「專為代理人編碼任務設計，且能自我改進的開源模型家族」。

Ornith-1.0 系列模型以 MIT授權條款在 Hugging Face 上發布，共有四種尺寸：90億、310億、350億混合專家模型，以及旗艦級的 3970億參數混合專家模型。該系列模型專為 AI 編碼代理人設計，適用於真實的終端機與程式碼儲存庫環境。

在多項基準測試中，Ornith-1.0 展現了亮眼表現。在 SWE-bench Verified 測試（一項要求 AI 在不查看測試套件的情況下修復開源 GitHub 儲存庫中的真實錯誤的測驗）中，Ornith-1.0 的 90億參數版本得分達 69.4，優於谷歌（Google）的 Gemma 4-31B（52.0分），且與 Qwen 3.5-35B 的 70分表現相當，儘管其參數規模僅為後者約三分之一。旗艦級的 3970億參數模型在 SWE-bench Verified 上獲得 82.4 分。

此外，Ornith-1.0-397B 在 Terminal Bench 2.1 測試（模擬容器化終端環境中的 89 項任務，如偵錯非同步程式碼、解決安全漏洞）中取得 77.5 分，超越了 Anthropic 的 Claude Opus 4.7（70.3分）。不過，Anthropic 目前最新的旗艦模型 Claude Opus 4.8 在綜合編碼基準測試中的表現則更優於 Ornith-1.0-397B。

DeepReinforce 表示，Ornith 模型透過一種獨特的強化學習機制，不僅優化程式碼本身的生成，更重視改進解決問題的策略。在訓練過程中，模型會先提出精煉的任務處理策略，然後才利用該策略生成解決方案，並從結果中學習回饋，以提升策略優化能力。為了確保模型可靠性，Ornith 設置了三層防禦機制，防止模型鑽漏洞（reward hacking），確保其穩定運作。

Ornith-1.0 並非通用型人工智慧。模型文件明確指出，它可能在非編碼任務上的表現不佳。例如，如果使用者想讓 AI 總結文件、撰寫博士論文或草擬電子郵件，Ornith-1.0 並不是合適的選擇。它專為解決特定問題集而優化：在開發者工作流程中，AI代理人接收任務描述後，能在程式碼儲存庫或終端機工作階段中自主執行多步驟工作，無需人類干預。

這套模型主要針對已經建構 AI代理人基礎設施的開發者，對於那些仍在評估 AI 是否值得使用的普羅大眾來說，或許有其他更適合的選擇。然而，對於正在建立自主託管編碼流程或類似程式開發任務的開發者而言，這些開源的小型到中型模型在邊緣硬體上運行，將具有實質效益。