財經

OPPO推出開源裝置端AI代理實現感知與跨應用自動化

商商傳媒 2026-05-19 18:35 📖 3 分鐘閱讀

商傳媒｜何映辰／台北報導

OPPO 的人工智慧團隊近日發表一款名為 X-OmniClaw 的開源 Android AI 代理框架，目的是將智慧型手機轉變為一個免手動、具備語境感知，且能在實際應用程式中執行真實任務的助理，而無需將所有操作都透過雲端進行。《Decrypt》報導指出，X-OmniClaw 的核心邏輯完全在裝置端執行，僅在需要進行「重度推論」時才會呼叫雲端大型語言模型（LLM）。

X-OmniClaw 的設計理念與大多數行動 AI 系統截然不同，後者通常運行於託管虛擬 Android 副本的雲端伺服器上。根據其技術報告，X-OmniClaw 採用「邊緣原生架構，直接在用戶的實體裝置上執行」，從而消除了模擬環境與現實世界互動情境之間的隔閡。報告以汽車類比，將智慧型手機視為「載具」，X-OmniClaw 為「控制與感知用的內部引擎」，而雲端大型語言模型則僅在需要大量「燃料」（即重度推論）時才會被調用。

X-OmniClaw 的整體架構建立在三大支柱之上：全方位感知（Omni Perception）、全方位行動（Omni Action）以及全方位記憶（Omni Memory）。這些模組以連續循環的方式協同運作。全方位感知結合了攝影機影像、螢幕內容與語音輸入，透過視覺語言模型解釋情境後，代理才會採取進一步行動。全方位記憶則透過從照片圖庫建立長期語義記憶，將原始影像轉換為關於物體、場景和事件的結構化筆記，從而在不同任務、應用程式切換與會話之間保持語境，使其有別於一次性的聊天機器人。

此外，全方位行動負責執行任務，它結合了 XML 介面資料、裝置端視覺模型與光學字元辨識（OCR）技術。其中一項重要功能是「行為複製」（behavior cloning），用戶只需錄製一次進入應用程式深層頁面的導航路徑，代理未來便能透過 Android deeplink 立即重現該路徑，大幅簡化多步驟的應用程式操作。實際應用案例包含：代理可透過攝影機識別實體商品，自動開啟淘寶網進行比價並返回價格摘要；或逐步引導使用者完成數學練習，自動閱讀螢幕內容、處理問題並推進進度。它也能掃描圖庫，利用語義記憶尋找符合主題的照片，接著透過 deeplink 開啟剪映應用程式，批次選取檔案並自動生成影片。

OPPO 的人工智慧團隊表示，X-OmniClaw 延續了開源 HermesApp 程式碼庫的架構，並從 OpenClaw 的結構化技能模型中汲取靈感，進而針對智慧型手機的多模態與隨時在線特性進行改編。目前，該專案的程式碼已在 GitHub 上發布，OPPO 表示將持續發布所有資產並更新該專案。此類裝置端 AI 代理的發展，對於企業在導入 AI 自動化工具時，將提供更具隱私性、低延遲及離線運作能力的選擇，同時也突顯出在面對需要重度推論或複雜判斷的任務時，人工智慧與人類協作的重要性。