OPPO推出開源裝置端AI代理 實現感知與跨應用自動化
OPPO 的人工智慧團隊近日發表一款名為 X-OmniClaw 的開源 Android AI 代理框架,目的是將智慧型手機轉變為一個免手動、具備語境感知,且能在實際應用程式中執行真實任務的助理,而無需將所有操作都透過雲端進行。《Decrypt》報導指出,X-OmniClaw 的核心邏輯完全在裝置端執行,僅在需要進行「重度推論」時才會呼叫雲端大型語言模型(LLM)。
X-OmniClaw 的設計理念與大多數行動 AI 系統截然不同,後者通常運行於託管虛擬 Android 副本的雲端伺服器上。根據其技術報告,X-OmniClaw 採用「邊緣原生架構,直接在用戶的實體裝置上執行」,從而消除了模擬環境與現實世界互動情境之間的隔閡。報告以汽車類比,將智慧型手機視為「載具」,X-OmniClaw 為「控制與感知用的內部引擎」,而雲端大型語言模型則僅在需要大量「燃料」(即重度推論)時才會被調用。
X-OmniClaw 的整體架構建立在三大支柱之上:全方位感知(Omni Perception)、全方位行動(Omni Action)以及全方位記憶(Omni Memory)。這些模組以連續循環的方式協同運作。全方位感知結合了攝影機影像、螢幕內容與語音輸入,透過視覺語言模型解釋情境後,代理才會採取進一步行動。全方位記憶則透過從照片圖庫建立長期語義記憶,將原始影像轉換為關於物體、場景和事件的結構化筆記,從而在不同任務、應用程式切換與會話之間保持語境,使其有別於一次性的聊天機器人。
此外,全方位行動負責執行任務,它結合了 XML 介面資料、裝置端視覺模型與光學字元辨識(OCR)技術。其中一項重要功能是「行為複製」(behavior cloning),用戶只需錄製一次進入應用程式深層頁面的導航路徑,代理未來便能透過 Android deeplink 立即重現該路徑,大幅簡化多步驟的應用程式操作。實際應用案例包含:代理可透過攝影機識別實體商品,自動開啟淘寶網進行比價並返回價格摘要;或逐步引導使用者完成數學練習,自動閱讀螢幕內容、處理問題並推進進度。它也能掃描圖庫,利用語義記憶尋找符合主題的照片,接著透過 deeplink 開啟剪映應用程式,批次選取檔案並自動生成影片。
OPPO 的人工智慧團隊表示,X-OmniClaw 延續了開源 HermesApp 程式碼庫的架構,並從 OpenClaw 的結構化技能模型中汲取靈感,進而針對智慧型手機的多模態與隨時在線特性進行改編。目前,該專案的程式碼已在 GitHub 上發布,OPPO 表示將持續發布所有資產並更新該專案。此類裝置端 AI 代理的發展,對於企業在導入 AI 自動化工具時,將提供更具隱私性、低延遲及離線運作能力的選擇,同時也突顯出在面對需要重度推論或複雜判斷的任務時,人工智慧與人類協作的重要性。