商傳媒|林昭衡/綜合外電報導

人工智慧(AI)巨擘 OpenAI 旗下程式模型 Codex,在今年春季歷經六週的快速發展,已從原先受限於沙盒環境的工具,轉型為具備操控麥金塔電腦(Mac)應用程式能力的桌面 AI 代理。這項重大進展,不僅讓 Codex 能監控螢幕以建立情境記憶,更實現了行動裝置同步運作。

OpenAI 在今年春季陸續推出三項重大更新。首先,4 月 16 日釋出的「Codex for (almost) everything」版本,賦予 Codex 操作 Mac 滑鼠與鍵盤的電腦使用能力,無論應用程式是否提供 API,皆可直接互動。此外,該版本還新增本機檔案存取、內建瀏覽器,以及透過 GPT Image 1.5 進行影像生成的功能。Codex 現在能同時執行多個背景任務,且不干擾使用者前方工作。

該系統能操作多種第三方應用程式,涵蓋範圍包括 Atlassian Rovo 搭配 Jira 管理、CircleCI、CodeRabbit、GitLab Issues、微軟(Microsoft)的微軟套件(Microsoft Suite)、Neon by Databricks、Remotion、Render 和 Superpowers 等。這些功能透過插件(Plugins)擴展,每個插件都將「技能」(Skills)——可重複使用的指令與腳本捆綁包——與基於「模型上下文協議」(Model Context Protocol)標準建立的應用程式專用連接器配對。使用者也能自訂技能,例如抓取 YouTube 影片逐字稿、生成 Excalidraw 圖表或自動部署行動應用程式。

緊接著,OpenAI 在 4 月 20 日導入了名為 Chronicle 的螢幕記憶功能。這項功能透過沙盒化背景代理程式,定期擷取使用者螢幕截圖,利用光學字元辨識技術提取文字,並將選定的畫面摘要成文字記憶,以 Markdown 檔案形式儲存於使用者裝置。當使用者隨後向 Codex 發出「修復此問題」或「繼續我昨天的工作」等指令時,代理程式能讀取這些記憶,無須使用者重複解釋情境。

然而,OpenAI 自家的開發者文件也坦承,Chronicle 存在風險,例如「快速耗用速率限制、增加提示注入(prompt injection)風險,以及將記憶以未加密形式儲存於裝置上。」即使螢幕截圖在處理後不會被 OpenAI 伺服器保留(除非法律要求),且超過六小時的截圖會自動刪除,但儲存於本機的 Markdown 記憶檔案仍可供裝置上其他應用程式存取。此功能尤其可能面臨「提示注入」的威脅,即 Codex 可能會遵循網頁上隱藏或偽裝的指令。OpenAI 建議使用者在會議或查看敏感資料時暫停 Chronicle。鑑於其安全疑慮,這項功能目前僅限 Apple Silicon Mac 上的 ChatGPT Pro 訂閱用戶使用,且在歐洲聯盟、英國和瑞士等地區遭到禁用,反映出仍待解決的法規問題。資安專家 Eli Smadja 警告,不應預設 AI 工具是安全的。

值得一提的是,OpenAI 於 4 月 23 日推出 GPT-5.5 模型,並在 4 月 24 日開放 API 介面,推薦其成為大多數 Codex 任務的預設模型。GPT-5.5 在 Terminal-Bench 2.0 測試中,展現了 82.7% 的準確度,是 OpenAI 迄今在代理式編程基準測試中的最高分數。Cursor 共同創辦人暨執行長 Michael Truell 形容 GPT-5.5「明顯比 GPT-5.4 更聰明、更具持久性,擁有更強的編碼效能和更可靠的工具使用能力」。

第三項重大更新是 5 月 14 日釋出的行動應用程式整合預覽版,適用於所有 ChatGPT 方案(包括免費版本),支援 iOS 和 Android 系統。行動應用程式本身不執行程式碼,而是顯示 Codex 在配對桌面或遠端開發環境中執行的即時畫面,包括終端機輸出、檔案差異、桌面瀏覽器截圖以及代理程式的待批准請求。使用者可透過手機批准或拒絕特定指令,並在執行過程中切換 GPT-5.4 與 GPT-5.5,甚至啟動新專案。所有敏感資料(憑證、檔案、本機環境設定)都保留在主機上。儘管微軟視窗作業系統(Windows)支援預計「即將推出」,但目前行動整合仍需在麥金塔作業系統(macOS)上運行 Codex 桌面應用程式。

這項整合使得開發者能享有嶄新的協作模式,例如在辦公室啟動一個耗時的重構任務後,可離開辦公室,並在餐廳透過手機批准程式碼提交、拒絕特定變更,或回答語意不清的問題。OpenAI 將其描述為「一種新的協作節奏」,讓長時間運行的自主代理任務僅在需要人類判斷時才暫停。