財經

OpenAI Codex 躍升桌面 AI 助理能控 Mac 應用並支援行動裝置

商商傳媒 2026-05-25 07:59 📖 5 分鐘閱讀

📋 重點摘要

● OpenAI 的 Codex 模型已從沙盒工具轉型為可操控 Mac 應用程式的桌面 AI 代理。

● 新增螢幕記憶功能 Chronicle，能儲存使用者螢幕畫面摘要，以提供情境記憶，但存在安全風險。

● OpenAI 推出了 GPT-5.5 模型，在代理式編程基準測試中達到 82.7% 的準確度。

● 行動應用程式整合預覽版支援 iOS 和 Android，可遠端監控和批准 Codex 在桌面環境執行的任務。

#行動裝置 #Codex #AI 助理 #GPT-5.5

相關人物： Eli Smadja Michael Truell

相關組織： OpenAI Microsoft Apple

商傳媒｜林昭衡／綜合外電報導

人工智慧（AI）巨擘 OpenAI 旗下程式模型 Codex，在今年春季歷經六週的快速發展，已從原先受限於沙盒環境的工具，轉型為具備操控麥金塔電腦（Mac）應用程式能力的桌面 AI 代理。這項重大進展，不僅讓 Codex 能監控螢幕以建立情境記憶，更實現了行動裝置同步運作。

OpenAI 在今年春季陸續推出三項重大更新。首先，4 月 16 日釋出的「Codex for (almost) everything」版本，賦予 Codex 操作 Mac 滑鼠與鍵盤的電腦使用能力，無論應用程式是否提供 API，皆可直接互動。此外，該版本還新增本機檔案存取、內建瀏覽器，以及透過 GPT Image 1.5 進行影像生成的功能。Codex 現在能同時執行多個背景任務，且不干擾使用者前方工作。

該系統能操作多種第三方應用程式，涵蓋範圍包括 Atlassian Rovo 搭配 Jira 管理、CircleCI、CodeRabbit、GitLab Issues、微軟（Microsoft）的微軟套件（Microsoft Suite）、Neon by Databricks、Remotion、Render 和 Superpowers 等。這些功能透過插件（Plugins）擴展，每個插件都將「技能」（Skills）——可重複使用的指令與腳本捆綁包——與基於「模型上下文協議」（Model Context Protocol）標準建立的應用程式專用連接器配對。使用者也能自訂技能，例如抓取 YouTube 影片逐字稿、生成 Excalidraw 圖表或自動部署行動應用程式。

緊接著，OpenAI 在 4 月 20 日導入了名為 Chronicle 的螢幕記憶功能。這項功能透過沙盒化背景代理程式，定期擷取使用者螢幕截圖，利用光學字元辨識技術提取文字，並將選定的畫面摘要成文字記憶，以 Markdown 檔案形式儲存於使用者裝置。當使用者隨後向 Codex 發出「修復此問題」或「繼續我昨天的工作」等指令時，代理程式能讀取這些記憶，無須使用者重複解釋情境。

然而，OpenAI 自家的開發者文件也坦承，Chronicle 存在風險，例如「快速耗用速率限制、增加提示注入（prompt injection）風險，以及將記憶以未加密形式儲存於裝置上。」即使螢幕截圖在處理後不會被 OpenAI 伺服器保留（除非法律要求），且超過六小時的截圖會自動刪除，但儲存於本機的 Markdown 記憶檔案仍可供裝置上其他應用程式存取。此功能尤其可能面臨「提示注入」的威脅，即 Codex 可能會遵循網頁上隱藏或偽裝的指令。OpenAI 建議使用者在會議或查看敏感資料時暫停 Chronicle。鑑於其安全疑慮，這項功能目前僅限 Apple Silicon Mac 上的 ChatGPT Pro 訂閱用戶使用，且在歐洲聯盟、英國和瑞士等地區遭到禁用，反映出仍待解決的法規問題。資安專家 Eli Smadja 警告，不應預設 AI 工具是安全的。

值得一提的是，OpenAI 於 4 月 23 日推出 GPT-5.5 模型，並在 4 月 24 日開放 API 介面，推薦其成為大多數 Codex 任務的預設模型。GPT-5.5 在 Terminal-Bench 2.0 測試中，展現了 82.7% 的準確度，是 OpenAI 迄今在代理式編程基準測試中的最高分數。Cursor 共同創辦人暨執行長 Michael Truell 形容 GPT-5.5「明顯比 GPT-5.4 更聰明、更具持久性，擁有更強的編碼效能和更可靠的工具使用能力」。

第三項重大更新是 5 月 14 日釋出的行動應用程式整合預覽版，適用於所有 ChatGPT 方案（包括免費版本），支援 iOS 和 Android 系統。行動應用程式本身不執行程式碼，而是顯示 Codex 在配對桌面或遠端開發環境中執行的即時畫面，包括終端機輸出、檔案差異、桌面瀏覽器截圖以及代理程式的待批准請求。使用者可透過手機批准或拒絕特定指令，並在執行過程中切換 GPT-5.4 與 GPT-5.5，甚至啟動新專案。所有敏感資料（憑證、檔案、本機環境設定）都保留在主機上。儘管微軟視窗作業系統（Windows）支援預計「即將推出」，但目前行動整合仍需在麥金塔作業系統（macOS）上運行 Codex 桌面應用程式。

這項整合使得開發者能享有嶄新的協作模式，例如在辦公室啟動一個耗時的重構任務後，可離開辦公室，並在餐廳透過手機批准程式碼提交、拒絕特定變更，或回答語意不清的問題。OpenAI 將其描述為「一種新的協作節奏」，讓長時間運行的自主代理任務僅在需要人類判斷時才暫停。