OpenAI今天(22日)宣布將推出全新圖像模型「Images 2.0」,主打細節還原、版面編排、多語言文字生成與複雜指令理解能力全面升級,並已開放所有ChatGPT方案使用,API端則可透過gpt-image-2 模型接入。官方強調,新版不僅支援更多長寬比例與更高品質輸出,還導入「images with
thinking」能力,讓AI圖像生成從過去偏向展示效果,朝向更實際可用的方向邁進。
根據OpenAI公開資訊,Images2.0在細節還原、版面編排及多語言處理等面向都有明顯升級,並已同步開放所有ChatGPT與Codex用戶使用;至於AP端,開發者則可透過gpt-image-2 模型接入。
這次更新最受矚目的亮點,在於模型對複雜指令的理解能力明顯提升。Images 2.0能更精確安排物件位置、掌握元素之間的關係,也能更完整保留使用者指定的細節。過去常見的小字模糊、UI元件錯位,或整體構圖凌亂等問題,在新版中都有顯著改善。官方指出,模型現在已能更穩定處理圖示、介面設計及高密度資訊排版,輸出畫質最高可達2K解析度。
在語言支援領域,Images 2.0也進一步強化多語言生成能力,特別針對非英語市場進行優化,可產出語意較自然、拼寫也較準確的文字內容。這項更新也讓AI圖像生成不再侷限於英文情境,對需要中文、日文或其他語言視覺素材的使用者來說,適用範圍進一步擴大。
在視覺風格表現上,Images 2.0 也進一步強化寫實能力,對不同藝術風格的一致性掌握更穩定。無論是照片級影像、電影分鏡、像素風或漫畫風格,都能呈現較自然的光影、材質與構圖。OpenAI也指出,相關功能可應用於遊戲開發、行銷設計、內容創作與視覺原型製作等場景。
另外,Images 2.0也進一步支援從3:1到1:3的多種長寬比,能直接生成適用於橫幅、簡報、海報以及社群平台等不同場景的圖像素材。這項設計提升了生成內容的彈性,也可減少後續裁切、重排與調整的需求,讓圖像更容易直接套用到實際工作流程中。
OpenAI強調,Images 2.0 是首款具備「思考能力」的影像模型,若搭配具推理能力的ChatGPT使用,模型除可搜尋即時資訊外,也能生成多個版本圖像、檢查輸出內容,甚至製作具功能性的QR Code。官方認為,這項更新顯示AI圖像模型的應用,已從單純依指令生成內容,進一步擴展到協助構思與處理更複雜的視覺任務。(責任編輯:王晨芝)