財經

谷歌揭曉Gemini Omni AI影片生成器能「模擬世界」

商商傳媒 2026-05-20 08:31 📖 3 分鐘閱讀

📋 重點摘要

● 谷歌發布最新多模態AI模型Gemini Omni，整合多款媒體生成工具，旨在提供「模擬世界」的影片生成能力。

● Gemini Omni被視為谷歌邁向人工通用智慧（AGI）的重要一步，能從任何輸入創造任何內容，並具備對世界的更高層次理解和多模態能力。

● 該模型展示了多項應用，包括透過對話修改影片元素、改變環境，以及生成特定風格的教育影片，並能有效保持影片的一致性。

● Gemini Omni利用Gemini的推理能力理解廣泛指令，並透過Flow平台提供AI助理協助使用者構思、組織素材和進行編輯。

#AI影片生成 #人工通用智慧 #多模態模型

相關人物：德米斯·哈薩比斯

相關組織：谷歌 DeepMind OpenAI

商傳媒｜葉安庭／綜合外電報導

谷歌（Google）於昨日（週二）揭曉旗下最新多模態人工智慧模型Gemini Omni，該工具整合了其Gemini AI模型與多款媒體生成工具，包括Veo、Nano Banana和Genie，目標是提供能「模擬世界」的下一代AI影片生成能力，被視為朝人工通用智慧（AGI）邁進的重要一步。

Gemini Omni的首次發布版本Gemini Omni Flash，將透過谷歌的AI電影製作平台Flow提供。此平台亦將包含AI輔助音樂創作工具Flow Music。DeepMind執行長德米斯·哈薩比斯（Demis Hassabis）形容Gemini Omni是「一個能從任何輸入創造任何內容的新模型」，它結合了Gemini的智慧與谷歌在生成式媒體模型方面的優勢，實現了對世界的更高層次理解、多模態能力及編輯功能。哈薩比斯強調，這一直以來都是Gemini的目標，也是其從一開始就設計為多模態的原因。

谷歌展示了Gemini Omni的多項應用。例如，使用者可以透過會話工具修改自拍影片，輕易地添加或替換影片中的元素，甚至改變周遭環境。此外，Gemini Omni還能生成黏土動畫風格的蛋白質摺疊教育影片。這款模型在影片編輯時，能有效保持角色、背景和動作的一致性，克服了許多現有AI影片模型面臨的挑戰。

Gemini Omni利用Gemini強大的推理能力來理解更廣泛的指令，讓使用者無需詳細描述場景即可實現創意。在Flow平台中，AI助理Flow Agent能夠協助使用者構思場景、組織素材、建議情節修改，並進行批量編輯專案。同時，Flow Tools則讓使用者無需編寫程式碼，即可透過自然語言提示創建客製化的編輯工作流程。

此前，谷歌的AI影像編輯模型Nano Banana曾助推Gemini應用程式的下載量和搜尋熱度，一度超越ChatGPT。而其後繼版本Nano Banana 2在動漫插畫和空間構圖方面表現優異，相較之下，OpenAI的GPT Image 2則在寫實照片和文字渲染上更勝一籌。谷歌表示，未來將逐步擴大Gemini Omni的應用範圍，視其為Gemini多模態設計的長期願景。