商傳媒|葉安庭/綜合外電報導

谷歌(Google)於昨日(週二)揭曉旗下最新多模態人工智慧模型Gemini Omni,該工具整合了其Gemini AI模型與多款媒體生成工具,包括Veo、Nano Banana和Genie,目標是提供能「模擬世界」的下一代AI影片生成能力,被視為朝人工通用智慧(AGI)邁進的重要一步。

Gemini Omni的首次發布版本Gemini Omni Flash,將透過谷歌的AI電影製作平台Flow提供。此平台亦將包含AI輔助音樂創作工具Flow Music。DeepMind執行長德米斯·哈薩比斯(Demis Hassabis)形容Gemini Omni是「一個能從任何輸入創造任何內容的新模型」,它結合了Gemini的智慧與谷歌在生成式媒體模型方面的優勢,實現了對世界的更高層次理解、多模態能力及編輯功能。哈薩比斯強調,這一直以來都是Gemini的目標,也是其從一開始就設計為多模態的原因。

谷歌展示了Gemini Omni的多項應用。例如,使用者可以透過會話工具修改自拍影片,輕易地添加或替換影片中的元素,甚至改變周遭環境。此外,Gemini Omni還能生成黏土動畫風格的蛋白質摺疊教育影片。這款模型在影片編輯時,能有效保持角色、背景和動作的一致性,克服了許多現有AI影片模型面臨的挑戰。

Gemini Omni利用Gemini強大的推理能力來理解更廣泛的指令,讓使用者無需詳細描述場景即可實現創意。在Flow平台中,AI助理Flow Agent能夠協助使用者構思場景、組織素材、建議情節修改,並進行批量編輯專案。同時,Flow Tools則讓使用者無需編寫程式碼,即可透過自然語言提示創建客製化的編輯工作流程。

此前,谷歌的AI影像編輯模型Nano Banana曾助推Gemini應用程式的下載量和搜尋熱度,一度超越ChatGPT。而其後繼版本Nano Banana 2在動漫插畫和空間構圖方面表現優異,相較之下,OpenAI的GPT Image 2則在寫實照片和文字渲染上更勝一籌。谷歌表示,未來將逐步擴大Gemini Omni的應用範圍,視其為Gemini多模態設計的長期願景。