Gemini Omni 是什麼?這款「任意創作」AI模型終於來了!
好吧,我得先把話挑明:我是真的對這個東西感到由衷興奮。我們所有人都眼睜睜看著人工智慧領域以極快的速度不斷演進——還記得當初我們還在為聊天機器人狂熱追捧的時候嗎?沒錯,那些日子早已一去不復返了。
現在是2026年5月20日,谷歌剛在其年度I/O開發者大會上拋出了一則重磅消息。女士們,先生們,快來跟Gemini Omni打個招呼吧!
如果你一直在追蹤相關傳聞,過去幾週裡你可能已經在科技推特上多次看過這個名字流傳。但如今一切都正式宣布了。桑達·皮查伊親自登臺,介紹了或許是迄今為止我們見過的最具雄心的人工智慧模型。
等等——Gemini Omni到底是什麼?為什麼所有人都在為它瘋狂?而最重要的是,你是否有必要關注它?
拿起你最愛的早間飲品,因為我們將深入探討谷歌最新推出的心血力作的所有你需要了解的內容。我們開始吧!
Gemini Omni到底是什麼?
讓我用最簡單的方式來解釋一下。
還記得大多數人工智慧模型都多少有點……侷限性嗎?文本模型只能讀寫,圖像模型只能生成圖片,視頻模型則只能輸出視頻片段。這就好比一個只會切菜卻完全不會真正下廚的廚師。
Gemini Omni 徹底擊碎了那面牆。
本質上來說,Gemini Omni是一款原生多模態人工智慧模型,谷歌執行長桑達爾·皮查伊稱其能夠「基於任意輸入創造任意內容」。這意味著你幾乎可以向它輸入文字、影像、音訊和影片的任意組合,它能夠理解所有這些輸入之間的關聯,從而生成連貫且有意義的內容。
這不僅僅是將不同的片段拼接在一起。該模型實際上會針對你提供的所有資訊進行綜合推理。它通曉物理、文化、歷史與科學知識,進而產生在現實世界中合乎邏輯的輸出內容。
用谷歌自己的話來說,Gemini 全能版具備「任意輸入、任意輸出」的能力——打破了傳統模態碎片化的限制,實現了跨文本、影像、音訊和影片的無縫理解與自由形態生成。
魔法背後的科技
那麼它的底層實際上是如何運作的?谷歌在這一點上毫無保留。
Gemini Omni 建基於三大核心技術支柱:
1. Genie(吉尼)—— 谷歌用於模擬真實物理環境的世界模型
2. Nano Banana — 我們一直鐘愛的影像生成與編輯模型
3. Veo——這款一直在幕後默默精進的頂尖視頻生成工具
將這三者整合,藉助Gemini的推理能力,你就能獲得一款不僅能生成內容,更能理解自身所生成內容的模型。
妮可·布里奇托娃(Nicole Brichtova),谷歌DeepMind的產品管理總監,在新聞發布會上明確表示:這不僅僅是對Veo的一次更新。它是「朝著將Gemini的智能與我們的媒體模型的渲染能力相結合的方向邁出的下一步」。
而這一刻我實在驚得下巴都掉了。在演示過程中,DeepMind的首席技術官科雷·卡武庫古盧(Koray Kavukcuoglu)展示了當給Omni輸入一個簡單提示語:「蛋白質摺疊的黏土動畫科普講解」時的效果。
這個模型快速生成了一部完整的定格動畫風格影片,搭配旁白解說了蛋白質如何以胺基酸鏈做為起始形式,並摺疊形成α螺旋與β摺疊片層。
花一秒鐘想想這事。 它能生成逼真的定格動畫——不僅有畫面,還有科學精準的配套旁白。 僅需數秒即可完成。
你目前究竟能通過Gemini Omni實際做些什麼?
好吧,這項技術確實令人讚歎。 不過咱們來聊聊實際應用場景吧,因為這才是真正重要的。
本系列的首款機型名為Gemini Omni Flash,今日正式發布。以下是您剛推出即可使用的各項功能:
將混合輸入轉換為影片
想要使用參考圖片、風格影片片段和背景音樂,生成能將三者無縫融合的作品嗎?Omni Flash 就可以做到這一點。它能從你的圖片中擷取視覺風格、從影片中捕捉鏡頭運動、從音訊中感知節奏,並最終產出一個協調統一的成品。
對話式影片編輯
這就是將永久改變內容創作方式的功能。
與傳統工作流程——生成 → 發現問題 → 重寫提示詞 → 重新生成(反覆循環直到你不堪其擾)——不同的是,Omni Flash 讓你只需……和它對話即可。
拍了一段有人拉小提琴的影片,但想讓小提琴消失?只需輸入「讓小提琴隱形」。想要改變鏡頭角度?只需輸出「將鏡頭角度調整到小提琴手的肩膀後方」。想要關閉燈光?只需輸入「調暗房間內的燈光」。
每一條指令都建立在前一條的基礎上,因此你可以進行迭代而完全不必從頭再來。
創建數位虛擬形象
這可太絕了。Omni Flash 能讓你創建一個既長得像你、聲音也和你一模一樣的數位虛擬分身。只要錄幾段你讀數字的音頻,這個模型就會儲存你的虛擬分身,供日後使用。
在你因深度偽造感到恐慌之前,谷歌已經內建了安全防護措施。頭像創建需要單獨的註冊流程,而每一個使用Omni生成的影片都會附帶谷歌的SynthID數位水印——這種水印人類肉眼無法察覺,但可被驗證為AI生成內容。
物理感知生成
有一件事一直讓我很在意,關於 人工智慧視頻工具?它們常常無視物理定律。本該下落的物體卻漂浮了起來。水流無法正常流動。重力顯然可有可無。
Omni Flash 經過專門訓練,能夠理解重力、動能和流體動力學。因此當你生成場景時,物體之間以及它們與所處環境的互動方式完全符合物理邏輯。
在I/O演示會上,該團隊展示了僅透過一張手繪草圖與一段文字指令,就能生成一段具備逼真物理碰撞效果的完整特效影片。這不僅令人印象深刻,更具備實用價值。
Gemini Omni 發布日期 — 今日即可體驗!
最精彩的部分來了:不用久等。
Gemini Omni 的發布日期是2026年5月20日——也就是此時此刻。谷歌於5月19日的I/O主題演講中公布了這一消息,截至5月20日,該產品已在全球範圍內逐步推送上線。
如果你是 Google AI Plus、Pro 或 Ultra 訂閱用戶,如今即可透過 Gemini 應用與 Google Flow 使用 Gemini Omni Flash。從本週起,YouTube Shorts 與 YouTube Create 應用將提供免費使用權限,方便創作者進行測試。
谷歌還計劃在未來幾週內透過API向開發者和企業客戶開放Omni的使用權限。
只有一個小問題需要注意:目前生成一段影片會消耗你每日配額中的很大一部分額度。不過谷歌已經在研發更長時長的影片生成功能——當前的10秒限制只是上線階段的策略選擇,並非模型本身的局限。
接下來會發生什麼?
Omni 系列才剛剛起步。谷歌已經在研發一款定位更高端的機型,名為 Gemini Omni Pro,面向廣告製作、影片製作等專業應用場景。
從更長遠的角度來看,這一願景更為宏大。谷歌計劃拓展Omni的功能,使其能夠透過音訊生成圖像,或是透過影片生成音訊。隨著時間推移,Omni將能夠實現任意格式的輸入對應生成任意格式的輸出。
皮查伊在本次情況通報會上總結得十分精闢:「藉助世界模型,人工智慧正從預測文字轉向模擬現實。Gemini Omni正是此方向上的下一步。」
安全簡要提示
要是我不提這一點,就有疏失之嫌。谷歌正透過Omni認真處理內容認證工作。所有生成的影片都會加入SynthID浮水印,用戶可透過Gemini應用程式或谷歌搜尋,核實任何AI生成內容的來源。
音頻與語音編輯功能正以更為審慎的方式推出,谷歌目前仍在測試如何讓使用者負責任地修改音頻,之後才會將該功能廣泛普及。
準備好開始創作了嗎?
聽著,我已經測試過很多 人工智慧工具 過去幾年間,有些只不過是華而不實的噱頭,有些則真正實用。 Gemini Omni 無疑屬於後者。
能夠混合任意類型的輸入——文字、影像、音訊、影片——並得到連貫且可用的結果,這是一次真正的跨越式進步。而對話式編輯?這可不只是一個可有可無的錦上添花的功能。它正是能從根本上改變你的工作方式的一類特性。
無論你是內容創作者、行銷人員,還是只喜歡倒騰新技術的人,Gemini Omni 都絕對值得你關注。 Gemini Omni 確實非常適合製作10秒短片和對話剪輯。但如果你需要一整部完整的3分鐘動畫故事呢?又或者你已有腳本,只是希望在不學習剪輯技巧的情況下將其轉換成影片呢?
Elser.ai是我首選的AI腳本轉影片工具——我只需要貼上旁白,選擇一個風格,它就能生成數分鐘流暢的影片素材。此外,它還能輕鬆製作60fps的動畫影片,絕對值得一試。
👉 點擊此處試用 Elser.ai 免費的——你就會明白我的意思了。


