Gemini Omni 是什么?这款「任意创作」AI模型终于来了!

来源: Elser AI

好吧,我得先把话挑明:我是真的对这个东西感到由衷兴奋。我们所有人都眼看着人工智能领域以极快的速度不断演进——还记得当初我们还在为聊天机器人狂热追捧的时候吗?没错,那些日子早已一去不复返了。

现在是2026年5月20日,谷歌刚在其年度I/O开发者大会上抛出了一则重磅消息。女士们,先生们,快来跟Gemini Omni打个招呼吧!

如果你一直在追踪相关传闻,过去几周里你可能已经在科技推特上多次看到这个名字流传。但如今一切都正式官宣了。桑达尔·皮查伊亲自登台,介绍了或许是迄今为止我们见过的最具雄心的人工智能模型。

等等——Gemini Omni到底是什么?为什么所有人都在为它疯狂?而最重要的是,你是否有必要关注它?

拿起你最爱的晨间饮品,因为我们将深入探讨谷歌最新推出的心血之作的所有你需要了解的内容。我们开始吧!

Gemini Omni到底是什么?

让我用最简单的方式来解释一下。

还记得大多数人工智能模型都多少有点……局限性吗?文本模型只能读写,图像模型只能生成图片,视频模型则只能输出视频片段。这就好比一个只会切菜却完全不会真正下厨的厨师。

Gemini Omni 彻底击碎了那面墙。

从本质上来说,Gemini Omni是一款原生多模态人工智能模型,谷歌CEO桑达尔·皮查伊称其能够“基于任意输入创造任意内容”。这意味着你几乎可以向它输入文本、图像、音频和视频的任意组合,它能够理解所有这些输入之间的关联,从而生成连贯且有意义的内容。

这不仅仅是将不同的片段拼接在一起。该模型实际上会对你提供的所有信息进行综合推理。它通晓物理、文化、历史和科学知识,从而生成在现实世界中合乎逻辑的输出内容。

用谷歌自己的话来说,Gemini 全能版具备「任意输入、任意输出」的能力——打破了传统模态碎片化的限制,实现了跨文本、图像、音频和视频的无缝理解与自由形态生成。

魔法背后的科技

那么它的底层实际上是如何运作的?谷歌在这一点上毫无保留。

Gemini Omni 基于三大核心技术支柱构建:

1. Genie(吉尼)—— 谷歌用于模拟真实物理环境的世界模型

2. Nano Banana — 我们一直钟爱的图像生成与编辑模型

3. Veo——这款一直在幕后默默精进的顶尖视频生成工具

将这三者整合,借助Gemini的推理能力,你就能获得一款不仅能生成内容,更能理解自身所生成内容的模型。

妮可·布里奇托娃(Nicole Brichtova),谷歌DeepMind的产品管理总监,在新闻发布会上明确表示:这不仅仅是对Veo的一次更新。它是“朝着将Gemini的智能与我们的媒体模型的渲染能力相结合的方向迈出的下一步”。

而这一刻我着实惊掉了下巴。在演示过程中,DeepMind的首席技术官科雷·卡武库古卢(Koray Kavukcuoglu)展示了当给Omni输入一个简单提示语:“蛋白质折叠的黏土动画科普讲解”时的效果。

该模型快速生成了一部完整的定格动画风格视频,搭配旁白讲解了蛋白质如何以氨基酸链为起始形式,并折叠形成α螺旋与β折叠片层。

花一秒钟想想这事。 它能生成逼真的定格动画——不仅有画面,还有科学精准的配套旁白。 仅需数秒即可完成。

你目前究竟能通过Gemini Omni实际做些什么?

好吧,这项技术确实令人赞叹。 不过咱们来聊聊实际应用场景吧,因为这才是真正重要的。

该系列的首款机型名为Gemini Omni Flash,今日正式发布。以下是您刚推出即可使用的各项功能:

将混合输入转换为视频

想要使用参考图片、风格视频片段和背景音乐,生成能将三者无缝融合的作品吗?Omni Flash 就可以做到这一点。它能从你的图片中提取视觉风格、从视频中捕捉镜头运动、从音频中感知节奏,并最终产出一个协调统一的成品。

对话式视频编辑

这就是将永久改变内容创作方式的功能。

与传统工作流程——生成 → 发现问题 → 重写提示词 → 重新生成(反复循环直到你不堪其扰)——不同的是,Omni Flash 让你只需……和它对话即可。

拍了一段有人拉小提琴的视频,但想让小提琴消失?只需输入“让小提琴隐形”。想要改变镜头角度?只需输入“将镜头角度调整到小提琴手的肩膀后方”。想要关闭灯光?只需输入“调暗房间内的灯光”。

每一条指令都建立在前一条的基础上,因此你可以进行迭代而完全不必从头再来。

创建数字虚拟形象

这可太绝了。Omni Flash 能让你创建一个既长得像你、声音也和你一模一样的数字虚拟形象。只需录几段你读数字的音频,该模型就会保存你的虚拟形象供日后使用。

在你因深度伪造感到恐慌之前,谷歌已经内置了安全防护措施。头像创建需要单独的注册流程,而每一个使用Omni生成的视频都会附带谷歌的SynthID数字水印——这种水印人类肉眼无法察觉,但可被验证为AI生成内容。

物理感知生成

有一件事一直让我很在意,关于 人工智能视频工具?它们常常无视物理定律。本该下落的物体却漂浮了起来。水流无法正常流动。重力显然可有可无。

Omni Flash 经过专门训练,能够理解重力、动能和流体动力学。因此当你生成场景时,物体之间以及它们与所处环境的互动方式完全符合物理逻辑。

在I/O演示会上,该团队展示了仅通过一张手绘草图和一段文本指令即可生成一段带有逼真物理碰撞效果的完整特效视频。这不仅令人印象深刻,更是具备实用价值。

Gemini Omni 发布日期 — 今日即可体验!

最精彩的部分来了:不用久等。

Gemini Omni 的发布日期是2026年5月20日——也就是此时此刻。谷歌于5月19日的I/O主题演讲中公布了这一消息,截至5月20日,该产品已在全球范围内逐步推送上线。

如果你是 Google AI Plus、Pro 或 Ultra 订阅用户,如今即可通过 Gemini 应用和 Google Flow 使用 Gemini Omni Flash。从本周起,YouTube Shorts 和 YouTube Create 应用将提供免费使用权限,方便创作者进行测试。

谷歌还计划在未来几周内通过API向开发者和企业客户开放Omni的使用权限。

只有一个小问题需要注意:目前生成一段视频会消耗你每日配额中的很大一部分额度。不过谷歌已经在研发更长时长的视频生成功能——当前的10秒限制只是上线阶段的策略选择,并非模型本身的局限。

接下来会发生什么?

Omni 系列才刚刚起步。谷歌已经在研发一款定位更高端的机型,名为 Gemini Omni Pro,面向广告制作、视频制作等专业应用场景。

从更长远的角度来看,这一愿景更为宏大。谷歌计划扩展Omni的功能,使其能够通过音频生成图像,或是通过视频生成音频。随着时间推移,Omni将能够实现任意格式的输入对应生成任意格式的输出。

皮查伊在本次情况通报会上总结得十分精辟:“借助世界模型,人工智能正从预测文本转向模拟现实。Gemini Omni正是这一方向上的下一步。”

安全简要提示

我要是不提这一点,就有疏忽之嫌。谷歌正通过Omni认真对待内容认证工作。所有生成的视频都会添加SynthID水印,用户可通过Gemini应用或谷歌搜索核实任意AI生成内容的来源。

音频与语音编辑功能正以更为谨慎的方式推出,谷歌目前仍在测试如何让用户负责任地修改音频,之后才会将该功能广泛普及。

准备好开始创作了吗?

听着,我已经测试过很多 人工智能工具 过去几年间,有些不过是华而不实的噱头,有些则真正实用。 Gemini Omni 无疑属于后者。

能够混合任意类型的输入——文本、图像、音频、视频——并得到连贯且可用的结果,这是一次真正的跨越式进步。而对话式编辑?这可不只是一个可有可无的锦上添花的功能。它正是能从根本上改变你的工作方式的一类特性。

无论你是内容创作者、营销人员,还是只是喜爱摆弄新技术的人,Gemini Omni 都绝对值得你关注。 Gemini Omni 确实非常适合制作10秒短片和对话剪辑。但如果你需要一整部完整的3分钟动画故事呢?又或者你已有脚本,只是希望在不学习剪辑技巧的情况下将其转换成视频呢?

Elser.ai是我首选的AI脚本转视频工具——我只需要粘贴旁白,选择一个风格,它就能生成数分钟流畅的视频素材。此外,它还能轻松制作60fps的动画视频,绝对值得一试。

👉 点击此处试用 Elser.ai 免费的——你就会明白我的意思了。

最新发布