Wan 2.6 视频生成模型

Wan 2.6 是阿里巴巴通义万相最先进的视频生成模型。它可以从文字、图像、参考视频或音频生成 1080p、24 fps 的视频——具备原生音画同步与精准口型同步。其亮点功能包括参考生视频的角色扮演、从简单提示词出发的智能多镜头叙事,以及最长 15 秒的片段。现已登陆 Elser AI。

Wan 2.6

Wan 2.6 的核心能力

角色扮演:中国首个参考生视频模型

Wan 2.6-R2V 让你上传角色的参考视频(捕捉其外观与声音),仅凭一段文字提示词就能生成以该角色、动物或物体为主角的生动新场景。它将彻底改变短剧创作者的工作方式。

立即体验 Wan 2.6

智能多镜头叙事

Wan 2.6 能理解复杂脚本,自动把一段简单提示词拆解为多个连贯镜头——远景、中景与特写——再拼接成流畅的 10–15 秒转场视频。场景切换自然顺滑,更像精心设计的跟拍或摇镜,而非生硬的跳切。

立即体验 Wan 2.6

15 秒 1080p 输出,自带原生音频

Wan 2.6 可输出最长 15 秒的 1080p 片段——比多数竞品的标准档更长——并在一次推理中同步生成对白、环境音与音素级口型同步。角色身份、光线与色彩在每一次剪切之间都保持一致。

立即体验 Wan 2.6

如何在 Elser AI 上使用 Wan 2.6

第 1 步:注册并选择 Wan 2.6

创建免费的 Elser AI 账号。在视频模型选择器中选择 Wan 2.6。

第 2 步:输入提示词并配置

用多镜头语法写一段结构化提示词:「整体描述。镜头 1 [0–4s] 内容。镜头 2 [4–8s] 内容。镜头 3 [8–12s] 内容。」选择时长(5、10 或 15 秒)、分辨率(720p 或 1080p)和宽高比(16:9、9:16、1:1、4:3 或 3:4)。开启「提示词扩写」和「多镜头」可获得更丰富的叙事分段。

第 3 步:生成、预览并导出

生成视频、预览,并导出为带同步音轨的 MP4——可直接用于社媒、广告或短剧。

探索 通义万相 系列

大家都在讨论 Wan 2.6

原生音频同步帮我省下了好几个小时的后期。再也不用手动把配音对到画面上了。

— Sarah C.,视频剪辑师

终于有一个能理解滑动变焦、对焦切换等复杂运镜的模型了。

— David L.,AI 研究员

我用不到两分钟就生成了一段 15 秒、带配音和背景音乐的产品视频。Wan 2.6 对电商是颠覆性的。

— Jessica W.,数字营销经理

跨多个镜头的角色一致性简直不真实。再也没有换脸漂移——我真的能用同一个主角讲完一个短故事。

— Michael T.,独立动画师

我们用 Wan 2.6 的数字人做了一支提案视频。客户以为是真人演员。原生口型同步起了决定性作用。

— Derek P.,广告公司制片

常见问题

Wan 2.6 是阿里巴巴通义万相最先进的视频生成模型。它可以从文字、图像、参考视频或音频生成 1080p、24 fps 的视频,具备原生音画同步与精准口型同步。核心功能包括参考生视频(将角色的外观与声音植入新场景)、从简单提示词出发的多镜头叙事,以及最长 15 秒的片段。

三大关键差异。其一,参考生视频(角色扮演):Wan 2.6 是中国首个仅凭一段参考视频,就能在生成的场景中同时保留角色外观与声音的模型。其二,智能多镜头叙事:模型把单条提示词拆解为多个连贯镜头——远景、中景、特写——衔接流畅,并在每次剪切之间保持光线、色彩与角色身份的一致。其三,15 秒 1080p 输出且自带原生音频:时长超过多数竞品的标准档,对白、环境音与口型同步在一次推理中一并生成。

可以。Elser AI 为新用户提供试用积分。升级到付费计划即可获得完整的商用权利。

Wan 2.6 支持 5、10 或 15 秒、24 fps。分辨率为 720p 和 1080p。宽高比包括 16:9、9:16、1:1、4:3 和 3:4——覆盖 YouTube 宽屏、TikTok/Reels 竖屏、Instagram 方形以及传统广播格式。

支持。Wan 2.6 在一次推理中生成同步的视频与音频——对白、环境音、音效与背景音乐——并具备音素级口型同步。

支持。Wan 2.6 图生视频可将静态图片动画成最长 15 秒的高保真视频片段,并可选音频,配合文字引导实现精确的运动控制。提供 720p 和 1080p。

参考生视频(R2V)是 Wan 2.6 的招牌功能。你上传一段同时捕捉外观与声音的角色参考视频,再用文字提示词生成以同一角色为主角的新场景——画面与音频均保持一致。R2V 支持 1–3 段参考视频,在提示词中用 @Video1、@Video2、@Video3 语法引用。适用于人物、动物或物体。

使用结构化的多镜头语法:先写整体描述,再逐镜头写明时间与内容。示例:「镜头 1 [0–4s] 黄昏时分未来都市的远景。镜头 2 [4–8s] 跟随主角穿过霓虹街道的中景跟拍。镜头 3 [8–12s] 主角面部特写,眼中映出霓虹反光。」开启「提示词扩写」和「多镜头」可获得最佳的叙事分段。

价格因提供方而异。通过 Elser AI,我们提供简化的按量计费方案——请在平台上查看当前价格与免费试用积分。

通过 Elser AI 使用最为简单——注册、选择 Wan 2.6、输入提示词并生成,无需 API 密钥或基础设施管理。Wan 2.6 也可通过阿里云百炼(Model Studio)平台及其他第三方提供方使用。

1080p、24 fps,具备出色的角色一致性、流畅的多镜头转场、原生音画同步与电影级光影。Wan 2.6 在运动质量与指令遵循方面持续位列中国一流模型之中。写实人像更自然,「AI 感」大幅降低,构图具备专业级美学。

AI 驱动短剧的未来,从 Wan 2.6 开始

在 Elser AI 注册即可解锁 Wan 2.6——参考生视频角色扮演、智能多镜头叙事与原生音频同步。即刻生成专业电影级视频,无需任何技能,无需 GPU。

在 Elser AI 上体验 Wan 2.6