Wan 2.6 视频生成模型

Wan 2.6 是阿里巴巴通义万相最先进的视频生成模型。它可以从文字、图像、参考视频或音频生成 1080p、24 fps 的视频——具备原生音画同步与精准口型同步。其亮点功能包括参考生视频的角色扮演、从简单提示词出发的智能多镜头叙事，以及最长 15 秒的片段。现已登陆 Elser AI。

Wan 2.6

Wan 2.6 的核心能力

角色扮演：中国首个参考生视频模型

Wan 2.6-R2V 让你上传角色的参考视频（捕捉其外观与声音），仅凭一段文字提示词就能生成以该角色、动物或物体为主角的生动新场景。它将彻底改变短剧创作者的工作方式。

立即体验 Wan 2.6

智能多镜头叙事

Wan 2.6 能理解复杂脚本，自动把一段简单提示词拆解为多个连贯镜头——远景、中景与特写——再拼接成流畅的 10–15 秒转场视频。场景切换自然顺滑，更像精心设计的跟拍或摇镜，而非生硬的跳切。

立即体验 Wan 2.6

15 秒 1080p 输出，自带原生音频

Wan 2.6 可输出最长 15 秒的 1080p 片段——比多数竞品的标准档更长——并在一次推理中同步生成对白、环境音与音素级口型同步。角色身份、光线与色彩在每一次剪切之间都保持一致。

立即体验 Wan 2.6

如何在 Elser AI 上使用 Wan 2.6

第 1 步：注册并选择 Wan 2.6

创建免费的 Elser AI 账号。在视频模型选择器中选择 Wan 2.6。

第 2 步：输入提示词并配置

用多镜头语法写一段结构化提示词：「整体描述。镜头 1 [0–4s] 内容。镜头 2 [4–8s] 内容。镜头 3 [8–12s] 内容。」选择时长（5、10 或 15 秒）、分辨率（720p 或 1080p）和宽高比（16:9、9:16、1:1、4:3 或 3:4）。开启「提示词扩写」和「多镜头」可获得更丰富的叙事分段。

第 3 步：生成、预览并导出

生成视频、预览，并导出为带同步音轨的 MP4——可直接用于社媒、广告或短剧。

在 Elser AI 上体验 Wan 2.6

探索通义万相系列

Wan 2.7

Wan 2.6 Flash

查看全部模型

大家都在讨论 Wan 2.6

原生音频同步帮我省下了好几个小时的后期。再也不用手动把配音对到画面上了。

— Sarah C.，视频剪辑师

终于有一个能理解滑动变焦、对焦切换等复杂运镜的模型了。

— David L.，AI 研究员

我用不到两分钟就生成了一段 15 秒、带配音和背景音乐的产品视频。Wan 2.6 对电商是颠覆性的。

— Jessica W.，数字营销经理

跨多个镜头的角色一致性简直不真实。再也没有换脸漂移——我真的能用同一个主角讲完一个短故事。

— Michael T.，独立动画师

我们用 Wan 2.6 的数字人做了一支提案视频。客户以为是真人演员。原生口型同步起了决定性作用。

— Derek P.，广告公司制片

常见问题

Wan 2.6 是阿里巴巴通义万相最先进的视频生成模型。它可以从文字、图像、参考视频或音频生成 1080p、24 fps 的视频，具备原生音画同步与精准口型同步。核心功能包括参考生视频（将角色的外观与声音植入新场景）、从简单提示词出发的多镜头叙事，以及最长 15 秒的片段。

三大关键差异。其一，参考生视频（角色扮演）：Wan 2.6 是中国首个仅凭一段参考视频，就能在生成的场景中同时保留角色外观与声音的模型。其二，智能多镜头叙事：模型把单条提示词拆解为多个连贯镜头——远景、中景、特写——衔接流畅，并在每次剪切之间保持光线、色彩与角色身份的一致。其三，15 秒 1080p 输出且自带原生音频：时长超过多数竞品的标准档，对白、环境音与口型同步在一次推理中一并生成。

可以。Elser AI 为新用户提供试用积分。升级到付费计划即可获得完整的商用权利。

Wan 2.6 支持 5、10 或 15 秒、24 fps。分辨率为 720p 和 1080p。宽高比包括 16:9、9:16、1:1、4:3 和 3:4——覆盖 YouTube 宽屏、TikTok/Reels 竖屏、Instagram 方形以及传统广播格式。

支持。Wan 2.6 在一次推理中生成同步的视频与音频——对白、环境音、音效与背景音乐——并具备音素级口型同步。

支持。Wan 2.6 图生视频可将静态图片动画成最长 15 秒的高保真视频片段，并可选音频，配合文字引导实现精确的运动控制。提供 720p 和 1080p。

参考生视频（R2V）是 Wan 2.6 的招牌功能。你上传一段同时捕捉外观与声音的角色参考视频，再用文字提示词生成以同一角色为主角的新场景——画面与音频均保持一致。R2V 支持 1–3 段参考视频，在提示词中用 @Video1、@Video2、@Video3 语法引用。适用于人物、动物或物体。

使用结构化的多镜头语法：先写整体描述，再逐镜头写明时间与内容。示例：「镜头 1 [0–4s] 黄昏时分未来都市的远景。镜头 2 [4–8s] 跟随主角穿过霓虹街道的中景跟拍。镜头 3 [8–12s] 主角面部特写，眼中映出霓虹反光。」开启「提示词扩写」和「多镜头」可获得最佳的叙事分段。

价格因提供方而异。通过 Elser AI，我们提供简化的按量计费方案——请在平台上查看当前价格与免费试用积分。

通过 Elser AI 使用最为简单——注册、选择 Wan 2.6、输入提示词并生成，无需 API 密钥或基础设施管理。Wan 2.6 也可通过阿里云百炼（Model Studio）平台及其他第三方提供方使用。

1080p、24 fps，具备出色的角色一致性、流畅的多镜头转场、原生音画同步与电影级光影。Wan 2.6 在运动质量与指令遵循方面持续位列中国一流模型之中。写实人像更自然，「AI 感」大幅降低，构图具备专业级美学。

AI 驱动短剧的未来，从 Wan 2.6 开始

在 Elser AI 注册即可解锁 Wan 2.6——参考生视频角色扮演、智能多镜头叙事与原生音频同步。即刻生成专业电影级视频，无需任何技能，无需 GPU。

在 Elser AI 上体验 Wan 2.6

Wan 2.6 视频生成模型

Wan 2.6 的核心能力

角色扮演：中国首个参考生视频模型

智能多镜头叙事

15 秒 1080p 输出，自带原生音频

如何在 Elser AI 上使用 Wan 2.6

第 1 步：注册并选择 Wan 2.6

第 2 步：输入提示词并配置

第 3 步：生成、预览并导出

探索通义万相系列

大家都在讨论 Wan 2.6

常见问题

什么是 Wan 2.6？

Wan 2.6 与其他视频模型有何不同？

我可以在 Elser AI 上免费试用 Wan 2.6 吗？

Wan 2.6 支持哪些时长和分辨率？

Wan 2.6 支持原生音频与口型同步吗？

Wan 2.6 支持图生视频吗？

什么是参考生视频（R2V），怎么用？

什么样的提示词最适合 Wan 2.6？

Wan 2.6 的价格是多少？

我如何使用 Wan 2.6？

我能从 Wan 2.6 期待什么样的输出质量？

AI 驱动短剧的未来，从 Wan 2.6 开始

Wan 2.6 视频生成模型

Wan 2.6 的核心能力

角色扮演：中国首个参考生视频模型

智能多镜头叙事

15 秒 1080p 输出，自带原生音频

如何在 Elser AI 上使用 Wan 2.6

第 1 步：注册并选择 Wan 2.6

第 2 步：输入提示词并配置

第 3 步：生成、预览并导出

探索 通义万相 系列

大家都在讨论 Wan 2.6

常见问题

什么是 Wan 2.6？

Wan 2.6 与其他视频模型有何不同？

我可以在 Elser AI 上免费试用 Wan 2.6 吗？

Wan 2.6 支持哪些时长和分辨率？

Wan 2.6 支持原生音频与口型同步吗？

Wan 2.6 支持图生视频吗？

什么是参考生视频（R2V），怎么用？

什么样的提示词最适合 Wan 2.6？

Wan 2.6 的价格是多少？

我如何使用 Wan 2.6？

我能从 Wan 2.6 期待什么样的输出质量？

AI 驱动短剧的未来，从 Wan 2.6 开始

探索通义万相系列