阿里云通义万相 AI 视频生成套件

阿里云通义万相（Aliyun Wan）是阿里云通义万相实验室打造的旗舰视觉生成模型家族。现已集成进 Elser AI，万相让创作者能够生成电影级视频、为静态图片注入动态、创建会说话的数字人，并产出音画同步的内容——全程无需昂贵 GPU 或复杂配置。

探索 Elser AI 上的通义万相模型家族

Wan 2.7

Wan 2.6

Wan 2.6 Flash

为什么用 Elser AI 上的通义万相创作

原生音视频联合生成与数字人口型同步

不同于先生成无声视频再后期配音的传统模型，通义万相 2.5+ 在一次前向推理中就输出包含对白、音效、环境音与背景音乐的同步视频。它支持英语、中文、日语、西班牙语等 8 种以上语言的音素级同步。

立即体验通义万相

原生多模态扩散 Transformer 架构（MD-DiT）

通义万相 2.5 及以上版本采用原生多模态扩散 Transformer 架构，在同一次推理过程中并行执行视觉、音频与文本的生成。它是业界首个实现原生音视频同步生成的模型。

立即体验通义万相

导演级运镜与多镜头叙事

阿里云万相能轻松驾驭其他视频模型力不从心的复杂运镜——推拉镜头、对焦切换、跟拍、视角切换与升降镜头——彼此衔接流畅自然。Wan 2.7 支持多镜头合成，确保角色形象在场景切换中保持一致。

立即体验通义万相

如何在 Elser AI 上使用通义万相

第 1 步：注册并选择模型

创建免费的 Elser AI 账号。在视频模型选择器中选择你的万相模型——Wan 2.7、Wan 2.6 或 Wan 2.6 Flash。用自然语言描述你的视频构想；万相能理解专业的电影制作术语与复杂的运动描述。

第 2 步：输入提示词并上传参考素材

写一段有画面感的提示词——包含运镜、光线、动作和氛围。图生视频可上传一张静态图；参考生视频可上传参考图和参考视频，以在多个镜头间锁定角色的外观与声音。

第 3 步：自定义并生成

调整视频时长（最长 15 秒，视模型而定）、分辨率（720p 或 1080p）和宽高比（16:9、9:16、1:1、4:3 或 3:4）。生成视频并导出为带同步音轨的 MP4——可直接用于社媒、广告或分镜。

在 Elser AI 上体验通义万相

用通义万相你能做什么？

用文字或图像生成电影级 AI 视频

从文字提示词、图像或多媒体参考生成多镜头电影级视频。描述场景、上传角色参考或提供动作示例——万相交付带流畅运镜、精准口型与沉浸式原生音频的动态画面。

适合用于：

短片与叙事短视频
品牌故事与广告
社媒短片与 B-roll 素材

跨场景保持角色一致（参考生视频）

万相的参考生视频在多个镜头之间保持角色身份、服装与面部特征一致——彻底消除老视频模型常见的换脸漂移问题。它还支持以人物或物体为主角的多角色互动视频。

你可以：

用同一个主角讲完多场景故事
让品牌吉祥物与角色设计保持统一
为系列短剧与系列化内容做量产

创建会说话的数字人

用任意一段音频驱动一张人像图，生成带自然口型与表情的会说话数字人。直接用声音驱动主持人、虚拟形象与代言人——无需真人演员、摄影棚或动作捕捉。

非常适合：

代言、讲解与培训视频
把人像变成会说话的虚拟形象
多语言口型同步对白

你可能也感兴趣

大家都在讨论通义万相

万相的原生音频同步帮我省下了好几个小时的后期。再也不用手动把配音对到画面上了。

— Sarah C.，视频剪辑师

终于有一个能理解滑动变焦、对焦切换等复杂运镜的模型了。

— David L.，AI 研究员

我用不到两分钟就生成了一段 15 秒、带配音和背景音乐的产品视频。万相对电商是颠覆性的。

— Jessica W.，数字营销经理

跨多个镜头的角色一致性简直不真实。再也没有换脸漂移——我真的能用同一个主角讲完一个短故事。

— Michael T.，独立动画师

我们用万相的数字人做了一支提案视频。客户以为是真人演员。原生口型同步起了决定性作用。

— Derek P.，广告公司制片

作为一名 YouTuber，我现在仅凭文字提示词就能做出电影级的 B-roll 插入镜头。这帮我省下了好几天的拍摄和找素材时间。

— Linda Z.，内容创作者

常见问题

阿里云通义万相是阿里云的次世代 AI 视觉生成模型家族，由通义万相实验室打造——也是中国领先开源视频生成模型背后的团队。万相能从文字、图像与音频生成高质量、逼真的视频。

万相采用原生多模态扩散 Transformer 架构，将大语言模型的认知能力与高保真像素合成相结合。它分析多模态输入（文字、图像、音频、视频），并在统一框架中生成同步的视频与音频输出。

是的，Elser AI 为万相提供免费档，每月有限额积分（最多 10 次视频生成）。付费计划可解锁更高分辨率、更长时长、优先渲染，以及最新的 Wan 2.7 功能。万相的开源模型也可免费自托管。

通义万相有几大独特优势：(1) 原生音视频联合生成——一次推理产出同步的语音、音效和背景音乐。(2) 数字人音频驱动动画——用任意一段音频驱动一张人像图。(3) 开源 MoE 架构——在电影级输出的同时约节省 50% 算力。(4) 多模态输入支持——文字、图像、音频和视频都可作为输入。

Wan 2.7 支持 2 到 15 秒的片段，Wan 2.6 与 Wan 2.6 Flash 支持 5、10 或 15 秒。需要更长的叙事时，可用 Wan 2.7 的视频续写功能在保持画面连贯的前提下延长已有片段。

万相以 720p 或 1080p、24 fps 生成。宽高比包括 16:9、9:16、1:1、4:3 和 3:4——覆盖 YouTube 宽屏、TikTok/Reels 竖屏、Instagram 方形以及传统广播格式。

万相支持 8 种以上语言的音素级口型同步，包括英语、中文（普通话）、日语、西班牙语、法语、德语、韩语和俄语。未来更新会加入更多语言。

Wan 2.7 是最新套件，具备多模态输入（文字、图像、音频、视频）、在生成前先理解意图的「思考模式」、首尾帧生成、视频续写，以及最多 5 个主体的参考追踪。Wan 2.6 专注于参考生视频的角色扮演、智能多镜头叙事和最长 15 秒的 1080p 输出。Wan 2.6 Flash 则是为快速迭代优化的极速版本。

无需任何配置。你只需要一台能上网的设备——所有处理都在 Elser AI 的云端服务器上完成，无需 GPU、无需大内存、无需安装软件。若要自托管万相的开源模型，单张 24GB 显卡即可用于推理。

了解更多通义万相

2026年最佳基于图像和文本的AI视频生成工具

正在寻找最出色的AI图文视频生成工具？我们围绕创作者工作流程、图生视频可控性以及场景生成三大维度，对比了多款顶尖工具。

面向创作者的AI唇形同步及音频转视频工作流

了解人工智能唇形同步技术与音频转视频工作流如何助力创作者打造更精良的动画场景、角色视频以及音频主导类内容。

如何制作真正效果出色的AI动物视频

学习如何借助更优质的提示词、动作选择、场景设计和风格把控来制作AI动物视频。

用通义万相让你的故事鲜活起来

在 Elser AI 注册即可解锁通义万相的全部能力——从文生视频、图生视频，到会说话的数字人与原生音频同步。即刻生成专业电影级视频——无需任何技能，无需 GPU。

在 Elser AI 上体验通义万相

阿里云通义万相 AI 视频生成套件

探索 Elser AI 上的通义万相模型家族

为什么用 Elser AI 上的通义万相创作

原生音视频联合生成与数字人口型同步

原生多模态扩散 Transformer 架构（MD-DiT）

导演级运镜与多镜头叙事

如何在 Elser AI 上使用通义万相

第 1 步：注册并选择模型

第 2 步：输入提示词并上传参考素材

第 3 步：自定义并生成

用通义万相你能做什么？

用文字或图像生成电影级 AI 视频

跨场景保持角色一致（参考生视频）

创建会说话的数字人

你可能也感兴趣

大家都在讨论通义万相

常见问题

什么是阿里云通义万相（Aliyun Wan）？

通义万相是如何工作的？

通义万相在 Elser AI 上免费吗？

相比其他 AI 视频生成器，使用通义万相有哪些优势？

用万相最长能生成多长的视频？

万相支持哪些分辨率和宽高比？

万相的口型同步支持哪些语言？

Wan 2.7 和 Wan 2.6 有什么区别？

运行通义万相需要什么电脑配置？

了解更多通义万相

2026年最佳基于图像和文本的AI视频生成工具

面向创作者的AI唇形同步及音频转视频工作流

如何制作真正效果出色的AI动物视频

用通义万相让你的故事鲜活起来