
第 1 步:注册并选择模型
创建免费的 Elser AI 账号。在视频模型选择器中选择你的万相模型——Wan 2.7、Wan 2.6 或 Wan 2.6 Flash。用自然语言描述你的视频构想;万相能理解专业的电影制作术语与复杂的运动描述。
阿里云通义万相(Aliyun Wan)是阿里云通义万相实验室打造的旗舰视觉生成模型家族。现已集成进 Elser AI,万相让创作者能够生成电影级视频、为静态图片注入动态、创建会说话的数字人,并产出音画同步的内容——全程无需昂贵 GPU 或复杂配置。
不同于先生成无声视频再后期配音的传统模型,通义万相 2.5+ 在一次前向推理中就输出包含对白、音效、环境音与背景音乐的同步视频。它支持英语、中文、日语、西班牙语等 8 种以上语言的音素级同步。
立即体验通义万相

通义万相 2.5 及以上版本采用原生多模态扩散 Transformer 架构,在同一次推理过程中并行执行视觉、音频与文本的生成。它是业界首个实现原生音视频同步生成的模型。
立即体验通义万相阿里云万相能轻松驾驭其他视频模型力不从心的复杂运镜——推拉镜头、对焦切换、跟拍、视角切换与升降镜头——彼此衔接流畅自然。Wan 2.7 支持多镜头合成,确保角色形象在场景切换中保持一致。
立即体验通义万相

创建免费的 Elser AI 账号。在视频模型选择器中选择你的万相模型——Wan 2.7、Wan 2.6 或 Wan 2.6 Flash。用自然语言描述你的视频构想;万相能理解专业的电影制作术语与复杂的运动描述。

写一段有画面感的提示词——包含运镜、光线、动作和氛围。图生视频可上传一张静态图;参考生视频可上传参考图和参考视频,以在多个镜头间锁定角色的外观与声音。

调整视频时长(最长 15 秒,视模型而定)、分辨率(720p 或 1080p)和宽高比(16:9、9:16、1:1、4:3 或 3:4)。生成视频并导出为带同步音轨的 MP4——可直接用于社媒、广告或分镜。
从文字提示词、图像或多媒体参考生成多镜头电影级视频。描述场景、上传角色参考或提供动作示例——万相交付带流畅运镜、精准口型与沉浸式原生音频的动态画面。
适合用于:


万相的参考生视频在多个镜头之间保持角色身份、服装与面部特征一致——彻底消除老视频模型常见的换脸漂移问题。它还支持以人物或物体为主角的多角色互动视频。
你可以:
用任意一段音频驱动一张人像图,生成带自然口型与表情的会说话数字人。直接用声音驱动主持人、虚拟形象与代言人——无需真人演员、摄影棚或动作捕捉。
非常适合:

万相的原生音频同步帮我省下了好几个小时的后期。再也不用手动把配音对到画面上了。
终于有一个能理解滑动变焦、对焦切换等复杂运镜的模型了。
我用不到两分钟就生成了一段 15 秒、带配音和背景音乐的产品视频。万相对电商是颠覆性的。
跨多个镜头的角色一致性简直不真实。再也没有换脸漂移——我真的能用同一个主角讲完一个短故事。
我们用万相的数字人做了一支提案视频。客户以为是真人演员。原生口型同步起了决定性作用。
作为一名 YouTuber,我现在仅凭文字提示词就能做出电影级的 B-roll 插入镜头。这帮我省下了好几天的拍摄和找素材时间。
阿里云通义万相是阿里云的次世代 AI 视觉生成模型家族,由通义万相实验室打造——也是中国领先开源视频生成模型背后的团队。万相能从文字、图像与音频生成高质量、逼真的视频。
万相采用原生多模态扩散 Transformer 架构,将大语言模型的认知能力与高保真像素合成相结合。它分析多模态输入(文字、图像、音频、视频),并在统一框架中生成同步的视频与音频输出。
是的,Elser AI 为万相提供免费档,每月有限额积分(最多 10 次视频生成)。付费计划可解锁更高分辨率、更长时长、优先渲染,以及最新的 Wan 2.7 功能。万相的开源模型也可免费自托管。
通义万相有几大独特优势:(1) 原生音视频联合生成——一次推理产出同步的语音、音效和背景音乐。(2) 数字人音频驱动动画——用任意一段音频驱动一张人像图。(3) 开源 MoE 架构——在电影级输出的同时约节省 50% 算力。(4) 多模态输入支持——文字、图像、音频和视频都可作为输入。
Wan 2.7 支持 2 到 15 秒的片段,Wan 2.6 与 Wan 2.6 Flash 支持 5、10 或 15 秒。需要更长的叙事时,可用 Wan 2.7 的视频续写功能在保持画面连贯的前提下延长已有片段。
万相以 720p 或 1080p、24 fps 生成。宽高比包括 16:9、9:16、1:1、4:3 和 3:4——覆盖 YouTube 宽屏、TikTok/Reels 竖屏、Instagram 方形以及传统广播格式。
万相支持 8 种以上语言的音素级口型同步,包括英语、中文(普通话)、日语、西班牙语、法语、德语、韩语和俄语。未来更新会加入更多语言。
Wan 2.7 是最新套件,具备多模态输入(文字、图像、音频、视频)、在生成前先理解意图的「思考模式」、首尾帧生成、视频续写,以及最多 5 个主体的参考追踪。Wan 2.6 专注于参考生视频的角色扮演、智能多镜头叙事和最长 15 秒的 1080p 输出。Wan 2.6 Flash 则是为快速迭代优化的极速版本。
无需任何配置。你只需要一台能上网的设备——所有处理都在 Elser AI 的云端服务器上完成,无需 GPU、无需大内存、无需安装软件。若要自托管万相的开源模型,单张 24GB 显卡即可用于推理。
在 Elser AI 注册即可解锁通义万相的全部能力——从文生视频、图生视频,到会说话的数字人与原生音频同步。即刻生成专业电影级视频——无需任何技能,无需 GPU。
在 Elser AI 上体验通义万相