阿里雲通義萬相 AI 影片生成套件

阿里雲通義萬相（Aliyun Wan）是阿里雲通義萬相實驗室打造的旗艦視覺生成模型家族。現已整合進 Elser AI，萬相讓創作者能夠生成電影級影片、為靜態圖片注入動態、建立會說話的數字人，並產出音畫同步的內容——全程無需昂貴 GPU 或複雜配置。

探索 Elser AI 上的通義萬相模型家族

Wan 2.7

Wan 2.6

Wan 2.6 Flash

為什麼用 Elser AI 上的通義萬相創作

原生音訊與影片聯合生成與數字人口型同步

不同於先生成無聲影片再後期配音的傳統模型，通義萬相 2.5+ 在一次前向推理中就輸出包含對白、音效、環境音與背景音樂的同步影片。它支援英語、中文、日語、西班牙語等 8 種以上語言的音素級同步。

立即體驗通義萬相

原生多模態擴散 Transformer 架構（MD-DiT）

通義萬相 2.5 及以上版本採用原生多模態擴散 Transformer 架構，在同一次推理過程中並行執行視覺、音訊與文字的生成。它是業界首個實現原生音視訊同步生成的模型。

立即體驗通義萬相

導演級運鏡與多鏡頭敘事

阿里雲萬相能輕鬆駕馭其他影片模型力不從心的複雜運鏡——推拉鏡頭、對焦切換、跟拍、視角切換與升降鏡頭——彼此銜接流暢自然。Wan 2.7 支援多鏡頭合成，確保角色形象在場景切換中保持一致。

立即體驗通義萬相

如何在 Elser AI 上使用通義萬相

第 1 步：註冊並選擇模型

建立免費的 Elser AI 帳號。在影片模型選擇器中選擇你的萬相模型——Wan 2.7、Wan 2.6 或 Wan 2.6 Flash。用自然語言描述你的影片構想；萬相能理解專業的電影製作術語與複雜的運動描述。

第 2 步：輸入提示詞並上傳參考素材

寫一段有畫面感的提示詞——包含運鏡、光線、動作和氛圍。圖生影片可上傳一張靜態圖；參考生影片可上傳參考圖和參考影片，以在多個鏡頭間鎖定角色的外觀與聲音。

第 3 步：自訂並生成

調整影片時長（最長 15 秒，視模型而定）、解析度（720p 或 1080p）和長寬比（16:9、9:16、1:1、4:3 或 3:4）。生成影片並匯出為帶同步音軌的 MP4——可直接用於社群、廣告或分鏡。

在 Elser AI 上體驗通義萬相

用通義萬相你能做什麼？

用文字或圖像生成電影級 AI 影片

從文字提示詞、圖像或多媒體參考生成多鏡頭電影級影片。描述場景、上傳角色參考或提供動作示例——萬相交付帶流暢運鏡、精準口型與沉浸式原生音訊的動態畫面。

適合用於：

短片與敘事短影片
品牌故事與廣告
社群短片與 B-roll 素材

跨場景保持角色一致（參考生影片）

萬相的參考生影片在多個鏡頭之間保持角色身份、服裝與面部特徵一致——徹底消除老影片模型常見的換臉漂移問題。它還支援以人物或物體為主角的多角色互動影片。

你可以：

用同一個主角講完多場景故事
讓品牌吉祥物與角色設計保持統一
為系列短劇與系列化內容做量產

建立會說話的數字人

用任意一段音訊驅動一張人像圖，生成帶自然口型與表情的會說話數字人。直接用聲音驅動主持人、虛擬形象與代言人——無需真人演員、攝影棚或動作捕捉。

非常適合：

代言、講解與培訓影片
把人像變成會說話的虛擬形象
多語言口型同步對白

你可能也感興趣

大家都在討論通義萬相

萬相的原生音訊同步幫我省下了好幾個小時的後期。再也不用手動把配音對到畫面上了。

— Sarah C.，影片剪輯師

終於有一個能理解滑動變焦、對焦切換等複雜運鏡的模型了。

— David L.，AI 研究員

我用不到兩分鐘就生成了一段 15 秒、帶配音和背景音樂的產品影片。萬相對電商是顛覆性的。

— Jessica W.，數位行銷經理

跨多個鏡頭的角色一致性簡直不真實。再也沒有換臉漂移——我真的能用同一個主角講完一個短故事。

— Michael T.，獨立動畫師

我們用萬相的數字人做了一支提案影片。客戶以為是真人演員。原生口型同步起了決定性作用。

— Derek P.，廣告公司製片

作為一名 YouTuber，我現在僅憑文字提示詞就能做出電影級的 B-roll 插入鏡頭。這幫我省下了好幾天的拍攝和找素材時間。

— Linda Z.，內容創作者

常見問題

阿里雲通義萬相是阿里雲的次世代 AI 視覺生成模型家族，由通義萬相實驗室打造——也是中國領先開源影片生成模型背後的團隊。萬相能從文字、圖像與音訊生成高品質、逼真的影片。

萬相採用原生多模態擴散 Transformer 架構，將大語言模型的認知能力與高保真像素合成相結合。它分析多模態輸入（文字、圖像、音訊、影片），並在統一框架中生成同步的影片與音訊輸出。

是的，Elser AI 為萬相提供免費檔，每月有限額積分（最多 10 次影片生成）。付費方案可解鎖更高解析度、更長時長、優先渲染，以及最新的 Wan 2.7 功能。萬相的開源模型也可免費自託管。

通義萬相有幾大獨特優勢：(1) 原生音訊影片聯合生成——一次推理產出同步的語音、音效和背景音樂。(2) 數字人音訊驅動動畫——用任意一段音訊驅動一張人像圖。(3) 開源 MoE 架構——在電影級輸出的同時約節省 50% 算力。(4) 多模態輸入支援——文字、圖像、音訊和影片都可作為輸入。

Wan 2.7 支援 2 到 15 秒的片段，Wan 2.6 與 Wan 2.6 Flash 支援 5、10 或 15 秒。需要更長的敘事時，可用 Wan 2.7 的影片續寫功能在保持畫面連貫的前提下延長已有片段。

萬相以 720p 或 1080p、24 fps 生成。長寬比包括 16:9、9:16、1:1、4:3 和 3:4——涵蓋 YouTube 寬螢幕、TikTok/Reels 直螢幕、Instagram 方形以及傳統廣播格式。

萬相支援 8 種以上語言的音素級口型同步，包括英語、中文（普通話）、日語、西班牙語、法語、德語、韓語和俄語。未來更新會加入更多語言。

Wan 2.7 是最新套件，具備多模態輸入（文字、圖像、音訊、影片）、在生成前先理解意圖的「思考模式」、首尾幀生成、影片續寫，以及最多 5 個主體的參考追蹤。Wan 2.6 專注於參考生影片的角色扮演、智能多鏡頭敘事和最長 15 秒的 1080p 輸出。Wan 2.6 Flash 則是為快速迭代優化的極速版本。

無需任何配置。你只需要一台能上網的裝置——所有處理都在 Elser AI 的雲端伺服器上完成，無需 GPU、無需大記憶體、無需安裝軟體。若要自託管萬相的開源模型，單張 24GB 顯示卡即可用於推理。

了解更多通義萬相

2026年最佳的圖文轉影片AI產生器

正在尋找能夠透過圖像與文字生成影片的頂級AI影片產生器嗎？我們針對創作者工作流程、影像轉影片控制以及場景生成這三個面向，比較了多款頂級工具。

針對創作者的AI唇形同步及音訊轉影片工作流程

瞭解人工智慧唇形同步技術與音頻轉影片工作流程如何助力創作者打造更精良的動畫場景、角色影片以及以音頻為主的內容。

如何製作看起來真正好看的AI動物影片

學習如何以更出色的提示詞、動作選擇、場景設計及風格控制，製作AI動物影片

用通義萬相讓你的故事鮮活起來

在 Elser AI 註冊即可解鎖通義萬相的全部能力——從文字生影片、圖片生影片，到會說話的數字人與原生音訊同步。即刻生成專業電影級影片——無需任何技能，無需 GPU。

在 Elser AI 上體驗通義萬相

阿里雲通義萬相 AI 影片生成套件

探索 Elser AI 上的通義萬相模型家族

為什麼用 Elser AI 上的通義萬相創作

原生音訊與影片聯合生成與數字人口型同步

原生多模態擴散 Transformer 架構（MD-DiT）

導演級運鏡與多鏡頭敘事

如何在 Elser AI 上使用通義萬相

第 1 步：註冊並選擇模型

第 2 步：輸入提示詞並上傳參考素材

第 3 步：自訂並生成

用通義萬相你能做什麼？

用文字或圖像生成電影級 AI 影片

跨場景保持角色一致（參考生影片）

建立會說話的數字人

你可能也感興趣

大家都在討論通義萬相

常見問題

什麼是阿里雲通義萬相（Aliyun Wan）？

通義萬相是如何運作的？

通義萬相在 Elser AI 上免費嗎？

相比其他 AI 影片生成器，使用通義萬相有哪些優勢？

用萬相最長能生成多長的影片？

萬相支援哪些解析度和長寬比？

萬相的口型同步支援哪些語言？

Wan 2.7 和 Wan 2.6 有什麼區別？

執行通義萬相需要什麼電腦配置？

了解更多通義萬相

2026年最佳的圖文轉影片AI產生器

針對創作者的AI唇形同步及音訊轉影片工作流程

如何製作看起來真正好看的AI動物影片

用通義萬相讓你的故事鮮活起來