阿里雲通義萬相 AI 影片生成套件

阿里雲通義萬相(Aliyun Wan)是阿里雲通義萬相實驗室打造的旗艦視覺生成模型家族。現已整合進 Elser AI,萬相讓創作者能夠生成電影級影片、為靜態圖片注入動態、建立會說話的數字人,並產出音畫同步的內容——全程無需昂貴 GPU 或複雜配置。

探索 Elser AI 上的通義萬相模型家族

為什麼用 Elser AI 上的通義萬相創作

原生音訊與影片聯合生成與數字人口型同步

不同於先生成無聲影片再後期配音的傳統模型,通義萬相 2.5+ 在一次前向推理中就輸出包含對白、音效、環境音與背景音樂的同步影片。它支援英語、中文、日語、西班牙語等 8 種以上語言的音素級同步。

立即體驗通義萬相

原生多模態擴散 Transformer 架構(MD-DiT)

通義萬相 2.5 及以上版本採用原生多模態擴散 Transformer 架構,在同一次推理過程中並行執行視覺、音訊與文字的生成。它是業界首個實現原生音視訊同步生成的模型。

立即體驗通義萬相

導演級運鏡與多鏡頭敘事

阿里雲萬相能輕鬆駕馭其他影片模型力不從心的複雜運鏡——推拉鏡頭、對焦切換、跟拍、視角切換與升降鏡頭——彼此銜接流暢自然。Wan 2.7 支援多鏡頭合成,確保角色形象在場景切換中保持一致。

立即體驗通義萬相

如何在 Elser AI 上使用通義萬相

第 1 步:註冊並選擇模型

建立免費的 Elser AI 帳號。在影片模型選擇器中選擇你的萬相模型——Wan 2.7、Wan 2.6 或 Wan 2.6 Flash。用自然語言描述你的影片構想;萬相能理解專業的電影製作術語與複雜的運動描述。

第 2 步:輸入提示詞並上傳參考素材

寫一段有畫面感的提示詞——包含運鏡、光線、動作和氛圍。圖生影片可上傳一張靜態圖;參考生影片可上傳參考圖和參考影片,以在多個鏡頭間鎖定角色的外觀與聲音。

第 3 步:自訂並生成

調整影片時長(最長 15 秒,視模型而定)、解析度(720p 或 1080p)和長寬比(16:9、9:16、1:1、4:3 或 3:4)。生成影片並匯出為帶同步音軌的 MP4——可直接用於社群、廣告或分鏡。

用通義萬相你能做什麼?

用文字或圖像生成電影級 AI 影片

從文字提示詞、圖像或多媒體參考生成多鏡頭電影級影片。描述場景、上傳角色參考或提供動作示例——萬相交付帶流暢運鏡、精準口型與沉浸式原生音訊的動態畫面。

適合用於:

  • 短片與敘事短影片
  • 品牌故事與廣告
  • 社群短片與 B-roll 素材

跨場景保持角色一致(參考生影片)

萬相的參考生影片在多個鏡頭之間保持角色身份、服裝與面部特徵一致——徹底消除老影片模型常見的換臉漂移問題。它還支援以人物或物體為主角的多角色互動影片。

你可以:

  • 用同一個主角講完多場景故事
  • 讓品牌吉祥物與角色設計保持統一
  • 為系列短劇與系列化內容做量產

建立會說話的數字人

用任意一段音訊驅動一張人像圖,生成帶自然口型與表情的會說話數字人。直接用聲音驅動主持人、虛擬形象與代言人——無需真人演員、攝影棚或動作捕捉。

非常適合:

  • 代言、講解與培訓影片
  • 把人像變成會說話的虛擬形象
  • 多語言口型同步對白

你可能也感興趣

大家都在討論通義萬相

萬相的原生音訊同步幫我省下了好幾個小時的後期。再也不用手動把配音對到畫面上了。

— Sarah C.,影片剪輯師

終於有一個能理解滑動變焦、對焦切換等複雜運鏡的模型了。

— David L.,AI 研究員

我用不到兩分鐘就生成了一段 15 秒、帶配音和背景音樂的產品影片。萬相對電商是顛覆性的。

— Jessica W.,數位行銷經理

跨多個鏡頭的角色一致性簡直不真實。再也沒有換臉漂移——我真的能用同一個主角講完一個短故事。

— Michael T.,獨立動畫師

我們用萬相的數字人做了一支提案影片。客戶以為是真人演員。原生口型同步起了決定性作用。

— Derek P.,廣告公司製片

作為一名 YouTuber,我現在僅憑文字提示詞就能做出電影級的 B-roll 插入鏡頭。這幫我省下了好幾天的拍攝和找素材時間。

— Linda Z.,內容創作者

常見問題

阿里雲通義萬相是阿里雲的次世代 AI 視覺生成模型家族,由通義萬相實驗室打造——也是中國領先開源影片生成模型背後的團隊。萬相能從文字、圖像與音訊生成高品質、逼真的影片。

萬相採用原生多模態擴散 Transformer 架構,將大語言模型的認知能力與高保真像素合成相結合。它分析多模態輸入(文字、圖像、音訊、影片),並在統一框架中生成同步的影片與音訊輸出。

是的,Elser AI 為萬相提供免費檔,每月有限額積分(最多 10 次影片生成)。付費方案可解鎖更高解析度、更長時長、優先渲染,以及最新的 Wan 2.7 功能。萬相的開源模型也可免費自託管。

通義萬相有幾大獨特優勢:(1) 原生音訊影片聯合生成——一次推理產出同步的語音、音效和背景音樂。(2) 數字人音訊驅動動畫——用任意一段音訊驅動一張人像圖。(3) 開源 MoE 架構——在電影級輸出的同時約節省 50% 算力。(4) 多模態輸入支援——文字、圖像、音訊和影片都可作為輸入。

Wan 2.7 支援 2 到 15 秒的片段,Wan 2.6 與 Wan 2.6 Flash 支援 5、10 或 15 秒。需要更長的敘事時,可用 Wan 2.7 的影片續寫功能在保持畫面連貫的前提下延長已有片段。

萬相以 720p 或 1080p、24 fps 生成。長寬比包括 16:9、9:16、1:1、4:3 和 3:4——涵蓋 YouTube 寬螢幕、TikTok/Reels 直螢幕、Instagram 方形以及傳統廣播格式。

萬相支援 8 種以上語言的音素級口型同步,包括英語、中文(普通話)、日語、西班牙語、法語、德語、韓語和俄語。未來更新會加入更多語言。

Wan 2.7 是最新套件,具備多模態輸入(文字、圖像、音訊、影片)、在生成前先理解意圖的「思考模式」、首尾幀生成、影片續寫,以及最多 5 個主體的參考追蹤。Wan 2.6 專注於參考生影片的角色扮演、智能多鏡頭敘事和最長 15 秒的 1080p 輸出。Wan 2.6 Flash 則是為快速迭代優化的極速版本。

無需任何配置。你只需要一台能上網的裝置——所有處理都在 Elser AI 的雲端伺服器上完成,無需 GPU、無需大記憶體、無需安裝軟體。若要自託管萬相的開源模型,單張 24GB 顯示卡即可用於推理。

了解更多通義萬相

用通義萬相讓你的故事鮮活起來

在 Elser AI 註冊即可解鎖通義萬相的全部能力——從文字生影片、圖片生影片,到會說話的數字人與原生音訊同步。即刻生成專業電影級影片——無需任何技能,無需 GPU。

在 Elser AI 上體驗通義萬相