
ステップ1:登録してモデルを選ぶ
無料のElser AIアカウントを作成します。動画モデルセレクターで、使用するWanモデル——Wan 2.7、Wan 2.6、Wan 2.6 Flash——を選びます。動画のアイデアを自然言語で記述しましょう。Wanはプロの映像制作用語と複雑な動きの記述を理解します。
Aliyun Wanは、Tongyi Wanxiang Lab(通義万相研究所)が開発したAlibaba Cloudの旗艦ビジュアル生成モデルファミリーです。Elser AIに統合され、Wanはクリエイターが映画のような動画の生成、静止画のアニメーション化、話すデジタルヒューマンの作成、音声と映像が同期したコンテンツの制作を可能にします——高価なGPUや複雑なセットアップは一切不要です。
無音動画を先に生成してから音声を追加する従来のモデルとは異なり、Aliyun Wan 2.5+は対話、効果音、環境音、BGMを含む同期した動画を1回のフォワードパスで出力します。英語、中国語、日本語、スペイン語など8言語以上の音素レベルの同期に対応します。
今すぐAliyun Wanを試す

Aliyun Wan 2.5以上は、ネイティブマルチモーダル拡散Transformerアーキテクチャを採用し、同一の推論プロセス内で視覚・音声・テキストの生成を並列実行します。ネイティブな音声・映像の同期生成を実現した業界初のモデルです。
今すぐAliyun Wanを試すAlibaba Cloud Wanは、他の動画モデルが苦手とする複雑なカメラ操作——プッシュプルショット、フォーカス切り替え、トラッキングショット、視点切り替え、クレーンショット——をすべて滑らかにシームレスに処理します。Wan 2.7はマルチショット合成に対応し、シーン転換時のキャラクターの外観の一貫性を保ちます。
今すぐAliyun Wanを試す

無料のElser AIアカウントを作成します。動画モデルセレクターで、使用するWanモデル——Wan 2.7、Wan 2.6、Wan 2.6 Flash——を選びます。動画のアイデアを自然言語で記述しましょう。Wanはプロの映像制作用語と複雑な動きの記述を理解します。

描写的なプロンプトを書きましょう——カメラの動き、ライティング、アクション、雰囲気を含めます。画像から動画の場合は静止画を、参照から動画の場合は参照画像や参照動画をアップロードして、複数のショット間でキャラクターの外観と声を固定します。

動画の長さ(モデルにより最大15秒)、解像度(720pまたは1080p)、アスペクト比(16:9、9:16、1:1、4:3、3:4)を調整します。動画を生成し、同期した音声トラック付きのMP4でエクスポート——ソーシャルメディア、広告、絵コンテにすぐ使えます。
テキストプロンプト、画像、マルチメディア参照からマルチショットの映画のような動画を生成します。シーンを記述し、キャラクター参照をアップロードし、アクションの例を提供しましょう。Wanは滑らかなカメラワーク、正確なリップシンク、没入感のあるネイティブ音声を備えたダイナミックな映像を提供します。
最適な用途:


Wanの参照から動画は、複数のショット間でキャラクターのアイデンティティ、衣装、顔の特徴を維持します——旧来の動画モデルを悩ませる顔ドリフト問題を解消します。人物や物体を主役にしたマルチキャラクターのインタラクション動画にも対応します。
できること:
1枚のポートレート画像を任意の音声クリップで動かし、自然なリップシンクと表情を備えた話すデジタルヒューマンを生成します。プレゼンター、アバター、スポークスパーソンを音声だけで駆動——俳優、スタジオ、モーションキャプチャは不要です。
最適な用途:

Wanのネイティブ音声同期のおかげで、ポストプロダクションを何時間も節約できました。ナレーションを動画に手動で合わせる必要はもうありません。
ようやく、ドリーズームやラックフォーカスのような複雑なカメラの動きを理解するモデルが登場しました。
ナレーションとBGM付きの15秒の商品動画を、2分足らずで生成できました。Wanはeコマースにとって革命的です。
複数のショットにわたるキャラクターの一貫性が信じられないほどです。もう顔ドリフトはありません——同じ主人公でショートストーリーを実際に語れます。
Wanのデジタルヒューマンでピッチ動画を作りました。クライアントは本物の俳優だと思っていました。ネイティブのリップシンクが決定的な違いを生みました。
YouTuberとして、今ではテキストプロンプトだけで映画のようなBロールのインサートを作っています。撮影やストック映像探しに何日も費やす必要がなくなりました。
Aliyun Wanは、Alibaba Cloudの次世代AIビジュアル生成モデルファミリーで、中国を代表するオープンソース動画生成モデルを手がけたチームと同じTongyi Wanxiang Labが開発しています。Wanはテキスト、画像、音声から高品質でリアルな動画を生成します。
Wanは、大規模言語モデルの認知能力と高忠実度のピクセル合成を組み合わせた、ネイティブマルチモーダル拡散Transformerアーキテクチャを使用します。マルチモーダル入力(テキスト、画像、音声、動画)を分析し、統一フレームワーク内で同期した動画と音声の出力を生成します。
はい。Elser AIはWan向けに、毎月の限定クレジット(最大10回の動画生成)付きの無料プランを提供しています。有料プランでは、より高い解像度、より長い再生時間、優先レンダリング、最新のWan 2.7機能が利用できます。Wanのオープンソースモデルも無料でセルフホスティングできます。
Aliyun Wanにはいくつかの独自の利点があります:(1) ネイティブ音声・映像ジョイント生成——1回のパスで同期した音声、効果音、BGMを生成。(2) デジタルヒューマンの音声駆動アニメーション——1枚のポートレート画像を任意の音声クリップで動かす。(3) オープンソースMoEアーキテクチャ——映画品質の出力を保ちつつ計算量を約50%削減。(4) マルチモーダル入力対応——テキスト、画像、音声、動画をすべて入力に使用可能。
Wan 2.7は2〜15秒のクリップに対応し、Wan 2.6とWan 2.6 Flashは5秒、10秒、15秒に対応します。より長い物語には、Wan 2.7の動画継続機能を使って、視覚的な一貫性を保ちながら既存のクリップを延長できます。
Wanは720pまたは1080p、24fpsで生成します。アスペクト比は16:9、9:16、1:1、4:3、3:4に対応——YouTubeのワイドスクリーン、TikTok/Reelsの縦型、Instagramの正方形、従来の放送フォーマットをカバーします。
Wanは、英語、中国語(標準中国語)、日本語、スペイン語、フランス語、ドイツ語、韓国語、ロシア語を含む8言語以上の音素レベルのリップシンクに対応しています。今後のアップデートでさらに多くの言語が追加されます。
Wan 2.7は最新スイートで、マルチモーダル入力(テキスト、画像、音声、動画)、レンダリング前に意図を解釈する「思考モード」、先頭・末尾フレーム生成、動画継続、最大5被写体の参照トラッキングを備えています。Wan 2.6は参照から動画のロールプレイング、インテリジェントなマルチショットストーリーテリング、最大15秒の1080p出力に重点を置いています。Wan 2.6 Flashは高速反復に最適化されたスピード版です。
不要です。インターネットにアクセスできるデバイスがあればOKです——すべての処理はElser AIのクラウドサーバー上で行われ、GPUも大容量RAMもソフトウェアのインストールも不要です。Wanのオープンソースモデルをセルフホスティングする場合は、推論には24GBのGPU1枚で十分です。

画像とテキストから最高のAIビデオジェネレーターをお探しですか?クリエイターのワークフロー、画像からビデオへの制御、シーン生成の観点から、トップツールを比較しました。

人工知能による唇形同期技術と音声からビデオへの変換ワークフローが、クリエイターがより洗練されたアニメーションシーン、キャラクター動画、音声中心のコンテンツを制作する際にどのように支援するのかについて理解する。

より優れたプロンプト、アクション選択、シーン設計、スタイルのコントロールを活用してAI動物ビデオを作る方法を学びます。
Elser AIに登録して、Aliyun Wanの力を解き放ちましょう——テキストから動画、画像から動画から、話すデジタルヒューマン、ネイティブ音声同期まで。プロフェッショナルな映画のような動画を即座に生成——スキルもGPUも不要です。
Elser AIでAliyun Wanを試す