Suite de Génération Vidéo IA Aliyun Wan

Aliyun Wan est la famille phare de modèles de génération visuelle d'Alibaba Cloud, issue du laboratoire Tongyi Wanxiang. Désormais intégrée à Elser AI, Wan permet aux créateurs de générer des vidéos cinématographiques, d'animer des images fixes, de créer des humains numériques parlants et de produire du contenu audiovisuel synchronisé — le tout sans GPU coûteux ni configurations complexes.

Explorez la famille de modèles Aliyun Wan sur Elser AI

Pourquoi créer avec Aliyun Wan sur Elser AI

Génération conjointe native audio-vidéo et synchronisation labiale des humains numériques

Contrairement aux modèles traditionnels qui génèrent d'abord une vidéo muette puis ajoutent l'audio, Aliyun Wan 2.5+ produit une vidéo synchronisée avec dialogues, effets sonores, sons ambiants et musique de fond en une seule passe avant. Il prend en charge la synchronisation au niveau du phonème pour plus de 8 langues, dont l'anglais, le chinois, le japonais et l'espagnol.

Essayer Aliyun Wan maintenant

Architecture native de transformateur de diffusion multimodal (MD-DiT)

Aliyun Wan 2.5 et supérieur adoptent une architecture native de transformateur de diffusion multimodal, permettant l'exécution parallèle de la génération visuelle, audio et textuelle au sein du même processus d'inférence. C'est le premier modèle de l'industrie à réaliser une génération synchrone native audio et vidéo.

Essayer Aliyun Wan maintenant

Contrôle de caméra de niveau réalisateur et narration multi-plans

Alibaba Cloud Wan gère facilement des opérations de caméra complexes avec lesquelles d'autres modèles vidéo ont du mal — travellings avant/arrière, changement de mise au point, plans de suivi, changement de perspective et plans de grue — le tout fonctionnant de manière fluide et homogène. Wan 2.7 prend en charge la composition multi-plans, garantissant la cohérence de l'apparence des personnages lors des transitions de scène.

Essayer Aliyun Wan maintenant

Comment utiliser Aliyun Wan sur Elser AI

Étape 1 : Inscrivez-vous et choisissez votre modèle

Créez un compte Elser AI gratuit. Dans le sélecteur de modèle vidéo, choisissez votre modèle Wan — Wan 2.7, Wan 2.6 ou Wan 2.6 Flash. Décrivez votre idée de vidéo en langage naturel ; Wan comprend la terminologie professionnelle du cinéma et les descriptions de mouvement complexes.

Étape 2 : Saisissez votre prompt et téléchargez des références

Rédigez un prompt descriptif — incluez le mouvement de caméra, l'éclairage, l'action et l'ambiance. Téléchargez une image fixe pour l'image-vers-vidéo, ou des images et vidéos de référence pour la référence-vers-vidéo afin de verrouiller l'apparence et la voix du personnage sur plusieurs plans.

Étape 3 : Personnalisez et générez

Ajustez la durée de la vidéo (jusqu'à 15 secondes, selon le modèle), la résolution (720p ou 1080p) et le format (16:9, 9:16, 1:1, 4:3 ou 3:4). Générez votre vidéo et exportez-la en MP4 avec une piste audio synchronisée — prête pour les réseaux sociaux, les publicités ou les storyboards.

Que pouvez-vous faire avec Aliyun Wan ?

Créez des vidéos IA cinématographiques à partir de texte ou d'images

Générez des vidéos cinématographiques multi-plans à partir de prompts texte, d'images ou de références multimédias. Décrivez une scène, téléchargez des références de personnages ou fournissez des exemples d'action. Wan livre des visuels dynamiques avec un mouvement de caméra fluide, une synchronisation labiale précise et un audio natif immersif.

Parfait pour :

  • Courts-métrages et narrations courtes
  • Storytelling de marque et publicités
  • Clips pour réseaux sociaux et B-roll

Générez des personnages cohérents à travers les scènes (Référence vers Vidéo)

La fonction Référence vers Vidéo de Wan maintient l'identité du personnage, les vêtements et les traits du visage à travers plusieurs plans — éliminant le problème de dérive faciale qui affecte les anciens modèles vidéo. Elle prend aussi en charge les vidéos d'interaction multi-personnages utilisant des personnes ou des objets comme protagonistes.

Vous pouvez :

  • Raconter des histoires multi-scènes avec le même protagoniste
  • Garder les mascottes de marque et designs de personnages cohérents
  • Produire des courts drames en série et du contenu épisodique

Créez des humains numériques parlants

Animez une seule image de portrait avec n'importe quel clip audio pour produire un humain numérique parlant avec une synchronisation labiale et des expressions naturelles. Pilotez des présentateurs, des avatars et des porte-paroles directement par la voix — sans acteur, studio ni capture de mouvement.

Idéal pour :

  • Vidéos de porte-parole, explicatives et de formation
  • Transformer un portrait en avatar parlant
  • Dialogue multilingue synchronisé sur les lèvres

Cela pourrait aussi vous intéresser

Tout le monde parle d'Aliyun Wan

La synchronisation audio native de Wan m'a fait gagner des heures de postproduction. Fini de synchroniser manuellement les voix off avec la vidéo.

— Sarah C., monteuse vidéo

Enfin un modèle qui comprend les mouvements de caméra complexes comme le dolly zoom et le rack focus.

— David L., chercheur en IA

J'ai généré une vidéo produit de 15 secondes avec voix off et musique de fond en moins de deux minutes. Wan révolutionne l'e-commerce.

— Jessica W., responsable marketing digital

La cohérence des personnages sur plusieurs plans est irréelle. Fini la dérive faciale — je peux vraiment raconter une histoire courte avec le même protagoniste.

— Michael T., animateur indépendant

Nous avons utilisé l'humain numérique de Wan pour une vidéo de présentation. Le client pensait que c'était un vrai acteur. La synchronisation labiale native a fait toute la différence.

— Derek P., producteur en agence

En tant que YouTuber, je crée désormais des inserts de B-roll cinématographiques à partir de simples prompts texte. Cela m'épargne des jours de tournage et de recherche de séquences d'archives.

— Linda Z., créatrice de contenu

FAQ

Aliyun Wan est la famille de modèles de génération visuelle IA de nouvelle génération d'Alibaba Cloud, développée par le laboratoire Tongyi Wanxiang — la même équipe à l'origine des principaux modèles de génération vidéo open source de Chine. Wan crée des vidéos réalistes et de haute qualité à partir de texte, d'images et d'audio.

Wan utilise une architecture native de transformateur de diffusion multimodal qui combine les capacités cognitives des grands modèles de langage avec la synthèse de pixels haute fidélité. Il analyse des entrées multimodales (texte, image, audio, vidéo) et génère des sorties vidéo et audio synchronisées dans un cadre unifié.

Oui, Elser AI propose une offre gratuite pour Wan avec des crédits mensuels limités (jusqu'à 10 générations de vidéo). Les forfaits payants débloquent des résolutions plus élevées, des durées plus longues, un rendu prioritaire et l'accès aux dernières fonctionnalités de Wan 2.7. Les modèles open source de Wan sont aussi disponibles gratuitement pour l'auto-hébergement.

Aliyun Wan offre plusieurs avantages uniques : (1) Génération conjointe native audio-vidéo — parole, effets sonores et musique de fond synchronisés en une seule passe. (2) Animation d'humains numériques pilotée par l'audio — animer une seule image de portrait avec n'importe quel clip audio. (3) Architecture MoE open source — environ 50 % d'économies de calcul avec une sortie de qualité cinématographique. (4) Prise en charge des entrées multimodales — texte, image, audio et vidéo peuvent tous servir d'entrées.

Wan 2.7 prend en charge des clips de 2 à 15 secondes, tandis que Wan 2.6 et Wan 2.6 Flash prennent en charge 5, 10 ou 15 secondes. Pour des récits plus longs, utilisez la fonction de continuation vidéo de Wan 2.7 pour prolonger des clips existants tout en maintenant la cohérence visuelle.

Wan génère en 720p ou 1080p, 24 fps. Les formats incluent 16:9, 9:16, 1:1, 4:3 et 3:4 — couvrant le grand écran YouTube, le vertical TikTok/Reels, le carré Instagram et les formats de diffusion traditionnels.

Wan prend en charge la synchronisation labiale au niveau du phonème pour plus de 8 langues, dont l'anglais, le chinois (mandarin), le japonais, l'espagnol, le français, l'allemand, le coréen et le russe. D'autres langues arriveront dans de futures mises à jour.

Wan 2.7 est la suite la plus récente avec entrée multimodale (texte, image, audio, vidéo), un Mode Réflexion qui interprète l'intention avant le rendu, la génération de la première et de la dernière image, la continuation vidéo et le suivi de référence jusqu'à 5 sujets. Wan 2.6 se concentre sur le role-playing référence-vers-vidéo, la narration multi-plans intelligente et une sortie 1080p jusqu'à 15 secondes. Wan 2.6 Flash est la variante optimisée pour la vitesse et l'itération rapide.

Aucune. Vous n'avez besoin que d'un appareil avec accès à internet — tout le traitement se déroule sur les serveurs cloud d'Elser AI, sans GPU, sans RAM élevée et sans installation de logiciel. Pour auto-héberger les modèles open source de Wan, un seul GPU de 24 Go suffit pour l'inférence.

En savoir plus sur Aliyun Wan

Donnez vie à vos histoires avec Aliyun Wan

Inscrivez-vous sur Elser AI et libérez la puissance d'Aliyun Wan — du texte vers vidéo et image vers vidéo aux humains numériques parlants et à la synchronisation audio native. Générez instantanément des vidéos cinématographiques professionnelles — aucune compétence requise, aucun GPU nécessaire.

Essayer Aliyun Wan sur Elser AI