Suite de Generación de Vídeo IA Aliyun Wan

Aliyun Wan es la familia insignia de modelos de generación visual de Alibaba Cloud, del laboratorio Tongyi Wanxiang. Ahora integrada en Elser AI, Wan permite a los creadores generar vídeos cinematográficos, animar imágenes estáticas, crear humanos digitales que hablan y producir contenido audiovisual sincronizado — todo sin GPUs costosas ni configuraciones complejas.

Explora la familia de modelos Aliyun Wan en Elser AI

Por qué crear con Aliyun Wan en Elser AI

Generación conjunta nativa de audio-vídeo y sincronización labial de humanos digitales

A diferencia de los modelos tradicionales que generan vídeo silencioso primero y luego añaden audio, Aliyun Wan 2.5+ produce vídeo sincronizado con diálogos, efectos de sonido, sonidos ambientales y música de fondo en un solo pase hacia adelante. Admite sincronización a nivel de fonema para más de 8 idiomas, incluidos inglés, chino, japonés y español.

Prueba Aliyun Wan ahora

Arquitectura nativa de transformador de difusión multimodal (MD-DiT)

Aliyun Wan 2.5 y superior adoptan una arquitectura nativa de transformador de difusión multimodal, que permite la ejecución paralela de la generación visual, de audio y de texto dentro del mismo proceso de inferencia. Es el primer modelo de la industria en lograr la generación sincronizada nativa de audio y vídeo.

Prueba Aliyun Wan ahora

Control de cámara a nivel de director y narrativa multi-toma

Alibaba Cloud Wan maneja fácilmente operaciones de cámara complejas con las que otros modelos de vídeo tienen dificultades — tomas de acercamiento/alejamiento, cambio de enfoque, tomas de seguimiento, cambio de perspectiva y tomas de grúa — todo funcionando de forma fluida y sin fisuras. Wan 2.7 admite composición multi-toma, garantizando la consistencia en la apariencia de los personajes a través de las transiciones de escena.

Prueba Aliyun Wan ahora

Cómo usar Aliyun Wan en Elser AI

Paso 1: Regístrate y elige tu modelo

Crea una cuenta gratuita de Elser AI. En el selector de modelos de vídeo, elige tu modelo Wan — Wan 2.7, Wan 2.6 o Wan 2.6 Flash. Describe tu idea de vídeo en lenguaje natural; Wan entiende la terminología profesional de producción cinematográfica y las descripciones de movimiento complejas.

Paso 2: Introduce tu prompt y sube referencias

Escribe un prompt descriptivo — incluye movimiento de cámara, iluminación, acción y ambiente. Sube una imagen estática para imagen-a-vídeo, o imágenes y vídeos de referencia para referencia-a-vídeo para fijar la apariencia y la voz del personaje a través de múltiples tomas.

Paso 3: Personaliza y genera

Ajusta la duración del vídeo (hasta 15 segundos, según el modelo), la resolución (720p o 1080p) y la relación de aspecto (16:9, 9:16, 1:1, 4:3 o 3:4). Genera tu vídeo y expórtalo como MP4 con pista de audio sincronizada — listo para redes sociales, anuncios o storyboards.

¿Qué puedes hacer con Aliyun Wan?

Crea vídeos IA cinematográficos a partir de texto o imágenes

Genera vídeos cinematográficos multi-toma a partir de prompts de texto, imágenes o referencias multimedia. Describe una escena, sube referencias de personajes o proporciona ejemplos de acción. Wan entrega imágenes dinámicas con movimiento de cámara fluido, sincronización labial precisa y audio nativo inmersivo.

Perfecto para:

  • Cortometrajes y narrativos cortos
  • Narrativa de marca y anuncios
  • Clips para redes sociales y material B-roll

Genera personajes consistentes en todas las escenas (Referencia a Vídeo)

La función Referencia a Vídeo de Wan mantiene la identidad del personaje, la ropa y los rasgos faciales a través de múltiples tomas — eliminando el problema de deriva facial que afecta a los modelos de vídeo más antiguos. También admite vídeos de interacción multi-personaje usando personas u objetos como protagonistas.

Puedes:

  • Contar historias multi-escena con el mismo protagonista
  • Mantener mascotas de marca y diseños de personajes consistentes
  • Producir series de dramas cortos y contenido episódico

Crea humanos digitales que hablan

Anima una sola imagen de retrato con cualquier clip de audio para producir un humano digital que habla con sincronización labial y expresiones naturales. Impulsa presentadores, avatares y portavoces directamente desde la voz — sin actor, estudio ni captura de movimiento.

Ideal para:

  • Vídeos de portavoz, explicativos y de formación
  • Convertir un retrato en un avatar que habla
  • Diálogo multilingüe con sincronización labial

También te puede interesar

La gente está hablando de Aliyun Wan

La sincronización de audio nativo de Wan me ahorró horas de posproducción. Se acabó sincronizar manualmente las voces en off con el vídeo.

— Sarah C., editora de vídeo

Por fin, un modelo que entiende movimientos de cámara complejos como el dolly zoom y el cambio de foco.

— David L., investigador de IA

Generé un vídeo de producto de 15 segundos con voz en off y música de fondo en menos de dos minutos. Wan cambia las reglas del juego para el e-commerce.

— Jessica W., gerente de marketing digital

La consistencia de personajes a través de múltiples tomas es increíble. Se acabó la deriva facial — puedo contar una historia corta con el mismo protagonista.

— Michael T., animador independiente

Usamos el humano digital de Wan para un vídeo de presentación. El cliente pensó que era un actor real. La sincronización labial nativa marcó la diferencia.

— Derek P., productor de agencia

Como YouTuber, ahora creo insertos de B-roll cinematográficos solo a partir de prompts de texto. Me ahorra días de rodaje y de búsqueda de material de archivo.

— Linda Z., creadora de contenido

Preguntas frecuentes

Aliyun Wan es la familia de modelos de generación visual IA de próxima generación de Alibaba Cloud, desarrollada por el laboratorio Tongyi Wanxiang — el mismo equipo detrás de los principales modelos de generación de vídeo de código abierto de China. Wan crea vídeos realistas y de alta calidad a partir de texto, imágenes y audio.

Wan utiliza una arquitectura nativa de transformador de difusión multimodal que combina las capacidades cognitivas de los grandes modelos de lenguaje con la síntesis de píxeles de alta fidelidad. Analiza entradas multimodales (texto, imagen, audio, vídeo) y genera salidas de vídeo y audio sincronizadas en un marco unificado.

Sí, Elser AI ofrece un nivel gratuito para Wan con créditos mensuales limitados (hasta 10 generaciones de vídeo). Los planes de pago desbloquean resoluciones más altas, duraciones más largas, renderizado prioritario y acceso a las últimas funciones de Wan 2.7. Los modelos de código abierto de Wan también están disponibles para autoalojamiento sin coste.

Aliyun Wan ofrece varias ventajas únicas: (1) Generación conjunta nativa de audio-vídeo — voz, efectos de sonido y música de fondo sincronizados en un solo pase. (2) Animación de humanos digitales impulsada por audio — anima una sola imagen de retrato con cualquier clip de audio. (3) Arquitectura MoE de código abierto — alrededor del 50% de ahorro computacional con salida de calidad cinematográfica. (4) Soporte de entrada multimodal — texto, imagen, audio y vídeo pueden usarse como entradas.

Wan 2.7 admite clips de 2 a 15 segundos, mientras que Wan 2.6 y Wan 2.6 Flash admiten 5, 10 o 15 segundos. Para narrativas más largas, usa la función de continuación de vídeo en Wan 2.7 para extender clips existentes manteniendo la coherencia visual.

Wan genera a 720p o 1080p, 24 fps. Las relaciones de aspecto incluyen 16:9, 9:16, 1:1, 4:3 y 3:4 — cubriendo panorámica de YouTube, vertical de TikTok/Reels, cuadrado de Instagram y formatos de transmisión tradicionales.

Wan admite sincronización labial a nivel de fonema para más de 8 idiomas, incluidos inglés, chino (mandarín), japonés, español, francés, alemán, coreano y ruso. Próximas actualizaciones añadirán más idiomas.

Wan 2.7 es la suite más reciente con entrada multimodal (texto, imagen, audio, vídeo), un Modo Pensamiento que interpreta la intención antes de renderizar, generación de primer y último fotograma, continuación de vídeo y seguimiento de referencia de hasta 5 sujetos. Wan 2.6 se centra en el role-playing de referencia a vídeo, la narrativa inteligente multi-toma y salida 1080p de hasta 15 segundos. Wan 2.6 Flash es la variante optimizada para velocidad e iteración rápida.

Ninguna. Solo necesitas un dispositivo con acceso a internet — todo el procesamiento ocurre en los servidores en la nube de Elser AI, sin GPU, sin mucha RAM y sin instalación de software. Para autoalojar los modelos de código abierto de Wan, una sola GPU de 24GB es suficiente para la inferencia.

Lee más sobre Aliyun Wan

Da vida a tus historias con Aliyun Wan

Regístrate en Elser AI y desbloquea el poder de Aliyun Wan — desde texto a vídeo e imagen a vídeo hasta humanos digitales que hablan y sincronización de audio nativo. Genera vídeos cinematográficos profesionales al instante — sin habilidades requeridas, sin GPU.

Prueba Aliyun Wan en Elser AI