
1단계: 가입하고 모델 선택하기
무료 Elser AI 계정을 만드세요. 영상 모델 선택기에서 Wan 모델 — Wan 2.7, Wan 2.6 또는 Wan 2.6 Flash — 을 선택하세요. 영상 아이디어를 자연어로 설명하세요. Wan은 전문 영화 제작 용어와 복잡한 모션 설명을 이해합니다.
Aliyun Wan은 Tongyi Wanxiang Lab(통이완샹 연구소)에서 개발한 Alibaba Cloud의 플래그십 비주얼 생성 모델 패밀리입니다. 이제 Elser AI에 통합되어, Wan은 크리에이터가 영화 같은 영상 생성, 정지 이미지 애니메이션화, 말하는 디지털 휴먼 제작, 음성-영상 동기화 콘텐츠 제작을 할 수 있게 합니다 — 값비싼 GPU나 복잡한 설정 없이.
무음 영상을 먼저 생성한 뒤 오디오를 추가하는 기존 모델과 달리, Aliyun Wan 2.5+는 대사, 효과음, 환경음, 배경 음악이 포함된 동기화된 영상을 단일 순방향 패스로 출력합니다. 영어, 중국어, 일본어, 스페인어 등 8개 이상 언어의 음소 수준 동기화를 지원합니다.
지금 Aliyun Wan 체험하기

Aliyun Wan 2.5 이상은 네이티브 멀티모달 디퓨전 트랜스포머 아키텍처를 채택하여 동일한 추론 과정 내에서 시각, 오디오, 텍스트 생성을 병렬로 실행합니다. 네이티브 오디오-비디오 동기 생성을 달성한 업계 최초의 모델입니다.
지금 Aliyun Wan 체험하기Alibaba Cloud Wan은 다른 영상 모델이 어려워하는 복잡한 카메라 작업을 손쉽게 처리합니다 — 푸시-풀 샷, 포커스 전환, 트래킹 샷, 시점 전환, 크레인 샷 — 모두 매끄럽고 끊김 없이 작동합니다. Wan 2.7은 멀티샷 합성을 지원하여 장면 전환 시 캐릭터 외모의 일관성을 보장합니다.
지금 Aliyun Wan 체험하기

무료 Elser AI 계정을 만드세요. 영상 모델 선택기에서 Wan 모델 — Wan 2.7, Wan 2.6 또는 Wan 2.6 Flash — 을 선택하세요. 영상 아이디어를 자연어로 설명하세요. Wan은 전문 영화 제작 용어와 복잡한 모션 설명을 이해합니다.

묘사적인 프롬프트를 작성하세요 — 카메라 움직임, 조명, 동작, 분위기를 포함하세요. 이미지→영상에는 정지 이미지를, 참조→영상에는 참조 이미지와 영상을 업로드하여 여러 샷에 걸쳐 캐릭터의 외모와 목소리를 고정하세요.

영상 길이(모델에 따라 최대 15초), 해상도(720p 또는 1080p), 화면 비율(16:9, 9:16, 1:1, 4:3 또는 3:4)을 조정하세요. 영상을 생성하고 동기화된 오디오 트랙이 포함된 MP4로 내보내세요 — 소셜 미디어, 광고 또는 스토리보드에 바로 사용 가능합니다.
텍스트 프롬프트, 이미지 또는 멀티미디어 참조에서 멀티샷 영화 같은 영상을 생성하세요. 장면을 설명하고, 캐릭터 참조를 업로드하거나 액션 예시를 제공하세요. Wan은 부드러운 카메라 움직임, 정확한 립싱크, 몰입감 있는 네이티브 오디오를 갖춘 역동적인 영상을 제공합니다.
다음에 적합:


Wan의 참조→영상은 여러 샷에 걸쳐 캐릭터 정체성, 의상, 얼굴 특징을 유지합니다 — 이전 영상 모델을 괴롭히던 페이스 드리프트 문제를 제거합니다. 사람이나 사물을 주인공으로 하는 멀티 캐릭터 상호작용 영상도 지원합니다.
다음을 할 수 있습니다:
한 장의 인물 사진을 어떤 오디오 클립으로든 구동하여 자연스러운 립싱크와 표정을 갖춘 말하는 디지털 휴먼을 만드세요. 진행자, 아바타, 대변인을 목소리만으로 구동하세요 — 배우, 스튜디오, 모션 캡처가 필요 없습니다.
다음에 좋음:

Wan의 네이티브 오디오 동기화 덕분에 후반 작업 시간을 몇 시간이나 절약했습니다. 더 이상 보이스오버를 영상에 수동으로 맞출 필요가 없어요.
마침내 돌리 줌과 랙 포커스 같은 복잡한 카메라 움직임을 이해하는 모델이 나왔습니다.
보이스오버와 배경 음악이 포함된 15초 제품 영상을 2분 이내에 생성했습니다. Wan은 이커머스에 게임 체인저입니다.
여러 샷에 걸친 캐릭터 일관성이 비현실적입니다. 더 이상 페이스 드리프트가 없어요 — 같은 주인공으로 짧은 이야기를 실제로 풀어낼 수 있습니다.
Wan의 디지털 휴먼으로 피치 영상을 만들었습니다. 클라이언트는 실제 배우인 줄 알았어요. 네이티브 립싱크가 결정적이었습니다.
유튜버로서 이제 텍스트 프롬프트만으로 영화 같은 B-roll 인서트를 만듭니다. 촬영과 스톡 영상 찾기에 드는 며칠을 절약해 줍니다.
Aliyun Wan은 Alibaba Cloud의 차세대 AI 비주얼 생성 모델 패밀리로, 중국 최고의 오픈소스 영상 생성 모델을 만든 바로 그 팀인 Tongyi Wanxiang Lab이 개발했습니다. Wan은 텍스트, 이미지, 오디오에서 고품질의 사실적인 영상을 만듭니다.
Wan은 대규모 언어 모델의 인지 능력과 고충실도 픽셀 합성을 결합한 네이티브 멀티모달 디퓨전 트랜스포머 아키텍처를 사용합니다. 멀티모달 입력(텍스트, 이미지, 오디오, 영상)을 분석하고 통합 프레임워크에서 동기화된 영상과 오디오 출력을 생성합니다.
네, Elser AI는 Wan에 대해 매월 제한된 크레딧(최대 10회 영상 생성)이 있는 무료 등급을 제공합니다. 유료 플랜은 더 높은 해상도, 더 긴 길이, 우선 렌더링, 최신 Wan 2.7 기능을 잠금 해제합니다. Wan의 오픈소스 모델은 무료로 셀프 호스팅할 수도 있습니다.
Aliyun Wan은 몇 가지 독특한 장점을 제공합니다: (1) 네이티브 오디오-비디오 동시 생성 — 단일 패스로 동기화된 음성, 효과음, 배경 음악. (2) 디지털 휴먼 오디오 구동 애니메이션 — 한 장의 인물 사진을 어떤 오디오 클립으로든 구동. (3) 오픈소스 MoE 아키텍처 — 영화급 출력을 유지하면서 약 50% 연산 절감. (4) 멀티모달 입력 지원 — 텍스트, 이미지, 오디오, 영상을 모두 입력으로 사용 가능.
Wan 2.7은 2~15초 클립을 지원하며, Wan 2.6과 Wan 2.6 Flash는 5, 10, 15초를 지원합니다. 더 긴 내러티브의 경우 Wan 2.7의 영상 이어 만들기 기능으로 시각적 일관성을 유지하며 기존 클립을 확장하세요.
Wan은 720p 또는 1080p, 24fps로 생성합니다. 화면 비율은 16:9, 9:16, 1:1, 4:3, 3:4를 포함합니다 — YouTube 와이드스크린, TikTok/Reels 세로형, Instagram 정사각형, 전통적인 방송 포맷을 모두 아우릅니다.
Wan은 영어, 중국어(표준어), 일본어, 스페인어, 프랑스어, 독일어, 한국어, 러시아어를 포함한 8개 이상 언어의 음소 수준 립싱크를 지원합니다. 향후 업데이트에서 더 많은 언어가 추가됩니다.
Wan 2.7은 멀티모달 입력(텍스트, 이미지, 오디오, 영상), 렌더링 전에 의도를 해석하는 '띵킹 모드', 첫/마지막 프레임 생성, 영상 이어 만들기, 최대 5개 주체 참조 추적을 갖춘 최신 스위트입니다. Wan 2.6은 참조→영상 롤플레잉, 지능형 멀티샷 스토리텔링, 최대 15초 1080p 출력에 중점을 둡니다. Wan 2.6 Flash는 빠른 반복에 최적화된 속도 버전입니다.
필요 없습니다. 인터넷에 연결된 기기만 있으면 됩니다 — 모든 처리는 Elser AI의 클라우드 서버에서 이루어지며, GPU도, 큰 RAM도, 소프트웨어 설치도 필요 없습니다. Wan의 오픈소스 모델을 셀프 호스팅하려면 추론에는 24GB GPU 한 장이면 충분합니다.

이미지와 텍스트 기반 최고의 AI 비디오 생성기를 찾으시나요? 크리에이터 워크플로우, 이미지-비디오 제어, 장면 생성 분야의 상위 툴들을 비교 분석했습니다.

인공지능 입술 동기화 기술과 오디오를 영상으로 변환하는 워크플로우가 크리에이터가 더 완성도 높은 애니메이션 장면, 캐릭터 영상 및 오디오 중심 콘텐츠를 제작하는 데 어떻게 도움이 되는지 이해해 보세요.

더 나은 프롬프트, 모션 선택, 장면 디자인 및 스타일 제어를 활용해 AI 동물 영상을 만드는 방법을 배우세요.
Elser AI에 가입하고 Aliyun Wan의 힘을 해제하세요 — 텍스트→영상, 이미지→영상부터 말하는 디지털 휴먼과 네이티브 오디오 동기화까지. 전문 영화급 영상을 즉시 생성하세요 — 기술도 GPU도 필요 없습니다.
Elser AI에서 Aliyun Wan 체험하기