GPT Image 2로 일관된 캐릭터를 만드는 방법 (얼굴 왜곡 작별하기)

만약 AI로 만화나 아동용 그림책을 만들어 본 적이 있다면, 이런 짜증나는 고민을 알게 될 거예요. 첫 번째 프레임에서 완벽한 주인공을 만들었는데, 두 번째 프레임에 가면 그의 코 모양이 달라져요. 세 번째 프레임에는 그의 재킷이 파란색에서 보라색으로 변하고, 네 번째 프레임에는 손가락이 하나 더 늘어난 데다 머리 스타일까지 완전히 바뀌어 있죠.

이것을 'AI 캐릭터 드리프트'라고 부릅니다. 그리고 2026년 4월까지는 이것이 우리가 참아왔던 일에 불과했습니다.

그 후 OpenAI에서 GPT Image 2를 출시했습니다(정확한 모델 스냅샷은 gpt-image-2-2026-04-21입니다). 이는 주류 이미지 생성 도구에서 '동일한 캐릭터'의 의미를 진정으로 이해한 최초의 사례입니다. 완벽하진 않습니다—아니, 여전히 몇 가지 규칙을 지켜야 합니다. 하지만 충분히 쓸만해서, 이제 노트북을 창밖으로 던지고 싶은 마음이 들지 않으면서 20페이지짜리 만화나 짧은 애니메이션 스토리보드를 만들 수 있게 됐습니다.

지난 6주 동안 저는 GPT Image 2의 캐릭터 일관성을 테스트해 왔습니다, 주로 Elser.ai 그들의 인터페이스는 참고 이미지를 업로드할 수 있게 해주고, 한 번에 8가지 변형을 대량으로 생성할 수도 있습니다. 다음에서는 어떤 기능이 정상적으로 작동하고 어떤 기능이 작동하지 않는지, 그리고 수십 번의 생성 작업에서 어떻게 하나의 캐릭터를 고정할지 자세히 설명하겠습니다.

왜 GPT Image 2는 기존과 다릅니까? (기술적 측면의 이유)

이전 모델(DALL-E 3, Midjourney V6, SDXL)은 모든 프롬프트를 완전히 새로운 창작물로 취급합니다. 이 모델들은 기억력이 없습니다. 당신이 '이전과 같은 여성'이라고 적을 수 있지만, 이 모델들은 그저 추측에만 의존할 뿐입니다. 가끔은 효과가 있지만, 대부분의 경우 그렇지 못합니다.

GPT Image 2는 추론 계층을 도입했습니다. 픽셀을 생성하기 전에 이 모델은 구도, 조명, 그리고 무엇보다도 캐릭터의 시각적 이미지를 '계획'합니다. 참고 이미지를 제공하면(아래에서 자세히 설명하겠지만) GPT Image 2는 실제로 잠재적인 '캐릭터 특징 서명'을 추출합니다. 이는 완전한 LoRA는 아니지만 매우 가깝습니다.

OpenAI는 공식 문서에서 그 자체로 '캐릭터 일관성'이라고 부르지 않고 '참조 기반 생성'이라고 부릅니다. 하지만 그 효과는 명백합니다: 단지 당신의 캐릭터 선명한 정면 사진 한 장만 제공하면, 새로운 포즈와 배경에서 해당 캐릭터의 얼굴형, 눈 색, 머리스타일, 의상 세부 사항이 안정적으로 유지되게 할 수 있습니다.

단일 배치의 8장 이미지에서 일관성을 유지하는 것을 보았습니다. 정말 대단합니다.

방법 1: 시드 이미지 워크플로우(가장 간단하며, 2~5장의 이미지에 적용 가능)

이게 가장 빠르게 시작하는 방법입니다. 복잡한 설정이 필요 없습니다. 단지 당신, GPT Image 2 그리고 양질의 참고 이미지 하나만 있으면 됩니다.

1단계 – 「캐릭터 테이블」 시드 생성

고품질의 이미지를 생성해 주세요. 캐릭터가 중성적인 포즈를 취하는 모습을 보여주세요. 정면을 향하게 하고, 조명이 좋게 해주세요. 전신 또는 최소한 상반신이 나오도록 촬영해 주세요. 의상 세부 사항을 포함해 주세요.

지난 주에 사용한 예시 프롬프트:

“젊은 남성 판타지 도적 캐릭터의 정면 전신 사진. 어질러진 짧은 갈색 머리를 하고 있으며, 녹색 눈을 가지고 있고 왼쪽 뺨에 작은 흉터가 하나 있다. 짙은 녹색 가죽 허리 조임 튜닉을 입고 있으며 반지장갑을 끼고 늑대 모양의 은 펜던트를 착용하고 있다. 배경은 중성적인 회색이며 빛은 부드럽고 고르며 해상도가 높다.”

단계 2 – 참고 자료로 업로드

GPT 이미지 2의 참조 기능을 지원하는 도구 중(Elser.ai 네, 또한 「ChatGPT 내 DALL-E」 모드를 사용하는 ChatGPT Plus 인터페이스를 이용하신다면), 이 시드 이미지를 참고로 업로드해 주세요.

3단계 – 새로운 작업 프롬프트 작성

지금 새로운 자세를 요청하고, 역할은 그대로 유지합니다. 예시:

“첨부된 이미지를 캐릭터 참고 자료로 삼아 밤 숲 속에서 달리는 동일한 도적 캐릭터의 장면을 생성하세요. 단검을 들고 공포에 질린 표정이며, 역동적인 시점을 사용하세요.”

결과：얼굴은 여전하다. 그 녹색 허리 조임 외투는 여전히 남아있다. 그 늑대 모양 펜던트는 여전히 몸에 차고 있다. 그 흉터는 여전히 제자리에 있다. 하지만 지금 그는 달리고 있다.

제한 사항: 약 4~5회 변형 생성 후 미세한 차이가 발생할 수 있습니다—예를 들어 펜던트가 은색에서 주석색으로 변하거나 머리카락이 약간 길어지는 경우가 있습니다. 이 문제를 해결하려면 본인이 얻은 최상의 출력 결과에서 새로운 '앵커'를 다시 생성한 후 작업을 반복하면 됩니다.

방법 2: 다중 렌즈 프롬프트 (한 번에 스타일이 일관된 8장의 이미지를 생성)

이것이 바로 GPT Image 2가 다른 모든 동종 제품을 압도하는 부분입니다. 단일 프롬프트에서 최대 8장의 동일한 캐릭터의 다양한 포즈 이미지를 생성하도록 요청할 수 있습니다. 만약 그 캐릭터를 명확하게 설명할 수 있다면 참고 이미지를 업로드할 필요가 없습니다.

효과가 기이하게 좋은 예시 프롬프트:

“동일한 캐릭터의 다른 8장의 이미지를 생성해 주세요: 백금색으로 땋은 머리에 에메랄드색 눈을 가진 여성 엘프 궁수로, 철톡이 달린 가죽 갑옷과 짧은 녹색 망토를 입고 있습니다. 다음 8가지 포즈를 취하게 해주세요: 1) 활을 당겨 화살을 쏠 준비, 2) 목표물을 조준, 3) 숲을 달려가기, 4) 나무 뒤에 숨어 무릎을 꿇기, 5) 물주머니로 물 마시기, 6) 바위 벽을 오르기, 7) 나무에 기대어 자기, 8) 미소를 지으며 손을 흔들기. 모든 이미지에서 그녀의 얼굴, 머리스타일, 갑옷과 망토는 모두 동일하게 유지해 주세요. 조명은 통일하되, 황금 시간대의 숲 조명으로 해주세요.”

GPT 이미지 2는 화면 비율에 따라 2×4 또는 4×2 그리드를 출력하며, 전체 8장의 이미지를 포함합니다. 바로 이것이 신기한 점인데, 여덟 개의 장면에 등장하는 모든 캐릭터가 마치 같은 사람처럼 보입니다.

나는 이것에 대해 다섯 번의 테스트를 진행했습니다. 처음 네 번의 시도는 거의 완벽하게 결점이 없었습니다. 다섯 번째 테스트에서 한 이미지의 망토가 짙은 갈색으로 변했습니다. 이 일치율은 87.5%에 달했습니다. 이는 인공지능에 있어서 혁명적인 일입니다.

방법 3: “LoRA-Lite” 스타일 잠금 (고급)

진지하게 다뤄야 하는 프로젝트(예: 50페이지 분량의 그래픽 노블, 통일된 유튜브 프로필 사진, 브랜드 마스코트)의 경우, 단지 참고 이미지 한 장만으로는 충분하지 않습니다. 당신이 필요한 것은 스타일 고정입니다.

GPT Image 2는 공식적으로 미세 조정 또는 LoRA를 지원하지 않습니다. 하지만 프롬프트 작성에 능숙한 사용자들이 우회 방법을 찾아냈습니다:「캐릭터 설명 블록」.

당신의 캐릭터 설정을 극도로 상세한 세부 사항을 바탕으로 설명하는 4~5개의 문장으로 이뤄진 문단을 작성하세요. 그런 다음 이 동일한 내용을 각 프롬프트의 시작 부분에 붙여넣으세요. 아무런 변경도 할 수 없습니다.

예시 블록 (나는 이것을 항상 텍스트 파일에 저장해두고 있어):

[캐릭터: 카렌, 남성, 25세. 어질러진 짙은 갈색 단발 머리, 회색 푸른 눈동자, 오른쪽 눈썹 위에 작은 흉터가 있다. 올리브색 피부를 가지고 있다. 겉에 낡은 갈색 가죽 재킷을 입고 안에는 회색 후드티를 입고 있으며, 하의는 짙은 색 청바지와 검은색 전투 부츠를 신고 있다. 왼손 엄지손가락에는 항상 은 반지를 끼고 있다. 키는 5‘10", 날씬한 몸매를 가지고 있다. 표정은 보통 엄격하지만 웃음도 보인다.]

그리고 각 새로운 프롬프트에 대해 다음을 작성해야 합니다:

[CHARACTER BLOCK] 지금 지하철에 앉아 피곤해 보이는 카런을 생성하세요. 뒤에는 비가 내리는 창문이 있고 영화적인 분위기의 어두운 조명이 비추고 있습니다.

GPT 이미지 2: 이 블록을 높은 가중치의 명령으로 간주하세요. 이 모델은 128k 토큰의 컨텍스트 윈도우를 가지고 있습니다 (맞아, 128k——규모가 상당히 크죠), 완벽하게 이 블록을 기억할 수 있습니다. 저는 동일한 블록을 사용해 30회 이상의 생성 작업을 완료했으며, 일관성은 약 85%에서 90% 사이입니다.

실제 시나리오 테스트: 12칸 만화 페이지

스타일의 일관성을 확실히 보장하기 위해 총 12칸으로 이뤄진 만화(3행 4열)를 제작했으며, 도시에서 길을 잃은 배송 로봇의 이야기를 담았습니다. 해당 로봇에는 캐릭터 스테레오타이핑 기법을 적용해 외형, 색상 배치, LED 눈 패턴과 긁힌 자국 세부 사항을 명확히 정했습니다.

프롬프트：

“3×4 만화 격자(총 12칸)를 만들어 동일한 배송 로봇 캐릭터를 보여주세요. 격자 1: 로봇이 창고를 떠납니다. 격자 2: 잘못된 주소를 읽습니다. 격자 3: 잘못된 거리로 휩니다. 격자 4: 시위 행렬 뒤에 갇힙니다. 격자 5: 우회하려 시도합니다. 격자 6: 골목으로 진입합니다. 격자 7: 고양이를 만납니다. 격자 8: 고양이가 로봇의 머리 위에 앉습니다. 격자 9: 로봇이 혼란스러운 표정입니다. 격자 10: 로봇이 올바른 주소를 찾습니다. 격자 11: 택배를 배달합니다. 격자 12: 로봇이 기뻐하는 삐 소리를 냅니다. 각 격자 내 로봇 디자인은 완전히 동일하게 유지하세요—흰색 상자형 몸체, “:)” 패턴이 있는 파란색 LED 디스플레이, 구부러진 안테나, 소형 바퀴.”

결과는 어땠나요? 12개의 패널 중 11개가 완전히 동일한 로봇 디자인을 채택했습니다. 오직 7번째 패널(고양이 패널)만 안테나 각도를 살짝 조정했습니다. 일치율이 91.7%에 달했습니다.

2025년 또는 2026년 초에는 다른 어떤 모델을 사용하는 것도 불가능합니다.

프로그래밍 학위가 필요 없이, 과연 어디에서 실제로 이 일을 해야 할지

ComfyUI 노드를 설정할 필요도 없고 파이썬을 힘들게 다룰 필요도 없습니다. 2026년 6월 현재, GPT Image 2로 스타일이 일관된 캐릭터를 생성하는 가장 간단한 방법은 Elser.ai입니다.

다음이 제가 이것을 캐릭터 창작에 사용하는 이유입니다:

- 참고 파일 업로드는 드래그 앤 드롭 조작을 지원하며 숨겨진 설정이 없습니다.

- 최대 8장의 이미지를 일괄 생성합니다 — 다중 이미지 생성 기법에 매우 적합합니다.

- 프롬프트 템플릿을 이용하면 캐릭터 설정 블록을 한 번만 저장해도 100회 생성 작업에서 반복해서 사용할 수 있습니다.

- 대조 모드 – 동일한 프롬프트를 GPT Image 2, Flux, Nano Banana 2에 병렬로 생성 요청한 뒤 나란히 표시해 어떤 모델의 일관성 성능이 가장 뛰어난지 관찰할 수 있도록 합니다.

- 유료 요금제는 속도 제한이 없습니다. 비정규 캐릭터를 테스트하는 세션에서 400장의 이미지를 생성했는데, 어떤 속도 제한도 발생하지 않았습니다.

엘서는 2주 전에 2026년 4월 GPT Image 2 스냅샷을 새로 통합했습니다. 또한 프롬프트를 다시 작성하지 않아도 참고 이미지를 모든 이미지 생성 작업에 자동으로 적용할 수 있도록 하는 "캐릭터 잠금" 토글 스위치를 추가했습니다. 현재 베타 테스트 단계에 있지만 정상적으로 작동합니다.

You can sign up for free (first 50 credits no credit card) at https://www.elser.ai/. That’s enough to test all three methods I just showed you.

최종 결론: GPT Image 2를 사용하여 스타일이 일관된 캐릭터를 만들어야 할까요?

네, 물론입니다. 만약 만화, 스토리보드, 브랜드 시각 자산을 제작하거나 여러 장의 이미지에 동일한 인물이 등장해야 하는 모든 프로젝트를 진행 중이라면, 2026년 6월 현재 사용 가능한 최고의 모델은 GPT Image 2입니다. Midjourney V8은 여전히 일관성 편차 문제가 있으며, Flux는 성능이 비슷하지만 속도가 더 느리고, Nano Banana 2는 일관성을 최적화의 우선순위로 삼지 않고 있습니다.

GPT Image 2는 완벽하지 않습니다—매 10장의 이미지 중 1장은 다시 생성해야 합니다. 하지만 90%의 성공률을 보이며, 실제 생산 작업에는 충분합니다.

위의 세 가지 방법을 시도해 보세요. 먼저 시드 이미지 방법부터 시작한 뒤, 다중 예시 프롬프트로 넘어가세요. 만약 효과가 뛰어난 문자 블록을 찾았다면 반드시 저장해 두세요—이것은 당신의 보물이니까.

GPT Image 2로 일관된 캐릭터를 만드는 방법 (얼굴 왜곡 작별하기)

왜 GPT Image 2는 기존과 다릅니까? (기술적 측면의 이유)

방법 1: 시드 이미지 워크플로우(가장 간단하며, 2~5장의 이미지에 적용 가능)

1단계 – 「캐릭터 테이블」 시드 생성

단계 2 – 참고 자료로 업로드

3단계 – 새로운 작업 프롬프트 작성

방법 2: 다중 렌즈 프롬프트 (한 번에 스타일이 일관된 8장의 이미지를 생성)

방법 3: “LoRA-Lite” 스타일 잠금 (고급)

실제 시나리오 테스트: 12칸 만화 페이지

프로그래밍 학위가 필요 없이, 과연 어디에서 실제로 이 일을 해야 할지

최종 결론: GPT Image 2를 사용하여 스타일이 일관된 캐릭터를 만들어야 할까요?

최신 게시물

Kling 3.0 대 Seedance 2.0 대 Veo 3.1: 어떤 제품이 캐릭터를 최고 수준의 일관성으로 유지할 수 있을까?

2026년 어떤 AI 비디오 모델이 캐릭터의 일관성을 최대로 유지할 수 있을까?

AI를 활용해 일본 만화나 서양 만화를 애니메이션으로 제작하는 방법: 2026년 작업 흐름

GPT-5.6 Sol, Terra와 Luna AI 비디오용: 크리에이터는 어떤 모델을 선택해야 할까요?

2026년 최고의 AI 뮤직 비디오 제작 기술 스택: 음악 생성, 시각 제작, 입 모양 동기화 및 비디오 편집