Cómo usar GPT Image 2 para crear personajes consistentes (despidiéndose de las deformaciones faciales)

Si alguna vez has intentado generar cómics o libros infantiles con IA, sabrás este fastidioso problema. Has creado el protagonista perfecto en el primer panel, pero en el segundo, la forma de su nariz ha cambiado. En el tercero, su chaqueta pasa de azul a morado. En el cuarto, no solo le ha salido un dedo más, sino que su peinado también ha cambiado por completo.

Esto se conoce como «deriva de personajes de IA». Y antes de abril de 2026, esto era solo algo que habíamos tolerado.

Luego OpenAI lanzó GPT Image 2 (la instantánea del modelo exacta es gpt-image-2-2026-04-21). Esta es la primera vez que uno de los generadores de imágenes de mayor renombre entiende realmente el significado de "mismo personaje". No es perfecto — no, aún debes seguir algunas reglas. Pero ya es lo suficientemente bueno, ahora puedes crear una cómic de 20 páginas o un guión gráfico de animación corto sin tener ganas de lanzar el portátil por la ventana.

Durante las últimas seis semanas he estado probando la coherencia de los personajes de GPT Image 2, principalmente a través de Elser.ai Debido a que su interfaz me permite cargar imágenes de referencia y generar 8 variantes en lote de una sola vez. A continuación, detallaré qué funciones funcionan correctamente, cuáles no funcionan y cómo puedes mantener fijo un personaje al realizar docenas de tareas de generación.

¿Por qué GPT Image 2 es diferente a los demás? (Razones técnicas)

Los modelos anteriores (DALL-E 3, Midjourney V6, SDXL) consideraban cada prompt como una creación completamente nueva. No tienen memoria. Puedes escribir «la misma mujer que antes», pero solo pueden adivinar. Algunas veces funciona, la mayoría de las veces no.

GPT Image 2 introdujo una capa de razonamiento. Antes de generar los píxeles, el modelo "planifica" la composición, la iluminación y, lo que es crucial, la apariencia visual de los personajes. Cuando proporcionas una imagen de referencia (lo explicaremos en detalle a continuación), GPT Image 2 en realidad extrae una "firma de características de personaje" latente. No es un LoRA completo, pero está muy cerca.

OpenAI no se refiere a esta técnica como "consistencia de personaje" en su documentación oficial, sino como "generación basada en referencia". Pero su efecto es obvio: solo tienes que proporcionarle una clara fotografía frontal de tu personaje, y podrá mantener la forma del rostro, el color de ojos, el peinado y los detalles de la vestimenta de dicho personaje estables en poses y fondos completamente nuevos.

He visto que mantuvo la consistencia en un lote de 8 imágenes. Esto es simplemente increíble.

Método 1: Flujo de trabajo con imágenes semilla (el más sencillo, ideal para 2 a 5 imágenes)

Esta es la forma más rápida de empezar. No requiere configuración compleja. Solo necesitas ti, GPT Image 2 y una imagen de referencia de alta calidad.

Paso 1 – crear la semilla de la tabla de personajes

Genera una imagen de alta calidad que muestre a tu personaje en una postura neutra. Enfocado de frente, con buena iluminación, cuerpo completo o al menos mitad de cuerpo en el encuadre, por favor incluye los detalles de la ropa.

Indicaciones de ejemplo que usé la semana pasada:

“Foto de cuerpo completo frontal de un personaje joven masculino de ladrón de fantasía. Lleva el pelo corto castaño desordenado, ojos verdes y una pequeña cicatriz en la mejilla izquierda. Viste una túnica de cuero verde oscuro, lleva guantes sin dedos y un colgante de plata en forma de lobo. El fondo es de color gris neutro, con una iluminación suave y uniforme y alta resolución.”

Paso 2 – Subir como material de referencia

En las herramientas que admiten la función de referencia de GPT Image 2 (Elser.ai Sí，al mismo tiempo，si usas la interfaz de ChatGPT Plus con el modo 「DALL-E en ChatGPT」），sube esa imagen semilla como referencia.

Paso 3 – redactar nuevos prompts de operación

Ahora solicita una nueva postura, manteniendo el personaje sin cambios. Ejemplo:

"Usa la imagen adjunta como referencia del personaje, genera la imagen del mismo ladrón corriendo en un bosque por la noche, con un puñal en la mano, expresión de pánico y utilizando una perspectiva dinámica."

Resultado: Su rostro sigue igual. Aquella túnica verde sigue conservada. Aquel colgante en forma de lobo sigue puesto en su cuerpo. Esa cicatriz sigue en su sitio. Pero en este momento está corriendo.

Restricciones: Después de aproximadamente 4 o 5 generaciones de variantes, es posible que notes algunas pequeñas desviaciones —por ejemplo, el colgante pasará de plateado a color de estaño, o el pelo se volverá un poco más largo. Para solucionar este problema, puedes volver a generar un nuevo "punto de anclaje" a partir del mejor resultado que hayas obtenido, y luego repetir la operación.

Método 2: Indicación con múltiples lentes (generar 8 imágenes de estilo uniforme en una sola ejecución)

Este es el punto en el que GPT Image 2 supera a todos los demás productos de la misma categoría. Puedes solicitar que genere hasta 8 imágenes de diferentes poses del mismo personaje en un solo prompt. Si describes al personaje de forma clara, no necesitarás subir una imagen de referencia.

Ejemplos de prompts con resultados sorprendentes:

“Generar 8 imágenes diferentes del mismo personaje: una arquera elfa femenina con trenzas de color rubio platino y ojos esmeralda, vestida con una coraza de cuero con pinchos y una capa corta verde. Haz que adopte las siguientes 8 posturas: 1) Tensar el arco y colocar la flecha en la cuerda, 2) Apuntar a un objetivo, 3) Correr a través del bosque, 4) Arrodillarse y esconderse detrás de un árbol, 5) Beber de un odre de agua, 6) Escalar una pared rocosa, 7) Apoyarse en un árbol para dormir, 8) Sonreír y ondear la mano. En todas las imágenes, su rostro, peinado, armadura y capa se mantendrán iguales. Iluminación uniforme: luz de bosque durante la hora dorada.”

GPT Image 2 generará una cuadrícula de 2×4 o 4×2 (según la relación de aspecto) que contenga las ocho imágenes en total. Y —esto es lo mágico— los personajes de las ocho viñetas parecen ser la misma persona.

Realicé cinco pruebas al respecto. Los cuatro primeros intentos fueron casi impecables. En la quinta prueba, la capa de una de las imágenes se convirtió en marrón oscuro. Esta tasa de coherencia alcanzó el 87,5%. Esto es revolucionario para la inteligencia artificial.

Método 3: Bloqueo de estilo "LoRA-Lite" (avanzado)

Para proyectos que hay que tomar en serio (como una novela gráfica de 50 páginas, un avatar de YouTube uniforme, una mascota de marca), no solo necesitas una imagen de referencia. Lo que necesitas es un bloqueo de estilo.

GPT Image 2 no admite el ajuste fino ni LoRA de forma oficial. Pero los usuarios expertos en la redacción de indicaciones encontraron un método alternativo: «bloque de descripción de personaje».

Redacta un párrafo de 4 a 5 oraciones para describir la configuración de tu personaje con detalles extremadamente exhaustivos. Luego pega este contenido idéntico al principio de cada indicación. No se permite hacer ningún cambio.

Bloque de ejemplo (siempre guardo esto en un archivo de texto):

[PERSONAJE: Karlen, masculino, 25 años. Cabello corto castaño oscuro desordenado, ojos azules-grises, con una pequeña cicatriz encima de la ceja derecha. Piel oliva. Lleva puesta una chaqueta de cuero marrón desgastada, con una sudadera con capucha gris debajo, pantalones vaqueros oscuros y botas de combate negras. Siempre lleva un anillo de plata en el pulgar de su mano izquierda. Mide 5‘10", de complexión delgada. Su expresión suele ser seria, pero también puede mostrar una sonrisa.]

Luego, para cada nuevo prompt, debes redactar:

[CHARACTER BLOCK] Ahora genera a Karen sentada en el metro, que parece completamente agotada, con una ventanilla con lluvia a sus espaldas y una luz tenue con ambiente cinematográfico.

GPT Image 2 Considera este bloque como una instrucción de alto peso. Dado que este modelo tiene una ventana de contexto de 128k tokens (así es, 128k, su tamaño es bastante grande), puede recordar este bloque a la perfección. He completado más de 30 tareas de generación usando el mismo bloque, con una consistencia de alrededor del 85% al 90%.

Prueba de escenario real: Página de cómic de 12 paneles

Para garantizar la uniformidad del estilo de manera efectiva, he creado un conjunto de 12 viñetas de cómic (3 filas y 4 columnas) que narran la historia de un robot de reparto que se pierde en la ciudad. He utilizado la técnica de tipificación de personajes para este robot, definiendo su apariencia, combinación de colores, patrón de los ojos LED y detalles de los rasguños.

Palabra de indicación:

“Genera una cuadrícula de cómic de 3×4 (12 casilleros en total) que muestre al mismo personaje de robot de reparto. Casillero 1: El robot sale del almacén. Casillero 2: El robot detecta una dirección incorrecta. Casillero 3: El robot gira hacia una calle equivocada. Casillero 4: Queda atrapado detrás de un desfile. Casillero 5: El robot intenta desviarse. Casillero 6: El robot se introduce en un callejón. Casillero 7: El robot se encuentra con un gato. Casillero 8: El gato se sienta en la cabeza del robot. Casillero 9: El robot tiene una expresión confundida. Casillero 10: El robot encuentra la dirección correcta. Casillero 11: El robot entrega el paquete. Casillero 12: El robot emite un pitido feliz. Mantén el diseño del robot idéntico en cada casillero: cuerpo blanco en forma de caja, pantalla LED azul con el patrón “:)”, una antena curvada y ruedas pequeñas.”

¿Cuál fue el resultado? 11 de los 12 paneles utilizaron el diseño de robot exactamente igual. Solo el séptimo panel (el panel de gato) realizó un pequeño ajuste en el ángulo de la antena. El grado de coherencia llegó al 91,7%.

En 2025 o principios de 2026, es imposible utilizar cualquier otro modelo.

Sin necesidad de un título en programación, ¿dónde debería realmente hacer esto exactamente?

No tienes que configurar los nodos de ComfyUI ni complicarte con Python. En junio de 2026, la forma más sencilla de generar personajes con un estilo uniforme usando GPT Image 2 es Elser.ai.

Estas son las razones por las que lo uso para la creación de personajes:

- La carga de archivos de referencia admite operaciones de arrastrar y soltar, sin configuraciones ocultas.

- Generar hasta 8 imágenes en lote, ideal para la técnica de generación de múltiples imágenes.

- La plantilla de indicaciones me permite guardar el bloque de configuración de personaje solo una vez para reutilizarlo en 100 generaciones.

- Modo de comparación – Entregar el mismo prompt a GPT Image 2, Flux y Nano Banana 2 para que los generen en paralelo y los muestren uno al lado del otro, con el fin de observar cuál tiene el mejor rendimiento de coherencia.

- Los paquetes de pago no tienen límite de velocidad. Generé 400 imágenes en una sesión en la que probaba un personaje no convencional, sin ningún tipo de restricción de flujo.

Elser integró la instantánea de GPT Image 2 de abril de 2026 hace dos semanas. También añadió un interruptor de alternancia de “bloqueo de personaje”, que permite aplicar automáticamente tu imagen de referencia a cada generación de imágenes sin tener que reescribir los prompts. Actualmente se encuentra en fase de prueba beta, pero funciona correctamente.

You can sign up for free (first 50 credits no credit card) at https://www.elser.ai/. That’s enough to test all three methods I just showed you.

Conclusión final: ¿Deberías usar GPT Image 2 para crear personajes con un estilo coherente?

Sí, claro, sin problema. Si estás creando cómics, guiones gráficos, activos visuales de marca o cualquier proyecto en el que la misma persona aparezca en varias imágenes, hasta junio de 2026, GPT Image 2 es el mejor modelo disponible en la actualidad. Midjourney V8 sigue presentando problemas de desviación de coherencia, Flux tiene un rendimiento similar pero es más lento, y Nano Banana 2 no ha tomado la coherencia como un punto de optimización prioritario.

GPT Image 2 no es perfecto — de cada 10 imágenes, 1 necesita ser regenerada. Pero tiene una tasa de éxito del 90%, lo que es suficiente para el trabajo de producción real.

Prueba los tres métodos anteriores. Empieza por el método de la imagen semilla, luego pasa a las indicaciones de múltiples ejemplos. Si encuentras un bloque de caracteres que funcione de maravilla, guárdalo sin falta: es tu tesoro.

Cómo usar GPT Image 2 para crear personajes consistentes (despidiéndose de las deformaciones faciales)

¿Por qué GPT Image 2 es diferente a los demás? (Razones técnicas)

Método 1: Flujo de trabajo con imágenes semilla (el más sencillo, ideal para 2 a 5 imágenes)

Paso 1 – crear la semilla de la tabla de personajes

Paso 2 – Subir como material de referencia

Paso 3 – redactar nuevos prompts de operación

Método 2: Indicación con múltiples lentes (generar 8 imágenes de estilo uniforme en una sola ejecución)

Método 3: Bloqueo de estilo "LoRA-Lite" (avanzado)

Prueba de escenario real: Página de cómic de 12 paneles

Sin necesidad de un título en programación, ¿dónde debería realmente hacer esto exactamente?

Conclusión final: ¿Deberías usar GPT Image 2 para crear personajes con un estilo coherente?

Últimas publicaciones

Kling 3.0 vs Seedance 2.0 vs Veo 3.1: ¿Cuál de ellos logra que los personajes mantengan la mayor coherencia?

¿Qué modelo de IA de vídeo en 2026 podrá mantener a los personajes con la máxima consistencia?

Cómo convertir manga o cómics en animación con IA: Un flujo de trabajo de 2026

GPT-5.6 Sol vs Terra vs Luna para videos de IA: ¿Qué modelo deberían usar los creadores?

Mejor pila tecnológica para la creación de videoclips musicales con IA en 2026: Generación musical, producción visual, sincronización labial y edición de videoclips