Comment utiliser GPT Image 2 pour créer des personnages cohérents (dites adieu aux déformations du visage)
Si vous avez déjà essayé de générer des bandes dessinées ou des livres pour enfants avec l'IA, vous connaissez ce tracas agaçant. Vous avez créé le protagoniste parfait dans la première case, mais à la deuxième, la forme de son nez a changé. À la troisième, sa veste est passée du bleu au violet. À la quatrième, il a non seulement un doigt en plus, mais sa coiffure a également complètement changé.
Cela est appelé « dérive des personnages IA ». Avant avril 2026, ce n'était que quelque chose que nous avions toléré.
Puis OpenAI a publié GPT Image 2 (la capture de modèle exacte est gpt-image-2-2026-04-21). C'est la première fois qu'un générateur d'images du grand public comprend véritablement ce que signifie «même personnage». Ce n'est pas parfait — non, vous devez toujours respecter certaines règles. Mais c'est déjà suffisamment efficace : vous pouvez maintenant créer une bande dessinée de 20 pages ou un court storyboard d'animation sans avoir envie de jeter votre ordinateur portable par la fenêtre.
Ces six dernières semaines, je teste la cohérence des personnages de GPT Image 2, principalement via Elser.ai Car leur interface me permet de téléverser des images de référence et de générer 8 variantes en lot en une seule fois. Je vais détailler ci-dessous quelles fonctionnalités fonctionnent correctement, quelles ne fonctionnent pas, et comment vous pouvez verrouiller un personnage parmi des dizaines de tâches de génération.
Pourquoi GPT Image 2 se distingue des autres ? (Raisons techniques)
Les modèles précédents (DALL-E 3, Midjourney V6, SDXL) considèrent chaque invite comme une création totalement nouvelle. Ils n'ont pas de mémoire. Vous pouvez écrire « la même femme que précédemment », mais ils ne peuvent que deviner. Cela fonctionne parfois, mais la plupart du temps, ce n'est pas le cas.
GPT Image 2 introduit une couche de raisonnement. Avant de générer des pixels, le modèle « planifie » la composition, l'éclairage ainsi que l'image visuelle du personnage, d'une importance capitale. Lorsque vous fournissez une image de référence (nous détaillerons cela ci-dessous), GPT Image 2 extraira en réalité une « signature de caractéristiques de personnage » latente. Ce n'est pas un LoRA complet, mais il en est très proche.
OpenAI ne l'a pas lui-même désigné comme « cohérence de personnage » dans sa documentation officielle, mais plutôt comme « génération basée sur une référence ». Mais son effet est évident : il suffit de lui fournir une photo en plan frontal clair de votre personnage, et il permet de conserver de manière stable la forme du visage, la couleur des yeux, la coiffure ainsi que les détails des vêtements dans des poses et des arrière-plans totalement nouveaux.
J'ai vu qu'il a maintenu la cohérence sur un lot de 8 images. C'est incroyable !
Méthode 1 : Flux de travail avec des images de semence (la plus simple, adaptée pour 2 à 5 images)
C'est la manière la plus rapide de prendre en main. Pas de configuration complexe nécessaire. Il ne vous faut que vous-même, GPT Image 2 et une image de référence de qualité.
Étape 1 – Créer la graine de la table des personnages
Générez une image de haute qualité montrant votre personnage adoptant une pose neutre, de face, avec un bon éclairage, en plan complet ou au moins en plan moitié-corps, et veillez à inclure les détails des vêtements.
Les exemples de prompts que j'ai utilisés la semaine dernière :
“Portrait en pied de face d'un jeune personnage de voleur fantastique masculin. Cheveux courts bruns ébouriffés, yeux verts et une petite cicatrice sur la joue gauche. Il porte une tunique en cuir vert foncé, des gants sans doigts et un pendentif en argent en forme de loup. Fond gris neutre, éclairage doux et uniforme, haute résolution.”
Étape 2 – Téléverser en tant que matériel de référence
Dans les outils qui prennent en charge la fonction de référence de GPT Image 2 (Elser.ai Oui, et par ailleurs, si vous utilisez l'interface ChatGPT Plus du mode « DALL-E dans ChatGPT »), téléversez cette image de départ en tant que référence.
Étape 3 – Rédiger un nouveau prompt opérationnel
Maintenant, demandez une nouvelle position, gardez le rôle inchangé. Exemple :
« Utilisez l'image jointe comme référence pour le personnage, générez une image du même personnage voleur courant dans une forêt la nuit, tenant un poignard, avec un air effrayé, en utilisant une perspective dynamique. »
Résultat : Son visage est toujours le même. Cette tunique verte est toujours en sa possession. Ce pendentif en forme de loup est toujours porté sur lui. Cette cicatrice est toujours à sa place. Mais en ce moment, il est en train de courir.
Limites : Après environ 4 à 5 générations de variantes, vous pourriez constater de légères déviations — par exemple, un pendentif qui passe de l'argent à l'étain, ou des cheveux qui deviennent un peu plus longs. Pour résoudre ce problème, vous pouvez régénérer un tout nouveau « point d'ancrage » à partir du meilleur résultat que vous avez obtenu, puis répéter l'opération.
Méthode 2 : Prompts à plusieurs angles de prise de vue (génère 8 images au style cohérent en une seule fois)
C'est là que GPT Image 2 dépasse tous les autres produits similaires. Vous pouvez demander qu'il génère jusqu'à 8 images de différentes poses du même personnage dans un seul prompt. Si vous décrivez clairement le personnage, vous n'avez pas besoin de télécharger d'image de référence.
Exemples de prompts aux résultats étonnamment bons :
“Générer 8 images différentes du même personnage : une elfe archère féminine aux cheveux tressés blonds platine et aux yeux émeraude, vêtue d'une armure de cuir cloutée et d'une courte cape verte. Lui faire adopter les 8 poses suivantes : 1) Tendre l'arc et placer la flèche, 2) Viser une cible, 3) Courir à travers la forêt, 4) S'accroupir par terre et se cacher derrière un arbre, 5) Boire dans une gourde, 6) Grimper une paroi rocheuse, 7) Se appuyer sur un arbre pour dormir, 8) Sourir et faire signe de la main. Dans toutes les images, son visage, sa coiffure, son armure et sa courte cape verte restent identiques. Lumière uniforme : lumière de la forêt à l'heure d'or.”
GPT Image 2 va produire une grille de 2×4 ou 4×2 (selon le ratio d'aspect), contenant les huit images au total. Et — voici la partie magique — les personnages de ces huit planches de storyboard semblent tous être la même personne.
J'ai effectué cinq tests à ce sujet. Les quatre premières tentatives étaient presque impeccables. Lors du cinquième test, la cape d'une des images est devenue marron foncé. Ce taux de cohérence atteint 87,5 %. C'est révolutionnaire pour l'intelligence artificielle.
Méthode 3 : Verrouillage de style « LoRA-Lite » (avancé)
Pour les projets qu'il faut prendre au sérieux (comme une roman graphique de 50 pages, un avatar YouTube uniforme, une mascotte de marque), il ne vous suffit pas seulement d'une image de référence. Ce dont vous avez besoin, c'est de figer le style.
GPT Image 2 ne prend pas officiellement en charge le fine-tuning ni LoRA. Mais les utilisateurs maîtrisant la rédaction de prompts ont trouvé une solution de contournement : le « bloc de description de personnage ».
Rédigez un paragraphe de 4 à 5 phrases pour décrire votre profil de personnage avec des détails extrêmement complets. Ensuite, collez ce contenu identique au début de chaque invite. Toute modification est interdite.
Bloc d'exemple (que j'ai toujours conservé dans un fichier texte) :
[CHARACTER : Karlen, homme de 25 ans. Cheveux courts châtains désordonnés, yeux bleu-gris, une petite cicatrice au-dessus du sourcil droit. Peau olive. Il porte une vieille veste en cuir marron par-dessus, un sweat à capuche gris en dessous, un jean foncé et des bottes de combat noires en bas. Il porte toujours une bague en argent au pouce de la main gauche. Taille 5‘10", silhouette maigre. Expression généralement sérieuse, mais peut également sourire.]
Puis, pour chaque nouveau prompt, vous devriez rédiger :
[CHARACTER BLOCK] Maintenant générer Karen assise dans le métro, visiblement épuisée, avec une vitre couverte de pluie derrière elle et une lumière tamisée créant une atmosphère cinématographique.
GPT Image 2 Considérez ce bloc comme une instruction à poids élevé. Comme ce modèle possède une fenêtre de contexte de 128k jetons (oui, 128k – c'est une taille assez importante), il peut mémoriser ce bloc parfaitement. J'ai déjà utilisé ce même bloc pour plus de 30 tâches de génération, avec une cohérence d'environ 85 % à 90 %.
Test en situation réelle : Page de bande dessinée en 12 cases
Pour garantir effectivement l'unité stylistique, j'ai réalisé une série de bandes dessinées comptant 12 cases au total (3 lignes pour 4 colonnes), qui raconte l'histoire d'un robot livreur qui se perd en ville. J'ai utilisé une méthode de caractérisation du personnage pour ce robot, en définissant clairement sa forme, sa palette de couleurs, les motifs des yeux LED ainsi que les détails des rayures.
Mot d'invite :
« Générer une grille de bande dessinée de 3×4 (12 cases au total) mettant en scène le même personnage de robot de livraison. Case 1 : Le robot quitte l'entrepôt. Case 2 : Le robot lit une adresse erronée. Case 3 : Le robot prend la mauvaise rue. Case 4 : Le robot est coincé derrière le cortège du défilé. Case 5 : Le robot essaie de faire un détour. Case 6 : Le robot entre dans une ruelle. Case 7 : Le robot rencontre un chat. Case 8 : Le chat est assis sur la tête du robot. Case 9 : Le robot a l'air confus. Case 10 : Le robot trouve la bonne adresse. Case 11 : Le robot livre le colis. Case 12 : Le robot émet un bip heureux. Gardez la conception du robot strictement identique dans chaque case : corps boîte blanc, écran LED bleu avec le motif ":)", antenne courbée, petites roues. »
Quel est le résultat ? 11 des 12 panaux utilisaient exactement la même conception de robot. Seul le 7e panneau (le panneau chat) a apporté un léger ajustement à l'angle de l'antenne. Le taux de cohérence atteint 91,7 %.
En 2025 ou au début de 2026, il est impossible d'utiliser n'importe quel autre modèle.
Sans diplôme en programmation, où au juste peut-on réellement faire cela ?
Vous n'avez pas besoin de configurer les nœuds ComfyUI, ni de vous fatiguer à bidouiller avec Python. En juin 2026, la méthode la plus simple pour générer des personnages au style uniforme avec GPT Image 2 est Elser.ai.
Voici les raisons pour lesquelles je l'utilise pour la création de personnages :
- Le téléversement de fichiers de référence prend en charge le glisser-déposer, sans paramètres cachés.
- Génération par lots de jusqu'à 8 images – Idéal pour la méthode de génération d'images multiples.
- Les modèles de prompt me permettent de sauvegarder le bloc de configuration du personnage une seule fois, afin de le réutiliser pour 100 générations.
- Mode de comparaison – Confier le même prompt à GPT Image 2, Flux et Nano Banana 2 pour une génération parallèle et un affichage côte à côte, afin d'observer lequel présente la meilleure performance de cohérence.
- Les formules payantes n'ont pas de limitation de débit. J'ai généré 400 images lors d'une session de test de personnages non conventionnels — aucune limitation de débit n'a été observée.
Elser a intégré l'instantané GPT Image 2 d'avril 2026 il y a seulement deux semaines. Ils ont également ajouté un bouton bascule de verrouillage de rôle, permettant d'appliquer automatiquement votre image de référence à chaque génération d'images sans avoir à réécrire les prompts. Cette fonctionnalité est actuellement en phase de test bêta, mais fonctionne correctement.
You can sign up for free (first 50 credits no credit card) at https://www.elser.ai/. That’s enough to test all three methods I just showed you.
Conclusion définitive : Devriez-vous utiliser GPT Image 2 pour créer des personnages au style cohérent ?
Oui, bien sûr, pas de problème. Si vous créez des bandes dessinées, des storyboards, des actifs visuels de marque, ou tout projet où la même personne apparaît sur plusieurs images, jusqu'en juin 2026, GPT Image 2 est actuellement le meilleur modèle disponible. Midjourney V8 présente toujours des problèmes de biais de cohérence, Flux a des performances similaires mais est plus lent, tandis que Nano Banana 2 n'a pas fait de la cohérence une priorité dans son optimisation.
GPT Image 2 n'est pas parfait — une image sur 10 doit être regénérée. Mais il a un taux de réussite de 90 %, ce qui est suffisant pour un travail de production réel.
Essaie les trois méthodes ci-dessus. Commence par la méthode de l'image de départ, puis passe à des invites à plusieurs exemples. Si tu trouves des blocs de caractères exceptionnels, veille à les sauvegarder — ce sont tes trésors.




