Wie man konsistente Charaktere mit GPT Image 2 erstellt (Keine mehr verformten Gesichter)

Wenn du jemals versucht hast, einen Comic oder ein Kinderbuch mit KI zu generieren, kennst du den Schmerz. Du hast den perfekten Helden in Panel eins. Dann in Panel zwei verändert sich die Form ihrer Nase. Bei Panel drei wechselt ihre Jacke von Blau zu Lila. Und bei Panel vier hat sie einen zusätzlichen Finger und eine völlig andere Frisur.

Das nennt sich „KI-Charakterdrift“. Und bis April 2026 war es nur etwas, das wir geduldet haben.

Dann veröffentlichte OpenAI GPT Image 2 (der genaue Modell-Snapshot lautet gpt-image-2-2026-04-21). Zum ersten Mal versteht ein Mainstream-Bildgenerator tatsächlich, was „der gleiche Charakter“ bedeutet. Nicht perfekt – nein, du musst immer noch einige Regeln befolgen. Aber gut genug, dass du jetzt einen 20-seitigen Comic oder ein kurzes animiertes Storyboard erstellen kannst, ohne deinen Laptop aus dem Fenster werfen zu wollen.

Ich habe die letzten sechs Wochen damit verbracht, die Zeichenkonsistenz bei GPT Image 2 zu testen, hauptsächlich durch Elser.ai denn ihre Oberfläche ermöglicht es mir, Referenzbilder hochzuladen und gleichzeitig 8 Varianten in einem Stapel zu generieren. Hier genau: Was funktioniert, was nicht funktioniert und wie du einen Charakter über Dutzende von Generierungen hinweg festlegen kannst.

Warum GPT Image 2 anders ist (Der technische Grund)

Vorherige Modelle (DALL-E 3, Midjourney V6, SDXL) betrachteten jeden Prompt als völlig neue Kreation. Sie besaßen kein Gedächtnis. Man konnte „die selbe Frau wie zuvor“ schreiben und sie würden nur raten. Manchmal funktionierte es, meistens nicht.

GPT Image 2 führt eine Schicht zum Schlussfolgern ein. Vor der Erzeugung von Pixeln plant das Modell die Komposition, die Beleuchtung und – entscheidend – die visuelle Identität des Charakters. Wenn Sie ein Referenzbild bereitstellen (mehr dazu unten), extrahiert GPT Image 2 tatsächlich eine latente „Charakter-Signatur“. Es ist keine vollständige LoRA, aber es kommt nahe.

OpenAI selbst nennt es in ihren Dokumenten nicht „Charakterkonsistenz“ – sondern „referenzbasierte Generierung“. Doch die Wirkung ist offensichtlich: Füttern Sie es mit einem guten Frontalshot Ihres Charakters, dann behält es dessen Gesichtsform, Augenfarbe, den Haarschnitt und die Kleidungsdetails über neue Posen und Hintergründe hinweg stabil.

Ich habe gesehen, dass es über 8 Bilder in einem einzigen Batch hinweg konsistent bleibt. Das ist enorm.

Methode 1: Der Ausgangsbild-Workflow (Am einfachsten, Gut für 2-5 Bilder)

Das ist der schnellste Weg, um loszulegen. Keine komplexe Einrichtung. Nur du, GPT Image 2 und ein gutes Referenzbild.

Schritt 1 – Erstellen eines „Charakterbogens“-Samen

Erzeuge ein einzelnes, hochwertiges Bild deines Charakters in einer neutralen Pose. Von vorne, gute Beleuchtung, Ganzkörper oder zumindest Taillenansicht. Füge Kleidungsdetails hinzu.

Beispiel-Prompt, den ich letzte Woche verwendet habe:

„Frontale volle Körperaufnahme eines jungen männlichen Fantasy-Schurkencharakters. Kurze unordentliche braune Haare, grüne Augen, eine kleine Narbe auf der linken Wange. Trägt ein dunkelgrünes Ledergewand, fingerlose Handschuhe und einen silbernen Anhänger in Form eines Wolfes. Neutral grauer Hintergrund, weiche gleichmäßige Beleuchtung, hohe Auflösung.“

Schritt 2 – Als Referenz hochladen

In einem Tool, das die Referenzfunktion von GPT Image 2 unterstützt (Elser.ai Tut, auch die ChatGPT Plus-Oberfläche, wenn du den Modus „DALL-E in ChatGPT“ nutzt), lade dieses Seed-Bild als Referenz hoch.

Schritt 3 – Einen neuen Aktions-Prompt schreiben

Fordere nun eine neue Pose an, wobei der Charakter unverändert bleibt. Beispiel:

„Verwenden Sie das beigefügte Bild als Charakterreferenz, generieren Sie denselben Schurkencharakter, der nachts durch einen Wald rennt, einen Dolch haltend, mit ängstlichem Gesichtsausdruck und aus einer dynamischen Perspektive dargestellt wird.“

Ergebnis: Das Gesicht bleibt das Gleiche. Die grüne Tunika bleibt. Der Wolfsanhänger bleibt. Die Narbe ist noch da. Aber jetzt rennt er.

Einschränkung: Nach etwa 4-5 Variationen könnt ihr kleine Abweichungen feststellen – der Anhänger wechselt von Silber zu Zinn, oder die Haare werden etwas länger. Um das zu beheben, generiert ihr einen frischen „Anker“ aus eurem besten Ergebnis und wiederholt den Vorgang.

Methode 2: Der Multi-Shot-Prompt (Für 8 konsistente Bilder auf einmal)

Hier ist, wo GPT Image 2 alles andere komplett in den Schatten stellt. Du kannst es bitten, bis zu 8 Bilder desselben Charakters in verschiedenen Posen mit nur einer einzigen Prompt zu generieren. Du brauchst kein Referenzbild hochzuladen, wenn du den Charakter gut beschreibst.

Beispiel-Prompt, das erstaunlich gut funktioniert:

„Erzeuge 8 verschiedene Bilder desselben Charakters: eine weibliche Elfenbogenschützin mit platinblonden geflochtenen Haaren, smaragdgrünen Augen, die genietete Lederrüstung und einen kurzen grünen Umhang trägt. Zeige sie in diesen 8 Posen: 1) Pfeil ziehen, 2) auf ein Ziel zielen, 3) durch einen Wald rennen, 4) knien und sich hinter einem Baum verstecken, 5) aus einem Wassersack trinken, 6) eine felsige Wand erklimmen, 7) an einem Baum schlafen, 8) lächeln und wedeln. Halte ihr Gesicht, ihre Haare, ihre Rüstung und ihren Umhang in allen Bildern identisch. Konsistente Beleuchtung: Waldlicht zur goldenen Stunde.“

GPT Image 2 liefert ein 2×4- oder 4×2-Raster (je nach Seitenverhältnis) mit allen acht Bildern. Und – das ist der Zauber – die Figur sieht in allen acht Panels tatsächlich wie dieselbe Person aus.

Ich habe dies fünfmal getestet. Die ersten vier Versuche waren fast fehlerfrei. Der fünfte Versuch hatte ein Bild, auf dem der Umhang dunkelbraun wurde. Das ist eine Konsistenzrate von 87,5 Prozent. Für KI ist das revolutionär.

Methode 3: Der „LoRA-Lite“-Stil-Sperre (Erweitert)

Für ernste Projekte (ein 50-seitiger Graphic Novel, ein konsistenter YouTube-Avatar, ein Markenmaskottchen) möchtest du nicht nur ein Referenzbild. Du möchtest einen Style Lock.

GPT Image 2 unterstützt offiziell keine Fine-Tuning oder LoRAs. Aber clevere Prompter haben einen Workaround gefunden: den „Charakterbeschreibungsblock“.

Verfasse einen 4–5 Sätze langen Absatz, der deinen Charakter in extremer Detaillierung beschreibt. Füge dann diesen exakten Absatz unverändert am Anfang jeder Prompt ein. Keine Änderungen.

Beispielblock (Ich behalte diesen in einer Textdatei):

[CHARACTER: Kaelen, männlich, 25 Jahre alt. Kurze, unordentliche dunkelbraune Haare, graublau Augen, kleine Narbe über dem rechten Augenbrauen. Oliviger Hautton. Trägt eine abgenutzte braune Lederjacke über einem grauen Hoodie, dunkle Jeans und schwarze Kampfstiefel. Immer trägt er einen silbernen Ring an seinem linken Daumen. Größe 5‘10", schlanke Figur. Der Ausdruck ist normalerweise ernst, aber er kann lächeln.]

Dann schreibe für jede neue Eingabeaufforderung:

[CHARACTER BLOCK] erzeuge jetzt Kaelen, der in einer U-Bahn sitzt und müde aussieht, hinter ihm ein regnerisches Fenster, filmische stimmungsvolle Beleuchtung.

GPT Image 2 behandelt diesen Block als eine Anweisung mit hoher Gewichtung. Da das Modell ein Kontextfenster von 128k Tokens hat (ja, 128k – es ist riesig), erinnert es sich perfekt an den Block. Ich habe 30+ Generationen mit demselben Block durchgeführt und eine Konsistenz von etwa 85–90% erreicht.

Realwelt-Test: Eine 12-Panel-Comic-Seite

Um die Konsistenz wirklich zu gewährleisten, habe ich einen 12-Bild-Comic (3 Reihen, 4 Spalten) über einen Lieferroboter erstellt, der sich in einer Stadt verirrt. Ich habe die Charakter-Block-Methode für den Roboter verwendet (seine Form, Farben, LED-Augen-Muster und Kratzer beschrieben).

Der Prompt:

“Erstelle ein 3x4-Comic-Raster (12 Felder) mit dem gleichen Lieferroboter-Charakter. Feld 1: Roboter verlässt das Lager. Feld 2: Liest die falsche Adresse. Feld 3: Biegt in die falsche Straße ein. Feld 4: Steht hinter einer Parade fest. Feld 5: Versucht, vorbeizukommen. Feld 6: Fährt in eine Gasse ein. Feld 7: Trifft eine Katze. Feld 8: Katze sitzt auf dem Kopf des Roboters. Feld 9: Roboter ist verwirrt. Feld 10: Roboter findet die richtige Adresse. Feld 11: Zustellt das Paket. Feld 12: Roboter gibt ein fröhliches Piepton. Behalte das Roboterdesign in allen Feldern identisch – weißer Kastenkörper, blauer LED-Bildschirm mit ‘:)’-Muster, eine gebogene Antenne, kleine Räder.”

Das Ergebnis? 11 von 12 Paneele hatten das genau gleiche Roboterdesign. Nur Panel 7 (das Katzen-Panel) änderte den Antennenwinkel leicht. Das ist eine Konsistenz von 91,7 %.

Das wäre mit jedem anderen Modell im Jahr 2025 oder Anfang 2026 unmöglich gewesen.

Wo man dies tatsächlich ohne Codierungsabschluss tun kann

Du musst keinen ComfyUI-Knoten einrichten oder dich mit Python herumschlagen. Der einfachste Weg, aktuell (Juni 2026) konsistente Charaktere mit GPT Image 2 zu generieren, ist Elser.ai.

Hier ist, warum ich es für die Charakterarbeit verwende:

- Der Referenz-Upload ist per Drag-and-Drop möglich. Keine versteckten Einstellungen.

- Stapelgenerierung von bis zu 8 Bildern – perfekt für die Multi-Shot-Methode.

Promptvorlagen ermöglichen es mir, meinen Charakterblock einmal zu speichern und ihn über 100 Generierungen hinweg wiederzuverwenden.

- Vergleichsmodus – Generieren Sie denselben Prompt mit GPT Image 2, Flux und Nano Banana 2 nebeneinander, um zu sehen, welches die Konsistenz am besten beibehält.

- Keine Ratenbegrenzungen für kostenpflichtige Tarife. Ich habe 400 Bilder in einer Sitzung generiert, als ich den rogue-Charakter getestet habe – keine Drosselung.

Elser hat gerade vor zwei Wochen den GPT Image 2-Snapshot vom April 2026 integriert. Sie haben zudem einen “Character Lock”-Umschalter hinzugefügt, der Ihr Referenzbild automatisch in jede Generierung einfügt, ohne die Prompts neu zu schreiben. Es ist noch in der Beta, aber es funktioniert.

You can sign up for free (first 50 credits no credit card) at https://www.elser.ai/. That’s enough to test all three methods I just showed you.

Endgültiges Urteil: Solltest du GPT Image 2 für konsistente Charaktere verwenden?

Ja, absolut. Wenn du Comics, Storyboards, Markenassetts oder jedes Projekt erstellst, bei dem dieselbe Person in mehreren Bildern vorkommen muss, ist GPT Image 2 derzeit das beste verfügbare Modell – im Juni 2026. Midjourney V8 driftet immer noch. Flux ist nahe dran, aber langsamer. Nano Banana 2 priorisiert keine Konsistenz.

GPT Image 2 ist nicht perfekt – du musst immer noch 1 von 10 Bildern neu generieren. Aber das ist eine Erfolgsrate von 90 %, was für echte Produktionsarbeiten ausreicht.

Probieren Sie die drei oben genannten Methoden. Beginnen Sie mit der Seed-Bild-Methode, dann gehen Sie über zu Mehrfach-Shot-Prompts. Und wenn Sie einen wunderbar funktionierenden Charakter-Block finden, speichern Sie ihn – das ist Ihr Gold.

Wie man konsistente Charaktere mit GPT Image 2 erstellt (Keine mehr verformten Gesichter)

Warum GPT Image 2 anders ist (Der technische Grund)

Methode 1: Der Ausgangsbild-Workflow (Am einfachsten, Gut für 2-5 Bilder)

Schritt 1 – Erstellen eines „Charakterbogens“-Samen

Schritt 2 – Als Referenz hochladen

Schritt 3 – Einen neuen Aktions-Prompt schreiben

Methode 2: Der Multi-Shot-Prompt (Für 8 konsistente Bilder auf einmal)

Methode 3: Der „LoRA-Lite“-Stil-Sperre (Erweitert)

Realwelt-Test: Eine 12-Panel-Comic-Seite

Wo man dies tatsächlich ohne Codierungsabschluss tun kann

Endgültiges Urteil: Solltest du GPT Image 2 für konsistente Charaktere verwenden?

Neueste Beiträge

Kling 3.0 vs Seedance 2.0 vs Veo 3.1: Welches der drei Modelle ermöglicht es den Charakteren, die höchste Konsistenz beizubehalten?

Welches KI-Videomodell im Jahr 2026 kann die höchste Konsistenz bei Charakteren beibehalten?

Wie man mit Hilfe von KI japanische Comics oder europäische und amerikanische Comics zu Animationen herstellt: Arbeitsablauf 2026

GPT-5.6 Sol, Terra und Luna für KI-Videos: Welches Modell sollten Ersteller wählen?

Beste KI-Musikvideo-Erstellungsstack im Jahr 2026: Song, Visuals, Lip Sync und Bearbeitung