Warum versaut der KI-Videogenerator immer die Hände und Gesichter?
Hände und Gesicht sind die beiden Stellen, an denen Fehler bei KI-Videos am deutlichsten zu erkennen sind. Ein leicht verzerrter Hintergrund wird von vielen Zuschauern nicht bemerkt. Auch wenn die Ärmel verschoben sind, kann das Video immer noch in Ordnung sein. Aber wenn das Gesicht verändert wird oder die Hände in falsche Formen gebogen werden, wird diese optische Täuschung sofort durchbrochen.
Das liegt nicht daran, dass die KI-Modelle nachlässig sind. Sondern weil die Hände und das Gesicht eine extrem hohe Informationsdichte haben. Sie enthalten eine Vielzahl feiner struktureller Aufbauten, die Menschen nach einer Trainingsphase mit einer außergewöhnlichen Sensibilität erkennen können. Wir erkennen die Identität anhand des Gesichts und deuten die Absicht der Bewegungen anhand der Hände. Wenn nur eine Stelle unpassend wirkt, bemerken die Zuschauer diese Unstimmigkeit sofort.
Künstliche Intelligenz-Bilder und Videomodell Obwohl die zugehörige Technologie erhebliche Fortschritte erzielt hat, ist die Erzeugung von Händen und Gesichtern nach wie vor sehr schwierig, da sie strukturelle, dynamische, detaillierte und ausdrucksvolle Eigenschaften vereint. Gesichter müssen Emotionen vermitteln und gleichzeitig ihre Identität über die Zeit behalten. Hände hingegen müssen ihre anatomische Korrektheit beibehalten, während sie mit Objekten interagieren, ihre Perspektive wechseln und sich im Raum bewegen. Auch für die traditionelle Animation ist dies eine knifflige Herausforderung. Im Bereich des generativen Videos ist diese Herausforderung besonders ausgeprägt.
Die Ursachen dieser Fehler zu verstehen, ist der erste Schritt, um solche Fehler zu reduzieren.
Warum sind Gesichter in KI-Videos so schwer zu bearbeiten?
Die Gesichtsgestaltung ist äußerst herausfordernd, denn selbst kleinste Unterschiede haben einen entscheidenden Einfluss. Wenn der Abstand zwischen den Augen nur geringfügig verändert wird, wirkt die Person völlig anders aus. Verändert sich die Form des Mundes, ändert sich auch der Gesichtsausdruck. Wenn die Kieferlinie schmaler wird, wirkt die Figur möglicherweise jünger. Wenn die Augenzeichnung in einem Anime angepasst wird, kann die gesamte Charaktergestaltung des Charakters stark abweichen.
Im Video wird diese Herausforderung noch schwieriger, da das Gesicht zwischen den einzelnen Frames stabil bleiben muss. Das Modell muss die Identität der Person beibehalten und gleichzeitig Animationen von Blinzeln, Sprechen, Kopfbewegungen, Lächeln, Reaktionen sowie Lichtveränderungen erzeugen. Jede dieser Aktionen erzeugt Rekonstruktionsdruck.
Statische Bilder können dem Modell nur eine einzelne Gesichtsperspektive liefern. Videos hingegen müssen im Laufe der Zeit mehrere verschiedene Gesichtsperspektiven zeigen. Wenn das Referenzbild nicht genügend Informationen enthält, muss das Modell die fehlenden Gesichtswinkel ermitteln. Dies ist die Situation, in der Modelldrift auftritt.
Bewegungen und Gesichtsausdrücke machen die Situation noch schlimmer. Neutrale Gesichtsausdrücke sind leichter zu behalten als lachende Gesichtsausdrücke. Eine sanfte Kopfdrehung ist leichter als das vollständige Drehen des Gesichts zur Seite. Sanftes Lächeln ist leichter als schnelles Reden. Je mehr sich das Gesicht verändert, desto mehr muss das Modell es rekonstruieren.
Warum sind Hände sogar noch schwieriger?
Die Hände haben eine sehr komplexe Struktur. Sie besitzen Finger, Gelenke, überlappende Formen, Perspektivenverkürzungen und Schatten und interagieren oft mit Gegenständen. Die Hände können geöffnet, geschlossen, zeigend, fest geballt, berührend, winkend, haltend oder gefaltet sein oder teilweise verdeckt sein. Aus unterschiedlichen Blickwinkeln betrachtet kann dieselbe Hand völlig anders aussehen.
Künstliche Intelligenz-Videomodell Oft ergeben sich Schwierigkeiten, weil Hände keine bloßen Objekte, sondern bewegliche mechanische Vorrichtungen sind. Wenn die Hand nach einem Becher greift, muss das Modell die Handgelenksdrehung, die Position der Finger, den Kontaktzustand zum Objekt, die räumliche Tiefe sowie die Verdeckungsverhältnisse verstehen. Sollte es bei einem dieser Bereiche Unsicherheiten geben, können sich bei den Fingern Probleme wie Überlappungen, Wiederholungen, falsche Biegungen oder strukturelle Fehlanordnungen ergeben.
Die Hände ändern sich auch schnell während der Bewegung. Das menschliche Gesicht bleibt normalerweise ein zusammenhängendes Ganzes, aber die Hände können sich öffnen, schließen, durch den Körper hindurchgehen, hinter Gegenstände verschoben werden oder aus dem Bild verschwinden. Bei jedem Frame kann es zu Fehlern kommen.
Die Bewegungssteuerungsforschung von Krings untersucht explizit die Schwierigkeiten, Körper-, Gesichts- und Handbewegungen getrennt voneinander zu koordinieren – dies zeigt, wie signifikant die technischen Unterschiede zwischen diesen Bewegungsbereichen sind. Für Kreative lautet diese praktische Erkenntnis: Man sollte nie glauben, dass ein universeller Bewegungsprompt feine Handbewegungen perfekt bewältigen kann.
Die Rolle von Trainingsdaten und menschlicher Wahrnehmung
Ein weiterer Grund für das Scheitern der Hand- und Gesichtserkennung ist die menschliche Wahrnehmungsfähigkeit. Menschen sind sehr empfindlich gegenüber Gesichtern, da die soziale Erkennung von Gesichtern abhängt. Wir sind auch sehr vertraut mit unseren Händen, denn wir nutzen sie rund um die Uhr. Das bedeutet, dass selbst kleine Fehler, die die Künstliche Intelligenz begeht, offensichtlich sind.
Fantastische Architektur kann Baustrukturen aufweisen, die der realen Logik widersprechen, aber trotzdem cool wirken. Eine Hand mit sechs Fingern wirkt sofort seltsam. Gesichter mit leicht asymmetrischen Augen lösen Unbehagen aus. Das ist der Grund, warum Fehler in KI-generierten Videos in Nahaufnahmen oft strenger bewertet werden als in Weitwinkelaufnahmen.
Das Problem betrifft nicht nur die technische Korrektheit, sondern vor allem die wahrnehmbare Glaubwürdigkeit. Gesichter müssen nicht mathematisch fehlerlos sein, aber es muss den Anschein erwecken, dass es sich um dieselbe Person handelt. Hände müssen nicht in jedem Frame den genauen Standards eines anatomischen Lehrbuchs entsprechen, aber sie dürfen die Aufmerksamkeit des Publikums nicht von der Handlung ablenken.
Wie lassen sich mit Prompts die Ergebnisse bei Händen und Gesichtern verschlechtern?
Viele Kreative verschlechtern versehentlich die generierten Ergebnisse für Hände und Gesichter, indem sie ihre Prompts überladen. Sie verlangen von einem Charakter, in einem einzigen Generierungsdurchgang eine Reihe von Aktionen wie Sprechen, Lächeln, sich umdrehen, auf etwas zeigen, ein Produkt halten, gehen und reagieren auszuführen. Dies zwingt das Modell, mehrere Aufgaben gleichzeitig zu bearbeiten: Gesichtsanimation, Handinteraktion, Körperbewegungen, Kamerabewegungen und Szenenkomposition sowie weitere Aufgaben.
Je mehr Aufgaben du übernimmst, desto höher ist die Fehlerrate.
Ein weiterer Fehler ist die Verwendung von vagen Handlungsvokabeln wie „natürlich gestikulieren“ oder „ausdrucksvollen Händen“. Diese Formulierungen mögen normal wirken, aber sie lassen dem Modell zu viel Spielraum. Wenn Details zu den Händen entscheidend sind, beschreiben Sie konkrete Bewegungen: „Die rechte Hand liegt auf dem Tisch“, „Beide Hände sind klar sichtbar und entspannt“, „Die linke Hand hält den Becher leicht“ oder „Beide Hände bleiben still“.
Bei Gesichtsausdrücken vermeide es, extreme Emotionen aufzustapeln. Es ist überzogen, in einem kurzen Ausschnitt gleichzeitig die Zustände des Lachens, Weinens, des Schocks, der Wut und des Sprechens darzustellen. Stattdessen sollte man stufenweise emotionale Veränderungen anwenden.
Besser ist es, die Drehaufnahmen zu vereinfachen. Wenn das Gesicht das Zentrum des Bildes ist, minimieren Sie die Handbewegungen so weit wie möglich. Wenn die Handinteraktion am wichtigsten ist, verwenden Sie eine Mittelaufnahme und halten Sie das Gesicht stabil. Wenn der Charakter spricht, halten Sie die Kamera- und Körperbewegungen einfach.
Wie man Gesichtsfehler reduziert
Um Gesichtsfehler zu reduzieren, beginnen Sie mit einem hochwertigen und klaren Referenzbild. Das Gesicht auf dem Bild muss klar, ausreichend beleuchtet und groß genug sein, damit das Modell es erkennen kann. Verwenden Sie wiederholende Identitätsblöcke in den Eingabeaufforderungen. Behalte die Gesichtskontur, die Augen, die Nase, den Mund, die Kieferlinie, die Frisur und den Stil des Gesichtsausdrucks bei.
Bedienen Sie die Kamera sorgfältig. Mittel- und Nahaufnahmen sind in der Regel sicherer als Großaufnahmen oder schnell rotierende Kamerasequenzen. Verwenden Sie sanfte Beleuchtung und decken Sie keine wichtigen Gesichtszüge ab. Vermeiden Sie schnelle Wechsel der Gesichtsausdrücke, es sei denn, das Modell oder der Aufnahmeprozess ist speziell dafür ausgelegt.
Wenn Sie mehrere Szenen generieren, lassen Sie die Charakterbeschreibungen bitte nicht bei jeder Generierung unterschiedlich umschreiben. Bitte wiederholen Sie dieselbe Gesichtsbeschreibung. Dies ist einer der Gründe, warum referenzbasierte Tools und strukturierte Arbeitsabläufe so wichtig sind. Die aktuellen Video-Arbeitsabläufe von Runway und Google veranschaulichen beide die Entwicklungsrichtung, Subjekte mithilfe von Referenzmaterial besser zu behalten.
Elser AI Unterstützen Sie Kreative bei der Lösung solcher Probleme mit wiederverwendbaren Charakter-Assets. Wenn Ihre KI-Videos ständig unter Gesichtsdrift leiden, können Sie sich bei Elser AI registrieren und einen einfachen Arbeitsablauf zum Erhalt des Gesichts testen: Laden Sie einen Referenzcharakter hoch, erstellen Sie eine weiche Nahaufnahme und generieren Sie dann eine zweite Aufnahme mit demselben Identitätsmodul. Führen Sie vor den komplexen Action-Aufnahmen einen Vergleich durch.
Wie reduziert man Handfehler?
Um Fehlbedienungen der Hände zu reduzieren und unnötige Handbewegungen zu vermeiden. Das klingt vielleicht albern, aber es ist eine der praktischsten Aufnahmeregeln. Wenn die Hände im Bild unbedeutend sind, bewege sie auf natürliche Weise aus dem Bild, platziere sie entspannt oder verstecke sie teilweise. Viele professionelle Aufnahmen tun dies ebenfalls. Nicht jede Szene erfordert klar sichtbare Handbewegungen.
Wenn Handbewegungen entscheidend sind, halte die Bewegungen knapp und einfach. Schrebe nicht „Die Figur bedient das Gerät natürlich“, sondern „Die Figur hält das Smartphone mit beiden Händen, die Finger sind entspannt, der Bildschirm zeigt zur Kamera, die Handbewegungen sind sehr geringfügig“. Schrebe nicht „Der Koch bereitet Essen zu“, sondern „Stelle die Schale sanft mit beiden Händen auf den Tisch, keine Schneidbewegungen, die Finger bewegen sich nicht unruhig“.
Die Interaktion zwischen Händen und Objekten ist eines der schwierigsten Gebiete, daher muss Mehrdeutigkeit reduziert werden. Stellen Sie sicher, dass die Objekte klar sichtbar sind. Halten Sie die Kamera stabil. Vermeiden Sie schnelle Bewegungsunschärfe. Fordern Sie nicht mehrere Handbewegungen in demselben kurzen Clip an.
Ein praktischer negativer Prompt lautet:
Keine Polydaktylie, keine Syndaktylie, keine Handfehlbildungen, keine Handgelenksfrakturen, keine unnatürlichen Handformen.
Aber negative Hinweise alleine reichen nicht aus. Die wichtigste Lösung ist es, die Komplexität zu senken.
Praktische Hand- und Gesichtspromptvorlagen
Verwenden Sie diese Struktur: Nur den übersetzten Inhalt ausgeben:
„Verwenden Sie dieselbe Figur wie im Referenzbild. Bitte behalten Sie seine Gesichtszüge bei, einschließlich Gesichtsform, Augen, Nase, Mund, Kieferlinie, Frisur und Ausdrucksstil. Die Hände sollen die [bestimmte Position/Bewegung] einnehmen. Aufnahme: [Aufnahmetyp]. Die Bewegung sollte langsam, gleichmäßig und kontrolliert erfolgen. Stellen Sie sicher, dass das Gesicht klar sichtbar ist und die anatomische Struktur der Hände natürlich wirkt. Gesichtsverformungen, Identitätsverschiebungen, überzählige Finger, verklebte Finger und Handdeformitäten sind verboten.“
Beispiel: Nur den übersetzten Inhalt ausgeben:
„Verwenden Sie den gleichen Charakter wie im Referenzbild. Behalten Sie die Konsistenz der Gesichtsmerkmale bei, darunter runde Gesichtsform, bernsteinfarbene Augen, kleine Nase, weiche Mundform, kurze schwarze Haare sowie den sanften Anime-Gesichtsausdruck. Die Hände sollen natürlich an den Seiten des Charakters hängen, die Bewegungsweite sollte so gering wie möglich sein. Kamera: Mittlere Nahaufnahme, langsames Hereinzoomen. Die Bewegungen müssen langsam und gleichmäßig erfolgen. Stellen Sie sicher, dass das Gesicht klar sichtbar ist und die anatomische Struktur der Hände natürlich wirkt. Gesichtsverformungen, Abweichungen von den Charaktermerkmalen, mehrfache Finger, verklebte Finger oder Fehlbildungen der Hände sind verboten.“
Schlussüberlegungen
KI-Videogeneratoren machen häufig Fehler bei der Generierung von Händen und Gesichtern, da diese Bereiche komplexe Strukturen aufweisen, visuell äußerst wichtig sind und extrem empfindlich auf Bewegungen reagieren. Gesichter tragen die persönlichen Identitätsdaten, Hände die Informationen zu Bewegungen. Sobald nur einer dieser Bereiche fehlerhaft generiert wird, bemerken es die Zuschauer sofort.
Die Lösung besteht nicht einfach darin, „bessere Modelle zu verwenden“. Bessere Modelle helfen zwar, aber der Arbeitsablauf ist ebenso wichtig. Verwenden Sie zuverlässige Referenzmaterialien, einfache Bewegungen, kontrollierte Aufnahmewinkel, klare Anweisungen zur Handhabung mit den Händen, einheitliche Gesichtsidentitätsmodule und führen Sie eine sorgfältige Überprüfung durch.
Wenn Sie KI-Videos erstellen, in denen die Charaktere von entscheidender Bedeutung sind, Elser AI Wir bieten Ihnen eine praktische Aufbaumethode, die auf stabilen Referenzmaterialien und sicheren Testaktionen basiert. Registrieren Sie ein Konto, laden Sie den Charakter hoch, beginnen Sie mit einfachen Gesichts- und Handtests und erstellen Sie anschließend komplexere Szenarien. Spitzen-KI-Videos zeichnen sich nicht durch die maximale Anzahl an Aktionen aus, sondern dadurch, dass ihre entscheidenden Details stets echt und glaubwürdig bleiben.




