GPT Image 2を使用して一貫性のあるキャラクターを作成する方法(顔の歪みにさようなら)
もしAIで漫画や児童書を作ろうと試したことがあるなら、このイライラする悩みを知っているだろう。 最初のコマで完璧な主人公を作り上げても、2コマ目には彼の鼻の形が変わってしまう。 3コマ目には彼のジャケットが青から紫に変わっている。 4コマ目には指が1本増えているだけでなく、髪型も完全に変わってしまう。
これは「AIキャラクタードリフト」と呼ばれています。そして2026年4月までは、これは私たちが許容してきたことに過ぎませんでした。
その後、OpenAIはGPT Image 2(正確なモデルスナップショットはgpt-image-2-2026-04-21)をリリースしました。これは主流の画像生成ツールが初めて「同一のキャラクター」の意味を真に理解したものです。完璧ではありません——いえ、依然としていくつかのルールを遵守する必要があります。しかし十分に使えるので、今では20ページの漫画や短いアニメストーリーボードを、ノートパソコンを窓から投げ出したくなるほどの苦労なく作成できます。
過去6週間、私はGPT Image 2のキャラクターの一貫性をテストしてきました、主に~を通じて Elser.ai 彼らのインターフェースでは参考画像をアップロードできる上に、一度に8種類のバリエーションを一括生成できます。以下では、どの機能が正常に動作し、どの機能が動作しないのか、そして何十回もの生成タスクの中から特定のキャラクターをロックする方法について詳しく説明します。
なぜGPT Image 2は他と異なるのか(技術的な理由)
これまでのモデル(DALL-E 3、Midjourney V6、SDXL)は、どのプロンプトも完全に新規の创作として扱います。彼らには記憶がありません。「前回と同じ女性」と書くことはできますが、彼らはただ推測するだけです。時にはうまくいきますが、大抵はうまくいきません。
GPT Image 2 は推論レイヤーを導入しました。ピクセルを生成する前に、このモデルは構図、照明、そして何よりも重要なキャラクターのビジュアルイメージを「計画」します。参考画像(後ほど詳しく説明します)を提供すると、GPT Image 2 は実際に潜在的な「キャラクター特徴署名」を抽出します。これは完全なLoRAではありませんが、非常に近いものです。
OpenAIは公式ドキュメント自体ではそれを「キャラクターコヒーレンス」とは呼ばず、「参照に基づく生成」と呼んでいます。しかしその効果は明白です:あなたのキャラクターの鮮明な正面写真を1枚提供するだけで、そのキャラクターの顔の形、目の色、髪型、そして服飾の細部が、全く新しいポーズや背景下でも安定して保たれるのです。
1バッチの8枚の画像で一貫性を保っているのを見たことがあります。本当にすごいです。
方法1:シード画像ワークフロー(最も簡単で、2~5枚の画像に適用可能)
これが最も早く始められる方法です。 複雑な設定は不要です。 あなた、GPT Image 2、そして高品質な参考画像1枚があれば十分です。
ステップ1 – 「キャラクターテーブル」のシードを作成する
高品質な画像を1枚生成し、自分のキャラクターがニュートラルなポーズをとる様子を表現してください。正面を向き、照明が良好で、全身または少なくとも上半身が写るようにし、服装のディテールも含めてください。
先週私が使用したサンプルプロンプト:
「若い男性のファンタジー盗賊キャラクターの正面全身写真。乱れた短い茶色の髪、緑色の目、左頬に小さな傷がある。濃い緑色のレザーチュニックを着用し、指なし手袋と狼の形をした銀のペンダントを着けている。背景はニュートラルなグレーで、光は柔らかく均一、高解像度である。」
ステップ2 – 参考資料としてアップロード
GPT Image 2の参照機能をサポートするツールの中で(Elser.ai はい、また、「ChatGPT内のDALL-E」モードのChatGPT Plusインターフェースを使用している場合)、このシード画像を参照用にアップロードしてください。
ステップ3 – 新しい操作プロンプトを作成する
新しいポーズをリクエストします。キャラクターは変更せずにそのままにしてください。例:
「添付の画像をキャラクターの参考にして、同じ盗賊キャラクターが夜の森を走っている画面を生成してください。短剣を持ち、恐怖に怯えた表情で、ダイナミックな視点を採用して。」
結果:顔つきは相変わらずだ。あの緑色のウエスト絞りチュニックは相変わらず残っている。あの狼の形をしたペンダントも相変わらず身に着けている。あの傷跡も相変わらず元の場所にある。だが今、彼は走っている。
制限:約4~5回バリアントを生成した後、いくつかの微妙なズレが生じる場合があります——例えばペンダントが銀色からピューター色に変わったり、髪の毛が少し長くなったりすることです。この問題を解決するには、自分が得た最適な出力結果から新たな「アンカーポイント」を再生成し、その後操作を繰り返せば良いです。
方法2:複数レンズプロンプト(一度に8枚のスタイルが統一された画像を生成する)
これがGPT Image 2が他のすべての類似製品を圧倒している点です。 単一のプロンプトで、同じキャラクターの異なるポーズの画像を最大8枚生成するよう依頼できます。 そのキャラクターを明確に説明できれば、参考画像をアップロードする必要はありません。
予想外に効果的なサンプルプロンプト:
“8枚の同一キャラクターの異なる画像を生成する:プラチナ色の三つ編み髪とエメラルドグリーンの瞳を持つ女性エルフの弓使いで、スタッド付きレザーアーマーと短めのグリーンマントを着用している。彼女に以下の8種類のポーズを取らせる:1) 弓を引いて矢を構える、2) 標的を狙う、3) 森を駆け抜ける、4) 木陰に隠れてひざまづく、5) 水袋で水を飲む、6) 岩壁を登る、7) 木に凭れかかって寝る、8) 微笑んで手を振る。すべての画像において、彼女の顔、髪型、鎧、マントは統一する。光の設定を統一し、黄金時刻の森の光とする。”
GPT Image 2 は、アスペクト比に応じて2×4または4×2のグリッドを出力し、8枚すべての画像を含みます。そして――これが不思議な点なのです――8つのストーリーボードのコマすべてに登場するキャラクターがまるで同じ人物のように見えるのです。
私はこれについて5回のテストを実施しました。最初の4回の試行はほぼ完璧でした。5回目のテストではある画像のマントが濃い茶色に変わってしまいました。この一致率は87.5%に達しました。これは人工知能にとって革命的なことです。
方法3:「LoRA-Lite」スタイルロック(上級)
真剣に取り組む必要のあるプロジェクト(例えば、50ページのグラフィックノベル、統一されたYouTubeのプロフィールアイコン、ブランドのマスコット)については、必要なのは参考画像1枚だけではありません。必要なのはスタイルロックです。
GPT Image 2 は公式でファインチューニングやLoRAに対応していません。しかし、プロンプト作成が得意なユーザーが回避策を見つけました:「キャラクター説明ブロック」。
4~5文からなる段落を1つ作成し、あなたのキャラクター設定を限りなく詳細な細部を含めて説明してください。 その後、この全く同じ内容をすべてのプロンプトの先頭に貼り付けます。 何の変更も行ってはならない。
サンプルブロック(これをずっとテキストファイルに保存しています):
[CHARACTER: カレン、男性、25歳。乱れた濃い茶色のショートカット、灰青色の瞳、右眉の上に小さな傷がある。オリーブ肌。外に古びた茶色のレザージャケットを着用し、内側に灰色のパーカーを着ている。下半身は濃い色のジーンズと黒の戦闘ブーツを履いている。左手の親指には常に銀の指輪を着けている。身長5フィート10インチ、痩せて細身である。表情は普段は厳しいが、笑顔を見せることもある。]
そして、新しいプロンプトごとに、以下を作成してください:
[CHARACTER BLOCK] 今、地下鉄に座り疲れきったように見えるカレンを生成してください。彼女の背後には雨が降る車窓があり、映画的な雰囲気を持つ暗い光が差しています。
GPT Image 2 このブロックを高ウェイトの命令として扱ってください。このモデルは128kトークンのコンテキストウィンドウを持っているため(そう、128k——かなり大きな規模です)、このブロックを完璧に記憶することができます。私は同じブロックを使用して30回以上の生成タスクを完了させており、一貫性は約85%~90%です。
実シーンテスト:12コマ漫画ページ
スタイルの統一を確実に図るため、私は合計12コマ(3行4列)の漫画を制作しました。それは街中で道に迷った配送ロボットの物語を描いたものです。このロボットにはキャラクター定型法を採用し、外形、配色、LEDの目の模様、傷のディテールを明確にしました。
プロンプト:
3×4の漫画グリッド(計12コマ)を作成し、同じ配送ロボットのキャラクターを描いてください。コマ1:ロボットが倉庫を出る。コマ2:誤った住所を読み取る。コマ3:間違った通りに曲がる。コマ4:パレードの行列の後ろに閉じ込められる。コマ5:迂回を試みる。コマ6:路地に入る。コマ7:猫に遭遇する。コマ8:猫がロボットの頭の上に座る。コマ9:ロボットが困惑した表情をする。コマ10:ロボットが正しい住所を見つける。コマ11:荷物を配達する。コマ12:ロボットが嬉しそうにピーピーと鳴る。各コマのロボットのデザインは完全に統一してください——白い箱型のボディ、「:)」のパターンが描かれた青色LEDディスプレイ、1本の曲がったアンテナ、小型の車輪。
結果は?12個のパネルのうち11個は完全に同じロボットデザインを採用しています。ただ第7番目のパネル(猫パネル)はアンテナの角度をわずかに調整しています。一致率は91.7%です。
2025年または2026年初頭には、他のどのモデルを使用しても不可能です。
プログラミングの学位は不要ですが、いったいどこで実際にこれを行うべきなのでしょうか?
ComfyUIのノードを設定する必要もなく、Pythonをわずらわしくいじる必要もありません。2026年6月現在、GPT Image 2で統一されたキャラクターを生成する最も簡単な方法はElser.aiです。
以下が私がこれをキャラクター創作に使用する理由です:
- 参照ファイルのアップロードはドラッグアンドドロップ操作に対応しており、隠し設定はありません。
- 最大8枚の画像をバッチ生成――複数画像生成手法に最適です。
- プロンプトテンプレートを使えば、キャラクター設定ブロックを一度保存するだけで100回の生成で繰り返し使用することができます。
- 比較モード ― 同じプロンプトをGPT Image 2、FluxおよびNano Banana 2に並行して生成させ、並べて表示することで、どれが一貫性のある結果を最も良く発揮するかを観察します。
- 有料プランには速度制限はありません。変則的なキャラクターをテストするセッションで400枚の画像を生成しましたが、一度も速度制限にかかることはありませんでした。
エルサーは2週間前に2026年4月のGPT Image 2スナップショットを統合したばかりです。さらに「キャラクターロック」のトグルスイッチを追加し、プロンプトを書き換えることなく参照画像を毎回の画像生成に自動的に適用できるようになりました。現在はベータテスト段階ですが、正常に動作しています。
You can sign up for free (first 50 credits no credit card) at https://www.elser.ai/. That’s enough to test all three methods I just showed you.
最終的な結論:GPT Image 2を使用してスタイルが統一されたキャラクターを作成すべきか?
はい、もちろん大丈夫です。もし漫画、ストーリーボード、ブランドのビジュアルアセットを制作している場合、あるいは複数の画像に同じ人物が登場する必要のあるプロジェクトに取り組んでいるのであれば、2026年6月現在、GPT Image 2は現在利用可能な中で最も優れたモデルです。Midjourney V8には依然として一貫性のズレの問題が残っており、Fluxは性能が近似しているものの速度が遅く、Nano Banana 2では一貫性を最適化の優先事項としていません。
GPT Image 2 は完璧ではありません——10枚の画像のうち1枚は再生成しなければなりません。しかし成功率は90%で、実際の生産業務には十分です。
上記の3つの方法を試してみてください。まずシード画像手法から始め、その後複数サンプルのプロンプトに進んでください。もし非常に効果の抜群な文字ブロックを見つけたら、必ず保存してください——これはあなたの宝物ですから。




