如何使用GPT Image 2建立一致的角色(再也不會有臉部變形的狀況)

來源: Elser AI

如果你曾嘗試用AI生成漫畫或童書,你一定懂這種煩惱。你在第一格畫格得到了完美的主角,但到第二格畫格,他的鼻子形狀就變了。到第三格畫格時,他的外套從藍色變成了紫色,到第四格畫格,他甚至多了一根手指,髮型也完全不一樣了。

這被稱為「AI 角色偏離」。而且在2026年4月之前,這都只是我們可以容忍的事。

隨後 OpenAI 推出了 GPT Image 2(確切的模型快照版本為 gpt-image-2-2026-04-21)。這是首次有主流圖像生成工具真正理解「同一角色」的含義。並非完美無缺——不,你還是得遵守一些規則。但已經足夠好用,讓你現在可以製作20頁的漫畫或短篇動畫分鏡腳本,而不會想把筆電扔出窗外。

我過去六週一直在針對GPT Image 2測試字元一致性,大多透過 Elser.ai 因為他們的介面讓我可以上傳參考影像,並一次批次產生8種變體。 以下正是哪些功能可正常運作、哪些無法運作,以及你如何在數十次生成作業中鎖定一個角色。

為何 GPT Image 2 有所不同(技術層面的原因)

過往的模型(DALL-E 3、Midjourney V6、SDXL)都將每個提示詞視為全新的原創作品。它們並不具備記憶功能。你可以輸入「和之前一樣的女性」,它們只會隨機猜測。有時候會成功,但大多數時候都不會。

GPT Image 2 導入了推理層。在生成像素之前,該模型會「規劃」畫面構圖、燈光,以及——至關重要的——角色的視覺識別特徵。當你提供參考影像(更多細節請見下文)時,GPT Image 2 實際上會擷取一組潛在的「角色特徵簽章」。它並非完整的 LoRA,但已經相當接近了。

OpenAI 本身在其官方文件中並不稱其為「角色一致性」,而是稱之為「基於參考的生成」。但效果相當明顯:只要餵入一張你角色的清晰正面照,它就能讓該角色的臉型、眼睛顏色、髮型與服裝細節在各種新姿勢與背景中保持一致。

我看過它在單一批次的8張圖片中維持一致性。這真的太強了。

方法1:種子影像工作流程(最簡單,適合2至5張影像)

這是最快速的開始使用方式。 無需複雜的設定。 只需要你、GPT Image 2,以及一張優質的參考圖片。

步驟1 – 建立「角色卡」種子

生成一張展現你角色中立姿態的高品質單張圖片。 正面取景、燈光充足,需為全身畫面,或至少包含腰部以上的範圍。 請加入服裝細節。

我上周使用的範例提示詞:

「年輕男性奇幻風盜賊角色的正面全身照。短亂棕髮、綠色眼睛,左臉頰有一道小疤痕。身穿深綠色皮質束腰外衣,配戴無指手套,以及一條造型為狼的銀色吊墜。背景為中性灰色,燈光柔和均勻,高解析度。」

步驟2 – 上傳作為參考資料

在支援 GPT Image 2 參考功能的工具中(Elser.ai 是的,另外若你使用“ChatGPT 內的 DALL-E”模式的 ChatGPT Plus 介面),請上傳該種子影像作為參考。

步驟3 – 撰寫新的動作提示詞

現在要求一個新的姿勢,並維持角色不變。範例:

“以附帶的圖片作為角色參考,生成相同的盜賊角色於夜間的森林中奔跑,手持匕首,臉露驚慌表情,並使用動態拍攝角度。”

結果:他的臉依舊沒變。那件綠色束腰外衣依舊穿在身上。那枚狼形項墜也還在。那道疤痕依然存在。但此時他正奔跑著。

限制:大約經過4到5次變異後,您可能會看見些微的偏離——飾墜的色調從銀色轉為錫色,或是頭髮變得稍微長了一些。若要修正此問題,您可以從您最滿意的輸出結果中重新產生一個全新的「錨點」,並重複操作。

方法2:多次提示詞(可一次產生8張一致的影像)

這就是GPT Image 2遠勝其他所有同類工具的地方。你可以在單一提示詞中要求它生成高達8張同一角色、不同姿態的圖像。只要你能將角色描述清楚,便無需上傳參考圖片。

效果驚人地好的範例提示詞:

「生成8張同一角色的不同圖像:一位擁有鉑金辮髮、祖母綠色雙眼的女性精靈弓箭手,身穿鉚接皮甲並披著短綠色披風。讓她呈現以下8種姿態:1) 拉弓 2) 瞄準目標 3) 在森林中奔跑 4) 下跪躲在樹後 5) 從水袋喝水 6) 攀爬岩壁 7) 靠著樹木睡覺 8) 微笑揮手。所有圖像中的她的臉部、頭髮、盔甲與披風皆保持一致。燈光保持一致:黃金時段的森林光線。」

GPT Image 2 會輸出 2×4 或 4×2 的網格(視長寬比而定),包含全部八張圖片。而——這就是神奇之處——所有八個分格中的角色看起來其實都是同一個人。

我對這個進行了五次測試。前四次嘗試幾乎完美無瑕。第五次測試時,有一張圖片的披風變成了深棕色。這達到了87.5%的一致性率。對人工智慧來說,這簡直是革命性的。

方法3:「LoRA-Lite」樣式鎖定(進階)

對於重要專案(例如50頁的圖像小說、統一的YouTube頭貼、品牌吉祥物),你不僅僅需要參考圖片,更需要風格鎖定。

GPT Image 2 官方並未支援微調(fine-tuning)或 LoRAs。但擅長提示詞的使用者找到了一個解套方式:「角色描述區塊」。

撰寫一段4至5句的文字區塊,以極為詳盡的方式描述你的角色。 接著將那段完全相同的文字區塊,貼在每一則提示的開頭。 不得更動任何內容。

範例區塊(我將此儲存在文字檔中):

[CHARACTER: 凱倫,男性,25歲。凌亂的深棕色短髮,灰藍色雙眼,右眉上方有一道小疤痕。橄欖膚色。身穿磨舊的棕色皮夾克,內搭灰色連帽上衣,下身搭配深色牛仔褲與黑色戰鬥靴。左手大拇指永遠戴著一枚銀戒指。身高5呎10吋,體型修長。平時表情嚴肅,但也會微笑。]

接下來針對每個新的提示詞,你請撰寫:

[CHARACTER BLOCK] 現在生成坐在地鐵列車上看起來很疲憊的凱倫,他身後是下雨的窗戶,帶有電影感的憂鬱燈光。

GPT Image 2 將該區塊視為高權重指令。由於該模型具備128k tokens的上下文視窗(沒錯,128k——這相當龐大),因此它能完美記住該區塊。我使用同一區塊進行了30多次生成任務,結果一致性大約介於85%至90%之間。

真實世界測試:一頁12格漫畫

為了確保整體風格與設定完全一致,我繪製了一套共12格的漫畫(3列、4行),內容是一隻在城市中迷路的外送機器人。我針對該機器人使用了角色設定塊法(描述了它的外形、顏色、LED燈眼球的樣式以及刮痕)。

提示詞:

「生成一個3x4的漫畫格網(共12格),描繪同一台配送機器人角色。 Panel 1: 機器人離開倉庫。 Panel 2: 讀取錯誤的地址。 Panel 3: 駛入錯誤的街道。 Panel 4: 卡在遊行隊伍後方。 Panel 5: 試著繞道而行。 Panel 6: 走進一條小巷。 Panel 7: 遇見一隻貓。 Panel 8: 貓坐在機器人的頭上。 Panel 9: 機器人顯得困惑。 Panel 10: 機器人找到正確的地址。 Panel 11: 配送包裹。 Panel 12: 機器人發出開心的嗶嗶聲。 所有漫畫格內的機器人設計皆須保持一致——白色方盒本體、藍色LED螢幕顯示「:)」圖案、一支彎曲的天線、小型輪胎。」

結果呢?12個面板中有11個採用完全相同的機器人設計。只有第7個面板(貓咪面板)稍微調整了天線角度。一致性高達91.7%。

在2025年或2026年初,使用任何其他型號都是不可能的。

沒有程式設計學位也能真正做到這件事的地方

你不需要設定 ComfyUI 節點,也不用費力跟 Python 折騰。目前(2026年6月)要透過 GPT Image 2 產生一致性高的角色,最簡單的方式就是使用 Elser.ai。

以下就是我為何使用它來處理角色相關工作的原因:

- 參考資料上傳支援拖放功能,無隱藏設定。

- 批次產生高達 8 張影像——非常適用於多重拍攝方法。

- 提示詞範本可以讓我一次性儲存自己的角色區塊,並在100次生成作業中重複使用。

- 比較模式 – 將 GPT Image 2、Flux 與 Nano Banana 2 以相同提示詞分別產生結果,並排展示以比較哪個模型的一致性表現最佳。

- 付費方案沒有速率限制。我在單次測試盜賊角色的使用過程中生成了400張圖片,完全沒有被節流限制。

Elser 兩週前才整合了 2026 年 4 月的 GPT Image 2 快照版本。 他們還新增了「角色鎖定」切換功能,可自動將你的參考圖片套用到每次圖像生成作業中,無需重新撰寫提示詞。 目前仍處於測試階段,但運作正常。

You can sign up for free (first 50 credits no credit card) at https://www.elser.ai/. That’s enough to test all three methods I just showed you.

最終結論:你是否應該使用 GPT Image 2 來獲得一致的角色?

沒錯,絕對可以。如果你正在製作漫畫、分鏡稿、品牌資產,或是任何需要在多張圖片中維持同一人物的專案,GPT Image 2 是 2026 年 6 月目前現有最優秀的模型。Midjourney V8 依然會無法維持一致性。Flux 表現相近,但速度較慢。Nano Banana 2 並未優先考量一致性。

GPT Image 2 並非完美——你還是得每10張圖片中重新生成1張。但它的成功率高達90%,已經足夠應對實際的正式製作工作了。

試試上述三種方法。先從種子圖片方法著手,再進階嘗試多輪提示詞。倘若你找到效果極佳的角色模組,請將其儲存起來——這就是你的寶藏。

最新發布

GPT Image 2 對決 Nano Banana 2:終極AI圖像生成器巔峰對決

正在OpenAI的GPT Image 2與Google的Nano Banana 2之間猶豫不決?我們將對比照片級真實感輸出效果、文字渲染能力、運行速度與定價,幫你挑選適合2026年創意工作流程的完美工具。

GPT 影像產生工具 2 對決 Midjourney 2026:霸主之位易主

經過數個月的正面對決測試,我們將 OpenAI 的 GPT Image 2 與 Midjourney V8 在速度、真實感、提示詞遵循度、文字渲染與成本方面進行比較。測試結果可能會讓你大吃一驚。

GPT Image 2 vs Flux vs Nano Banana:三大頂尖強者,每項任務各有勝者

OpenAI、Black Forest Labs 與 Google 皆於2026年推出頂級圖像模型。我們將針對速度、真實感、文字、人體結構與成本這幾個面向,比較 GPT Image 2、Flux 2 Pro 以及 Nano Banana 2,讓您能精準判斷該為自身專案選用哪一款模型。

50 個最佳 GPT Image 2 提示詞,適用於爆紅人工智慧影像(2026年更新版)

用AI藝術創作爆紅!我們測試了上百種組合,為你帶來50組可直接複製貼上的GPT Image 2提示詞。從電影感動畫風格到適用於社群媒體的超逼真繪圖秘訣。

GPT繪圖2 真正有效的動漫風格提示詞(2026年版)

厭倦了看起來像融化塑膠的AI動漫嗎?這25組以上經過驗證的GPT Image 2提示詞,可帶出道地的少年向、青年向、吉卜力以及新海誠風格——不僅臉部造型一致,更不會有像糾成亂團的義大利麵般的怪異手部。