AI 畫圖功能又升級了?為什麼你該關注 ChatGPT Image 2.0
OpenAI 近期發布了 ChatGPT Image 2.0 的重大更新,這次的升級核心在於「理解力」與「格式彈性」的飛躍。以往我們生成 AI 圖片,如果不滿意某個細節,通常得重新輸入指令;但現在,ChatGPT 引入了更直覺的局部編輯與尺寸控制功能。
2026 更新重點:更聰明的畫筆與自由的畫幅
官方介紹文章:https://openai.com/zh-Hant/index/introducing-chatgpt-images-2-0/
根據官方公告,這次更新核心在於:
- 語義理解提升:更能分辨指令中的主從關係,大幅減少物件重疊或遺漏的問題。
- 介面內嵌編輯器:你可以直接點擊圖片,圈選想要修改的地方(例如換掉背景的一棵樹),透過對話要求 AI 替換,不需重出一張圖。
- 自由調整長寬比:不再受限於正方形或固定的 16:9。現在你可以直接下指令要求特定的比例(如 3:1 超寬橫幅或 1:3 垂直海報),這對於製作網站 Banner 或手機限時動態非常有幫助。
- 風格一致性:在連續對話中,AI 能更好地維持圖片的角色特徵或環境氛圍。

接下來,我們將用三個日常情境,看看 ChatGPT Image 2.0 與 Google 的 Gemini Nano Banana 2 誰能勝出。
第一戰:手把手教你做料理!「培根蛋黃義大利麵」圖解測試
在教學情境中,圖片的「邏輯感」比美感更重要。我們給予兩者相同的指令,要求生成一張包含食材準備與烹飪步驟的圖解。
實測情境:義式培根蛋黃義大利麵 (Carbonara) 步驟圖
- ChatGPT Image 2.0 表現:受益於 DALL-E 3 的邏輯基礎,它能較精準地將畫面分割成不同區域,甚至在圖中加入標籤文字。最方便的是,如果我覺得某個步驟畫錯了,可以用編輯器「圈選」該步驟要求重畫,不必整張圖打掉重練。

- Gemini 表現:生成的圖片色彩飽和且誘人,「步驟分解」的邏輯上也很清楚,重點提示的部分比較制式化,相較於 ChatGPT 的圖片較為簡單一些。

第二戰:旅行者的視覺草稿!「巴賽隆納行程地圖」實測
規劃旅遊時,如果能有一張示意地圖,會讓行程更有感。
實測情境:巴賽隆納七天六夜行程視覺地圖
- ChatGPT Image 2.0 表現:它能根據地標的特徵(如聖家堂的尖塔)創造出具備辨識度的圖示。且文字行程也有加上,內容相當豐富。特別是在長寬比調整功能下,我們可以要求生成一張「9:16」的長型地圖,直接作為手機桌布隨時翻看。

- Gemini 表現:結合了 Google 地圖的知識庫,在景點的相對位置上通常較為合理,但目前在自訂長寬比的靈活性上稍遜於 ChatGPT,且繁體中文文字較多錯誤、行程內容資訊較少。

第三戰:手繪線條風格照片
我們實測最近 threads 上流行的在照片上加上手繪線條的設計風格。
實測情境:手繪線條風格照片
- ChatGPT Image 2.0 表現:加上手繪線條的部分相對自然,且有一些口語的手寫文字。

- Gemini 表現:線條及文字處理上都稍微生硬了一些。

常見問題
為什麼生成的圖片裡面,文字總是亂碼?
目前 AI 在處理複雜中文或複雜句子仍有挑戰。ChatGPT Image 2.0 在各國語言上已有相當大的進步,Gemini 則比較常出現亂碼問題。
如何讓 ChatGPT 幫我把圖片變成長方形?
你可以直接在指令末端加上「請生成 16:9 的長寬比」或「比例改為 3:4」。如果圖片已經生成,也可以點擊編輯功能,要求它擴展(Outpainting)成其他尺寸。
Gemini 生成的圖片可以直接用在簡報嗎?
可以。Gemini 生成的圖檔解析度足夠一般簡報使用,且 Google 內建的保護機制會避開具爭議的版權內容,對上班族來說相對安全。
ChatGPT 免費版每天能生幾張圖?
免費版使用者生圖限制沒有一個「官方固定數字」,通常是 每天約 2~3 張左右。若有大量產圖或需要更精密的「思考模式」來構圖,則需考慮 Plus 版本。
為什麼我沒看到 ChatGPT 的局部編輯功能?
請點擊生成的圖片進入全螢幕模式,右上角若出現「筆刷」圖示,即代表你可以開始使用局部編輯。若未出現,可能是功能正逐步批次開放給全球使用者。
ChatGPT Image 2.0 在本次更新中展現了極高的操作靈活性,尤其是局部編輯與自訂長寬比的功能,讓它從單純的「產圖工具」進化為「協作工具」;而 Gemini 則在 Google 生態系的資訊準確性與快速產出上保有其特色。兩者各有千秋,建議你可以根據手邊任務的屬性,嘗試這兩位各具特色的 AI 助手。



