全台風靡 ChatGPT-4o 新繪圖功能!

ChatGPT-4o 推出新繪圖功能,讓人驚喜連連!許多優化的繪圖功能,改進先前 AI 繪圖的問題與錯誤,實測下來有真的升級有感,一起來看看。

OpenAI 最近推出了基於 GPT-4o 的全新影像生成功能,為 ChatGPT 帶來了顯著升級。

ChatGPT-4o 影像生成的主要特點

  1. 整合多模態能力
    GPT-4o 是一個「全模態」(omnimodal)模型,能同時處理和生成文字、影像、音訊及影片。這次更新將影像生成功能原生整合到 ChatGPT 中,取代了之前的 DALL-E 3 模型,實現了文字與影像生成的無縫結合。
  2. 更高的影像品質與細節
    • 改進了文字渲染能力,能更準確地在影像中呈現文字內容,例如設計公司標誌、幻燈片、名片等。
    • 支援透明背景影像生成,方便用戶將其嵌入到簡報或其他設計中。
    • 透過上下文學習和多輪生成技術,模型可以更好地理解用戶需求,生成更真實且符合指令的影像。
  3. 使用者體驗提升
    • 用戶現在可以直接透過對話輸入或上傳檔案來生成影像,並進行修改(如「補畫」或調整前景與背景)。
    • 支援多種應用場景,包括創作藝術作品、設計社群圖文,以及將圖片轉換為不同風格(如宮崎駿風格)。
  4. 透明性與安全性
    • 所有生成的影像都包含 C2PA 元數據,以標明其為 AI 生成內容,確保透明性。
    • 嚴格遵守內容政策,禁止生成涉及暴力、裸露或其他不當內容的影像。

適用範圍與限制

該功能已逐步向所有 ChatGPT 用戶開放,包括免費帳戶和 Plus、Pro 訂閱用戶,但免費用戶可能受到使用次數限制。

開發者未來幾個星期將可以透過 OpenAI API 使用此功能,用於自定義應用程式開發。

GPT-4o 的圖像生成速度如何?

GPT-4o 的圖像生成速度相較於之前的版本有顯著提升,但具體速度因使用場景而異:

  1. 一般生成速度
    GPT-4o 的平均響應時間為 320 毫秒,這包括處理文字和影像的多模態輸入。然而,影像生成過程可能更耗時,尤其是高解析度或複雜指令的影像。
  2. 影像生成所需時間
    根據測試報告,GPT-4o 生成影像可能需要 45 秒左右,這是一個逐行渲染的過程,影像逐漸顯示出來。
  3. API 回應時間
    在實時應用(例如視頻流)中,API 的回應時間通常為 3-4 秒,這可能不適合極低延遲需求的場景。

總體而言,GPT-4o 的速度已經比 GPT-4 快許多,但影像生成仍需一定時間才能完成,尤其是高細節或高解析度的影像。

潛在問題

儘管 GPT-4o 的影像生成能力顯著提升,但仍存在一些局限性:

  • 有時可能生成比例不正確或過於緊湊的影像。
  • 在知識密集型圖像(如週期表)的呈現上可能出現錯誤。

總體而言,GPT-4o 的推出代表了 ChatGPT 在多模態 AI 技術上的重要進步,不僅提升了影像創作的效率與品質,也為設計師和創作者提供了更多靈活性和創意空間。

GPT-4o 圖像生成的實際應用範例

以下我們實測了各種使用情境範例,也包含 OpenAI 的影片範例,真的很令人驚艷呢!

風格轉換與藝術創作

  • 吉卜力風格重製:上傳美國知名女歌手 Taylor Swift 的照片後,要求轉換為吉卜力風格,保留人物表情與構圖一致性,生成效果接近真實動畫。
很不錯!
  • 藝術風格轉換:將素描轉為彩色油畫或3D渲染圖,適用於快速原型設計。
  • 梵谷筆觸風格:生成「梵谷筆觸的星空」等藝術風格圖像,細節一致性高。

實用設計與資訊傳達

商業設計

  • 標誌設計:生成包含文字的商標,文字與視覺元素無縫融合。
文字部份的設計有點不理想
  • 海報與宣傳圖:結合文字的社群宣傳圖、選舉海報,適用於品牌推廣。
中文字還是差了些
  • 透明背景圖片:生成可嵌入簡報的透明背景影像,方便設計工作。

資訊圖表

  • 教育插圖:生成科學課程的寫實或非寫實風格資訊圖表,例如週期表或生物結構圖。
好厲害呀!
  • 數據視覺化:將書籍圖片融合到寫實場景中,強化說明效果。

文字與圖像的精準結合

  • 中文文字生成:生成老師在白板寫滿中文的寫實照片,文字清晰且符合場景。
  • 多物件控制:處理包含10-20個物件的複雜指令,例如「紅色跑車、藍天、三棵綠樹」等細節精準呈現。
  • 動態描述:生成Elon Musk在火星躲避風暴的場景,包含 CyberTruck 載具與環境對比,符合 16:9 比例要求。

圖片改造與延伸應用

  • 寫實轉換:將藝術作品轉換為寫實攝影照片,例如將插畫轉為擬真生物攝影。
  • 多輪調整:透過對話逐步修改圖像細節,例如為遊戲角色增加配件或改變背景,保持核心特徵一致。

技術限制與注意事項

在使用 AI 生成圖像的過程中,會有一些常見的注意事項。例如在生成高解析度或包含複雜指令的影像時,通常需要約一分鐘以上,且在生成過程中畫面會呈現霧化效果。儘管技術已相當先進,但部分圖像仍可能出現細節誤差,例如人物比例不自然或畫面過度緊湊。另一方面,目前系統僅支援靜態圖片,若需產出動畫效果,仍需透過第三方工具進行額外串接與後製處理。

應用技巧

  • 指令精準化:明確描述物件數量、風格、比例(如16:9)以提升生成準確性。
  • 多模態整合:結合文字與圖像輸入,例如上傳草圖並描述轉換風格,強化生成效果。

ChatGPT-4o 的繪圖功能為 AI 應用帶來全新突破,結合語言理解與視覺生成,讓創作過程更直覺、更有趣。不論是設計師、行銷人員,還是內容創作者,都能藉此提升效率、激發靈感。未來 AI 創作只會越來越普及,現在正是最好的時機,體驗這項令人驚豔的工具,開啟你與 AI 合作創作的新篇章!

資料來源:Introducing 4o Image Generation

喜歡這篇文章嗎?

目錄

其他相關文章

學無止盡!再來看看其他教學文章吧!

想用 AI 做貼圖、盲盒公仔、角色設計?我們實測 ChatGPT-4o 的圖像生成功能,從角色貼圖到包裝設計一次完成,不用會畫圖也能創作專屬視覺作品!
從 Andrej Karpathy 到 Simon Willison,開發圈掀起「Vibe Coding」熱潮!不再硬寫程式碼,透過語境、風格與 AI 對話共創產品,這波創意式開發你跟上了嗎?
Google 推出 Gemini 2.0 Flash,一款輕量、高效的 AI 模型,專為即時推理與影像生成設計。內建影像生成功能,開發者可透過 Google AI Studio 直接產生高品質圖像,應用於行銷、設計、遊戲等領域。這項技術將為 AI 創意應用帶來更多可能性。