全台風靡 ChatGPT-4o 新繪圖功能!

ChatGPT-4o 推出新繪圖功能,讓人驚喜連連!許多優化的繪圖功能,改進先前 AI 繪圖的問題與錯誤,實測下來有真的升級有感,一起來看看。

OpenAI 最近推出了基於 GPT-4o 的全新影像生成功能,為 ChatGPT 帶來了顯著升級。

ChatGPT-4o 影像生成的主要特點

  1. 整合多模態能力
    GPT-4o 是一個「全模態」(omnimodal)模型,能同時處理和生成文字、影像、音訊及影片。這次更新將影像生成功能原生整合到 ChatGPT 中,取代了之前的 DALL-E 3 模型,實現了文字與影像生成的無縫結合。
  2. 更高的影像品質與細節
    • 改進了文字渲染能力,能更準確地在影像中呈現文字內容,例如設計公司標誌、幻燈片、名片等。
    • 支援透明背景影像生成,方便用戶將其嵌入到簡報或其他設計中。
    • 透過上下文學習和多輪生成技術,模型可以更好地理解用戶需求,生成更真實且符合指令的影像。
  3. 使用者體驗提升
    • 用戶現在可以直接透過對話輸入或上傳檔案來生成影像,並進行修改(如「補畫」或調整前景與背景)。
    • 支援多種應用場景,包括創作藝術作品、設計社群圖文,以及將圖片轉換為不同風格(如宮崎駿風格)。
  4. 透明性與安全性
    • 所有生成的影像都包含 C2PA 元數據,以標明其為 AI 生成內容,確保透明性。
    • 嚴格遵守內容政策,禁止生成涉及暴力、裸露或其他不當內容的影像。

適用範圍與限制

該功能已逐步向所有 ChatGPT 用戶開放,包括免費帳戶和 Plus、Pro 訂閱用戶,但免費用戶可能受到使用次數限制。

開發者未來幾個星期將可以透過 OpenAI API 使用此功能,用於自定義應用程式開發。

GPT-4o 的圖像生成速度如何?

GPT-4o 的圖像生成速度相較於之前的版本有顯著提升,但具體速度因使用場景而異:

  1. 一般生成速度
    GPT-4o 的平均響應時間為 320 毫秒,這包括處理文字和影像的多模態輸入。然而,影像生成過程可能更耗時,尤其是高解析度或複雜指令的影像。
  2. 影像生成所需時間
    根據測試報告,GPT-4o 生成影像可能需要 45 秒左右,這是一個逐行渲染的過程,影像逐漸顯示出來。
  3. API 回應時間
    在實時應用(例如視頻流)中,API 的回應時間通常為 3-4 秒,這可能不適合極低延遲需求的場景。

總體而言,GPT-4o 的速度已經比 GPT-4 快許多,但影像生成仍需一定時間才能完成,尤其是高細節或高解析度的影像。

潛在問題

儘管 GPT-4o 的影像生成能力顯著提升,但仍存在一些局限性:

  • 有時可能生成比例不正確或過於緊湊的影像。
  • 在知識密集型圖像(如週期表)的呈現上可能出現錯誤。

總體而言,GPT-4o 的推出代表了 ChatGPT 在多模態 AI 技術上的重要進步,不僅提升了影像創作的效率與品質,也為設計師和創作者提供了更多靈活性和創意空間。

GPT-4o 圖像生成的實際應用範例

以下我們實測了各種使用情境範例,也包含 OpenAI 的影片範例,真的很令人驚艷呢!

風格轉換與藝術創作

  • 吉卜力風格重製:上傳美國知名女歌手 Taylor Swift 的照片後,要求轉換為吉卜力風格,保留人物表情與構圖一致性,生成效果接近真實動畫。
很不錯!
  • 藝術風格轉換:將素描轉為彩色油畫或3D渲染圖,適用於快速原型設計。
  • 梵谷筆觸風格:生成「梵谷筆觸的星空」等藝術風格圖像,細節一致性高。

實用設計與資訊傳達

商業設計

  • 標誌設計:生成包含文字的商標,文字與視覺元素無縫融合。
文字部份的設計有點不理想
  • 海報與宣傳圖:結合文字的社群宣傳圖、選舉海報,適用於品牌推廣。
中文字還是差了些
  • 透明背景圖片:生成可嵌入簡報的透明背景影像,方便設計工作。

資訊圖表

  • 教育插圖:生成科學課程的寫實或非寫實風格資訊圖表,例如週期表或生物結構圖。
好厲害呀!
  • 數據視覺化:將書籍圖片融合到寫實場景中,強化說明效果。

文字與圖像的精準結合

  • 中文文字生成:生成老師在白板寫滿中文的寫實照片,文字清晰且符合場景。
  • 多物件控制:處理包含10-20個物件的複雜指令,例如「紅色跑車、藍天、三棵綠樹」等細節精準呈現。
  • 動態描述:生成Elon Musk在火星躲避風暴的場景,包含 CyberTruck 載具與環境對比,符合 16:9 比例要求。

圖片改造與延伸應用

  • 寫實轉換:將藝術作品轉換為寫實攝影照片,例如將插畫轉為擬真生物攝影。
  • 多輪調整:透過對話逐步修改圖像細節,例如為遊戲角色增加配件或改變背景,保持核心特徵一致。

技術限制與注意事項

在使用 AI 生成圖像的過程中,會有一些常見的注意事項。例如在生成高解析度或包含複雜指令的影像時,通常需要約一分鐘以上,且在生成過程中畫面會呈現霧化效果。儘管技術已相當先進,但部分圖像仍可能出現細節誤差,例如人物比例不自然或畫面過度緊湊。另一方面,目前系統僅支援靜態圖片,若需產出動畫效果,仍需透過第三方工具進行額外串接與後製處理。

應用技巧

  • 指令精準化:明確描述物件數量、風格、比例(如16:9)以提升生成準確性。
  • 多模態整合:結合文字與圖像輸入,例如上傳草圖並描述轉換風格,強化生成效果。

ChatGPT-4o 的繪圖功能為 AI 應用帶來全新突破,結合語言理解與視覺生成,讓創作過程更直覺、更有趣。不論是設計師、行銷人員,還是內容創作者,都能藉此提升效率、激發靈感。未來 AI 創作只會越來越普及,現在正是最好的時機,體驗這項令人驚豔的工具,開啟你與 AI 合作創作的新篇章!

資料來源:Introducing 4o Image Generation

喜歡這篇文章嗎?

目錄

其他相關文章

學無止盡!再來看看其他教學文章吧!

Google 推出 Gemini 2.0 Flash,一款輕量、高效的 AI 模型,專為即時推理與影像生成設計。內建影像生成功能,開發者可透過 Google AI Studio 直接產生高品質圖像,應用於行銷、設計、遊戲等領域。這項技術將為 AI 創意應用帶來更多可能性。
AI 技術不斷進化,ManusAI 的推出讓 AI Agent 再度成為熱議話題。AI Agent 是一種具備自主學習、決策能力的智能系統,能根據環境變化自動執行任務,與傳統 AI 相比更具適應性與靈活性。從客服自動化、智能交易到個人助理,AI Agent 正逐步改變我們的工作與生活。
ChatGPT 的語音與視訊功能為用戶帶來更自然、直覺的 AI 互動體驗。從語言學習、日常生活助手,到商務會議、親子娛樂與專業培訓,這些功能在多種場景中發揮強大作用。ChatGPT 正在改變我們與 AI 互動的方式,讓生活、工作與學習變得更高效、智能。