OpenAI 最近推出了基於 GPT-4o 的全新影像生成功能,為 ChatGPT 帶來了顯著升級。
ChatGPT-4o 影像生成的主要特點
- 整合多模態能力
GPT-4o 是一個「全模態」(omnimodal)模型,能同時處理和生成文字、影像、音訊及影片。這次更新將影像生成功能原生整合到 ChatGPT 中,取代了之前的 DALL-E 3 模型,實現了文字與影像生成的無縫結合。 - 更高的影像品質與細節
- 改進了文字渲染能力,能更準確地在影像中呈現文字內容,例如設計公司標誌、幻燈片、名片等。
- 支援透明背景影像生成,方便用戶將其嵌入到簡報或其他設計中。
- 透過上下文學習和多輪生成技術,模型可以更好地理解用戶需求,生成更真實且符合指令的影像。
- 使用者體驗提升
- 用戶現在可以直接透過對話輸入或上傳檔案來生成影像,並進行修改(如「補畫」或調整前景與背景)。
- 支援多種應用場景,包括創作藝術作品、設計社群圖文,以及將圖片轉換為不同風格(如宮崎駿風格)。
- 透明性與安全性
- 所有生成的影像都包含 C2PA 元數據,以標明其為 AI 生成內容,確保透明性。
- 嚴格遵守內容政策,禁止生成涉及暴力、裸露或其他不當內容的影像。
適用範圍與限制
該功能已逐步向所有 ChatGPT 用戶開放,包括免費帳戶和 Plus、Pro 訂閱用戶,但免費用戶可能受到使用次數限制。
開發者未來幾個星期將可以透過 OpenAI API 使用此功能,用於自定義應用程式開發。
GPT-4o 的圖像生成速度如何?
GPT-4o 的圖像生成速度相較於之前的版本有顯著提升,但具體速度因使用場景而異:
- 一般生成速度
GPT-4o 的平均響應時間為 320 毫秒,這包括處理文字和影像的多模態輸入。然而,影像生成過程可能更耗時,尤其是高解析度或複雜指令的影像。 - 影像生成所需時間
根據測試報告,GPT-4o 生成影像可能需要 45 秒左右,這是一個逐行渲染的過程,影像逐漸顯示出來。 - API 回應時間
在實時應用(例如視頻流)中,API 的回應時間通常為 3-4 秒,這可能不適合極低延遲需求的場景。
總體而言,GPT-4o 的速度已經比 GPT-4 快許多,但影像生成仍需一定時間才能完成,尤其是高細節或高解析度的影像。
潛在問題
儘管 GPT-4o 的影像生成能力顯著提升,但仍存在一些局限性:
- 有時可能生成比例不正確或過於緊湊的影像。
- 在知識密集型圖像(如週期表)的呈現上可能出現錯誤。
總體而言,GPT-4o 的推出代表了 ChatGPT 在多模態 AI 技術上的重要進步,不僅提升了影像創作的效率與品質,也為設計師和創作者提供了更多靈活性和創意空間。
GPT-4o 圖像生成的實際應用範例
以下我們實測了各種使用情境範例,也包含 OpenAI 的影片範例,真的很令人驚艷呢!
風格轉換與藝術創作
- 吉卜力風格重製:上傳美國知名女歌手 Taylor Swift 的照片後,要求轉換為吉卜力風格,保留人物表情與構圖一致性,生成效果接近真實動畫。
- 藝術風格轉換:將素描轉為彩色油畫或3D渲染圖,適用於快速原型設計。
- 梵谷筆觸風格:生成「梵谷筆觸的星空」等藝術風格圖像,細節一致性高。
實用設計與資訊傳達
商業設計:
- 標誌設計:生成包含文字的商標,文字與視覺元素無縫融合。
- 海報與宣傳圖:結合文字的社群宣傳圖、選舉海報,適用於品牌推廣。
- 透明背景圖片:生成可嵌入簡報的透明背景影像,方便設計工作。
資訊圖表:
- 教育插圖:生成科學課程的寫實或非寫實風格資訊圖表,例如週期表或生物結構圖。
- 數據視覺化:將書籍圖片融合到寫實場景中,強化說明效果。
文字與圖像的精準結合
- 中文文字生成:生成老師在白板寫滿中文的寫實照片,文字清晰且符合場景。
- 多物件控制:處理包含10-20個物件的複雜指令,例如「紅色跑車、藍天、三棵綠樹」等細節精準呈現。
- 動態描述:生成Elon Musk在火星躲避風暴的場景,包含 CyberTruck 載具與環境對比,符合 16:9 比例要求。
圖片改造與延伸應用
- 寫實轉換:將藝術作品轉換為寫實攝影照片,例如將插畫轉為擬真生物攝影。
- 多輪調整:透過對話逐步修改圖像細節,例如為遊戲角色增加配件或改變背景,保持核心特徵一致。
技術限制與注意事項
在使用 AI 生成圖像的過程中,會有一些常見的注意事項。例如在生成高解析度或包含複雜指令的影像時,通常需要約一分鐘以上,且在生成過程中畫面會呈現霧化效果。儘管技術已相當先進,但部分圖像仍可能出現細節誤差,例如人物比例不自然或畫面過度緊湊。另一方面,目前系統僅支援靜態圖片,若需產出動畫效果,仍需透過第三方工具進行額外串接與後製處理。
應用技巧
- 指令精準化:明確描述物件數量、風格、比例(如16:9)以提升生成準確性。
- 多模態整合:結合文字與圖像輸入,例如上傳草圖並描述轉換風格,強化生成效果。
ChatGPT-4o 的繪圖功能為 AI 應用帶來全新突破,結合語言理解與視覺生成,讓創作過程更直覺、更有趣。不論是設計師、行銷人員,還是內容創作者,都能藉此提升效率、激發靈感。未來 AI 創作只會越來越普及,現在正是最好的時機,體驗這項令人驚豔的工具,開啟你與 AI 合作創作的新篇章!