探索 Gemini 2.0 Flash:Google 最新 AI 影像生成技術

Google 推出 Gemini 2.0 Flash,一款輕量、高效的 AI 模型,專為即時推理與影像生成設計。內建影像生成功能,開發者可透過 Google AI Studio 直接產生高品質圖像,應用於行銷、設計、遊戲等領域。這項技術將為 AI 創意應用帶來更多可能性。

Google 近日正式發布 Gemini 2.0 Flash,這是一款專為高效能 AI 運算設計的輕量級模型,特別適用於即時推理與生成應用。該模型的主要特點是高速處理能力、低延遲響應,並且擁有強大的影像生成能力,使得開發者可以更靈活地將 AI 創意工具整合至不同的應用場景。

Gemini 2.0 Flash 的發布標誌著 Google 在 AI 領域的又一重要突破,特別是在提升 AI 的運算效率與創意應用方面,展現了令人矚目的進步。相較於其他生成式 AI,Gemini 2.0 Flash 以輕量、高效、靈活的方式,讓企業與開發者能夠更快地將 AI 技術整合至其產品或服務。

目前可以使用 Google AI Studio 中的 Gemini 2.0 Flash( gemini-2.0-flash-exp )實驗版本和透過 Gemini API 測試此新功能,我們測試使用中英文輸入指令,皆可得到結果,表示你可以使用自己熟悉的語言操作。

Gemini 2.0 Flash 的核心優勢

Gemini 2.0 Flash 結合多模式輸入、增強推理和自然語言理解來創建圖像。

  1. 高速運算與低延遲
    這款 AI 模型經過專門優化,能夠在較低算力需求下快速生成高品質內容,適合即時應用,如聊天機器人、即時翻譯、內容生成及影像處理。由於其運算效能的提升,Gemini 2.0 Flash 在保持優秀準確度的同時,顯著降低了處理時間,為即時互動提供了更流暢的體驗。
  2. 原生影像生成能力
    Gemini 2.0 Flash 內建影像生成技術,使用戶能夠直接在 Google AI Studio 內產生圖像,無需額外整合第三方工具。這不僅提高了便利性,也確保了影像的質量與一致性。透過這項功能,開發者可以更輕鬆地將 AI 生成內容應用於各類型產品,如行銷素材、數位內容與視覺設計。
  3. 專為開發者打造的工具
    該模型目前已整合至 Google AI Studio,開發者可以透過簡單的 API 調用影像生成功能,為應用程式帶來更豐富的視覺體驗。此外,Google 提供了一系列 SDK 和開發資源,協助開發者快速上手,並將 Gemini 2.0 Flash 無縫嵌入到現有的應用中。

如何開始使用 Gemini 2.0 Flash?

網址:https://aistudio.google.com/prompts/new_chat

目前,Google AI Studio 已開放開發者試用 Gemini 2.0 Flash,可直接進行影像生成實驗。開發者可透過 Google 提供的 API 與工具,將該模型整合至應用程式中,無論是行銷內容、遊戲設計,還是產品開發,都能夠藉助 AI 提高效率與創新能力。

進入網站後,在「Model」選擇新型的「 Gemini 2.0 Flash(Image Generation)Experimental 」模型,「Output Format」選擇「Images and text」

接著就可以在輸入框輸入指令,我們以下用中文測試。

編輯圖片

右下角的「+」點選後可以上傳圖片或是使用其他方式新增檔案,我們先上傳了一張台北101大樓白天的照片。

並輸入指令「夜晚,放煙火的台北101」

成果相當不錯!雖然有點變成台北101仙女棒的感覺,但是夜晚、煙火都有表現出來,畫質雖然有點差,但很令人驚艷!

我們又上傳了一張蛋糕照片,想請 Gemini 2.0 Flash 來裝飾一下,它甚至幫我延伸了照片。

在測驗裝飾這個部分時,我們發現指令要較詳細,AI 才會明白你想要做什麼,可以將你腦中的影像用語言描繪出來。

製作故事插圖

我們在這邊請 Gemini 2.0 Flash 繪製故事插圖,並一幕一幕進行,它可以維持相同的圖片風格進行繪製。

繪製了三張圖片都有可愛的迪士尼風格小豬。

另外你也可以使用 Gemini 2.0 Flash 講述一個故事,它會用圖片進行說明,始終保持人物和設定的一致性。如果給予回饋,模型就會複述故事或改變其繪畫風格。

幫助學習:步驟加上圖片

你可以輸入指令請 Gemini 2.0 Flash 給你食譜或是教學,並要求每個步驟附上一張圖片。

我們測試了食譜及裝底片教學,食譜的結果較好,生成的圖片基本上有正確配到步驟,但有些圖也是有點怪怪的(煮義大利麵、炒絞肉…等等)。裝底片教學的步驟圖片則是錯得亂七八糟,可能在較複雜的教學上還沒辦法生成相符的圖片。

以下是「番茄肉醬義大利麵食譜」:

生成有文字的圖片

大多數圖像生成模型都難以準確地呈現長文本序列,這常常導致格式不良或難以辨認的字符或拼寫錯誤。內部基準測試表明,與領先的競爭型號相比,2.0 Flash 具有更強大的渲染功能,非常適合創建廣告、社群貼文甚至邀請。

以目前測試結果來看,是可以嘗試看看生成其他含有文字的圖片,你可以清楚告訴它,你想要在圖片上包含哪些文字。

目前圖片相關功能只能在 Google AI Studio 上使用,尚未整合到 Gemini 中,經過測試此功能還有改進空間,但也讓人看見無限的可能性。

未來,Google 也計劃在未來擴展該模型的功能,使其支援更複雜的影像風格、3D 建模等應用,進一步擴展 AI 影像生成的邊界。隨著 AI 生成技術的持續進步,Gemini 2.0 Flash 以高效與靈活的特點,為創作者與開發者帶來更多可能性,未來勢必將在多個領域發揮重要作用。

Gemini 2.0 Flash 不僅是一款提升 AI 運算能力的技術,更是一個將 AI 影像創作推向新高度的工具,讓開發者能夠更輕鬆地運用 AI,為世界帶來更多創意與可能性。

資料來源:Experiment with Gemini 2.0 Flash native image generation

喜歡這篇文章嗎?

目錄

其他相關文章

學無止盡!再來看看其他教學文章吧!

AI 技術不斷進化,ManusAI 的推出讓 AI Agent 再度成為熱議話題。AI Agent 是一種具備自主學習、決策能力的智能系統,能根據環境變化自動執行任務,與傳統 AI 相比更具適應性與靈活性。從客服自動化、智能交易到個人助理,AI Agent 正逐步改變我們的工作與生活。
ChatGPT 的語音與視訊功能為用戶帶來更自然、直覺的 AI 互動體驗。從語言學習、日常生活助手,到商務會議、親子娛樂與專業培訓,這些功能在多種場景中發揮強大作用。ChatGPT 正在改變我們與 AI 互動的方式,讓生活、工作與學習變得更高效、智能。
ChatGPT Deep Research 是 OpenAI 針對學術研究與企業決策推出的高級 AI 工具,具備強大的推理與數據整合能力。目前僅限部分高級用戶使用,未來將逐步擴展至更多地區。其推出標誌著 AI 在高階知識探索上的重要突破,將重塑未來的研究方式。