Google 近日正式發布 Gemini 2.0 Flash,這是一款專為高效能 AI 運算設計的輕量級模型,特別適用於即時推理與生成應用。該模型的主要特點是高速處理能力、低延遲響應,並且擁有強大的影像生成能力,使得開發者可以更靈活地將 AI 創意工具整合至不同的應用場景。
Gemini 2.0 Flash 的發布標誌著 Google 在 AI 領域的又一重要突破,特別是在提升 AI 的運算效率與創意應用方面,展現了令人矚目的進步。相較於其他生成式 AI,Gemini 2.0 Flash 以輕量、高效、靈活的方式,讓企業與開發者能夠更快地將 AI 技術整合至其產品或服務。
目前可以使用 Google AI Studio 中的 Gemini 2.0 Flash( gemini-2.0-flash-exp )實驗版本和透過 Gemini API 測試此新功能,我們測試使用中英文輸入指令,皆可得到結果,表示你可以使用自己熟悉的語言操作。
Gemini 2.0 Flash 的核心優勢
Gemini 2.0 Flash 結合多模式輸入、增強推理和自然語言理解來創建圖像。
- 高速運算與低延遲
這款 AI 模型經過專門優化,能夠在較低算力需求下快速生成高品質內容,適合即時應用,如聊天機器人、即時翻譯、內容生成及影像處理。由於其運算效能的提升,Gemini 2.0 Flash 在保持優秀準確度的同時,顯著降低了處理時間,為即時互動提供了更流暢的體驗。 - 原生影像生成能力
Gemini 2.0 Flash 內建影像生成技術,使用戶能夠直接在 Google AI Studio 內產生圖像,無需額外整合第三方工具。這不僅提高了便利性,也確保了影像的質量與一致性。透過這項功能,開發者可以更輕鬆地將 AI 生成內容應用於各類型產品,如行銷素材、數位內容與視覺設計。 - 專為開發者打造的工具
該模型目前已整合至 Google AI Studio,開發者可以透過簡單的 API 調用影像生成功能,為應用程式帶來更豐富的視覺體驗。此外,Google 提供了一系列 SDK 和開發資源,協助開發者快速上手,並將 Gemini 2.0 Flash 無縫嵌入到現有的應用中。
如何開始使用 Gemini 2.0 Flash?
網址:https://aistudio.google.com/prompts/new_chat
目前,Google AI Studio 已開放開發者試用 Gemini 2.0 Flash,可直接進行影像生成實驗。開發者可透過 Google 提供的 API 與工具,將該模型整合至應用程式中,無論是行銷內容、遊戲設計,還是產品開發,都能夠藉助 AI 提高效率與創新能力。
進入網站後,在「Model」選擇新型的「 Gemini 2.0 Flash(Image Generation)Experimental 」模型,「Output Format」選擇「Images and text」。
接著就可以在輸入框輸入指令,我們以下用中文測試。
編輯圖片
右下角的「+」點選後可以上傳圖片或是使用其他方式新增檔案,我們先上傳了一張台北101大樓白天的照片。
並輸入指令「夜晚,放煙火的台北101」
成果相當不錯!雖然有點變成台北101仙女棒的感覺,但是夜晚、煙火都有表現出來,畫質雖然有點差,但很令人驚艷!
我們又上傳了一張蛋糕照片,想請 Gemini 2.0 Flash 來裝飾一下,它甚至幫我延伸了照片。
在測驗裝飾這個部分時,我們發現指令要較詳細,AI 才會明白你想要做什麼,可以將你腦中的影像用語言描繪出來。
製作故事插圖
我們在這邊請 Gemini 2.0 Flash 繪製故事插圖,並一幕一幕進行,它可以維持相同的圖片風格進行繪製。
繪製了三張圖片都有可愛的迪士尼風格小豬。
另外你也可以使用 Gemini 2.0 Flash 講述一個故事,它會用圖片進行說明,始終保持人物和設定的一致性。如果給予回饋,模型就會複述故事或改變其繪畫風格。
幫助學習:步驟加上圖片
你可以輸入指令請 Gemini 2.0 Flash 給你食譜或是教學,並要求每個步驟附上一張圖片。
我們測試了食譜及裝底片教學,食譜的結果較好,生成的圖片基本上有正確配到步驟,但有些圖也是有點怪怪的(煮義大利麵、炒絞肉…等等)。裝底片教學的步驟圖片則是錯得亂七八糟,可能在較複雜的教學上還沒辦法生成相符的圖片。
以下是「番茄肉醬義大利麵食譜」:
生成有文字的圖片
大多數圖像生成模型都難以準確地呈現長文本序列,這常常導致格式不良或難以辨認的字符或拼寫錯誤。內部基準測試表明,與領先的競爭型號相比,2.0 Flash 具有更強大的渲染功能,非常適合創建廣告、社群貼文甚至邀請。
以目前測試結果來看,是可以嘗試看看生成其他含有文字的圖片,你可以清楚告訴它,你想要在圖片上包含哪些文字。
目前圖片相關功能只能在 Google AI Studio 上使用,尚未整合到 Gemini 中,經過測試此功能還有改進空間,但也讓人看見無限的可能性。
未來,Google 也計劃在未來擴展該模型的功能,使其支援更複雜的影像風格、3D 建模等應用,進一步擴展 AI 影像生成的邊界。隨著 AI 生成技術的持續進步,Gemini 2.0 Flash 以高效與靈活的特點,為創作者與開發者帶來更多可能性,未來勢必將在多個領域發揮重要作用。
Gemini 2.0 Flash 不僅是一款提升 AI 運算能力的技術,更是一個將 AI 影像創作推向新高度的工具,讓開發者能夠更輕鬆地運用 AI,為世界帶來更多創意與可能性。
資料來源:Experiment with Gemini 2.0 Flash native image generation