如何運用 ChatGPT-4 新的圖像輸入功能？

ChatGPT, ChatGPT Plus

ChatGPT 推出新的圖像輸入功能，它可讓您分析圖像、識別物件、閱讀文本並獲得反饋。一起來看看可以如何運用這個新功能！

有一個新的 ChatGPT 更新，使您可以使用聊天機器人執行的操作成倍增加：由於 ChatGPT 圖像輸入，AI 現在可以分析圖像。

這並不像聽起來那麼簡單。當然，它可以識別圖像中的內容，但它也可以從圖像中讀取文本和數學，搜索或找出圖像中的內容，並提供有關圖像的反饋。在單個功能中，這是很多可能性。

如何將圖片上傳到 ChatGPT-4？

輸入圖像供 ChatGPT 分析的過程非常簡單，只需在聊天框（在桌面或行動裝置上）中，點選迴紋針圖示。

接下來，選擇檔案，然後添加指令，從「描述這張圖片」或「我應該穿什麼顏色的鞋子搭配這件衣服？」或任何你想詢問的問題

可以上傳什麼圖檔？

ChatGPT-4可以讀取 PNG （.png）、JPEG（.jpeg 和 .jpg）和非動畫 GIF （.gif）等檔案。每張圖片的大小限制為 20 MB。

您可以添加到對話中的圖像數量取決於多種因素，包括圖像的大小和隨附的文字量。作為一般準則，如果遇到問題，請考慮減小圖像數量或大小。

什麼是 ChatGPT 圖像識別/圖像輸入？

ChatGPT 圖像輸入當然不是第一個 AI 圖像識別程式。事實上，它們有著相當悠久的歷史。2010年（基本上是 AI 時間尺度上的石器時代），出現了 Google Goggles，一款圖像識別應用程式。儘管是遺物，但它具有一些令人印象深刻的功能：能夠識別和翻譯文本，並使用反向圖像搜索查找相似的圖像。

OpenAI 的最新產品具有讓人聯想到 Goggles 的功能，但採用了獨特的方法。不同之處在於 ChatGPT 現在如何解釋圖像的實際內容，而不是搜索網路並將其與已知圖像進行比較。具體來說，ChatGPT 會生成圖像的描述，並在搜索中使用該描述。

而且非常準確。

與任何新興技術一樣，期待不斷的增強。當前版本可能並不總是與引用或識別準確無誤，但它正在不斷發展。同時，請務必仔細檢查 ChatGPT 的參考資料。

ChatGPT 可以閱讀文本和數學解題

在文本識別方面，ChatGPT 顯示出令人印象深刻的結果，尤其是清晰、整齊的手寫文本或印刷文字。

試著翻譯看看！在我們的測試中，ChatGPT 的手寫法語閱讀還算過得去，但有趣的是，它在翻譯日語時將一瓶黑米醋誤認為是優質清酒——當你為晚宴帶禮物時，你不想犯這個錯誤！同時，當我們使用Google Lens時，它準確地翻譯了一個日語符號，ChatGPT告訴我它「太模糊」而無法閱讀。（試著用多種工具幫助你，不要只依賴其中一項！）

不過，這裡有一件很酷的事情：ChatGPT 可以識別書面數學公式，這比輸入它們要容易得多。但是解決它們呢？不是它的強項。它會嘗試，但不要把你的功課全都交給它——畢竟，它是一個預測引擎，只是試圖弄清楚接下來會發生什麼。

但你可能可以試試看讓 ChatGPT 成為你的家教！？

ChatGPT 影像搜索

現在 ChatGPT 使用 Bing 搜尋網路，您可以選擇檢索資訊：使用 ChatGPT 的內部“知識”，或使用來自網路的外部知識。ChatGPT 4 的預設設置是動態選擇最佳模型，因此它會為您決定是否應該搜索。

我發現，如果你詢問圖像中的特定元素，它傾向於搜索，但如果你問一個關於圖像內容的解釋性問題，它通常會嘗試根據其內部知識來回答。

但是，與其依賴它的決定，一個更好的習慣是明確要求它使用搜索，或者不使用搜索。

當我要求它從瓶子標籤的圖片中給我們某種梅酒的品酒筆記時，它能夠透過閱讀文本並通過 Bing 搜索來找到確切的梅酒。同時，當它運用其內部知識時，它向我描述了這款梅酒的風味特徵。

當 Bing 搜尋找到一個信譽良好的網站時，搜索功能很棒，但當它找到一個不太權威的網站時，搜索能力就很糟糕了。目前，您必須透過自己進行研究來仔細檢查 ChatGPT 的工作，以確保它不會從可疑來源挖掘虛假資訊或資訊。

ChatGPT 圖像分析

對我們來說，這就是 ChatGPT 圖像輸入可以做的真正內容：您可以分析圖像以查看它是否符合主題，或者它是否與某個角色產生共鳴。

為了測試它，我們請 ChatGPT 為我們選一個虛構的感情主題 podcast 的封面圖像，提供了 3 張圖片，並詢問哪個適合整體主題。它對所有 3 個都進行了評論，其中一項被評為不合適——我們同意這一評估。

它的分析可以說是非常合理且到位呢！

ChatGPT 網站切版

當 ChatGPT 可以讀輸入的圖像，你當然可以請它幫你切版網站視覺！

雖然成果還需要大幅修改（CSS 的部分），但主要架構都有出來，你也可以修改你的指令，讓它幫你調整，你甚至可以請它依照電腦版的樣式進階地幫你切版行動裝置的視覺。

在本文中，我們深入探討了如何有效運用 ChatGPT-4 的新圖像輸入功能，這一創新工具不僅擴展了我們與 AI 的互動方式，也為用戶提供了更豐富的溝通渠道。透過圖像輸入，用戶可以更直觀地傳達複雜的概念或問題，而 AI 則能夠解析這些視覺資訊，提供更精確、更有針對性的回應。無論是在學術研究、業務分析還是日常生活中，這一功能都預示著人工智能技術在理解和處理視覺資料方面邁出的重要步伐。鼓勵所有用戶嘗試這一功能，探索其在各自領域中的潛在應用，以便充分利用 AI 的強大能力，開創更多創新和效率的可能性。

ChatGPT, ChatGPT Plus

喜歡這篇文章嗎？

其他相關文章

學無止盡！再來看看其他教學文章吧！

OpenClaw 是什麼？解剖小龍蝦：讓 AI 從「動口」變「動手」的自動化全解析

2026-03-14
好介紹

覺得 AI 只能寫文章？這篇將帶你認識 OpenClaw，一個能讓 AI 像真人一樣操作電腦、點擊網頁的開源工具。我們參考李宏毅老師的教學，用白話解構 OpenClaw 的運作原理：從它如何獲得靈魂，到如何利用「心跳機制」自主運作。看完這篇，你會發現自動化處理雜事不再是工程師的專利，大幅降低你對新技術的學習焦慮。

生成的圖總是不對勁？認識 Nano Banana 2：讓 AI 繪圖變快又「聽話」的新幫手

2026-03-01
好教學

Google 推出全新的 Nano Banana 2（正式名稱 Gemini 3.1 Flash Image），將 Pro 等級的智慧與 Flash 的極速結合。本文將為你拆解這項技術如何解決 AI 繪圖中「不聽話」、「文字亂碼」與「角色不一致」的痛點。無論是 4K 高畫質需求還是即時網路資訊輔助，我們將帶你快速掌握這個讓創意秒速變現的新工具，降低你的學習門檻。

Gemini Gems 是什麼？簡單 3 步讓 Google AI 變身你的專屬高效團隊

2026-02-26
好教學

覺得 AI 每次回答都太官方、不夠懂你嗎？我們這篇要聊聊 Gemini Gems，這項功能讓你不用寫程式，就能把 AI 調教成最懂你的工作夥伴。從基礎設定到 3 個超實用的生活案例，陪你一起跨越學習門檻，把複雜的指令變成按一下就能用的自動化助手，讓 AI 真正為你的效率服務。