如何運用 ChatGPT-4 新的圖像輸入功能?

ChatGPT 推出新的圖像輸入功能,它可讓您分析圖像、識別物件、閱讀文本並獲得反饋。一起來看看可以如何運用這個新功能!

有一個新的 ChatGPT 更新,使您可以使用聊天機器人執行的操作成倍增加:由於 ChatGPT 圖像輸入,AI 現在可以分析圖像。

這並不像聽起來那麼簡單。當然,它可以識別圖像中的內容,但它也可以從圖像中讀取文本和數學,搜索或找出圖像中的內容,並提供有關圖像的反饋。在單個功能中,這是很多可能性。

如何將圖片上傳到 ChatGPT-4?

輸入圖像供 ChatGPT 分析的過程非常簡單,只需在聊天框(在桌面或行動裝置上)中,點選迴紋針圖示。

接下來,選擇檔案,然後添加指令,從「描述這張圖片」或「我應該穿什麼顏色的鞋子搭配這件衣服?」或任何你想詢問的問題

可以上傳什麼圖檔?

ChatGPT-4可以讀取 PNG (.png)、JPEG(.jpeg 和 .jpg)和非動畫 GIF (.gif)等檔案。每張圖片的大小限制為 20 MB。

您可以添加到對話中的圖像數量取決於多種因素,包括圖像的大小和隨附的文字量。作為一般準則,如果遇到問題,請考慮減小圖像數量或大小。

什麼是 ChatGPT 圖像識別/圖像輸入?

ChatGPT 圖像輸入當然不是第一個 AI 圖像識別程式。事實上,它們有著相當悠久的歷史。2010年(基本上是 AI 時間尺度上的石器時代),出現了 Google Goggles,一款圖像識別應用程式。儘管是遺物,但它具有一些令人印象深刻的功能:能夠識別和翻譯文本,並使用反向圖像搜索查找相似的圖像。

OpenAI 的最新產品具有讓人聯想到 Goggles 的功能,但採用了獨特的方法。不同之處在於 ChatGPT 現在如何解釋圖像的實際內容,而不是搜索網路並將其與已知圖像進行比較。具體來說,ChatGPT 會生成圖像的描述,並在搜索中使用該描述。

而且非常準確。

ChatGPT 甚至可以讀懂照片中的文字。

與任何新興技術一樣,期待不斷的增強。當前版本可能並不總是與引用或識別準確無誤,但它正在不斷發展。同時,請務必仔細檢查 ChatGPT 的參考資料。

ChatGPT 可以閱讀文本和數學解題

在文本識別方面,ChatGPT 顯示出令人印象深刻的結果,尤其是清晰、整齊的手寫文本或印刷文字。

試著翻譯看看!在我們的測試中,ChatGPT 的手寫法語閱讀還算過得去,但有趣的是,它在翻譯日語時將一瓶黑米醋誤認為是優質清酒——當你為晚宴帶禮物時,你不想犯這個錯誤!同時,當我們使用Google Lens時,它準確地翻譯了一個日語符號,ChatGPT告訴我它「太模糊」而無法閱讀。(試著用多種工具幫助你,不要只依賴其中一項!)

不過,這裡有一件很酷的事情:ChatGPT 可以識別書面數學公式,這比輸入它們要容易得多。但是解決它們呢?不是它的強項。它會嘗試,但不要把你的功課全都交給它——畢竟,它是一個預測引擎,只是試圖弄清楚接下來會發生什麼。

但你可能可以試試看讓 ChatGPT 成為你的家教!?

 ChatGPT 影像搜索

現在 ChatGPT 使用 Bing 搜尋網路,您可以選擇檢索資訊:使用 ChatGPT 的內部“知識”,或使用來自網路的外部知識。ChatGPT 4 的預設設置是動態選擇最佳模型,因此它會為您決定是否應該搜索。

我發現,如果你詢問圖像中的特定元素,它傾向於搜索,但如果你問一個關於圖像內容的解釋性問題,它通常會嘗試根據其內部知識來回答。

但是,與其依賴它的決定,一個更好的習慣是明確要求它使用搜索,或者不使用搜索。

當我要求它從瓶子標籤的圖片中給我們某種梅酒的品酒筆記時,它能夠透過閱讀文本並通過 Bing 搜索來找到確切的梅酒。同時,當它運用其內部知識時,它向我描述了這款梅酒的風味特徵。

當 Bing 搜尋找到一個信譽良好的網站時,搜索功能很棒,但當它找到一個不太權威的網站時,搜索能力就很糟糕了。 目前,您必須透過自己進行研究來仔細檢查 ChatGPT 的工作,以確保它不會從可疑來源挖掘虛假資訊或資訊。

ChatGPT 圖像分析

對我們來說,這就是 ChatGPT 圖像輸入可以做的真正內容:您可以分析圖像以查看它是否符合主題,或者它是否與某個角色產生共鳴。

為了測試它,我們請 ChatGPT 為我們選一個虛構的感情主題 podcast 的封面圖像,提供了 3 張圖片,並詢問哪個適合整體主題。它對所有 3 個都進行了評論,其中一項被評為不合適——我們同意這一評估。

它的分析可以說是非常合理且到位呢!

ChatGPT 網站切版

當 ChatGPT 可以讀輸入的圖像,你當然可以請它幫你切版網站視覺!

雖然成果還需要大幅修改(CSS 的部分),但主要架構都有出來,你也可以修改你的指令,讓它幫你調整,你甚至可以請它依照電腦版的樣式進階地幫你切版行動裝置的視覺。

在本文中,我們深入探討了如何有效運用 ChatGPT-4 的新圖像輸入功能,這一創新工具不僅擴展了我們與 AI 的互動方式,也為用戶提供了更豐富的溝通渠道。透過圖像輸入,用戶可以更直觀地傳達複雜的概念或問題,而 AI 則能夠解析這些視覺資訊,提供更精確、更有針對性的回應。無論是在學術研究、業務分析還是日常生活中,這一功能都預示著人工智能技術在理解和處理視覺資料方面邁出的重要步伐。鼓勵所有用戶嘗試這一功能,探索其在各自領域中的潛在應用,以便充分利用 AI 的強大能力,開創更多創新和效率的可能性。

喜歡這篇文章嗎?

目錄

其他相關文章

學無止盡!再來看看其他教學文章吧!

本文介紹如何在 Tensor.Art 平台上使用 ControlNet 功能,專注於線稿相關模型的應用。文章詳細說明了操作步驟,幫助用戶充分利用 ControlNet 進行線稿創作。此外,還提供了實用的技巧和建議,以提升創作效果。
本文詳述如何在 Tensor.Art 平台上使用 ControlNet 功能,特別針對 OpenPose 和 Reference 模型的應用。文章提供了詳細的操作步驟,幫助用戶有效利用這些模型進行創作。此外,還分享了提升創作效果的實用技巧與建議。
GPT-4o 是 OpenAI 於春季發表會公佈的最新的旗艦型號,它提供 GPT-4 級別的智慧,但速度更快,並改進了其在文本、語音和視覺方面的能力,並且從現在開始可以免費使用!