ChatGPT 重大更新！ChatGPT 現在可以看、聽、說話、生成圖像、提供最新資訊

ChatGPT

OpenAI 開始在 ChatGPT 中推出新的語音和圖像功能。它們提供了一種新的、更直觀的介面，可讓您進行語音對話或向 ChatGPT 展示您正在談論的內容。十月中旬，新功能將會陸續開放給 Plus 和 Enterprise 的用戶。

儘管 ChatGPT 已經證明了自己的智能，但迄今為止它仍然受到非常有限的輸入和輸出阻礙。你向它打字提問，它就會打字回答。文字輸入，文字輸出。

另一個限制是，它僅按照 2021 年 9 月之前所學的內容進行操作——已經過時了兩年，這使得它無法成為搜尋引擎尋找當前資訊的有用替代品。

但 OpenAI 一直在忙於工作，準備了一系列更新，透過這些更新，它一次向所有競爭對手發起了猛烈攻擊。

我們已經介紹了其更新的圖像生成器 Dall-E，該生成器正在合併到 ChatGPT 中，同時為 Midjourney 和開源 Stable Diffusion 等競爭對手提供明顯優越的功能。

從 10 月開始，您將能夠簡單地要求它隨意且幾乎即時地快速生成任何圖像。

結果發現，這只是一個新開始。

一張圖片勝過千言萬語

身為人類，我們知道親眼所見的事物比僅根據口頭描述想像要好得多。相反，試圖準確地描述某件事比簡單地展示它要乏味得多。

那時，人工智慧 (AI) 必須獲得與我們相同的感官，以便我們之間的溝通盡可能無縫和高效，這只是時間問題。

這一刻終於到來了，本週早些時候，OpenAI 宣佈到 10 月中旬，其旗艦產品將能夠看到、聽到和說話，從而改變我們與其互動的方式：

OpenAI：
「語音和圖像為您提供了在生活中使用 ChatGPT 的更多方式。在旅行時拍攝地標的照片，並即時討論其中的有趣之處。
當您回到家時，請拍下冰箱和食品儲藏室的照片，以了解晚餐吃什麼（並詢問後續問題以獲取逐步食譜）。晚餐後，透過拍照、圈出問題集並讓它與你們倆分享提示來幫助您的孩子解決數學問題。”

如果我們能夠量化它，我相信它可以稱為可用性的指數增長。忘記必須打字——展示、說出、拍照、提出問題並聆聽答案。

ChatGPT 正在演變成一個永遠存在的助手，你可以在旅途中尋求幫助。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

OpenAI 演示 ChatGPT 新功能。

影像理解由 GPT-3.5 和 GPT-4 提供支援。這些模型將其語言推理技能應用於各種圖像，例如照片、螢幕截圖以及包含文字和圖像的文件。

與 ChatGPT 交談並讓它回覆

您可以使用語音與助理進行來回對話。隨時隨地與它交談，為您的家人要求睡前故事，或解決餐桌上的爭論。

若要開始使用語音，請前往行動應用程式上的“設定”→“新功能”，然後選擇加入語音對話。然後，點擊主畫面右上角的耳機按鈕，從五種不同的聲音中選擇您喜歡的聲音。

新的語音功能由新的文字轉語音模型提供支持，能夠僅從文字和幾秒鐘的樣本語音中產生類似人類的音訊。OpenAI 與專業配音員合作創作了每一個聲音。OpenAI 也使用他們的開源語音辨識系統 Whisper 將您的口語轉錄為文字。

五種不同的聲音分別是：

Breeze（高音女聲）
Juniper（中音女聲）
Sky（低音女聲）
Ember（高音男聲）
Cove（低音男聲）

這次更新是否成為 Google 的終結？

好像一週的時間還不夠，OpenAI 還為大家帶來了一件大家都在引頸期盼的：ChatGPT 終於開始即時漫遊網路了。沒有更多的限制，你可以詢問任何事情，它會回答答案和來源連結。

ChatGPT can now browse the internet to provide you with current and authoritative information, complete with direct links to sources. It is no longer limited to data before September 2021. pic.twitter.com/pyj8a9HWkB
— OpenAI (@OpenAI) September 27, 2023

ChatGPT 不再局限於2021年9月之前的數據。

在與 Microsoft 合作（以及該公司對 OpenAI 的大量投資）之後，該功能建立在 Bing 之上，您需要在 ChatGPT 中啟用該功能才能獲得即時結果。

這對 Google 來說也是一個重大挑戰，Google 的 Bard 尚未以類似的方式起飛。

與智慧機器人相比，透過現有搜尋引擎進行的互動非常笨重。透過各種黑白帽 SEO 實踐，許多結果不管好壞都會得到提升，並且通常需要一些時間才能挖掘出真正要找的資訊（同時避免詐騙、垃圾郵件和惡意軟體）。

相比之下，聊天機器人可以在幾秒鐘內為您提供準確的答案，跳過所有不相關的噪音。它必將改變我們在網路上尋找資訊的方式，即使它不會完全消滅傳統搜尋引擎。

如果你想手動驗證看似智慧助理告訴你的任何內容的真實性，它們可能仍然是一個安全閥——但與當今的主流相比，它可能是一個邊緣、小眾的案例。

很快我們就意識到它對 Google 構成了生存威脅。Google 是地球上最大的科技公司之一，一直在全球網路搜尋領域享有事實上的壟斷地位，Google 也佔據了近 60 家搜尋引擎市場。其年收入的% 來自針對特定關鍵字的廣告。

即使Google能夠以某種方式在人工智慧聊天機器人的戰鬥中脫穎而出（目前看來不太可能），提供人工智慧答案的格式也無法在其旁邊放置許多廣告。

目前，搜尋結果頁面是數百個連結的列表，分佈在多個頁面（在桌面上）或長長的可滾動牆（在行動裝置上），其間放置了數十家公司的廣告。

但由於人工智慧機器人只是提供答案和/或指向特定來源，因此您無法提供與以前一樣多的廣告位，而不會讓用戶完全不知所措。

雖然看起來仍然可以從用戶專門詢問特定服務提供者（他們可以付費進行促銷）的查詢中獲取一些錢，但數百萬其他搜尋字詞的貨幣化可能變得極其困難。

這不僅會影響Google的搜尋收入，還會影響展示廣告，因為橫幅被放置在內容旁邊，但如果人們在 ChatGPT 等應用程式中獲得他們想要的內容，那麼消耗的內容就會少得多。

如果他們不瀏覽網站，他們就不會閱讀文章並點擊廣告，這對業主和 Google都會造成傷害。

這總共削弱了 Google 目前近 70% 的收入，而且該公司似乎沒有對此做出回應，仍在追趕 ChatGPT 的可用性。

OpenAI 的進展可能不會很快。畢竟，ChatGPT 3.5 推出已經快一年了，3 月推出的第四次迭代也只帶來了適度的改進，而這卻帶來了相對較高的價格和使用限制——但當它真正實現時，確實讓人心生畏懼。

ChatGPT

喜歡這篇文章嗎？

其他相關文章

學無止盡！再來看看其他教學文章吧！

OpenClaw 是什麼？解剖小龍蝦：讓 AI 從「動口」變「動手」的自動化全解析

2026-03-14
好介紹

覺得 AI 只能寫文章？這篇將帶你認識 OpenClaw，一個能讓 AI 像真人一樣操作電腦、點擊網頁的開源工具。我們參考李宏毅老師的教學，用白話解構 OpenClaw 的運作原理：從它如何獲得靈魂，到如何利用「心跳機制」自主運作。看完這篇，你會發現自動化處理雜事不再是工程師的專利，大幅降低你對新技術的學習焦慮。

生成的圖總是不對勁？認識 Nano Banana 2：讓 AI 繪圖變快又「聽話」的新幫手

2026-03-01
好教學

Google 推出全新的 Nano Banana 2（正式名稱 Gemini 3.1 Flash Image），將 Pro 等級的智慧與 Flash 的極速結合。本文將為你拆解這項技術如何解決 AI 繪圖中「不聽話」、「文字亂碼」與「角色不一致」的痛點。無論是 4K 高畫質需求還是即時網路資訊輔助，我們將帶你快速掌握這個讓創意秒速變現的新工具，降低你的學習門檻。

Gemini Gems 是什麼？簡單 3 步讓 Google AI 變身你的專屬高效團隊

2026-02-26
好教學

覺得 AI 每次回答都太官方、不夠懂你嗎？我們這篇要聊聊 Gemini Gems，這項功能讓你不用寫程式，就能把 AI 調教成最懂你的工作夥伴。從基礎設定到 3 個超實用的生活案例，陪你一起跨越學習門檻，把複雜的指令變成按一下就能用的自動化助手，讓 AI 真正為你的效率服務。