ChatGPT 重大更新!ChatGPT 現在可以看、聽、說話、生成圖像、提供最新資訊

OpenAI 開始在 ChatGPT 中推出新的語音和圖像功能。它們提供了一種新的、更直觀的介面,可讓您進行語音對話或向 ChatGPT 展示您正在談論的內容。十月中旬,新功能將會陸續開放給 Plus 和 Enterprise 的用戶。

儘管 ChatGPT 已經證明了自己的智能,但迄今為止它仍然受到非常有限的輸入和輸出阻礙。你向它打字提問,它就會打字回答。文字輸入,文字輸出。

另一個限制是,它僅按照 2021 年 9 月之前所學的內容進行操作——已經過時了兩年,這使得它無法成為搜尋引擎尋找當前資訊的有用替代品。

但 OpenAI 一直在忙於工作,準備了一系列更新,透過這些更新,它一次向所有競爭對手發起了猛烈攻擊。

我們已經介紹了其更新的圖像生成器 Dall-E,該生成器正在合併到 ChatGPT 中,同時為 Midjourney 和開源 Stable Diffusion 等競爭對手提供明顯優越的功能。

從 10 月開始,您將能夠簡單地要求它隨意且幾乎即時地快速生成任何圖像。

結果發現,這只是一個新開始。

一張圖片勝過千言萬語

身為人類,我們知道親眼所見的事物比僅根據口頭描述想像要好得多。相反,試圖準確地描述某件事比簡單地展示它要乏味得多。

那時,人工智慧 (AI) 必須獲得與我們相同的感官,以便我們之間的溝通盡可能無縫和高效,這只是時間問題。

這一刻終於到來了,本週早些時候,OpenAI 宣佈到 10 月中旬,其旗艦產品將能夠看到、聽到和說話,從而改變我們與其互動的方式:

OpenAI:

「語音和圖像為您提供了在生活中使用 ChatGPT 的更多方式。在旅行時拍攝地標的照片,並即時討論其中的有趣之處。
當您回到家時,請拍下冰箱和食品儲藏室的照片,以了解晚餐吃什麼(並詢問後續問題以獲取逐步食譜)。晚餐後,透過拍照、圈出問題集並讓它與你們倆分享提示來幫助您的孩子解決數學問題。”

如果我們能夠量化它,我相信它可以稱為可用性的指數增長。忘記必須打字——展示、說出、拍照、提出問題並聆聽答案。

ChatGPT 正在演變成一個永遠存在的助手,你可以在旅途中尋求幫助。

OpenAI 演示 ChatGPT 新功能。

影像理解由 GPT-3.5 和 GPT-4 提供支援。這些模型將其語言推理技能應用於各種圖像,例如照片、螢幕截圖以及包含文字和圖像的文件。

與 ChatGPT 交談並讓它回覆

您可以使用語音與助理進行來回對話。隨時隨地與它交談,為您的家人要求睡前故事,或解決餐桌上的爭論。

若要開始使用語音,請前往行動應用程式上的“設定”→“新功能”,然後選擇加入語音對話。然後,點擊主畫面右上角的耳機按鈕,從五種不同的聲音中選擇您喜歡的聲音。

新的語音功能由新的文字轉語音模型提供支持,能夠僅從文字和幾秒鐘的樣本語音中產生類似人類的音訊。OpenAI 與專業配音員合作創作了每一個聲音。OpenAI 也使用他們的開源語音辨識系統 Whisper 將您的口語轉錄為文字。

五種不同的聲音分別是:

  • Breeze(高音女聲)
  • Juniper(中音女聲)
  • Sky(低音女聲)
  • Ember(高音男聲)
  • Cove(低音男聲)

這次更新是否成為 Google 的終結?

好像一週的時間還不夠,OpenAI 還為大家帶來了一件大家都在引頸期盼的:ChatGPT 終於開始即時漫遊網路了。沒有更多的限制,你可以詢問任何事情,它會回答答案和來源連結。

ChatGPT 不再局限於2021年9月之前的數據。

在與 Microsoft 合作(以及該公司對 OpenAI 的大量投資)之後,該功能建立在 Bing 之上,您需要在 ChatGPT 中啟用該功能才能獲得即時結果。

這對 Google 來說也是一個重大挑戰,Google 的 Bard 尚未以類似的方式起飛

與智慧機器人相比,透過現有搜尋引擎進行的互動非常笨重。透過各種黑白帽 SEO 實踐,許多結果不管好壞都會得到提升,並且通常需要一些時間才能挖掘出真正要找的資訊(同時避免詐騙、垃圾郵件和惡意軟體)。

相比之下,聊天機器人可以在幾秒鐘內為您提供準確的答案,跳過所有不相關的噪音。它必將改變我們在網路上尋找資訊的方式,即使它不會完全消滅傳統搜尋引擎。

如果你想手動驗證看似智慧助理告訴你的任何內容的真實性,它們可能仍然是一個安全閥——但與當今的主流相比,它可能是一個邊緣、小眾的案例。

很快我們就意識到它對 Google 構成了生存威脅。Google 是地球上最大的科技公司之一,一直在全球網路搜尋領域享有事實上的壟斷地位,Google 也佔據了近 60 家搜尋引擎市場。其年收入的% 來自針對特定關鍵字的廣告。

圖片來源:Oberlo

即使Google能夠以某種方式在人工智慧聊天機器人的戰鬥中脫穎而出(目前看來不太可能),提供人工智慧答案的格式也無法在其旁邊放置許多廣告。

目前,搜尋結果頁面是數百個連結的列表,分佈在多個頁面(在桌面上)或長長的可滾動牆(在行動裝置上),其間放置了數十家公司的廣告。

但由於人工智慧機器人只是提供答案和/或指向特定來源,因此您無法提供與以前一樣多的廣告位,而不會讓用戶完全不知所措。

雖然看起來仍然可以從用戶專門詢問特定服務提供者(他們可以付費進行促銷)的查詢中獲取一些錢,但數百萬其他搜尋字詞的貨幣化可能變得極其困難。

這不僅會影響Google的搜尋收入,還會影響展示廣告,因為橫幅被放置在內容旁邊,但如果人們在 ChatGPT 等應用程式中獲得他們想要的內容,那麼消耗的內容就會少得多。

如果他們不瀏覽網站,他們就不會閱讀文章並點擊廣告,這對業主和 Google都 會造成傷害。

這總共削弱了 Google 目前近 70% 的收入,而且該公司似乎沒有對此做出回應,仍在追趕 ChatGPT 的可用性。

OpenAI 的進展可能不會很快。畢竟,ChatGPT 3.5 推出已經快一年了,3 月推出的第四次迭代也只帶來了適度的改進,而這卻帶來了相對較高的價格和使用限制——但當它真正實現時,確實讓人心生畏懼。

喜歡這篇文章嗎?

目錄

其他相關文章

學無止盡!再來看看其他教學文章吧!

MetaDemoLab 的 Animated Drawings 工具不僅操作簡單,而且能夠快速生成高質量的動畫。即使沒有任何動畫製作經驗,用戶也能夠輕鬆上手,讓你的手繪角色動起來!
擔心人工智慧的影響?了解什麼是AI 焦慮(AI anxiety),以及如何應對與人工智慧技術興起相關的恐懼和焦慮。
unspoken symphony 將視覺藝術轉化為音樂作品,為那些語言表達有困難的人提供了一種全新的溝通方式。這個平台利用先進的軟體分析藝術作品的形狀、顏色和紋理,並將這些視覺元素轉化為獨特的音樂旋律。每一段音樂都是對藝術品的獨特詮釋,使得視覺與聽覺的界限模糊,進而建立了一座連接不同感官體驗的橋樑。