為什麼 AI 拼寫如此糟糕?正確的 AI 拼寫尚須努力

因為圖像產生器實際上並沒有讀取文字!AI 看似勢不可擋,但它無法拼寫”burrito”(墨西哥卷餅)。讓我們來看看 AI 拼寫的相關問題。

(*本文翻譯自:Why is AI so bad at spelling? Because image generators aren’t actually reading text

上一篇文章介紹了目前生成文字圖像最厲害的繪圖 AI :如何使用 Ideogram 最厲害的生成文字繪圖 AI?

今天讓我們來探討為什麼 AI 拼寫會表現地如此糟糕?

容易出錯的 AI 拼寫

圖片來源: Adobe Firefly

人工智慧很容易在 SAT 考試中取得好成績,擊敗國際象棋大師,並修改代碼,就像它什麼都會一樣。但是,在拼寫比賽中讓一個 AI 與一些中學生對抗,它會很快地被擊倒。

儘管我們在 AI 方面看到了所有進步,但它仍然無法拼寫。如果您要求像 DALL-E 這樣文字到圖像生成器為墨西哥餐廳生成菜單,您可能會在其他胡言亂語中發現一些開胃的食物,例如“taao”、“burto”和“enchida”。

雖然 ChatGPT 也許可以為你寫論文,但當你指示它想出一個沒有字母 “A” 或“ E” 的 10 個字母的單詞時,它很無能(它告訴我們,”balaclava”)。

圖片來源:Microsoft Designer (DALL-E 3)

圖像生成器和文本生成器的拼寫都有困難

「圖像生成器往往在汽車和人臉等人工製品上表現得更好,而在手指和手寫等較小的東西上則不那麼好,」Lesan 的聯合創始人、DAIR 研究所的研究員 Asmelash Teka Hadgu 說。

圖像生成器和文本生成器背後的底層技術是不同的,但這兩種模型在拼寫等細節方面都有類似的困難。圖像生成器通常使用擴散模型,從雜訊中重建圖像。當涉及到文本生成器時,大型語言模型(LLMs)可能看起來像是像人腦一樣閱讀和回應你的指令,但它們實際上是在使用複雜的數學來匹配提示的模式與潛在空間中的指令模式,讓它透過答案繼續模式。

「擴散模型是用於圖像生成的最新演算法,正在重建給定的輸入,」Hagdu 告訴 TechCrunch。「我們可以假設圖像上的文字是一個非常非常小的部分,因此圖像生成器會學習覆蓋更多這些圖元的模式。」

這些演算法被激勵去重新創造一些看起來像它在訓練數據中看到的東西,但它本身並不知道我們認為理所當然的規則—— “hello” 不是拼寫為 “heeelllooo”,人類的手通常有五個手指。

「就在去年,所有這些模型的手指都非常糟糕,這與文本完全相同,」阿爾伯塔大學(University of Alberta)的人工智慧研究員兼助理教授 Matthew Guzdial 說。「他們好像變得越來越擅長,所以如果你看到一隻手上有六七個手指,你可能會說,’哦,哇,這看起來像一根手指。同樣,對於生成的文本,你可以說,它看起來像一個『H』,看起來像一個『P』,但他們真的不擅長將這些整體結構在一起。」

工程師可以透過使用專門設計的訓練模型來增強他們的數據集來改善這些問題,這些模型專門用於教人工智慧手應該是什麼樣子,但專家們預計這些拼寫問題不會很快得到解決。

圖片來源: Adobe Firefly

「你可以想像做類似的事情——如果我們只是創建一大堆文本,他們可以訓練一個模型來嘗試識別什麼是好的,什麼是壞的,這可能會改善一些事情。但不幸的是,英語真的很複雜,」Guzdial 告訴 TechCrunch。當你考慮到人工智慧必須學習使用多少種不同的語言時,這個問題變得更加複雜。

一些模型,如 Adobe Firefly,被教導根本不生成文本。如果你輸入一些簡單的東西,比如「餐廳的功能表」或「帶有廣告的看板」,你會得到一張桌子上的一張白紙,或者高速公路上的一個白色看板。但是,如果您在指令中輸入了足夠的細節,則這些錯誤很容易繞過。

「你可以把它想像成他們在玩打地鼠,比如,’好吧,很多人都在抱怨我們的手 – 我們將在下一個模型中添加一個新東西,只是解決手的問題,’等等,」Guzdial 說。「但文字要難得多,正因為如此,即使是 ChatGPT 也無法真正拼寫。」

利用 ChatGPT 進行 ASCII 藝術測試

在 Reddit、YouTube 和 X 上,一些人上傳了影片,展示了 ChatGPT 在 ASCII 藝術中的拼寫失敗,ASCII 藝術是一種早期的網路藝術形式,使用文本字元創建圖像。在最近的一段名為「提示工程英雄之旅」的影片中,有人煞費苦心地試圖引導 ChatGPT 創建寫著 “本田”的 ASCII 藝術。他們最終成功了,但並非沒有考驗和磨難。

「我的一個假設是,他們在培訓中沒有很多 ASCII 藝術,」Hagdu 說。「這是最簡單的解釋。」

但從本質上講,LLMs就是不明白字母是什麼,即使他們可以在幾秒鐘內寫出十四行詩。

「LLMs 是基於這種 transformer 架構的,值得注意的是,它實際上並不是在讀取文本。當你輸入提示時,它會被翻譯成編碼,」Guzdial 說。「當它看到 ‘THE’ 這個詞時,它對 ‘THE’ 的含義進行了編碼,但它不知道 ‘T’、’H’、’E’。」

這就是為什麼當你要求 ChatGPT 生成一個沒有 “O” 或 “S” 的八個字母的單詞清單時,大約有一半的時間是不正確的。它實際上並不知道 “O” 或 “S” 是什麼(儘管它可能會引用這封信的維基百科歷史)。

繪圖 AI 的小錯誤你有注意到嗎?

儘管這些糟糕的餐廳菜單的 DALL-E 圖像很有趣,但 AI 的缺點在識別錯誤資訊時很有用。當我們試圖查看可疑圖像是真實的還是 AI 生成的時,我們可以透過查看路牌、帶有文字的 T 恤、書頁或任何可能的圖像合成來源的隨機字母來學到很多東西。在這些模型更好地製作手之前,第六根(或第七根或第八根)手指也可能是「贈品」。

但是,Guzdial 說,如果我們看得足夠近,AI 出錯的不僅僅是手指和拼寫。

「這些模型一直在製造這些小的局部問題 – 只是我們特別善於識別其中的一些,」他說。

圖片來源: Adobe Firefly

例如,對於普通人來說,AI 生成的音樂商店圖像很容易令人信服。但是對音樂有一點瞭解的人可能會看到相同的圖像,並注意到一些吉他有七根弦,或者鋼琴上的黑白鍵間隔不正確。

儘管這些 AI 模型正在以驚人的速度改進,但這些工具仍然必然會遇到這樣的問題,這限制了技術的能力。

「這是具體的進展,毫無疑問,」Hagdu 說。「但這項技術得到的那種炒作簡直是瘋狂的。」

喜歡這篇文章嗎?

目錄

其他相關文章

學無止盡!再來看看其他教學文章吧!

Google 推出全新的 Nano Banana 2(正式名稱 Gemini 3.1 Flash Image),將 Pro 等級的智慧與 Flash 的極速結合。本文將為你拆解這項技術如何解決 AI 繪圖中「不聽話」、「文字亂碼」與「角色不一致」的痛點。無論是 4K 高畫質需求還是即時網路資訊輔助,我們將帶你快速掌握這個讓創意秒速變現的新工具,降低你的學習門檻。
覺得 AI 每次回答都太官方、不夠懂你嗎?我們這篇要聊聊 Gemini Gems,這項功能讓你不用寫程式,就能把 AI 調教成最懂你的工作夥伴。從基礎設定到 3 個超實用的生活案例,陪你一起跨越學習門檻,把複雜的指令變成按一下就能用的自動化助手,讓 AI 真正為你的效率服務。
覺得 n8n 介面複雜、不知道怎麼開始?這篇文章不聊深奧的技術,而是從你每天都會遇到的瑣事出發,帶你理解「自動化思維」。透過 3 個實用的自動化範例,你會發現不必寫程式,也能讓 n8n 幫你處理重複性工作。讓 AI 陪你把時間留給更重要的事。