OpenAI 公布最新影片生成 AI：Sora 驚動全世界！

OpenAI

OpenAI 於 2024 年 2 月 17 日公布了最新研發的影片生成 AI 模型「Sora」，並在 YouTube 上發布了一段展示影片。Sora 可以生成逼真的影片，並可以預測影片中的物體將如何移動和相互作用。

（本篇文章翻譯自 Video generation models as world simulators ）

Sora 的發布引起了全世界的關注。許多人認為，Sora 代表了影片生成技術的重大突破，並將對電影製作、遊戲開發、虛擬現實等領域產生重大影響。

OpenAI 表示正在教授人工智慧理解和模擬運動中的物理世界，目標是訓練模型來幫助人們解決需要現實世界互動的問題。並在官網上介紹了「Sora」，文字轉影片模型。Sora 可以產生長達一分鐘的影片，同時保持視覺品質並遵守用戶的提示。

目前，只有紅隊成員（錯誤訊息、仇恨內容和偏見等領域的領域專家）可以使用 Sora 來評估關鍵區域的危害或風險。OpenAI 還提供一些視覺藝術家、設計師和電影製作人訪問權限，希望能夠獲取對創意專業人士最有幫助的反饋，以及改進該模型。

Sora 能夠產生具有多個角色、特定類型的運動以及主體和背景的準確細節的複雜場景。該模型不僅了解使用者在提示中提出的要求，還了解這些東西在物理世界中的存在方式。

看到 OpenAI 公布的 Sora 生成的影片，真的驚嘆連連！影像真的非常逼真，大家可以到 Sora 介紹文章去看看實例影片：Sora。

Sora是怎麼運作的？

OpenAI 指出，Sora 是一個「擴散型轉換器模型」，可以將各種類型的視覺數據轉換成統一展現的形式。

它的工作原理可以簡單概括為以下三個步驟：

將影片轉換為模型可以理解的格式

Sora 使用一種稱為「擴散模型」的技術來生成影片，擴散模型的工作原理是首先將一個隨機的噪聲圖像轉換為一個真實的圖像。在 Sora 的情況下，噪聲圖像是一個隨機的影片片段。

為了將影片轉換為擴散模型可以理解的格式，Sora 首先將影片壓縮成較小的尺寸。這使得模型更容易處理影片。然後，Sora 將影片切成小塊，稱為「補丁」，這些補丁是模型訓練的基礎單元。

訓練模型預測影片的下一幀

在訓練過程中，Sora 會給模型一個隨機的影片片段。然後，模型會被要求預測下一幀應該是什麼樣子，模型會使用其對世界和物理定律的知識來生成一個預測。

Sora 使用一種稱為「監督學習」的技術來訓練模型。在監督學習中，模型會被給予一組輸入數據和輸出數據。然後，模型會被要求學習輸入數據和輸出數據之間的關係。在 Sora 的情況下，輸入數據是影片片段，輸出數據是下一幀。

模型會重複預測下一幀的過程，直到它能夠準確預測影片的下一幀，這可能需要數百萬甚至數十億次的迭代。

訓練過程中具有固定種子和輸入的影片樣本的比較，隨著訓練計算的增加，樣本品質顯著提高。（圖片來源：OpenAI 官網）

生成新的影片

透過不斷預測下一幀，Sora 能有效排列補丁、建立關聯性，進而將文字、圖片生成具高度連貫性和細節豐富的影音，進而根據指令生成高質量的影片。

具體來說，Sora 模型使用了擴散模型和轉換器架構這兩種技術。擴散模型可以將一個隨機的噪聲圖像逐漸轉換為一個真實的圖像，轉換器架構可以有效處理序列數據，例如影片。

Sora 模型可以生成不同風格的影片，例如卡通、寫實、科幻等，它可以用於電影、電視、遊戲等領域。

以下是一個簡單的比喻：

Sora 模型就像一個學徒，它透過觀察大量的影片來學習如何製作影片。在學習了足夠多的知識之後，學徒就可以自己製作新的影片了。

實際上 Sora 可以？

更靈活的取樣

Sora 可以取樣寬螢幕 1920x1080p 影片、垂直 1080×1920 影片以及介於兩者之間的所有影片。這使得 Sora 可以直接以其原生寬高比為不同裝置創建內容，並可以改善生成影片的構圖和取景。它還使我們能夠在以全解析度生成之前快速以較低尺寸製作原型內容 – 所有這些都使用相同的模型。

語言的理解

訓練文字到影片產生系統需要大量帶有相應文字字幕的影片，OpenAI 應用了 DALL·E 3 中引入的重新字幕技術到影片。與 DALL·E 3 類似，OpenAI 利用 GPT 將簡短的指令轉換為較長的詳細字幕，然後傳送到視訊模型，這使得 Sora 能夠產生準確遵循用戶指令的高品質影片。

擴展生成的影片

Sora 還能夠在時間上向前或向後擴展影片，可以使用此方法向前和向後擴展視訊以產生無縫的無限循環。

輸入影片並修改它

擴散模型啟用了多種根據文字提示編輯圖像和影片的方法， Sora 能夠零鏡頭地改變輸入影片的風格和環境。

連接兩個影片

還可以使用 Sora 在兩個輸入影片之間逐漸進行插值，從而在具有完全不同主題和場景構成的影片之間創建無縫過渡。在下面的範例中，中心的視訊插值在左側和右側的相應視訊之間。

影像生成能力

Sora 也能夠生成圖像，透過在時間範圍為一幀的空間網格中排列高斯噪聲塊來實現這一點。此模型可產生各種尺寸的影像，解析度高達 2048×2048。

模擬功能

OpenAI 發現，當大規模訓練影片模型時，這些模型會展現出一系列有趣的新能力。這些能力讓Sora能夠模擬出一些來自現實世界中人、動物和環境的某些方面。這些特性並不需要對3D、物體等有明確的歸納偏見，它們純粹是規模效應所帶來的現象。

3D 一致性。Sora 可以產生具有動態攝影機運動的影片，隨著攝影機的移動和旋轉，人和場景元素在三維空間中一致移動。

長期連貫性和物體持續性。對於生成長時間影片的系統而言，一個重要的挑戰是在採樣長影片時保持時間上的一致性。Sora 通常能夠有效地建模短期和長期的相依性，儘管並非總是如此。例如，Sora 能夠持續追蹤人物、動物和物體，即使它們被遮擋或離開了畫面。同樣地，它能夠在單一樣本中生成同一個角色的多個鏡頭，並在整個影片中保持其外觀不變。