The next entry point for superintelligence: Google, Meta, NVIDIA... Tech giants are all doubling down on "world models"

AI 巨頭如谷歌 DeepMind、Meta 和英偉達正將研發重點轉向 “世界模型”，以期在通往機器 “超級智能” 的競賽中領先一步。“世界模型” 通過學習視頻和機器人數據來理解物理世界，應用前景廣闊。英偉達高管表示，潛在市場規模可高達 100 萬億美元，覆蓋自動駕駛、機器人和製造業等領域。

隨着大語言模型技術進步放緩，一場圍繞 “世界模型” 的全新 AI 競賽正在科技巨頭之間悄然展開。這一趨勢標誌着 AI 領域競爭焦點可能正從語言領域轉向對物理世界的理解和模擬。

據英國《金融時報》9 月 29 日報道，谷歌 DeepMind、Meta 和英偉達等公司正試圖通過開發一種新型系統來取得領先。這些系統不再僅僅依賴語言文字，而是通過學習視頻和機器人數據來理解並駕馭物理世界。

“世界模型” 的潛在市場被認為極其龐大。英偉達 Omniverse 與仿真技術副總裁 Rev Lebaredian 表示，“世界模型” 將技術帶入製造、醫療等實體領域，其潛在市場規模可能 “高達 100 萬億美元”。

“世界模型” 被視為推動自動駕駛、機器人和所謂 “AI 代理” 取得進展的關鍵一步，但其訓練同時也面臨巨大的數據和算力挑戰。

模擬物理世界：最新技術突破

近幾個月，多家 AI 公司相繼發佈了在 “世界模型” 領域的進展，凸顯了這一賽道的升温。

谷歌 DeepMind上月發佈了 Genie 3，該模型能逐幀生成視頻並考慮過去的交互，改變了傳統模型一次性生成整個視頻的方式。Genie 3 項目聯席負責人 Shlomi Fruchter 表示，通過構建模擬真實世界的環境，可以用更具擴展性的方式訓練 AI，且 “無需承擔在現實世界中犯錯的後果”。

Meta則試圖模仿兒童通過觀察世界進行被動學習的方式，用原始視頻內容訓練其 V-JEPA 模型。由 Meta 首席 AI 科學家 Yann LeCun 領導的 Facebook 人工智能研究實驗室（FAIR）已在 6 月發佈了該模型的第二版，並開始在機器人上進行測試。

與此同時，芯片巨頭英偉達的首席執行官黃仁勳斷言，公司的下一個主要增長階段將來自 “物理 AI”，這些新模型將徹底改變機器人領域。英偉達正利用其 Omniverse 平台創建和運行此類仿真，以支持其向機器人領域的擴張。

“世界模型” 的近期應用之一是在娛樂行業。由 AI 先驅 Fei-Fei Li 創立的初創公司World Labs正在開發一種模型，可以從單張圖片生成類似視頻遊戲的 3D 環境。

視頻生成初創公司Runway也於上月推出了一款利用 “世界模型” 創建遊戲場景的產品。其首席執行官 Cristóbal Valenzuela 指出，與以往模型相比，“世界模型” 系統能更好地理解和推理場景中的物理規律。

巨頭為何押注新賽道？

科技巨頭之所以將目光投向 “世界模型”，一個核心驅動力在於業界普遍認為大語言模型正觸及其能力天花板。

儘管各大公司投入巨資，但 OpenAI、谷歌和馬斯克的 xAI 等機構發佈的新一代 LLM 在性能上的飛躍已開始放緩。

Meta 首席 AI 科學家、被譽為現代 AI“教父” 之一的 Yann LeCun 一直警告稱，LLM 永遠無法實現人類那樣的推理和規劃能力。

然而，構建這些模型需要收集海量的物理世界數據和算力，這目前仍是一項未被攻克的重大技術挑戰。不過，英偉達和 Niantic 等公司在嘗試通過模型生成或預測環境來填補數據空白。

儘管前景廣闊，但通往成熟的 “世界模型” 之路依然漫長。Meta 的 LeCun 等人認為，實現由新一代 AI 系統驅動、具備人類水平智能的機器可能還需要十年時間。