AI video generation "covert battle" is gaining momentum

華爾街見聞
2025.09.28 13:55
portai
I'm PortAI, I can summarize articles.

用户付費在大語言模型中尚未跑通,但正悄然在 AI 視頻生成賽道中生根發芽。

今年 6 月,AI 視頻生成初創公司 Runway 的年化營收超過 9000 萬美元(約合人民幣 6.4 億元);同年第二季度,快手(1024.HK)旗下的 AI 視頻生成應用 “可靈” 創收超過 2.5 億元。

國內初創公司紛紛湧上牌桌。

北京生數科技有限公司(下稱 “生數科技”)的 “Vidu”、北京愛詩科技有限公司(下稱 “愛詩科技”)的 “拍我” 用户數均已突破千萬;作為 “杭州 AI 六小龍” 首個 IPO,Manycore Tech Inc.(下稱 “羣核科技”)年內亦計劃發佈針對 C 端消費者的 AI 視頻生成產品。

市場對於 AI 視頻的商業化前景不僅是侷限於個人創作者生成一段短視頻,還有影視創作、具身智能等更多領域。

但由於空間一致性、內容拼接的崩壞等問題的存在,亦讓 AI 視頻生成模型陷入 “賣家秀” 和 “買家秀” 的爭議中。

儘管屬於 AI 視頻生成行業的 DeepSeek 時刻尚未到來,但在各家大廠的加碼下,市場有理由相信未來的發展路徑會愈發清晰。

拼時長

2024 年 2 月,OpenAI 推出了 Sora 1.0,較此前 Runway 只能生成 3-4 秒的視頻來説實現了突破性的進展,成為全球首個支持生成長達 60 秒的 AI 視頻生成模型。

此後國產模型也逐漸對此實現追趕。

目前國內既有字節、快手、百度等互聯網大廠,也有生數科技、愛詩科技等初創公司正在探索 AI 視頻生成應用領域。

南方一家科技公司產品經理告訴信風,今年以來 AI 視頻生成領域最大的變化主要體現在時長,即可以通過 AI 生成更長的視頻。

雖然當前 AI 視頻生成模型公司一次生成的視頻時長基本在 5 秒-10 秒,但通過一個個鏡頭的生成已經可以組合形成一段連貫的視頻。

影視行業便是第一批嚐鮮者。

今年 8 月上線的 50 集動漫短劇《明日週一》,便是通過生數科技的 Vidu AI 視頻模型生成。

實操方面,《明日週一》製作團隊採取原畫師手繪核心角色設定,再通過 Vidu 的圖生視頻及參考生功能進行動畫延展。

生數科技告訴信風,《明日週一》80% 左右內容由 Vidu Q1 的圖生視頻功能和參考生視頻生成,深度貫穿了從美術設定到動畫成片的多個核心環節。這也使得不到 10 人的製作團隊 45 天內就完成了《明日週一》第一季 50 集的所有內容製作,平均不到一天產出 1 集,而傳統 2 分鐘漫劇製作週期長達一週,製作效率提升至少 7 倍。

快手旗下的 “可靈” 重要場景之一亦是影視製作。

據快手管理層在業績電話會透露,目前 “可靈” 客户羣體涵蓋了包括專業人士在內的大眾創作者、電商及廣告行業從業者和影視製作工作室等。

長度的限制仍在被進一步打破。

日前,百度對旗下 AI 視頻生成模型 “百度蒸汽機” 進行升級,支持用户生成無限長度的 AI 視頻,一舉打破了此前 AI 僅能生成 5-10 秒短視頻,或依賴首尾幀控制續寫時長的侷限。

使用中,用户只需輸入圖像和提示詞,就能生成任意時長的視頻。

前述南方科技公司產品經理認為,視頻時長的突破背後不只是 “堆算力” 帶來的結果,更關鍵的動力源自算法的優化和數據量的增加。

據百度介紹,長視頻生成技術方案上主要引入自迴歸擴散模型,結合自迴歸的長序列能力和擴散一致性強的優勢,能夠準確生成符合世界物理規律且高一致性的長視頻。

信風參與百度蒸汽機的內測,以人物作為首圖和 “1-5s 鏡頭跟隨,⼈物快速向⾛。6-10s 鏡頭跟隨,⼈物向前⾛向樓梯。11-15s ⼈物向前⾛,鏡頭跟隨,右搖。16-20s ⼈物向前⾛,鏡頭跟隨,右搖,環繞到⼈物正⾯。” 為提示詞結合的方式,生成了一段 20 秒的短視頻。(見「百度蒸汽機」AI 視頻⽣成模型)

在視頻中可以看到,雖然人物表情變化銜接宛如換了一張臉,且物體出現憑空消失的情況,但人物運動軌跡自然,背景也沒有出現崩壞的情況。

價格戰硝煙

儘管國內的大語言模型尚未能走通向 C 端用户收費的路徑,但 AI 視頻生成模型公司已經在探索商業化模式。

從收費情況來看,各家差異較大。

僅以標準版為例,可靈、生數科技的 Vidu 分別為 66 元、59 元;愛詩科技的拍我、字節跳動的即夢則均為 79 元。

不過 Vidu、即夢屬於 “加量不加價 “,分別可生成 200 個/月、216 個/月的視頻。相比之下,可靈、拍我則只能生成數十個視頻。

各家的商業化均已取得一定的成果。

目前快手是為數不多披露 AI 視頻生成應用商業化成果的大廠,2025 年第二季度 “可靈” 的收入已超 2.5 億元。

初創公司方面,生數科技的 Vidu 上線 8 個月年化經常性收入(ARR)突破 2000 萬美元(摺合人民幣 1.4 億元);愛詩科技的拍我則稱訂閲收入已經覆蓋成本。

不過大廠之間為了吸引專業創作者使用,已經悄然打起了價格戰。

據百度透露,百度蒸汽機已經在搜索、營銷等多個場景落地應用,且定價低至行業 70%;日前,可靈推出 2.5 Turbo 模型時,核心賣點之一便是 “相比 2.1 模型同檔位便宜近 30%,性價比方面優勢更加凸顯。”

價格戰的另一面,是不少公司在躍躍欲試。

信風獲悉,正在衝刺港交所 IPO 的羣核科技亦在研發一款基於 3D 技術的 AI 視頻生成產品,有望在年內發佈。

羣核科技內部人士向信風透露,該 AI 視頻生成產品未來將面向 C 端用户開放。

羣核科技的重要優勢在於,龐大且物理正確的室內空間數據集。

“我們在開發(家裝設計軟件酷家樂等)工具的過程當中,積累了海量的數據,這些海量數據與 AI 直接生成的三維模型不一樣,包括有物理正確可交互的模型,材質也都是物理正確的,表面的物理系數都有,裏邊有結構化的信息,也就有結構化標註。” 羣核科技董事長黃曉煌指出。

今年 8 月,羣核科技的數據集 InteriorGS 還曾一度登上全球最大 AI 開源社區 Hugging Face 趨勢榜的榜首,成為全球首個適用於智能體自由運動的大規模 3D 數據集。

這或許都給不少公司帶來更多壓力,要求各方進一步拓寬商業化邊界。

目前市場對該行業的想象空間並不止於影視廣告行業,還有機器人訓練等場景。

一直以來,機器人訓練面臨訓練數據的稀缺性、場景覆蓋侷限性、採集成本高等痛點,但 AI 視頻生成應用可以為機器人提供虛擬場景進行訓練,進而更好地瞭解真實世界的運行規律。

部分機器人公司正在自研算法。例如今年 3 月具機器人公司逐際動力發佈的具身智能操作算法 LimX VGM,正是利用視頻生成技術推動具身大腦突破。

一名參與該項目人士向信風坦承,受限於數據量的問題,目前視頻生成大模型的泛化程度有限。

但該人士持樂觀態度,頗為看好 AI 視頻生成模型用於機器人虛擬環境訓練的行業趨勢。

此前業績會上,快手管理層則表示計劃擴大 “可靈” 在遊戲製作、專業電影以及視覺製作中的應用。

買家秀 VS 賣家秀

儘管當前各家 AI 視頻生成公司均表示提升了空間一致性,但信風實測來看主體運動過程中臉部表情崩壞、背景出現清晰模糊交織的問題層出不窮。

以拍我為例,信風使用圖生視頻的方式生成了一段人物跳舞的短視頻,但出現人物表情變形、物體憑空消失等問題。(見「拍我」AI 視頻模型⽣成)

杭州一位行業人士告訴信風,複雜運動場景下偶現的面部細節與背景一致性問題,是行業共同面臨的技術挑戰,核心難點在於模型對長時序運動軌跡與多尺度語義連貫性的精準建模。

羣核科技產品經理龍天澤認為這與訓練的數據來源有關。

“核心在於現在的 AI 視頻算法是基於 2D 圖像序列去學習,所以不可能真正理解 3D 空間和規則,它學會了如何讓上一幀圖像在視覺上變的更像下一幀圖像,但是它並不理解真正的 3D 空間關係,不理解所謂的物理世界運行的基本邏輯。” 龍天澤指出。

目前各方主要從優化算法、構建數據集的角度解決空間一致性問題。

生數科技告訴信風,目前主要通過三大路徑進行優化:一是基於自研 U-ViT 架構的時空聯合注意力機制優化,增強模型對主體運動軌跡與背景關聯性的預測能力;二是構建超大規模高質量視頻訓練數據集,針對性強化複雜運動模式的語義理解;三是引入動態遮罩與一致性補償算法,在後期生成環節實時修復幀間異常。

“目前我們的參考生視頻功能已實現從人臉到主體多層次的一致性提升,後續將重點突破大幅度運動下的穩定性邊界。” 生數科技表示。

羣核科技方面則是在推進 3D 視頻生成的工作流研發,有望在變化的運境下降低明顯的穿模和畸變的反應。

不過這類方式的挑戰在於,使用者需要掌握視頻生成的數據輸入等。

隱私的邊界

高質量的數據集是當前不少 AI 視頻生成模型公司渴求的訓練素材。

部分國外大廠為了提升對 AI 視頻生成模型的人物主體一致性的訓練,甚至不惜通過下載成人電影作為訓練素材。

Meta 便遭受如此質疑。

今年 7 月,兩家美國成人電影公司 Strike 3 Holdings 和 Counterlife Media,便以 Meta 偷偷下載 2396 部成人電影訓練自家的 AI 模型為由,將其推向了被告席。

“確實是個很新的案件,涉及版權侵權,估計 Meta 還是會主張 fair use(合理使用)。” 一位在美執業的知識產權律師告訴信風,“現在對於這些訓練素材也沒有什麼統一的規則,只能是爭議中前行。”

相比之下,國內的平台在訓練素材方面或許擁有更多彈性的空間,這當中尤以視頻平台獨具優勢。

雖然視頻平台並不擁有對用户所發佈視頻的獨佔權,但一般擁有使用權。

例如快手的《基本功能隱私政策》中明確指出,為了實現廣告推送與投放,並有助於其評估廣告投放效果、有效性之目的,可能需要與廣告主、服務商、供應商第三方合作伙伴讀取用户的部分信息與數據。

這或許意味着,快手、抖音等視頻平台在 AI 視頻生成賽道方面相比其他公司將擁有更多數據優勢。

隨着 AI 視頻生成賽道的逐漸發展,數據使用的邊界或許也將更加清晰。