近一個月,多款視頻模型新品發(fā)布,包括生數(shù)科技視頻模型Vidu更新至可一鍵生成32秒視頻,支持音視頻合成與4D生成;MiniMax發(fā)布海螺Hailuo-02,支持最高1080P、最長10秒的超清視頻端到端生成;百度(9888.HK)發(fā)布首個圖生視頻大模型MuseSteamer,面向包括廣告商在內(nèi)的專業(yè)視頻內(nèi)容創(chuàng)作者。
但在過去幾年,這一賽道并不被市場看好。
對比AI領(lǐng)域目前正被資本追捧的Agent(智能體),視頻模型熱度并不算太高。瑞銀(UBS)研報認為,視頻模型領(lǐng)域的競爭不會像大語言模型領(lǐng)域的競爭那樣激烈,主要是受視頻模型訓(xùn)練所需的視頻語料內(nèi)容所限。但同時,目前市面上由大廠與明星創(chuàng)業(yè)公司組成的戰(zhàn)隊,正在基礎(chǔ)模型效率提高的背景下,加快產(chǎn)品更新與商業(yè)化落地。
視頻模型“熱起來了”,但變現(xiàn)不容易
近一個月的視頻模型產(chǎn)品更新之前,Sora的熱度已帶動一批新品面世。包括2024年上半年的愛詩科技PixVerse、Runway Gen-3、Luma Dream Machine,下半年的生數(shù)科技Vidu、智譜清影、字節(jié)跳動PixelDance、MiniMax海螺等。
一方面,視頻模型你追我趕。據(jù)AGI-Eval(上海交通大學(xué)、同濟大學(xué)等高校和機構(gòu)合作發(fā)布的大模型評測社區(qū)),2024年12月,PixVerse-V3、可靈1.5、Video-01的得分(評測維度包括視頻-文本一致性、視頻質(zhì)量、運動質(zhì)量等)超越Sora。
但同時,受限于技術(shù)成熟度、商業(yè)化、成本高等因素,視頻模型的創(chuàng)業(yè)熱度并不及AI應(yīng)用層,主要由大型互聯(lián)網(wǎng)/科技企業(yè)組成,由愛詩科技、生數(shù)科技、Pika、Runway、MiniMax等明星創(chuàng)業(yè)公司補充。
此前,MiniMax創(chuàng)始人閆俊杰表示,視頻類工作復(fù)雜度比文本更難,上下文文本很長,一個5秒的視頻就有幾M(兆字節(jié),MB)大小,但文本領(lǐng)域,5秒看100個字的大小可能都不到1K(千字節(jié),KB),這是幾千倍的存儲差距。該差距帶來的挑戰(zhàn)便是如果通過基本文本構(gòu)建的底層基礎(chǔ)設(shè)施來處理、清洗、標(biāo)注數(shù)據(jù)。另外,閆俊杰稱,視頻開源內(nèi)容沒那么多,需要付出的耐心更大。
首個被稱為“中國版Sora”的生數(shù)科技也在今年進行了更新,此前輪次中,螞蟻集團、BV百度風(fēng)投、啟明創(chuàng)投等機構(gòu)押注生數(shù)。對于投資人對視頻模型的判斷,清華大學(xué)人工智能研究院副院長、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍對記者表示,早期孵化看團隊質(zhì)量,中后期看團隊技術(shù)與商業(yè)化能力。
一位一級市場關(guān)注AI領(lǐng)域的投資人對記者表示,近期一家剛披露千萬月活用戶規(guī)模的視頻模型平臺,嘗試向一級市場講述做視頻模型領(lǐng)域TikTok的“故事”,但投資人暫未買賬,“成本壓力與商業(yè)變現(xiàn)之間的鴻溝太大了,”該投資人稱。
曾參與投資Perpleixty 、Character.ai、Mistral、Harvy以及Pika等AI 初創(chuàng)公司的硅谷Solo VC 投資人Elad Gil(埃拉德・吉爾)此前表示,現(xiàn)今模型類型琳瑯滿目,但從資金角度來看,大部分投資可能會流向模型公司,因為它們資金需求更大。但在數(shù)量上,行業(yè)將看到更多應(yīng)用程序開發(fā)公司,而非基礎(chǔ)模型公司。
探索收費模式
具體落地方式上,目前大模型收費模式主要包括API、訂閱、廣告、定制化四種。從AI產(chǎn)品商業(yè)化程度來看,B端變現(xiàn)模式更加清晰,C端在國內(nèi)市場多以免費為主,海外市場以付費模式為主。
視頻模型也主要分為To C端與To B端兩種服務(wù)模式,前者主要提供付費訂閱服務(wù),如快手可靈、字節(jié)即夢、智象未來(HiDream.ai)等,通過免費版、標(biāo)準(zhǔn)版、高級版、尊享版等不同等級訂閱服務(wù)收費,價格每月數(shù)元到數(shù)百元不等。后者主要通過API接口和解決方案服務(wù)形式收費,如快手可靈、生數(shù)科技、愛詩科技等,服務(wù)領(lǐng)域涵蓋影視、互聯(lián)網(wǎng)、營銷廣告等,每月收費數(shù)十元至數(shù)萬元不等。
6月6日,快手披露可靈AI在正式上線的第十個月(即今年三月)突破一億美元ARR(年化收入運行率),月度付費金額在今年四月和五月連續(xù)突破一億元人民幣。除了可靈AI,其他視頻模型廠商暫未披露明確的營收數(shù)據(jù),頭部平臺以數(shù)千萬美元的ARR規(guī)模為主。以可靈AI為例,據(jù)高盛研報,2P(專業(yè)內(nèi)容創(chuàng)作者)/2C訂閱收入占可靈AI總收入的70%,2B API調(diào)用占30%。
生數(shù)產(chǎn)品方面,朱軍表示,目前主要有SaaS和MaaS兩種形態(tài),前者數(shù)千萬C端用戶,主要是專業(yè)和半專業(yè)創(chuàng)作者做內(nèi)容。B端產(chǎn)品目前已經(jīng)落地于廣告、影視、文旅等場景。
MiniMax視頻模型商業(yè)化也分為B端與C端。前者通過提供API接口服務(wù),將視頻生成能力輸出給企業(yè)客戶,支持多種應(yīng)用場景,如影視制作、廣告創(chuàng)意、教育內(nèi)容生成等。后者支持用戶通過簡單指令生成高質(zhì)量視頻,平臺提供會員積分制在內(nèi)的多種付費方案。今年6月下旬,MiniMax官方披露,從去年8月底發(fā)布海螺視頻至今,已幫助創(chuàng)作者生成超過3.7億個視頻。
據(jù)研究機構(gòu)Fortune Business Insights報告顯示,2024年全球AI視頻生成器市場規(guī)模達6.148億美元,預(yù)計到2032年將增長至25.629億美元,2025年至2032年間的年均復(fù)合增長率達20.0%,而大語言模型的預(yù)估增長率約35.92%。
在可預(yù)見的增速范圍內(nèi),朱軍認為今年視頻大模型商業(yè)化就會加快,市場對視頻類消費與需求非常廣闊,這也是視頻賽道與文字賽道不一樣的地方。目前行業(yè)最頭部視頻大模型平臺都有各自的特色與商業(yè)化路徑,沒有走到類似大語言模型那樣“卷”的狀態(tài),暫時也不會出現(xiàn)一家獨大的局面。