前不久,身穿太空服的馬斯克瞬間進入二次元的視頻在網(wǎng)上引起炸裂,讓人不可思議的是,動畫版的馬斯克不僅神形兼?zhèn)?,背景和動作也非常連貫合理,而這一切都來自于一位斯坦福華人博士生設計的一款名叫“Pika”的視頻生成工具。只需要在該軟件的視頻輸入框內(nèi)輸入“馬斯克穿著太空服,3D動畫”的關鍵詞,一個身穿太空服的卡通馬斯克便能躍然于屏上。
近幾年,隨著AIGC賦能多業(yè)態(tài)應用的加速落地,整個行業(yè)的熱潮,已經(jīng)逐漸從文生文、文生圖,轉向了文生視頻領域。事實上,AIGC從文字到視頻是大的發(fā)展趨勢,不少產(chǎn)業(yè)人士已經(jīng)感知到了市場的風向,國內(nèi)字節(jié)跳動、阿里、百度等科技大廠均已跑步入場。
AIGC邁入視頻時代
據(jù)了解,字節(jié)跳動于11月18日推出了文生視頻模型PixelDance;阿里緊隨其后也上線了Animate Anyone模型;百度文心大模型的類似功能則在內(nèi)測中,不久后會以插件形式開放。顯然,AI技術與文生視頻的融合已經(jīng)在業(yè)界掀起了一股新的熱潮。而國內(nèi)玩家之所以如此積極地下場布局,其中的原因不言而喻。
首先,文生視頻應用非常廣泛,具備巨大的市場潛力。短視頻市場雖然方興未艾,但短視頻的制作能力卻跟不上各個平臺爆發(fā)的短視頻需求。而文生視頻技術的日趨成熟和廣泛應用,或將為當下熱門的短視頻市場帶來一些變數(shù)。比如,影視和游戲等行業(yè)就是文生視頻落地的重要場景,文生視頻用文字就可以編輯和生成想要的故事情節(jié),實現(xiàn)創(chuàng)意輔助和降本增效。而憑借為內(nèi)容生成賦能這一獨特優(yōu)勢,文生視頻的前景也是毋庸置疑。
其次,文生視頻操作十分便利,能有效降低各項成本。眾所周知,個性化的視頻制作麻煩、成本高昂,所以一款簡單的視頻生成工具,就成了不少行業(yè)和企業(yè)的渴望,而AI文生視頻技術能力的突破則為這一問題帶來全新解決方案。文生視頻顧名思義就是無需視頻制作技巧,僅用簡單文字就可以生成想要的視頻素材,不僅如此,還能隨著輸入場景和關鍵詞不斷更新,簡直大大降低了視頻制作的門檻和成本,可以說是創(chuàng)作者在數(shù)字化時代下的“福音”。
最后,文生視頻產(chǎn)品功能驚艷,能進一步增強企業(yè)競爭力。在當下的AI賽道上,文生圖的應用早已層出不窮,相比較而言,能夠完全“攻下”文生視頻這一陣地的玩家卻是寥寥無幾。歸根結底,是文生視頻的產(chǎn)品功能更加強大,其難度自然也就可想而知了。只不過,高難度往往伴隨著高價值,若是有哪一個企業(yè)能憑借強大的算力、跨領域合作能力和技術自主性等優(yōu)勢引領這一賽道,那么其在行業(yè)內(nèi)形成差異化優(yōu)勢也將指日可待。
萬丈高樓平地起
文生視頻作為一種新興的傳媒形式,正以前所未有的方式影響著我們的日常生活。目前,在企業(yè)宣傳、數(shù)字化人、科普創(chuàng)作、線上社交等領域都對文生視頻技術有所運用。而為了提高視頻生成的流暢度、真實感,國內(nèi)入局的玩家如字節(jié)跳動、阿里和百度等都在多個方面下足了功夫。
一方面,各玩家收集了大量數(shù)據(jù),以提高視頻生成效果的多樣性。文本生成視頻模型往往需要大量數(shù)據(jù)來學習字幕的相關性、幀照片的寫實感和時間的動態(tài)信息,而缺乏高質(zhì)量配對的數(shù)據(jù)集,就難以合理組合人物、難以合理架構場景,因此,生成視頻的合理性及連貫性就會大打折扣。阿里為了提高生成效果的多樣性,就讓其研究人員收集了大約3500萬單的文本視頻對和60億文本圖像對來優(yōu)化模型,讓生成的視頻達到了預期效果。
另一方面,各玩家設計了分層編輯器,以提高文生視頻語義的一致性。從簡單文字生成高質(zhì)量視頻,就需要文生視頻產(chǎn)品能夠準確預測文字的意圖,然后在保持輸入文字內(nèi)容和結構的同時生成精確的運動。為了達到這一目標,阿里的研究者設計了兩個分層編碼器,即固定CLIP編碼器和可學習內(nèi)容編碼器,分別提取高級語義和低級細節(jié),然后將其合并到視頻擴散模型中,更好地確保了低分辨率下生成視頻的語義連貫。
除此之外,各玩家還提高了視頻分辨率,以保證視頻生成效果的高質(zhì)量。文生視頻最理想的效果就是用戶給出提示詞,系統(tǒng)自動生成任何風格相對應的視頻,但這就對視頻分辨率提出了不小的考驗。阿里的文生視頻將視頻分辨率提高到了1280×720,還優(yōu)化了初始的600個去噪step,以改進生成視頻中存在的細節(jié)、偽影和噪音問題。字節(jié)跳動文生視頻也提出了基于文本指導+首尾幀圖片指導的視頻生成方法,使得視頻生成的動態(tài)性變得更強。
打鐵還需自身硬
隨著人工智能和視頻技術的快速發(fā)展,AIGC行業(yè)正在向AI視頻傾斜,AI文生視頻的爆發(fā)期或許即將到來,而參與到AI視頻創(chuàng)作中的玩家也將會越來越多。即便是在這樣的大環(huán)境下,不管是已經(jīng)推出模型的字節(jié)跳動和阿里,還是正準備推出插件的百度,能入局文生視頻賽道,其自身都有著不可忽視的倚仗。
一來,參與玩家算力儲備充足,能很好地克服文生視頻在技術上的不足。作為文生文、文生圖的升級,文生視頻對算力以及模型的工程化能力要求更高。據(jù)了解,文生視頻的人工智能模型參數(shù)為10億級別至100億級別。而國內(nèi)在文生視頻領域有所布局的頭部玩家中,無論是字節(jié)跳動還是阿里、百度,其在參數(shù)上的積累都已經(jīng)十分深厚??梢姡@些具有算力儲備的云服務廠商在發(fā)展視頻生成類應用上具有天然優(yōu)勢。
二來,參與玩家行業(yè)經(jīng)驗豐富,能大大加速文生視頻面世和迭代的速度。文生圖和文生視頻的人工智能模型在底層技術框架上有著較高的相似性,一定程度上來說,文生視頻可以看作是文生圖的進階版技術,這也就意味著,文生圖的技術和經(jīng)驗可供文生視頻加以運用和參考。而眾所周知,字節(jié)跳動、阿里、百度等玩家早已在文生圖領域有所深耕,甚至有的產(chǎn)品也已投入商用,憑借在文生圖技術上的積淀,其在文生視頻領域也有望實現(xiàn)大幅進步。
三來,參與玩家資源整合能力強大,能夠為其文生視頻的發(fā)展提供助力。相較于文字和圖片,視頻能承載的信息量更大,這也就是說,想要生產(chǎn)出更加生動、高清,真實感更強的視頻,各玩家在文生視頻上的投入成本也將更高。不過,值得一提的是,作為互聯(lián)網(wǎng)大廠,阿里、百度、字節(jié)跳動經(jīng)過多年發(fā)展,其在人才、資金、算力等眾多資源和實力上的優(yōu)勢和權利不容小覷,得益于此,其文生視頻產(chǎn)品也將擁有更強的競爭力和影響力。
山雨欲來風滿樓
文生視頻不僅顛覆了傳統(tǒng)媒體行業(yè),也為內(nèi)容升級和產(chǎn)業(yè)進化帶來了許多新的商機和可能性。只不過,目前國內(nèi)文生視頻技術還在發(fā)展的初級階段,雖然看上去文生視頻與文生圖的邏輯極其相似,但事實上,文生視頻的難度要大得多,需要突破的瓶頸也有很多。
一是,文生視頻數(shù)據(jù)要求高、計算難度大,參與玩家離產(chǎn)出令人滿意的視頻還有很大距離。相較于文字和圖片,視頻在多維信息表達、畫面豐富性及動態(tài)性方面有更大優(yōu)勢,但這同時也意味著,文生視頻對算力的需求將進一步加大;文生視頻所涉及的自然語言處理、視覺處理、畫面合成等領域,需要攻克的技術難點也在增加。而國內(nèi)的玩家,目前仍然缺乏高質(zhì)量配對數(shù)據(jù)集,因此其在語義準確性、清晰度和連續(xù)性等方面將會面臨嚴峻挑戰(zhàn)。
二是,文生視頻成本耗費大,商業(yè)模式較單一,參與玩家想要將商業(yè)化跑通還有一定難度。與文生圖相比,文生視頻的計算復雜性提升,其成本耗費也會相應有所增加。另外,圖片生成類的商業(yè)模式較為單一,收費模式和收費依據(jù)較為趨同,而視頻生成模型的收費依據(jù)則與其類似。雖然圖片生成類在多模態(tài)大模型中的商業(yè)化程度較高,可為視頻生成的商業(yè)化前景提供一定參考,但作為新興產(chǎn)業(yè),文生視頻的商業(yè)化想要跑通仍需一定時間。
三是,國內(nèi)外企業(yè)紛紛加大了對文生視頻的投入和研究,該賽道的競爭將會進一步升級。AI視頻生成賽道已然十分熱鬧,不僅有美國AI初創(chuàng)公司Pika labs發(fā)布的“Pika 1.0”,還有谷歌推出的AI視頻生成模型“W.A.L.T”等。而除了國外企業(yè)對文生視頻技術的高度重視外,國內(nèi)百度、阿里、字節(jié)、騰訊、360、萬興科技、昆侖萬維、國脈文化、美圖等公司也紛紛涉足該領域,并推出了相關的人工智能模型,顯然,視頻生成領域的競爭正日趨白熱化。
從文生圖到文生視頻,AIGC賽道的競爭已經(jīng)非常激烈。雖然國內(nèi)文生視頻的進展相對緩慢,尚且沒有明星產(chǎn)品的出現(xiàn),但更多有人才、有技術的文生視頻公司正在不斷涌現(xiàn)。只不過,除了上述挑戰(zhàn)之外,文生視頻目前還有一些數(shù)據(jù)隱私和安全性問題需要解決,真正的商業(yè)化運作和盈利能力也還有待驗證。而誰能在這次“跑馬圈地”中成為最終的贏家,我們也只能拭目以待。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
在數(shù)字化與智能化深度交織的時代浪潮中,安全的邊界不斷延展,技術的演進正引領產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學者、高??蒲袡C構和企業(yè)的權威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)
2025年10月25日,2025世界青年科學家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,
我覺得我們AI的目標是:從芯片設計到軟件生態(tài),全鏈路自主開發(fā),建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年,英偉達造車、國產(chǎn)開車26年國產(chǎn)芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會以軟件彌補硬件不足,所以訓練和推理分開,訓練就
文/道哥在深陷“后門”風波、接受網(wǎng)信辦問詢之后,英偉達的“特供版”H20芯片,又有了新消息。近日,美國科技媒體《TheInformation》援引知情人士消息稱,英偉達已悄然向其關鍵供應商——包括負責封裝的安靠科技、供應高帶寬內(nèi)存的三星電子、以及承擔后端處理的富士康發(fā)出指令,要求暫停所有與H20AI
文/二風來源/節(jié)點財經(jīng)一場關于“中國芯”的IPO審議,正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告,上市審核委員會已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請。作為中國半導體自主化浪潮中最受矚目的“考生”之一,包括其創(chuàng)始人顯赫的英偉達背景、高達80億元人民幣的募資雄心,以及在國產(chǎn)GPU領域取
技術的進步永無止境,繼創(chuàng)下TPC-C性能&性價比雙冠之后,阿里云PolarDB云原生數(shù)據(jù)庫再度實現(xiàn)關鍵突破。9月24日杭州云棲大會上,阿里云宣布推出全球首款基于CXL(ComputeExpressLink)2.0Switch技術的PolarDB數(shù)據(jù)庫專用服務器。在原有RDMA網(wǎng)絡的基礎上,Polar
2025年9月24日,在杭州舉辦的云棲大會上,阿里云正式發(fā)布全新一代服務器操作系統(tǒng)AlibabaCloudLinux4(簡稱Alinux4)。Alinux4基于Linux6.6內(nèi)核打造,是首個全面遵循龍蜥社區(qū)“開源生態(tài)合作倡議”規(guī)范的商業(yè)發(fā)行版。它不僅兼容主流開源社區(qū)生態(tài),更針對阿里云最新9代ECS
9月24日,杭州云棲大會技術主論壇上,阿里云重磅發(fā)布AI安全護欄,提供五項核心安全能力,護航AI安全。一方面為客戶提供融入AIAgent開發(fā)全鏈路的原生安全防護,另一方面持續(xù)用AI賦能安全產(chǎn)品智能化升級,打造Agentic-SOC安全運營,提升安全威脅檢測和響應效率。在過去的一年,AIAgent正在