遠(yuǎn)傳科技“數(shù)字主持人”誕生記：不是復(fù)制，而是創(chuàng)造一個(gè)新模態(tài)

2021-05-31 14:27 來(lái)源：互聯(lián)網(wǎng) 我來(lái)投稿撤稿糾錯(cuò)

遠(yuǎn)傳科技從未停止“造人”的腳步。

除了有“AI虛擬主播”之外，現(xiàn)在連“數(shù)字主持人”也來(lái)了，“數(shù)字主持人”到底是什么呢?

遠(yuǎn)傳科技的“數(shù)字主持人”是通過(guò)語(yǔ)音合成、唇形合成、表情合成以及深度學(xué)習(xí)等技術(shù)，克隆出具備和真人主播一樣播報(bào)能力的數(shù)字人。通過(guò)語(yǔ)音合成技術(shù)和視頻驅(qū)動(dòng)技術(shù)，只需要輸入一段文本，它就能在屏幕展現(xiàn)虛擬數(shù)字人形象并進(jìn)行新聞播報(bào)，且唇形動(dòng)作能與播報(bào)聲音實(shí)時(shí)同步。

或許在不久的未來(lái)，你再也分不清視頻中的主持人，究竟是真人還是虛擬人，而這一天正在到來(lái)。

一、根源探究：「高逼真」的背后

遠(yuǎn)傳科技“數(shù)字主持人”以真人為原型，通過(guò)將真人形象數(shù)字化掃描技術(shù)，建立超寫實(shí) 3D 數(shù)字人建模，多模態(tài)識(shí)別及生成、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)、遷移學(xué)習(xí)等技術(shù)「熔爐」，煉就而成。

從效果上來(lái)說(shuō)，3D AI 合成主播給人的最大印象便是高逼真，它較好的還原了真人的發(fā)膚、表情;同時(shí)，靈活性、可塑性更強(qiáng)，擁有的豐富的面部表情動(dòng)作，嘴部唇動(dòng)，以及身體的輕微擺動(dòng)，具備在更廣闊空間使用的潛力。

透過(guò) 3D AI 合成主播技術(shù)實(shí)現(xiàn)過(guò)程，我們探究它為何擁有如此逼真的效果。

1.數(shù)字化掃描技術(shù)還原真人形象

建立人物模型必須要有海量數(shù)據(jù)，遠(yuǎn)傳科技數(shù)字化掃描技術(shù)通過(guò)攝像頭對(duì)真人原型的身體各個(gè)部位進(jìn)行全方位「打點(diǎn)」掃描，采集每一處細(xì)節(jié)，并對(duì)其多種形態(tài)的面部表情動(dòng)作，嘴部唇動(dòng)，以及身體的輕微擺動(dòng)進(jìn)行細(xì)致入微地捕捉記錄，還原真人形象。

2.深度學(xué)習(xí)算法生成3D數(shù)字人模型

遠(yuǎn)傳科技算法工程師熟練應(yīng)用深度學(xué)習(xí)算法，對(duì)算法里的大量參數(shù)進(jìn)行調(diào)優(yōu)，確保生成的3D數(shù)字人模型能夠精確的還原真人在正常說(shuō)話時(shí)候的唇部動(dòng)作，臉部表情及微動(dòng)作，對(duì)3D數(shù)字人模型進(jìn)行實(shí)時(shí)驅(qū)動(dòng)、渲染，使其面部肌肉驅(qū)動(dòng)、表情肢體和語(yǔ)言表達(dá)能力達(dá)到一個(gè)較高的度契合。確保非專業(yè)人士無(wú)法分辨出是真人拍攝的視頻還是通過(guò)數(shù)字技術(shù)合成出來(lái)的視頻。

二、核心亮點(diǎn)： AI 驅(qū)動(dòng)、多模態(tài)交互

1.AI 驅(qū)動(dòng)的 3D 數(shù)字人

遠(yuǎn)傳科技“數(shù)字主持人”是一種由AI所驅(qū)動(dòng)的虛擬存在，擁有和真人一致的音容、笑貌和言談舉止，擁有表達(dá)情感和智慧的能力。仔細(xì)觀察你會(huì)發(fā)現(xiàn)， 3D AI 合成主播是基于 AI 算法實(shí)現(xiàn)驅(qū)動(dòng)。

具體來(lái)說(shuō)，3D “數(shù)字主持人”靠 AI 算法實(shí)時(shí)驅(qū)動(dòng)，輸入一個(gè)文本就能輸出一個(gè)視頻，往往生成一個(gè) 1 分鐘的視頻，僅只需要 1 分鐘，幾乎可以看作實(shí)時(shí)生成。

2.關(guān)鍵技術(shù)賦能多模態(tài)交互創(chuàng)新

唇動(dòng)算法、3D建模技術(shù)、深度學(xué)習(xí)算法、5G通信等關(guān)鍵技術(shù)探索文本、語(yǔ)音和視覺(jué)多模態(tài)交互創(chuàng)新的無(wú)限可能。

遠(yuǎn)傳科技利用唇動(dòng)算法分析出數(shù)字人應(yīng)顯示的口型標(biāo)記，突破語(yǔ)言交流過(guò)程的表情和唇動(dòng)的無(wú)縫鏈接;根據(jù)給定人物形象要求，建立數(shù)字人3D模型，綁定骨骼，創(chuàng)立動(dòng)作動(dòng)畫和口型動(dòng)畫;基于深度學(xué)習(xí)算法、肢體捕捉技術(shù)，將文本、音頻和圖片實(shí)時(shí)生成數(shù)字人視頻;5G通信技術(shù)則讓用戶跟數(shù)字人進(jìn)行語(yǔ)音視頻互動(dòng)成為可能，麥克風(fēng)和攝像頭捕捉用戶的語(yǔ)音和動(dòng)作，數(shù)字人的后端人工智能算法根據(jù)場(chǎng)景生成對(duì)應(yīng)的數(shù)字人交互動(dòng)作、表情和語(yǔ)音。

三、未來(lái)已來(lái)，你準(zhǔn)備好了嗎？

遠(yuǎn)傳科技“數(shù)字主持人”雖然基于真實(shí)的人進(jìn)行建模，但呈現(xiàn)在人們面前的行為都是完全逼真的，能像真實(shí)主播一樣，去笑，去哭，去表達(dá)，是被創(chuàng)造出來(lái)的一個(gè)“數(shù)字人”。

數(shù)字人的未來(lái)將會(huì)作為主體人的一個(gè)副本形式存在于數(shù)字世界中，在未來(lái)的數(shù)字世界中我們將無(wú)法分辨出真人和數(shù)字人，大量在數(shù)字世界的服務(wù)將都會(huì)由數(shù)字人來(lái)代替，在電話客戶服務(wù)、線上產(chǎn)品講解、電商直播甚至線上演唱會(huì)等眾多場(chǎng)景都將會(huì)有數(shù)字人的角色參與，數(shù)字化終極未來(lái)也許就是數(shù)字人的世界。

你準(zhǔn)備好接受一個(gè)數(shù)字世界了嗎?

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)標(biāo)簽: vr虛擬現(xiàn)實(shí); 數(shù)字技術(shù)

相關(guān)文章

Vision Pro量產(chǎn)背后，虛擬現(xiàn)實(shí)產(chǎn)業(yè)拐點(diǎn)已至？

隨著VisionPro量產(chǎn)時(shí)間的臨近，VR概念再次映入人們的視野，業(yè)內(nèi)“炒作VR”的浪潮，似乎也有了重新抬頭的跡象。

標(biāo)簽：

vr虛擬現(xiàn)實(shí)
蘋果籌備Vision Pro“平替版”，3D數(shù)字化領(lǐng)域積木易搭奔赴VR/AR“綠洲”建設(shè)

繼VisionPro之后，蘋果正在籌備VisionPro的“平替版”6月初，蘋果公司發(fā)布了其第一代MR頭顯——VisionPro，產(chǎn)品一經(jīng)發(fā)布，便在科技圈引起熱議。甚至庫(kù)克本人在發(fā)布會(huì)上表示：“就像Mac讓我們接觸到個(gè)人電腦，iPhone讓我們接觸到移動(dòng)計(jì)算一樣，VisionPro將向我們介紹空間計(jì)

標(biāo)簽：

vr虛擬現(xiàn)實(shí)
PingPong福貿(mào)一站式外貿(mào)收款，以數(shù)字技術(shù)促進(jìn)全球收款服務(wù)極致化

全球數(shù)字貿(mào)易迅猛發(fā)展下，第三方外貿(mào)支付機(jī)構(gòu)的角色已經(jīng)從支付服務(wù)進(jìn)化為數(shù)字化綜合服務(wù)，在資金流通、守護(hù)資金安全等方面也根據(jù)廣大企業(yè)時(shí)代背景下的新需求需要承擔(dān)更多的職責(zé)。同時(shí)，隨著大數(shù)據(jù)、人工智能等數(shù)字技術(shù)對(duì)貿(mào)易各經(jīng)濟(jì)領(lǐng)域的滲透，對(duì)于外貿(mào)支付來(lái)說(shuō)，這也意味著能整合和發(fā)揮自身天然的數(shù)字化能力和資源優(yōu)勢(shì)將成

標(biāo)簽：

數(shù)字技術(shù)
空間計(jì)算時(shí)代下，中國(guó)能否誕生下一個(gè)“蘋果”？

空間計(jì)算時(shí)代拉開(kāi)序幕。

標(biāo)簽：

vr虛擬現(xiàn)實(shí)
沉浸式教育看點(diǎn)十足，大朋VR多款產(chǎn)品亮相“中國(guó)教育裝備展示會(huì)”

第81屆中國(guó)教育裝備展示會(huì)于4月21日-23日在江西南昌綠地國(guó)際博覽中心如期舉辦。展會(huì)上，大朋VR旗下產(chǎn)品在包括萌科科技、東湃科技、矩道網(wǎng)絡(luò)在內(nèi)的多家教育培訓(xùn)內(nèi)容商聯(lián)合展區(qū)之中頻頻亮相，展示內(nèi)容囊括元宇宙教育、消防安全教育、K12現(xiàn)代化教育等諸多領(lǐng)域，吸引了眾多關(guān)注。教育領(lǐng)域多面手：元宇宙、安全、K

標(biāo)簽：

vr虛擬現(xiàn)實(shí)

弈動(dòng) Dynamic·數(shù)智躍遷博弈無(wú)界｜2025TechWorld智慧安全大會(huì)在京召開(kāi)

在數(shù)字化與智能化深度交織的時(shí)代浪潮中，安全的邊界不斷延展，技術(shù)的演進(jìn)正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日，以“弈動(dòng)Dynamic·數(shù)智躍遷博弈無(wú)界”為主題的2025TechWorld智慧安全大會(huì)在北京盛大召開(kāi)。來(lái)自國(guó)家部委、院士學(xué)者、高校科研機(jī)構(gòu)和企業(yè)的權(quán)威專家與業(yè)界精英齊聚北京，共議AI安全、數(shù)

標(biāo)簽：

弈動(dòng)
甌江論道：AI賦能綠色發(fā)展

2025年10月25日，2025世界青年科學(xué)家峰會(huì)之人工智能（AI）融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦，中國(guó)投資協(xié)會(huì)能源投資專業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦，中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持，以“甌江論道-AI賦能綠色發(fā)展”為主題，

標(biāo)簽：

ai技術(shù)
AI云“分野”：阿里云們“賣鏟”，火山引擎奇襲“MaaS”

AI云“分野”：阿里云們“賣鏟”，火山引擎奇襲“MaaS”

標(biāo)簽：

阿里巴巴
未來(lái)5年，中國(guó)AI的“大洗牌”和“內(nèi)循環(huán)”

我覺(jué)得我們AI的目標(biāo)是：從芯片設(shè)計(jì)到軟件生態(tài)，全鏈路自主開(kāi)發(fā)，建立可控的世界級(jí)AI體系。所以這是俺對(duì)未來(lái)5年中國(guó)AI圈的展望和判斷。(1)2026年，英偉達(dá)造車、國(guó)產(chǎn)開(kāi)車26年國(guó)產(chǎn)芯片會(huì)在推理和垂直場(chǎng)景上發(fā)力。以DeepSeek為代表，大多數(shù)AI大模型會(huì)以軟件彌補(bǔ)硬件不足，所以訓(xùn)練和推理分開(kāi)，訓(xùn)練就
H20芯片開(kāi)賣即叫停，英偉達(dá)如何解圍？

文/道哥在深陷“后門”風(fēng)波、接受網(wǎng)信辦問(wèn)詢之后，英偉達(dá)的“特供版”H20芯片，又有了新消息。近日，美國(guó)科技媒體《TheInformation》援引知情人士消息稱，英偉達(dá)已悄然向其關(guān)鍵供應(yīng)商——包括負(fù)責(zé)封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔(dān)后端處理的富士康發(fā)出指令，要求暫停所有與H20AI

標(biāo)簽：

英偉達(dá)
真正的「國(guó)產(chǎn)英偉達(dá)」來(lái)了

文/二風(fēng)來(lái)源/節(jié)點(diǎn)財(cái)經(jīng)一場(chǎng)關(guān)于“中國(guó)芯”的IPO審議，正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告，上市審核委員會(huì)已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請(qǐng)。作為中國(guó)半導(dǎo)體自主化浪潮中最受矚目的“考生”之一，包括其創(chuàng)始人顯赫的英偉達(dá)背景、高達(dá)80億元人民幣的募資雄心，以及在國(guó)產(chǎn)GPU領(lǐng)域取

標(biāo)簽：

英偉達(dá)

AI視頻生成賽道“分野”：小廠重產(chǎn)品，大廠重生態(tài)

AI視頻生成賽道“分野”：小廠重產(chǎn)品，大廠重生態(tài)

標(biāo)簽：

騰訊

阿里巴巴

快手
數(shù)據(jù)庫(kù)進(jìn)入“內(nèi)存自由”時(shí)代！阿里云PolarDB發(fā)布全球首個(gè)CXL數(shù)據(jù)庫(kù)服務(wù)器

技術(shù)的進(jìn)步永無(wú)止境，繼創(chuàng)下TPC-C性能&性價(jià)比雙冠之后，阿里云PolarDB云原生數(shù)據(jù)庫(kù)再度實(shí)現(xiàn)關(guān)鍵突破。9月24日杭州云棲大會(huì)上，阿里云宣布推出全球首款基于CXL（ComputeExpressLink）2.0Switch技術(shù)的PolarDB數(shù)據(jù)庫(kù)專用服務(wù)器。在原有RDMA網(wǎng)絡(luò)的基礎(chǔ)上，Polar
為AI時(shí)代云服務(wù)器量身定制阿里云操作系統(tǒng)Alinux 4重磅發(fā)布

2025年9月24日，在杭州舉辦的云棲大會(huì)上，阿里云正式發(fā)布全新一代服務(wù)器操作系統(tǒng)AlibabaCloudLinux4（簡(jiǎn)稱Alinux4）。Alinux4基于Linux6.6內(nèi)核打造，是首個(gè)全面遵循龍蜥社區(qū)“開(kāi)源生態(tài)合作倡議”規(guī)范的商業(yè)發(fā)行版。它不僅兼容主流開(kāi)源社區(qū)生態(tài)，更針對(duì)阿里云最新9代ECS
阿里云重磅發(fā)布AI安全護(hù)欄五項(xiàng)安全能力護(hù)航AI安全

9月24日，杭州云棲大會(huì)技術(shù)主論壇上，阿里云重磅發(fā)布AI安全護(hù)欄，提供五項(xiàng)核心安全能力，護(hù)航AI安全。一方面為客戶提供融入AIAgent開(kāi)發(fā)全鏈路的原生安全防護(hù)，另一方面持續(xù)用AI賦能安全產(chǎn)品智能化升級(jí)，打造Agentic-SOC安全運(yùn)營(yíng)，提升安全威脅檢測(cè)和響應(yīng)效率。在過(guò)去的一年，AIAgent正在