1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

搜狗-清華天工研究院提出ChoreoNet模型:讓數(shù)字人聞聲起舞

 2020-08-22 08:42  來源:A5專欄  我來投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

近日,搜狗分身技術(shù)團(tuán)隊(duì)聯(lián)合清華大學(xué)天工智能計(jì)算研究院賈珈老師團(tuán)隊(duì)共同發(fā)表的數(shù)字人技術(shù)論文《ChoreoNet:基于舞蹈動(dòng)作單元的音樂-舞蹈合成框架》被2020國(guó)際頂級(jí)盛會(huì)ACM Multimedia錄用為長(zhǎng)文。

(截圖來源:ACM Multimedia官網(wǎng)https://2020.acmmm.org)

ACM Multimedia專注于推進(jìn)多種媒體的研究與應(yīng)用,涉及人工智能、計(jì)算視覺、數(shù)據(jù)科學(xué)、深度學(xué)習(xí)、人機(jī)交互等多個(gè)新興領(lǐng)域,是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的多媒體領(lǐng)域唯一A類國(guó)際學(xué)術(shù)會(huì)議,被認(rèn)為是多媒體技術(shù)領(lǐng)域奧運(yùn)級(jí)別的盛會(huì)。雖然鼓勵(lì)來自全球的各類機(jī)構(gòu)分享、交流最新研究成果,但該會(huì)議論文接受率很低,只有對(duì)日常生活和技術(shù)突破具有巨大影響潛力的研究項(xiàng)目才會(huì)被通過。

“攻克難關(guān)”備受認(rèn)可

音樂和舞蹈是與人們生活密不可分且高度相關(guān)的兩種藝術(shù)形式,近年來,“樂舞合成”也是業(yè)內(nèi)高度關(guān)注的領(lǐng)域。不過,早期合成基于相似度檢索進(jìn)行,合成結(jié)果的多樣性有限,而目前通行的方法是利用神經(jīng)網(wǎng)絡(luò)模型,將音樂特征映射到人體骨骼關(guān)鍵點(diǎn),但由于人類骨架關(guān)鍵點(diǎn)的高度冗余和帶噪特性,逐幀關(guān)鍵點(diǎn)預(yù)測(cè)非常困難,導(dǎo)致合成質(zhì)量有限,成為困擾業(yè)內(nèi)人士的一大“難關(guān)”。

搜狗分身技術(shù)團(tuán)隊(duì)與清華天工研究院賈珈老師團(tuán)隊(duì)在論文中提出了一個(gè)極具創(chuàng)造性的解決方案,該方案將人類編舞知識(shí)融合到樂舞合成框架中,設(shè)計(jì)多個(gè)舞蹈單元(CAU),并使用CAU序列預(yù)測(cè)模型,開發(fā)了一個(gè)像人類一樣根據(jù)音樂編排舞蹈動(dòng)作的舞蹈合成框架——ChoreoNet。通過實(shí)驗(yàn)驗(yàn)證和數(shù)據(jù)對(duì)比,相較于基線法,ChoreoNet性能更好,合成動(dòng)作也更加自然逼真,無(wú)論是音樂匹配度、動(dòng)作自然度還是其他方面,表現(xiàn)都更加優(yōu)秀。

(截圖來源:ChoreoNet論文)

此次,該論文被ACM Multimedia認(rèn)可并錄取為長(zhǎng)文,不僅代表了搜狗AI分身技術(shù)在身體動(dòng)作及姿態(tài)生成方面的突破,也從側(cè)面印證了搜狗強(qiáng)大的AI技術(shù)實(shí)力和能夠?qū)崿F(xiàn)持續(xù)輸出的創(chuàng)新能力。值得注意的是,搜狗是在業(yè)內(nèi)率先選擇通過音頻來驅(qū)動(dòng)身體動(dòng)作作為研究課題的先行者。

“死磕技術(shù)”引領(lǐng)方向

在搜狗的AI戰(zhàn)略版圖中,“自然交互+知識(shí)計(jì)算”是核心方向,技術(shù)研究和推動(dòng)技術(shù)向產(chǎn)品的快速轉(zhuǎn)化均以此為基礎(chǔ)和方向,而搜狗“分身”是其中關(guān)鍵和重要一環(huán)。

在2018年發(fā)布全球首個(gè)AI合成主播之后,搜狗分身持續(xù)研究并打造更加逼真自然的數(shù)字人能力,在2D/3D數(shù)字人領(lǐng)域構(gòu)建了音畫同步、逼真的面部表情唇動(dòng)生成及驅(qū)動(dòng)能力。此外,如何能夠讓數(shù)字人更加自然并且富有表現(xiàn)力也是搜狗分身的重點(diǎn)研究方向,其中身體動(dòng)作以及姿態(tài)的表達(dá)至關(guān)重要。搜狗在首代AI合成主播問世后不到3個(gè)月的時(shí)間,便成功推出與“坐播”截然不同的“站播”合成主播,今年5月推出的3D AI合成主播不止面部細(xì)節(jié)經(jīng)得起高清鏡頭考驗(yàn),更是實(shí)現(xiàn)了自如行走。本次與清華大學(xué)天工智能計(jì)算研究院的工作選擇了音樂場(chǎng)景,重點(diǎn)研究如何提升身體動(dòng)作生成及驅(qū)動(dòng)的表現(xiàn)力和自然度,為AI數(shù)字人的技術(shù)探索開啟了新方向。

“未來應(yīng)用”前景廣闊

人工智能是未來科技的風(fēng)向標(biāo),而5G時(shí)代的到來又大大加速了這一進(jìn)程。自2018年搜狗推出全球首個(gè)AI合成主播之后,能夠與普通人的生活深度交融并廣泛運(yùn)用于各行各業(yè)的“AI分身”便深受關(guān)注,不少科技企業(yè)躬身入局。

從上文可以看出,搜狗從未停下突破的步伐,從2D到3D、“坐播”到“站播”、從支持單一語(yǔ)種到支持多語(yǔ)種、再到支持互動(dòng)。目前搜狗分身技術(shù)已經(jīng)在司法、傳媒、會(huì)展、藝術(shù)、金融客服等多個(gè)場(chǎng)地落地,為新華社、央視、平安惠普、北京互聯(lián)網(wǎng)法院等打造了多個(gè)AI合成主播、AI合成客服、AI虛擬法官等,也創(chuàng)造了雅妮、新小微、新小浩、新小萌等多個(gè)經(jīng)典AI數(shù)字人形象。

由音頻驅(qū)動(dòng)的數(shù)字人或數(shù)字舞蹈演員,擁有巨大的想象空間和市場(chǎng)化應(yīng)用前景。特別是與搜狗現(xiàn)有3D數(shù)字人的技術(shù)相結(jié)合后,使用場(chǎng)景可以從目前集中的傳媒、金融、法律等領(lǐng)域向影視、娛樂領(lǐng)域進(jìn)軍,攪動(dòng)萬(wàn)億規(guī)模的市場(chǎng)。

AI為人賦能,這是搜狗人工智能的發(fā)展理念,也是搜狗分身技術(shù)的愿景。作為一項(xiàng)既能解決行業(yè)痛點(diǎn),又能為用戶創(chuàng)造價(jià)值,既能給社會(huì)帶來變革、又能對(duì)科技產(chǎn)生影響,同時(shí)還能持續(xù)突破和進(jìn)步的前沿技術(shù),搜狗分身的未來,無(wú)疑具備更多的可能性、極大的想象空間。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
人工智能
ai技術(shù)

相關(guān)文章

  • 人工智能時(shí)代下閱北科技的創(chuàng)新與變革

    在信息技術(shù)持續(xù)革新與市場(chǎng)競(jìng)爭(zhēng)日趨激烈的行業(yè)環(huán)境下,本地生活服務(wù)領(lǐng)域正經(jīng)歷著深刻的智能化轉(zhuǎn)型。這一轉(zhuǎn)型過程不僅涉及技術(shù)層面的升級(jí)迭代,更關(guān)乎服務(wù)模式與行業(yè)生態(tài)的系統(tǒng)性重構(gòu)。閱北科技通過持續(xù)推進(jìn)算法技術(shù)的優(yōu)化與應(yīng)用,在提升服務(wù)精準(zhǔn)度和用戶滿意度方面進(jìn)行了積極探索。閱北的算法系統(tǒng)建立在持續(xù)優(yōu)化的技術(shù)架構(gòu)之

    標(biāo)簽:
    人工智能
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)
  • 漕河涇天罡人工智能研究院正式揭牌 開啟中國(guó)人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展新篇章

    2025年10月17日,上海在人工智能技術(shù)加速演進(jìn)、產(chǎn)業(yè)生態(tài)持續(xù)升級(jí)的關(guān)鍵時(shí)期,由上海市漕河涇新興技術(shù)開發(fā)區(qū)發(fā)展總公司聯(lián)合天罡智算交易平臺(tái)共同發(fā)起成立的“漕河涇天罡人工智能研究院”(以下簡(jiǎn)稱“研究院”)正式揭牌。研究院將依托漕河涇的產(chǎn)業(yè)資源與平臺(tái)優(yōu)勢(shì),聯(lián)合上海交通大學(xué)、上海社會(huì)科學(xué)院等權(quán)威機(jī)構(gòu),聚焦

    標(biāo)簽:
    人工智能
  • 王通:未來個(gè)人創(chuàng)業(yè)的十個(gè)機(jī)會(huì)

    個(gè)人創(chuàng)業(yè)需要啟動(dòng)成本低、無(wú)需龐大團(tuán)隊(duì)、可快速驗(yàn)證、能利用個(gè)人技能或資源。這里分享適合個(gè)人創(chuàng)業(yè)的十個(gè)機(jī)會(huì)一.AI內(nèi)容優(yōu)化與本地化服務(wù)·做什么:幫助企業(yè)或個(gè)人利用AI工具(如GPT-4,Midjourney)優(yōu)化內(nèi)容生產(chǎn)流程。例如,為跨境電商撰寫多語(yǔ)言產(chǎn)品描述,為小紅書博主生成爆款文案,為小公司制作營(yíng)銷

  • 世界人工智能大會(huì)在滬召開,上海人工智能研究院多項(xiàng)成果精彩亮相

    以“智能時(shí)代同球共濟(jì)”為主題的2025世界人工智能大會(huì)在上海正式開幕。

    標(biāo)簽:
    人工智能
  • 弈動(dòng) Dynamic·數(shù)智躍遷 博弈無(wú)界|2025TechWorld智慧安全大會(huì)在京召開

    在數(shù)字化與智能化深度交織的時(shí)代浪潮中,安全的邊界不斷延展,技術(shù)的演進(jìn)正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動(dòng)Dynamic·數(shù)智躍遷博弈無(wú)界”為主題的2025TechWorld智慧安全大會(huì)在北京盛大召開。來自國(guó)家部委、院士學(xué)者、高??蒲袡C(jī)構(gòu)和企業(yè)的權(quán)威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)

    標(biāo)簽:
    弈動(dòng)
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)
  • AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

    AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

    標(biāo)簽:
    阿里巴巴
  • 未來5年,中國(guó)AI的“大洗牌”和“內(nèi)循環(huán)”

    我覺得我們AI的目標(biāo)是:從芯片設(shè)計(jì)到軟件生態(tài),全鏈路自主開發(fā),建立可控的世界級(jí)AI體系。所以這是俺對(duì)未來5年中國(guó)AI圈的展望和判斷。(1)2026年,英偉達(dá)造車、國(guó)產(chǎn)開車26年國(guó)產(chǎn)芯片會(huì)在推理和垂直場(chǎng)景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會(huì)以軟件彌補(bǔ)硬件不足,所以訓(xùn)練和推理分開,訓(xùn)練就

  • H20芯片開賣即叫停,英偉達(dá)如何解圍?

    文/道哥在深陷“后門”風(fēng)波、接受網(wǎng)信辦問詢之后,英偉達(dá)的“特供版”H20芯片,又有了新消息。近日,美國(guó)科技媒體《TheInformation》援引知情人士消息稱,英偉達(dá)已悄然向其關(guān)鍵供應(yīng)商——包括負(fù)責(zé)封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔(dān)后端處理的富士康發(fā)出指令,要求暫停所有與H20AI

    標(biāo)簽:
    英偉達(dá)
  • 真正的「國(guó)產(chǎn)英偉達(dá)」來了

    文/二風(fēng)來源/節(jié)點(diǎn)財(cái)經(jīng)一場(chǎng)關(guān)于“中國(guó)芯”的IPO審議,正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告,上市審核委員會(huì)已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請(qǐng)。作為中國(guó)半導(dǎo)體自主化浪潮中最受矚目的“考生”之一,包括其創(chuàng)始人顯赫的英偉達(dá)背景、高達(dá)80億元人民幣的募資雄心,以及在國(guó)產(chǎn)GPU領(lǐng)域取

    標(biāo)簽:
    英偉達(dá)