• 正文
    • 2022年開門紅,“數(shù)字人”融資累計金額逾4億
    • 數(shù)字人研發(fā)門檻有多高?
    • 算力、算法、AI模型的協(xié)同優(yōu)化必不可少
    • 數(shù)字人:好看的皮囊下,AI交互是硬核
    • 寫在最后
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

冬奧會火出圈的數(shù)字人,三條鐵律見證發(fā)展

原創(chuàng)
2022/02/18
619
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

數(shù)字人,真不是人,但是正在輔助人、取代人。

這屆冬奧會上,數(shù)字人很忙。

沖擊三項(xiàng)項(xiàng)目的谷愛凌也很忙,但賽前還在咪咕演播室“趕通告”。不過,這不是她本人,而是她的數(shù)字分身Meet GU,這是一個以谷愛凌為原型的亞毫米級超寫實(shí)數(shù)字人。Meet GU的外形、聲音、神情、妝容,都與谷愛凌本人相似度較高,甚至毛孔細(xì)節(jié)、皮膚質(zhì)感和顏色都做到了1:1還原。Meet GU是中國移動咪咕視頻推出的體育數(shù)字達(dá)人,她還將在演播室完成滑雪賽事解說、播報及場景電商的虛擬互動等工作。

事實(shí)上,不止運(yùn)動員數(shù)字分身這一項(xiàng),數(shù)字人已經(jīng)滲透到賽場內(nèi)外多個環(huán)節(jié)。

徐夢桃奪冠背后,竟然有個虛擬教練“觀君”,他已經(jīng)在自由式滑雪空中技巧運(yùn)動隊“服役”了三年之久,會針對運(yùn)動員的每一跳做出專業(yè)判斷,嚴(yán)格判別扣分動作。有了這些數(shù)據(jù)后,教練員便可以給予運(yùn)動員更加精準(zhǔn)的指導(dǎo)。

此外,冬奧會上還有負(fù)責(zé)“冬奧觀賽氣象指數(shù)”播報的主播“馮小殊”;“百度智能云曦靈”數(shù)字人平臺的AI手語主播,承擔(dān)手語翻譯;阿里巴巴的冬奧宣推官數(shù)字人“冬冬”,兼任特約記者、帶貨主播;科大訊飛的3D虛擬冰冰,有著酷似央視主播王冰冰的眉眼和神韻,還解鎖了東北話、英語等多達(dá)31種語言技能;拓爾思旗下的“小思”,連續(xù)進(jìn)行冬奧熱點(diǎn)播報的同時,還可以進(jìn)行自動采編、智能寫稿、虛擬播報等……

自去年開始,“數(shù)字人”賽道熱度一路攀升,各種形態(tài)和“人設(shè)”的數(shù)字人屢見不鮮。清華學(xué)生“華智冰”,“鄧麗君”和粉絲“見面唱歌”,還有在金融、傳媒、文旅、城市管理等多個領(lǐng)域的應(yīng)用……數(shù)字人似乎正在突破現(xiàn)實(shí)與虛擬的邊界,越來越貼近我們的現(xiàn)實(shí)生活。

2022年開門紅,“數(shù)字人”融資累計金額逾4億

啟信寶數(shù)據(jù)顯示,2020~2022年,數(shù)字人相關(guān)企業(yè)數(shù)量逐漸呈現(xiàn)快速增長趨勢。其中,2020年數(shù)字人相關(guān)企業(yè)新增數(shù)量為36080家,到2021年,新增數(shù)量是66293家。截至目前,國內(nèi)數(shù)字人相關(guān)企業(yè)存續(xù)數(shù)量超16萬家。2022年開年不到一個月的時間,數(shù)字人領(lǐng)域融資數(shù)量已有近百起,融資金額達(dá)4.11億元。


圖:2020年-2022年,數(shù)字人相關(guān)企業(yè)數(shù)量變化(來源:啟信寶,截至2022年1月17日)

在元宇宙概念下,去年的硬件軟件市場都異常熱鬧。有人試圖在硬件產(chǎn)品的新舊交替期搶占市場,有人想在新的賽道上一馬當(dāng)先……在元宇宙這個相對肆意暢想的虛擬超現(xiàn)實(shí)藍(lán)圖中,其中就包括數(shù)字人、數(shù)字工廠、數(shù)字城市乃至所有現(xiàn)實(shí)元素的可數(shù)字化、虛擬化。

數(shù)字人并非依托元宇宙而產(chǎn)生,但元宇宙的火爆一定程度上帶動了數(shù)字人的熱潮。相比元宇宙,數(shù)字人作為一個更具象的概念,疊加疫情下虛擬內(nèi)容需求的增加、相關(guān)硬件的快速發(fā)展,成為元宇宙風(fēng)口之中的“風(fēng)口”。

在與一些業(yè)內(nèi)人士的交流中收到這些反饋:“數(shù)字人是元宇宙中落地最快的一個應(yīng)用場景”、“數(shù)字人會是元宇宙的核心,承擔(dān)關(guān)鍵的交互”……一位投資人表示,“能明顯感覺到數(shù)字人在2021年下半年比上半年熱很多,元宇宙開始從一個不落地的概念慢慢落地下來”。

數(shù)字人研發(fā)門檻有多高?

與語音助手等AI數(shù)字助理相比,數(shù)字人要達(dá)到的標(biāo)準(zhǔn)更高。外觀效果、交互自然流暢度,是兩個被評判的核心指標(biāo)。前者涉及CG建模及驅(qū)動模型的精細(xì)程度,后者主要需要具備NLP對話模型中的語義理解、多輪對話,上下文理解能力等。

以本次冬奧會的百度AI手語主播為例,探討一下研發(fā)一款A(yù)I手語主播有多難?

從外形看,對比以往的虛擬主播形象,AI手語主播不僅高度還原真人發(fā)膚,且在立體感、靈活度、可塑性上都有大幅提升。為了讓“她”完成承擔(dān)手語主播工作,百度智能云首先建立了規(guī)模龐大的手語動作庫,基于《國家通用手語詞典》規(guī)范,結(jié)合動作捕捉設(shè)備和真實(shí)手語老師的雙向調(diào)優(yōu),精修近1萬個手語動作,保證了手語表達(dá)的動作準(zhǔn)確性。同時首創(chuàng)4D掃描技術(shù),使得AI手語主播表情自然生動,口型生成準(zhǔn)確度高達(dá)98.5%。

此外,通過機(jī)器翻譯技術(shù),百度智能云構(gòu)建出一套精確的手語翻譯引擎,可懂度達(dá)到85%以上,結(jié)合語音識別技術(shù),可將冰雪賽事的文字及音視頻內(nèi)容轉(zhuǎn)化為手語;同時再通過專為手語優(yōu)化的自然動作引擎,完成AI手語主播的動作驅(qū)動,實(shí)時演繹為數(shù)字人的動作、表情和唇語。這保證了AI手語主播具備高可懂度的手語表達(dá)能力和精準(zhǔn)連貫的呈現(xiàn)效果。

據(jù)百度方面表示,數(shù)字人要為人類提供服務(wù)、與人自然地交流,背后需要強(qiáng)大的知識體系和對話能力支撐。百度知識圖譜積累的5500億知識,幫助數(shù)字人擁有“自己”的經(jīng)驗(yàn)和認(rèn)識去思考?;诎俣热ツ臧l(fā)布的百億參數(shù)對話模型PLATO,數(shù)字人才可以跟用戶進(jìn)行有料、有趣、有情感的交流。

算力、算法、AI模型的協(xié)同優(yōu)化必不可少

建模、AI、動作捕捉、渲染是開發(fā)數(shù)字人的關(guān)鍵技術(shù),而這些都離不開算力的支撐。算力直接影響了是否可以進(jìn)行實(shí)時渲染、互動,從而可能會進(jìn)一步限制到實(shí)用場景,是打造和應(yīng)用的關(guān)鍵基礎(chǔ)。

思騰合力是AI服務(wù)器與HPC基礎(chǔ)架構(gòu)解決方案商,該公司AI算法工程師莊翔寧告訴<與非網(wǎng)>,數(shù)字人的開發(fā)需要用到計算機(jī)圖學(xué)、圖形渲染、動作捕捉等等,因此在即時響應(yīng)性能方面會有一定程度算力的需求。

此外,為了滿足即時響應(yīng)的需求,在訓(xùn)練的模型上,有必要進(jìn)行模型壓縮,抑或是一開始就避免將訓(xùn)練模型設(shè)計得太復(fù)雜,以免影響到應(yīng)用時運(yùn)行的速度。思騰合力在圖形預(yù)處理和模型壓縮方面,通過自研算法來降低影像或視頻的解析度,但保留重要核心判定的物體。

他補(bǔ)充,在模型壓縮及布署方面,除了精簡訓(xùn)練模型外,也可以通過壓縮方式進(jìn)一步精簡其超參數(shù),最后通過模型布署的方式簡化應(yīng)用模型。

由此可見,一款數(shù)字人的打造和成功應(yīng)用,算力支持必不可少,但是算法、模型的協(xié)同優(yōu)化也非常關(guān)鍵,不論是提升即時響應(yīng)能力,還是數(shù)字人的人格化訓(xùn)練,以及使數(shù)字人具備一定的知識體系、互動能力等,都是數(shù)字人實(shí)現(xiàn)動態(tài)性、交互性的關(guān)鍵支柱。

數(shù)字人:好看的皮囊下,AI交互是硬核

從數(shù)字人當(dāng)前的投資方向看,大多數(shù)集中在數(shù)字人主播、數(shù)字人偶像等制作上。一位投資人表示,目前,AI賦予數(shù)字人的交互能力在一級市場更受關(guān)注,可惜這樣的好項(xiàng)目并不多。

數(shù)字人仍處于發(fā)展初期,業(yè)界當(dāng)前首先在命名上就有很多方式:數(shù)字人、虛擬人、數(shù)智人、虛擬數(shù)字人數(shù)字孿生、虛擬替身、數(shù)字分身等等,這也從一定程度上體現(xiàn)了它所處的發(fā)展階段——就像任何剛剛起跑的新事物一樣,難免有概念和定義上的紛爭。

根據(jù)《虛擬數(shù)字人深度產(chǎn)業(yè)報告》,這些命名都可以指代由計算機(jī)圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等手段打造出來的具有人類外貌特征、表演能力、交互能力等等的非物理世界產(chǎn)物。

《中國虛擬數(shù)字人影響力指數(shù)報告》則從未來媒體形態(tài)和服務(wù)模式對虛擬數(shù)字人進(jìn)行了定義:計算機(jī)圖形學(xué)、語音合成技術(shù)、深度學(xué)習(xí)、類腦科學(xué)、生物科技、計算科學(xué)等聚合科技(Converging Technologies)帶來語義傳播與無障礙傳播的新空間,由此誕生的虛擬數(shù)字人將以新媒介角色,廣泛應(yīng)用在元宇宙新生態(tài)中,擔(dān)任著信息制造、傳遞的責(zé)任,是元宇宙中“人”與“人”、“人”與事物或事物與事物之間產(chǎn)生聯(lián)系或發(fā)生孿生關(guān)系的新介質(zhì)。

從以上定義中,可以提煉出數(shù)字人的三大發(fā)展特征:第一,它是聚合科技的產(chǎn)物;第二,兼具人類外形和內(nèi)在,交互能力是關(guān)鍵;第三,未來更大的市場存在于行業(yè)應(yīng)用新生態(tài)中,也就是說,它需要在更多的創(chuàng)新方向、下沉市場中找到更多的價值空間。

把冰冷的人機(jī)交互變成更加有真實(shí)體感的交流,或是作為真實(shí)人類的數(shù)字分身來幫助交流,這些都是數(shù)字人正在做的。未來,只要有交互需求的地方,數(shù)字人都會有用武之地,而這也是數(shù)字人當(dāng)前最大的考驗(yàn)。

寫在最后

數(shù)據(jù)顯示,2030年,圍繞虛擬數(shù)字人我國將會形成一個高達(dá)2700億的藍(lán)海市場(量子位《虛擬數(shù)字人》報告)。但現(xiàn)階段,數(shù)字人仍面臨著開發(fā)門檻高、成本高、制作周期長、難以批量產(chǎn)出等挑戰(zhàn),這與元宇宙“人人都有一個數(shù)字分身”的愿景還有著巨大的鴻溝,也是當(dāng)前需要著力解決的問題。

下一步,數(shù)字人將重點(diǎn)向融合文字、聽覺、視覺、肢體動作甚至觸覺等多模態(tài)交互的方式演進(jìn),除了在to B服務(wù)領(lǐng)域持續(xù)發(fā)力外,在生活服務(wù)中也會為C端用戶帶來更多陪伴、信息交互以及更深的情感鏈接,帶來有溫度的交流體驗(yàn)。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
2-320563-2 1 TE Connectivity TERMINAL,PIDG R 16-14 1/4

ECAD模型

下載ECAD模型
$0.22 查看
104M66QV39 1 Quantic Paktron RC Network, Bussed, 2W, 39ohm, 1600V, 0.1uF, Through Hole Mount, 2 Pins, RADIAL LEADED, ROHS COMPLIANT
暫無數(shù)據(jù) 查看
P410QS333M300AH101 1 KEMET Corporation RC Network,

ECAD模型

下載ECAD模型
$1.83 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄