8月8日,中國(guó)電信舉辦2023年中期業(yè)績(jī)說(shuō)明會(huì)。與以往財(cái)報(bào)會(huì)所不同的是,中國(guó)電信的新一代超寫(xiě)實(shí)數(shù)字人“新翼”首次與觀眾見(jiàn)面并全程主持業(yè)績(jī)介紹和問(wèn)答互動(dòng)的環(huán)節(jié)。
“新翼”一亮相就吸引來(lái)線上與線下的投資者的目光。精細(xì)到毛孔、服裝紋理和皮膚質(zhì)感的細(xì)節(jié)處理帶來(lái)了影視級(jí)別的視覺(jué)沖擊力,且能夠隨著鏡頭的遠(yuǎn)近推拉自動(dòng)優(yōu)化,360度無(wú)死角地向觀眾展示了幾近真人的皮膚、五官、發(fā)絲和身體。同時(shí),站定、轉(zhuǎn)身、抬手引領(lǐng)和微笑致意等微表情和動(dòng)作姿勢(shì)也保持了極高的流暢性和自然度。開(kāi)口說(shuō)話時(shí)的語(yǔ)音語(yǔ)調(diào)和唇形匹配更是達(dá)到了讓觀眾難以區(qū)分虛擬和現(xiàn)實(shí)的水準(zhǔn)。
揭秘“新翼”技術(shù)鏈
電信自主研發(fā)超寫(xiě)實(shí)數(shù)字人
據(jù)介紹,“新翼”的原型取自電信的杰出青年,并在設(shè)計(jì)時(shí)著重突出自信自強(qiáng)的面貌和紅色電信精神。目前,“新翼”已經(jīng)具備了主持人的基本能力和水平,后期會(huì)逐步拓展包括中英文翻譯、手語(yǔ)翻譯、眼神即微表情識(shí)別,以及歌舞才藝展示在內(nèi)的多種能力。
而支撐起“新翼”超高仿真外表和自然語(yǔ)言能力的是其背后扎實(shí)的技術(shù)能力。
研發(fā)團(tuán)隊(duì)使用了業(yè)界最先進(jìn)的4D LightStage采集技術(shù)掃描原始數(shù)據(jù),并通過(guò)自定義的超寫(xiě)實(shí)級(jí)虛擬人數(shù)資標(biāo)準(zhǔn),將繁復(fù)的點(diǎn)云數(shù)據(jù)精簡(jiǎn)至一個(gè)約5萬(wàn)面的臉部模型網(wǎng)絡(luò),賦予了“新翼”電影級(jí)的皮膚質(zhì)感。同時(shí)研發(fā)團(tuán)隊(duì)自研了一套骨骼+BS的混合驅(qū)動(dòng)方式和隱式學(xué)習(xí)+多模態(tài)特征融合的數(shù)字人驅(qū)動(dòng)引擎,通過(guò)實(shí)時(shí)捕捉演員表情變化和追蹤角色口型,幫助“新翼”實(shí)現(xiàn)了面部的微表情驅(qū)動(dòng)。
以“新翼”的面部為例,其骨骼數(shù)量就超過(guò)600根?!靶乱怼毖矍虻暮缒ぴ诓煌慕嵌染艹尸F(xiàn)出不同程度的扭曲變形效果。在眉頭的位置,傳統(tǒng)的模型網(wǎng)格變化難以達(dá)到明顯的褶皺效果來(lái)凸顯眉頭的川字紋,而通過(guò)特殊貼圖的處理方式,在特殊表情觸發(fā)法線貼圖的混合,從而強(qiáng)化微觀表情細(xì)節(jié)的效果。
此外,在數(shù)字人的環(huán)境渲染方面,研發(fā)團(tuán)隊(duì)也做了細(xì)致的處理。為了模擬真實(shí)皮膚的光照細(xì)節(jié),研發(fā)團(tuán)隊(duì)基于次表面散射效果,特意開(kāi)發(fā)了超寫(xiě)實(shí)風(fēng)格的相關(guān)渲染環(huán)境,便利光線不被阻擋地對(duì)皮膚進(jìn)行透射。
打造3D數(shù)字人全鏈路能力
建設(shè)電信數(shù)字人產(chǎn)品矩陣
建設(shè)電信數(shù)字人產(chǎn)品矩陣,通過(guò)數(shù)字人生產(chǎn)管理平臺(tái),實(shí)現(xiàn)數(shù)字人快速建模和快速應(yīng)用;打造數(shù)字人客服系統(tǒng),完成3D數(shù)字人全鏈路能力的打造,自研端云結(jié)合渲染引擎,打造行業(yè)領(lǐng)先的數(shù)字人產(chǎn)品。這一系列的動(dòng)作,證明了電信智科自研的數(shù)字人系統(tǒng)已經(jīng)具備數(shù)字人生產(chǎn)、驅(qū)動(dòng)、渲染、數(shù)資管理的全鏈路能力,支持將現(xiàn)有技術(shù)標(biāo)準(zhǔn)化地快速賦能到各類應(yīng)用和快速?gòu)?fù)制輸出至新的數(shù)字人形象。本次亮相的“新翼”并非電信智科推出的第一款數(shù)字人,早在今年5月,身份型數(shù)字人“數(shù)數(shù)”即出席并與央視名嘴康輝互動(dòng)主持2023數(shù)博會(huì)開(kāi)幕式及論壇發(fā)布會(huì)。
不僅如此,服務(wù)型數(shù)字人同時(shí)也實(shí)現(xiàn)了在北京、浙江、安徽、廣東客服系統(tǒng)加載落地,實(shí)現(xiàn)全網(wǎng)統(tǒng)一形象、統(tǒng)一能力、統(tǒng)一業(yè)務(wù);助理數(shù)字人更是貼合電信核心的通話業(yè)務(wù),打造新一代通信助理、視頻彩鈴業(yè)務(wù)。
發(fā)力數(shù)字人業(yè)務(wù),搶灘大模型賽道,電信智科緊緊跟隨行業(yè)發(fā)展風(fēng)向,積極布局新技術(shù)。目前,電信智科的數(shù)字人客服已經(jīng)在計(jì)算機(jī)視覺(jué)(CV)、NLP和語(yǔ)音三項(xiàng)核心能力上達(dá)到了行業(yè)的一線水平。在技術(shù)層面,唇形驅(qū)動(dòng)算法在雙盲測(cè)試中,全面超越業(yè)內(nèi)頭部算法,該算法獲得AIWIN世界人工智能大賽第四名。在計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)國(guó)際會(huì)議CVPR 2023競(jìng)賽環(huán)節(jié)中,電信智科AI團(tuán)隊(duì)在6項(xiàng)競(jìng)賽中名列三甲,其中包括兩項(xiàng)冠軍,體現(xiàn)了強(qiáng)大的自研能力。
響應(yīng)數(shù)字中國(guó)建設(shè)整體布局規(guī)劃的號(hào)召,踐行央企使命擔(dān)當(dāng),中國(guó)電信集團(tuán)在AI自研的征程上斬獲豐厚成果。未來(lái),中國(guó)電信將不遺余力推動(dòng)數(shù)字人核心技術(shù)突破創(chuàng)新,響應(yīng)行業(yè)需求,打造全棧式智能產(chǎn)業(yè)鏈,賦能千行百業(yè),助力數(shù)字經(jīng)濟(jì)發(fā)展。