精品黄毛片免费在看看,超碰97人人操狠狠干成

旅游生活報科技正文

美攝科技張瑞全：拓展AIGC+數(shù)字人的想象空間

2023-04-03 11:22 來源：互聯(lián)網(wǎng) 閱讀次數(shù)：3952

隨著人工智能的快速發(fā)展，視音頻技術也迎來了蓬勃的發(fā)展期。3月31日至4月1日，國內音視頻領域盛會LiveVideoStackCon在北京成功舉辦，眾多業(yè)內企業(yè)、技術專家和學者齊聚一堂，共同探討多媒體音視頻技術在技術升級、業(yè)務場景和應用創(chuàng)新等方面的實踐和探索。作為視音頻技術領域的代表企業(yè)之一，北京美攝網(wǎng)絡科技有限公司連續(xù)六年參會，展示了在AIGC、數(shù)字人等領域的領先成果，展現(xiàn)了美攝科技的技術實力和創(chuàng)新能力。

美攝科技研發(fā)中心高級AI算法專家張瑞全出席活動，并圍繞數(shù)字化內容生產(chǎn)快速落地分享了自己的見解。

美攝AIGC數(shù)字人基于虛擬視頻合成技術，通過綜合利用計算機視覺、圖像處理和深度學習等技術，可以在無實物的條件下生成虛擬視頻。目前主要有三種視頻生成技術：語音驅動、動作驅動以及換臉。目前主要存在兩個技術難點：一是表情和口型預測，合成視頻容易出現(xiàn)音色改變、口型抖動、口型失真等干擾；二是視頻幀渲染，如何實現(xiàn)真實面部渲染、防止表情失真，如何獲取訓練數(shù)據(jù)，都是要解決的問題。

張瑞全向與會者介紹了美攝研發(fā)中心實現(xiàn)表情和口型預測、3D人臉渲染及合成的技術原理，并詳細比較了不同方法的優(yōu)缺點。據(jù)他介紹，美攝科技研發(fā)團隊已經(jīng)拿出了相對成熟的技術方案，實現(xiàn)了逼真的虛擬視頻合成效果。

以此為依托，張瑞全團隊開發(fā)出多種借助AI技術快速生成數(shù)字人形象的產(chǎn)品應用，包括照片自動生成形象、視頻自動生成形象以及GLB模型自動轉換形象三種方式。操作者只需上傳一張照片或一段視頻，錄入預設的文本內容，系統(tǒng)就可以自動生成對應的數(shù)字人形象，并配以逼真的語音播報口型，大大縮短制作周期。

他特別提到，以GLB生成數(shù)字人形象時，可以將其轉換為美攝自研的3D文件格式“.ARSCENE”，轉換后的效果包可以通過MeisheSDK在不同的平臺上實時渲染驅動。GLB文件是以圖形語言傳輸格式保存的3D模型，它以二進制格式存儲有關3D模型的信息，包括節(jié)點層級、攝像機、材質、動畫和網(wǎng)格。

而談到近來大熱的ChatGPT，張瑞全表示團隊目前主要關注兩個應用方向。一是智能數(shù)字人語音助手，將ChatGPT的混合語義理解能力和美攝已有的語音交互系統(tǒng)相結合，當用戶提問一些開放性問題時，數(shù)字人助手可以給出更好的回答。二是將ChatGPT、視頻剪輯和數(shù)字人相結合，用戶只需填寫一句話，設定好要求，系統(tǒng)就可以通過ChatGPT返回分鏡腳本，并從中提取所需標簽，由系統(tǒng)從媒資庫中智能尋找對應的圖像和視頻資料。用戶可以選擇推薦素材，一鍵套用模板，直接形成預覽視頻，極大提高視頻創(chuàng)作效率。

據(jù)張瑞全分享，美攝科技的AIGC數(shù)字人方案已經(jīng)成功落地于多個一線品牌，在智能汽車、智能手表、智能手機、社交軟件等領域的產(chǎn)品中都取得了出色的應用效果，為這些產(chǎn)品注入了更多創(chuàng)新和智能化元素。

責任編輯：Linda