CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作

AI最新资讯4个月前发布 tree
75 0 0

今日应用


今日话题


CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作
CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作
 

重点标签 数字人驱动算法VR Chat虚拟直播EMAGE

文章摘要


EMAGE研究论文分为BEAT2和EMAGE两部分。BEAT2是一个包含60小时数据的全身数据集,结合了SMPLX的肢体和FLAME的面部参数,提供了一个标准化且高质量的3D动捕数据集。EMAGE框架则利用肢体动作掩码的先验知识提高推理性能,通过音频与动作掩码的转换器,有效地将音频和肢体动作的提示帧编码进网络。

EMAGE的特点包括:
– 支持用户自定义输入,具有灵活性;
– 可以生成与音频同步的多样化肢体动作;
– 能够接受非音频同步的肢体提示帧,引导生成的动作;
– 利用离散的面部先验知识和动作掩码的肢体提示帧,实现精准的唇动性能。

算法细节方面:
– EMAGE采用动作掩码重建(MG2G)和使用音频的动作生成(A2G)两种训练路线;
– 可切换的交叉注意力层作为关键组件,合并肢体提示帧和音频特征;
– 使用预训练的VQ-Decoder解码面部和局部肢体运动;
– 预训练的全局运动预测器估计全身的全局平移。

CRA和VQ-VAEs的训练模型细节:
– 内容节奏注意力模块(CRA)自适应地融合音频的节奏和内容;
– 四个组合式VQ-VAEs模型分别重建面部、肢体上半身、手部和肢体下半身,解耦与音频无关的动作。

EMAGE框架的提出为数字人研发领域带来了新的突破,有望进一步推动相关技术的发展和应用。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...