CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作

AI最新资讯4个月前发布 tree

75 0 0

今日应用

口袋云盘搜索

各大盘资源免费搜网

今日话题

CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作

重点标签 数字人、驱动算法、VR Chat、虚拟直播、EMAGE

文章摘要

EMAGE研究论文分为BEAT2和EMAGE两部分。BEAT2是一个包含60小时数据的全身数据集，结合了SMPLX的肢体和FLAME的面部参数，提供了一个标准化且高质量的3D动捕数据集。EMAGE框架则利用肢体动作掩码的先验知识提高推理性能，通过音频与动作掩码的转换器，有效地将音频和肢体动作的提示帧编码进网络。

EMAGE的特点包括：
– 支持用户自定义输入，具有灵活性；
– 可以生成与音频同步的多样化肢体动作；
– 能够接受非音频同步的肢体提示帧，引导生成的动作；
– 利用离散的面部先验知识和动作掩码的肢体提示帧，实现精准的唇动性能。

算法细节方面：
– EMAGE采用动作掩码重建（MG2G）和使用音频的动作生成（A2G）两种训练路线；
– 可切换的交叉注意力层作为关键组件，合并肢体提示帧和音频特征；
– 使用预训练的VQ-Decoder解码面部和局部肢体运动；
– 预训练的全局运动预测器估计全身的全局平移。

CRA和VQ-VAEs的训练模型细节：
– 内容节奏注意力模块（CRA）自适应地融合音频的节奏和内容；
– 四个组合式VQ-VAEs模型分别重建面部、肢体上半身、手部和肢体下半身，解耦与音频无关的动作。

EMAGE框架的提出为数字人研发领域带来了新的突破，有望进一步推动相关技术的发展和应用。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作

今日应用

今日话题

文章摘要

文章来源

微软、OpenAI又搞大动作：斥资1000亿美元开发AI超算「星际之门」

LMa-UNet: 探索大kernel Mamba在医学图像分割上的潜力

相关文章

暂无评论

热门网址

热门标签