今日应用
今日话题
华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频
重点标签 AIGC社区、AniPortrait模型、华为腾讯、开源创新、视频生成
文章摘要
华为和腾讯的研究人员联合开源了一项名为AniPortrait的创新视频模型,该模型能够通过音频和人物图片自动生成音频同步的视频。这项技术与阿里集团发布的EMO模型和谷歌的VLOGGER功能相似,但AniPortrait是开源的,提供了更多的灵活性和可访问性。
AniPortrait的核心框架分为两大块:首先是Audio2Lmk音频提取模块,它使用语音识别模型wav2vec 2.0从原始语音波形中提取语义表示,捕捉发音和语调等特征。然后,研究人员设计了两个并行的小型网络,分别学习3D面部网格序列和头部姿态序列。为了增强头部姿态与语音的节奏和音调的关联性,使用了Transformer解码器来捕捉时序关联性。
在训练阶段,研究人员使用了近一小时的高质量演员语音数据和公开的人脸数据集HDTF,通过监督学习提升了从语音到3D面部表情和头部姿态的映射精度。
其次是Lmk2Video视频生成模块,它的作用是将Audio2Lmk捕捉到的3D人脸数据和姿态数据渲染成高分辨率视频。Lmk2Video使用了AnimateAnyone模型,但对原版模型进行了改良,以更好地理解面部特征与整体外观之间的内在联系,提升动画的精细度和一致性。研究人员还特意用不同颜色区分上下嘴唇,以增强网络对嘴型变化的敏感度。
AniPortrait的开源地址为:[https://github.com/Zejun-Yang/AniPortrait](https://github.com/Zejun-Yang/AniPortrait),论文地址为:[https://arxiv.org/abs/2403.17694](https://arxiv.org/abs/2403.17694)。这项技术的发展和应用落地,将为AIGC领域的市场研究和开发者生态带来新的机遇和挑战。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC开放社区