华为、腾讯开源AniPortrait：用音频、图片生成会说话的视频

AI最新资讯4个月前发布 tree

38 0 0

今日应用

闪萌

闪萌官网，GIF动图中文搜索引擎，发现好玩的gif动图,包括明星、美女、搞笑、微信QQ聊天表情包，可以一键分享到微信QQ新浪微博，支持gif动图下载，表情包下载到手机

今日话题

华为、腾讯开源AniPortrait：用音频、图片生成会说话的视频

重点标签 AIGC社区、AniPortrait模型、华为腾讯、开源创新、视频生成

文章摘要

华为和腾讯的研究人员联合开源了一项名为AniPortrait的创新视频模型，该模型能够通过音频和人物图片自动生成音频同步的视频。这项技术与阿里集团发布的EMO模型和谷歌的VLOGGER功能相似，但AniPortrait是开源的，提供了更多的灵活性和可访问性。

AniPortrait的核心框架分为两大块：首先是Audio2Lmk音频提取模块，它使用语音识别模型wav2vec 2.0从原始语音波形中提取语义表示，捕捉发音和语调等特征。然后，研究人员设计了两个并行的小型网络，分别学习3D面部网格序列和头部姿态序列。为了增强头部姿态与语音的节奏和音调的关联性，使用了Transformer解码器来捕捉时序关联性。

在训练阶段，研究人员使用了近一小时的高质量演员语音数据和公开的人脸数据集HDTF，通过监督学习提升了从语音到3D面部表情和头部姿态的映射精度。

其次是Lmk2Video视频生成模块，它的作用是将Audio2Lmk捕捉到的3D人脸数据和姿态数据渲染成高分辨率视频。Lmk2Video使用了AnimateAnyone模型，但对原版模型进行了改良，以更好地理解面部特征与整体外观之间的内在联系，提升动画的精细度和一致性。研究人员还特意用不同颜色区分上下嘴唇，以增强网络对嘴型变化的敏感度。

AniPortrait的开源地址为：[https://github.com/Zejun-Yang/AniPortrait](https://github.com/Zejun-Yang/AniPortrait)，论文地址为：[https://arxiv.org/abs/2403.17694](https://arxiv.org/abs/2403.17694)。这项技术的发展和应用落地，将为AIGC领域的市场研究和开发者生态带来新的机遇和挑战。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

华为、腾讯开源AniPortrait：用音频、图片生成会说话的视频

今日应用

今日话题

文章摘要

文章来源

杨立昆：加州SB1047法案起草者，是末日邪教大师

速来！潞晨Open-Sora羊毛可薅，10元轻松上手视频生成

相关文章

暂无评论

热门网址

热门标签