微软推出VASA-1:可生成会说话的,动态人物视频

AI最新资讯1个月前发布 tree
20 0 0

今日应用


今日话题


微软推出VASA-1:可生成会说话的,动态人物视频
微软推出VASA-1:可生成会说话的,动态人物视频
 

重点标签 VASA-1AIGC微软人物视频合成面部潜在空间

文章摘要


微软亚洲研究院推出了一款名为VASA-1的新技术,它能够通过输入一张图片和一段音频生成表情丰富、细节逼真的动态人物视频。这项技术在在线流媒体环境中可以支持高达40fps的帧率,延迟仅为170ms左右,且只需一张英伟达的4090 GPU即可实现,显示出其高效的整体性能。

VASA-1的核心技术在于构建面部潜在空间,它将面部动态和头部运动进行综合建模,并将所有这些面部动态视为一个单一的潜在变量。通过视频数据训练,VASA-1能够以更低的资源消耗捕捉到人类面部的细微表情和头部动作。此外,VASA-1能够接受一组可选的控制信号,包括脸部凝视方向、头部到相机的距离,使得生成的面部表情可以根据特定业务场景需求进行动态调整。

在音频驱动面部生成方面,VASA-1使用了一个扩散模型从输入的音频中提取特征,然后使用扩散变换器根据提取的音频特征生成面部动态的潜在代码。研究人员在VoxCeleb2、OneMin-32基准测试中对VASA-1进行了综合测试,结果显示VASA-1在音频-唇部同步分数上表现最佳,且SC和SD分数均高于其他模型,接近真实视频的表现。

此前,阿里巴巴的研究人员发布了一款类似的视频模型EMO,成功将张国荣、奥黛丽赫本等名人“复活”,在AI圈内引起了很大的反响。随后,清华大学、东京大学、庆应义塾大学等联合开源了EMAGE;华为、腾讯开源了AniPortrait;谷歌推出了VLOGGER模型,这些技术在生成效果方面基本与EMO差不多。再加上微软本次推出的VASA-1,充分说明人物视频合成领域已经受到了广泛的关注,并且有很大的应用空间。例如,数字人主播在直播带货等场景中的应用,便离不开EMO、VASA-1这类技术的加持。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...