微软推出VASA-1：可生成会说话的，动态人物视频

今日应用

阿里云开发者社区覆盖云计算、物联网、大数据、云原生、数据库、人工智能、微服务、安全、开发、运维等技术领域，集合阿里巴巴经济体各个单元技术优势，提供分享、交流、学习、认证、工具、资源、大赛、活动、社群、创业一站式服务能力，满足开发者全生命周期成长需求。

今日话题

微软推出VASA-1：可生成会说话的，动态人物视频

重点标签 VASA-1、AIGC、微软、人物视频合成、面部潜在空间

文章摘要

微软亚洲研究院推出了一款名为VASA-1的新技术，它能够通过输入一张图片和一段音频生成表情丰富、细节逼真的动态人物视频。这项技术在在线流媒体环境中可以支持高达40fps的帧率，延迟仅为170ms左右，且只需一张英伟达的4090 GPU即可实现，显示出其高效的整体性能。

VASA-1的核心技术在于构建面部潜在空间，它将面部动态和头部运动进行综合建模，并将所有这些面部动态视为一个单一的潜在变量。通过视频数据训练，VASA-1能够以更低的资源消耗捕捉到人类面部的细微表情和头部动作。此外，VASA-1能够接受一组可选的控制信号，包括脸部凝视方向、头部到相机的距离，使得生成的面部表情可以根据特定业务场景需求进行动态调整。

在音频驱动面部生成方面，VASA-1使用了一个扩散模型从输入的音频中提取特征，然后使用扩散变换器根据提取的音频特征生成面部动态的潜在代码。研究人员在VoxCeleb2、OneMin-32基准测试中对VASA-1进行了综合测试，结果显示VASA-1在音频-唇部同步分数上表现最佳，且SC和SD分数均高于其他模型，接近真实视频的表现。

此前，阿里巴巴的研究人员发布了一款类似的视频模型EMO，成功将张国荣、奥黛丽赫本等名人“复活”，在AI圈内引起了很大的反响。随后，清华大学、东京大学、庆应义塾大学等联合开源了EMAGE；华为、腾讯开源了AniPortrait；谷歌推出了VLOGGER模型，这些技术在生成效果方面基本与EMO差不多。再加上微软本次推出的VASA-1，充分说明人物视频合成领域已经受到了广泛的关注，并且有很大的应用空间。例如，数字人主播在直播带货等场景中的应用，便离不开EMO、VASA-1这类技术的加持。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

微软推出VASA-1：可生成会说话的，动态人物视频

今日应用

今日话题

文章摘要

文章来源

谷歌开源专业代码模型：对硬件要求低，性能超强！

重磅！Llama-3，最强开源大模型正式发布！

相关文章

暂无评论

热门网址

热门标签