谷歌推出多模态视频模型，自动生成丰富动作视频

AI最新资讯4个月前发布 tree

72 0 0

今日应用

超级简历WonderCV

WonderCV - 您事业飞跃的助手，提供各行业简历模板，HR推荐，简历优化建议，成就高薪职位和留学梦想！

今日话题

谷歌推出多模态视频模型，自动生成丰富动作视频

重点标签 AIGC、VLOGGER、多模态、虚拟数字人、时序外推

文章摘要

VLOGGER模型概述：
VLOGGER是谷歌研究人员推出的一款多模态扩散模型，能够根据用户输入的图像和语音生成带语音和丰富动作的人物视频。该模型结合了文本生成图像模型与空间、时间控制，提升了视频生成的逼真效果和动作的丰富性。在多个数据集上的测试显示，VLOGGER在视频质量、物体还原性和时序一致性等方面表现出色，并且能够生成丰富的上半身和手势动作。

技术创新与应用：
VLOGGER模型的创新之处在于提出了全新的多阶段扩散模型架构。首先，通过随机扩散模型根据输入语音生成人体运动轨迹，包括表情、姿势等细节。其次，使用时空扩散架构实现完整的人物视频合成。VLOGGER无需针对每个新人物重新训练模型，直接生成完整目标图像，并考虑了现实中复杂的交流场景。

语音生成与人物生成：
VLOGGER的第一阶段使用Transformer神经网络生成3D面部表情和身体姿势参数。第二阶段则在空间和时间上进行条件控制，生成高质量、任意长度的视频。通过级联扩散方法，VLOGGER能够生成高分辨率的高质量影像。

VLOGGER数据集：
为提高VLOGGER的泛化能力和安全性，研究人员构建了大规模训练数据集MENTOR，包含80万名不同身份的人物视频，视频长度超过2200小时。数据集中的视频提供了3D姿势和表情标注，对训练VLOGGER的多模态能力发挥重要作用。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

谷歌推出多模态视频模型，自动生成丰富动作视频

今日应用

今日话题

文章摘要

文章来源

重磅！无需注册，可直接使用ChatGPT

科技与法律的博弈｜欧盟人工智能法案背后的思考

相关文章

暂无评论

热门网址

热门标签