谷歌推出多模态视频模型,自动生成丰富动作视频

AI最新资讯4个月前发布 tree
72 0 0

今日应用


今日话题


谷歌推出多模态视频模型,自动生成丰富动作视频
谷歌推出多模态视频模型,自动生成丰富动作视频
 

重点标签 AIGCVLOGGER多模态虚拟数字人时序外推

文章摘要


VLOGGER模型概述:
VLOGGER是谷歌研究人员推出的一款多模态扩散模型,能够根据用户输入的图像和语音生成带语音和丰富动作的人物视频。该模型结合了文本生成图像模型与空间、时间控制,提升了视频生成的逼真效果和动作的丰富性。在多个数据集上的测试显示,VLOGGER在视频质量、物体还原性和时序一致性等方面表现出色,并且能够生成丰富的上半身和手势动作。

技术创新与应用:
VLOGGER模型的创新之处在于提出了全新的多阶段扩散模型架构。首先,通过随机扩散模型根据输入语音生成人体运动轨迹,包括表情、姿势等细节。其次,使用时空扩散架构实现完整的人物视频合成。VLOGGER无需针对每个新人物重新训练模型,直接生成完整目标图像,并考虑了现实中复杂的交流场景。

语音生成与人物生成:
VLOGGER的第一阶段使用Transformer神经网络生成3D面部表情和身体姿势参数。第二阶段则在空间和时间上进行条件控制,生成高质量、任意长度的视频。通过级联扩散方法,VLOGGER能够生成高分辨率的高质量影像。

VLOGGER数据集:
为提高VLOGGER的泛化能力和安全性,研究人员构建了大规模训练数据集MENTOR,包含80万名不同身份的人物视频,视频长度超过2200小时。数据集中的视频提供了3D姿势和表情标注,对训练VLOGGER的多模态能力发挥重要作用。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...