今日应用
今日话题
谷歌推出多模态视频模型,自动生成丰富动作视频
重点标签 AIGC、VLOGGER、多模态、虚拟数字人、时序外推
文章摘要
VLOGGER模型概述:
VLOGGER是谷歌研究人员推出的一款多模态扩散模型,能够根据用户输入的图像和语音生成带语音和丰富动作的人物视频。该模型结合了文本生成图像模型与空间、时间控制,提升了视频生成的逼真效果和动作的丰富性。在多个数据集上的测试显示,VLOGGER在视频质量、物体还原性和时序一致性等方面表现出色,并且能够生成丰富的上半身和手势动作。
技术创新与应用:
VLOGGER模型的创新之处在于提出了全新的多阶段扩散模型架构。首先,通过随机扩散模型根据输入语音生成人体运动轨迹,包括表情、姿势等细节。其次,使用时空扩散架构实现完整的人物视频合成。VLOGGER无需针对每个新人物重新训练模型,直接生成完整目标图像,并考虑了现实中复杂的交流场景。
语音生成与人物生成:
VLOGGER的第一阶段使用Transformer神经网络生成3D面部表情和身体姿势参数。第二阶段则在空间和时间上进行条件控制,生成高质量、任意长度的视频。通过级联扩散方法,VLOGGER能够生成高分辨率的高质量影像。
VLOGGER数据集:
为提高VLOGGER的泛化能力和安全性,研究人员构建了大规模训练数据集MENTOR,包含80万名不同身份的人物视频,视频长度超过2200小时。数据集中的视频提供了3D姿势和表情标注,对训练VLOGGER的多模态能力发挥重要作用。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...