开源视频模型SV4D,一键创建8角度动态3D视频

AI最新资讯2个月前发布 tree
26 0 0

今日应用


今日话题


开源视频模型SV4D,一键创建8角度动态3D视频
开源视频模型SV4D,一键创建8角度动态3D视频
 

重点标签 AIGCSV4D3D视频开源模型技术创新

文章摘要


Stability.ai 最近开源了一项创新的视频模型 Stable Video 4D(简称“SV4D”),该模型能够将单个视频转换成具有8个不同角度的动态3D视频。使用该模型的方法非常简单,用户只需上传视频并选择3D相机姿势,大约40秒的推理时间即可完成视频的创建。与SV3D、STAG4D等同类模型相比,SV4D 在推理效率和生成质量上都有显著的提升。

SV4D 面临的技术挑战包括缺乏大规模的动态3D对象数据集以及问题的高维性质,这需要大量的参数来表示对象的3D形状、外观和运动。SV4D 的创新之处在于它采用了统一的扩散模型作为基础,能够同时处理视频帧和视角的生成,解决了之前需要分别训练视频生成和新视角合成的模型效率低下的问题。

在技术实现上,SV4D 结合了Stability.ai之前开源的SVDSV3D网络结构,融合了视频和多视角扩散模型的优势。网络结构包含一个多层的UNet,每层由一个残差块和三个带有注意力层的transformer块组成。这些注意力层包括空间注意力、视角注意力和帧注意力,以确保生成的视频在空间和时间上具有高度的一致性。

在模型训练阶段,SV4D 需要同时生成大量的图像网格,这对算力是一个巨大的挑战。为了解决这个问题,研究人员采用了顺序处理交错的输入帧子集的方法,同时保持输出图像网格的一致性。此外,由于缺乏大规模的动态3D对象训练数据集,研究人员从现有的Objaverse数据集中整理出了一个新的训练数据集ObjaverseDy

为了评估SV4D的性能,研究人员在ObjaverseDyConsistent4D和真实世界视频数据集DAVIS等进行了综合测试,并与其他先进模型进行了比较。结果显示,SV4D 在视频帧一致性方面表现出色,同时保持了与其他方法相当的图像质量。与SV3DSTAG4D相比,SV4D 在FVD – F分别降低了31.5%和21.4%,在Objaverse数据集上,SV4D 在视频帧一致性和多视角一致性方面都有显著优势,证明了其在合成新视角视频方面的优越性能。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...