今日应用
今日话题
与Sora同架构,高效、连贯文生视频模型
重点标签 Snap Video、Transformer架构、视频生成、AI算力、自适应建模
文章摘要
Snap Video是由Snap、特伦托大学、加州大学和布鲁诺凯斯勒基金会的研究人员联合推出的一款高效且连贯一致性的视频生成模型。该模型采用了与OpenAI的Sora相似的Transformer架构,并结合了时空压缩表示、全局联合时空建模以及自适应建模等先进技术,使得生成的视频在质量、动作一致性以及复杂动作表现方面表现出色。
Snap Video的另一大特点是其能够根据文本提示对原始视频素材进行剪辑和合成,以生成满足特殊需求的定制化视频,这对于短视频和影视行业具有巨大的帮助。在性能评估方面,研究人员在UCF101和MSR-VTT数据集上对Snap Video进行了测试,结果表明其在文本对齐、运动质量和动态效果上可媲美Gen-2,且明显优于Pika和Floor33。
与传统的文生视频模型相比,Snap Video在使用Transformer架构的基础上,大幅降低了AI算力需求和模型推理的复杂性。例如,其训练效率比U-Net快3.31倍,推理速度快4.5倍。此外,研究人员还扩展了EDM框架,通过降低空间和时间冗余像素,提升了模型质量和训练效率。
Snap Video的核心模块之一是Transformer,它包含多个自注意力层和前馈神经网络层,能够捕捉视频中的长期依赖关系和动态模式。此外,Snap Video采用了时空压缩表示的方法,将时空维度视为一个压缩的一维潜在向量,显著减少了模型中的参数数量和计算复杂度。通过全局联合时空建模策略,Snap Video在时空维度上共享参数,避免了重复计算浪费算力,同时更好地捕捉视频中的长期依赖关系和动态模式。
最后,Snap Video引入了一种自适应建模机制,可根据输入文本的语义信息对运动进行精确建模。通过自适应地调整模型的注意力和权重分配,模型可以更加准确地生成与文本描述相对应的运动。这项技术的详细介绍和研究成果可以在论文地址https://arxiv.org/abs/2402.14797中找到。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC开放社区