两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

AI最新资讯4个月前发布 tree
57 0 0

今日应用


今日话题


两分钟1200帧的长视频生成StreamingT2V来了,代码将开源
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
 

重点标签 文生视频StreamingT2V长视频生成自回归方法视频增强

文章摘要


文章介绍了一种新的文生视频方法——StreamingT2V,由Picsart AI Research等多个机构联合提出。该方法能够生成具有时间一致性的长视频,解决了现有方法在生成长视频时面临的质量和文本对齐问题。新方法采用了条件注意力模块(CAM)和外观保留模块(APM),并通过自回归视频增强技术提升视频质量和分辨率。实验结果表明,StreamingT2V在时间一致性、运动动态和文本对齐质量方面均优于现有方法。

详细总结:

1. 背景与挑战:
– 现有文生视频技术主要关注短视频生成,长视频生成存在挑战。
– 长视频生成需要高成本训练,且自回归方法存在场景切换不一致问题。

2. StreamingT2V方法:
– 提出了新的自回归方法,结合长短期记忆模块,生成长视频。
– 引入条件注意力模块(CAM)和外观保留模块(APM)以提高视频一致性和质量。
– 使用高分辨率文生视频模型和SDEdit方法提升视频块质量。

3. 技术细节:
条件注意力模块(CAM): 利用之前帧的信息生成新帧,实现块间无缝切换。
外观保留模块(APM): 从锚帧提取外观信息,保持视频生成过程中的场景和对象特征稳定。
自回归视频增强 使用高分辨率模型和随机混合方法处理视频块,提升质量。

4. 实验与评估:
– 使用SCuts分数、MAWE、CLIP分数和美学分数等指标评估视频质量。
– 通过消融研究验证了CAM和APM模块的有效性。
– 定量和定性评估显示,StreamingT2V在多个方面优于基线模型。

5. 结论:
– StreamingT2V成功解决了长视频生成中的一致性和质量问题,展示了文生视频技术的新进展。
– 该方法的提出为长视频内容创作和相关应用领域带来了新的可能性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...