两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

AI最新资讯4个月前发布 tree

57 0 0

今日应用

素材中国字体

素材中国,素材CNN_免费素材共享平台.图片素材图库提供海量素材,图片下载,设计素材,PSD源文件,矢量图,AI,CDR,EPS等高清图片下载

今日话题

两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

重点标签 文生视频、StreamingT2V、长视频生成、自回归方法、视频增强

文章摘要

文章介绍了一种新的文生视频方法——StreamingT2V，由Picsart AI Research等多个机构联合提出。该方法能够生成具有时间一致性的长视频，解决了现有方法在生成长视频时面临的质量和文本对齐问题。新方法采用了条件注意力模块（CAM）和外观保留模块（APM），并通过自回归视频增强技术提升视频质量和分辨率。实验结果表明，StreamingT2V在时间一致性、运动动态和文本对齐质量方面均优于现有方法。

详细总结：

1. 背景与挑战：
– 现有文生视频技术主要关注短视频生成，长视频生成存在挑战。
– 长视频生成需要高成本训练，且自回归方法存在场景切换不一致问题。

2. StreamingT2V方法：
– 提出了新的自回归方法，结合长短期记忆模块，生成长视频。
– 引入条件注意力模块（CAM）和外观保留模块（APM）以提高视频一致性和质量。
– 使用高分辨率文生视频模型和SDEdit方法提升视频块质量。

3. 技术细节：
– 条件注意力模块（CAM）： 利用之前帧的信息生成新帧，实现块间无缝切换。
– 外观保留模块（APM）： 从锚帧提取外观信息，保持视频生成过程中的场景和对象特征稳定。
– 自回归视频增强： 使用高分辨率模型和随机混合方法处理视频块，提升质量。

4. 实验与评估：
– 使用SCuts分数、MAWE、CLIP分数和美学分数等指标评估视频质量。
– 通过消融研究验证了CAM和APM模块的有效性。
– 定量和定性评估显示，StreamingT2V在多个方面优于基线模型。

5. 结论：
– StreamingT2V成功解决了长视频生成中的一致性和质量问题，展示了文生视频技术的新进展。
– 该方法的提出为长视频内容创作和相关应用领域带来了新的可能性。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

今日应用

今日话题

文章摘要

文章来源

今年，中国AI大模型产业发展看这些

详解Latte：去年底上线的全球首个开源文生视频DiT

相关文章

暂无评论

热门网址

热门标签