文本直接生成2分钟视频,即将开源模型StreamingT2V

AI最新资讯4个月前发布 tree
47 0 0

今日应用


今日话题


文本直接生成2分钟视频,即将开源模型StreamingT2V
文本直接生成2分钟视频,即将开源模型StreamingT2V
 

重点标签 AIGCStreamingT2V视频生成技术突破开源

文章摘要


AIGC领域的新突破: 研究人员来自Picsart人工智能研究所、德克萨斯大学和SHI实验室联合推出了StreamingT2V视频模型,该模型能够通过文本直接生成不同时间长度的高质量视频。虽然在视频质量和多元化方面尚不及Sora,但StreamingT2V在处理高速运动方面表现出色,为长视频模型开发提供了新思路。

技术创新与模块介绍: StreamingT2V采用了自回归技术框架,包含条件注意力、外观保持和随机混合三大核心模块。条件注意力模块作为短期记忆,通过注意力机制实现流畅的视频块间过渡。外观保持模块则作为长期记忆,保持视频的全局场景和对象特征一致性。随机混合模块则用于增强视频分辨率,通过自回归增强方法提升视频质量。

实验成果与未来展望: 实验数据显示,StreamingT2V成功生成了1分钟和2分钟的长视频,保持了高分辨率和清晰画质,同时提升了时间连贯性。视频中物体的运动姿态丰富,场景和物体随时间的演变更加自然流畅。研究人员表示,理论上,StreamingT2V可以无限扩展视频长度,并计划将该模型开源

资源链接: 论文地址和GitHub地址已提供,供感兴趣的读者和开发者进一步了解和使用StreamingT2V模型。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...