今日应用
今日话题
文本直接生成2分钟视频,即将开源模型StreamingT2V
重点标签 AIGC、StreamingT2V、视频生成、技术突破、开源
文章摘要
AIGC领域的新突破: 研究人员来自Picsart人工智能研究所、德克萨斯大学和SHI实验室联合推出了StreamingT2V视频模型,该模型能够通过文本直接生成不同时间长度的高质量视频。虽然在视频质量和多元化方面尚不及Sora,但StreamingT2V在处理高速运动方面表现出色,为长视频模型开发提供了新思路。
技术创新与模块介绍: StreamingT2V采用了自回归技术框架,包含条件注意力、外观保持和随机混合三大核心模块。条件注意力模块作为短期记忆,通过注意力机制实现流畅的视频块间过渡。外观保持模块则作为长期记忆,保持视频的全局场景和对象特征一致性。随机混合模块则用于增强视频分辨率,通过自回归增强方法提升视频质量。
实验成果与未来展望: 实验数据显示,StreamingT2V成功生成了1分钟和2分钟的长视频,保持了高分辨率和清晰画质,同时提升了时间连贯性。视频中物体的运动姿态丰富,场景和物体随时间的演变更加自然流畅。研究人员表示,理论上,StreamingT2V可以无限扩展视频长度,并计划将该模型开源。
资源链接: 论文地址和GitHub地址已提供,供感兴趣的读者和开发者进一步了解和使用StreamingT2V模型。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...