阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

AI最新资讯2个月前发布 tree
24 0 0

今日应用


今日话题


阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律
阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律
 

重点标签 视频生成扩散模型ToraDiT架构物理模拟

文章摘要


Tora是一种基于扩散模型视频生成技术,由阿里的研究者开发。它采用Diffusion Transformer(DiT)架构,能够生成10到60秒的高质量视频,支持不同分辨率和纵横比,同时遵守实际物理定律。Tora是首个面向轨迹的DiT架构,将文本、视觉和轨迹条件集成,实现视频生成。

Tora的设计充分利用了DiT架构的可扩展性,允许对视频内容的持续时间、宽高比和分辨率进行精确控制。实验结果显示,Tora在高运动保真度方面表现出色,能够细致模拟物理世界的运动。

Tora的核心组件包括轨迹提取器(TE)、时空DiT(ST-DiT)和运动引导融合器(MGF)。TE将任意轨迹编码为分层时空运动patch,MGF将运动patch集成到DiT块中,生成遵循轨迹的一致视频。ST-DiT包含空间DiT块和时间DiT块,交替排列,利用处理可变长度序列的能力,去噪ST-DiT可以处理可变持续时间的视频。

在实验中,研究者基于OpenSora v1.2权重训练Tora,使用4块英伟达A100和Adam优化器。Tora与流行的运动指导视频生成方法进行了比较,在16帧、64帧和128帧的设置下,Tora在轨迹精度和运动控制方面均展现出卓越的性能。

Tora生成的视频流畅度高,物体运动更符合物理世界,能够保持有效的轨迹控制。在不同分辨率和持续时长的轨迹误差分析中,Tora的轨迹误差随时间推移渐进增加,与DiT模型中视频质量随时间增加而下降相一致。在包含两人共同运动的场景中,Tora的视觉质量更好,有助于实现更平滑的运动轨迹和更逼真的背景渲染。

例如,在自行车场景中,Tora生成的人物双腿表现出逼真的踩踏动作,而其他方法如DragNUWA和MotionCtrl则出现了违反物理真实性的问题。在生成灯笼的场景中,Tora严格遵循轨迹,最大程度减少了物体变形,确保了更高保真度的动作表示。

更多技术细节和实验结果可以在原论文中找到。Tora的开发为视频生成领域带来了新的突破,展示了DiT架构在生成可控动作视频方面的潜力。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...