史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

AI最新资讯3周前发布 tree
10 0 0

今日应用


今日话题


史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
 

重点标签 实时AI视频生成Pyramid Attention Broadcast视频生成模型注意力机制无需训练

文章摘要


PAB技术的关键观察结果包括:不同时间步骤的注意力差异呈现出U形模式,在最初和最后的15%步骤中发生显著变化,而中间70%的步骤则非常稳定,差异很小。此外,在稳定的中间段内,空间注意力变化最大,时间注意力表现出与视频中的运动和动态相关的中频变化,跨模态注意力是最稳定的。

研究团队提出金字塔式注意力广播来减少不必要的注意力计算。在中间部分,将一个扩散步骤的注意力输出广播到几个后续步骤,从而显著降低计算成本。根据不同注意力的稳定性和差异性设置了不同的广播范围,即使没有后期训练,这种简单而有效的策略也能实现高达35%的加速,同时生成内容的质量损失可以忽略不计。

此外,PAB技术还通过改进序列并行来进一步提升视频生成速度。通过在PAB中传播时间注意力,减少了通信开销,使得实时视频生成可以进行更高效的分布式推理。

评估结果显示,PAB技术在8块英伟达H100 GPU上生成单个视频时,实现了1.26至1.32倍的加速,并在不同的调度器中保持稳定。当扩展到多块GPU时,实现了10.6倍的加速,并得益于高效的序列并行改进实现了与GPU数量之间的近线性扩展。定性结果表明,PAB技术在不同的GPU数量下均实现了不同程度的FPS加速。定量结果表明,PAB技术在Open-Sora、Open-Sora-Plan和Latte三个模型的LPIPS和SSIM指标上均取得了良好的性能。

更多技术细节和评估结果可以查看即将推出的论文,项目地址为:https://oahzxl.github.io/PAB/

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...