CVPR 2024|让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

AI最新资讯6个月前发布 tree
92 0 0

今日应用


今日话题


CVPR 2024|让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
CVPR 2024|让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
 

重点标签 视频姿态估计计算优化

文章摘要


摘要:
本文介绍了一种名为Hourglass Tokenizer(HoT)的高效三维人体姿态估计框架,由北京大学团队提出,旨在解决现有视频姿态Transformer(VPT)模型高计算需求的问题。HoT框架通过剪枝和恢复策略,降低了模型近40%的计算量,同时几乎不损失精度。该框架可以无缝集成到MHFormer、MixSTE、MotionBERT等模型中,并且代码已经开源。

研究动机:
VPT模型处理长视频序列时计算量大,限制了领域发展。为了提升VPT效率,需要考虑时间感受野和去除视频冗余。HoT框架通过深层Transformer的Pose Token剪枝和Seq2seq推理,解决了计算效率和精度的问题。

模型方法:
HoT框架包含Token剪枝聚类(TPC)和Token恢复注意力(TRA)两个模块。TPC模块选择具有代表性的Token以减少冗余,TRA模块恢复详细的时空信息以实现快速推理。这两个模块可以集成到现有的VPT模型中,支持seq2seq和seq2frame推理流程。

实验结果:
消融实验表明,HoT框架在保持模型参数量几乎不变的情况下,显著减少了FLOPs并提高了FPS。与SOTA方法比较,HoT在保持精度的同时显著降低了计算量,验证了其有效性和高效率。

代码运行:
作者提供了demo运行,集成了人体检测器和姿态提升器,可以通过一行代码输出三维人体姿态估计的demo。

小结:
HoT框架为VPT模型提供了一种即插即用的Token剪枝和恢复策略,实现了高精度和高效率。它的兼容性和适用性使其可以轻松集成到各种VPT模型中,展示了推动VPT领域发展的巨大潜力。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...