今日应用
今日话题
CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
重点标签 Video Pose Transformer、三维人体姿态估计、计算效率、沙漏 Tokenizer、HoT
文章摘要
本文介绍了一种名为Hourglass Tokenizer(HoT)的高效三维人体姿态估计框架,旨在解决现有Video Pose Transformer(VPT)模型高计算需求的问题。HoT通过剪枝和恢复策略,降低了近40%的计算量而不损失精度。该框架可以无缝集成到多种模型中,具有高度的通用性。实验结果表明,HoT在提高效率的同时,能够保持甚至提升模型性能。
研究动机:
VPT模型处理长视频序列时计算量大,限制了其发展和应用。为了提升效率,需要考虑时间感受野和视频冗余的去除。HoT框架通过Token剪枝聚类(TPC)和Token恢复注意力(TRA)模块,实现了高效的三维人体姿态估计。
模型方法:
HoT框架包括TPC和TRA两个模块。TPC模块通过聚类算法选择代表性Token,减少冗余。TRA模块则恢复详细的时空信息,实现快速推理。这两个模块可以应用于现有的VPT架构,包括seq2seq和seq2frame两种推理流程。
实验结果:
消融实验和与SOTA方法的对比显示,HoT能够有效降低计算量,同时保持或提升性能。作者还提供了demo运行,展示了HoT的实际应用效果。
小结:
HoT作为一种即插即用的框架,能够显著提升VPT的效率和性能。它的提出有望推动开发更强、更快的VPT模型。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...