今日应用
今日话题
ECCV 2024|TAPTR:让跟踪最细粒度的视觉元素像检测一样简单
重点标签 视觉元素跟踪、TAPTR架构、ECCV 2024、性能对比、技术交流
文章摘要
本文介绍了两篇关于视觉元素跟踪的研究工作,这些工作被收录于ECCV 2024。研究者提出了一种新的网络架构TAPTR,将跟踪任务视为检测任务,通过将每个跟踪点视为一个visual prompt,并利用point-query和cost-volume等技术进行跟踪。TAPTR的架构简单高效,将跟踪点的建模清晰化,并基于对检测任务的深入研究,实现了高性能的跟踪效果。
TAPTR架构
TAPTR的网络架构分为三个阶段:
1. 准备阶段:使用ResNet和Transformer Encoder提取视频中每一帧的特征图,并通过双线性插值采样出描述被追踪点的特征。
2. 检测阶段:通过point-decoder检测被追踪点,包括cost-volume aggregation模块、cross-attention、point query间的交互以及temporal-attention等。
3. 滑动窗口策略:使用滑动窗口减少计算资源消耗,适应不同长度的视频,并通过window post-processing模块更新轨迹。
TAPTR性能
在TAP-Vid benchmark上的测试显示,TAPTR在各项性能指标上均达到最优,并且具有最快的速度。
TAPTRv2改进
TAPTRv2进一步探究了cost-volume的作用和替代方法,提出了Attention-based Position Update (APU),以减轻对cost-volume的依赖,同时避免了point-query的语义特征污染。APU通过将attention value转化为对point-query位置的更新,简化了模型并提高了性能。
性能对比与技术交流
TAPTRv2在性能上相较于TAPTR和其他方法有显著提升。文章还提供了丰富的消融实验,验证了TAPTR中各个模块的有效性。此外,读者可以通过加入极市CV技术交流群,获取更多技术干货和资源。
点击阅读原文,了解更多计算机视觉领域的最新研究和技术动态。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台