今日应用
今日话题
悉尼大学&商汤提出LocalMamba:使用局部扫描机制打造更适配视觉任务的Mamba模型
重点标签 LocalMamba、视觉模型、状态空间、图像分类、目标检测
文章摘要
引言
LocalMamba是一种新的视觉状态空间模型,它在图像局部依赖关系捕捉方面具有显著优势,同时保持全局上下文理解。该模型通过窗口化选择性扫描和扫描方向搜索,超越了现有模型的效果,刷新了在通用视觉任务上的SOTA。
方法介绍
LocalMamba采用局部扫描与全局扫描结合的多分支结构,通过将图像划分为不同窗口捕捉局部依赖关系。此外,引入了自适应的扫描方向搜索,为每层网络选择最优的扫描方向组合,优化性能。
实验
在图像分类、目标检测和语义分割任务上,LocalMamba相较于传统CNN和ViT表现出显著优势。例如,在ImageNet分类任务中,LocalVim-T在相近的FLOPs下超过了DeiT-Ti的准确率。目标检测和语义分割任务也显示出LocalVMamba的优越性。
总结
LocalMamba作为一种新的视觉状态空间模型,通过窗口化选择性扫描和扫描方向搜索,有效提升了图像局部依赖关系的捕捉能力,并保持了全局上下文理解。该模型在多个数据集和任务上建立了新的基准,为视觉状态空间建模研究开辟了新途径。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...