悉尼大学&商汤提出LocalMamba：使用局部扫描机制打造更适配视觉任务的Mamba模型

今日应用

OpenFlow提供工作流、知识流和心流的AI行业垂直应用层搭建服务。我们帮助行业先行者低门槛搭建AI实操平台，为行业伙伴提供咨询和赋能。

悉尼大学&商汤提出LocalMamba：使用局部扫描机制打造更适配视觉任务的Mamba模型

重点标签 LocalMamba、视觉模型、状态空间、图像分类、目标检测

引言
LocalMamba是一种新的视觉状态空间模型，它在图像局部依赖关系捕捉方面具有显著优势，同时保持全局上下文理解。该模型通过窗口化选择性扫描和扫描方向搜索，超越了现有模型的效果，刷新了在通用视觉任务上的SOTA。

方法介绍
LocalMamba采用局部扫描与全局扫描结合的多分支结构，通过将图像划分为不同窗口捕捉局部依赖关系。此外，引入了自适应的扫描方向搜索，为每层网络选择最优的扫描方向组合，优化性能。

实验
在图像分类、目标检测和语义分割任务上，LocalMamba相较于传统CNN和ViT表现出显著优势。例如，在ImageNet分类任务中，LocalVim-T在相近的FLOPs下超过了DeiT-Ti的准确率。目标检测和语义分割任务也显示出LocalVMamba的优越性。

总结
LocalMamba作为一种新的视觉状态空间模型，通过窗口化选择性扫描和扫描方向搜索，有效提升了图像局部依赖关系的捕捉能力，并保持了全局上下文理解。该模型在多个数据集和任务上建立了新的基准，为视觉状态空间建模研究开辟了新途径。

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...