悉尼大学&商汤提出LocalMamba:使用局部扫描机制打造更适配视觉任务的Mamba模型

AI最新资讯3个月前发布 tree
69 0 0

今日应用


今日话题


悉尼大学&商汤提出LocalMamba:使用局部扫描机制打造更适配视觉任务的Mamba模型
悉尼大学&商汤提出LocalMamba:使用局部扫描机制打造更适配视觉任务的Mamba模型
 

重点标签 LocalMamba视觉模型状态空间图像分类目标检测

文章摘要


引言
LocalMamba是一种新的视觉状态空间模型,它在图像局部依赖关系捕捉方面具有显著优势,同时保持全局上下文理解。该模型通过窗口化选择性扫描和扫描方向搜索,超越了现有模型的效果,刷新了在通用视觉任务上的SOTA。

方法介绍
LocalMamba采用局部扫描与全局扫描结合的多分支结构,通过将图像划分为不同窗口捕捉局部依赖关系。此外,引入了自适应的扫描方向搜索,为每层网络选择最优的扫描方向组合,优化性能。

实验
图像分类目标检测和语义分割任务上,LocalMamba相较于传统CNN和ViT表现出显著优势。例如,在ImageNet分类任务中,LocalVim-T在相近的FLOPs下超过了DeiT-Ti的准确率。目标检测和语义分割任务也显示出LocalVMamba的优越性。

总结
LocalMamba作为一种新的视觉状态空间模型,通过窗口化选择性扫描和扫描方向搜索,有效提升了图像局部依赖关系的捕捉能力,并保持了全局上下文理解。该模型在多个数据集和任务上建立了新的基准,为视觉状态空间建模研究开辟了新途径。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...