今日应用
今日话题
Mamba该如何解决「伪影」问题?Mamba®:只需几个寄存器即可成为MVP!
重点标签 Mamba®模型、视觉Mamba、伪影问题、性能提升、ImageNet精度
文章摘要
本文介绍了一种新型的视觉模型——Mamba®,它在处理图像分类和语义分割任务上展现出了卓越的性能。Mamba®模型基于视觉Mamba架构,通过引入寄存器(register tokens)来解决特征中的“伪影”问题,从而提高了模型的准确性和效率。
Mamba®模型的改进
Mamba®模型的核心改进在于对视觉Mamba架构的优化。在原始的视觉Mamba中,存在一种被称为“伪影”的现象,即在信息量较低的背景区域中出现了高范数的异常tokens。这些伪影影响了模型对图像中语义内容的关注。为了解决这一问题,Mamba®模型引入了寄存器,将与输入无关的register tokens均匀地插入到输入序列中,并在模型的最后将这些tokens的输出连接起来,形成最终预测的全局表征。
性能提升
Mamba®模型在ImageNet数据集上达到了82.9%的精度,优于Vim-B模型的81.8%。此外,在ADE20k数据集上进行的语义分割实验中,Mamba®模型同样展现出了优异的性能,其中Mamba®-B模型的mIoU达到了47.7%,比DeiT-B模型高出2.2%。
实验结果分析
实验结果显示,Mamba®模型在图像分类和语义分割任务上的性能均有显著提升。特别是在ImageNet数据集上,即使是较小的Mamba®-Tiny模型也比Vim模型有1.3%的精度提升。此外,通过增加模型参数和输入分辨率,Mamba®模型的精度可以进一步提升至84.5%。
消融实验
消融实验表明,register tokens的数量和分布对模型性能有显著影响。当register tokens数量为12时,模型性能达到最佳。同时,实验还发现,将register tokens均匀分布在输入序列中,并在最终预测中使用这些tokens,可以显著提高模型的精度。
结论
Mamba®模型通过引入寄存器tokens解决了视觉Mamba中的“伪影”问题,提高了模型对图像中语义内容的关注,从而在图像分类和语义分割任务上取得了显著的性能提升。这一改进不仅提高了模型的准确性,也为视觉模型的设计提供了新的思路。
作者信息:科技猛兽,清华大学自动化系硕士,专注于AI边缘计算领域的研究,包括模型压缩、搜索、量化、加速等技术,致力于在端侧设备上实现高效的AI应用。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台