原作者带队,LSTM卷土重来之Vision-LSTM出世

AI最新资讯1个月前发布 tree
15 0 0

今日应用


今日话题


原作者带队,LSTM卷土重来之Vision-LSTM出世
原作者带队,LSTM卷土重来之Vision-LSTM出世
 

重点标签 Vision-LSTMViLxLSTMTransformer性能比较

文章摘要


Vision-LSTM(ViL)是一种新型的视觉架构,由LSTM的提出者Sepp Hochreiter及其团队开发。与Vision Transformer(ViT)和Vision Mamba(Vim)等模型相比,ViL在性能上更胜一筹。ViL结合了扩展长短期记忆(xLSTM)技术,克服了传统LSTM的限制,具有更好的可扩展性和性能。

在论文《Vision-LSTM: xLSTM as Generic Vision Backbone》中,作者指出ViL在公平比较中优于基于状态空间模型(SSM)的视觉架构和优化的ViT模型。特别是在需要高分辨率图像的任务(如语义分割和医学成像)中,ViL的线性复杂性使其具有更低的计算成本,而ViT由于自注意力机制的二次复杂性,在高分辨率任务中成本较高。

ViL的设计采用了交替的mLSTM块,这些块可以并行处理图像中的补丁token序列。在ImageNet-1K数据集上的实验表明,ViL在不同规模的模型上均展现出良好的性能,尤其是在与经过多年优化的ViT模型相比时。此外,ViL的分类设计相对稳健,不同的分类方法性能差异较小。

研究人员还探讨了ViL块的不同设计方式,发现交替双向块在保持计算和参数效率的同时提高了性能。尽管ViL没有利用卷积的归纳偏置,但其性能与基于CNN的模型(如ConvNeXt)相当。

总的来说,ViL作为一种新型的视觉架构,具有很大的应用潜力和发展前景。通过进一步改进预训练方案、超参数设置和技术迁移,ViL的性能有望得到进一步提升。更多研究细节请参考原论文。

论文链接:[Vision-LSTM: xLSTM as Generic Vision Backbone](https://arxiv.org/abs/2406.04303)
项目链接:[https://nx-ai.github.io/vision-lstm/](https://nx-ai.github.io/vision-lstm/)

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...