原作者带队，LSTM卷土重来之Vision-LSTM出世

AI最新资讯5个月前发布 tree

41 0 0

今日应用

魔音工坊

魔音工坊是一款可以在线将文字转成语音的智能配音产品。提供不同性别、不同口音的真人声音，在你输入文字后直接配音。你可快速对短视频等需要配音的内容进行配音。是一款功能强大AI语音合成神器。

今日话题

原作者带队，LSTM卷土重来之Vision-LSTM出世

重点标签 Vision-LSTM、ViL、xLSTM、Transformer、性能比较

文章摘要

Vision-LSTM（ViL）是一种新型的视觉架构，由LSTM的提出者Sepp Hochreiter及其团队开发。与Vision Transformer（ViT）和Vision Mamba（Vim）等模型相比，ViL在性能上更胜一筹。ViL结合了扩展长短期记忆（xLSTM）技术，克服了传统LSTM的限制，具有更好的可扩展性和性能。

在论文《Vision-LSTM: xLSTM as Generic Vision Backbone》中，作者指出ViL在公平比较中优于基于状态空间模型（SSM）的视觉架构和优化的ViT模型。特别是在需要高分辨率图像的任务（如语义分割和医学成像）中，ViL的线性复杂性使其具有更低的计算成本，而ViT由于自注意力机制的二次复杂性，在高分辨率任务中成本较高。

ViL的设计采用了交替的mLSTM块，这些块可以并行处理图像中的补丁token序列。在ImageNet-1K数据集上的实验表明，ViL在不同规模的模型上均展现出良好的性能，尤其是在与经过多年优化的ViT模型相比时。此外，ViL的分类设计相对稳健，不同的分类方法性能差异较小。

研究人员还探讨了ViL块的不同设计方式，发现交替双向块在保持计算和参数效率的同时提高了性能。尽管ViL没有利用卷积的归纳偏置，但其性能与基于CNN的模型（如ConvNeXt）相当。

总的来说，ViL作为一种新型的视觉架构，具有很大的应用潜力和发展前景。通过进一步改进预训练方案、超参数设置和技术迁移，ViL的性能有望得到进一步提升。更多研究细节请参考原论文。

论文链接：[Vision-LSTM: xLSTM as Generic Vision Backbone](https://arxiv.org/abs/2406.04303)
项目链接：[https://nx-ai.github.io/vision-lstm/](https://nx-ai.github.io/vision-lstm/)

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

原作者带队，LSTM卷土重来之Vision-LSTM出世

今日应用

今日话题

文章摘要

文章来源

大模型的高考数学成绩单：及格已经非常好了

1.8B参数，阿里云首个联合DNA、RNA、蛋白质的生物大模型，涵盖16.9W物种

相关文章

暂无评论

热门网址

热门标签