Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

今日应用

TheFuture书籍搜索是为读书爱好者们打造的电子书搜索引擎，只需输入书名即可快速找到想看的书籍，让获取书籍变得简单快捷！让知识触手可及

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

重点标签 Transformer、卷积神经网络、CNN、ViT、自动驾驶

在当前的人工智能领域，关于Vision Transformer（ViT）与传统卷积神经网络（CNN）哪个更优越的争论一直存在。

今年初，OpenAI的Sora模型使得ViT架构受到关注。

Comma.ai的CTO Harald Schäfer展示了他们将压缩器改为纯ViT后取得的成果，尽管需要更长时间训练，但效果显著，特别是在自动驾驶领域。

然而，图灵奖得主、Meta首席科学家Yann LeCun认为ViT在实时处理高分辨率图像和视频任务上存在效率低下的问题。

他提出，在低级别的图像或视频处理中，使用单个步幅的自注意力是没有意义的，而局部相关性的高度集中使得全局注意力也不具意义且不可扩展。

相比之下，纽约大学助理教授谢赛宁参与的ConvNext工作显示，CNN在适当方法下也能与ViT相媲美。

Yann LeCun更倾向于在低级别使用卷积/步幅/池化，在高级别使用自注意力循环，并用特征向量来表征对象。

他还预测，特斯拉的全自动驾驶（FSD）在低级别使用卷积，并在更高级别结合更多全局循环。

谢赛宁也提出，ViT适合低分辨率图像，但在极高分辨率下，卷积或对ViT的修补处理本质上还是卷积。

谷歌DeepMind的研究者Lucas Beyer认为“卷积ViT”会有很好的效果。

这场ViT与CNN之间的争论预计还将继续，直到未来出现更强大的架构。

同时，机器之心发起了2024“人工智能+”标杆示范征集活动，旨在挖掘和展示具有市场竞争力和技术实力的AI机构、产品和案例。

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论...