Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

AI最新资讯4个月前发布 tree
48 0 0

今日应用


今日话题


Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
 

重点标签 Transformer卷积神经网络CNNViT自动驾驶

文章摘要


在当前的人工智能领域,关于Vision TransformerViT)与传统卷积神经网络CNN)哪个更优越的争论一直存在。

今年初,OpenAI的Sora模型使得ViT架构受到关注。

Comma.ai的CTO Harald Schäfer展示了他们将压缩器改为纯ViT后取得的成果,尽管需要更长时间训练,但效果显著,特别是在自动驾驶领域。

然而,图灵奖得主、Meta首席科学家Yann LeCun认为ViT在实时处理高分辨率图像和视频任务上存在效率低下的问题。

他提出,在低级别的图像或视频处理中,使用单个步幅的自注意力是没有意义的,而局部相关性的高度集中使得全局注意力也不具意义且不可扩展。

相比之下,纽约大学助理教授谢赛宁参与的ConvNext工作显示,CNN在适当方法下也能与ViT相媲美。

Yann LeCun更倾向于在低级别使用卷积/步幅/池化,在高级别使用自注意力循环,并用特征向量来表征对象。

他还预测,特斯拉的全自动驾驶(FSD)在低级别使用卷积,并在更高级别结合更多全局循环。

谢赛宁也提出,ViT适合低分辨率图像,但在极高分辨率下,卷积或对ViT的修补处理本质上还是卷积。

谷歌DeepMind的研究者Lucas Beyer认为“卷积ViT”会有很好的效果。

这场ViT与CNN之间的争论预计还将继续,直到未来出现更强大的架构。

同时,机器之心发起了2024“人工智能+”标杆示范征集活动,旨在挖掘和展示具有市场竞争力和技术实力的AI机构、产品和案例。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...