今日应用
今日话题
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
重点标签 Transformer、卷积神经网络、CNN、ViT、自动驾驶
文章摘要
在当前的人工智能领域,关于Vision Transformer(ViT)与传统卷积神经网络(CNN)哪个更优越的争论一直存在。
今年初,OpenAI的Sora模型使得ViT架构受到关注。
Comma.ai的CTO Harald Schäfer展示了他们将压缩器改为纯ViT后取得的成果,尽管需要更长时间训练,但效果显著,特别是在自动驾驶领域。
然而,图灵奖得主、Meta首席科学家Yann LeCun认为ViT在实时处理高分辨率图像和视频任务上存在效率低下的问题。
他提出,在低级别的图像或视频处理中,使用单个步幅的自注意力是没有意义的,而局部相关性的高度集中使得全局注意力也不具意义且不可扩展。
相比之下,纽约大学助理教授谢赛宁参与的ConvNext工作显示,CNN在适当方法下也能与ViT相媲美。
Yann LeCun更倾向于在低级别使用卷积/步幅/池化,在高级别使用自注意力循环,并用特征向量来表征对象。
他还预测,特斯拉的全自动驾驶(FSD)在低级别使用卷积,并在更高级别结合更多全局循环。
谢赛宁也提出,ViT适合低分辨率图像,但在极高分辨率下,卷积或对ViT的修补处理本质上还是卷积。
谷歌DeepMind的研究者Lucas Beyer认为“卷积ViT”会有很好的效果。
这场ViT与CNN之间的争论预计还将继续,直到未来出现更强大的架构。
同时,机器之心发起了2024“人工智能+”标杆示范征集活动,旨在挖掘和展示具有市场竞争力和技术实力的AI机构、产品和案例。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...