视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

AI最新资讯3个月前发布 tree
43 0 0

今日应用


今日话题


视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击
视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击
 

重点标签 视觉Foundation ModelAIGC自动驾驶端侧AI多模态大模型

文章摘要


在2024年的IEEE国际计算机视觉与模式识别会议(CVPR)上,视觉Foundation Model成为了核心议题之一,与自动驾驶、3D视觉等传统研究课题并列。AIGC(人工智能生成内容)技术在图像和视频合成与生成领域取得了显著进展,两篇最佳论文均颁给了AIGC相关研究。同时,多模态大模型在视觉领域的应用也受到了广泛关注。

视觉Foundation Model的研究正在借鉴OpenAI的路线,聚焦于预测下一个visual token和扩大算力规模等方面。研究者们认为,AI已经从开放的研究问题转变为实际的工业生产线,目标转向了数据和算力的获取。多模态成为视觉基础模型研究的热点,但视觉与语言两派的合作尚未有效建立。

上海人工智能实验室的OpenGVLab展示了其最新的视觉多模态基础模型研究成果InternVL-1.5,该模型在视觉编码器、分辨率和双语数据集方面表现出色。InternVL-26B的研究始于2023年3月,旨在构建一个支持多模态任务的基础模型,如图文检索等。

自动驾驶在CVPR上占据了重要位置,特别是将语言大模型应用于自动驾驶场景中。研究者们正在探索如何将大模型集成到自动驾驶系统中,以提高对环境的理解、预测和安全性。CVPR 2024自动驾驶国际挑战赛吸引了全球近500支队伍参赛,英伟达联合复旦大学的团队获得了端到端自动驾驶赛道的冠军。

苹果公司在CVPR上展示了其在多模态大模型预训练方面的最新研究进展。通过构建大模型MM1,苹果探讨了如何获取高质量的预训练数据,并分析了不同数据类型对模型性能的影响。

总体来看,CVPR 2024展示了计算机视觉领域的最新技术进展,特别是在视觉Foundation Model、AIGC、自动驾驶和多模态大模型等方面的研究成果。随着AI技术的不断发展,这些领域的研究将继续推动计算机视觉的创新和应用。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...