标签:多模态理解

ECCV 2024 Workshop自动驾驶难例场景多模态理解与视频生成征稿与挑战赛火热启动!

摘要:ECCV 2024会议将举办一个名为W-CODA Workshop的研讨会,专注于自动驾驶难例场景的多模态理解与视频生成。这个研讨会的核心目标是缩小当前自动驾驶技术...

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

本文介绍了一种名为DynRefer的新型区域级多模态理解方法,由中国科学院大学LAMP实验室的研究团队提出。DynRefer通过模拟人类视觉认知过程中的动态分辨率机制...

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

Gemini 1.5 Pro发布:谷歌在官网发布了AIGC领域的专业社区的新工具——Gemini 1.5 Pro,该工具现在可以在180多个国家/地区使用。它不仅能生成创意文本和代码,...