智源联合多所高校推出首个多任务长视频评测基准MLVU

AI最新资讯1个月前发布 tree
15 0 0

今日应用


今日话题


智源联合多所高校推出首个多任务长视频评测基准MLVU
智源联合多所高校推出首个多任务长视频评测基准MLVU
 

重点标签 MLVU基准长视频理解多任务评测GPT-4o实证研究

文章摘要


极市导读:多所高校联合提出首个多任务长视频理解评测基准MLVU,旨在解决现有视频理解评测基准的局限性,推动社区对长视频理解研究的发展。

MLVU基准的构建过程包括以下几个特点:
1. 充足且灵活的视频时长:视频时长覆盖3分钟到2小时以上,平均时长12分钟,扩展了现有视频Benchmark的时长范围。
2. 覆盖真实和虚拟环境的多种视频来源:包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等。
3. 针对长视频理解设计的全面任务类别:共设计了9类不同任务,分为全面理解、单细节理解和多细节理解三类。
4. 合理的问题设置与高质量答案标注:通过精细的人工标注克服了现有Benchmark的问题泄露和复杂性问题。

在MLVU上对20个流行的MLLM进行评测,结果显示:
1. 长视频理解任务仍然具有挑战性,即使是排名第一的GPT-4o,单选平均准确率也仅有64.6%。
2. 开源模型和闭源模型之间存在较大差距,开源模型在单项选择题和开放生成式题目上的表现均落后于GPT-4o。
3. 上下文长度、图像理解能力和LLM Backbone是提升MLLMs长视频理解能力的关键因素。

总结:MLVU作为首个专为长视频理解任务设计的全面多任务评测基准,为MLLMs提供了一个可靠高质量的评测平台。通过对20个MLLMs的评估,揭示了长视频理解任务的挑战性和提升空间,并为未来MLLMs的长视频理解能力构建提供了洞见。

附录提供了MLVU的9类任务示例图,以及部分参考文献,以供进一步了解和参考。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...