智源联合多所高校推出首个多任务长视频评测基准MLVU

今日应用

度加创作工具是一个百度出品的、人人可用的AIGC创作平台。度加致力于通过AI能力降低内容生成门槛，提升创作效率，一站式聚合百度AIGC能力，引领跨时代的内容生产方式。度加的主要功能包括AI成片（图文成片/文字成片）、AI数字人等。自2022年3月百家号开放内测以来，一年时间共计超过45万+百度创作者使用AIGC技术能力，创作700万篇+作品，百度累计分发量超过200亿+。

今日话题

智源联合多所高校推出首个多任务长视频评测基准MLVU

重点标签 MLVU基准、长视频理解、多任务评测、GPT-4o、实证研究

文章摘要

极市导读：多所高校联合提出首个多任务长视频理解评测基准MLVU，旨在解决现有视频理解评测基准的局限性，推动社区对长视频理解研究的发展。

MLVU基准的构建过程包括以下几个特点：
1. 充足且灵活的视频时长：视频时长覆盖3分钟到2小时以上，平均时长12分钟，扩展了现有视频Benchmark的时长范围。
2. 覆盖真实和虚拟环境的多种视频来源：包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等。
3. 针对长视频理解设计的全面任务类别：共设计了9类不同任务，分为全面理解、单细节理解和多细节理解三类。
4. 合理的问题设置与高质量答案标注：通过精细的人工标注克服了现有Benchmark的问题泄露和复杂性问题。

在MLVU上对20个流行的MLLM进行评测，结果显示：
1. 长视频理解任务仍然具有挑战性，即使是排名第一的GPT-4o，单选平均准确率也仅有64.6%。
2. 开源模型和闭源模型之间存在较大差距，开源模型在单项选择题和开放生成式题目上的表现均落后于GPT-4o。
3. 上下文长度、图像理解能力和LLM Backbone是提升MLLMs长视频理解能力的关键因素。

总结：MLVU作为首个专为长视频理解任务设计的全面多任务评测基准，为MLLMs提供了一个可靠高质量的评测平台。通过对20个MLLMs的评估，揭示了长视频理解任务的挑战性和提升空间，并为未来MLLMs的长视频理解能力构建提供了洞见。

附录提供了MLVU的9类任务示例图，以及部分参考文献，以供进一步了解和参考。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

智源联合多所高校推出首个多任务长视频评测基准MLVU

今日应用

今日话题

文章摘要

文章来源

Pytorch 显存管理机制与显存占用分析方法

落魄宗门里的绝世高手！中专女生逆袭拿下数学竞赛全球第12名，比大模型还强不少

相关文章

暂无评论

热门网址

热门标签