ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

AI最新资讯3周前发布 tree
12 0 0

今日应用


今日话题


ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
 

重点标签 图像-语言多模态视频多模态高质量视频描述ShareGPT4Video数据集差分滑窗视频描述

文章摘要


本文介绍了一项在图像-语言多模态领域取得重要进展的研究,该研究通过创建高质量的ShareGPT4Video数据集,推动了视频理解和视频生成技术的发展。ShareGPT4Video数据集包含4万条由GPT-4V标注的视频数据,覆盖了广泛的类别,生成的描述包含丰富的世界知识、对象属性、摄像机运动和事件时间信息。

研究团队提出了一种差分滑窗视频描述(Differential Sliding-Window Captioning, DiffSW)策略,通过输入当前关键帧、上一关键帧及其差分描述,使GPT4V能够总结两帧之间的空间和时序变化,生成高质量的视频字幕。基于此方法,研究者们进一步开发了ShareCaptioner-Video,一个多功能多模态大模型,能够为任意视频生成高质量描述。

ShareCaptioner-Video具有以下功能:
1. 滑窗视频描述:通过滑窗方式产生差分描述并汇总出最终字幕。
2. 快速视频描述:将所有关键帧拼接成一张长图,一次性产生最终字幕,提升标注速度。
3. 视频片段总结:对完整视频进行滑窗描述后,直接为任意视频片段生成字幕,无需重复滑窗描述过程。

此外,研究者们还使用ShareCaptioner-Video标注了480万条、总时长3000小时的视频数据,这些视频具有高美学评分和较少转场效果,适用于视频生成任务。

在实验部分,研究者们通过等量替换实验验证了ShareGPT4Video数据集在不同LVLM架构上的有效性,发现仅通过替换字幕数据质量即可显著提升视频理解多模态大模型的性能。此外,研究者们还提出了新的LVLM ShareGPT4Video-8B模型,在多项Benchmark上取得了优异的结果。

在视频生成方面,研究者们基于Open-Sora-Plan项目验证了详细字幕数据对文生视频模型的帮助,发现使用高质量字幕数据训练的模型具备更好的镜头移动控制和语义内容控制能力。

这项研究不仅为图像-语言多模态领域提供了宝贵的数据资源,也为视频理解和视频生成技术的发展提供了新的思路和方法。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...