AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝

AI最新资讯2个月前发布 tree
25 0 0

今日应用


今日话题


AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
 

重点标签 AI视频理解MiniGPT4-Video多模态LLM

文章摘要


在技术介绍方面,MiniGPT-v2通过将视觉特征转化为LLM空间,从而实现了对单幅图像的理解。研究人员将每幅图像中每四个相邻的视觉token浓缩为一个token,从而将每幅图像的token数减少了75%。在训练过程中,研究人员会随数据集提供字幕,但在推理过程中或视频没有字幕时,研究人员会利用语音到文本模型生成视频字幕。训练流程包括大规模图像-文本对预训练、大规模视频-文本对预训练和视频问题解答指令微调。在这三个训练阶段中,研究人员保持批大小为4,并使用AdamW优化器结合余弦学习率调度器。为了对最新提出的架构进行全面评估,研究人员评估了三种基准类型的性能:Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。在多个基准测试中,MiniGPT4-Video明显优于最新的SOTA方法。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...