今日应用
今日话题
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
重点标签 AI视频理解、MiniGPT4-Video、多模态LLM
文章摘要
在技术介绍方面,MiniGPT-v2通过将视觉特征转化为LLM空间,从而实现了对单幅图像的理解。研究人员将每幅图像中每四个相邻的视觉token浓缩为一个token,从而将每幅图像的token数减少了75%。在训练过程中,研究人员会随数据集提供字幕,但在推理过程中或视频没有字幕时,研究人员会利用语音到文本模型生成视频字幕。训练流程包括大规模图像-文本对预训练、大规模视频-文本对预训练和视频问题解答指令微调。在这三个训练阶段中,研究人员保持批大小为4,并使用AdamW优化器结合余弦学习率调度器。为了对最新提出的架构进行全面评估,研究人员评估了三种基准类型的性能:Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。在多个基准测试中,MiniGPT4-Video明显优于最新的SOTA方法。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...