AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

AI最新资讯4个月前发布 tree

47 0 0

今日应用

茅茅虫 – 论文写作

茅茅虫论文写作 - 写作助手、论文查重、论文降重、论文答辩，让天下没有难写的论文！

今日话题

AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

重点标签 AI视频理解、MiniGPT4-Video、多模态LLM

文章摘要

在技术介绍方面，MiniGPT-v2通过将视觉特征转化为LLM空间，从而实现了对单幅图像的理解。研究人员将每幅图像中每四个相邻的视觉token浓缩为一个token，从而将每幅图像的token数减少了75%。在训练过程中，研究人员会随数据集提供字幕，但在推理过程中或视频没有字幕时，研究人员会利用语音到文本模型生成视频字幕。训练流程包括大规模图像-文本对预训练、大规模视频-文本对预训练和视频问题解答指令微调。在这三个训练阶段中，研究人员保持批大小为4，并使用AdamW优化器结合余弦学习率调度器。为了对最新提出的架构进行全面评估，研究人员评估了三种基准类型的性能：Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。在多个基准测试中，MiniGPT4-Video明显优于最新的SOTA方法。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

今日应用

今日话题

文章摘要

文章来源

万字长文 | 手把手教你优化轻量姿态估计模型（算法篇）

亚马逊线下店 AI 训练失败：离不开 1000 名审核人员

相关文章

暂无评论

热门网址

热门标签