谷歌推出通用视频模型:能精准分类、定位、检索等

AI最新资讯3个月前发布 tree
26 0 0

今日应用


今日话题


谷歌推出通用视频模型:能精准分类、定位、检索等
谷歌推出通用视频模型:能精准分类、定位、检索等
 

重点标签 视频模型AIGC谷歌机器学习技术创新

文章摘要


谷歌的研究人员推出了一款名为VideoPrism的通用视频模型,它能够广泛应用于视频领域的多种任务,包括内容分类、定位、检索、字幕生成和问答等。VideoPrism之所以具备强大的泛化能力,是因为它使用了3600万段高质量视频-字幕对以及5.82亿段带有噪声的平行文本进行预训练。在33个视频理解基准测试集上进行测试后,VideoPrism在30个基准测试上取得了最佳成绩,尤其是在通用视频分类和定位任务上,其性能比目前最先进的视频模型VideoMAE-v2-g平均提升了22%的精准度。

VideoPrism的架构主要包括以下几个方面:
1. 使用卷积神经网络对视频帧进行特征提取,通过多个卷积层和池化层捕捉视频中的空间信息。
2. 利用Transformer架构中的自注意力机制对视频中不同时间步的特征进行建模,学习时间步之间的依赖关系,捕捉时序信息。
3. 采用残差连接促进信息流动,保留原始特征信息,缓解梯度消失问题。
4. 应用层归一化提高模型训练稳定性,加速模型收敛,提高泛化能力。

VideoPrism的预训练策略分为两个阶段:
1. 第一阶段是视频-文本对比训练,使用对比损失函数对视频编码器和文本编码器进行联合训练,学习语义视频嵌入表示。
2. 第二阶段进行掩码视频建模以捕捉更多运动信息,并采用随机Token混洗和全局-局部知识蒸馏两种优化方法进行性能优化。

VideoPrism作为一款通用视频模型,其场景化落地非常广泛,可以在视频理解和分析、智能视频监控、视频检索和推荐、专业科学视频分析等领域进行精准数据分析、归类、定位等操作。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...