谷歌推出通用视频模型：能精准分类、定位、检索等

AI最新资讯9个月前发布 tree

98 0 0

今日应用

耳聆网

耳聆网是中国最专业的声音分享平台，汇聚了国内众多专业录音师和业余声音爱好者，拥有庞大的声音资源云库和完善的版权保护及授权机制，满足音乐创作、影视后期、游戏配乐等领域的音频素材需求。

今日话题

谷歌推出通用视频模型：能精准分类、定位、检索等

重点标签 视频模型、AIGC、谷歌、机器学习、技术创新

文章摘要

谷歌的研究人员推出了一款名为VideoPrism的通用视频模型，它能够广泛应用于视频领域的多种任务，包括内容分类、定位、检索、字幕生成和问答等。VideoPrism之所以具备强大的泛化能力，是因为它使用了3600万段高质量视频-字幕对以及5.82亿段带有噪声的平行文本进行预训练。在33个视频理解基准测试集上进行测试后，VideoPrism在30个基准测试上取得了最佳成绩，尤其是在通用视频分类和定位任务上，其性能比目前最先进的视频模型VideoMAE-v2-g平均提升了22%的精准度。

VideoPrism的架构主要包括以下几个方面：
1. 使用卷积神经网络对视频帧进行特征提取，通过多个卷积层和池化层捕捉视频中的空间信息。
2. 利用Transformer架构中的自注意力机制对视频中不同时间步的特征进行建模，学习时间步之间的依赖关系，捕捉时序信息。
3. 采用残差连接促进信息流动，保留原始特征信息，缓解梯度消失问题。
4. 应用层归一化提高模型训练稳定性，加速模型收敛，提高泛化能力。

VideoPrism的预训练策略分为两个阶段：
1. 第一阶段是视频-文本对比训练，使用对比损失函数对视频编码器和文本编码器进行联合训练，学习语义视频嵌入表示。
2. 第二阶段进行掩码视频建模以捕捉更多运动信息，并采用随机Token混洗和全局-局部知识蒸馏两种优化方法进行性能优化。

VideoPrism作为一款通用视频模型，其场景化落地非常广泛，可以在视频理解和分析、智能视频监控、视频检索和推荐、专业科学视频分析等领域进行精准数据分析、归类、定位等操作。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

谷歌推出通用视频模型：能精准分类、定位、检索等

今日应用

今日话题

文章摘要

文章来源

OpenAI首次提出AGI的5个等级，我们接近第2级

OpenAI秘密武器「草莓」计划曝光！Q*推理能力大爆发，逼近AGI L2里程碑

相关文章

暂无评论

热门网址

热门标签