今日应用
今日话题
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
重点标签 PreFLMR、多模态、知识检索、RAG、剑桥大学
文章摘要
PreFLMR模型是一个基于NeurIPS 2023的FLMR模型改进而来的多模态知识检索器。它能够处理文文检索、图文检索和知识检索等任务,通过在M2KR上进行大规模预训练,表现出色。PreFLMR在Token级别上编码问询和文档,与DPR系统相比,具有信息细粒度上的优势。该模型能够根据用户指令从知识库中提取相关文档,提升多模态大模型在专业知识问答任务上的表现。剑桥大学团队提供了三个不同规模的模型,参数量分别为207M、422M和2B。
M2KR数据集
M2KR是一个大规模数据集,包含10个子任务和超过百万的检索对,用于训练和评估通用知识检索器。
PreFLMR检索模型
PreFLMR模型采用后期交互算法,通过计算问询矩阵中每个向量与文档矩阵中最接近向量的点积来确定相关度。模型的预训练分为文本编码器预训练、图像-文本投射层预训练、持续预训练和通用检索训练四个阶段。
实验结果
最佳检索结果的PreFLMR模型使用ViT-G作为图像编码器和ColBERT-base-v2作为文本编码器。在M2KR的7个子任务上,该模型超越了基线模型。扩展视觉编码器参数比扩展文本编码器参数更有效。使用PreFLMR进行检索增强的知识密集型视觉问答任务表现显著提升。
结论
剑桥人工智能实验室开源的PreFLMR模型是首个通用后期交互多模态检索模型,经过M2KR上的百万级数据预训练,展现了强大的检索能力。相关资源包括模型权重、代码和数据集,均可在项目主页获取。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...