今日应用
今日话题
万亿token!史上最大多模态数据集诞生
重点标签 多模态数据集、开源、MINT-1T、模型训练、性能比较
文章摘要
华盛顿大学、Salesforce Research和斯坦福大学等机构的联合团队发布了一个名为MINT-1T的万亿token级开源多模态数据集,旨在推动多模态大模型(LMM)的发展。该数据集包含一万亿文本token和三十亿张图像,来源包括HTML、PDF和ArXiv等,是目前最大的开源多模态数据集。在构建过程中,团队执行了文本质量过滤、图像过滤、安全过滤和去重,以提高数据质量和安全性。MINT-1T数据集包含9220亿HTML token、1060亿PDF token和90亿ArXiv token,整个处理过程耗费约420万CPU小时数。
为了评估MINT-1T数据集的效果,团队使用Salesforce的XGen-MM模型架构,在多个评估基准上测试了模型的上下文学习和多图像推理能力。结果显示,在HTML文档上训练的模型在视觉问答(VQA)任务上表现优于在OBELICS训练的模型,但在视觉描述任务上稍逊一筹。而在MINT-1T全数据集(包含HTML、PDF和ArXiv文档)上训练的模型在大多数基准上都优于OBELICS和MINT-1T(仅HTML)训练的模型。在更复杂的多模态推理任务上,MINT-1T训练的模型在MMMU上优于OBELICS,但在Mantis-Eval上稍逊一筹。
MINT-1T的发布为开源LMM的发展提供了重要的数据支持,有望推动该领域取得更多突破。随着超大规模开源多模态数据集的出现,未来可能会孕育出类似Llama系列模型的多模态大模型系列。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...