抱抱脸团队(HF)发布多模态大模型Idefics2,8B参数

AI最新资讯3个月前发布 tree
55 0 0

今日应用


今日话题


抱抱脸团队(HF)发布多模态大模型Idefics2,8B参数
抱抱脸团队(HF)发布多模态大模型Idefics2,8B参数
 

重点标签 多模态大模型Idefics2Hugging Face图像处理OCR功能

文章摘要


抱抱脸团队(HF)发布了一款名为Idefics2的通用多模态大模型,它能够处理任意文本和图像序列的输入,并生成文本响应。Idefics2在多个领域表现出色,包括回答图像相关问题、描述视觉内容、创建基于多个图像的故事、从文档中提取信息以及执行基本算术运算。与前代Idefics1相比,Idefics2在参数数量、开放许可和OCR功能上都有所提升。

在训练数据方面,Idefics2使用了包括网页文档、图像-标题对、OCR数据和图像到代码数据在内的多个公开数据集。为了帮助社区更好地利用这些数据,HF还发布了Cauldron,这是一个由50个手动策划的数据集组成的集合,专为多轮对话设计。

Idefics2在图像处理方面采用了NaViT策略,允许模型处理高达980 x 980的原生分辨率图像,而无需将其调整为固定大小的正方形。此外,模型还增强了OCR功能,通过整合需要模型转录图像或文档中文本的数据,并改进了在图表、图形和文档上回答问题的能力。

在架构上,Idefics2摒弃了Idefics1的门控交叉关注架构,简化了将视觉特征整合到语言骨干中的过程。图像首先被输入到视觉编码器中,然后通过一个学习的Perceiver池化和一个MLP模态投影,最后与文本嵌入拼接,形成一个交错的图像和文本序列。

Idefics2在性能上的提升得益于更好的预训练骨干和上述改进,而模型大小仅增加了10倍。现在,Idefics2已在Hugging Face Hub上提供,并且可以在最新的transformers版本中使用。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...