抱抱脸团队（HF）发布多模态大模型Idefics2，8B参数

AI最新资讯3个月前发布 tree

55 0 0

今日应用

觅元素

觅元素专注于提供高质量版权素材图片免费下载的网站，提供优质png素材、高清背景素材、图片素材、设计素材，找高质量版权素材就来觅元素.

今日话题

抱抱脸团队（HF）发布多模态大模型 Idefics2，8B参数
抱抱脸团队（HF）发布多模态大模型Idefics2，8B参数

重点标签 多模态大模型、Idefics2、Hugging Face、图像处理、OCR功能

文章摘要

抱抱脸团队（HF）发布了一款名为Idefics2的通用多模态大模型，它能够处理任意文本和图像序列的输入，并生成文本响应。Idefics2在多个领域表现出色，包括回答图像相关问题、描述视觉内容、创建基于多个图像的故事、从文档中提取信息以及执行基本算术运算。与前代Idefics1相比，Idefics2在参数数量、开放许可和OCR功能上都有所提升。

在训练数据方面，Idefics2使用了包括网页文档、图像-标题对、OCR数据和图像到代码数据在内的多个公开数据集。为了帮助社区更好地利用这些数据，HF还发布了Cauldron，这是一个由50个手动策划的数据集组成的集合，专为多轮对话设计。

Idefics2在图像处理方面采用了NaViT策略，允许模型处理高达980 x 980的原生分辨率图像，而无需将其调整为固定大小的正方形。此外，模型还增强了OCR功能，通过整合需要模型转录图像或文档中文本的数据，并改进了在图表、图形和文档上回答问题的能力。

在架构上，Idefics2摒弃了Idefics1的门控交叉关注架构，简化了将视觉特征整合到语言骨干中的过程。图像首先被输入到视觉编码器中，然后通过一个学习的Perceiver池化和一个MLP模态投影，最后与文本嵌入拼接，形成一个交错的图像和文本序列。

Idefics2在性能上的提升得益于更好的预训练骨干和上述改进，而模型大小仅增加了10倍。现在，Idefics2已在Hugging Face Hub上提供，并且可以在最新的transformers版本中使用。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

抱抱脸团队（HF）发布多模态大模型Idefics2，8B参数

今日应用

今日话题

文章摘要

文章来源

今春最燃生成式AI盛会！55位重磅嘉宾集结，完整议程公布，4月18-19日北京见

斯坦福大学Human-Centered AI研究所发布第七版《AI指数报告》

相关文章

暂无评论

热门网址

热门标签