自回归预训练 + Vision Transformer！大视觉模型 AIM：70亿参数量是我的底气

AI最新资讯3个月前发布 tree

36 0 0

今日应用

即创

即创专注于智能创意生产与管理分析，同时兼容开放生态，提供视频创作、图文生成、直播工具等多种场景服务，帮助客户解锁创意生产力、携手服务商激发创新，撬动多元供给，助力商业化经营。

今日话题

自回归预训练 + Vision Transformer！大视觉模型 AIM：70亿参数量是我的底气

重点标签 tag1、自回归预训练、tag2、大视觉模型 AIM、tag3、技术细节改进、tag4、缩放性质结果、tag5、消融实验

文章摘要

本文提出了一种名为Autoregressive Image Models (AIM)的大视觉模型，该模型受到大语言模型（LLM）的启发，采用自回归训练策略进行训练。AIM模型展示了与LLM相似的缩放能力，其预训练过程也与LLM类似。文章的关键发现包括：1) 视觉模型提取的特征质量随着模型容量和数据量的增加而提高；2) 训练目标函数的值与模型在下游任务的性能相关。

在技术细节方面，AIM模型对Vision Transformer (ViT)进行了改进，使用Prefix Attention代替了精确的Casual Self-attention，使得模型在下游任务时可以转换为类似于ViT的Bi-directional Self-attention。此外，AIM模型还对Prediction head进行了改进，采用了一个参数量较大的prediction head，从而显著改善了模型学到的特征，同时在训练阶段只增加了少量开销。

AIM模型在2B张图片上训练了7B参数的模型，在ImageNet-1K上达到了84.0%的性能，且没有观察到性能饱和的迹象。文章还探讨了AIM模型的缩放性质，发现随着模型容量的增加和训练数据量的增加，下游任务的精度得到了提升。

在消融实验中，作者研究了自回归范式、Self-attention方法、Head设计、Attentive Probe与Linear Probe、网络深度与宽度等因素的影响。实验结果表明，自回归预训练、Prefix Self-attention、MLP Head以及更宽的网络架构对于提高模型性能都是有益的。与其他自监督学习方法相比，AIM在多个图像分类基准上展示了更好的性能。

文章还提供了AIM模型的预训练数据集DFN2B的详细信息，包括数据集的来源、预处理、过滤和采样策略。此外，文章还讨论了AIM模型在自回归预训练和下游任务迁移学习时期的架构差异，以及如何通过attention pooling操作生成全局描述符以适应下游任务。

最后，文章提供了AIM模型的论文和代码链接，以及一些相关的技术资源和公众号信息，供读者进一步了解和学习。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

自回归预训练 + Vision Transformer！大视觉模型 AIM：70亿参数量是我的底气

今日应用

今日话题

文章摘要

文章来源

ICRA 2024：基于物理常识进行推理

ICML 2024｜基于多实例学习可解释性的时间序列分析的弱监督学习新范式

相关文章

暂无评论

热门网址

热门标签