自回归预训练 + Vision Transformer!大视觉模型 AIM:70亿参数量是我的底气

AI最新资讯3个月前发布 tree
36 0 0

今日应用


今日话题


自回归预训练 + Vision Transformer!大视觉模型 AIM:70亿参数量是我的底气
自回归预训练 + Vision Transformer!大视觉模型 AIM:70亿参数量是我的底气
 

重点标签 tag1自回归预训练tag2大视觉模型 AIMtag3技术细节改进tag4缩放性质结果tag5消融实验

文章摘要


本文提出了一种名为Autoregressive Image Models (AIM)的大视觉模型,该模型受到大语言模型(LLM)的启发,采用自回归训练策略进行训练。AIM模型展示了与LLM相似的缩放能力,其预训练过程也与LLM类似。文章的关键发现包括:1) 视觉模型提取的特征质量随着模型容量和数据量的增加而提高;2) 训练目标函数的值与模型在下游任务的性能相关。

在技术细节方面,AIM模型对Vision Transformer (ViT)进行了改进,使用Prefix Attention代替了精确的Casual Self-attention,使得模型在下游任务时可以转换为类似于ViT的Bi-directional Self-attention。此外,AIM模型还对Prediction head进行了改进,采用了一个参数量较大的prediction head,从而显著改善了模型学到的特征,同时在训练阶段只增加了少量开销。

AIM模型在2B张图片上训练了7B参数的模型,在ImageNet-1K上达到了84.0%的性能,且没有观察到性能饱和的迹象。文章还探讨了AIM模型的缩放性质,发现随着模型容量的增加和训练数据量的增加,下游任务的精度得到了提升。

消融实验中,作者研究了自回归范式、Self-attention方法、Head设计、Attentive Probe与Linear Probe、网络深度与宽度等因素的影响。实验结果表明,自回归预训练、Prefix Self-attention、MLP Head以及更宽的网络架构对于提高模型性能都是有益的。与其他自监督学习方法相比,AIM在多个图像分类基准上展示了更好的性能。

文章还提供了AIM模型的预训练数据集DFN2B的详细信息,包括数据集的来源、预处理、过滤和采样策略。此外,文章还讨论了AIM模型在自回归预训练和下游任务迁移学习时期的架构差异,以及如何通过attention pooling操作生成全局描述符以适应下游任务。

最后,文章提供了AIM模型的论文和代码链接,以及一些相关的技术资源和公众号信息,供读者进一步了解和学习。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...