CLIP-Mamba:首次提出用CLIP训练Mamba,仅用1/5参数就达到ViT天花板性能

AI最新资讯5个月前发布 tree
89 0 0

今日应用


今日话题


CLIP-Mamba:首次提出用CLIP训练Mamba,仅用1/5参数就达到ViT天花板性能
CLIP-Mamba:首次提出用CLIP训练Mamba,仅用1/5参数就达到ViT天花板性能
 

重点标签 tag1Mamba模型tag2零样本分类tag3OOD泛化tag4Hessian分析tag5对比语言-图像预训练

文章摘要


摘要:
本文介绍了利用对比语言-图像预训练(CLIP)训练的Mamba模型,并在26个零样本分类数据集和16个分布外(OOD)数据集上进行了评估。研究发现,6700万参数的Mamba模型与3.07亿参数的视觉Transformer(ViT)模型在零样本分类任务上表现相当,显示出Mamba模型的参数效率。在OOD泛化测试中,基于Mamba的模型表现出色,尤其是在OOD图像对比度或经过高通滤波的条件下。然而,Hessian分析表明,Mamba模型的训练景观比ViT模型更尖锐、更非凸,这使得它们更难以训练。

详细摘要:

1. 引言:
– 基础模型在机器学习领域是一个活跃的研究方向,Transformers是支撑基础模型的主要架构。
– 自注意力机制是Transformer架构的核心,但计算需求高,限制了其可扩展性。
– Mamba模型作为下一代基础模型的有力候选者,展现出比Transformers更好的扩展规律。

2. CLIP-Mamba模型:
– 作者发布了开源的CLIP-Mamba模型,具有5000万参数的Mamba模型超越了8400万参数的ViT模型。
– 6700万参数的Mamba模型在26个零样本分类数据集上的表现等同于3.07亿参数的ViT模型。

3. OOD泛化评估:
– 在16个OOD数据集上的评估表明,Mamba模型一致性地优于ViT模型。
– 基于Mamba的模型在OOD图像对比度条件下或受到高通滤波处理时显示出异常的鲁棒性。

4. 景观评估:
– Hessian谱反映了模型的训练景观,Mamba模型的Hessian特征值显示出更多的负值,表明其具有更明显的非凸性。
– Mamba模型的损失景观更为尖锐,这表明在优化方面存在更大的挑战。

5. 实验和分析:
– 作者训练了不同规模的Mamba模型,并在零样本分类、OOD泛化和Hessian谱方面进行了全面的实验和分析。
– 在零样本分类任务中,Mamba模型在多种数据集上的性能与ViT模型相当或更好。
– 在OOD泛化测试中,基于Mamba的模型在形状偏差方面更接近人类视觉处理能力。

6. 结论:
– Mamba模型在零样本分类任务上显示出与ViT模型相当的性能,同时在OOD泛化测试中表现出色。
– Mamba模型的训练景观更尖锐、更非凸,这可能是其在实际应用中面临的一个挑战。

技术专栏和资源:
– 多模态大模型超详细解读专栏
– 搞懂Tranformer系列
– ICCV2023论文解读
– 极市直播

技术综述:
– Neural ODE:用神经网络去刻画非离散的状态变化
– Transformer的细节:Transformer连环18问

极市平台:
– 提供100+深度学习各方向资源整理
– 欢迎高校师生申报极视角2023年教育部产学合作协同育人项目
– 「无人机+AI」成为道路智能巡检好帮手

参考:
[1]. CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation.

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...