CLIP-Mamba：首次提出用CLIP训练Mamba，仅用1/5参数就达到ViT天花板性能

AI最新资讯11个月前发布 tree

161 0 0

今日应用

超级简历WonderCV

WonderCV - 您事业飞跃的助手，提供各行业简历模板，HR推荐，简历优化建议，成就高薪职位和留学梦想！

今日话题

CLIP-Mamba：首次提出用CLIP训练Mamba，仅用1/5参数就达到ViT天花板性能

重点标签 tag1、Mamba模型、tag2、零样本分类、tag3、OOD泛化、tag4、Hessian分析、tag5、对比语言-图像预训练

文章摘要

摘要：
本文介绍了利用对比语言-图像预训练（CLIP）训练的Mamba模型，并在26个零样本分类数据集和16个分布外（OOD）数据集上进行了评估。研究发现，6700万参数的Mamba模型与3.07亿参数的视觉Transformer（ViT）模型在零样本分类任务上表现相当，显示出Mamba模型的参数效率。在OOD泛化测试中，基于Mamba的模型表现出色，尤其是在OOD图像对比度或经过高通滤波的条件下。然而，Hessian分析表明，Mamba模型的训练景观比ViT模型更尖锐、更非凸，这使得它们更难以训练。

详细摘要：

1. 引言：
– 基础模型在机器学习领域是一个活跃的研究方向，Transformers是支撑基础模型的主要架构。
– 自注意力机制是Transformer架构的核心，但计算需求高，限制了其可扩展性。
– Mamba模型作为下一代基础模型的有力候选者，展现出比Transformers更好的扩展规律。

2. CLIP-Mamba模型：
– 作者发布了开源的CLIP-Mamba模型，具有5000万参数的Mamba模型超越了8400万参数的ViT模型。
– 6700万参数的Mamba模型在26个零样本分类数据集上的表现等同于3.07亿参数的ViT模型。

3. OOD泛化评估：
– 在16个OOD数据集上的评估表明，Mamba模型一致性地优于ViT模型。
– 基于Mamba的模型在OOD图像对比度条件下或受到高通滤波处理时显示出异常的鲁棒性。

4. 景观评估：
– Hessian谱反映了模型的训练景观，Mamba模型的Hessian特征值显示出更多的负值，表明其具有更明显的非凸性。
– Mamba模型的损失景观更为尖锐，这表明在优化方面存在更大的挑战。

5. 实验和分析：
– 作者训练了不同规模的Mamba模型，并在零样本分类、OOD泛化和Hessian谱方面进行了全面的实验和分析。
– 在零样本分类任务中，Mamba模型在多种数据集上的性能与ViT模型相当或更好。
– 在OOD泛化测试中，基于Mamba的模型在形状偏差方面更接近人类视觉处理能力。

6. 结论：
– Mamba模型在零样本分类任务上显示出与ViT模型相当的性能，同时在OOD泛化测试中表现出色。
– Mamba模型的训练景观更尖锐、更非凸，这可能是其在实际应用中面临的一个挑战。

技术专栏和资源：
– 多模态大模型超详细解读专栏
– 搞懂Tranformer系列
– ICCV2023论文解读
– 极市直播

技术综述：
– Neural ODE：用神经网络去刻画非离散的状态变化
– Transformer的细节：Transformer连环18问

极市平台：
– 提供100+深度学习各方向资源整理
– 欢迎高校师生申报极视角2023年教育部产学合作协同育人项目
– 「无人机+AI」成为道路智能巡检好帮手

参考：
[1]. CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation.

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CLIP-Mamba：首次提出用CLIP训练Mamba，仅用1/5参数就达到ViT天花板性能

今日应用

今日话题

文章摘要

文章来源

大模型思维链（Chain-of-Thought）技术原理

快速提升性能，如何更好地使用GPU（上）

相关文章

暂无评论

热门网址

热门标签