今日应用
今日话题
近一年,多模态视觉&语言大模型架构演进汇总梳理
重点标签 多模态学习、视觉-语言模型、模型架构演进、技术综述、前沿技术
文章摘要
本文深入探讨了多模态学习领域中视觉-语言模型(LLM)的架构演进,从2022年1月到2024年6月的代表性研究成果进行了精炼总结。文章通过一张图清晰展示了多模态LLM的典型架构,并详细介绍了各个模型的特点和训练过程。
1. BLIP(2022.01发布):统一视觉-语言理解和生成,使用captioner+filter高效利用互联网有噪数据。模型架构包括Image/text encoder、Image-grounded text encoder和Image-grounded text decoder,采用ITC loss、ITM loss和LM loss进行训练。
2. BLIP-2(2023.01发布):使用轻量级Q-Former连接视觉-语言模态,通过两阶段训练优化ITC/ITM/LM loss,使用不同的self-attention mask。
3. LLaVA(2023.04发布):使用仅文本模态的GPT-4生成视觉-语言指令遵循数据,用于微调多模态LLM。模型采用两阶段训练,包括预训练特征对齐和端到端微调。
4. MiniGPT-4(2023.04发布):在预训练阶段使用image-text pair微调linear projection layer,指令微调阶段关注指令格式。
5. InstructBLIP(2023.05发布):基于BLIP-2进行预训练,指令微调阶段只微调instruction-aware Q-former。
6. Qwen-VL(2023.08发布):支持中英双语、多图像输入,采用位置感知的VL adapter和三阶段训练策略。
7. InternLM-XComposer(2023.09发布):自动在输出文本中插入合适的图片,采用两阶段训练。
8. Fuyu-8B(2023.10发布):模型架构和训练过程简单,支持任意图像分辨率,推理速度快。
9. LLaVA-1.5(2023.10发布):使用MLP作为模态连接,突出训练的数据高效性。
10. CogVLM(2023.11发布):深度视觉-语言模态融合,冻住LLM和ViT,在attention和FFN层训练视觉专家模块。
11. CogAgent(2023.12发布):针对GUI场景的多模态理解和导引,使用高分辨率-低分辨率双编码器。
12. VILA(2023.12发布):探索视觉-语言模型训练的设计选择,包括预训练阶段冻住LLM的影响和图文交错的预训练数据的重要性。
13. LLaVA-Next(2024.01发布):相对于LLaVA-1.5,提高输入图像分辨率,支持多种纵横比,增强视觉推理和OCR能力。
14. InternLM-XComposer2(2024.01发布):提出新的模态对齐方法partial LoRA,采用两阶段训练策略。
15. Mini-Gemini(2024.03发布):使用双视觉编码器提取低分辨率embedding作为query,高分辨率特征区域作为key/value,外接图像解码器生成图像。
文章还提供了相关论文的引用链接,以及极市平台的技术专栏和动态,为读者提供了丰富的学习资源和行业信息。通过本文,读者可以全面了解多模态学习领域中视觉-语言模型的架构演进和最新技术趋势。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台