视觉语言模型导论:这篇论文能成为你进军VLM的第一步

AI最新资讯3个月前发布 tree
33 0 0

今日应用


今日话题


视觉语言模型导论:这篇论文能成为你进军VLM的第一步
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
 

重点标签 语言模型视觉语言模型AI技术革命Transformer架构VLM训练指南

文章摘要


近些年,语言建模领域取得了显著进展,大型语言模型(LLM)如Llama和ChatGPT等不仅能够处理多种任务,也开始具备处理视觉输入的能力。这标志着AI技术革命的一个关键方向,即打通视觉与语言的结合。尽管已有研究将LLM扩展到视觉领域,但两者之间的连接尚未完全实现。例如,许多视觉语言模型(VLM)难以理解空间位置关系或计数,需要复杂的工程设计和额外的数据标注。

为了帮助理解这一领域,Meta和蒙特利尔大学等研究机构的数十位研究者撰写了《视觉语言模型导论》,旨在解释VLM的基本概念、训练方法和评估标准。论文强调了基于Transformer的技术,将VLM分为四类:对比式训练、掩码、基于预训练骨干网络的训练和生成式VLM。这些范式并非互斥,许多模型混合使用了不同的训练方法。

早期的基于Transformer的VLM研究,如visual-BERT和ViLBERT,通过结合文本和图像token,并使用掩码建模和句子-图像预测任务进行训练,在多种视觉-语言任务上取得了成功。基于对比的训练方法通过能量模型解释,目标是为观察到的变量分配低能量,未观察到的变量分配高能量。掩码技术在深度学习中广泛应用,适合Transformer架构,可以随机丢弃特定的输入token。

生成式VLM则关注文本和/或图像的生成,如CoCa、Chameleon Team、CM3leon等模型,它们学习文本编码器和解码器或多模态生成模型。此外,还有模型如Stable Diffusion、Imagen和Parti,它们基于文本生成图像,也能解决视觉-语言理解任务。

使用预训练骨干网络构建的VLM可以降低从头开始训练的成本。例如,Frozen和Mini-GPT模型利用预训练的LLM学习图像编码器和LLM之间的映射关系。VLM训练指南强调了数据的重要性,并提供了构建训练数据集的方法,包括数据剪枝、合成数据、数据增强和交错式数据整编等。

软件资源方面,讨论了现有的公共软件库、GPU需求、训练加速和其他超参数的重要性。在选择模型时,需要考虑从头开始训练视觉和文本编码器,还是从预训练的LLM开始。提升定基和对齐是VLM研究中的关键难题,需要理解关系和属性,如位置、否定、计数和颜色等。

为了提升对富含文本的图像的理解,研究者提出了使用细粒度数据进行指令微调、处理高分辨率图像中的细粒度文本和分立式场景文本识别模块等方法。参数高效型微调(PEFT)方法旨在解决微调大规模模型的高计算成本问题,通过训练部分参数适应下游任务。

VLM的评估方法包括图像描述、视觉问答(VQA)、文本中心的VQA、基于零样本预测的分类任务和Winoground基准等。评估VLM时,还需要考虑偏见和幻觉的问题。最后,VLM也被扩展用于视频数据,这带来了新的挑战和能力,如理解物体的运动和动态,以及在空间和时间中定位物体和动作。视频的时间属性对存储和计算资源提出了更高要求,因此需要考虑多个权衡因素,如动态视频解码器的压缩格式、基于图像编码器的视频编码器初始化和时空池化/掩码机制等。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...