谷歌推出创新方法:通过自然文本提示,快速训练视觉模型

AI最新资讯4个月前发布 tree
50 0 0

今日应用


今日话题


谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
 

重点标签 Modeling Collaborator视觉模型训练大语言模型数据挖掘主动学习

文章摘要


Modeling Collaborator是一种由谷歌和密苏里大学研究人员推出的高效视觉模型训练方法,它通过利用人类对复杂概念的判断能力,大幅减少了人工进行数据标注的需求。在传统的视觉模型开发中,人工定义概念、查找相关图像并手动标注是一个费力且容易出错的过程。Modeling Collaborator通过大语言模型的推理能力,自动化了这一过程,提高了效率并减少了偏差。

Modeling Collaborator的核心是大语言模型、图像描述生成模型和视觉问答模型的协同合作。当用户输入一个概念名称和描述后,大语言模型会基于描述生成相关的原子问题,并提交给视觉问答模型获取答案。结合这些信息,通过思维链推理对输入图像进行标注。此外,Modeling Collaborator还采用了知识蒸馏的方式,在大规模训练数据集上应用该方法,实现批量数据标注。

数据挖掘方面,Modeling Collaborator利用大语言模型生成正负样本查询,并通过变体扩展增加查询的多样性和覆盖面。这种方法可以从公共数据集中提取更全面的正负样本,克服了人工标注的局限性。

在模型训练阶段,Modeling Collaborator采用了与敏捷建模类似的方法。首先,使用基于视觉语义模型提取的图像特征训练一个浅层的多层感知机模型进行二分类。然后通过主动学习阶段,进一步优化模型并弥补错漏。主动学习主要包括三个步骤:1)将当前学生模型应用于大量无标注图像数据库,采用分层采样策略选取疑难样本;2)大语言模型注释模块为这些样本进行自动标注;3)利用新标注的数据对学生模型进行微调和持续训练。

实验结果显示,通过Modeling Collaborator方法训练出的分类视觉模型的准确率超过了现有的零样本分类和敏捷建模方法。这一成果为计算机视觉领域的发展提供了新的思路和方法。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...