谷歌推出创新方法：通过自然文本提示，快速训练视觉模型

AI最新资讯4个月前发布 tree

50 0 0

今日应用

职徒简历52cv

职徒简历52cv是专业的智能简历制作工具，拥有大量的中英文简历模板、简历案例，可进行智能简历检测，支持金融、互联网、咨询、快销等行业中文简历、英文简历制作，适用于应届生求职、实习、研究生升学等多个场景。

今日话题

谷歌推出创新方法：通过自然文本提示，快速训练视觉模型

重点标签 Modeling Collaborator、视觉模型训练、大语言模型、数据挖掘、主动学习

文章摘要

Modeling Collaborator是一种由谷歌和密苏里大学研究人员推出的高效视觉模型训练方法，它通过利用人类对复杂概念的判断能力，大幅减少了人工进行数据标注的需求。在传统的视觉模型开发中，人工定义概念、查找相关图像并手动标注是一个费力且容易出错的过程。Modeling Collaborator通过大语言模型的推理能力，自动化了这一过程，提高了效率并减少了偏差。

Modeling Collaborator的核心是大语言模型、图像描述生成模型和视觉问答模型的协同合作。当用户输入一个概念名称和描述后，大语言模型会基于描述生成相关的原子问题，并提交给视觉问答模型获取答案。结合这些信息，通过思维链推理对输入图像进行标注。此外，Modeling Collaborator还采用了知识蒸馏的方式，在大规模训练数据集上应用该方法，实现批量数据标注。

在数据挖掘方面，Modeling Collaborator利用大语言模型生成正负样本查询，并通过变体扩展增加查询的多样性和覆盖面。这种方法可以从公共数据集中提取更全面的正负样本，克服了人工标注的局限性。

在模型训练阶段，Modeling Collaborator采用了与敏捷建模类似的方法。首先，使用基于视觉语义模型提取的图像特征训练一个浅层的多层感知机模型进行二分类。然后通过主动学习阶段，进一步优化模型并弥补错漏。主动学习主要包括三个步骤：1）将当前学生模型应用于大量无标注图像数据库，采用分层采样策略选取疑难样本；2）大语言模型注释模块为这些样本进行自动标注；3）利用新标注的数据对学生模型进行微调和持续训练。

实验结果显示，通过Modeling Collaborator方法训练出的分类视觉模型的准确率超过了现有的零样本分类和敏捷建模方法。这一成果为计算机视觉领域的发展提供了新的思路和方法。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

谷歌推出创新方法：通过自然文本提示，快速训练视觉模型

今日应用

今日话题

文章摘要

文章来源

视觉 AI 的「Foundation Model」，已经发展到哪一步？丨CVPR 2024 现场直击

00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Sohu推理性能超H100二十倍！

相关文章

暂无评论

热门网址

热门标签