今日应用
今日话题
视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务
重点标签 tag1、视觉提示、图像修复、MAE-VQGAN、数据集规模
文章摘要
摘要:
本文探讨了如何将预训练的视觉模型适应新的下游任务,而无需进行特定任务的微调或模型修改。作者提出了一种视觉提示(Visual Prompting)的方法,该方法通过图像修复任务来实现。文章首先回顾了自然语言处理(NLP)中的语言模型如何通过提示(Prompt)来适应不同的下游任务,并探讨了将这种方法迁移到视觉领域的可能性。作者通过构建一个大型数据集,允许模型学习图像修复任务,并展示了如何通过增加额外数据(如ImageNet)来提高效果。
详细摘要:
1. 问题提出:如何在不进行任务微调或模型修改的情况下,使用预训练的视觉模型适应新任务。
2. NLP中的提示(Prompt):在NLP中,GPT-3模型通过在推理时提供输入输出示例和新输入(Prompt),自动生成与示例一致的输出结果。
3. 视觉提示(Visual Prompting):作者提出,通过图像修复问题,可以在视觉领域实现类似NLP中的提示方法。具体来说,就是在推理时给定新任务的输入输出图像示例和新输入图像,目标是自动生成与示例一致的输出图像。
4. MAE-VQGAN方法:文章介绍了一种图像修复函数,该函数通过MAE(Masked Autoencoders)和VQGAN(Vector Quantized Generative Adversarial Networks)模型来合成新的图像,填补输入图像中的mask位置。
5. 视觉提示的设计:作者构建了一个视觉提示,由任务输入输出示例和新的query图像组成的网格状图像。修复模型必须修复图像的空白部分。
6. 数据集:为了适应视觉提示的结构,作者创建了一个新的数据集Computer Vision Figures,包含88,645张图片。
7. 实验结果:作者使用不同的模型进行实验,包括MAE-VQGAN、VQGAN、BEiT和MAE等,发现MAE-VQGAN在检测和分割方面优于其他模型。
8. 合成数据研究:作者创建了3个简单的合成任务以及它们的组合,并在每个任务上评估每个模型,发现预训练在本文提出的数据集上可以提高模型性能。
9. 数据集规模的影响:作者评估了数据集规模对预训练的影响,发现在更多的数据上预训练MAE-VQGAN可以改善视觉提示的结果。
10. 视觉提示工程:作者探索了为前景分割任务构建不同的视觉提示及其相应的MAE-VQGAN结果,发现模型在更改提示布局时仍能生成合理的补全。
文章最后提供了相关资源和链接,供读者进一步了解和探索。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台