视觉prompt工程！无需微调、无需任何模型修改，让一个通用模型可以执行多种指定任务

AI最新资讯12个月前发布 tree

125 0 0

今日应用

未来简历

基于千亿级AI大模型，即时定制专业高通过率的求职简历。融合精心设计的简历模板，确保您在众多候选者中脱颖而出。成千上万用户的首选，打造您成功求职的利器。

今日话题

视觉prompt工程！无需微调、无需任何模型修改，让一个通用模型可以执行多种指定任务

重点标签 tag1、视觉提示、图像修复、MAE-VQGAN、数据集规模

文章摘要

摘要：
本文探讨了如何将预训练的视觉模型适应新的下游任务，而无需进行特定任务的微调或模型修改。作者提出了一种视觉提示（Visual Prompting）的方法，该方法通过图像修复任务来实现。文章首先回顾了自然语言处理（NLP）中的语言模型如何通过提示（Prompt）来适应不同的下游任务，并探讨了将这种方法迁移到视觉领域的可能性。作者通过构建一个大型数据集，允许模型学习图像修复任务，并展示了如何通过增加额外数据（如ImageNet）来提高效果。

详细摘要：

1. 问题提出：如何在不进行任务微调或模型修改的情况下，使用预训练的视觉模型适应新任务。

2. NLP中的提示（Prompt）：在NLP中，GPT-3模型通过在推理时提供输入输出示例和新输入（Prompt），自动生成与示例一致的输出结果。

3. 视觉提示（Visual Prompting）：作者提出，通过图像修复问题，可以在视觉领域实现类似NLP中的提示方法。具体来说，就是在推理时给定新任务的输入输出图像示例和新输入图像，目标是自动生成与示例一致的输出图像。

4. MAE-VQGAN方法：文章介绍了一种图像修复函数，该函数通过MAE（Masked Autoencoders）和VQGAN（Vector Quantized Generative Adversarial Networks）模型来合成新的图像，填补输入图像中的mask位置。

5. 视觉提示的设计：作者构建了一个视觉提示，由任务输入输出示例和新的query图像组成的网格状图像。修复模型必须修复图像的空白部分。

6. 数据集：为了适应视觉提示的结构，作者创建了一个新的数据集Computer Vision Figures，包含88,645张图片。

7. 实验结果：作者使用不同的模型进行实验，包括MAE-VQGAN、VQGAN、BEiT和MAE等，发现MAE-VQGAN在检测和分割方面优于其他模型。

8. 合成数据研究：作者创建了3个简单的合成任务以及它们的组合，并在每个任务上评估每个模型，发现预训练在本文提出的数据集上可以提高模型性能。

9. 数据集规模的影响：作者评估了数据集规模对预训练的影响，发现在更多的数据上预训练MAE-VQGAN可以改善视觉提示的结果。

10. 视觉提示工程：作者探索了为前景分割任务构建不同的视觉提示及其相应的MAE-VQGAN结果，发现模型在更改提示布局时仍能生成合理的补全。

文章最后提供了相关资源和链接，供读者进一步了解和探索。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

视觉prompt工程！无需微调、无需任何模型修改，让一个通用模型可以执行多种指定任务

今日应用

今日话题

文章摘要

文章来源

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

3D高斯场景补全新玩法！InFusion：扩散模型助力，效率提高20倍！

相关文章

暂无评论

热门网址

热门标签