今日应用
今日话题
ECCV2024|DepictQA: 图像质量感知多模态语言模型
重点标签 图像质量感知、多模态语言模型、MLLM、DepictQA、v1和v2
文章摘要
极市导读:本文介绍了基于多模态语言模型(MLLM)的图像质量感知方法DepictQA,探讨了如何利用MLLM对图像质量进行类似人类的、基于语言的描述。项目主页、相关论文和代码资源均已提供。
项目背景与动机
图像质量感知是一个复杂课题,涉及图像细节、失真等多个方面。传统的图像质量评价(IQA)方法使用单一的score来描述图像质量,但这种方法无法充分表达图像质量的复杂性和局部性。为了更深入地理解图像质量,研究者们提出了基于MLLM的方法,以期通过语言描述来刻画图像质量的多个方面。
DepictQA方法概述
DepictQA是一种基于MLLM的图像质量感知方法,旨在通过语言描述来评估图像质量。该方法的核心思想是利用MLLM对图像进行详细的描述和分析,从而实现对图像质量的全面感知。
DepictQA-v1
– 任务定义:包括质量描述、质量对比和对比归因三个任务,要求模型能够识别图像失真并进行质量评估。
– 数据收集:结合人工标注和GPT-4语言化,构建了包含大量简短模板化数据和少量详细人工标注数据的数据集。
– 模型训练:采用LLaVA框架,包括image encoder、image projector和LLM,通过多种方法区分多张图像,并使用COCO详细描述数据作为正则化。
DepictQA-v2
– 任务定义:扩展了任务类型,从3种增加到8种,涵盖了单图评估和双图对比两大类任务,支持full-reference和non-reference设置。
– 数据收集:使用了KADIS-700K高质量图像和35种失真类型,将detail数据从5K扩展到56K,brief数据扩展到440K,并采用ground-truth-informed生成方法提升数据质量。
– 模型训练:沿用DepictQA-v1的模型架构,适应不同图像分辨率,并计算response中的key tokens预测概率作为置信度。
实验结果
DepictQA-v1和v2在失真识别、直接对比、评估归因和对比归因等任务上均超越了传统的score-based方法和通用MLLMs。此外,DepictQA-v2在真实图像上也展现出良好的泛化性。
未来工作与不足
尽管DepictQA展示了MLLM在图像质量感知方面的潜力,但仍存在数据数量和覆盖范围不足的问题,限制了模型的泛化性能。此外,MLLM-based方法的应用不如score-based方法直接,需要进一步探索如何将质量感知的语言应用于生成模型或修复模型的质量提升。
极市平台提供了丰富的技术资源和专栏,包括多模态大模型解读、Tranformer系列、ICCV2023论文解读等,欢迎访问获取更多技术干货。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台