极市导读
本文首次全面回顾了一体化图像恢复(AiOIR)方法,探索其在多种退化场景下的应用与挑战。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
在数字图像处理领域,图像恢复技术的进步为我们提供了更清晰、更真实的视觉体验。本文首次全面回顾了一体化图像恢复(AiOIR)方法,探索其在多种退化场景下的应用与挑战。通过整合先进的深度学习技术,AiOIR不仅提高了恢复效果,还显著提升了模型的灵活性和通用性。无论是图像超分辨率、去噪、去雨雾还是低光增强,AiOIR都展现了卓越的潜力,期待为研究者和从业者带来新的启发与思考。
论文链接:https://arxiv.org/abs/2410.15067
代码链接:https://github.com/Harbinzzy/All-in-One-Image-Restoration-Survey
0、摘要
图像恢复(Image Restoration)是指在提升图像视觉质量的过程中,去除噪声、模糊和天气影响等退化现象。传统的图像恢复方法通常针对特定类型的退化,这限制了它们在复杂现实场景中的有效性。为应对这一挑战,一体化图像恢复(All-in-One Image Restoration, AiOIR)应运而生,提供了一个统一框架,能够处理多种退化类型。这些模型通过自适应学习特定于退化的特征,同时利用不同退化之间的共享知识,增强了其便捷性和通用性。本文深入探讨了AiOIR方法,强调其架构创新和学习范式,并对现有方法进行了系统回顾。我们对现有方法进行了分类,并评估了这些模型所面临的挑战,提出了未来的研究方向,以推动这一快速发展的领域。文章首先介绍了AiOIR模型的基本概念,然后根据先验知识和泛化能力等因素对前沿方法进行了分类。接下来,重点阐述了 AiOIR的关键进展,旨在激发社区内的进一步探究与创新。为促进对现有方法的评估,我们整理并总结了常用的数据集、实现细节和评估指标,并对开源方法进行了客观比较,为研究人员和从业人员提供了有价值的见解。本文是对AiOIR的首次全面而深入的综述。
关键词:All-in-One模型,图像恢复,计算机视觉,深度学习
1、引言
图像处理是底层视觉任务,数字图像处理在过去几十年里有了显著的发展,从传统方法过渡到先进的深度学习技术。最初,图像处理严重依赖于诸如滤波、边缘检测、图像合成和图像分割等任务的算法。这些方法虽然有效,但无法处理复杂多变的图像退化场景。随着深度学习的兴起,图像处理取得了显著的成果,尤其是在卷积神经网络(CNN)[1]、Transformer[2]和扩散模型[3]的驱动 下。在图像恢复领域中,单任务图像恢复已经取得了显著的突破,它专注于特定类型的图像退化(如去噪[4]、[5]、[6]、[7]、[8]、[9]、去雾[10]、 [11]、 [12]、 [13]、 [14]、 去雪[15]、[16]、 [17]、去雨[18]、[19]、[20]、去模糊[21]、[22]和低光图像增强[23]、[24]、[25])。尽管在恢复各种退化图像方面取得了优秀的性能,但现有的单任务方法:1)缺乏灵活性,无法在不进行大量再训练的情况下适应新型的图像退化;2)通常需要为每种退化类型建立单独的模型,这可能是资源密集型的,在现实世界的应用中是不切实际的,因为图像经常同时具有多种退化类型;3)采用固定的网络结构,限制了退化知识的多样性。为了解决上述问题,研究人员提出了一体化图像恢复 (AiOIR),并投入了大量精力、引入各种改进,例如,基于提示的学习方法、混合专家模型和多模态模型等。
AiOIR方法旨在能够在统一框架内同时处理多个退化任务。AiOIR将各种图像增强和恢复技术集成到单个模型中,提供了更好的性能和通用性。这些模型更有效,因为它们消除了对多个专门模型的需要,而且它们更鲁棒,因为它们可以适应图像中出现的不同类型的退化。值得注意的是,现实场景中可能会出现各种不可预见的退化,因此需要进一步发展AiOIR模型。在一些工作中,推理时可以获得退化类型标签,即非盲图像恢复。相比之下,如果输入图像没有先验信息,则称为盲图像恢复。如果我们关注训练集和测试集是否相同,即是否为零样本,则可以将任务划分为开放集场景IR和封闭集场景IR。尽管AiOIR模型多种多样,但它们生成高质量图像的能力正在被积极探索。最近,研究人员一直在研究优化这些模型架构的方法,以平衡计算复杂度和恢复质量。我们按照时间轴列出了一体化图像恢复模型的代表性作品,见图2。
随着AiOIR的快速发展,众多研究人员收集了一系列针对不同图像恢复任务的数据集,如用于图像超分辨率的BSD100[26]、Manga109[27]和Urban100[28],用于去雨的RainDrop[29]、 Outdoor-Rain[30]、SPA[31]和Rain-100H[32],用于去模糊的GoPro[33]和HIDE[34],用于低光图像增强的LOL[35]等。利用这些数据集,最近的大多数工作都专注于通过基于提示学习、对比学习、多模态表示等方法来提高IR网络对复杂退化的表示能力。尽管这些工作在客观质量上取得了卓越的进展(如PSNR、SSIM[36]、NIQE[37]和FID[38]等),恢复后的图像纹理生成效果不理想,阻碍了图像恢复方法在现实场景中的应用。总的来说,这些方法代表了追求复杂、准确和通用的 AiOIR解决方案的实质性进展。
AiOIR方法是图像恢复领域向前迈出的积极一步,尽管这些方法的细节和应用仍需研究。对于CV研究人员来说,跟上最新的研究成果至关重要。单任务图像恢复方法已有较为全面的综述,如图像超分辨率[39]、[40]、[41]、[42]、去雾[43]、[44]、去雾[45]、去噪[46]、[47]、[48]、去模糊[49]、[50]、低光增强[51]、[52]、[53],以及涵盖基于扩散模型的图像恢复[54]的综述,但目前尚未有针对AiOIR领域的综述。这种差距限制了它的发展。本文旨在对AiOIR方法在IR任务中的应用进行首次全面概述,图1展示了本文的整体架构:
前言(第2部分):介绍AiOIR的概念定义及相关概念比较。同时,指出了不同的任务设置和典型场景。 方法(第3部分):详细分析了几个有代表性的AiOIR网络,旨在说明流行的方法,并阐明不同类别的方法。通过分析实现最新研究成果的方法,总结了网络结构、基本方法、学习策略以及一些关键改进。 实验(第4部分):为了便于合理和详尽的比较,阐明了不同AiOIR任务中常用的数据集和实验设置。此外,还对不同任务的基准进行了全面的比较。 挑战和未来方向(第5部分):将它们扩展到实际应用仍然存在一些挑战。为了进一步促进AiOIR的发展,总结了AiOIR面临的主要挑战,并提出了解决这些挑战的潜在方向和趋势。
2、基本概念
在本节中,我们首先定义了All-in-One图像恢复的概念,并将其与相关概念进行比较。从不同的角度研究了AiOIR中的任务设置。最后,对AiOIR中的不同场景和相应的方法进行了全面的综述。
2.1 概念定义
单退化图像恢复侧重于从被特定类型的退化影响的观测图像中恢复干净的图像,如噪声、模糊或雨雾。这些方法通常是特定于任务的,这意味着每个模型都是为特定的退化类型设计的。虽然这些模型擅长处理已知的退化类型,但当面临未见过的退化或新的退化水平时,它们往往性能较差。因此,多重退化图像恢复技术解决了处理受多种退化类型影响的图像的挑战。主要策略是使用包含不同退化类型的数据集训练单个模型。尽管模型在训练过程中遇到多个任务,但它缺乏专门的设计元素来有效处理不同退化。因此,MDIR模型经常表现出平庸的跨任务性能,因为它们无法提供一个真正的一体化解决方案。为了解决这一问题,研究人员提出了AiOIR,旨在恢复各种退化条件下的干净图像,明确地定制基于多头多尾结构、先验或在统一框架内预训练的模型,以解决多种退化。这些模型具有降低存储需求和简化部署等实际优点;然而,主要挑战在于开发健壮的架 构,能够用一组参数有效解决不同的退化,同时在不同条件下实现高质量的恢复。此外,这些方法往往需要有关退化类型或程度的先验知识,限制了它们在这些信息未知或可变的现实场景中的适用性。在后续章节中,我们将阐述与退化感知和一体化模型相关的泛化能力相关的关键概念。
2.2 任务设置
盲/非盲。 根据退化信息的类型或程度是否已知,AiOIR方法可以初步分为盲方法和非盲方法两大类。非盲图像恢复假设退化过程是已知的或可以明确建模。例如,当模糊核或噪声分布可用时,恢复任务主要关注根据这些已知信息恢复图像。因此,盲恢复通常被认为比非盲恢复更具挑战性,因为它涉及的未知更多。一些作品[55]、[56]、[57]、[58]、[59]、[60]、[61]、[62]需要退化图像中退化的先验知识,以将其提供给适当的恢复头或指导图像恢复网络。值得注意的是,更具挑战性的场景是盲的[63]、[64]、[65]、[66]、[67]、[68]、[69]、[70]、[71]、[72]、[73]、[74]、[75]、[76]、[77]、[78],其中影响输入图像的退化是未知的——这就是盲AiOIR,在真实世界的照片中显示出了良好的潜力。
在盲AiOIR中,退化类型(如模糊、噪声或压缩)是未知的,需要在恢复始图像的同时估计退化类型。盲恢复的困难源于这种双重估计任务,它需要先进的技术来同时有效地对退化过程和图像恢复进行建 模。因此,盲恢复往往需要更复杂的算法或更复杂的模型来准确估计重建图像。为了实现盲 AiOIR, AirNet[63]使用对比学习策略从退化图像中学习退化表示。然后利用这些学习到的表示来恢复干净的图像。随后,IDR[66]根据潜在的物理原理对各种退化进行建模,并分两个阶段完成 AiOIR。最近,出现了几种基于提示学习的方法[61]、[65]、[79]、[79]、[80]、[81]、[82]、 [83]、[84]。例如,PromptIR[65]引入了一系列可学习的提示来编码不同退化类型的可区分信息,涉及大量参数。
开集和闭集。 在AiOIR领域,封闭集和开放集图像恢复之间存在一种新的区别,解决了训练和测试场景之间的一致性和泛化性。闭集图像恢复假设在训练阶段遇到的一组预定义的退化,将模型的应用限制在测试图像中的退化与训练数据中的退化相同的场景。这种方法虽然对已知的退化(即封闭场景)有效,但缺乏灵活性来处理意外或未见过的退化类型,而这在现实世界的应用中更常见。相比之下,开放集图像恢复(例如,Gou等[85])解决了恢复受训练数据中缺乏的不可预见退化影响的图像的挑战。与零样本IR不同,零样本IR侧重于恢复单退化图像,而不依赖预先存在的特定退化训练。尽管没有对预定义退化进行训练的约束,但零样本IR方法往往需要预先对测试退化进行某种形式的先验知识或假设,以指导恢复过程。开放集场景的核心困难在于训练数据和测试数据之间的分布变化。这需要模型的泛化能力超出其训练经验,并适应以前未见过的退化类型。测试时自适应(TTA)(如[86]、[87]、[88])已成为解决此问题的一项关键技术,允许模型在测试阶段动态调整其参数,以更好地与退化输入图像的特征保持一致。TTA通过使用测试样本调整预训练模型,有效地解决了测试数据和训练数据之间的分布变化。通过使模型能够恢复未知退化的图像,开放集图像恢复旨在提供一种更鲁棒和通用的解决方案,使其成为在各种图像恢复任务中实现现实世界适用性的关键一步。
Zero-shot。 零样本图像恢复涉及恢复训练期间未遇到的失真图像,要求模型将未知类别分类到特定类别,这与开放集方法不同[89]。这种方法需要一个鲁棒和自适应的模型,依靠学习到的先验和一般特征来有效处理未见过的失真。例如,零样本方法(如[90]、[91]、[92]、[93])利用预训练扩散模型作为生成先验,无缝地将退化图像作为条件集成到采样过程中。以AiOIR为例,预训练的 MPerceiver[71]在6个未见任务中展示了强大的零样本和少样本能力。此外,TAO[85]对AiOIR任务采用了测试时自适应,取得了与传统监督方法相当或更好的结果。
2.3 典型场景
根据所处理图像的类型,AiOIR场景的任务分为几个场景:自然图像、不利天气条件、医学图像和文档图像。
自然图像。 自然图像中常见的退化类型包括高斯噪声、真实噪声、散焦模糊、运动模糊、低光条件、JPEG压缩伪影、马赛克效果、水下失真和显示不足相机引起的问题等。已经开发了各种AiOIR方法来解决这些退化问题,包括研究中概述的技术,如[55]、[61]、[63]、[65]、[66]、[70]、 [72]、[73]、[94]、[95]、[97]、[98]、[99]。这些方法主要专注于解决在自然和合成场景中发现的典型问题,增强受这些常见退化影响的图像的质量和可用性。
恶劣的天气条件。 在更极端的情况下,需要修复的图像可能会受到各种恶劣天气条件的严重影响,如雪花或密集的雾霾影响。这些条件导致了不适定的反问题,这些反问题对自主导航和监视系统的应用至关重要。AiOIR领域出现了多种解决方案,旨在解决这些挑战,包括[56]、[64]、[67]、 [68]、[69]、[75]、[100]、[101]、[102]、[103]、[104]、[105]等工作。这些解决方案旨在有效地恢复受恶劣环境条件影响的图像的可见度和清晰度。
医学图像。 AiOIR的医学成像领域包括各种类型,包括临床计算机断层扫描(CT),磁共振成像(MRI)和正电子发射断层扫描(PET)。该领域的方法包括AMIR[106]和ProCT[107]。AMIR采用了一种任务自适应路由策略,在三个关键的医学图像恢复任务中实现了最先进的性能:MRI超分辨率、CT去噪和PET合成。另一方面,ProCT引入了创新的视图感知提示技术以及基于感知的上下文学习,实现了通用的不完全视图CT重建,同时展示了对域外混合CT场景的无缝适应性。
文档图像。 目前,关注All-in-One文档图像恢复的文章只有DocRes[108]。该工作解决了各种任务,包括去扭曲、去阴影、外观增强、去模糊和二值化。DocRes采用了一种直接而高效的视觉提示方法,称为DTSPrompt,可以有效区分不同的任务并适应不同的分辨率。该方法不仅简化了文档图像的恢复过程,而且提高了恢复文档的整体质量和可读性。
3、目前该领域的方法
AiOIR方法因其能够在统一模型中解决多种类型的退化问题而获得了广泛关注。这些方法在现实世界中特别有价值,在这些场景中,图像可能同时受到各种伪影的影响,如噪声、模糊和雾和雨等不利天气条件。在本节中,我们从多个角度对AiOIR方法进行了全面的分析。首先,我们回顾了新型和传统的网络结构,并讨论了其实现的相关方法(将这些方法分类为几种典型的网络设计)。进一步研究了不同的学习策略,包括训练方法和视角,以增强图像重建的精度和提高整体恢复质量。最后,还存在其他进一步优化AiOIR模型的技术,包括提示学习、专家混合(MoE)、多模态模型等。
3.1 AiOIR 的网络设计
现有的AiOIR方法作为一种多任务学习(MTL)的形式,采用各种架构设计来处理多个任务的输入和输出,从而实现它们之间的高效信息共享。尽管AiOIR方法在架构上存在显著差异,但可以分为十个代表性框架,如图三所示,并在下文进行描述:
特定任务的编码器和解码器:这种直接的方法将每种类型的退化分配给特定设计的编码器-解码器对。例如,一个编码器-解码器可处理低光照增强,而另一个处理图像去噪。此设置需要预先了解退化类型以选择适当的组件。然而,在现实场景中,图像往往会遇到多重或未知的退化,使这种方法不太实用。为了克服这一限制,模型(b)、(c)、(d)及其他的旨在不依赖先验知识,在统一框架内处理多种退化类型,提供更大的灵活性和效率。
具有多个头的共享解码器:该类中的模型共享一个共同的解码器,但具有多个针对不同退化类型单独训练的头。例如,Li等人的All-in-One模型[56],使用共享权重处理各种类型的恶劣天气图像,需要对每种退化类型进行单独训练。
统一的编码器-解码器架构:这些模型使用单一的编码器-解码器架构,没有单独的头或尾,旨在一次去除一种特定类型的噪声。它们是基于提示的方法的基础,如TransWeather [64], AirNet[63]和TANet[109]。
具有多个解码器的共享骨干:通用模型采用混合输入,没有任何特定任务的标签,使用一个共享骨干进行特征提取和多个特定任务的解码器。例如,BIDeN[101]就采用了这种方法。然而,这重新引入了多个解码器的复杂性,并需要退化标签的监督。
预训练中层骨干:一些模型引入了可重用的预训练transformer骨干,具有特定任务的头和尾。IPT[57]利用预训练来解决一般的噪声去除问题,通过利用先验知识大大简化了pipeline。
专家混合(MoE)架构:在基于MoE的模型中,输入通过门控机制路由到不同的专家。例如, MEASNet[110]同时考虑像素级特征和全局特征(包括低频和高频成分),以选择合适的专家进行图像恢复。
预训练模型先验:像Perceive-IR[111]和DA-CLIP[76]这样的模型使用冻结的视觉-语言模型,如 CLIP [112],DINO[113]和DINO-v2[114]。这些模型预测高质量的特征嵌入,以通过利用视觉和语言之间的语义对齐来增强恢复过程。
视觉提示:这些模型采用单一的编码器-解码器架构,并在多个解码阶段注入可学习的视觉提示,以隐式预测退化条件。示例包括Potlapalli等人[65]、Li等人[72]和Fan等人[115]的作品。提示引导解码器自适应地恢复各种退化图像,作为轻量级的即插即用模块,具有最小的附加参数。
文本和多模态提示:扩展了提示的概念,Yan等人[94]、Conde等人[62]和Tian等人[116]等模型纳入了文本或多模态提示。这些模型允许自然语言指令或结合视觉和文本线索来指导恢复过程,增强了对未知退化的适应性。
问答范式:最后,像promptGIP[80]和AutoDIR[70]这样的模型采用了一个问题-回答框架。它们使用户能够根据个人偏好自定义图像恢复过程,通过解释用户输入并相应地调整恢复步骤。
AiOIR模型已经从需要先验退化类型知识的特定任务架构发展到更灵活和统一的框架,能够在没有显式信息的情况下处理多种退化。最近研究的一个重要趋势是结合基于提示的技术(视觉、文本或多模态),以指导恢复过程并增强适应性。通过利用提示,模型可以有效地处理未知退化,并提供用户可控的恢复,使得提示技术成为AiOIR的一个有前途的方向。
3.2 AiOIR 的学习策略
除了网络设计(如3.1),稳健的学习策略对于在 AiOIR 中取得令人满意的结果至关重要。在本节中,我们将讨论该领域的几种有前途的学习策略。我们从持续学习开始,探索它如何防止灾难性的遗忘。接下来,我们重点介绍对比学习及其在复杂退化场景中的应用,强调其在增强图像特征判别方面的作用。然后,我们强调了多任务学习 (MTL) 在优化各种退化任务性能方面的潜力,指出了解决任务关系和冲突的重要性。最后,我们介绍了机器取消学习的概念,探讨了它在隐私保护方面的潜力。
持续学习。 从迁移学习的角度来看,AiOIR方法可以分为两种学习方式:MTL和顺序学习。MTL涉及同时学习不同的任务,而顺序学习涉及按顺序学习不同的任务。迁移学习场景[117]、[118]的阐述如图4所示。在人类认知中,遗忘是一个渐进的过程;除非在极少数情况下,人们不会突然失去记忆。然而,在计算模型中,灾难性遗忘[119]经常发生,在学习了新知识后,模型几乎完全忘记了以前学习的内容。在AiOIR领域,由于预期单个网络可以恢复多次退化的图像,因此模型必须学习与各种退化相关的知识,从而更容易发生灾难性遗忘。为了使模型能够逐步积累知识并避免灾难性的遗忘,研究人员提出了新的学习策略,例如复习学习[120]和顺序学习[121]。这些方法受到持续学习[122]、[123]的启发,并用顺序训练取代了混合训练(混合具有不同退化的数据集)。值得注意的是,多个任务的学习顺序对图像修复的质量至关重要。在 MiOIR[121]中,作者研究了训练顺序对结果的影响,并指出了多任务顺序的影响。在 SimpleIR[120]中,作者深入研究了各种 IR 任务的熵差分布。他们建议根据异常高的损失值和任务的固有难度来确定训练数据集的顺序,通过原始图像和退化图像之间的熵差来衡量。
对比学习。 图像修复的重大挑战之一是有效处理看不见的任务和退化类型。可能退化的巨大可变性会严重阻碍模型的泛化能力,使其在面对新的、看不见的数据时效率降低。为了解决这个问题,研究人员从对比学习技术中汲取灵感,这些技术已被证明在高级和低级任务中都是成功的[124]、 [125]、[126]。对比学习方法通常作为另一种形式的正则化,以提高单任务恢复模型的泛化 [126]、[127]、[128]、[129]、[130]。通过结合对比正则化,这些方法旨在提高各种图像恢复应用中的模型性能。在对比学习中,正样本和负样本的定义可以灵活调整(如图 5 所示),允许研究人员定制学习过程以更好地适应特定任务和数据集。这种灵活性最终增强了模型在不同图像恢复场景中的适应性和性能[111]。此外,已经提出了基于对比学习的损失函数,以在潜在空间中获得判别性退化表示[63]、[66]、[72],进一步提高了模型区分不同类型退化和推广到看不见的退化的能力。
多任务学习。 MTL是一种学习范式,它利用跨任务的共享表示和知识,使模型能够更高效地学习。通过从多个目标中共同学习,MTL可以提高泛化性,减少过拟合,并在单个任务上实现更好的性能。它被广泛用于各个领域[131]、[132]、[133],其中相关任务可以从共享信息中受益。然而,在AiOIR的上下文中,优化过程通常受到较少的关注,导致忽视了混合训练场景中多个退化之间的复杂关系和潜在冲突。与采用混合训练进行多重退化恢复的统一模型(例如[63]、[64]、 [65]、[121])不同,一些新的研究从MTL的角度接近AiOIR来解决不同退化之间的不一致和冲突,将每个退化视为一项独立的任务。通过关注优化过程和任务之间的交互,这些方法旨在减少冲突并提高整体性能。如图6所示,我们可以将MTL中的AiOIR方法大致分为两种类型:任务分组和任务均衡。
任务分组。 一个值得注意的例子是 GRIDS [134],它通过根据任务的相关性战略性地将任务划分为最佳组来增强 MTL。高度相关的任务被分组在一起,从而实现更有效的训练。GRIDS 引入了一种自适应模型选择机制,可在测试期间自动识别最合适的任务组。这种方法利用了小组训练的好处,通过确保以互补的方式处理相关任务,最终提高整体性能。
任务均衡。 相反,Art [135] 的工作提出了一种简单而有效的损失函数,它结合了特定于任务的重新加权。这种方法动态地平衡各个任务的贡献,促进不同任务之间的和谐。通过根据每个任务的具体特征和性能调整其权重,这种方法旨在减少冲突并提高恢复过程的整体有效性。
机器反学习(机器遗忘)。隐私保护是人工智能 (AI) 领域日益重要的问题,尤其是当模型越来越多地集成到敏感应用程序中时。解决这一挑战的一个有前途的解决方案是机器反学习 [136]。这种创新方法旨在有效地消除经过训练的模型中私人数据的影响,使它们能够像在训练过程中从未使用过敏感信息一样运行。
现有的忘却方法可以大致分为两种类型:精确忘却[137],旨在完全消除特定数据点的影响,以及近似忘却[138],旨在在一定程度上减少这些数据的影响。虽然unlearning的概念已经在各种环境中得到了广泛的探索,包括分类任务和联合学习场景,但它在端到端图像恢复领域的应用在很大程度上仍然是未知的。为了填补这一空白,Su等人[139]提出了一个将机器反学习技术应用于 AiOIR模型的创新框架。在他们的工作中,他们定义了这样一种情况:某些类型的退化数据(例如雾霾或雨水)被视为私人信息,必须被模型有效地“遗忘”。重要的是,此过程旨在保持模型在其他类型的退化下的性能,从而确保整体功能保持不变。为了实现这一目标,作者介绍了一种称为 Instance-wiseUnlearning的技术,该技术将对抗性示例与梯度上升方法结合使用。这种方法不仅增强了模型忘记特定数据的能力,而且在各种图像恢复任务中保持了其稳健性。
3.3 AiOIR 的主要改进
除了3.1中的网络设计和3.2中的学习策略,还有其他旨在改进AiOIR模型的关键技术。在本节中,我们初步将AiOIR模型的关键改进分为以下三个领域,即提示学习、专家混合(MoE)和多模态模型。我们还说明了一些其他改进,包括深度展开方法、掩码图像建模等。为清楚起见,我们根据三种类型列出了all-in-one模型的代表作品在图7中。
提示学习。 提示学习,最初在自然语言处理 (NLP) [140]、[141]、[142] 中取得成功,旨在通过提供指令或相关信息来利用语言模型本身所拥有的知识。受到有效建模任务特定上下文能力的启 发,提示已被用于微调视觉任务 [143]、[144]。具体来说,与单任务图像恢复不同,可学习的提示可以更好地适应面临多重退化的模型。最近,在 AiOIR 中探索了各种提示,作为一个自适应轻量级模块,用于在恢复网络中编码退化表示。其核心思想是通过构建可视化、文本或多模态提示,使预训练模型能够更好地理解和执行下游任务,如下所示。
视觉提示。 视觉提示在各种研究中得到了广泛的探索[61]、[80]、[145]、[146],解决了高级和底层视觉问题,这引发了不同视觉领域的极大兴趣。在 AiOIR 的上下文中,已经实施了基于提示学习的技术,允许通用模型自动为特定任务选择提示,从而获得出色的性能。其中,基于视觉的提示是使用最广泛的。例如,AirNet [63] 利用退化编码器表示来指导网络恢复,而 Transweather[64] 则应用查询来指导恢复过程。越来越多的研究人员正在应用提示学习的概念来开发 AiOIR 模型。
PromptIR [65] 是最具代表性的工作之一,它将提示块集成到 U-Net 架构 [147] 中以增强 AiOIR。此 prompt模块将 prompt组件和前一个 transformer模块的输出作为输入,其输出送到下一个 transformer 模块中。这些提示用作自适应、轻量级的即插即用模块,如图8所示。在恢复网络中跨多个尺度对退化上下文进行编码。相比之下,ProRes [61] 引入了一个添加到输入图像的目标视觉提示,从而产生“提示图像”。然后将此提示图像展平为patch,冻结 ProRes的权重,同时为新任务或数据集随机初始化可学习的提示。基于这些想法,PromptGIP[80]提出了一种类似于掩码自动编码[148]的训练方法,其中图像的某些部分被随机屏蔽。这会提示模型从未被掩盖的区域重建这些patch,并且在推理过程中,输入-输出对被组装为任务提示,以促进图像恢复。PIP[72]引入了一种新的Prompt-In-Prompt学习框架,用于通用图像恢复,该框架采用了两种创新的提示:退化感知提示和基本恢复提示。PIP仅依靠输入图像来恢复干净的图像,而无需事先了解图像中存在的退化情况。
文本提示。 如上所述,许多研究利用可学习的提示来指导恢复。然而,这些模型主要集中在根据训练数据的分布差异学习视觉提示。由于存在语义差距[149],准确识别退化类型仍然是一个挑战,导致修复性能适中。在此背景下,一些创新研究 [62]、[70]、[74]、[94]、[116]、[150] 引入了文本提示,推动了 AiOIR 领域的发展。例如,TextPromptIR [94] 利用特定于任务的微调 BERT[151] 来准确理解文本指令并为相关的多合一任务生成语义提示。与传统方法不同,文本提示还允许用户使用自然语言描述图像中的特定退化,然后模型对其进行解释以应用适当的修复技术。这种方法增强了 AiOIR 的适应性和可用性,使非专家用户更容易访问它们,并使模型能够在不同类型的退化场景中更好地泛化。随着GPT-3.5 [152]的日益普及,Clarity ChatGPT [150]结合先进的视觉模型,为用户提供了一种简单有效的方式,通过自然语言交互进行复杂的图像处理和增强。此外,AutoDIR [70] 可以通过直观的文本提示在看不见的任务中处理未知退化的图像,使用户能够根据自己的视觉偏好来优化修复结果。
多模态提示。 最近,视觉语言模型 (VLM) 展示了应用预训练的 VLM 通过通用视觉和文本表示来改进下游任务的巨大潜力。传统的 VLM 通常包括一个文本编码器和一个图像编码器,旨在使用对比学习从复杂的图像-文本对中学习对齐的多模态特征。这极大地促进了文本中的多模态提示以实现整体表示,而可视化则有助于实现多尺度细节表示。MPerceiver [71] 是一种开创性的多模态提示学习方法,旨在利用 Stable Diffusion [153] 的生成先验,增强 AiOIR 的适应性、泛化性和保真度。这两个提示都是根据 CLIP 图像编码器的预测动态优化的,允许对各种未知的退化进行自适应处理。最近,DA-CLIP [112] 利用预先训练的大规模视觉模型在 AiOIR 中表现出色,其图像控制器可检测退化并调整固定的 CLIP 图像编码器,以从退化的输入中生成高质量的内容嵌入。
混合专家模型。 专家混合(MoE) 概念首次在 1991 年的开创性论文“Adaptive Mixture of Local Experts”中提出 [154]。与集成方法一样,MoEs 在不同网络的框架内使用监督学习方法。每个网络(称为专家)都经过训练,专门用于特定的数据子集,专注于输入空间的特定区域。门控网络负责为给定输入选择最合适的 Expert,并确定分配给每个 Expert 的权重。在训练期间,专家和门控网络都同时得到优化。由于 MoE 架构中集成了多个专家模型,每个专家模型都可以针对不同的数据分发和构建模式进行构建,从而显著提高了各个细分领域大型模型的专业能力,使 MoE在处理复杂任务方面明显更胜一筹。随着模型规模的扩大,MoE 还面临着训练不稳定和过拟合、如何保证模型的泛化和鲁棒性、如何平衡模型性能和资源消耗等问题,等待大模型开发者的持续优化和改进。
AiOIR的研究人员观察到,IR模型参数往往是退化特异性的。例如,在处理其他类型的退化时,与一种退化相关的参数通常是不起作用的,并且将这些不相关的参数归零对LDR中所示的图像恢复质量几乎没有影响[74]。这一观察结果与专家混合(MoE)中的条件计算概念一致,其中稀疏性起着关键作用。将MoEs应用于AiOIR领域可能会带来多项改进,包括与密集模型相比更快的预训练以及使用相同数量的参数进行更快的推理。此外,MoE有助于协同处理低级上游任务(如消除天气噪声)和高级下游任务(如目标检测和分割)。以下部分将探讨将MoEs与AiOIR相结合的各种方法,如图9所示。提供多种策略来利用MoE框架来改进恢复的图像。
Yang 等人[74]提出语言驱动的多合一恶劣天气去除,该方法根据天气条件的文本描述生成退化先验,然后用于指导通过 MoE 结构对恢复专家进行适应性选择。它使模型能够处理各种混合天气条件,而无需特定的天气类型标签,从而简化了图像恢复过程。WM-MoE [103]引入了一种天气感知路由机制(WEAR),将图像令牌引导给专业专家,并采用多尺度专家(MSE)来有效处理各种天气条件。这种方法利用 MoE 在恶劣天气去除方面实现最先进的性能,从而增强图像恢复和分割等下游任务。通过使用特征调制专家 (FME) 模块和不确定性感知路由 (UaR),该方法在图像恢复方面实现了卓越的性能,同时显着减少了模型参数和推理时间。MoFME [155] 框架在图像
恢复和下游任务方面都优于以前的方法,证明了其有效性和效率。相比之下,MEASNet [110] 提出了一种新的多专家自适应选择机制,它利用局部和全局图像特征为不同的图像恢复任务选择最合适的专家模型。通过平衡特定任务的需求和促进任务之间的资源共享,与现有方法相比,该方法在多种图像退化场景中表现出卓越的性能,使其成为对图像恢复领域的宝贵贡献。
多模态模型。 多模态任务在计算机视觉领域变得越来越重要,通过集成各种信息源来丰富视觉理 解。多模态任务的基本目标是从多种模态中学习有价值的潜在特征表示,例如文本标题和视觉图像、带有深度或热图像等补充组件的 RGB 图像,以及各种形式的医学成像数据。尽管如此,图像修复中的多模态模型利用来自多个来源的数据来提高修复图像的保真度和稳健性。这些模型集成了互补模态,以解决单模态方法固有的局限性,尤其是在涉及复杂退化的场景中,例如严重的噪声、模糊或弱光条件。通过利用不同类型的信息,多模态模型能够增强恢复图像的结构细节、纹理和整体质量。
然而,多模态模型也带来了挑战,包括处理不同数据流的计算复杂性增加,以及需要对齐良好的多模态数据集。此外,有效融合可能具有不同分辨率和特征的不同类型的数据的过程仍然是一个重大的技术障碍。在这里,我们总结了多模态 AiOIR 方法的多种方法(例如,Clarity-ChatGPT [150]、AutoDIR [70]、Instruct-IPT [116]、InstructIR [62])。如前所述,这些涉及通过人类语言指令持续指导图像恢复,以及为 AiOIR 使用多模态提示。Clarity-ChatGPT 是第一个将自适应图像处理与交互式用户反馈联系起来的系统,它创新性地集成了大型语言和视觉模型。AutoDIR 通过语义不可知盲图像质量评估 (SA-BIQA) 自动检测和恢复具有多种未知退化的图像。InstructIR [62] 使用常见的图像数据集和使用 GPT-4 生成的提示来训练模型,请注意,这可以推广到人类编写的指令。
其他方法。 除了强调的三项关键改进外,我们还回顾了 AiOIR 的其他方法。一些模型受益于深度展开框架中的迭代算法,而 CLIP 和 BLIP 等大规模视觉模型 (VLM) 在利用多模态功能增强图像恢复任务方面显示出巨大的前景。将网络设计与预训练的掩码图像建模 (MIM) 集成也具有巨大的潜力。这些方法利用语义对齐和先验知识来实现稳健灵活的图像恢复,在 AiOIR 领域内取得了令人印象深刻的结果。
• 深度展开方法。 Zhang 等人[156] 是第一个引入使用深度展开框架的人,将 CNN 与基于模型的方法相结合,用于特定的图像恢复 (IR) 任务。考虑到退化模型,可以通过最小化能量函数来估计目标图像。使用半二次分割 (HQS) 算法 [157],该方程可以分解为两个单独的子问题,每个子问题分别处理数据项和前一项。优化是通过以交替方式迭代求解这些子问题来实现的。数据项子问题简化为简单的最小二乘优化,而前一项子问题使用可训练的 CNN 模型来解决。我们还可以使用期望最大化算法来对图像恢复网络进行建模。DRM-IR [73]通过引入基于参考的、任务自适应的建模范式,增强了All-In-One场景的灵活性。开发了一个先进而高效的AiOIR 框架,直观地集成了两个耦合的子任务:任务自适应退化建模和基于模型的图像恢复技术。
• 大型视觉模型。 最近的工作证明了预训练视觉语言模型 (VLM) 使用通用视觉和文本表示增强下游任务的潜力 [158]、[159]、[160]。经典的VLM模型通常由文本编码器和图像编码器组成,通过对比学习从复杂的图像-文本对中学习对齐的多模态特征[158]。BLIP [160] 通过消除带有合成字幕的复杂 Web 数据来改善这一点。VLM 在各种任务中表现出强大的特征表示和zero-shot能力。像 CLIP [112] 这样的模型已经证明了视觉和语言之间的有效语义对齐,有助于许多下游任务。事实证明,像 DINO [113] 和 DINO-v2 [114] 这样的自我监督模型在多个任务中都是有效的,无需标记数据。VLMs在 AiOIR 领域也获得了巨大的吸引力。Perceive-IR[111] 利用基于 DINO-v2 的指导模块挖掘的语义先验知识和结构信息来增强恢复过程。DA- CLIP [76] 训练一个额外的控制器,该控制器使固定的 CLIP 图像编码器适应以预测高质量的特征嵌入。
• 掩码图像建模。 掩码图像建模(MIM)(例如,[148]、[161])是计算机视觉中的一种技术,它涉及训练模型,以根据受掩码语言建模 [151]、[162] 启发的周围环境来预测图像的掩码部分。这种方法利用了自我监督学习范式,其中模型学习重建图像的缺失部分,从而提高其对视觉特征和表示的理解。MIM 已被证明在各种任务中都有效,包括图像分类、目标检测和分割。MAE [148] 框架有效地使用 MIM 来预测隐藏的标记,在一系列下游任务中展示了令人印象深刻的性能和泛化能力。同时,SimMIM [161] 引入了一种基于 Swin-ViT [163] 架构的广义掩码图像建模方法。在图像修复领域,Painter [164] 也利用了MIM预训练。Qin 等人[165] 将 RAM 引入 AiOIR,旨在通过使用 MIM 预训练从退化的图像中提取内在图像信息,以及一种微调算法,促进从掩码图像过渡到完全恢复的图像。DyNet [166] 也在并行分支中进行训练,以从掩码的退化输入中重建干净的图像。对于 AiOIR 领域,将网络设计的探索与预训练的 MIM 相结合具有巨大的潜力。
4、实验
便于进行全面、高效的比较AiOIR的各种方法,我们从总结关键开始数据集,实验设置和评估指标通常用于不同的任务。接下来,我们进行现有基准的详细比较一般代表性的图像恢复任务,如低光增强,去雾,去模糊,图像超分辨率,去雨,下雪。这种结构化方法确保全面评估其性能和能力不同的AiOIR方法。
4.1 数据集和实现细节
AiOIR有广泛的数据集,在图像数量、质量、分辨率和多样性方面差异很大。一些数据集提供成对的输入图像和目标图像,而其他数据集只提供真实图像。在后一种情况下,LR图像通常是手动生成的。例如,BSD [162]是另一个用于图像去噪和超分辨率的经典数据集。BSD100是一个经典的图像数据集,由Martin等人提出,包含100个测试图像。数据集由各种各样的图像组成,从自然图像到特定对象(如植物、人、食物等)。值得注意的是,现实世界的失真通常是盲/未知的,其分布不同于简单的合成失真。退化主要分为以下4类15种:噪声:高斯、射击、脉冲,模糊:散焦,玻璃,运动,缩放,天气:雪、霜、雾,数码:对比度,弹性,像素,JPEG。表1总结了用于不同 AiOIR任务的数据集,包括SR、图像修复、去模糊、去噪、阴影去除、图像降雪、图像去雨和图像去雾。它由发布年份、训练样本和测试样本数量以及简短描述组成。
我们也总结了AiOIR方法的实现细节和数据集在表2中。描述了训练过程和测试过程中的配置,包括类型、任务编号、细节退化、数据集。根据不同的实验设置对类型进行分类。总结了与原论文相同的实验设置,其中广泛采用的数据增强技术主要包括旋转和翻转操作。AiOIR方法的性能通常使用三个方面的指标来评估:失真指标(如PSNR, SSIM [36])是指恢复图像和原始图像之间的关系。评价指标越高,表明重建图像与参考图像的相似度越大。感知指标(如FID [190]、LPIPS [191])评估图像看起来像自然图像的程度,与它与任何参考图像的相似性无关。无参考指标(如NIQE[192],BRISQUE[193])通常基于对自然图像统计的估计偏差。此外,还有一些客观和主观指标在测量和比较不同AiOIR算法的性能方面起着至关重要的作用,包括IL-NIQE [194]、NIMA [195]、CLIP-IQA [196], LOE [197], Consistency [198]、PI [199]和 MUSIQ [200]。
4.2 实验和分析
为了展示不同AiOIR模型的优越性,我们在表3、表4、表5、表6中提供了客观的质量比较。评价指标包括PSNR、SSIM。总结了AiOIR领域四种常见实验设置下的实验结果。设置1(表3):去雾,去雨,去噪;设置2(表4):去雾,去雨,去噪,去模糊,低光增强;设置三(表5):All- weather数的雪,雨+雾,雨滴;设置4(表6):WeatherStream数据集[173]的雾、雨、雪。为了比较部分方法的计算代价和网络复杂度,我们还测量了部分方法的参数。结果与原文紧密一致,对于原文中未测试的设置,我们选择了具有更高评价指标的结果。
• 设置1中 ,PIP[72]和TextPromptIR [94]达到最佳的平均性能,表明在不同退化类型之间具有很强的泛化能力。PIP的PSNR/SSIM值为32.91/0.920,TextPromptIR的PSNR/SSIM值为 32.80/0.919,反映了提示策略和多模态提示的有效性。在去雾方面,Instruction-IPT[116]取得了最高的PSNR值39.95,显著优于其他方法,其次是MEASNet[110]和DyNet[185]。然而, MEASNet和DyNet在去噪方面的PSNR值最高,分别为39.00和38.71。许多最近的模型采用了复杂的机制,如频率感知转换、多专家选择[110]和基于超网络的架构[189],这表明越来越强调专门的设计来解决不同的退化模式。
• 设置2中 ,PIPRestormer 还实现了跨任务的最佳平均性能,特别是在除雾和除雨方面表现出色。MEASNet 和 DaAIR [187] 也显示出强劲的结果,平均得分很高,表明它们在多种退化类型中具有鲁棒性。基于提示的模型,如 PIPRestormer 和 PromptIR [65] 是表现最好的模型之一,这表明提示学习策略和 AiOIR 正在成为同时解决多种退化的主要方法。退化意识似乎是一个关键因素,DaAIR 和 Perceive-IR [111] 等模型表明,根据特定类型的退化定制恢复过程可以提高整体性能。模型大小(参数)和性能之间的平衡差异很大。例如,像 TAPE [59] 这样的较小模型在某些任务中表现得相当好,这表明设计有效,而像 Gridformer [104] 这样的较大模型则利用更复杂的架构来跨任务获得更一致的结果。
• 设置3中 ,AWRCP模型 [68]在所有三种天气条件下都取得了最佳结果,证明了码本先验处理复杂天气退化的强大能力。WeatherDiff [69] 和 TKMANet [100] 也表现良好,特别是在处理雪和雾条件下。最后,与 AWRCP 和 Transweather [64] 等较新的模型相比,All-in-One [56] 等较旧的方法的性能明显较低,平均 PSNR 仅 28.05 dB,这表明了最近的进步。
• 设置4中 ,尽管Transweather的参数数量较多,但仍难以提供有竞争力的性能。相比之下,尽管 AirNet的参数效率更高,但在整体恢复质量方面仍然存在不足。TKMANet和WGWS-Net在平衡有效性和效率方面都表现出了显着的改进,其中WGWS-Net作为实现更高恢复质量的轻量级模型脱颖而出。Yang等人[74]的模型观察到了最佳性能,它利用语言驱动的技术在所有天气条件下取得优异的结果。总体而言,这些结果表明多天气恢复方面取得了明显进展,表明该领域正在朝着跨不同条件的更复杂和更强大的技术迈进。
5、难点问题及未来的研究展望
5.1 面对的挑战
AiOIR模型遇到了一些挑战,限制了它们在现实世界应用中的有效性。去噪、去模糊和去雾的目标不同,导致任务冲突,同时使优化复杂化并导致性能不一致。此外,这些模型很难处理分布外(OOD)退化,因为现实世界的图像通常表现出与训练数据不一致的退化类型的混合。当前模型的计算需求阻碍了在资源受限的设备上的部署,需要在恢复质量和效率之间取得平衡。此外,由于数据获取的资源密集性,对大规模、高质量标记数据集的依赖带来了挑战,导致泛化问题。最后,大多数模型都专注于RGB图像,而处理高维数据会引入进一步的复杂性。解决这些挑战对于提高 AiOIR模型的实用性和性能至关重要。
任务冲突。 在AiOIR中,由于去噪、去模糊和去雾等不同任务的目标不同,会出现任务冲突。出现这些冲突是因为任务可能需要相反的优化——去噪降低高频噪声,而去模糊增强高频细节。此外,不同任务的数据特征不同,导致在多个任务上训练时性能不一致。模型容量限制也阻碍了网络同时有效处理不同任务的能力。为应对这些挑战,多分支架构、均衡的多任务损失函数、分阶段恢复和自适应学习等策略可以帮助缓解冲突并提高一体化恢复模型的整体性能。
处理OOD降质。 AiOIR模型在处理高度多样化和不可预见的图像退化方面面临重大困难,这些图像退化可以被视为OOD退化。在现实场景中,图像可能会具有不同退化的组合,如模糊、噪声、低分辨率和压缩伪影。同时,各退化类型的程度也各不相同,在测试时很可能与训练时的样本分布不一致。
模型的复杂性和效率。 尽管AiOIR最近取得了进展,但这些模型往往计算昂贵和复杂。它们体积大、计算量大,难以部署在资源受限的设备上,如移动电话或嵌入式系统。在性能和效率之间取得平衡仍然是一个重要的问题,需要模型保持高恢复质量,而不会变得太麻烦。
有限的高质量数据。 许多AiOIR模型依赖于大规模、高质量的标记数据集进行监督训练,但获取这些数据集是资源密集型的。现实世界的退化数据往往稀缺,退化的不可预测性使得模型在实际应用中难以表现良好。现实世界的退化通常比合成训练数据集中表示的退化更复杂,从而导致泛化问 题。此外,当模型应用于不同的图像类型时,域偏移可能会影响性能。为了应对这些挑战,数据增强、域自适应、自监督学习和迁移学习等解决方案正在探索中,但仍然存在局限性。
高维数据。 目前的图像恢复模型主要关注2D图像,但处理3D数据和视频序列提出了额外的挑战。对于视频恢复,不仅每一帧都需要高质量的恢复,而且还必须保持帧之间的时间一致性。这增加了复杂性,需要更复杂的方法来同时集成空间和时间信息。
5.2 未来的展望
在未来的研究中,AiOIR方法的发展将集中在几个关键方向上。首先,建立鲁棒的多任务学习理 论,对于有效解决任务冲突、优化信息共享机制,从而提升系统性能至关重要。其次,通过探索半监督和无监督学习方法来减少对大规模标记数据集的依赖,将提高模型在数据稀缺情况下的适应性。此外,设计适合边缘计算的高效模型将使AiOIR在实际应用中更具可行性。此外,研究更复杂的现实世界退化场景,将推动模型在各种环境中的性能提高。最后,集成大型多模态预训练模型和生成先验,将通过利用丰富的多模态数据来增强恢复能力。这些研究方向将为AiOIR模型的实用性和灵活性奠定基础,使其能够应对更广泛的现实挑战。
融合稳健的多任务学习理论。 AiOIR的鲁棒多任务学习理论的发展仍处于早期阶段,提供了重要的研究机会[66]、[183]。关键挑战包括对任务冲突进行建模,动态分配任务权重,优化任务之间的信息共享机制,以在无干扰的情况下最大化性能[184]、[185]。此外,理解和建立最优的任务序列或阶段恢复过程有助于改进结果,以及结合基于退化严重性的自适应任务优先级。此外,还需要一种平衡冲突目标的多任务损失函数设计。在这些领域推进MTL理论,对于创建有效和通用的AiOIR系统至关重要,该系统能够处理各种现实世界的退化场景。
半监督和无监督学习方法。 降低对大规模标记数据集的依赖对AiOIR模型的可扩展性和适用性至关重要。未来的研究应该专注于开发半监督和无监督学习方法,可以从未标记或部分标记的数据中学习有效的表示[186]、[187]。在标记数据稀缺或不可用的场景中,可以利用自监督学习、对比学习和无监督域自适应等技术来提高模型性能。通过提出这些方法,AiOIR模型可以更适应现实世界中遇到的各种和不可预见的退化。
平台感知的模型设计与高效方法。 一个关键的方向是边缘模型的设计,以增强AiOIR在现实场景中的适用性。这涉及到创建不仅准确而且在计算资源方面高效的模型,使其适合在各种平台上部署,包括移动设备和嵌入式系统[188]、[189]。可以采用模型压缩、剪枝、量化和高效的神经架构搜索等技术来开发轻量级模型,而不会造成性能的显著损失。通过专注于高效的一体化方法,研究人员可以确保AiOIR模型在日常使用中是实用的,弥合了研究和现实应用之间的差距。
解决更实际和复杂的退化问题。 需要关注更实际的任务和数据集,这些任务和数据集反映了现实世界图像退化的复杂性[190]、[191]。未来的研究应探索复合和复杂的退化场景,如夜间条件下的图像恢复、黑暗环境下的去雾和去雾,以及由多个重叠的退化影响的图像,而不是孤立的、混合的单一退化任务。开发和利用捕捉这些挑战性条件的数据集,将使模型能够从与现实挑战密切相似的数据中学习和测试。这种关注将推动AiOIR模型的开发,使其在实际应用中更鲁棒和有效。
融合大型多模态预训练模型和生成先验。 另一种有希望的方法是利用大型多模态预训练模型,特别是那些结合生成模型的模型,来增强AiOIR任务[192]、[193]、[194]、[195]。像CLIP[112]这样的模型和生成模型的最新进展(如稳定扩散[153])已经显示出非凡的能力来捕获跨多种模态的复杂数据分布。通过从这些通用模型中挖掘丰富的表示和先验,AiOIR可以受益于对图像内容和上下文的增强理解,从而在低层次任务中实现更好的恢复。集成这些模型可以帮助处理更广泛的退化,并生成更真实和高质量的恢复。
利用多模态信息。 目前大多数AiOIR模型主要依赖单模态图像信息,如RGB图像,限制了其处理复杂恢复任务的有效性。未来的研究可以专注于将多模态信息(如深度图、光流和红外图像)集成到 AiOIR框架中[196],[197],[198]。这种集成将为模型提供丰富的上下文和结构见解,增强其准确恢复具有不同退化程度的图像的能力[199]。例如,红外数据可以揭示隐藏在RGB图像中的细节,从而实现更全面的恢复。通过利用多模态数据,一体化模型可以在各种应用中实现更高的鲁棒性和通用性,从医学成像到低光摄影。
建立标准化的评估方案和基准。 与超分辨率、图像去雾和图像去雨等单图像恢复任务相比,AiOIR任务缺乏标准化的数据集,这些任务有完善的基准训练和测试数据集。为实现AiOIR模型的公平比较和评估,建立标准化的评估方案和全面的基准至关重要。创建不同的和有代表性的基准,包括广泛的现实世界场景,包括高分辨率图像恢复、医学图像增强、旧照片恢复和不利的天气条件(如沙尘暴、夜间雾),将允许对模型性能进行更彻底的评估。标准化基准将有助于确定不同模型的优势和局限性,促进进展并鼓励开发更通用的AiOIR方法。
扩展到其他数据。 除了RGB图像之外,将AiOIR方法扩展到其他数据,如视频[200]、[201]、3D数据[201]、[202]、动态事件数据[203]、[204]和高光谱数据[205],为未来的研究提供了重要机会。视频恢复不仅需要增强单个帧,还需要保持帧之间的时间一致性。类似地,三维数据恢复涉及处理多维空间信息和处理深度信息。为高光谱数据开发AiOIR模型需要处理这些数据的高维性,同时保持各波段的光谱一致性。开发有效集成空间、时间、光谱、动态和3D信息的技术,对于视频增强、3D渲染、光谱分析和增强现实等应用至关重要。解决这些挑战将扩展AiOIR模型的能力,使其更加通用,适用于更广泛的任务。
6、结论
本文全面回顾了一体化图像恢复(AiOIR)的最新进展,这是一个快速出现的领域,将多种类型的图像退化集成到一个框架中。通过对最先进模型的深入探索,强调了它们强大的能力、多样化的架构和丰富的实验。将这些模型与传统的单任务方法进行对比,强调了后者在解决现实世界复杂性方面的局限性,同时强调了AiOIR模型在效率、适应性和可扩展性方面的显著进步。
对现有工作的全面分类提供了一个多维的视角,涵盖了结构创新、关键方法,如提示学习、专家混合(MoE)和多模态模型的合并。进一步提出了对关键数据集的分析,为研究人员和从业人员提供了一定程度的帮助,以更好地评估AiOIR的当前状况。尽管近年来取得了相当大的进展,但挑战仍然存在。目前的模型仍然难以处理复杂和复合的退化,缺乏计算效率,在现实世界的场景中不能很好地泛化。相信未来的研究将集中在几个关键领域:开发更轻量和高效的架构,半监督学习的进展,以及扩展AiOIR模型的范围,以适应多模态输入和视频数据。此外,随着该领域的发展,跨模态学习、实时处理和可解释性方面的创新可能会成为推动AiOIR的核心。
总之,AiOIR代表了一种有希望的、统一的方法,以更全面的方式应对各种退化挑战。随着该领域的不断发展,它在现实世界的环境中具有更广泛的应用潜力,从媒体增强到自治系统。希望这篇综述不仅描绘了当前最先进的技术,还能激发进一步的创新和突破,以追求更复杂、高效和多功能的 AiOIR模型。
7、参考文献
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货