今日应用
今日话题
ECCV’24|少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)
重点标签 图像编辑、少步扩散模型、编码器反演、文本提示、迭代优化
文章摘要
本文介绍了一种新的图像编辑技术,该技术在少步扩散模型的背景下首次探索了基于编码器的反演方法。这项技术通过预测噪声来重建输入图像,并在前一步重建的基础上迭代校正重建图像,显著提高了速度和效果。具体来说,本文的方法在反演过程中仅需8次功能评估,每次编辑仅需4次功能评估,而传统基于多步扩散模型的方法则需要50次和30-50次功能评估。此外,本文的方法在文本图像对齐和背景保留方面也展现出了优势。
预备知识和方法概述
正向扩散过程是将干净图像逐步转化为高斯噪声的过程,而本文提出的单步图像反演方法则是基于扩散的方法在真实图像编辑中实现高质量分解编辑的有希望结果。然而,这些方法计算量大,不适合交互式应用。为此,本文提出了一种多步反演方法,通过迭代优化重建图像,类似于 ReStyle 中提出的 GAN 反演网络。
多步图像反演的实现
为了提高重建质量,本文采用了多步反演方法,其中反演网络接收输入图像和前一步重建,预测当前步骤的注入噪声。这种方法通过实验确定了在重建质量和可编辑性之间取得平衡的参数。此外,本文还采用了重参数化技巧,将注入噪声限制在接近标准高斯分布的范围内。
详细文本提示条件
本文提出了一种简单方法,通过修改详细文本提示中的单个属性来实现文本引导的图像编辑。这种方法利用了长而详细的文本提示,直接在文本空间中替换关键词,实现了解耦控制。
实验和定量比较
本文在 PIE-Bench 数据集上进行了实验,结果显示本文的方法在描述性和指令性设置中都能更好地遵循文本指导并保留背景。此外,本文还进行了消融研究,验证了框架中每个组件的必要性。
局限性和社会影响
本文的方法依赖于 LLaVA 生成详细描述,但计算密集的 LLaVA 模型成为瓶颈。此外,注意力 mask 虽然可以限定编辑区域,但可能不够精确,导致轻微的身份偏移。本文的方法无法进行大幅度姿势改变。作为一种生成式图像编辑工具,本文的方法提供了创造性的机会,但也引发了关于操控数据、误导信息和垃圾信息传播的担忧。
结论
本文的方法是首个在少步扩散模型背景下探索图像编辑的工作,也是首个在扩散模型中探索基于编码器反演的工作。通过对自动生成的详细文本提示进行条件控制,本文的方法使用户能够以交互速度进行逼真的文本引导图像编辑,反演和编辑过程都在毫秒内完成。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台