CVPR 2024｜拖拽P图又双叒升级了！DragNoise实现更快更准的拖拽编辑

AI最新资讯1年前 (2024)发布 tree

138 0 0

今日应用

声咖

应用介绍：声咖，您的智能语...

今日话题

CVPR 2024｜拖拽P图又双叒升级了！DragNoise实现更快更准的拖拽编辑

重点标签 扩散模型、图像编辑、DragNoise、DragDiffusion、StyleGAN2

文章摘要

摘要：
本文介绍了一种名为DragNoise的交互式点控制图像编辑技术，由新加坡管理大学何盛烽团队联合华南师范大学在CVPR 2024上发表。该技术通过扩散模型语义传播实现精准快速的图像编辑，用户只需点击几个点即可编辑真实图片和生成图片。DragNoise在保留图片原有信息的同时，有效避免了梯度消失问题，提高了编辑效率和灵活性。与现有的SOTA方法DragDiffusion相比，DragNoise减少了超过50%的优化步骤，展现了更高的编辑效率和灵活性。

技术细节：
DragNoise的核心思想是改变预测的噪声并传播优化以进行图像编辑。该技术通过“middle-block replacement”操作，从去噪时间步开始，将特征复制到后续时间步的对应层。研究发现，bottleneck特征是最优的扩散语义表示，适合高效编辑。通过操纵bottleneck特征，编辑效果可以平滑传播到后续去噪步骤，确保结果图像的完整性。DragNoise包括两个过程：扩散语义优化和扩散语义传播。优化过程在高级语义的timestep开始，针对用户拖拽编辑对U-Net的bottleneck特征进行优化。优化后的bottleneck特征通过替换操作传播到所有后续时间步，避免了冗余的特征优化。

实验结果：
在拖拽编辑数据集DragBench和不同示例图像上的定量和定性实验表明，DragNoise在大幅编辑时能避免破坏周围特征，且在编辑点周围特征相似的极端情况下能实现精准控制。与DragDiffusion相比，DragNoise显著减少了优化步骤，展现了更高的编辑效率。此外，DragNoise在DragBench数据集上的定量实验结果达到了SOTA水平。

结论：
DragNoise作为一种新型的交互式点控制图像编辑技术，有效解决了现有技术中的梯度消失和图像保真度问题。其高效、灵活的编辑能力使其在图像编辑领域具有广泛的应用前景。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024｜拖拽P图又双叒升级了！DragNoise实现更快更准的拖拽编辑

今日应用

今日话题

文章摘要

文章来源

CVPR 2024｜PromptKD: 基于Prompt的视觉语言模型蒸馏

图解大模型计算加速系列：vLLM源码解析1，整体架构

相关文章

暂无评论

热门网址

热门标签