CMU朱俊彦、Adobe新作:512×512图像推理,A100只用0.11秒

AI最新资讯7个月前发布 tree
141 0 0

今日应用


今日话题


CMU朱俊彦、Adobe新作:512×512图像推理,A100只用0.11秒
CMU朱俊彦、Adobe新作:512×512图像推理,A100只用0.11秒
 

重点标签 图像转换对抗学习单步扩散CycleGAN-Turbo图像生成

文章摘要


CMU和Adobe的研究团队在ICCV 2021会议上发表了一项研究,通过简笔素描一键生成多风格画作并添加描述。该研究提出了一种改进条件扩散模型的方法,使用户可以根据文本提示生成图像,并对场景布局、草图和姿势进行精确控制。研究者引入了一种通用方法,通过对抗学习目标使单步扩散模型适应新任务和新领域,提高了推理速度并减少了过拟合。他们推出了CycleGAN-Turbo和pix2pix-Turbo模型,在成对和非成对设置中执行图像到图像的转换任务,并在多个场景转换任务中优于现有方法。

方法介绍:
研究提出了一种通用方法,通过对抗学习单步扩散模型适配到新任务和领域。这种方法利用预训练扩散模型的内部知识,同时实现高效推理。CycleGAN-Turbo和pix2pix-Turbo模型可以适用于成对和非成对设置,其中CycleGAN-Turbo超越了现有的基于GAN和扩散的方法,而pix2pix-Turbo与最近的研究不相上下,但具有单步推理的优势。

添加条件输入:
为了将文本到图像模型转换为图像转换模型,研究者引入了额外的适配器分支,使用条件编码器将输入图像合并到模型中。他们还提出了将条件输入直接馈送到网络的方法,并通过添加LoRA权重来适应新的条件。

保留输入细节:
为了捕捉输入图像的细粒度视觉细节,研究者在编码器和解码器网络之间添加了跳跃连接,确保了在图像转换过程中复杂细节的保留。

实验:
研究将CycleGAN-Turbo与其他基于GAN的非成对图像转换方法进行了比较。实验结果显示,CycleGAN-Turbo在输出图像真实感和保持结构之间达到了更好的平衡。此外,CycleGAN-Turbo在多个无成对转换任务上的表现优于CycleGAN和CUT。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...