今日应用
今日话题
CVPR24|指定参考图像的风格迁移!DEADiff:解耦图像风格和语义表示进行成对训练
重点标签 tag1、DEADiff、tag2、文本到图像模型、tag3、解耦表示提取机制、tag4、非重构学习方法、tag5、图像风格化
文章摘要
摘要:
本文介绍了一种名为DEADiff的新型文本到图像模型,该模型通过双解耦表示提取机制和非重构学习方法,有效解决了文本和参考图像之间的语义冲突问题,实现了文本可控性和图像风格相似性之间的最佳平衡。DEADiff的训练和推理范式包括使用专有的配对数据集来训练Q-Former,以提取“风格”和“内容”条件下的解纠缠表示,并将其注入互斥的交叉注意层。此外,DEADiff还引入了解耦条件作用机制,通过在去噪U-Net中不同的交叉注意层中分别对风格和语义进行约束,进一步减少了语义冲突。最后,通过构建具有相同风格或主题的一对图像的配对数据集,DEADiff在实验中取得了良好的效果。
详细摘要:
1. 引言: 文本到图像模型在传递参考风格方面具有潜力,但现有方法在传输样式时损害了文本可控性。DEADiff通过两种策略解决此问题:1) 解耦参考图像的风格和语义;2) 非重构学习方法。
2. 贡献: DEADiff提出了双解耦表示提取机制,缓解了文本和参考图像之间的语义冲突问题,并引入了解纠缠的条件反射机制,从模型结构角度减少了语义冲突。
3. 方法:
– 双解耦表示提取: 通过不同背景的合成图像对学习主题表示,整合两个辅助任务,利用Q-Formers作为表示过滤器,区分风格和内容的表示。
– 解耦条件作用机制: 在去噪U-Net中,采用不同策略对粗层和细层进行语义约束和风格约束,减少语义冲突。
– 配对数据集的构建: 通过结合主题词和风格词创建文本提示列表,利用预训练模型构建两个配对的图像数据集。
4. 实验结果: DEADiff在实验中取得了良好的效果,实现了文本可控性和图像风格相似性之间的最佳平衡。
重点内容:
– DEADiff: 新型文本到图像模型,解决文本和参考图像之间的语义冲突问题。
– 双解耦表示提取机制: 通过解耦风格和语义表示,提高模型的文本可控性。
– 非重构学习方法: 使用成对图像进行训练,提高模型的图像风格相似性。
– 解耦条件作用机制: 在去噪U-Net中采用不同策略,减少语义冲突。
– 配对数据集的构建: 利用预训练模型构建具有相同风格或主题的图像数据集。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台