CVPR24|指定参考图像的风格迁移!DEADiff:解耦图像风格和语义表示进行成对训练

AI最新资讯2个月前发布 tree
33 0 0

今日应用


今日话题


CVPR24|指定参考图像的风格迁移!DEADiff:解耦图像风格和语义表示进行成对训练
CVPR24|指定参考图像的风格迁移!DEADiff:解耦图像风格和语义表示进行成对训练
 

重点标签 tag1DEADifftag2文本到图像模型tag3解耦表示提取机制tag4非重构学习方法tag5图像风格化

文章摘要


摘要:
本文介绍了一种名为DEADiff的新型文本到图像模型,该模型通过双解耦表示提取机制非重构学习方法,有效解决了文本和参考图像之间的语义冲突问题,实现了文本可控性和图像风格相似性之间的最佳平衡。DEADiff的训练和推理范式包括使用专有的配对数据集来训练Q-Former,以提取“风格”和“内容”条件下的解纠缠表示,并将其注入互斥的交叉注意层。此外,DEADiff还引入了解耦条件作用机制,通过在去噪U-Net中不同的交叉注意层中分别对风格和语义进行约束,进一步减少了语义冲突。最后,通过构建具有相同风格或主题的一对图像的配对数据集,DEADiff在实验中取得了良好的效果。

详细摘要:

1. 引言: 文本到图像模型在传递参考风格方面具有潜力,但现有方法在传输样式时损害了文本可控性。DEADiff通过两种策略解决此问题:1) 解耦参考图像的风格和语义;2) 非重构学习方法

2. 贡献: DEADiff提出了双解耦表示提取机制,缓解了文本和参考图像之间的语义冲突问题,并引入了解纠缠的条件反射机制,从模型结构角度减少了语义冲突。

3. 方法:
双解耦表示提取: 通过不同背景的合成图像对学习主题表示,整合两个辅助任务,利用Q-Formers作为表示过滤器,区分风格和内容的表示。
解耦条件作用机制: 在去噪U-Net中,采用不同策略对粗层和细层进行语义约束和风格约束,减少语义冲突。
配对数据集的构建: 通过结合主题词和风格词创建文本提示列表,利用预训练模型构建两个配对的图像数据集。

4. 实验结果: DEADiff在实验中取得了良好的效果,实现了文本可控性和图像风格相似性之间的最佳平衡。

重点内容:
DEADiff: 新型文本到图像模型,解决文本和参考图像之间的语义冲突问题。
双解耦表示提取机制: 通过解耦风格和语义表示,提高模型的文本可控性。
非重构学习方法: 使用成对图像进行训练,提高模型的图像风格相似性。
解耦条件作用机制: 在去噪U-Net中采用不同策略,减少语义冲突。
配对数据集的构建: 利用预训练模型构建具有相同风格或主题的图像数据集。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...