CVPR24｜指定参考图像的风格迁移！DEADiff：解耦图像风格和语义表示进行成对训练

AI最新资讯11个月前发布 tree

157 0 0

今日应用

精校全本

精校全本网站，提供海量优质图书资源，内容详尽精准，排版清晰美观。致力于为读者带来最佳阅读体验，是书友们的首选阅读平台。

今日话题

CVPR24｜指定参考图像的风格迁移！DEADiff：解耦图像风格和语义表示进行成对训练

重点标签 tag1、DEADiff、tag2、文本到图像模型、tag3、解耦表示提取机制、tag4、非重构学习方法、tag5、图像风格化

文章摘要

摘要：
本文介绍了一种名为DEADiff的新型文本到图像模型，该模型通过双解耦表示提取机制和非重构学习方法，有效解决了文本和参考图像之间的语义冲突问题，实现了文本可控性和图像风格相似性之间的最佳平衡。DEADiff的训练和推理范式包括使用专有的配对数据集来训练Q-Former，以提取“风格”和“内容”条件下的解纠缠表示，并将其注入互斥的交叉注意层。此外，DEADiff还引入了解耦条件作用机制，通过在去噪U-Net中不同的交叉注意层中分别对风格和语义进行约束，进一步减少了语义冲突。最后，通过构建具有相同风格或主题的一对图像的配对数据集，DEADiff在实验中取得了良好的效果。

详细摘要：

1. 引言： 文本到图像模型在传递参考风格方面具有潜力，但现有方法在传输样式时损害了文本可控性。DEADiff通过两种策略解决此问题：1) 解耦参考图像的风格和语义；2) 非重构学习方法。

2. 贡献： DEADiff提出了双解耦表示提取机制，缓解了文本和参考图像之间的语义冲突问题，并引入了解纠缠的条件反射机制，从模型结构角度减少了语义冲突。

3. 方法：
– 双解耦表示提取： 通过不同背景的合成图像对学习主题表示，整合两个辅助任务，利用Q-Formers作为表示过滤器，区分风格和内容的表示。
– 解耦条件作用机制： 在去噪U-Net中，采用不同策略对粗层和细层进行语义约束和风格约束，减少语义冲突。
– 配对数据集的构建： 通过结合主题词和风格词创建文本提示列表，利用预训练模型构建两个配对的图像数据集。

4. 实验结果： DEADiff在实验中取得了良好的效果，实现了文本可控性和图像风格相似性之间的最佳平衡。

重点内容：
– DEADiff： 新型文本到图像模型，解决文本和参考图像之间的语义冲突问题。
– 双解耦表示提取机制： 通过解耦风格和语义表示，提高模型的文本可控性。
– 非重构学习方法： 使用成对图像进行训练，提高模型的图像风格相似性。
– 解耦条件作用机制： 在去噪U-Net中采用不同策略，减少语义冲突。
– 配对数据集的构建： 利用预训练模型构建具有相同风格或主题的图像数据集。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR24｜指定参考图像的风格迁移！DEADiff：解耦图像风格和语义表示进行成对训练

今日应用

今日话题

文章摘要

文章来源

前特斯拉Optimus科学家跳槽HF，直接开源了一个机器人代码库

CVPR'24｜DRM：清华提出无偏差的新类发现与定位新方法

相关文章

暂无评论

热门网址

热门标签