今日应用
今日话题
阿里开源新型图像个性化框架MS-Diffusion,无需微调一键参考多个主题
重点标签 图像个性化、MS-Diffusion、阿里浙大、无需微调、高质量生成
文章摘要
摘要:
阿里和浙大联合提出了一种新型图像个性化框架MS-Diffusion,它允许用户通过少量主题参考图,无需进行微调,即可一键生成与多种文本概念结合的新图片。MS-Diffusion在生成图像时能够保持高保真度,同时具有高功能性和可扩展性。它支持在指定区域生成不同主题的图像,并可以与ControlNet结合,引入深度图、边缘图、姿态等条件的控制。
MS-Diffusion的模型架构基于Stable Diffusion,通过设计一条图像条件注入通路,将图像映射到跨注意力条件空间中。它引入了位置信息辅助,通过Grounding Resampler将图像embedding与语义信息和位置信息整合,增强了细节保真度。此外,MS-Diffusion利用multi-subject cross-attention技术,限定特定主题在跨注意力层的作用区域,避免了不同主题之间的干扰,同时让文本条件主导无关区域,如背景。
在实验中,MS-Diffusion与多种已开源的个性化方法进行了定量比较,无论是图像保真度(DINO)还是文本保真度(CLIP-T),MS-Diffusion都取得了更优秀的性能。它更倾向于关注物体本身的细节特征,虽然在粗粒度图像保真度(CLIP-I)上未占据绝对优势,但这也与现有个性化方法容易过拟合到参考图背景上的问题有关。
MS-Diffusion还提供了大量定性结果,展示了其在多主题个性化生成方面的优势。它引入的位置信息不仅解决了多主题个性化时可能遇到的问题,还显著增强了模型个性化过程的控制能力。在用户普遍选择低自由度Inpainting模型的背景下,MS-Diffusion为高自由度的个性化创作带来了新的可能性。目前,MS-Diffusion已开源,用户可以前往项目主页、GitHub地址和HuggingFace地址了解更多信息,并尝试使用。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台