今日应用
今日话题
CVPR2024-扩散模型可解释性新探索,图像生成一致性创新高!AI视频生成新机遇?
文章摘要
摘要:
本文提出了一种基于成对平均CLIP分数的语义一致性分数,用于量化图像生成的一致性。作者指出,对图像生成扩散模型的可重复性或一致性进行定量评分至关重要。通过比较两种领先的开源图像生成扩散模型——Stable Diffusion XL(SDXL)和PixArt-α,发现它们在语义一致性分数上存在显著的统计差异。此外,研究了SDXL及其经过LoRA(低秩适应)微调的版本之间的一致性,结果显示微调后的模型在语义一致性上有显著提高。
方法引出:
图像生成扩散模型的输出结果会显示出一定的变异性,这种变异性是由扩散过程中的随机因素造成的。对输出的一致性或可重复性进行量化,可以使对这种变异性进行量化分析,并在决定使用哪种扩散模型来完成特定任务时,提供创造性与一致性之间的平衡参考。
方法详析:
3.1. 语义一致性分数
作者介绍了一种基于语义的方法来计算这一分数,即通过使用成对平均CLIP分数(公式1)来实现。该分数被限制在 0 到 100 之间,得分越接近100表示生成的图像语义越一致。
3.2. 图像生成模型评估
为了评估先进图像生成模型的一致性,本文选择了SDXL和PixArt-进行比较。通过计算成对的余弦相似度并取平均值,以此得出针对特定提示和模型的最终一致性得分。
实验:
4.1. 敏感性分析
作者进行了敏感性分析,以确定分析的最佳提示重复次数,平衡准确性和计算效率。发现,至少需要20次重复,才能确保得分在所有重复的平均得分和100次重复得分的1%范围内。
4.2. 模型比较:SDXL和PixArt-
在100个提示和每个模型生成的图像中,SDXL的平均一致性得分为90.1±5.4,PixArt-为92.9±5.0。人工标注与最高语义一致性得分之间的比较显示了很高的一致性。
4.3. 模型比较:SDXL和基于LoRA的SDXL微调版本
基础SDXL和基于LoRA微调的SDXL版本在图像生成一致性方面的差异。LoRA微调SDXL模型的平均一致性得分为92.9±5.0。
结论:
作者提出的语义一致性分数为图像生成的一致性提供了一个量化工具,这有助于评估特定任务的模型架构,并为选择合适的模型提供了参考依据。这一评估突出了PixArt-在跨提示的一致性和较低可变性方面的优势,相比之下SDXL存在不足。通过精确量化这种一致性,作者可以更好地区分不同模型,并就针对不同用例选择模型架构做出明智决策。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台