
极市导读
Meissonic,一个基于非自回归掩码图像建模(MIM)的新型文本到图像(T2I)模型,Meissonic通过一系列技术创新,如增强型Transformer架构、先进的位置编码和动态采样条件,以及特征压缩层,实现了在图像质量和生成效率上的显著提升。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

近年来,大语言模型在自然语言处理领域取得了突破性的进展。以LLaMA和Qwen等模型为代表,这些模型通过遵循扩展规律,展现出强大的语言处理能力。这些成功促使研究者们探索类似方法在文生图(T2I)任务中的应用。然而,现有的T2I模型在架构和生成机制上仍存在诸多限制,尤其是在生成高分辨率图像时,效率较低。
在视觉生成领域,扩散模型(如Stable Diffusion和SDXL)已成为主流方法,凭借其优越的生成质量赢得了广泛的应用。研究社区逐渐关注到扩散模型与语言模型截然不同的工作机制会导致其在构建统一的语言-视觉生成模型方面面临挑战。类似地,自回归文生图模型(如LlamaGen)通过预测next-token进行图像生成,但由于生成的图像token数量庞大,自回归文生图模型在效率和分辨率上也存在瓶颈。
Meissonic模型带来了全新的解决方案,基于非自回归的掩码图像建模(MIM),为高效、高分辨率的T2I生成设立了新的标杆。通过架构创新、先进的位置编码策略以及优化的采样方式,Meissonic在生成质量和效率上不仅与领先的扩散模型(如SDXL)相媲美,甚至在某些场景下超越了这些模型。此外,Meissonic利用高质量的数据集,并通过基于人类偏好评分的微观条件进行训练,同时采用特征压缩层,大幅提升了图像的保真度与分辨率。
以下是Meissonic在方法上的几项重要技术改进:
增强型Transformer架构: Meissonic采用了多模态与单模态相结合的Transformer层。多模态Transformer层旨在捕捉语言与视觉之间的交互信息,从未池化的文本表示中提取有用信号,架起两者之间的桥梁;而单模态Transformer层则进一步细化视觉表示,提升生成图像的质量与稳定性。研究表明,这种架构下多模态与单模态Transformer层的1:2比例能够实现最佳性能。 先进的位置编码与动态采样条件: 为了保持高分辨率图像中的细节,Meissonic引入旋转位置编码(RoPE),为queries和keys编码位置信息。RoPE有效解决了随着token数量增加,传统位置编码方法导致的上下文关联丢失问题,尤其是在生成512×512甚至更高分辨率图像时。此外,Meissonic通过引入掩码率作为动态采样条件,使模型能够自适应不同阶段的采样过程,进一步提升图像细节和整体质量。 高质量训练数据与微观条件: Meissonic的训练依赖于经过精心挑选的高质量数据集。为提升图像生成效果,Meissonic在训练中加入了图像分辨率、裁剪坐标及人类偏好评分等微观条件,显著增强了模型在高分辨率生成时的稳定性。 特征压缩层: 为了在保持高分辨率的同时提高生成效率,Meissonic引入特征压缩层,使其在生成1024×1024分辨率图像时有效降低计算成本。
那么,Meissonic到底有多厉害呢?
让我们来看看它的表现:
在HPS V2.0基准测试中,Meissonic以平均0.56分的优势超越了SDXL。

在图像编辑能力测评数据集Emu-Edit上,Meissonic模型表现出色,其Zero-shot图像编辑性能甚至超越了经过图像编辑指令微调后的模型:


在风格多样性生成上,Meissonic更是展现出来远超SDXL的性能。同时,在zero-shot inpaintingoutpainting和mask-free editing上的表现也可圈可点!

而这一切,都只需要SDXL 1/3的推理时间和1/2的显存占用。值得注意的是,Meissonic原生就可以在8GB显存下运行,以后用中低端显卡的宝宝们有福了。

此外,Meissonic还展现了超强的zero-shot图像编辑能力,无需微调即可对有mask和无mask的场景进行灵活编辑,提供了更多的创作可能性。


高效推理与训练的结合
在当下的文本到图像合成领域,Meissonic模型以其卓越的效率脱颖而出。该模型不仅致力于实现高效的推理过程,同时也在训练阶段显著提升了效率。Meissonic通过一套精心设计的四阶段训练流程,逐步提升生成效果。
阶段一:从广泛的数据中理解基础概念
研究发现,原始LAION数据集的文本描述无法充分满足文本到图像模型的训练需求,通常需要多模态大型语言模型(MLLM)进行优化。然而,这种方式计算资源消耗巨大。虽然部分研究使用了广泛标注的SA-10M数据集,但Meissonic团队发现,该数据集在人脸等特定领域仍有不足。因此,Meissonic在初始阶段采用了更加平衡的策略,通过降分辨率的方法提高效率,利用经过筛选的高质量LAION数据学习基础概念。最终保留了约2亿张高质量图像,并将初始训练分辨率设定为256 x 256。
阶段二:通过长提示增强文本与图像的配对
在第一阶段,模型的训练未依赖于高质量的图文配对数据。为了弥补这一点,第二阶段的重点在于提升模型理解长文本描述的能力。团队筛选了审美分数高于8的图像,并引入了120万对优化后的合成图文对及600万对内部高质量的图文对。此阶段,训练分辨率提升至512 x 512,配对数据总量达到约1000万对。通过这一阶段,Meissonic在处理复杂提示(如多样风格和虚拟角色)以及抽象概念方面展现了显著进步。
阶段三:特征压缩实现高分辨率图像生成
在Masked Image Modeling(MIM)领域,生成高分辨率图像依然是一大挑战。与使用外部超分辨率模块的方式不同,Meissonic通过特征压缩技术高效实现了1024 x 1024分辨率的图像生成。引入特征压缩层后,模型可以在较低计算成本下实现从512 x 512到1024 x 1024的顺畅过渡。此阶段的数据集经过进一步筛选,仅保留了约600万对高分辨率、高质量的图文配对,以1024分辨率进行训练。
阶段四:精细化高分辨率图像的美学生成
在最后阶段,Meissonic通过低学习率微调模型和文本编码器,并引入人类偏好评分作为训练条件,进一步提升了模型生成的图像质量和多样性。这一阶段的训练数据与第三阶段保持一致,但更注重对高分辨率图像生成的美学细节的打磨。
基于前述四个阶段的训练,Meissonic在训练数据和计算成本上显著减少。具体来说,Meissonic在训练过程中,仅使用了210万张图像,相较于其他主流模型(如SD-1.5和Dall-E 2),训练数据的使用量显著降低。在使用8个A100 GPU进行训练的情况下,Meissonic的训练时间仅需19天。这一时间显著低于Würstchen、SD-2.1等模型的训练时间。

广泛影响
最近,移动设备上的端侧文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground应运而生。这些创新反映出提升用户体验和保护隐私的日益趋势。作为一种开创性的资源高效的文本到图像基座模型,Meissonic在这一领域代表了重要的进展。
相关链接:
arXiv Paper: https://arxiv.org/abs/2410.08261
GitHub Code: https://github.com/viiika/Meissonic
Huggingface Model: https://huggingface.co/MeissonFlow/Meissonic
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货