新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

AI知识课5个月前更新 tree
72 0 0

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

大家好,我是花生~

最近 Stability AI 又接连推出了 2 个新的模型:Stable Diffusion 3 和 Stable Cascade,在图像生成效率和质量上比半年前推出的 SDXL 1.0 有了明显提升,今天就为大家介绍一下 2 款新模型的特点和用法。

推荐阅读:

一、Stable Diffusion 3 简介

官方介绍: https://stability.ai/news/stable-diffusion-3

加入等候名单: https://stability.ai/stablediffusion3

2 月 22 号,Stability AI 发布了新模型 Stable Diffusion 3(下面简称为 SD 3.0),这也是 Stable Diffusion 系列的最新模型。发布公告中, Stability AI 称 SD 3.0 是他们 “功能最强大” 的模型,还特别强调使用的是 Diffusion Transformer 架构(感觉是受了 OpenAI Sora 模型的刺激)。模型资源目前还没有放出来,想体验的话可以加入等候名单。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

官方介绍 SD 3.0 模型在多主题提示、图像质量和拼写能力方面有了极大的提升,我用它提示词在 Midjourney 生成了图像,下面是对比结果。整体来说 SD 3.0 的能力的确非常强,图像质量和 Midjourney V6 模型非常接近,在文本内容生成上的表现甚至超过了 Midjourney V6,不过 V6 在细节丰富度和风格美感上还是有自己独特的优势。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

除了文生图能力,Stability AI 创始人 Emad 还放出了一段演示视频,显示 SD 3.0 支持用文字修改画面内容以及将图像转换为视频。如果 SD 3.0 模型能开源,肯定会给开源 AI 绘画生态带来一轮新的提升,这是非常值得期待的。

二、Stable Cascade 模型简介

官方 Github 主页: https://github.com/Stability-AI/StableCascade

其实在 2 月 12 号,也就是 SD 3.0 发布 12 天之前,Stability AI 已经发布过一款新模型 Stable Cascade 了,这是一个基于 Würstchen 架构的新文本-图像模型,相关代码和资源在公布,但目前只允许用于非商业目的。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

Stable Cascade 生成的图像

与 Stable Diffusion 系列模型不同, Stable Cascade 由三个模型组成:Stage A、Stage B 和 Stage C,Stage A 是 VAE 模型,Stage B 和 Stage C 是扩散模型。它们分别处理图像生成的不同阶段,且一个模型的输出会成为下一个模型的输入,也就是 “级联”(Cascade)”,这也是 Stable Cascade 名称的由来。

当我们输入提示词后,首是 Stage C 模型会根据给定的文本生成 24*24 的低分辨率潜像(Latents),然后输入到 Stage B 模型中进行放大,完成后再输入到 Stage A 模型中再次放大并转换为像素空间,最终生成我们需要的图像。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

除了文生图,Stable Cascade 还支持图生图、图像生成变体、Inpainting /Outpainting、Controlnet、Lora 及高清放大等功能。由于 Stable Cascade 与其他 SD 模型相比使用更小的潜在空间进行训练和推理,因此推理速度更快,训练也更高效,对开发来说有非常自由灵活的调节空间,或许之后它能发展成在 Stable Diffusion、Stable Diffusion XL 之后又一个新的生态体系。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

三、在 ComfyUI 中安装使用 Stable Cascade

ComfyUI 已经官方支持 Stable Cascade 的使用了,并将原本的 7 个模型整合成为 2 个,不仅图像质量提升了,操作流程也更简化了,使用起来方便。下面以文生图工作流为例讲一下 Stable Cascade 的用法。

1. 首先下载 stable_cascade_stage_c.safetensors 和 stable_cascade_stage_b.safetensors 两个大模型,放入根目录的 models/checkpoints 文件夹中(如果是和 WebUI 共用模型这放到 WebUI 的根目录中)。

模型地址: https://huggingface.co/stabilityai/stable-cascade/tree/main/comfyui_checkpoints 文末有资源包

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

2. 启动 ComfyUI, 将文生图基础工作流拖入工作界面。填入自己的提示词,设置好分辨率(推荐 1024-2048px),再检查一下 Stage C 和 Stage B 内的是否选择了对应的大模型,其他参数保持不变,再点击生成就可以了。

注意:运行过程中肯可能出现的报错:Error occurred when executing CheckpointLoaderSimple:
unet_dtype() got an unexpected keyword argument ‘supported_dtypes’
解决方式是更新自定义节点 ComfyUI_smZNodes,然后重启 ComfyUI 就可以解决了

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

从使用体验来说,Stable Cascade 对显存占用更少,6G 就能跑通,8G 的显存跑一张 1024*1024 的图大概是 65-90 s,比 SDXL 了快了一倍。图像质量比 SDXL 要好很多,与 Midjourney V6 相比还是有差距,但是在生成带文字内容的图像(比如 logo,海报等)时,Stable Cascade 也会有比较好的效果。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

那么以上就是今天为大家介绍的 2 款新的文生图模型 Stable Diffusion 3 和 Stable Cascade,喜欢本期推荐的话记得点赞收藏支持一波。想了解更多 AI 绘画工具的话,欢迎关注 优设 AI 自学网,每天都有最新的 AI 神器及资讯推荐 ~ 也欢迎大家扫描下方的二维码加入“优设 AI 知识交流群”,和我及其他设计师一起交流学习 AI 知识~

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

推荐阅读:

文章来源于互联网:新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

© 版权声明

相关文章

暂无评论

暂无评论...