StableCascade

StableCascade是由Stability AI开发的先进文生图模型，采用Würstchen架构实现卓越的效率与性能。与Stable Diffusion等传统模型不同，StableCascade在更小的潜在空间中运行，其压缩因子高达42（Stable Diffusion仅为8）。这使得1024x1024图像可被压缩至24x24分辨率，同时保持高质量重建，从而大幅提升推理速度并降低训练成本。

核心特性：

高压缩潜在空间：42倍压缩因子实现高效训练与推理
三阶段架构：包含Stage A（VAE）、Stage B和Stage C（扩散模型），优化图像生成与压缩
多参数版本：提供Stage C（10亿/36亿参数）和Stage B（7亿/15亿参数）的多种组合，平衡性能与细节重建
扩展兼容性：支持微调、LoRA、ControlNet、IP-Adapter、LCM等技术，部分扩展已集成在训练推理模块中
卓越表现：人工评估显示，在提示词匹配度和美学质量上超越Playground v2、SDXL和Würstchen v2等模型

应用场景：

文生图：通过文本描述生成高质量图像
图像变体：基于图像嵌入生成多样化版本
图生图：通过添加噪声并指定起始点重构图像
ControlNet应用：支持修复/扩展绘制、人脸识别、边缘检测和超分辨率
LoRA训练：可对Stage C进行微调，学习新标记词以满足特定需求

快速入门：

用户可通过提供的Notebook体验基础功能（文生图/图像变体/图生图）和ControlNet、LoRA等高级功能，也可通过diffusers🤗库调用模型。官方同时提供完整训练脚本支持从头训练或微调。

许可协议：

代码：MIT许可证
模型权重：STABILITY AI非商业研究社区许可

StableCascade在高效文生图领域实现重大突破，是追求速度与成本效益场景的理想选择。

StableCascade

高效文本至图像生成的高压缩潜空间技术

核心特性：

应用场景：

快速入门：

许可协议：

MGIE

MoneyPrinter