StableCascade是由Stability AI开发的先进文生图模型,采用Würstchen架构实现卓越的效率与性能。与Stable Diffusion等传统模型不同,StableCascade在更小的潜在空间中运行,其压缩因子高达42(Stable Diffusion仅为8)。这使得1024x1024图像可被压缩至24x24分辨率,同时保持高质量重建,从而大幅提升推理速度并降低训练成本。
核心特性:
- 高压缩潜在空间:42倍压缩因子实现高效训练与推理
- 三阶段架构:包含Stage A(VAE)、Stage B和Stage C(扩散模型),优化图像生成与压缩
- 多参数版本:提供Stage C(10亿/36亿参数)和Stage B(7亿/15亿参数)的多种组合,平衡性能与细节重建
- 扩展兼容性:支持微调、LoRA、ControlNet、IP-Adapter、LCM等技术,部分扩展已集成在训练推理模块中
- 卓越表现:人工评估显示,在提示词匹配度和美学质量上超越Playground v2、SDXL和Würstchen v2等模型
应用场景:
- 文生图:通过文本描述生成高质量图像
- 图像变体:基于图像嵌入生成多样化版本
- 图生图:通过添加噪声并指定起始点重构图像
- ControlNet应用:支持修复/扩展绘制、人脸识别、边缘检测和超分辨率
- LoRA训练:可对Stage C进行微调,学习新标记词以满足特定需求
快速入门:
用户可通过提供的Notebook体验基础功能(文生图/图像变体/图生图)和ControlNet、LoRA等高级功能,也可通过diffusers
🤗库调用模型。官方同时提供完整训练脚本支持从头训练或微调。
许可协议:
- 代码:MIT许可证
- 模型权重:STABILITY AI非商业研究社区许可
StableCascade在高效文生图领域实现重大突破,是追求速度与成本效益场景的理想选择。