StableCascade

高效文本至图像生成的高压缩潜空间技术

2024-02-13

StableCascade是由Stability AI开发的先进文生图模型,采用Würstchen架构实现卓越的效率与性能。与Stable Diffusion等传统模型不同,StableCascade在更小的潜在空间中运行,其压缩因子高达42(Stable Diffusion仅为8)。这使得1024x1024图像可被压缩至24x24分辨率,同时保持高质量重建,从而大幅提升推理速度并降低训练成本。

核心特性:

  • 高压缩潜在空间:42倍压缩因子实现高效训练与推理
  • 三阶段架构:包含Stage A(VAE)、Stage B和Stage C(扩散模型),优化图像生成与压缩
  • 多参数版本:提供Stage C(10亿/36亿参数)和Stage B(7亿/15亿参数)的多种组合,平衡性能与细节重建
  • 扩展兼容性:支持微调、LoRA、ControlNet、IP-Adapter、LCM等技术,部分扩展已集成在训练推理模块中
  • 卓越表现:人工评估显示,在提示词匹配度和美学质量上超越Playground v2、SDXL和Würstchen v2等模型

应用场景:

  • 文生图:通过文本描述生成高质量图像
  • 图像变体:基于图像嵌入生成多样化版本
  • 图生图:通过添加噪声并指定起始点重构图像
  • ControlNet应用:支持修复/扩展绘制、人脸识别、边缘检测和超分辨率
  • LoRA训练:可对Stage C进行微调,学习新标记词以满足特定需求

快速入门:

用户可通过提供的Notebook体验基础功能(文生图/图像变体/图生图)和ControlNet、LoRA等高级功能,也可通过diffusers🤗库调用模型。官方同时提供完整训练脚本支持从头训练或微调。

许可协议:

  • 代码:MIT许可证
  • 模型权重:STABILITY AI非商业研究社区许可

StableCascade在高效文生图领域实现重大突破,是追求速度与成本效益场景的理想选择。

Artificial Intelligence Text-to-Image Diffusion Models Machine Learning Computer Vision