Stable Diffusion

24 次浏览 1 个月前 AI图片工具

AI绘画文生图 Stable Diffusion 开源

Stable Diffusion 是一款强大的文生图 AI 模型，专为生成高细节的图像而设计，尤其在二次元风格图像生成上表现出色。它实现了文本到图像的生成，也可进行图像到图像的转换、修复以及外修补（outpainting）等操作。

扫码查看

Stable Diffusion是什么

Stable Diffusion 是由 Stability AI 研发的一款开源深度学习文本到图像生成模型，于2022年发布。与 DALL-E 2、Midjourney 等同类产品不同，它的最大特点是开源，允许用户在个人电脑上本地运行（只要有支持的显卡），无需依赖云端服务器。该模型通过数亿张图像及其对应的文本描述进行训练，能够根据用户输入的文本提示词（Prompt），生成对应风格、构图和内容的图像。

尽管它被大众熟知为“AI 画画工具”，但其底层技术可以广泛应用于多种视觉任务，包括：

文生图 (Text-to-Image): 输入一段文字描述，输出一张全新的图像。
图生图 (Image-to-Image): 输入一张图片和文字描述，对原图进行风格迁移或细节修改。
图像修复/扩展 (Inpainting/Outpainting): 修复图片中的破损区域，或根据原图逻辑扩展画面边界。
超分辨率 (Upscaling): 提升图像的分辨率和清晰度。

为什么选择本地部署的 Stable Diffusion？

相比 Midjourney 等需要订阅且依赖 Discord 运行的云端服务，本地部署的 Stable Diffusion 有着独特的不可替代性：

完全的隐私保护： 所有的生成过程都在你的电脑上完成，不会有任何图片或提示词数据被上传到第三方服务器。
真正的无限次免费： 除了电费和硬件成本，软件生成本身不设任何次数限制，也不需要按月付费订阅。
极致的自定义能力： 你可以自由安装各种开源模型（Checkpoints）、LoRA、ControlNet 插件，实现对画面构图、风格、角色的精准控制，这是云端服务很难做到的。
无需联网： 一旦环境配置好，断网也能正常使用。

核心技术原理：潜在空间扩散

Stable Diffusion 并不是直接在几百万像素的原始图片上操作（这样对显存要求极高），而是采用了“潜在空间（Latent Space）”技术。
简单来说，它的工作流程分为三步：

压缩： 先将高清图像压缩成更小尺寸的特征数据（潜在表示）。
去噪： 模型在这个压缩后的空间里进行扩散过程（即从纯噪声中逐步去噪）。
解码： 最后将生成的特征数据解码还原成高清图像。
这种机制使得它可以在消费级显卡上快速生成高质量图像。

安装与环境配置指南

虽然 Stable Diffusion 本身开源，但要流畅运行它，需要一定的技术门槛和硬件支持。主要的社区主流版本包括 WebUI (AUTOMATIC1111) 和 ComfyUI。

硬件需求

显卡 (GPU)： 推荐使用 NVIDIA 显卡（N卡），显存 6GB 是起步（勉强能跑），8GB 可满足基础需求，12GB 或以上可以流畅运行高清图生成和复杂的 ControlNet 操作。
内存 (RAM)： 建议 16GB 以上。
磁盘空间： 基础模型加上各类插件和生成的图片，建议预留 50GB 以上空间。

常用整合包与界面

对于非专业编程人员，通常不建议直接配置 Python 环境，而是使用国内大神制作的“一键整合包”（如秋叶包），或者直接使用 WebUI 界面。

WebUI (AUTOMATIC1111)： 界面直观，插件生态最丰富，适合新手和进阶用户。
ComfyUI： 节点式流操作，画质上限更高，适合专业玩家和工作流封装。

核心玩法：提示词 (Prompt) 工程

生成一张好图的关键在于“提示词”的编写。这就像给AI下指令，指令越精准，结果越符合预期。

正向提示词 vs 负向提示词

正向提示词 (Positive Prompt)： 你想要看到的元素。例如：masterpiece, best quality, 1girl, cute, white hair, sword。
负向提示词 (Negative Prompt)： 你绝对不希望看到的元素，用于排除干扰。例如：low quality, bad anatomy, extra fingers, watermark, text。