Основы Stable Diffusion
Что такое
Stable Diffusion
Это нейронка (программа на основе искусственного интеллекта) для генерации изображений. Одна из множества подобных.
Но бесплатная и работает прямо на вашем компе.




Генерирует картинки на основе текстового описания — промпта.
Также нейросеть умеет менять изображения, например увеличивать их в размере или дорисовывать отдельные части.
В общем, полезно для создания уникальных изображений, поиска идей, генерации референсов и т. д.
Ещё подробнее но простыми словами написал Александр Чехутин на Render.ru
Преимущества
В отличие от большинства других нейронок, со Stable Diffusion можно работать прямо на вашем компе совершенно бесплатно, без регистрации и смс.
Также существует огромная база бесплатных промптов и моделей, натренированных под разные задачи и стили.
Недостатки
Альтернативные сервисы не требуют установки софта на ваш компьютер, сложных настроек, скачивания дополнительных объёмных файлов весом в несколько гигабайт и не требовательны к вашему железу — они работают прямо «из коробки» на удалённом сервере через веб-интерфейс. Но за деньги.
Продвинутые модели требуют наличия мощного железа. Это да. Но есть модели попроще или вариант с арендой удалённой системы. Для небольших задач вполне вариант.
Stable Diffusion — программный комплекс
Stable Diffusion (SD) не отдельная самостоятельная программа «всё в одном», которую скачал, установил и работаешь, а программный комплекс, основными компонентами которого являются:
- Графический интерфейс (WebUI) — программа, с помощью которой вы будете взаимодействовать с нейросетью. При запуске открывается прямо в вашем браузере, и там же, в браузере, вы будете вводить промпт, настраивать, производить прочие манипуляции и генерировать свои шедевры.
- Модель (она же checkpoint). Это и есть сама нейросеть —тот самый программный «мозг», который генерирует изображение.
Скачивается и устанавливается отдельно. Представляет из себя тяжеловесный файл (преимущественно с расширением *.safetensors) весом в несколько ГБ.
Существует множество различных моделей для Stable Diffusion. Переключаться между ними можно через WebUI. - Нашлёпки, примочки и улучшалки. Это могут быть расширения для WebUI, добавляющие новые функции и настройки для работы с нейросетью. А также апскейлеры или LoRA, например.
Как это работает
- Скачиваете необходимые компоненты и устанавливаете.
- Запускаете SD.
- Выбираете подходящую вам модель.
- Вводите промпт в соответствующее текстовое поле, настраиваете параметры, нажимаете на кнопку «Generate», ждёте какое-то время (от нескольких секунд до нескольких минут, иногда даже десятков минут в зависимости от настроек, используемой модели и вашего железа) и получаете картинку...
- Понимаете, что всё не то, уточняете промпт, колдуете с настройками, опять жмёте «Generate» и далее по кругу, пока не добьётесь желаемого результата или чего-то отдалённо его напоминающего.
- Доводите до финального вида: тюнингуете, апскейлите и т. д.
Да, быстро получить желаемый результат удаётся не всегда. Рандомных котят, роботов, драконов и тёток в бронелифчиках — это сколько угодно, а если перед вами стоит какая-то более конкретная рабочая задача, то придётся попыхтеть…
Железо и софт
Для начала работы со Stable Diffusion понадобится сравнительно мощное железо на Windows (типичный игровой комп средней руки подойдёт), установить кое-какой софт, скачать и установить модели.
WebUI
WebUI — общее название специальных графических интерфейсов для работы со Stable Diffusion. Программа, с помощью которой вы будете взаимодействовать с нейросетью — настраивать, писать промпты и генерировать картинки.
Мы начнём с Forge:
Подробнее читайте в Глоссарии

Модель
Модель (она же чекпоинт (англ. checkpoint)) — ключевое понятие в технологиях искусственного интеллекта (ИИ) в целом и в Stable Diffusion в частности.
Это математическая структура или алгоритм, предназначенный для выполнения интеллектуальных задач — «искусственный мозг».
Как упоминалось выше, существует огромное множество различных моделей для Stable Diffusion. Есть как базовые — универсальные модели широкого профиля, созданные разработчиками SD, так и тьма их производных, дообученных умельцами-энтузиастами под разные задачи и стили.
В Stable Diffusion вы самостоятельно сможете выбирать, с помощью какой модели генерировать изображение.
Промпт (Prompt)
Текстовая строка (поле) с набором терминов и специальных команд, которая определяет, что в итоге будет сгенерировано.
Пользователь пишет промпт сам на английском языке, либо копирует уже готовые промпты.
Подробности читайте в Глоссарии
LoRA
LoRA (Low-Rank Adaptation) — узкоспециализированные минимодели-модификаторы.
Они «подключаются» к основной модели и принимают участие в генерации, внося некоторые изменения в итоговую картинку.
Могут быть натренерованы на какой-то конкретный стиль, объект, материал, персону и т. д.
Апскейл и апскейлеры
В общем, после того как вы наконец-таки добьетесь желаемой картинки на быстрых итерациях с низким разрешением, наступает время финального апскейла и долгожданного хайреза.