Основы Stable Diffusion

Обновлено: 14.05.2025

Что такое
Stable Diffusion

Это нейронка (программа на основе искусственного интеллекта) для генерации изображений. Одна из множества подобных.

Но бесплатная и работает прямо на вашем компе.


Генерирует картинки на основе текстового описания — промпта.
Также нейросеть умеет менять изображения, например увеличивать их в размере или дорисовывать отдельные части.

В общем, полезно для создания уникальных изображений, поиска идей, генерации референсов и т. д.

Чуть более подробное описание смотрите в Глоссарии

Ещё подробнее но простыми словами написал Александр Чехутин на Render.ru

Преимущества

В отличие от большинства других нейронок, со Stable Diffusion можно работать прямо на вашем компе совершенно бесплатно, без регистрации и смс.

Также существует огромная база бесплатных промптов и моделей, натренированных под разные задачи и стили.

Например, на сайте Civitai.com

Недостатки

Альтернативные сервисы не требуют установки софта на ваш компьютер, сложных настроек, скачивания дополнительных объёмных файлов весом в несколько гигабайт и не требовательны к вашему железу — они работают прямо «из коробки» на удалённом сервере через веб-интерфейс. Но за деньги.

Продвинутые модели требуют наличия мощного железа. Это да. Но есть модели попроще или вариант с арендой удалённой системы. Для небольших задач вполне вариант.

Есть мнение, что платные сервисы дают более качественный, привлекательный или фотореалистичный результат. Не берусь судить. По-моему, спорно. На данный момент существуют очень достойные модели для Stable Diffusion, которые ни в чём не уступают по качеству генерируемых изображений

Stable Diffusion — программный комплекс

Stable Diffusion (SD) не отдельная самостоятельная программа «всё в одном», которую скачал, установил и работаешь, а программный комплекс, основными компонентами которого являются:

  • Графический интерфейс (WebUI) — программа, с помощью которой вы будете взаимодействовать с нейросетью. При запуске открывается прямо в вашем браузере, и там же, в браузере, вы будете вводить промпт, настраивать, производить прочие манипуляции и генерировать свои шедевры.
  • Модель (она же checkpoint). Это и есть сама нейросеть —тот самый программный «мозг», который генерирует изображение.
    Скачивается и устанавливается отдельно. Представляет из себя тяжеловесный файл (преимущественно с расширением *.safetensors) весом в несколько ГБ.
    Существует множество различных моделей для Stable Diffusion. Переключаться между ними можно через WebUI.
  • Нашлёпки, примочки и улучшалки. Это могут быть расширения для WebUI, добавляющие новые функции и настройки для работы с нейросетью. А также апскейлеры или LoRA, например.

Подробнее читайте в разделе Установка

Как это работает

  1. Скачиваете необходимые компоненты и устанавливаете.
  2. Запускаете SD.
  3. Выбираете подходящую вам модель.
  4. Вводите промпт в соответствующее текстовое поле, настраиваете параметры, нажимаете на кнопку «Generate», ждёте какое-то время (от нескольких секунд до нескольких минут, иногда даже десятков минут в зависимости от настроек, используемой модели и вашего железа) и получаете картинку...
  5. Понимаете, что всё не то, уточняете промпт, колдуете с настройками, опять жмёте «Generate» и далее по кругу, пока не добьётесь желаемого результата или чего-то отдалённо его напоминающего.
  6. Доводите до финального вида: тюнингуете, апскейлите и т. д.

Подробности смотрите в разделах Установка и Генерация


На первом этапе, для ускорения процесса, лучше генерировать картинки небольшого размера, например 512х512. Это позволит отшлифовать промпт и подобрать правильные настройки. Как только получили приемлемый результат — увеличиваете размер

Да, быстро получить желаемый результат удаётся не всегда. Рандомных котят, роботов, драконов и тёток в бронелифчиках — это сколько угодно, а если перед вами стоит какая-то более конкретная рабочая задача, то придётся попыхтеть…

Существуют чуть более продвинутые возможности, типа Inpaint, и кое-какие джедайские приёмчики. Но о них позже.

Железо и софт

Для начала работы со Stable Diffusion понадобится сравнительно мощное железо на Windows (типичный игровой комп средней руки подойдёт), установить кое-какой софт, скачать и установить модели.

Подробности читайте в разделе Установка

WebUI

WebUI — общее название специальных графических интерфейсов для работы со Stable Diffusion. Программа, с помощью которой вы будете взаимодействовать с нейросетью — настраивать, писать промпты и генерировать картинки.

Мы начнём с Forge:

Существует целый ряд различных WebUI для SD


Подробнее читайте в Глоссарии


Модель

Модель (она же чекпоинт (англ. checkpoint)) — ключевое понятие в технологиях искусственного интеллекта (ИИ) в целом и в Stable Diffusion в частности.

Это математическая структура или алгоритм, предназначенный для выполнения интеллектуальных задач — «искусственный мозг».

Подробности читайте в Глоссарии

Как упоминалось выше, существует огромное множество различных моделей для Stable Diffusion. Есть как базовые — универсальные модели широкого профиля, созданные разработчиками SD, так и тьма их производных, дообученных умельцами-энтузиастами под разные задачи и стили.

В Stable Diffusion вы самостоятельно сможете выбирать, с помощью какой модели генерировать изображение.

В зависимости от выбора модели, на один и тот же запрос с одними и теми же настройками можно получить как похожие изображения, выполненные в разных стилях, так и совершенно разные картинки

Промпт (Prompt)

Текстовая строка (поле) с набором терминов и специальных команд, которая определяет, что в итоге будет сгенерировано.
Пользователь пишет промпт сам на английском языке, либо копирует уже готовые промпты.

Чем подробнее и грамотнее написан промпт, тем больше шанс получить желаемый результат


Подробности читайте в Глоссарии

LoRA

LoRA (Low-Rank Adaptation) — узкоспециализированные минимодели-модификаторы.
Они «подключаются» к основной модели и принимают участие в генерации, внося некоторые изменения в итоговую картинку.

Могут быть натренерованы на какой-то конкретный стиль, объект, материал, персону и т. д.

LoRA дополняет знания основной модели

Подробности в Глоссарии

Апскейл и апскейлеры

Апскейл (англ. upscale) — это процесс увеличения размера и улучшения качества изображения или видео путём увеличения разрешения, чёткости и детализации.

Апскейлеры — улучшалки, заточенные для увеличения размера (разрешения) сгенерированной или любой сторонней картинки.

Смотрите ESRGAN в Глоссарий

В общем, после того как вы наконец-таки добьетесь желаемой картинки на быстрых итерациях с низким разрешением, наступает время финального апскейла и долгожданного хайреза.

«Хайрез» — сокращённая форма английского словосочетания «high resolution» («высокое разрешение»)