Глоссарий



Апскейл и апскейлеры
(Upscale)
Апскейл (англ. upscale) — это процесс увеличения размера и улучшения качества изображения или видео путём увеличения разрешения, чёткости и детализации.
Апскейлеры — улучшалки, заточенные для увеличения размера (разрешения) сгенерированной или любой сторонней картинки.
Смотрите ESRGAN
Базовая модель
(Base Model)
Базовая модель (Base Model) — универсальная модель, изначально созданная её разработчиками под широкий спектр задач, стилей и образов.
Это исходная модель, на основе которой энтузиасты с помощью дообучения создают множество собственных, часто узкоспециализированных моделей — чекпоинтов.
Некоторые популярные базовые модели:
Библиотека
Библиотека в программировании — это набор готовых функций, классов и объектов для решения определённых задач.
Такие наборы помогают программистам ускорять и упрощать свою работу. Например, можно не писать с нуля сложный алгоритм сортировки, а вызвать функцию из библиотеки, где он уже реализован.
Вес
Веса — внутренние настройки ИИ, которые модель формирует во время обучения и использует для генерации.
Хранятся и распространяются в виде отдельных файлов, как правило с расширением *.safetensors. Это специальный формат для хранения весов модели.
Собственно говоря, этот файл и есть сама модель.
Однако, можно встретить модели весом как в 2, так и под 20 ГБ
Дополнения
и расширения (Extensions)
Дополнение или расширение (как правило, эти термины используют как синонимы) в программном обеспечении — это подпрограмма, которая расширяет базовый функционал приложения.
Дополнения пользователь выбирает и устанавливает самостоятельно, в зависимости от цели и специфики использования продукта.
Описания некоторых дополнений, а также где их брать и как устанавливать, смотрите на странице Дополнения и скрипты
Инференс
Это этап непосредственной полезной работы уже обученной нейросети на конечном устройстве.
Если обучение модели — это фаза, в которой ИИ накапливает знания и настраивает свои параметры на основе огромных объемов данных, то инференс представляет собой применение этих знаний на практике. Например, когда система распознавания лиц определяет человека на фотографии или голосовой помощник обрабатывает запрос пользователя, все это происходит благодаря инференсу.
Искусственный интеллект
Искусственный интеллект (ИИ), (англ. artificial intelligence; AI) — это область компьютерных наук, которая занимается созданием интеллектуальных систем, способных выполнять задачи, требующие человеческой интеллектуальной деятельности.
ИИ включает в себя обучение, логическое рассуждение, восприятие окружающего мира, понимание речи и даже творчество.
Квантизация
(или квантование)
Процесс преобразования числовых значений в модели машинного обучения из высокоточных форматов с плавающей запятой в форматы с меньшей точностью.
Например, из 32-битных FP32 или 64-битных FP64 в FP8 с плавающей запятой или даже в целочисленный INT8 (8-битные целые числа).
Цель квантизации — ускорить работу моделей, сократить потребление энергии и памяти, что делает технологии искусственного интеллекта (ИИ) доступными для широкого круга применений.
Процесс квантизации включает в себя следующие действия
- Анализ распределения данных. Оцениваются диапазоны значений весов.
- Нормализация. Подготовленные значения приводятся к единому стандартному диапазону, например, весам задаются границы от минимального до максимального значения.
- Округление. После нормализации значения округляются до ближайших целых чисел, которые могут быть эффективно обработаны доступными аппаратными средствами.
- Обратное преобразование. После вычислений результаты могут быть восстановлены до более точных форматов, если в этой задаче возникает практическая необходимость.
Контрольная точка
Смотрите Чекпоинт
Модель
Модель (модель искусственного интеллекта), она же чекпоинт — ключевое понятие в технологиях искусственного интеллекта (ИИ) в целом и в Stable Diffusion в частности.
Это математическая структура или алгоритм, предназначенный для выполнения интеллектуальных задач.
Существует множество моделей для Stable Diffusion. Какие-то более требовательны к железу, какие-то менее. Есть базовые (изначальные) и есть дообученные на основе базовых. Есть универсальные, а есть специализированные для каких-то узких задач — для интерьеров, для 3D-персонажей, для промдизайна и т. д.
В Stable Diffusion вы можете выбирать, с помощью какой модели генерировать изображение.
В зависимости от выбора модели, на один и тот же запрос с одними и теми же настройками можно получить как похожие изображения, выполненные в разных стилях, так и совершенно разные картинки.
В большинстве источников, такие термины как «Базовая модель», «Модель» и «Чекпоинт» (checkpoint) используются как синонимы, подразумевая, что это одно и то же.
Встречаются файлы и с другими расширениями, но рекомендуется выбирать именно *.safetensors, так как в него нельзя встраивать произвольный код, который будет выполняться при загрузке.
И базовая модель и модель и чекпоинт — это и есть нейросеть собственной персоной. Она преобразует текст в изображение. Представляет собой предварительно обученную нейронную сеть. Понимает внешний вид широкого спектра объектов, таких как люди, животные, здания, автомобили и другие.
Всё это сокровище доступно бесплатно.
Как искать, скачивать и устанавливать, смотрите в разделе «Модели»
Однако я бы эти термины уточнил и разделил
- Модель — общий термин. И базовая модель и чекпоинт являются моделями;
- Базовая модель — исходная, первоначальная, универсальная версия модели.
Это как новенький автомобиль, поставляемый с завода в базовой комплектации; - Чекпоинты — многочисленные, дообученные умельцами модификации базовой модели, часто заточенные под определённую тему или стилистику.
Это как тюнингованные тачки, создаваемые энтузиастами в гаражах и дизайн-ателье на базе заводских автомобилей. - Основная модель — модель, которую вы выбрали для генерации. Это любой выбранный вами чекпоинт.
«Основной» её называют потому, что помимо неё в генерации могут принимать участие и дополнительные — неосновные модели, типа LoRA.
В мире Stable Diffusion базовая модель — тоже чекпоинт.
В общем, любую базовую модель можно называть и моделью и чекпоинтом, но не любой чекпоинт является базовой моделью.
Модель генеративная
Это тип модели машинного обучения, которая учится создавать новые данные, похожие на те, на которых она была обучена.
Она работает, изучая основные закономерности и взаимосвязи в данных, а затем используя этот набор знаний для создания новых образцов.
Основная цель генеративной модели — создавать новые данные, которые похожи на обучающие данные, но не являются их точными копиями.
Примеры применения генеративных моделей:
- генерация изображений;
- текста;
- музыки;
- видео;
- и даже проектирование новых молекул.
Модель диффузионная
Математическая модель, используемая для описания процессов принятия решений и генерации данных.
Она работает по принципу постепенного накопления информации или преобразования случайного шума в структурированные данные.
Диффузионные модели применяются в различных областях, например:
- Генерация изображений. Модель начинает с хаоса (шума) и постепенно превращает его во что-то осмысленное и красивое.
- Генерация видео.
- Генерация музыки и даже музыки со словами.
- Медицинские задачи.
- 3D-моделирование и другие.
Диффузионная модель работает в два этапа
- Прямой процесс (Forward Diffusion). Берёт реальные данные (например, картинку) и постепенно добавляет к ним шум, пока они не превратятся в чистый случайный шум.
- Обратный процесс (Reverse Diffusion). Учится из этого шума воссоздавать исходные данные, убирая шум шаг за шагом. Модель учится предсказывать, как убирать шум, чтобы в итоге генерировать новые изображения с нуля.
В итоге сгенерированные данные становятся очень похожими на исходный набор данных. Это позволяет модели создавать высококачественные данные, такие как текст, изображения или звук.
Нейронная сеть
Нейронная сеть (также искусственная нейронная сеть, ИНС, или просто нейросеть) — математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации биологических нейронных сетей — сетей нервных клеток живого организма.
Простыми словами, это компьютерный алгоритм, способный обрабатывать большие объёмы данных, имитируя деятельность человеческого мозга. Как и человек, нейросеть изучает новые предметы, делает выводы и в дальнейшем использует полученную информацию.
Облачные сервисы
Это технология, которая предоставляет доступ к вычислительным ресурсам, хранению данных и приложениям через интернет.
Они базируются на виртуальной инфраструктуре, которая состоит из удалённых серверов и специального программного обеспечения, позволяющего управлять этой инфраструктурой.
Пример облачного сервиса — облачные хранилища вроде Google Drive или Dropbox. Они позволяют хранить разные виды данных на удалённых серверах. Пользователи могут загружать данные и обмениваться ими, не привязываясь к конкретному устройству или местоположению.
Некоторые задачи, которые решают
облачные сервисы
- Хранение данных. С помощью облаков можно безопасно хранить большие объёмы всевозможной информации.
- Обработка данных. Применение облачных вычислительных мощностей позволяет оперативно обрабатывать огромные объёмы данных.
- Сотрудничество и обмен данными. Удалённый доступ к файлам и документам в облаках обеспечивает возможность командной работы над проектами.
- Разработка и тестирование ПО. Платформы для разработчиков помогают создавать и тестировать приложения без наличия локальных серверов.
- Резервное копирование и восстановление. Облака позволяют автоматически создавать резервные копии и восстанавливать данные.
Пиксель (pixel)
Пиксель, пиксел (pixel, px)— сокращение от piсtures element (элемент изображения) — неделимая элементарная частица картинки.
Пиксель цифрового изображения — это наименьшая единица изображения, фактически строительный блок всех визуальных элементов, которые видны на экране.
Если увеличить цифровую картинку, например в Фотошопе, то увидите, что она состоит из отдельных однотонных квадратиков. Это и есть пиксели:

Изображения, состоящие из пикселей, называют растровыми изображениями. Самый простой пример такого изображения — цифровая фотография. Такие фотографии получаются при съёмке на камеру телефона, например.
Нейросети, и Stable Diffusion, генерируют именно растровые картинки.
Размер такой картинки в пикселях (количество пикселей в ширину и в высоту) называют разрешением изображения.
Промпт (Prompt)
Текстовая строка (текстовое поле) с набором терминов и специальных команд, которая определяет, что в итоге будет сгенерировано.
Пользователь пишет промпт сам в соответствующем текстовом поле, либо копирует туда уже готовые промпты.
А ещё можно генерировать с помощью текстовых нейросетей, например DeepSeek — вполне рабочий вариант.
Платные сервисы я не рассматриваю.
Промпт может быть совсем простым, например «beautiful woman photo» (фотография красивой женщины), или содержать длинное описание с подробностями, дополнительными командами и усилителями. Чем подробнее и грамотнее написан промпт, тем больше шанс получить желаемый результат.
Если с языком туго, можно обратиться за помощью к текстовой нейронке. Например, DeepSeek.
Stable Diffusion (SD) на вход принимает 2 промпта — позитивный и негативный:

Как следует из названия, один будет усиливать вероятность появления тех или иных вещей в генерации, а второй будет ослаблять. Надо понимать, что со 100% вероятностью исключить или заставить SD что-то сгенерить не получится. Это скорее подсказки, которые настоятельно советуют ему что-то делать или не делать.
Промпт из текста преобразуется в набор чисел (токенов), который затем поступает на вход алгоритма генерации SD.
Из этого следует, что SD не столько понимает «смысл» того, что вы пишете, сколько ищет соответствие набору ваших токенов в своём гиперпространстве. И затем создаёт на их основе изображение.
Разрешение изображения
Разрешение изображения — это количество пикселей (в ширину и в высоту), из которых состоит растровое изображение.
Растровое изображение — изображение, состоящее из отдельных пикселей, например цифровая фотография или сгенерированная нейросетью картинка.
Разрешение обычно указывается в виде двух чисел, разделённых знаком «×», например 1920×1080. Первое обозначает число пикселей по горизонтали, второе — по вертикали.
Чем больше разрешение картинки или видео, тем более детальным и чётким оно будет. Однако при этом размер файла также будет больше.
Также термин «разрешение» применяется и к экранам телевизоров, мониторов, смартфонов и т. д., так как экраны тоже состоят из пикселей. Правда, экранный пиксель и пиксель изображения хоть и родственные, но всё же несколько отличающиеся понятия.
Некоторые распространённые разрешения экранов и их названия:
- HD (High Definition (высокая четкость)) — 1280×720 пикселей. Минимальный стандарт, который используется для небольших экранов, таких как старые телевизоры, бюджетные ноутбуки и некоторые смартфоны.
- Full HD — 1920×1080 пикселей. Стандарт для большинства современных мониторов, ноутбуков и телевизоров. Обеспечивает хорошую чёткость и детализацию изображения, подходит для офисной работы, игр и просмотра видео.
- 2K — 2560×1440 пикселей. Часто используется в профессиональных мониторах и игровых устройствах. Формат предлагает более высокую чёткость, чем Full HD, что особенно важно для графического дизайна, видеомонтажа и игр.
- 4K (Ultra HD) — 3840×2160 пикселей. Обеспечивает невероятную детализацию и чёткость изображения, но требует мощного аппаратного обеспечения.
- 8K — 7680×4320 пикселей. Технология, которая пока применяется в основном в специализированных областях, таких как киноиндустрия и профессиональная видеосъёмка.
Растровое изображение
Растровое изображение — это изображение, состоящее из отдельных элементов — пикселей. Оно выстроено из отдельных пикселей как из кубиков Лего. Каждый пиксель растрового файла хранит информацию о цвете, а их совокупность образует целостную картинку на экране устройства.
Самый простой пример такого изображения — цифровая фотография. Или изображение сгенерированное нейросетью.
Растр применяют, когда требуется высокая детализация и реалистичные переходы цвета.
Некоторые распространённые форматы растровых файлов:
- JPG (JPEG). Один из самых распространённых и компактных форматов— в нём хранится большинство картинок в интернете. Но при упаковке в этот формат может заметно упасть качество изображения из-за компрессии.
- PNG. Сохраняется практически без потери качества, но при этом весит ощутимо больше JPG.Поддерживает прозрачность, в отличие от того же JPG.
- TIFF. Идеален для печати, так как сохраняет картинку с высоким разрешением и поддерживает слои, каналы и прозрачность.
Векторные изображения не подходят для фото — крайне сложно (часто невозможно) создать векторное изображение с такой детализацией и плавными переходами, как у фото. Векторами рисуют логотипы и шрифты, например, или орнаменты и иллюстрации типа каких-нибудь мультяшек и аниме. Векторное изображение имеет преимущество перед растровым по качеству: при любом увеличении оно сохраняет идеальную чёткость, потому что в основе лежит не совокупность отдельных квадратиков, а формулы, которые масштабируются без проблем по законам математики: изменил в формуле радиус круга — вот тебе, без проблем, круг другого радиуса.
Смотрите также:
Пиксель
Разрешение изображения
Репозиторий (repository)
От англ. «repository» — хранилище — место, где хранятся и поддерживаются какие-либо данные. Чаще всего данные в репозитории хранятся в виде файлов, доступных для дальнейшего распространения по сети.
В IT-сфере репозиторий — место хранения различных версий программного кода.
Примеры таких систем — Git и SVN.
могут означать
- Внешние хранилища в Linux-системах. В них содержатся инсталляционные файлы, перечень адресов серверов, откуда пользователь может скачать определённый софт.
- Хранилища на CD/DVD. Установочные диски для пакетов того или иного ПО
Скрипты
Скрипты в Stable Diffusion — это дополнительные настройки, которые позволяют более детально настроить генерацию и рассмотреть разные варианты. Пользователь выбирает определённый скрипт, указывает настройки, и нейросеть генерирует разные варианты по одному и тому же запросу с учётом этих настроек.
Некоторые примеры скриптов в Stable Diffusion
- Promt matrix. Позволяет сгенерировать четыре картинки, в каждой из которых алгоритм будет соблюдать разные части промпта. Например, промпт «девушка с серыми глазами в цветочном платье» — на первой картинке будет девушка в цветочном платье, на второй — с серыми глазами и в цветочном платье, на третьей — просто девушка с серыми глазами, а на четвёртой — только девушка.
- X/Y/Z plot. Создаёт таблицу с изображениями, если настроены все три оси. Для каждой оси указывается количество шагов для генерации и разнообразные настройки. В итоге получится 12 изображений, которые нейросеть сгенерировала с разным числом шагов и с разным отношением к подсказке (точное соблюдение или игнорирование).
Токен
Токен в нейросети — это минимальная единица текста, которая может проходить через слои в архитектуре. Токеном может быть слово, часть слова или даже отдельный символ в зависимости от используемой модели и метода токенизации.
Токены разбивают текст на более управляемые части. Это важно для оптимизации обработки больших текстов: чем больше контекста модель может охватить за один раз, тем лучше её результаты.
Примеры токенов:
- В предложении «Нейросети меняют мир» токенами могут быть отдельные слова: «Нейросети», «меняют», «мир».
- Предложение «Привет, как дела?» будет разбито на токены: ["Привет", ",", "как", "дела", "?"].
Токен в Stable Diffusion — это основной строительный блок текстового ввода, который модель использует для анализа и интерпретации запроса (промта).
Токены представляют собой числовые значения (промпт из текста преобразуется в набор чисел), которые позволяют модели Stable Diffusion понимать и обрабатывать запросы пользователя.
Удалённая система
Она же «Удалённое рабочее место», или «Виртуальная машина», или «Виртуальный рабочий стол», или «Виртуальное рабочее пространство».
Если в двух словах: это возможность работать из любой точки мира, с любого, даже слабенького компа (главное — наличие стабильного интернета), на мощном железе, смонтированном на каком-то далёком сервере.
При этом, для вас это будет выглядеть как нормальный рабочий стол операционной системы, с иконками, программами, файловым менеджером и т. д., только открытый в окне специальной программы, которая так и называется — «Подключение к удалённому рабочему столу» (Microsoft Remote Desktop — встроен в Windows). И вы можете через это окно устанавливать и запускать необходимые программы и выполнять с ними действия так, как будто вы работаете со своим собственным компьютером.
Арендовать удалённую систему можно на gpudc.ru или immers.cloud, например.
Доступно всем желающим.
Выглядит это примерно так:
- Вы регистрируетесь на сайте сервиса, предоставляющего такую услугу.
- Пополняете свой баланс.
- Настраиваете параметры желаемой системы (операционка, процессор, ОЗУ, видюха и т.д. (возможны готовые сборки с предустановленным софтом, например для 3-дэшников)).
- Ждёте мин 20, пока система подготовится к работе.
- Подключаетесь к созданной системе.
- Устанавливаете на неё необходимый вам софт.
- Наслаждаетесь работой на мощном железе.
Пошаговую инструкцию, как арендовать систему на gpudc.ru, установить все необходимые компоненты и начать работу, можно посмотреть в видео «Установка и настройка Stable Diffusion Forge в 2025 + FLUX»
(Максим Афанасьев,VK-видео, март 2025)
Тарифы зависят от выбранной конфигурации железа.
На 2025 год в среднем от 20 руб./час. и до 500-700 руб./час. Для самых требовательных возможны конфигурации сильно дороже.

Чекпоинт
(Checkpoint)
(Контрольная точка)
(Точка сохранения)
Базовая модель или её дообученная модификация, заточенная под определённую тему, художественный стиль, степень реалистичности и т. д.
Процесс установки описан в соответствующем разделе
Самая большая база чекпоинтов находится на сайте Civitai.com.
2-20 ГБ. В среднем 5-7 ГБ.
Предпочтение стоит отдавать *.safetensors, исходя из соображений безопасности, так как в него нельзя встраивать произвольный код, который будет выполняться при загрузке моделей.
Смотрите также Модель
Чуть-чуть технических подробностей
Контрольная точка (точка сохранения) — это финальный или один из промежуточных результатов, который сохраняется во время обучения сети.
Цель сохранения контрольных точек — возможность восстановить процесс обучения с того места, где он был остановлен. Это полезно, например, если компьютер выходит из строя или процесс обучения прерывается.
Также сохранение контрольных точек позволяет поделиться моделью с другими.
Шаг
Смотрите Sampling steps
API
Application Programming Interface — это набор правил и протоколов, позволяющих приложениям общаться между собой и обмениваться данными по запросу.
Например, когда вы оплачиваете покупку банковской картой, терминал обращается к API банка, который выпустил вашу карту, и отправляет запрос на оплату.
Automatic1111
Считается (считалась) лучшей и стандартной реализацией интерфейса (WebUI) для работы со Stable Diffusion. В первую очередь для неё делают все расширения, новые алгоритмы, оптимизации и т.п.

Однако появилась её модификация, под названием Forge — разработчики Forge поставили перед собой задачу решить основные проблемы оригинала, сохранив при этом его сильные стороны.
Base Model
Смотрите Базовая модель
Bitsandbytes
Библиотека на Python, которая включает 8-битные оптимизаторы, функции умножения матриц и 8 и 4-битные функции квантования.
Позволяет уменьшать точность представления весов нейронной сети с целью оптимизации использования памяти.
Black Forest Labs
Немецкий стартап по искусственному интеллекту, основанный в 2024 году бывшими сотрудниками компании Stability AI (разработчик Stable Diffusion) с целью развития генеративных моделей глубокого обучения для медиа-приложений.
Флагманский продукт Black Forest Labs — передовая модель FLUX.
В августе 2024 года модель FLUX-1 от Black Forest Labs использовалась для работы чат-бота Grok от xAI Илона Маска.
BNB NF4
Если в названии модели указано «BNB NF4», это означает, что перед вами наиболее оптимизированная версия.
«BNB» в названии модели прямо указывает на использование Bitsandbytes — библиотеки, которая позволяет выполнять квантизацию модели, то есть уменьшать точность представления весов нейронной сети с целью оптимизации использования памяти.
«NF4» означает 4-битную квантизацию, что является одной из возможностей BNB, благодаря которой модель генерирует быстрее и меньше съедает памяти.
Есть информация, что LoRA для FLUX несовместимы с версиями BNB NF4.
Решение можно найти в статье «Все о моделях FLUX, GGUF, квантизации, чем они отличаются и какую выбрать для своей видео-карты»
(boosty.to, 12.09.2024)
Смотрите также NF4 и FP8, FP16, FP32, FP64
Checkpoint
Смотрите Чекпоинт
Ckpt (*.ckpt)
Один из доступных форматов файла «контрольной точки», используемый для хранения весов модели.
Считается потенциально опасным — в файл можно поместить вредоносный код, который выполнится при загрузке модели.
Поэтому важно использовать их только из надёжных источников.
ComfyUI
Это графический пользовательский интерфейс (GUI он же WebUI) для работы с моделями диффузии, в том числе для Stable Diffusion.

Он предоставляет собой визуальную среду программирования на основе узлов (нодов), позволяющую пользователям создавать сложные конвейеры обработки изображений без необходимости написания кода.
(YouTube)
ControlNet
Расширение, которое позволяет генерировать изображения на основе готовых картинок, эскизов или поз.
С его помощью можно подробно задавать входные данные для нейросети и влиять на процесс генерации. Например, можно взять фотографию человека, пропустить её через нейросеть и заменить только его внешность, сохраняя при этом остальные элементы композиции.
Некоторые возможности ControlNet
- Модель Canny. После загрузки референса нейросеть создаёт её набросок тонкой линией. Это позволяет чётко выделить контуры объектов, сохраняя при этом мелкие детали.
- Модель HED (Holistically-Nested Edge Detection). Нейросеть грубо и нечётко очерчивает объекты на изображении после его загрузки, создавая эффект, аналогичный тому, как бы это сделал человек.
- Модель Depth Map. Эта модель создаёт набросок изображения с картой глубины, демонстрируя расположение объектов в пространстве.
- Модель Normal Map. Определяет положение объекта в трёхмерном пространстве.
- Модель MLSD (Mobile Line Segment Detection). Эта модель обнаруживает прямые линии на изображении.
- Модель OpenPose. После загрузки фотографии она определяет положение головы, плеч, рук и ног, а затем создаёт «скелет» — довольно точное представление позы.
- Модель Scribble. Генерирует изображение на основе скетча. Достаточно нарисовать или загрузить набросок, и с помощью текстового запроса указать, в какой облик его следует превратить.
Deep Learning (DL)
(глубокое обучение)
Подраздел машинного обучения, который использует многослойные искусственные нейронные сети для извлечения признаков из неструктурированных данных (аудио, видео, изображения или тексты).
Некоторые области применения Deep Learning
- Распознавание речи. Нейросети анализируют аудиозаписи разговоров и выделяют отдельные слова, части речи, эмоции.
- Компьютерное зрение. Алгоритмы глубокого обучения анализируют изображения, видео, выделяют объекты, лица, тексты, дорожные знаки.
- Обработка естественного языка. Нейросети извлекают смысл из текстов на естественном языке, определяют тематику, тональность, выделяют ключевые слова.
- Сервисы рекомендаций. Модели глубокого обучения анализируют поведение пользователей, историю взаимодействий, демографические данные и на этой основе выдают персонализированные рекомендации товаров, контента, музыки.
- Диагностика заболеваний. Глубокое обучение применяется для анализа медицинских изображений — снимков КТ, МРТ, микроскопии. Нейросети могут обнаруживать аномалии, опухоли, патологии.
Diffusion in Low Bits
Это выпадающий список в программе SD Forge, который позволяет настроить квантизацию модели.
Квантизация уменьшает точность представления весов нейронной сети с целью оптимизации использования памяти. Например, 4-битная квантизация (nf4) в этой опции означает, что модель генерирует быстрее и занимает меньше памяти.

Если у пользователя небольшой опыт работы с моделью, рекомендуется оставить опцию по умолчанию — Automatic. При неправильном выборе можно потратить много дополнительного времени на генерацию изображения без гарантии того, что оно получится лучше.
ESRGAN
ESRGAN — это апскейлер.
ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) — модель, которая улучшает качество изображений, генерируемых Stable Diffusion (SD).
C:\Stable\webui\models\ESRGAN
Во время обучения ESRGAN изучает изображения с высоким разрешением. Когда пользователь загружает картинку с низким разрешением, модель использует полученные знания, чтобы сгенерировать версию с более высоким разрешением.
В результате мы получаем увеличенное, чёткое и детализированное изображение.
ESRGAN может использоваться в разных приложениях, например для масштабирования старых фотографий, улучшения качества изображений в кадрах видео или повышения визуальной привлекательности графики и художественных работ.
- 4x_foolhardy_Remacri.pth — для природы и артов
- 4x_NMKD-Siax_200k.pth — для реалистичных фото
- 4x-AnimeSharp.pth — для аниме, судя по названию
Extensions
Смотрите Дополнения и расширения
FLUX
Это мощная базовая модель для генерации изображений по текстовому описанию. Генерирует невероятно реалистичные и детализированные картинки.
Разработчики Flux — бывшие создатели Stable Diffusion и Stable Diffusion XL — Робин Ромбах и Андреас Блаттман. Ими была создана новая компания Black Forest Labs, которая и представила нам Flux в 2024 году.
Flux основана на 12-миллиардном трансформере и использует инновационный подход, так что достигать высокой производительности и качества изображения возможно даже при запуске на бытовых видеокартах. Модель очень хорошо следует промпту и распознает текст.
Основные особенности
- Созданные изображения выглядят почти как настоящие фотографии.
- Flux превосходит многие существующие модели по качеству и реализму деталей.
- Имеет сложную многоуровневую структуру. Каждый уровень отвечает за определенные аспекты изображения: цвета, формы, текстуры и т.д.
- Все части модели работают вместе. Это позволяет создавать высококачественный и реалистичный результат.
- VAE не требуется —модели уже готовы к работе
Модель Flux представлена в трёх версиях
- FLUX.1 DEV (Flux.1 D) — является открытой и предназначена для некоммерческого использования. Она была создана на основе Pro-версии и обладает схожим качеством и способностью следовать подсказкам, но работает более эффективно.
- FLUX.1 SCHNELL(Flux.1 S) — упрощённая и самая быстрая версия модели (нем. schnell — быстрый). Ориентирована на скорость, позволяя генерировать изображения за 1-4 шага. Предназначена для локальной разработки и личного использования, в которой также предусмотрена интеграция в ComfyUI.
- FLUX.1 PRO — самая продвинутая версия модели для бизнеса и коммерческих задач.
Доступна только для корпоративных клиентов и только через платный API, а обычные пользователи могут поработать с ней через некоторые платные онлайн-сервисы.
Обеспечивает высококачественную генерацию изображений. Отличается превосходным следованием подсказкам, высоким визуальным качеством, детализацией изображений и разнообразием выходных данных. Требует мощных видеокарт с большим количеством памяти.
Гибридные версии (BNB NF4 и Schnell)
Если в названии чекпоинта на основе FLUX присутствуют такие сокращения (BNB NF4 и Schnell) — это означает, что перед вами гибридная оптимизированная версия, позволяющая достичь качества Dev с эффективностью Schnell.
Гораздо менее требовательна к железу по сравнению с базовой Flux.1 D и, соответственно, более шустрая.
Оптимизированы для GPU с 6–12 ГБ памяти.
Первые версии таких гибридов можно запустить на картах с 6–8 ГБ VRAM (RTX 2080 Ti, RTX 3050).
Версии старше (в названии указано «v2», например «flux1-dev-bnb-nf4-v2.safetensors») подходят для видеокарт с 8–12 ГБ VRAM и выше (RTX 3060, RTX 3070).
RTX 2060 Super, 2070 Super, 2080 Super и их Ti-версии по некоторым отзывам могут поддерживать NF4 и FLUX, но это не точно
Fooocus
Одна из реализаций интерфейса (WebUI) для работы со Stable Diffusion.

Максимально казуальная, неконтролируемая игрушка с одной кнопкой. Пользователю доступен промпт и пара параметров.
Из плюсов стоит отметить большое кол-во заготовленных стилей. Авторы декларируют, что у них некоторые алгоритмы реализованы круче/интереснее, и, скорее всего, это так.
Но отсутствие возможности адекватного изменения параметров, фиксированные разрешения и попытка сделать всё за пользователя делают Fooocus игрушкой, а не профессиональным инструментом.
Forge
Stable Diffusion Forge (SD Forge) — модифицированная версия интерфейса AUTOMATIC1111 (WebUI) для SD.
Разработчики Forge поставили перед собой задачу решить основные проблемы оригинала, повысив производительность, удобство и расширив функционал, сохранив при этом его сильные стороны.

Некоторые отличия SD Forge от AUTOMATIC1111
(по версии Яндекс.Нейро)
- Повышенная скорость генерации изображений. Особенно это заметно у пользователей с видеокартами с небольшим объёмом видеопамяти. Например, для видеокарт с 6 ГБ видеопамяти скорость генерации может увеличиться на 75%, а для видеокарт с 8 ГБ — примерно на 45%.
- Оптимизированная архитектура бэкэнда. Она улучшает совместимость с несколькими расширениями и снижает риск конфликтов производительности.
- Предустановленные расширенные функции. В SD Forge уже установлены популярные расширения, такие как ControlNet, FreeU и Stable Video Diffusion (SVD).
- Поддержка моделей Flux. Forge автоматически определяет тип модели и применяет соответствующие параметры работы.
- Встроенный менеджер памяти. Он автоматически подбирает оптимальные параметры оптимизации, исходя из объёма доступной видеопамяти и параметров конкретной модели.
FP8, FP16, FP32, FP64
Это типы чисел, используемых при квантизации модели.
Чтобы ускорить работу, сократить потребление энергии и памяти, числа преобразуются из высокоточных форматов в форматы с меньшей точностью.
Чем ниже число, тем сильнее сжата модель.
Эти сокращения могут встретиться в названии модели.
Означает, что модель оптимизирована для существенной экономии памяти видеокарты путём уменьшения разрядности чисел...
Если вы не являетесь DL-инженером, то технические подробности вам знать ни к чему.
(DeepSchool, 13.01.2025)
FreeU
Расширение, которое улучшает качество генерируемых изображений.
Основной эффект FreeU — увеличение насыщенности, что создаёт более реалистичную текстуру. Однако эффективность может варьироваться в зависимости от используемой модели.
Особенно полезен, когда цель — реалистичное качество изображения.
Git
Специальная программа, которая позволяет отслеживать любые изменения в файлах, хранить их версии и оперативно возвращаться в любое сохранённое состояние.
Это распределённая система контроля версий, то есть каждый участник команды имеет собственную локальную копию проекта, которая синхронизируется с репозиторием — центральным хранилищем всех версий проекта.
GPU
Graphics Processing Unit — это графический процессор, который управляет памятью видеокарт и ускоряет вывод графики на экран устройства.
Он обрабатывает данные, связанные с отображением изображений, видео и 3D-графики.
Смотрите также GPU-сервер
GPU-сервер
Это сервер, на котором установлены графические процессоры (GPU), оптимизированные для выполнения параллельных вычислений.
В отличие от обычных процессоров (CPU), которые отлично справляются с последовательными задачами, GPU могут выполнять множество операций одновременно, что делает их идеальными для задач, требующих большой вычислительной мощности, таких как обработка изображений, обучение искусственного интеллекта и моделирование физических процессов.
Некоторые области применения GPU-серверов
- Машинное обучение и ИИ. Ускоряют работу нейросетей и создание алгоритмов. На них выполняются задачи по генерации текстов, изображений и построению прогнозов.
- Большие данные (Big Data). Подходят для анализа информации в финансах, медицине, исследованиях и рекламе.
- Финансы и блокчейн. На их базе проводят разработку финансовых моделей, аналитику и работу с криптовалютами.
- Графика и видео. Ускоряют создание спецэффектов, 3D-анимацию и моделирование. Применяются при рендеринге сложных сцен с текстурами, освещением и тенями.
- Научные исследования. Используются в биологическом и химическом моделировании, симуляциях и сложных вычислениях.
GUI
GUI (graphical user interface) — графический пользовательский интерфейс.
Так называется внешний вид программы — то, что видит пользователь и с чем он может взаимодействовать. К GUI относятся окна, кнопки и другие элементы.
Guidance Scale
Параметр, определяющий, насколько строго модель следует текстовому запросу. Чем выше — тем лучше соответствие, но меньше творческого размаха у нейросети. Рекомендуется использовать значение по умолчанию
Img2img
(Image to image)
Инструмент на основе искусственного интеллекта, который перерисовывает любую загруженную картинку с учётом текстового запроса (промпта).
С его помощью можно, например, сгенерировать несколько похожих на исходное фото картинок или улучшить качество существующего изображения.
Суть метода Img2img заключается в том, что в качестве отправной точки нейросеть использует не случайный шум, а загруженное пользователем изображение, к которому затем добавляется шум, который, в свою очередь, потом пошагово очищается. Чем больше добавлено шума на старте, тем сильнее будут заметны изменения, вплоть до полной неузнаваемости.
Inpaint
Это функция SD, которая позволяет вносить изменения или добавлять новые элементы в определённые области изображения, заданные пользователем — с помощью курсора закрашиваете поверх сгенерированной или загруженной картинки область, в которую хотите внести изменение, и в промпте описываете, какого результата хотите достичь.
Некоторые возможности Inpaint
- модификация объектов в выбранной области изображения;
- редактирование или удаление фона;
- перерисовка определённых элементов на картинке;
- добавление фигур в уже существующие изображения;
- повышение качества фотографий;
- изменение внешнего вида или одежды персонажей на изображении;
- коррекция общей эстетики (стиля) изображения.
LoRA
LoRA (Low-Rank Adaptation) — узкоспециализированные минимодели-модификаторы, они «присасываются» к основной модели и вносят некоторые изменения в генерируемую картинку.
Например, управляют количеством деталей или формируют определённый стиль, или натренированы на конкретный материал, эффект, объект, персону, явление (всплески воды, мех, неоновое свечение, правильное количество пальцев, фрукты, полотна Кандинского, Папа Римский, аниме, интерьер в скандинавском стиле и т. д.).
LoRA также поставляются в виде файлов с расширением *.safetensors, но весят гораздо меньше основных моделей — от 10 до 500 МБ. Отдельные экземпляры могут достигать и 2 ГБ, но чаще в районе 200–400 МБ.
Merge Checkpoint
«Merge» — англ. поглощать, соединять, слиться, смыкаться.
В Stable Diffusion — объединение разных контрольных точек для создания модели, которая понимает разные стили и эффективно адаптируется к новым задачам генерации изображений. Для этого выравнивают и интегрируют нейронные сети разных контрольных точек, чтобы сильные стороны одной компенсировали недостатки других.
Например, можно добавить «фотореалистичную» компоненту в одну из моделей, что увеличит весовые коэффициенты именно для фотографий.
В ComfyUI — объединение контрольных точек разных моделей для создания надёжной и универсальной модели для художественных проектов на основе искусственного интеллекта. При этом получаемая модель сохраняет целостность и качество исходных контрольных точек.
Midjourney
Возможно, самая известная нейросеть для создания изображений по текстовым описаниям. Использует технологии диффузионных моделей.
Работает на платформе Discord.
Платная — доступна по подписке. По состоянию на январь 2024 года имеет четыре уровня подписки стоимостью от 10 до 120 долларов в месяц.
NF4 (Normal Float 4)
Это сокращение часто встречается в названиях моделейна основе FLUX. Означает, что модель оптимизирована для экономии памяти видеокарты, работает шустрее базовой и пригодна для использования на не самом мощном железе.
NF4 — один из форматов (контейнеров) для кодирования чисел, призванный оптимизировать и значительно сэкономить память видеокарты в процессе генерации — на инференсе.
Используется при сжатии нейросетей. Оптимизирован для нормального распределения весов...
Если вы не являетесь DL-инженером, то технические подробности вам знать ни к чему.
(DeepSchool, 13.01.2025)
Однако есть версия, что NF4 — это сокращение от “Next-Gen Flux Model” (модель Flux нового поколения).
Ну ХЗ. Похоже на домыслы.
«Новейшее достижение в области технологии Flux. Спроектирована таким образом, чтобы обеспечить максимальную эффективность...» и т. д. и т. п.
Смотрите также BNB NF4 и FFP8, FP16, FP32, FP64
Prompt
Смотрите Промпт
Python
Высокоуровневый язык программирования общего назначения с динамической строгой типизацией и автоматическим управлением памятью.
Он был создан в 1989–1991 годах голландским программистом Гвидо ван Россумом.
Некоторые особенности Python
- Интерпретируемый язык. Код на нём выполняется построчно, в режиме реального времени.
- Динамическая типизация. Тип переменной определяется автоматически, во время выполнения кода.
- Объектно-ориентированность. Программа представляет собой совокупность объектов, каждому из которых присвоены определённый класс и место в иерархии.
Safetensors
(*.safetensors)
Sampling steps
Параметр, который контролирует количество итераций при генерации изображений.
Каждый шаг в этом процессе удаляет часть шума (смотрите Диффузионные модели), и чем больше таких шагов, тем выше качество получаемого изображения. Когда достигается желаемое количество шагов, генерация останавливается, и получается финальное изображение.
Обычно диапазон значений параметра Sampling steps — от 15 до 100. Меньшие значения делают изображение более размытым, а большие — более чётким.
Seed
Seed (англ. семя, зерно, посевной материал) — это начальное значение шума, из которого будет создаваться изображение (смотрите Диффузионные модели) путём воссоздания знакомых нейросети образов из случайного шума.
Это начальная точка или начальный ввод. Seed позволяет контролировать элемент случайности в генерации изображений — случайный шум на входе приводит к случайным вариациям итоговой картинки.
По умолчанию в Stable Diffusion используется случайное значение Seed («-1» — случайный шум), что приводит к новым и уникальным изображениям при каждой новой генерации при одном и том же промпте и настройках.
SD 1.5
Базовая модель первого поколения.
Имеет меньший размер и тренировалась на изображениях 512x512.
Существует огромное кол-во чекпоинтов, основанных на базе SD 1.5: для самых разных стилей, уровней реалистичности и т. п.
SDXL 1.0
Stable Diffusion XL 1.0 — базовая модель для генерации изображений, разработанная компанией Stability AI. Следующее поколение после SD 1.5.
Тренировалась на картинках 1024x1024.
Некоторые особенности модели
- Более точные и яркие цвета. Также улучшена контрастность, тени и освещение.
- Генерация изображений с разрешением 1 мегапиксель (1024×1024) занимает всего несколько секунд.
- Способность обрабатывать сложные инструкции, состоящие из нескольких частей, представленных в виде коротких подсказок.
SDXL Lightning
Базовая модель, основаная на SDXL 1.0
Считается, что SDXL Lightning — это улучшенная версия Stable Diffusion XL, которая позволяет генерировать изображения быстрее и с более высоким качеством.
SDXL Turbo
Базовая модель на основе SDXL 1.0.
Она достигает высокой производительности благодаря новой технологии, позволяющей создавать изображения в один шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.
Одним словом, SDXL Turbo — это усовершенствованная версия SDXL 1.0, обученная генерации в режиме реального времени.
Stability AI
Stability AI — британская компания, специализирующаяся на искусственном интеллекте. Была основана в 2019 году Эмадом Мостаком и Кайрусом Ходесом.
Наиболее известна благодаря модели генерации изображений по текстовому описанию Stable Diffusion. Помимо неё, Stability AI разрабатывает модели для видео, аудио, 3D и текста.
Stable Diffusion (SD)
Stable Diffusion — это нейросеть с открытым исходным кодом, которая позволяет генерировать изображения на основе текстового запроса, а также дорисовывать наброски и редактировать исходные картинки.
Создателем Stable Diffusion является компания Stability AI, релиз состоялся в августе 2022 года.
Принцип работы: по запросу пользователя нейросеть ищет знакомые очертания на подходящих исходных изображениях в базе и соотносит их с текстом запроса. Далее с помощью прямой диффузии на найденную картинку накладываются гауссовские шумы до состояния, когда невозможно понять, что было на изображении. После этого применяется обратная диффузия, которая поэтапно отменяет прямую диффузию, уменьшает шумы и происходит создание нового изображения.
Несколько иной вариант, подробнее и простыми словами описал Александр Чехутин на Render.ru
Stable Video Diffusion
(SVD)
Модель генерации видео, выпущенная компанией Stability AI, разработчиком генератора искусственных изображений Stable Diffusion.
Некоторые особенности Stable Video Diffusion
- Генерация видео из текста и изображений. Для создания видео нужно загрузить изображение или ввести текстовое описание.
- Создание анимации. Модель может генерировать видеоролики длиной от 14 до 25 кадров с настраиваемой частотой от 3 до 30 кадров в секунду.
- Некоторые ограничения: генерирует относительно короткое видео (менее 4 секунд), не может выполнять движение камеры, кроме медленного панорамирования, не имеет управления текстом.
Styles
Стили в Stable Diffusion — это наборы слов или фраз, которые определяют визуальные характеристики генерируемого изображения.
Они могут влиять на цветовую палитру, композицию, детализацию и общую атмосферу. Стили могут быть как в интерфейсе — например, быстрые стили в Forge и Automatic1111, могут быть прописаны в промпте, иногда установлены вместе с разными расширениями.
Trained Checkpoint
«Trained» — англ. обученный, натренированный.
Это проверенная точка отсчёта во время обучения модели, которая фиксирует её состояние на определённой стадии процесса обучения.
Например, в Stable Diffusion так называют проверенные модели, созданные путём обучения новой модели с собственным набором данных. Также под trained checkpoints могут подразумевать тонко настроенные модели, адаптированные к конкретной задаче или набору данных, например, к определённому стилю искусства, человеку или персонажу.
Txt2img
(Text to image)
Инструмент на основе искусственного интеллекта и машинного обучения, который позволяет генерировать изображения на основе текста.
Алгоритмы анализируют семантику входного текста и, понимая контекст, настроение и ключевые понятия, генерируют изображения, которые отражают суть контента.
UI
User Interface — это пользовательский интерфейс, который формирует визуальную связь между пользователем и программным продуктом. Это совокупность элементов управления, которые помогают человеку взаимодействовать с системой: кнопки, меню, формы ввода, иконки и другие компоненты.

Upscale
Смотрите Апскейл
VAE
Variational Auto Encoder.
Stable Diffusion применяет его на последней стадии генерации, чтобы окончательно «отрендерить» картинку и придать ей товарный вид — чёткость, контрастность и насыщенность.

В моделях со встроенным VAЕ, результат генерации сразу будет хорошим. Но некоторые модели не имеют его в своём составе, и картинки в результате получаются тусклыми и мыльными. В этом случае имеет смысл использовать кастомный VAE.
C:\Stable\webui\models\VAE
Кое-какие дополнительные рекомендации можно найти в статье «Stable Diffusion. Курс молодого бойца» (habr.com, 30.12.2023)
VRAM
Video Random Access Memory — оперативная память видеокарты. Её ключевая задача — хранить в себе данные о графике, а также сохранять готовые изображения, которые затем передаются на экран монитора.
WebUI
WebUI — общее название специальных графических интерфейсов (GUI) для работы со Stable Diffusion. Программа, с помощью которой происходит взаимодействие с нейросетью.
Существуют разные реализаций WebUI для SD, например:



