😵 Осваиваем работу в Stable Diffusion

20 апр 2023

Пожалуй я не буду описывать что такое Stable Diffusion, уже изо всех щелей говорят про ChatGPT и другие нейросети, поэтому если интересно, гуглите в гугле и наслаждаетесь информацией. Там будет очень много технических вещей про алгоритмы стохастической оптимизации и прочее. У нас тут статья про установку и использование.

Чтобы пощупать Stable Diffusion, вам потребуется компьютер и желательно с мощной видеокартой. Если таковой нет, для рендера изображений выбирайте более сидящие настройки, об этом чуть далее. Я за вас за ранее поискал самую простую стейбл версию, где все происходит в автоматическом режиме и максимально для простого юзера.

Переходим в репозиторий и качаем Portable версию. Дополнительно сразу скачайте модели Deliberate, DreamLike, f222.

У вас скачается архив, очень важно распаковать файлы из него в папку на корневом каталоге диска C:. Например, у меня так: C:\stable. Внутри у вас будут архивы и один cmd файл webui-user-first-run.cmd. Просто запускаем его и ждем пока все скачается.

Важно! Пока он там все качает, нужно подложить модели. Чтобы вы не искали, я вам сразу подготовил некую базу, на старте их должно хватить: Deliberate, DreamLike, f222. Скачайте их и положите в папку C:\stable\models\Stable-diffusion. Опять же ваша папка может иметь другое название.

Еще очень советую использовать дополнительные стили, чтобы избежать дополнительных мутаций на фото. Стили можете скачать по ссылке и положить их в корень каталога с программой.

По окончании установки, в вашей папке уже будет больше файлов. Чтобы запустить Stable Diffusion, просто запустите файл webui-user.bat. Откроется консоль, там будет выполнена проверка актуальной версии и если все успешно, у вас автоматически откроется ссылка в браузере.

С этого момента можно начинать работу с нейросетью. Пока вы с ней работаете, консоль должна быть открытой! На старте уже будут все необходимые настройки. Приступим.

Настроек и функций откровенно много, затрону основные моменты.

1) Так называемый чекпоинт, тут выбираем ту самую модель или базу с которой будем работать. Вы должны были их скачать и положить в нужный каталог.

2) Первая вкладка txt2img предоставляет для вас режим, генерации из текста в изображение.

3) Вторая вкладка img2img предоставляет для вас режим, генерации из картинки в картинку с параметрами.

Задействуем только эти режимы. Далее нас интересуют 2 поля ввода текста Promt и Negative Promt. В первом вы описываете нейросети, то, что она должна нарисовать. Во втором поле, указываете исключения, которые она должна избегать. Отмечу, что работа будет исключительно на английских запросах!

Во второе поле, предлагаю вам свою базу для использования:

mutation, mutated, bad anatomy, bad hands, missing fingers, extra limbs, deformed, cropped, low quality, bad eyes, oversaturated, ugly, cartoon, grain, low-res, kitsch, duplicate, morbid, mutilated, extra fingers, poorly drawn face, blurry, bad proportions, disfigured, gross proportions, malformed limbs, missing arms, missing legs, fused fingers, too many fingers, long neck

И теперь в первом поле вы задаете параметры для отрисовки. Я рисую милого мышёнка с автоматом и выбираю такие данные:

a cute fluffy tiny mouse holding an AR-15 assault rifle

По умолчанию у вас будет создаваться картинка с разрешением 512х512, этого достаточно для того, чтобы посмотреть принцип работы и долго не ждать отрисовку. Еще важный параметром является Sampling steps, то есть количество шагов отрисовки. Советую ставить для начала 22 шага и библиотеку Deliberate.

Так же можно сделать генерацию нескольких вариантов сразу, поставив Batch count например на 4. Не ждите всегда точного результата. Так же в данном примере я использую стили Midjourney, который выбирается под оранжевой кнопкой. Как все параметры готовы, жмем Generate.

Легко получаем первые результаты, крутите до тех пор, пока результат не устроит, меняйте построение фраз в запросе.

Далее когда мы выбрали подходящий вариант, мы можем генерировать на его основе, похожие изображения с той же тематикой. Выбираем нужное изображение и жмем под ним кнопку отправить в img2img.

Откроется 2‑я вкладка, где мы сможем генерировать новые изображения на основе уже созданного. При переносе, все параметры будут сохранены, при желании вы можете что то поменять. И так постепенно мы можем искать более подходящий вариант на основе выбранного ранее.

Нужный вариант можно скачать.

Изменяя настройки и шаги отрисовки, так же меняя модели и стили, можно получить желаемый результат. Дополнительно скажу еще пару важных базовых вещей по настройкам перед генерацией.

Sampling method рекомендую выбирать для работы только:

Euler/Euler a - если нужно рисовать людей.

DPM++ 2M - если нужно делать арты, либо чтобы был по светлее выбирать DPM++ Karras.

Так же параметр CFG Scale отвечающий за прорисовку в плане креативности. Если кратко: меньше значение - меньше креатива, но больше шумов и наоборот. Советую ставить в диапазоне 5.8-6.5.

На этом у меня все, пробуйте!

Следующий пост ->