Как обучить ИИ Stable Diffusion с вашим лицом для создания искусства с помощью DreamBooth

Гостевой пост Тарунаба Дутты.

Если 2021 год был годом языковых моделей ИИ на основе текста, то 2022 год сделал шаг вперед в моделях ИИ «Текст в изображение». Сегодня доступно множество моделей ИИ «Текст в изображение», которые могут создавать изображения высокого качества. Stable Diffusion — одна из самых популярных и известных опций. Это быстрая и стабильная модель, которая дает последовательные результаты.

как обучить стабильную диффузию

Процесс генерации изображений все еще несколько загадочен, но очевидно, что Stable Diffusion дает отличные результаты. Его можно использовать для генерации изображений из текста или для изменения существующих изображений. Доступные параметры и настройки позволяют значительно настроить и контролировать итоговое изображение.

Хотя работать с изображениями знаменитостей и популярных личностей относительно проще, из-за уже доступного набора изображений, заставить ИИ работать с вашим собственным лицом не так просто. Логика подсказывает, что нужно загрузить в модель ИИ свои изображения и позволить ей творить, но как именно это сделать?

В этой статье мы постараемся продемонстрировать, как обучить модель Stable Diffusion с помощью текстовой инверсии DreamBooth на основе референсного изображения, чтобы создать ИИ-представления вашего собственного лица или любого другого объекта и генерировать фотографии с невероятными результатами, точностью и последовательностью. Если это звучит слишком технически, оставайтесь с нами, и мы постараемся сделать это как можно более доступным для новичков.

Что такое Stable Diffusion?

Давайте начнем с основ. Модель Stable Diffusion — это современная модель машинного обучения «текст в изображение», обученная на большом наборе изображений. Обучение этой модели дорогостоящее, его стоимость составляет около 660 000 долларов. Тем не менее, модель Stable Diffusion может использоваться для создания искусства с помощью естественного языка.

Модели ИИ «Текст в изображение» на основе глубокого обучения становятся все более популярными благодаря своей способности точно переводить текст в изображения. Эта модель бесплатна для использования и доступна на Hugging Face Spaces и DreamStudio. Веса модели также можно скачать и использовать локально.

Stable Diffusion использует процесс, называемый «диффузией», для генерации изображений, которые выглядят похоже на текстовый запрос.

Короче говоря, алгоритм Stable Diffusion принимает текстовое описание и генерирует изображение на основе этого описания. Сгенерированное изображение будет похоже на текст, но не будет точной копией. Альтернативами Stable Diffusion являются модели Dall-E от OpenAI и Imagen от Google.

Связанная статья: 9 лучших приложений для генерации ИИ-искусства для iPhone и Android

Руководство по обучению ИИ Stable Diffusion с вашим лицом для создания изображения с помощью DreamBooth

Сегодня я продемонстрирую, как обучить модель Stable Diffusion, используя свое лицо в качестве начального референса, чтобы генерировать изображения с высоко последовательным и точным стилем, который является как оригинальным, так и свежим.

Для этой цели мы будем использовать Google Colab под названием DreamBooth для обучения Stable Diffusion.

Перед запуском этого Google Colab нам нужно подготовить определенные контентные активы.

Этап 1: Google Drive с достаточным свободным местом

Для этого вам нужна учетная запись Google Drive с как минимум 9 ГБ свободного места.

Бесплатная учетная запись Google Drive предоставляет 15 ГБ бесплатного места для хранения, что достаточно для этой задачи. Так что вы можете создать совершенно новую (одноразовую) учетную запись Gmail только для этой цели.

google drive

Этап 2: Референсные изображения для обучения ИИ

Во-вторых, вам нужно иметь как минимум дюжину портретов вашего лица или любого целевого объекта, готовых к использованию в качестве референсов.

Пожалуйста, убедитесь, что черты лица видны и хорошо освещены на захваченных изображениях. Избегайте использования резких теней, особенно на лице.
Кроме того, объект должен смотреть в камеру или иметь боковой профиль, на котором оба глаза и все черты лица четко видны.
Камера должна быть способна захватывать высококачественные черты лица. Лучший вариант — профессиональная зеркальная или беззеркальная камера. Камера смартфона отличного качества также может подойти.
Композиция должна быть расположена в центре кадра с небольшим пространством над головой.
В качестве входных изображений должно быть достаточно минимум двенадцати крупноплановых фотографий лица, пяти фотографий среднего плана, охватывающих от головы до пояса, и примерно трех фотографий в полный рост.
Минимум двадцати референсных фотографий должно быть достаточно для этой цели.

birme faces

В моем случае я снял и собрал коллекцию из примерно 50 автопортретов, которые я обрезал до 512 x 512 пикселей с помощью онлайн-инструмента — Birme. Вы также можете использовать любой другой редактор изображений для этой цели.

Пожалуйста, имейте в виду, что итоговое выходное изображение должно быть оптимизировано для веба и уменьшено в размере файла с минимальными потерями качества.

Этап 3: Google Colab

Теперь можно запустить среду выполнения Google Colab.

Существуют как бесплатные, так и платные версии платформы Google Colab. Dreambooth может работать на бесплатной версии, но производительность значительно быстрее и стабильнее на платной версии Colab Pro, которая приоритизирует использование высокоскоростного GPU и выделяет как минимум 15 ГБ VRAM для выполняемой задачи.

Если вы не против потратить несколько долларов, подписка на Colab Pro за 10 долларов, которая включает 100 вычислительных единиц каждый месяц, более чем достаточна для этой сессии.

google colab signup

Вы также получите доступ к дополнительной памяти RAM и GPU, которые относительно более мощные и быстрые.

Позвольте мне повторить это: вам НЕ нужно быть техническим специалистом, чтобы запустить этот Colab. Вам также не требуется никакого предварительного опыта программирования.

После того как вы зарегистрируетесь в Google Colab (бесплатной или платной версии), войдите в систему с вашими учетными данными и перейдите по этой ссылке, чтобы открыть DreamBooth Stable Diffusion.

Google Colab имеет разделы или ячейки «runtime» с кликабельными кнопками воспроизведения слева, которые расположены последовательно. Чтобы воспроизвести среду выполнения, начиная с верхней части, просто нажмите кнопки воспроизведения одну за другой. Каждый сегмент состоит из среды выполнения, которую необходимо выполнить. Когда вы нажимаете кнопку воспроизведения, соответствующий раздел выполняется как среда выполнения. Через некоторое время зеленая галочка появится слева от кнопки воспроизведения, чтобы указать, что среда выполнения была успешно выполнена.

Пожалуйста, убедитесь, что вы вручную выполняете только одну среду выполнения за раз и переходите к следующему разделу «runtime» только после завершения текущей среды выполнения.

В разделе среды выполнения верхней панели меню у вас есть возможность запустить все среды выполнения одновременно. Однако это не рекомендуется.

change runtime type dreambooth

Ниже находится опция с названием «Изменить тип среды выполнения». Если вы подписаны на платную подписку, вы можете выбрать и сохранить «премиум» GPU и высокую RAM для вашего выполнения.

choose high ram

Теперь вы готовы начать DreamBooth Colab.

run dream booth

10 шагов для успешного завершения обученной модели ИИ на DreamBooth

ШАГ 1: Определите GPU и VRAM

Первый шаг — определить тип доступного GPU и VRAM. Пользователи Pro получат доступ к быстрому GPU и улучшенному VRAM, который более стабилен.

определите gpu vram

После нажатия кнопки воспроизведения появится предупреждение, так как осуществляется доступ к веб-сайту разработчика GitHub. Вам просто нужно нажать « Запустить все равно », чтобы продолжить.

выберите vram

ШАГ 2: Запустите DreamBooth

На следующем шаге вам нужно установить определенные требования и зависимости. Вам просто нужно нажать кнопку воспроизведения и позволить ей работать.

dreambooth play

ШАГ 3: Войдите в Hugging Face

После нажатия кнопки воспроизведения следующий шаг потребует от вас войти в свою учетную запись Hugging Face. Вы можете создать бесплатную учетную запись, если у вас ее еще нет. После входа перейдите на страницу настроек в правом верхнем углу.

hugging face settings

Затем нажмите раздел « Токены доступа » и кнопку « Создать новый », чтобы сгенерировать новый «токен доступа» и переименовать его по желанию.

токены доступа

Скопируйте токен доступа, затем вернитесь на вкладку Colab и введите его в предоставленное поле, затем нажмите « Войти ».

вход в huggingface

ШАГ 4: Установите xformers

На этом шаге вы можете нажать на среду выполнения, чтобы установить xformers, просто нажав кнопку воспроизведения.

установить xformers

ШАГ 5: Подключите Google Drive

После нажатия кнопки воспроизведения вам будет предложено в новом всплывающем окне разрешить доступ к вашей учетной записи Google Drive. Нажмите «Разрешить», когда вас попросят о разрешениях.

доступ к папке google drive

После предоставления разрешений вам нужно подтвердить, что выбрано « сохранить в Google Drive ». Вам также нужно установить новое имя для переменной « CLASS NAME ». Если вы хотите загрузить референсные изображения человека, просто введите «человек», «мужчина» или «женщина». Если ваши референсные изображения собаки, введите «собака» и так далее. Вы можете оставить остальные поля без изменений. В качестве альтернативы вы можете переименовать входной каталог — «INSTANCE DIR» или выходной каталог — «OUTPUT DIR».

настройки dreambooth

ШАГ 6: Загрузите референсные фотографии

После нажатия кнопки воспроизведения на предыдущем шаге вы увидите возможность загрузить и добавить все ваши референсные фотографии.

загрузить изображения

Я бы рекомендовал минимум 6 и максимум 20 фотографий. Обратитесь к «ЭТАПУ 2» выше для краткого объяснения того, как выбрать лучшее референсное изображение в зависимости от того, как был захвачен объект.

выбрать изображения

После загрузки всех ваших изображений вы можете просмотреть их в левой колонке. Есть значок папки. После нажатия на него вы сможете просмотреть папки и подпапки, в которых в настоящее время хранятся ваши данные.

В каталоге данных вы можете просмотреть свой входной каталог, где хранятся все ваши загруженные фотографии. В моем случае он называется «sks» (имя по умолчанию).

Кроме того, обратите внимание, что этот контент временно хранится только в вашем хранилище Google Colab, а не на Google Drive.

каталог ввода

начать обучение

ШАГ 7: Обучите модель ИИ с помощью DreamBooth

Это самый важный шаг, так как вы будете обучать новую модель ИИ на основе всех загруженных вами референсных фотографий с помощью DreamBooth.

обучить изображения dreambooth

Вам нужно сосредоточиться только на двух полях ввода. Первый параметр — «—instance prompt». Здесь вы должны ввести очень уникальное имя. В моем случае я буду использовать свое имя, за которым следуют мои инициалы. Вся идея заключается в том, чтобы сохранить полное имя уникальным и точным.

Второе важное поле ввода — это параметр «—class prompt». Вы должны переименовать его в соответствии с тем, что вы использовали в «ШАГЕ 4». В моем случае я использовал термин «мужчина». Поэтому я снова введу его в это поле и перезапишу любое предыдущее значение.

параметры dreambooth

Остальные поля можно оставить нетронутыми. Я наблюдал, как пользователи экспериментируют, изменяя такие поля, как «—num class images» на 12 и «—max train steps» на 1000, 2000 или даже больше. Однако, пожалуйста, помните, что изменение этих полей может привести к исчерпанию памяти Colab и сбою, что потребует от вас перезапуска с самого начала. Поэтому рекомендуется не редактировать их при первой попытке. Вы можете поэкспериментировать с ними в будущем, после того как получите достаточный опыт.

После того как вы выполните эту среду выполнения, нажав кнопку воспроизведения, Colab начнет загружать необходимые исполняемые файлы и затем сможет обучаться, используя ваши референсные фотографии.

Обучение модели займет от 15 минут до более часа. Вам нужно быть терпеливым и следить за прогрессом, пока среда выполнения не завершится. Если ваш Google Colab будет бездействовать слишком долго, он может сброситься. Поэтому следите за прогрессом и время от времени нажимайте на вкладку.

colab выполняется

выполнение завершено

ШАГ 8: Конвертируйте модель ИИ в формат ckpt

После завершения обучения у вас будет возможность конвертировать обученную модель в файл формата ckpt, который напрямую совместим со Stable Diffusion.

Конверсия может быть выполнена в два этапа выполнения. Первый — « Скрипт загрузки », а второй — « Запустить конверсию », где у вас есть возможность уменьшить размер загружаемого файла обученной модели. Однако это значительно ухудшит качество получаемого изображения.

Поэтому, чтобы сохранить оригинальный размер, опция ‘ fp16 ‘ должна оставаться неотмеченной.

запустить конверсию

В конце этой конкретной среды выполнения файл с именем « model.ckpt » будет сохранен в вашем подключенном Google Drive.

модель ckpt

Мы можем сохранить этот файл для будущего использования, потому что ваши среды выполнения немедленно удаляются, когда вы закрываете вкладку браузера DreamBooth Colab. Когда вы снова откроете версию Colab DreamBooth позже, вам придется начать с нуля.

Если вы сохраните файл обученной модели на своем Google Drive, вы сможете получить его позже для использования с вашей локально установленной графической оболочкой Stable Diffusion, DreamBooth или любыми блокнотами Stable Diffusion Colab, которые требуют загрузки файла «model.ckpt» для эффективной работы среды выполнения. Вы также можете сохранить его на своих локальных жестких дисках для дальнейшего использования.

ШАГ 9: Подготовка к текстовому запросу

Следующие два процесса среды выполнения в категории «Inference» подготавливают новую обученную модель для текстового запроса, используемого для генерации изображений. Просто нажмите кнопку воспроизведения для каждой среды выполнения, и она завершится за считанные минуты.

инференция

ШАГ 10: Генерация изображений ИИ

Это последний шаг, где вы можете ввести текстовые запросы, и изображения ИИ будут сгенерированы.

Вы должны использовать точное имя «instance_prompt» и «–class_prompt» вместе из ШАГА 6 в начале текстового запроса. Например, в моем случае я использовал «портрет тарунаба, цифровая живопись», чтобы сгенерировать новые изображения ИИ, похожие на меня.

запрос изображения

генерация изображения

Ниже вы можете увидеть некоторые результаты изображений, сгенерированных с помощью обученной модели DreamBooth.

пример сгенерированных изображений

Играйте с подсказками, чтобы получить лучшие результаты

Если вы внимательно следовали шагам, изложенным выше, вы сможете генерировать изображения ИИ, которые близко напоминают черты лица на ваших референсных изображениях. Этот метод требует только онлайн-платформу Google Colab для выполнения обновленной версии технологии ИИ для текстовой инверсии.

Для лучших идей текстовых подсказок вы можете посетить такие сайты, как —

OpenArt AI
Krea AI
Lexica art

Вам также нужно научиться искусству создания лучших и более эффективных текстовых подсказок, используя различные художественные стили и различные комбинации. Хорошим началом будет SubReddit Stable Diffusion.

Reddit имеет огромное сообщество, посвященное Stable Diffusion. Также есть множество групп в Facebook и сообществ Discord, активно обсуждающих, делящихся и исследующих новые возможности Stable Diffusion.

Ниже я также делюсь ссылками на несколько учебных видео по DreamBooth, которые вы можете посмотреть на Youtube —

Надеюсь, вы найдете это руководство полезным. Если у вас есть какие-либо вопросы, не стесняйтесь комментировать ниже, и мы постараемся помочь вам.

Автор: Тарунaб Дутта — награжденный кинорежиссер, который завершил более 45 проектов за последние 16 лет, включая полнометражные фильмы, короткометражные фильмы, музыкальные видео, документальные фильмы и рекламные ролики, под своим независимым брендом ‘TD Film Studio’.