Cómo entrenar la IA de Stable Diffusion con tu rostro para crear arte usando DreamBooth

Publicación invitada por Tarunabh Dutta.

Si 2021 fue el año de los modelos de lenguaje basados en palabras, 2022 ha dado un salto hacia los modelos de IA de texto a imagen. Hoy en día, hay muchos modelos de IA de texto a imagen disponibles que pueden producir imágenes de alta calidad. Stable Diffusion es una de las opciones más populares y conocidas. Es un modelo rápido y estable que produce resultados consistentes.

cómo entrenar stable diffusion

El proceso de generación de imágenes sigue siendo algo misterioso, pero está claro que Stable Diffusion produce excelentes resultados. Se puede usar para generar imágenes a partir de texto o para alterar imágenes existentes. Las opciones y parámetros disponibles permiten mucha personalización y control sobre la imagen final.

Si bien es relativamente más fácil trabajar con imágenes de celebridades y figuras populares, simplemente por el conjunto de imágenes ya disponible, no es tan fácil hacer que la IA trabaje con tu propio rostro. La lógica dice que se debe alimentar al modelo de IA con tus imágenes y luego dejar que haga su magia, pero ¿cómo se puede hacer eso exactamente?

En este artículo, intentaremos demostrar cómo entrenar un modelo de Stable Diffusion usando la inversión textual de DreamBooth en una referencia de imagen para construir representaciones de IA de tu propio rostro o de cualquier otro objeto y generar fotos de resultados increíbles, precisión y consistencia. Si suena demasiado técnico, quédate, y trataremos de hacerlo lo más amigable posible para principiantes.

¿Qué es Stable Diffusion?

Vamos a aclarar lo básico. El modelo de Stable Diffusion es un modelo de aprendizaje automático de texto a imagen de última generación entrenado en un gran conjunto de imágenes. Es costoso de entrenar, costando alrededor de $660,000. Sin embargo, el modelo de Stable Diffusion se puede usar para generar arte utilizando lenguaje natural.

Los modelos de IA de texto a imagen de aprendizaje profundo están ganando popularidad debido a su capacidad para traducir texto con precisión en imágenes. Este modelo es gratuito y se puede encontrar en Hugging Face Spaces y DreamStudio. Los pesos del modelo también se pueden descargar y usar localmente.

Stable Diffusion utiliza un proceso llamado “difusión” para generar imágenes que se parecen a la solicitud de texto.

En resumen, el algoritmo de Stable Diffusion toma una descripción textual y genera una imagen basada en esa descripción. La imagen generada se parecerá al texto, pero no será una réplica exacta. Las alternativas a Stable Diffusion incluyen Dall-E de OpenAI y los modelos Imagen de Google.

Lectura relacionada: 9 mejores aplicaciones generadoras de arte IA para iPhone y Android

Guía para entrenar la IA de Stable Diffusion con tu rostro para crear imágenes usando DreamBooth

Hoy, demostraré cómo entrenar un modelo de Stable Diffusion usando mi rostro como referencia inicial para generar imágenes con un estilo altamente consistente y preciso que sea original y fresco.

Así que, para este propósito, utilizaremos un Google Colab llamado DreamBooth para entrenar Stable Diffusion.

Antes de lanzar este Google Colab, debemos preparar ciertos activos de contenido.

Etapa 1: Google Drive con suficiente espacio libre

Para esto, necesitas una cuenta de Google Drive con al menos 9 GB de espacio libre.

Una cuenta gratuita de Google Drive viene con 15 GB de espacio de almacenamiento gratuito, lo cual es suficiente para esta tarea. Así que puedes crear una nueva cuenta de Gmail (desechable) solo para este propósito.

google drive

Etapa 2: Imágenes de referencia para entrenar la IA

En segundo lugar, debes tener al menos una docena de retratos de tu rostro o de cualquier objeto objetivo listos para usar como referencias.

Asegúrate de que las características faciales sean visibles y estén adecuadamente iluminadas en las imágenes capturadas. Evita usar sombras duras, particularmente en la cara.
Además, el sujeto debe mirar a la cámara o tener un perfil lateral en el que ambos ojos y todas las características faciales sean claramente visibles.
La cámara debe ser capaz de capturar características faciales de alta calidad. La mejor opción es una cámara DSLR o sin espejo de nivel profesional. Una cámara de smartphone de excelente calidad también puede ser suficiente.
La composición debe estar posicionada en el centro del encuadre con un poco de espacio en la parte superior de la cabeza.
Como imágenes de entrada, un mínimo de doce fotos de primer plano del rostro, cinco fotos de plano medio que cubran desde la cabeza hasta arriba de la cintura, y aproximadamente tres fotos de cuerpo entero deberían ser adecuadas.
Un mínimo de veinte fotografías de referencia debería ser suficiente para este propósito.

birme faces

En mi caso, he tomado y reunido una colección de aproximadamente 50 autorretratos, que he recortado a 512 x 512 píxeles utilizando la herramienta en línea – Birme. También puedes usar cualquier editor de imágenes alternativo para este propósito.

Ten en cuenta que la imagen de salida final debe estar optimizada para la web y reducida en tamaño de archivo con una pérdida mínima de calidad.

Etapa 3: Google Colab

El tiempo de ejecución de Google Colab ahora se puede ejecutar.

Hay versiones gratuitas y de pago de la plataforma Google Colab. Dreambooth puede ejecutarse en la versión gratuita, pero el rendimiento es significativamente más rápido y más consistente en la versión Colab Pro (de pago), que prioriza el uso de una GPU de alta velocidad y asigna al menos 15 GB de VRAM a la tarea en cuestión.

Si no te importa gastar unos dólares, una suscripción de Colab Pro de $10 que incluye 100 unidades de computación cada mes es más que adecuada para esta sesión.

google colab signup

También tendrás acceso a memoria RAM adicional y GPUs que son relativamente más potentes y rápidas.

Déjame reiterar esto: NO necesitas ser un especialista técnico para ejecutar este Colab. Tampoco requieres experiencia previa en programación.

Una vez que te registres en Google Colab (versión gratuita o de pago), inicia sesión con tus credenciales y dirígete a este enlace para abrir DreamBooth Stable Diffusion.

Un Google Colab tiene secciones o celdas de “runtime” con botones de reproducción clicables en el lado izquierdo, que están organizados secuencialmente. Para reproducir el runtime comenzando desde la parte superior, simplemente haz clic en los botones de reproducción uno por uno. Cada segmento consiste en un runtime que debe ejecutarse. Cuando haces clic en un botón de reproducción, la sección correspondiente se ejecuta como un runtime. Después de un tiempo, aparecerá una marca de verificación verde a la izquierda del botón de reproducción para indicar que el runtime se ejecutó con éxito.

Asegúrate de ejecutar manualmente solo un runtime a la vez y pasar a la siguiente sección de “runtime” solo cuando el runtime actual haya terminado.

En la parte superior de la barra de menú del runtime, tienes la opción de ejecutar todos los runtimes simultáneamente. Sin embargo, esto no se recomienda.

cambiar tipo de runtime dreambooth

Debajo de eso hay una opción etiquetada “Cambiar tipo de runtime”. Si estás suscrito a una suscripción pro, puedes elegir y guardar una GPU “premium” y alta RAM para tu ejecución.

elegir alta ram

Ahora estás listo para comenzar el Colab de DreamBooth.

ejecutar dream booth

10 pasos para completar con éxito un modelo de IA entrenado en DreamBooth

PASO 1: Decidir sobre la GPU y VRAM

El primer paso es determinar el tipo de GPU y VRAM disponibles. Los usuarios Pro tendrán acceso a GPU rápidas y VRAM mejorada que es más estable.

determinar gpu vram

Una vez que hagas clic en el botón de reproducción, mostrará una advertencia porque se está accediendo al sitio web de origen del desarrollador, GitHub. Solo necesitas hacer clic en “ Ejecutar de todos modos “ para continuar.

elegir vram

PASO 2: Ejecutar DreamBooth

En el siguiente paso, debes instalar ciertos requisitos y dependencias. Solo necesitas hacer clic en el botón de reproducción y dejar que se ejecute.

dreambooth play

PASO 3: Iniciar sesión en Hugging Face

Después de hacer clic en el botón de reproducción, el siguiente paso requerirá que inicies sesión en tu cuenta de Hugging Face. Puedes crear una cuenta gratuita si no tienes una. Una vez que inicies sesión, navega a tu página de Configuración desde la esquina superior derecha.

configuración hugging face

Luego, haz clic en la sección ‘ Tokens de acceso ‘ y en el botón ‘ Crear nuevo ‘ para generar un nuevo “token de acceso” y renombrarlo como desees.

tokens de acceso

Copia el token de acceso, luego regresa a la pestaña de Colab e ingrésalo en el campo proporcionado, luego haz clic en “ Iniciar sesión.”

iniciar sesión en huggingface

PASO 4: Instalar xformers

En este paso, puedes hacer clic en el runtime para instalar xformers simplemente presionando el botón de reproducción.

instalar xformers

PASO 5: Conectar Google Drive

Después de hacer clic en el botón de reproducción, se te pedirá en una nueva ventana emergente permiso para acceder a tu cuenta de Google Drive. Haz clic en “Permitir” cuando se te pida permisos.

acceso a la carpeta de google drive

Después de otorgar permisos, debes confirmar que “ guardar en Google Drive ” esté seleccionado. También debes establecer un nuevo nombre para la variable ‘ NOMBRE DE CLASE ‘. Si deseas enviar imágenes de referencia de una persona, simplemente pon ‘persona’, ‘hombre’ o ‘mujer’. Si tus imágenes de referencia son de un perro, escribe ‘perro’ y así sucesivamente. Puedes dejar los campos restantes sin cambios. Alternativamente, puedes renombrar el directorio de entrada—’DIRECTORIO DE INSTANCIA’ o el directorio de salida—’DIRECTORIO DE SALIDA.’

configuración dreambooth

PASO 6: Subir fotos de referencia

Después de hacer clic en el botón de reproducción en el paso anterior, verás la opción para subir y agregar todas tus fotos de referencia.

subir imágenes

Recomendaría un mínimo de 6 y un máximo de 20 fotografías. Consulta “ETAPA 2” arriba para una explicación concisa de cómo seleccionar la mejor imagen de referencia según cómo se capture el sujeto.

seleccionar imágenes

Una vez que todas tus imágenes hayan sido subidas, podrás verlas en la columna de la izquierda. Hay un ícono de carpeta. Una vez que hagas clic en él, podrás ver las carpetas y subcarpetas en las que se están almacenando tus datos actualmente.

Bajo el directorio de datos, puedes ver tu directorio de entrada, donde se almacenan todas tus fotos subidas. En mi caso, se conoce como “sks” (nombre predeterminado).

Además, ten en cuenta que este contenido solo se almacena temporalmente en tu almacenamiento de Google Colab y no en Google Drive.

directorio de entrada

comenzar entrenamiento

PASO 7: Entrenar el modelo de IA con DreamBooth

Este es el paso más crucial, ya que estarás entrenando un nuevo modelo de IA basado en todas tus fotos de referencia subidas usando DreamBooth.

entrenar imágenes dreambooth

Debes enfocarte solo en dos campos de entrada. El primer parámetro es “—instance prompt.” Aquí, debes ingresar un nombre muy único. En mi caso, usaré mi primer nombre seguido de mis iniciales. La idea es mantener el nombre completo único y preciso.

El segundo campo de entrada crucial es el parámetro ‘—class prompt’. Debes renombrarlo para que coincida con el que usaste en ‘PASO 4’. En mi caso, usé el término “hombre.” Así que lo volveré a escribir en este campo y sobrescribiré cualquier entrada anterior.

parámetros dreambooth

Los demás campos pueden dejarse sin tocar. He observado que los usuarios experimentan alterando campos como ‘—num class images’ a 12 y ‘—max train steps’ a 1000, 2000 o incluso más. Sin embargo, recuerda que modificar estos campos puede hacer que el Colab se quede sin memoria y se bloquee, requiriendo que reinicies desde el principio. Por lo tanto, se recomienda no editarlos en el primer intento. Podrías experimentar con ellos en el futuro después de adquirir suficiente experiencia.

Una vez que ejecutes este runtime haciendo clic en el botón de reproducción, el Colab comenzará a descargar los archivos ejecutables necesarios y luego podrá entrenar usando tus fotos de referencia.

Entrenar el modelo tomará entre 15 minutos y más de una hora. Debes ser paciente y hacer un seguimiento del progreso hasta que se complete el runtime. Si tu Google Colab está inactivo durante demasiado tiempo, podría reiniciarse. Así que sigue revisando el progreso y haciendo clic en la pestaña ocasionalmente.

colab ejecutando

ejecución completa

PASO 8: Convertir el modelo de IA a formato ckpt

Después de que el entrenamiento esté completo, tendrás la opción de convertir el modelo entrenado a un archivo en formato ckpt, que es directamente compatible con Stable Diffusion.

La conversión se puede realizar en dos fases de runtime. La primera es “ Descargar script,” y la segunda es “ Ejecutar conversión,” donde tienes la opción de reducir el tamaño de descarga del modelo entrenado. Sin embargo, hacerlo degradará significativamente la calidad de la imagen resultante.

Por lo tanto, para mantener el tamaño original, la opción ‘ fp16 ‘ debe permanecer desmarcada.

ejecutar conversión

Al final de este runtime en particular, se guardará un archivo llamado “ model.ckpt ” en tu Google Drive conectado.

modelo ckpt

Podemos guardar este archivo para uso futuro porque tus runtimes se eliminan inmediatamente cuando cierras la pestaña del navegador de DreamBooth Colab. Cuando vuelvas a abrir la versión de Colab de DreamBooth más tarde, tendrás que comenzar desde cero.

Supongamos que guardas el archivo del modelo entrenado en tu Google Drive. En ese caso, podrás recuperarlo más tarde para usarlo con tu GUI de Stable Diffusion instalada localmente, DreamBooth, o cualquier cuaderno de Colab de Stable Diffusion que requiera que se cargue el archivo “model.ckpt” para que el runtime funcione de manera efectiva. También puedes guardarlo en tus discos duros locales para uso posterior.

PASO 9: Prepararse para el aviso textual

Los siguientes dos procesos de runtime bajo la categoría “Inferencia” preparan el nuevo modelo entrenado para el aviso textual utilizado para la generación de imágenes. Simplemente presiona el botón de reproducción para cada runtime, y terminará en cuestión de minutos.

inferencia

PASO 10: Generar imágenes de IA

Este es el paso final, donde puedes escribir los avisos textuales, y se generarán las imágenes de IA.

Debes usar el nombre exacto de ‘instance_prompt’ y ‘–class_prompt’ juntos del PASO 6 al principio del aviso de texto. Por ejemplo, en mi caso, usé “un retrato de tarunabhtd hombre, pintura digital” para generar nuevas imágenes de IA que se asemejan a mí.

aviso de imagen

generación de imagen

A continuación, puedes ver algunos resultados de imágenes generadas con el modelo entrenado de DreamBooth.

imágenes generadas de muestra

Juega con los avisos para obtener los mejores resultados

Si sigues cuidadosamente los pasos descritos anteriormente, podrás generar imágenes de IA que se asemejen estrechamente a las características faciales en tus imágenes de referencia. Este método solo requiere la plataforma en línea Google Colab para ejecutar una versión mejorada de la tecnología de IA para inversión textual.

Para obtener mejores ideas para avisos de texto, puedes consultar sitios como –

OpenArt AI
Krea AI
Lexica art

También necesitas aprender el arte de crear mejores y más efectivos avisos de texto utilizando una variedad de estilos artísticos y diversas combinaciones. Un buen lugar para comenzar sería el SubReddit de Stable Diffusion.

Reddit tiene una gran comunidad dedicada a Stable Diffusion. También hay varios grupos de Facebook y comunidades de Discord que discuten, comparten y exploran nuevas avenidas de Stable Diffusion.

A continuación, también comparto enlaces a algunos videos tutoriales de DreamBooth que puedes ver en Youtube –

Espero que encuentres útil esta guía. Si tienes alguna pregunta, no dudes en comentar abajo, y trataremos de ayudarte.

Autor: Tarunabh Dutta es un cineasta galardonado que ha completado más de 45 proyectos en los últimos 16 años, incluidos largometrajes, cortometrajes, videos musicales, documentales y anuncios comerciales, bajo su sello independiente ‘

TD Film Studio ‘.