Comment entraîner l'IA Stable Diffusion avec votre visage pour créer de l'art en utilisant DreamBooth

Article invité par Tarunabh Dutta.

Si 2021 a été l’année des modèles de langage IA basés sur des mots, 2022 a fait un bond dans les modèles IA de texte à image. Il existe aujourd’hui de nombreux modèles IA de texte à image capables de produire des images de haute qualité. Stable Diffusion est l’une des options les plus populaires et les plus connues. C’est un modèle rapide et stable qui produit des résultats cohérents.

comment entraîner stable diffusion

Le processus de génération d’images est encore quelque peu mystérieux, mais il est clair que Stable Diffusion produit d’excellents résultats. Il peut être utilisé pour générer des images à partir de texte ou pour modifier des images existantes. Les options et paramètres disponibles permettent une grande personnalisation et un contrôle sur l’image finale.

Bien qu’il soit relativement plus facile de travailler sur des images de célébrités et de figures populaires, simplement en raison de l’ensemble d’images déjà disponible, il n’est pas si facile de faire fonctionner l’IA sur votre propre visage. La logique dit de nourrir le modèle IA avec vos images et de le laisser faire sa magie, mais comment exactement peut-on faire cela ?

Dans cet article, nous allons essayer de démontrer comment entraîner un modèle Stable Diffusion en utilisant l’inversion textuelle de DreamBooth sur une référence d’image pour construire des représentations IA de votre propre visage ou de tout autre objet et générer des photos de résultats avec des résultats incroyables, précision et cohérence. Si cela semble trop technique, restez avec nous, et nous essaierons de le rendre aussi accessible que possible.

Qu’est-ce que Stable Diffusion ?

Commençons par les bases. Le modèle Stable Diffusion est un modèle d’apprentissage automatique de texte à image à la pointe de la technologie, entraîné sur un grand ensemble d’images. Il est coûteux à entraîner, coûtant environ 660 000 $. Cependant, le modèle Stable Diffusion peut être utilisé pour générer de l’art en utilisant un langage naturel.

Les modèles IA de texte à image basés sur l’apprentissage profond deviennent de plus en plus populaires en raison de leur capacité à traduire le texte avec précision en images. Ce modèle est gratuit à utiliser et peut être trouvé sur Hugging Face Spaces et DreamStudio. Les poids du modèle peuvent également être téléchargés et utilisés localement.

Stable Diffusion utilise un processus appelé “diffusion” pour générer des images qui ressemblent à l’invite textuelle.

En résumé, l’algorithme Stable Diffusion prend une description textuelle et génère une image basée sur cette description. L’image générée ressemblera au texte mais ne sera pas une réplique exacte. Les alternatives à Stable Diffusion incluent Dall-E d’OpenAI et les modèles Imagen de Google.

Lecture associée : 9 meilleures applications génératrices d’art IA pour iPhone et Android

Guide pour entraîner l’IA Stable Diffusion avec votre visage pour créer une image en utilisant DreamBooth

Aujourd’hui, je vais démontrer comment entraîner un modèle Stable Diffusion en utilisant mon visage comme référence initiale afin de générer des images avec un style hautement cohérent et précis qui est à la fois original et frais.

Pour cela, nous allons utiliser un Google Colab appelé DreamBooth pour entraîner Stable Diffusion.

Avant de lancer ce Google Colab, nous devons préparer certains actifs de contenu.

Étape 1 : Google Drive avec suffisamment d’espace libre

Pour cela, vous avez besoin d’un compte Google Drive avec au moins 9 Go d’espace libre.

Un compte Google Drive gratuit offre 15 Go d’espace de stockage gratuit, ce qui est suffisant pour cette tâche. Vous pouvez donc créer un tout nouveau compte Gmail (jetable) juste pour cela.

google drive

Étape 2 : Images de référence pour entraîner l’IA

Deuxièmement, vous devez avoir au moins une douzaine de portraits de votre visage ou de tout objet cible prêts à être utilisés comme références.

Veuillez vous assurer que les traits du visage sont visibles et correctement éclairés dans les images capturées. Évitez d’utiliser des ombres dures, en particulier sur le visage.
De plus, le sujet doit faire face à la caméra ou avoir un profil latéral dans lequel les deux yeux et tous les traits du visage sont clairement visibles.
L’appareil photo doit être capable de capturer des traits faciaux de haute qualité. La meilleure option est un appareil photo reflex numérique ou sans miroir de niveau professionnel. Un appareil photo de smartphone de très bonne qualité peut également suffire.
La composition doit être positionnée au centre du cadre avec un peu d’espace au-dessus de la tête.
En tant qu’images d’entrée, un minimum de douze photos en gros plan du visage, cinq photos en plan moyen couvrant de la tête à au-dessus de la taille, et environ trois photos en pleine figure devraient être adéquates.
Un minimum de vingt photographies de référence devrait suffire à cet effet.

birme faces

Dans mon cas, j’ai pris et rassemblé une collection d’environ 50 autoportraits, que j’ai recadrés à 512 x 512 pixels à l’aide de l’outil en ligne – Birme. Vous pouvez également utiliser n’importe quel éditeur d’images alternatif à cet effet.

Veuillez garder à l’esprit que l’image de sortie finale doit être optimisée pour le web et réduite en taille de fichier avec une perte de qualité minimale.

Étape 3 : Google Colab

Le runtime Google Colab peut maintenant être exécuté.

Il existe des versions gratuites et payantes de la plateforme Google Colab. Dreambooth peut fonctionner sur la version gratuite, mais les performances sont significativement plus rapides et plus cohérentes sur la version Colab Pro (payante), qui priorise l’utilisation d’un GPU haute vitesse et attribue au moins 15 Go de VRAM à la tâche en cours.

Si vous ne craignez pas de dépenser quelques dollars, un abonnement Colab Pro à 10 $ qui inclut 100 unités de calcul chaque mois est plus que suffisant pour cette session.

google colab signup

Vous aurez également accès à une mémoire RAM supplémentaire et à des GPU qui sont relativement plus puissants et rapides.

Laissez-moi le répéter : Vous N’AVEZ PAS besoin d’être un spécialiste technique pour exécuter ce Colab. Vous n’avez également pas besoin d’expérience préalable en codage.

Une fois que vous vous êtes inscrit sur Google Colab (version gratuite ou payante), connectez-vous avec vos identifiants et allez à ce lien pour ouvrir DreamBooth Stable Diffusion.

Un Google Colab a des sections ou cellules de “runtime” avec des boutons de lecture cliquables sur le côté gauche, qui sont disposés séquentiellement. Pour jouer le runtime à partir du haut, il suffit de cliquer sur les boutons de lecture un par un. Chaque segment consiste en un runtime qui doit être exécuté. Lorsque vous cliquez sur un bouton de lecture, la section correspondante est exécutée en tant que runtime. Après un certain temps, une coche verte apparaîtra à gauche du bouton de lecture pour indiquer que le runtime a été exécuté avec succès.

Veuillez vous assurer que vous exécutez manuellement un seul runtime à la fois et que vous passez à la section “runtime” suivante uniquement lorsque le runtime actuel est terminé.

Dans la partie runtime de la barre de menu supérieure, vous avez la possibilité d’exécuter tous les runtimes simultanément. Cependant, cela n’est pas recommandé.

changer type de runtime dreambooth

En dessous, il y a une option intitulée “Changer le type de runtime”. Si vous êtes abonné à un abonnement pro, vous pouvez choisir et enregistrer un GPU “premium” et une RAM élevée pour votre exécution.

choisir haute ram

Vous êtes maintenant prêt à commencer le Colab DreamBooth.

exécuter dream booth

10 étapes pour compléter avec succès un modèle IA entraîné sur DreamBooth

ÉTAPE 1 : Décidez du GPU et de la VRAM

La première étape consiste à déterminer le type de GPU et de VRAM disponibles. Les utilisateurs Pro auront accès à un GPU rapide et à une VRAM améliorée qui est plus stable.

déterminer gpu vram

Une fois que vous cliquez sur le bouton de lecture, un avertissement s’affichera car le site Web source du développeur, GitHub, est en cours d’accès. Vous n’avez qu’à cliquer sur “ Exécuter quand même “ pour continuer.

choisir vram

ÉTAPE 2 : Exécuter DreamBooth

À l’étape suivante, vous devez installer certaines exigences et dépendances. Il vous suffit de cliquer sur le bouton de lecture et de le laisser s’exécuter.

dreambooth play

ÉTAPE 3 : Connectez-vous à Hugging Face

Après avoir cliqué sur le bouton de lecture, l’étape suivante nécessitera que vous vous connectiez à votre compte Hugging Face. Vous pouvez créer un compte gratuit si vous n’en avez pas déjà un. Une fois connecté, accédez à votre page de paramètres depuis le coin supérieur droit.

hugging face settings

Ensuite, cliquez sur la section ‘ Jetons d’accès ‘ et sur le bouton ‘ Créer un nouveau ‘ pour générer un nouveau “jeton d’accès” et le renommer comme vous le souhaitez.

jetons d'accès

Copiez le jeton d’accès, puis revenez à l’onglet Colab et entrez-le dans le champ prévu, puis cliquez sur “ Connexion “.

connexion à huggingface

ÉTAPE 4 : Installer xformers

À cette étape, vous pouvez cliquer sur le runtime pour installer xformers en appuyant simplement sur le bouton de lecture.

installer xformers

ÉTAPE 5 : Connectez Google Drive

Après avoir cliqué sur le bouton de lecture, une nouvelle fenêtre contextuelle vous demandera l’autorisation d’accéder à votre compte Google Drive. Cliquez sur “Autoriser” lorsque l’autorisation est demandée.

accéder au dossier google drive

Après avoir accordé les autorisations, vous devez confirmer que “ enregistrer sur Google Drive “ est sélectionné. Vous devez également définir un nouveau nom pour la variable ‘ NOM DE CLASSE ‘. Si vous souhaitez soumettre des images de référence d’une personne, mettez simplement ‘personne’, ‘homme’ ou ‘femme’. Si vos images de référence sont d’un chien, tapez ‘chien’ et ainsi de suite. Vous pouvez laisser les autres champs inchangés. Alternativement, vous pouvez renommer le répertoire d’entrée—‘INSTANCE DIR’ ou le répertoire de sortie—‘OUTPUT DIR’.

paramètres dreambooth

ÉTAPE 6 : Téléchargez les photos de référence

Après avoir cliqué sur le bouton de lecture à l’étape précédente, vous verrez l’option de télécharger et d’ajouter toutes vos photos de référence.

télécharger des images

Je recommanderais un minimum de 6 et un maximum de 20 photographies. Référez-vous à “ÉTAPE 2” ci-dessus pour une explication concise de la manière de sélectionner la meilleure image de référence en fonction de la façon dont le sujet est capturé.

sélectionner des images

Une fois que toutes vos images ont été téléchargées, vous pouvez les voir dans la colonne de gauche. Il y a une icône de dossier. Une fois que vous cliquez dessus, vous pourrez voir les dossiers et sous-dossiers dans lesquels vos données sont actuellement stockées.

Sous le répertoire de données, vous pouvez voir votre répertoire d’entrée, où toutes vos photos téléchargées sont stockées. Dans mon cas, il est connu sous le nom de “sks” (nom par défaut).

De plus, veuillez noter que ce contenu est uniquement stocké temporairement dans votre stockage Google Colab et non sur Google Drive.

répertoire d'entrée

commencer l'entraînement

ÉTAPE 7 : Entraîner le modèle IA avec DreamBooth

C’est l’étape la plus cruciale, car vous allez entraîner un nouveau modèle IA basé sur toutes vos photos de référence téléchargées en utilisant DreamBooth.

entraîner les images dreambooth

Vous devez vous concentrer uniquement sur deux champs d’entrée. Le premier paramètre est “—instance prompt.” Ici, vous devez entrer un nom très unique. Dans mon cas, j’utiliserai mon prénom suivi de mes initiales. L’idée est de garder le nom complet unique et précis.

Le deuxième champ d’entrée crucial est le paramètre ‘—class prompt’. Vous devez le renommer pour qu’il corresponde à celui que vous avez utilisé dans ‘ÉTAPE 4’. Dans mon cas, j’ai utilisé le terme “homme.” Donc, je vais le retaper dans ce champ et écraser toute entrée précédente.

paramètres dreambooth

Les autres champs peuvent rester inchangés. J’ai observé que des utilisateurs expérimentent en modifiant des champs tels que ‘—num class images’ à 12 et ‘—max train steps’ à 1000, 2000 ou même plus. Cependant, veuillez garder à l’esprit que modifier ces champs peut faire en sorte que le Colab manque de mémoire et plante, nécessitant un redémarrage depuis le début. Il est donc conseillé de ne pas les modifier lors de la première tentative. Vous pourriez expérimenter avec eux à l’avenir après avoir acquis suffisamment d’expérience.

Une fois que vous exécutez ce runtime en cliquant sur le bouton de lecture, le Colab commencera à télécharger les fichiers exécutables nécessaires et pourra ensuite s’entraîner en utilisant vos photos de référence.

L’entraînement du modèle prendra entre 15 minutes et plus d’une heure. Vous devez être patient et suivre les progrès jusqu’à ce que le runtime soit terminé. Si votre Google Colab est inactif trop longtemps, il pourrait se réinitialiser. Donc, continuez à vérifier les progrès et à cliquer sur l’onglet de temps en temps.

colab en cours d'exécution

exécution terminée

ÉTAPE 8 : Convertir le modèle IA au format ckpt

Après l’entraînement, vous aurez la possibilité de convertir le modèle entraîné en un fichier au format ckpt, qui est directement compatible avec Stable Diffusion.

La conversion peut être effectuée en deux phases de runtime. La première est “ Télécharger le script “, et la seconde est “ Exécuter la conversion “, où vous avez la possibilité de réduire la taille de téléchargement du modèle entraîné. Cependant, cela dégradera considérablement la qualité de l’image résultante.

Par conséquent, pour maintenir la taille d’origine, l’option ‘ fp16 ‘ doit rester décochée.

exécuter la conversion

À la fin de ce runtime particulier, un fichier appelé “ model.ckpt “ sera enregistré sur votre Google Drive connecté.

modèle ckpt

Nous pouvons enregistrer ce fichier pour une utilisation future car vos runtimes sont immédiatement supprimés lorsque vous fermez l’onglet du navigateur DreamBooth Colab. Lorsque vous rouvrez la version Colab de DreamBooth plus tard, vous devrez recommencer depuis le début.

Supposons que vous enregistriez le fichier du modèle entraîné sur votre Google Drive. Dans ce cas, vous pourrez le récupérer plus tard pour l’utiliser avec votre interface graphique Stable Diffusion installée localement, DreamBooth, ou tout autre carnet Colab Stable Diffusion qui nécessite le fichier “model.ckpt” pour que le runtime fonctionne efficacement. Vous pouvez également l’enregistrer sur vos disques durs locaux pour une utilisation ultérieure.

ÉTAPE 9 : Préparez-vous pour l’invite textuelle

Les deux processus de runtime suivants sous la catégorie “Inférence” préparent le modèle nouvellement entraîné pour l’invite textuelle utilisée pour la génération d’images. Il vous suffit d’appuyer sur le bouton de lecture pour chaque runtime, et cela se terminera en quelques minutes.

inférence

ÉTAPE 10 : Générer des images IA

C’est la dernière étape, où vous pouvez taper les invites textuelles, et les images IA seront générées.

Vous devez utiliser le nom exact de ‘instance_prompt’ et ‘–class_prompt’ ensemble de l’ÉTAPE 6 au début de l’invite textuelle. Par exemple, dans mon cas, j’ai utilisé “un portrait de tarunabhtd homme, peinture numérique” pour générer de nouvelles images IA me ressemblant.

invite d'image

génération d'image

Vous pouvez voir ci-dessous quelques résultats d’images générées avec le modèle entraîné de DreamBooth.

exemples d'images générées

Jouez avec les invites pour obtenir les meilleurs résultats

Si vous suivez attentivement les étapes décrites ci-dessus, vous serez en mesure de générer des images IA qui ressemblent étroitement aux traits du visage de vos images de référence. Cette méthode nécessite simplement la plateforme Google Colab en ligne pour exécuter une version améliorée de la technologie IA pour l’inversion textuelle.

Pour de meilleures idées d’invites textuelles, vous pouvez consulter des sites comme –

OpenArt IA
Krea IA
Lexica art

Vous devez également apprendre l’art de créer de meilleures et plus efficaces invites textuelles en utilisant une variété de styles artistiques et de diverses combinaisons. Un bon point de départ serait le SubReddit de Stable Diffusion.

Reddit a une grande communauté dédiée à Stable Diffusion. Il existe également plusieurs groupes Facebook et communautés Discord discutant activement, partageant et explorant de nouvelles avenues de Stable Diffusion.

Ci-dessous, je partage également des liens vers quelques vidéos tutoriels DreamBooth que vous pouvez regarder sur Youtube –

J’espère que vous trouverez ce guide utile. Si vous avez des questions, n’hésitez pas à commenter ci-dessous, et nous essaierons de vous aider.

Auteur : Tarunabh Dutta est un réalisateur primé qui a réalisé plus de 45 projets au cours des 16 dernières années, y compris des longs métrages, des courts métrages, des clips musicaux, des documentaires et des publicités commerciales, sous sa bannière indépendante ‘TD Film Studio’.