So trainierst du die Stable Diffusion KI mit deinem Gesicht, um Kunst mit DreamBooth zu erstellen

Gastbeitrag von Tarunabh Dutta.

Wenn 2021 das Jahr der textbasierten KI-Sprachmodelle war, hat 2022 einen Sprung in die Text-zu-Bild-KI-Modelle gemacht. Es gibt heute viele Text-zu-Bild-KI-Modelle, die hochwertige Bilder erzeugen können. Stable Diffusion ist eine der beliebtesten und bekanntesten Optionen. Es ist ein schnelles und stabiles Modell, das konsistente Ergebnisse liefert.

wie man stable diffusion trainiert

Der Prozess der Bilderzeugung ist immer noch etwas mysteriös, aber es ist klar, dass Stable Diffusion hervorragende Ergebnisse liefert. Es kann verwendet werden, um Bilder aus Text zu generieren oder bestehende Bilder zu verändern. Die verfügbaren Optionen und Parameter ermöglichen viel Anpassung und Kontrolle über das endgültige Bild.

Während es relativ einfacher ist, mit Bildern von Prominenten und bekannten Persönlichkeiten zu arbeiten, nur wegen des bereits verfügbaren Bildmaterials, ist es nicht so einfach, die KI dazu zu bringen, mit deinem eigenen Gesicht zu arbeiten. Die Logik sagt, dass man das KI-Modell mit seinen Bildern füttert und es dann seine Magie entfalten lässt, aber wie genau kann man das tun?

In diesem Artikel werden wir versuchen zu demonstrieren, wie man ein Stable Diffusion-Modell mit DreamBooth-Textinversion anhand eines Bildreferenz trainiert, um KI-Darstellungen deines eigenen Gesichts oder eines anderen Objekts zu erstellen und Ergebnisfotos mit unglaublichen Ergebnissen, Präzision und Konsistenz zu generieren. Wenn es zu technisch klingt, bleib dran, und wir werden versuchen, es so anfängerfreundlich wie möglich zu gestalten.

Was ist Stable Diffusion?

Lass uns mit den Grundlagen beginnen. Das Stable Diffusion-Modell ist ein hochmodernes Text-zu-Bild-Maschinenlernmodell, das auf einem großen Bilddatensatz trainiert wurde. Es ist teuer zu trainieren, die Kosten belaufen sich auf etwa 660.000 $. Das Stable Diffusion-Modell kann jedoch verwendet werden, um Kunst mit natürlicher Sprache zu erzeugen.

Deep Learning Text-zu-Bild-KI-Modelle werden aufgrund ihrer Fähigkeit, Text genau in Bilder zu übersetzen, immer beliebter. Dieses Modell ist kostenlos nutzbar und kann auf Hugging Face Spaces und DreamStudio gefunden werden. Die Modellgewichte können auch heruntergeladen und lokal verwendet werden.

Stable Diffusion verwendet einen Prozess namens „Diffusion“, um Bilder zu erzeugen, die dem Textprompt ähnlich sehen.

Kurz gesagt, der Stable Diffusion-Algorithmus nimmt eine textuelle Beschreibung und erzeugt ein Bild basierend auf dieser Beschreibung. Das erzeugte Bild wird dem Text ähnlich sehen, aber kein exaktes Abbild sein. Die Alternativen zu Stable Diffusion sind OpenAI’s Dall-E und Googles Imagen-Modelle.

Verwandte Lektüre: 9 Beste KI-Kunstgenerator-Apps für iPhone und Android

Anleitung zum Trainieren der Stable Diffusion KI mit deinem Gesicht zur Erstellung von Bildern mit DreamBooth

Heute werde ich demonstrieren, wie man ein Stable Diffusion-Modell mit meinem Gesicht als anfänglicher Referenz trainiert, um Bilder mit einem hochgradig konsistenten und genauen Stil zu erzeugen, der sowohl originell als auch frisch ist.

Zu diesem Zweck werden wir ein Google Colab namens DreamBooth verwenden, um Stable Diffusion zu trainieren.

Bevor wir dieses Google Colab starten, müssen wir bestimmte Inhaltsressourcen vorbereiten.

Phase 1: Google Drive mit ausreichend freiem Speicherplatz

Dafür benötigst du ein Google Drive-Konto mit mindestens 9 GB freiem Speicherplatz.

Ein kostenloses Google Drive-Konto bietet 15 GB kostenlosen Speicherplatz, was für diese Aufgabe ausreicht. Du kannst also ein brandneues (wegwerfbares) Gmail-Konto nur für diesen Zweck erstellen.

google drive

Phase 2: Referenzbilder zum Trainieren der KI

Zweitens musst du mindestens ein Dutzend Porträts deines Gesichts oder eines beliebigen Zielobjekts bereit haben, die als Referenzen verwendet werden.

Bitte stelle sicher, dass die Gesichtszüge in den aufgenommenen Bildern sichtbar und ausreichend beleuchtet sind. Vermeide harte Schatten, insbesondere im Gesicht.
Darüber hinaus sollte das Motiv der Kamera zugewandt sein oder ein Profilbild haben, bei dem beide Augen und alle Gesichtszüge deutlich sichtbar sind.
Die Kamera sollte in der Lage sein, hochqualitative Gesichtszüge aufzunehmen. Die beste Option ist eine professionelle DSLR- oder spiegellose Kamera. Eine Smartphone-Kamera von ausgezeichneter Qualität kann ebenfalls ausreichen.
Die Komposition sollte im Zentrum des Rahmens positioniert sein, mit etwas Platz über dem Kopf.
Als Eingabebilder sollten mindestens zwölf Nahaufnahmen des Gesichts, fünf Aufnahmen im Halbprofil, die vom Kopf bis über die Taille reichen, und etwa drei Ganzkörperfotos ausreichen.
Mindestens zwanzig Referenzfotos sollten für diesen Zweck ausreichend sein.

birme faces

In meinem Fall habe ich eine Sammlung von etwa 50 Selbstporträts aufgenommen und diese mit dem Online-Tool – Birme auf 512 x 512 Pixel zugeschnitten. Du kannst auch einen anderen Bildbearbeitungseditor für diesen Zweck verwenden.

Bitte beachte, dass das endgültige Ausgabebild für das Web optimiert und die Dateigröße mit minimalem Qualitätsverlust reduziert werden muss.

Phase 3: Google Colab

Die Google Colab-Laufzeit kann jetzt ausgeführt werden.

Es gibt sowohl kostenlose als auch kostenpflichtige Versionen der Google Colab-Plattform. Dreambooth kann in der kostenlosen Version ausgeführt werden, aber die Leistung ist in der Colab Pro (kostenpflichtigen) Version, die die Nutzung einer Hochgeschwindigkeits-GPU priorisiert und mindestens 15 GB VRAM für die jeweilige Aufgabe zuweist, erheblich schneller und konsistenter.

Wenn du ein paar Dollar ausgeben möchtest, ist ein $10 Colab Pro-Abonnement, das jeden Monat 100 Recheneinheiten beinhaltet, mehr als ausreichend für diese Sitzung.

google colab signup

Du hast auch Zugriff auf zusätzlichen Arbeitsspeicher und GPUs, die relativ leistungsfähiger und schneller sind.

Lass mich das wiederholen: Du musst KEIN technischer Spezialist sein, um dieses Colab auszuführen. Du benötigst auch keine vorherige Programmiererfahrung.

Sobald du dich bei Google Colab (kostenlose oder kostenpflichtige Version) angemeldet hast, melde dich mit deinen Anmeldedaten an und gehe zu diesem Link, um DreamBooth Stable Diffusion zu öffnen.

Ein Google Colab hat „Laufzeit“-Abschnitte oder Zellen mit klickbaren Play-Buttons auf der linken Seite, die der Reihe nach angeordnet sind. Um die Laufzeit von oben zu starten, klicke einfach nacheinander auf die Play-Buttons. Jedes Segment besteht aus einer Laufzeit, die ausgeführt werden muss. Wenn du auf einen Play-Button klickst, wird der entsprechende Abschnitt als Laufzeit ausgeführt. Nach einiger Zeit erscheint ein grünes Häkchen links vom Play-Button, um anzuzeigen, dass die Laufzeit erfolgreich ausgeführt wurde.

Bitte stelle sicher, dass du manuell nur eine Laufzeit gleichzeitig ausführst und zum nächsten „Laufzeit“-Abschnitt erst gehst, wenn die aktuelle Laufzeit abgeschlossen ist.

Im Laufzeitbereich der oberen Menüleiste hast du die Möglichkeit, alle Laufzeiten gleichzeitig auszuführen. Dies wird jedoch nicht empfohlen.

change runtime type dreambooth

Darunter befindet sich eine Option mit der Bezeichnung „Laufzeittyp ändern“. Wenn du ein Pro-Abonnement hast, kannst du eine „Premium“-GPU und hohen RAM für deine Ausführung auswählen und speichern.

choose high ram

Jetzt bist du bereit, das DreamBooth Colab zu starten.

run dream booth

10 Schritte zum erfolgreichen Abschluss eines trainierten KI-Modells auf DreamBooth

SCHRITT 1: Entscheide dich für die GPU und VRAM

Der erste Schritt besteht darin, den Typ der verfügbaren GPU und VRAM zu bestimmen. Pro-Nutzer haben Zugriff auf schnelle GPUs und verbesserten VRAM, der stabiler ist.

determine gpu vram

Sobald du auf den Play-Button klickst, wird eine Warnung angezeigt, da die Entwickler-Website GitHub aufgerufen wird. Du musst nur auf „ Trotzdem ausführen “ klicken, um fortzufahren.

choose vram

SCHRITT 2: DreamBooth ausführen

Im nächsten Schritt musst du bestimmte Anforderungen und Abhängigkeiten installieren. Du musst nur auf den Play-Button klicken und es ausführen lassen.

dreambooth play

SCHRITT 3: Bei Hugging Face anmelden

Nachdem du auf den Play-Button geklickt hast, musst du dich in deinem Hugging Face-Konto anmelden. Du kannst ein kostenloses Konto erstellen, wenn du noch keines hast. Nach der Anmeldung navigiere von der oberen rechten Ecke zu deiner Einstellungsseite.

hugging face settings

Klicke dann auf den Abschnitt „ Zugriffstoken “ und auf die Schaltfläche „ Neues erstellen “, um ein neues „Zugriffstoken“ zu generieren und es nach Belieben umzubenennen.

access tokens

Kopiere das Zugriffstoken, gehe dann zurück zum Colab-Tab und gib es in das bereitgestellte Feld ein, und klicke dann auf „ Anmelden “.

SCHRITT 4: xformers installieren

In diesem Schritt kannst du auf die Laufzeit klicken, um xformers zu installieren, indem du einfach auf den Play-Button klickst.

install xformers

SCHRITT 5: Google Drive verbinden

Nachdem du auf den Play-Button geklickt hast, wirst du in einem neuen Popup-Fenster um Erlaubnis gebeten, auf dein Google Drive-Konto zuzugreifen. Klicke auf „Erlauben“, wenn du nach Erlaubnissen gefragt wirst.

access google drive folder

Nachdem du die Berechtigungen erteilt hast, musst du bestätigen, dass „ in Google Drive speichern “ ausgewählt ist. Du musst auch einen neuen Namen für die Variable „ KLASSENNAME “ festlegen. Wenn du Referenzbilder einer Person einreichen möchtest, gib einfach „person“, „mann“ oder „frau“ ein. Wenn deine Referenzbilder von einem Hund sind, schreibe „hund“ und so weiter. Du kannst die übrigen Felder unverändert lassen. Alternativ kannst du das Eingabeverzeichnis – „INSTANZVERZEICHNIS“ oder das Ausgabeverzeichnis – „AUSGABEVERZEICHNIS“ umbenennen.

dreambooth settings

SCHRITT 6: Referenzfotos hochladen

Nachdem du im vorherigen Schritt auf den Play-Button geklickt hast, siehst du die Option, alle deine Referenzfotos hochzuladen und hinzuzufügen.

upload images

Ich empfehle mindestens 6 und maximal 20 Fotografien. Siehe „PHASE 2“ oben für eine kurze Erklärung, wie du das beste Referenzbild basierend auf der Aufnahme des Motivs auswählen kannst.

select images

Sobald alle deine Bilder hochgeladen sind, kannst du sie in der linken Spalte sehen. Es gibt ein Ordnersymbol. Wenn du darauf klickst, kannst du die Ordner und Unterordner anzeigen, in denen deine Daten derzeit gespeichert sind.

Im Datenverzeichnis kannst du dein Eingabeverzeichnis sehen, in dem alle deine hochgeladenen Fotos gespeichert sind. In meinem Fall wird es als „sks“ (Standardname) bezeichnet.

Bitte beachte auch, dass dieser Inhalt nur vorübergehend in deinem Google Colab-Speicher und nicht auf Google Drive gespeichert ist.

input directory

start training

SCHRITT 7: KI-Modell mit DreamBooth trainieren

Dies ist der wichtigste Schritt, da du ein neues KI-Modell basierend auf all deinen hochgeladenen Referenzfotos mit DreamBooth trainieren wirst.

train images dreambooth

Du musst dich nur auf zwei Eingabefelder konzentrieren. Der erste Parameter ist „—instance prompt“. Hier musst du einen sehr einzigartigen Namen eingeben. In meinem Fall werde ich meinen Vornamen gefolgt von meinen Initialen verwenden. Die gesamte Idee ist, den vollständigen Namen einzigartig und präzise zu halten.

Das zweite wichtige Eingabefeld ist der Parameter „—class prompt“. Du musst ihn umbenennen, um mit dem übereinzustimmen, was du in „SCHRITT 4“ verwendet hast. In meinem Fall habe ich den Begriff „mann“ verwendet. Also werde ich ihn in dieses Feld erneut eingeben und alle vorherigen Einträge überschreiben.

dreambooth parameters

Die restlichen Felder können unberührt bleiben. Ich habe beobachtet, dass Benutzer experimentieren, indem sie Felder wie „—num class images“ auf 12 und „—max train steps“ auf 1000, 2000 oder sogar höher ändern. Bitte denke jedoch daran, dass das Ändern dieser Felder dazu führen kann, dass das Colab keinen Speicher mehr hat und abstürzt, was bedeutet, dass du von vorne beginnen musst. Daher ist es ratsam, sie beim ersten Versuch nicht zu bearbeiten. Du könntest in Zukunft mit ihnen experimentieren, nachdem du genügend Erfahrung gesammelt hast.

Sobald du diese Laufzeit ausführst, indem du auf den Play-Button klickst, beginnt das Colab, die erforderlichen ausführbaren Dateien herunterzuladen, und kann dann mit deinen Referenzbildern trainieren.

Das Training des Modells dauert zwischen 15 Minuten und über einer Stunde. Du musst geduldig sein und den Fortschritt verfolgen, bis die Laufzeit abgeschlossen ist. Wenn dein Google Colab zu lange inaktiv ist, könnte es zurückgesetzt werden. Also halte den Fortschritt im Auge und klicke gelegentlich auf den Tab.

colab executing

execution complete

SCHRITT 8: KI-Modell in ckpt-Format konvertieren

Nach Abschluss des Trainings hast du die Möglichkeit, das trainierte Modell in eine Datei im ckpt-Format zu konvertieren, die direkt mit Stable Diffusion kompatibel ist.

Die Konvertierung kann in zwei Laufzeitphasen durchgeführt werden. Die erste ist „ Download-Skript “, und die zweite ist „ Konvertierung ausführen “, bei der du die Möglichkeit hast, die Downloadgröße des trainierten Modells zu reduzieren. Dies wird jedoch die Bildqualität erheblich beeinträchtigen.

Um die ursprüngliche Größe beizubehalten, muss die Option „ fp16 “ deaktiviert bleiben.

run conversion

Am Ende dieser speziellen Laufzeit wird eine Datei namens „ model.ckpt “ in deinem verbundenen Google Drive gespeichert.

model ckpt

Wir können diese Datei für zukünftige Verwendung speichern, da deine Laufzeiten sofort gelöscht werden, wenn du den DreamBooth Colab-Browser-Tab schließt. Wenn du später die Colab-Version von DreamBooth erneut öffnest, musst du von vorne beginnen.

Wenn du die trainierte Modell-Datei in deinem Google Drive speicherst, kannst du sie später abrufen, um sie mit deiner lokal installierten Stable Diffusion GUI, DreamBooth oder beliebigen Stable Diffusion Colab-Notebooks zu verwenden, die die Datei „model.ckpt“ benötigen, um die Laufzeit effektiv auszuführen. Du kannst sie auch auf deinen lokalen Festplatten für späteren Gebrauch speichern.

SCHRITT 9: Bereite dich auf den Textprompt vor

Die nächsten beiden Laufzeitprozesse unter der Kategorie „Inference“ bereiten das neu trainierte Modell für den textuellen Prompt vor, der zur Bilderzeugung verwendet wird. Drücke einfach den Play-Button für jede Laufzeit, und es wird in wenigen Minuten abgeschlossen sein.

inference

SCHRITT 10: KI-Bilder generieren

Dies ist der letzte Schritt, in dem du die textuellen Prompts eingeben kannst, und die KI-Bilder werden generiert.

Du musst den genauen Namen von „instance_prompt“ und „–class_prompt“ zusammen aus SCHRITT 6 am Anfang des Textprompts verwenden. Zum Beispiel habe ich in meinem Fall „ein Porträt von tarunabhtd mann, digitale Malerei“ verwendet, um neue KI-Bilder zu generieren, die mir ähneln.

image prompt

image generation

Unten siehst du einige Bildresultate, die mit dem trainierten Modell von DreamBooth generiert wurden.

sample generated images

Experimentiere mit Prompts, um die besten Ergebnisse zu erzielen

Wenn du die oben beschriebenen Schritte sorgfältig befolgst, wirst du in der Lage sein, KI-Bilder zu generieren, die den Gesichtszügen in deinen Referenzbildern sehr ähnlich sind. Diese Methode erfordert nur die Online-Plattform Google Colab, um eine aktualisierte Version der KI-Technologie für die textuelle Inversion auszuführen.

Für bessere Ideen für Textprompts kannst du Seiten wie –

OpenArt KI
Krea KI
Lexica Kunst

Du musst auch die Kunst des Verfassens besserer und effektiverer Textprompts mit einer Vielzahl von künstlerischen Stilen und verschiedenen Kombinationen erlernen. Ein guter Ausgangspunkt wäre das Stable Diffusion SubReddit.

Reddit hat eine große Community, die sich der Stable Diffusion widmet. Es gibt auch eine Reihe von Facebook-Gruppen und Discord-Communities, die aktiv diskutieren, teilen und neue Wege der Stable Diffusion erkunden.

Unten teile ich auch Links zu einigen DreamBooth-Tutorial-Videos, die du auf Youtube ansehen kannst –

Ich hoffe, du findest diesen Leitfaden nützlich. Wenn du Fragen hast, hinterlasse gerne einen Kommentar unten, und wir werden versuchen, dir zu helfen.

Autor: Tarunabh Dutta ist ein preisgekrönter Filmemacher, der in den letzten 16 Jahren mehr als 45 Projekte abgeschlossen hat, darunter Spielfilme, Kurzfilme, Musikvideos, Dokumentarfilme und kommerzielle Werbung, unter seinem unabhängigen Banner ‘TD Film Studio’.