Microsofts neuer KI-Bot erstellt Zeichnungen basierend auf Textbeschreibungen

Microsofts neues KI-Tool zeichnet schöne Bilder aus Text

Die Technologie der Künstlichen Intelligenz (KI) hat sich in den letzten Jahren unglaublich weiterentwickelt und wird als das nächste große Ding der Zukunft angepriesen.

Ein weiterer Schritt in diese Richtung ist Microsoft Corp., das in mehrere Projekte im Zusammenhang mit KI investiert hat. Der Technologieriese hat ein neues KI-Tool geschaffen, das er einen „Zeichen-Bot“ nennt, der auf einem Generativen Gegenspieler-Netzwerk (GAN) basiert, das auf zwei maschinellen Lernmodellen läuft. Der Bot nutzt das GAN, um Bilder allein auf der Grundlage einer beschreibenden Bildunterschrift zu generieren.

Ein maschinelles Lernmodell generiert Bilder aus Textbeschreibungen, während das andere Modell, bekannt als Diskriminator, Textbeschreibungen verwendet, um die Authentizität der generierten Bilder zu beurteilen, sodass es nicht getäuscht werden kann. Durch die Zusammenarbeit drängt der Diskriminator den Generator zur Perfektion. Durch die Verwendung der GAN-Technik achtet die KI genau auf einzelne Wörter, wenn sie Bilder aus bildunterschriftenähnlichen Textbeschreibungen generiert, wodurch eine dreifache Steigerung der Bildqualität im Vergleich zu früheren Text-zu-Bild-Methoden erreicht wird.

Laut Microsoft ist der Bot sogar in der Lage, Details beim Zeichnen zu imaginieren, die im Text nicht speziell erwähnt werden, was darauf hinweist, dass die KI eine „künstliche Vorstellungskraft“ enthält.

Zum Beispiel wurde das untenstehende Bild vom Zeichen-Bot einfach aus der Beschreibung „ein Vogel mit einem gelben Körper, schwarzen Flügeln und einem kurzen Schnabel“ erstellt. Obwohl im gegebenen Text nicht angegeben, entschied sich die KI, den Vogel auf einem Ast zu platzieren, indem sie ihre künstliche Vorstellungskraft nutzte. Nicht nur Vögel, das KI-Tool kann alles zeichnen, von gewöhnlichen Landschaftsszenen, wie weidenden Vieh, bis hin zu Bizarrem, wie einem schwebenden Doppeldeckerbus.

„Wenn Sie zu Bing gehen und nach einem Vogel suchen, erhalten Sie ein Vogelbild. Aber hier werden die Bilder vom Computer, Pixel für Pixel, von Grund auf neu erstellt“, sagte Xiaodong He, ein leitender Forscher und Forschungsleiter im Deep Learning Technology Center im Forschungszentrum von Microsoft in Redmond, Washington, in einem Bericht über das Projekt. „Diese Vögel existieren möglicherweise nicht in der realen Welt – sie sind nur ein Aspekt der Vorstellungskraft unseres Computers von Vögeln.“

Der Microsoft-Forscher Pengchuan Zhang sagte über die Forschung: „Sie benötigen Ihre maschinellen Lernalgorithmen, die Ihre künstliche Intelligenz ausführen, um einige fehlende Teile der Bilder zu imaginieren. Aus den Daten lernt der maschinelle Lernalgorithmus diesen gesunden Menschenverstand, wo der Vogel hingehört.“

Der Forschungsbericht, der noch einer wissenschaftlichen Überprüfung unterzogen werden muss, könnte als Skizzenassistent für Maler und Innenarchitekten fungieren, sagt Microsoft. Herr He stellt sich vor, dass die Technologie animierte Filme basierend auf Drehbüchern generieren könnte, was die Arbeit von Animationsfilmemachern „erweitern“ würde, indem einige der manuellen Arbeiten, die damit verbunden sind, beseitigt werden.

Microsofts neues KI-Tool zeichnet schöne Bilder aus Text

Erhalte neue Beiträge in deinem Posteingang.