Der Bochumer KI-Forscher Jonas Ricker beschäftigt sich in seiner Deepfake-Forschung mit einer speziellen Klasse von KI-Systemen zur Bilderzeugung, den sogenannten Diffusion Models. Während Generative Adversarial Networks (GAN) schon 2014 vorgestellt wurden, werden die Diffusionsmodelle erst seit etwa drei Jahren entwickelt und erforscht, mit herausragenden Ergebnissen.
Echt aussehende Bilder aus zufälligem Rauschen
„Das grundlegende Prinzip von Diffusion Models klingt zunächst verwunderlich“, sagt Ricker: „Ein echtes Bild wird Schritt für Schritt zerstört, indem zufälliges Rauschen hinzugefügt wird – daher der Name. Nach einigen hundert Schritten sind keine Bildinformationen mehr vorhanden, das Bild ist vollständig verrauscht. Das Ziel des Modells ist nun, diesen Prozess umzukehren, um das ursprüngliche Bild zu rekonstruieren – was ein schwieriges Problem darstellt.“
Der Schlüssel für die Generierung von Bilder nach diesem Verfahren liegt darin, das Bild nicht direkt vorherzusagen, sondern wie beim Verrauschen Schritt für Schritt vorzugehen. Mit einer ausreichend großen Anzahl an Trainingsdaten kann das Modell lernen, ein verrauschtes Bild ein kleines bisschen weniger verrauscht zu machen. Durch die wiederholte Anwendung lassen sich dann aus zufälligem Rauschen komplett neue Bilder erzeugen. „Ein Schwachpunkt dieser Methode ist die lange Laufzeit aufgrund der mehreren hundert Schritte“, schränkt Jonas Ricker ein. „Allerdings wurden schon Techniken zur Optimierung vorgestellt, und die Forschung macht ständig Fortschritte.“
Text-Bild-Generatoren für alle
Aufmerksamkeit haben die Diffusion Models vor allem durch die Text-zu-Bild-Generatoren erregt. Mit diesen lassen sich Bilder auf Basis einer Texteingabe erzeugen, mit erstaunlichem Detailgrad. Trainiert werden diese Modelle mithilfe unzähliger Bild-Text-Paare aus dem Internet. Sowohl diese Datensammlung als auch das eigentliche Training ist extrem rechen- und damit kostenintensiv. Bis vor kurzem waren daher nur große Unternehmen wie Google (Imagen) und OpenAI (DALL-E 2) imstande, diese Modelle in hoher Qualität zu trainieren – und die halten die Modelle weitestgehend unter Verschluss.
Mit „Stable Diffusion“ gibt es jedoch nun ein frei zugängliches Modell, das auf einer Open-Source-Software beruht und das auf dem eigenen Rechner laufen kann, vorausgesetzt der Computer verfügt über genug Leistung. Die Anforderungen sind jedoch mit einem Minimum von acht Gigabyte Grafikspeicher moderat. Noch einfacher geht es über Webseiten, auf denen man sich mithilfe von Stable Diffusion Bilder online erstellen lassen kann.
Stable Diffusion wird von einem Zusammenschluss mehrerer Forschungsgruppen und dem Unternehmen Stability AI vorangetrieben, beteiligt sind auch die Ludwigs-Maximilians-Universität München und der gemeinnützigen Forschungsverbund LAION. Er hat die bisher größte frei zugängliche Text-Bild-Datenbank für das Training von Text-zu-Bild-Generatoren erstellt, auf ihr beruht auch Stable Diffusion.
Hilfreich auch für die Deepfake-Erkennung
„Diese Modelle stehen nun Forschenden frei zur Verfügung, um ihre Stärken und Schwächen zu untersuchen, was eine weitere gemeinsame Entwicklung ermöglicht“, erklärt Jenia Jitsev vom ebenfalls an LAION beteiligten Jülich Supercomputing Centre. Gleichzeitig bietet der Open-Source-Bildgenerator Stable Diffusion Wissenschaftler auch die Chance, Software für die Deepfake-Erkennung gezielter auf diese Modelle und ihre Produkte abzustimmen.