Der Bochumer KI-Forscher Jonas Ricker beschäftigt sich in seiner Deepfake-Forschung mit einer speziellen Klasse von KI-Systemen zur Bilderzeugung, den sogenannten Diffusion Models. Während Generative Adversarial Networks (GAN) schon 2014 vorgestellt wurden, werden die Diffusionsmodelle erst seit etwa drei Jahren entwickelt und erforscht, mit herausragenden Ergebnissen.

Echt aussehende Bilder aus zufälligem Rauschen
„Das grundlegende Prinzip von Diffusion Models klingt zunächst verwunderlich“, sagt Ricker: „Ein echtes Bild wird Schritt für Schritt zerstört, indem zufälliges Rauschen hinzugefügt wird – daher der Name. Nach einigen hundert Schritten sind keine Bildinformationen mehr vorhanden, das Bild ist vollständig verrauscht. Das Ziel des Modells ist nun, diesen Prozess umzukehren, um das ursprüngliche Bild zu rekonstruieren – was ein schwieriges Problem darstellt.“
Der Schlüssel für die Generierung von Bilder nach diesem Verfahren liegt darin, das Bild nicht direkt vorherzusagen, sondern wie beim Verrauschen Schritt für Schritt vorzugehen. Mit einer ausreichend großen Anzahl an Trainingsdaten kann das Modell lernen, ein verrauschtes Bild ein kleines bisschen weniger verrauscht zu machen. Durch die wiederholte Anwendung lassen sich dann aus zufälligem Rauschen komplett neue Bilder erzeugen. „Ein Schwachpunkt dieser Methode ist die lange Laufzeit aufgrund der mehreren hundert Schritte“, schränkt Jonas Ricker ein. „Allerdings wurden schon Techniken zur Optimierung vorgestellt, und die Forschung macht ständig Fortschritte.“
Text-Bild-Generatoren für alle
Aufmerksamkeit haben die Diffusion Models vor allem durch die Text-zu-Bild-Generatoren erregt. Mit diesen lassen sich Bilder auf Basis einer Texteingabe erzeugen, mit erstaunlichem Detailgrad. Trainiert werden diese Modelle mithilfe unzähliger Bild-Text-Paare aus dem Internet. Sowohl diese Datensammlung als auch das eigentliche Training ist extrem rechen- und damit kostenintensiv. Bis vor kurzem waren daher nur große Unternehmen wie Google (Imagen) und OpenAI (DALL-E 2) imstande, diese Modelle in hoher Qualität zu trainieren – und die halten die Modelle weitestgehend unter Verschluss.