Fortschritte der künstlichen Intelligenz machen es heute immer einfacher, Bilder und Videos zu fälschen und Deepfakes zu erzeugen. Die Bezeichnung für solche gefälschten, synthetisch erzeugten oder zusammenmontierten Aufnahmen zeigt an, dass sie mithilfe von „Deep Learning“ erstellt wurden, einer Variante des maschinellen Lernens.
Duo neuronaler Netzwerke perfektioniert die Fälschung
Ein Verfahren hinter der Erzeugung solcher Bilder nennt sich GAN für Generative Adversarial Networks. „Im Grunde sind solche Netzwerke immer zweigeteilt: Ein Teil generiert das Bild, ein anderer, der sogenannte Diskriminator, entscheidet, ob das generierte Bild echt aussieht oder nicht“, erklärt Jonas Ricker von der RUB. „Man kann sich das so vorstellen, als wäre der eine Teil ein Geldfälscher, der andere Teil die Polizei, die gefälschte von echten Banknoten unterscheiden muss.“
Diese Entscheidung trifft die künstliche Intelligenz auf der Basis vieler echter Bilder, die als Lerndatensatz in ihr Training einfließen. Am Anfang erzeugt der Generator dabei einfach zufällig irgendwelche Pixel. Im Verlauf lernt er durch die Rückmeldung des Diskriminators immer mehr, worauf es ankommt. Auch der Diskriminator wird immer besser darin, die Bilder des Generators von echten zu unterscheiden. Generator und Diskriminator trainieren sich quasi gegenseitig, was schlussendlich zu täuschend echten Bildern führt.
Wie kann man Deepfakes erkennen?
Entsprechend schwierig ist es, den Deepfakes auf die Spur zu kommen. Bei Videos prominenter Personen können charakteristische Bewegungsmuster bei der Erkennung von Fälschungen helfen, wie Forschende Anfang 2023 berichteten. Voraussetzung dafür ist allerdings, dass es von der fraglichen Person genügend Videomaterial gibt, um ein als Deepfake-Fahnder eingesetztes KI-System vorab entsprechend zu trainieren.
Bei Videos lässt sich auch der Puls des Menschen nutzen, um künstlich erstellte Personen zu identifizieren. So entwickelten Forschende 2020 ein KI-basiertes System, das anhand subtiler Veränderungen im Gesicht und der Haut das Pulsieren des Blutes erkennen kann. Hat ein im Video gezeigtes Gesicht dieses Signal, handelt es sich wahrscheinlich um einen echten Menschen, fehlt s hingegen, ist das Bild KI-generiert.
Verräterische Gittermuster
Eine weitere Möglichkeit, mittels GAN gefälschten Fotos auf die Spur zu kommen, stellte 2020 Rickers ehemaliger Kollege Joel Frank vor. Der Schlüssel liegt demnach in den sogenannten Frequenzen. Dabei werden Hell-Dunkel-Unterschiede und Bilddetails als Summe vieler verschiedener Kosinus-Funktionen ausgedrückt. Natürliche Bilder bestehen nach dieser Umwandlung größtenteils aus niederfrequenten Funktionen. Hohe Frequenzen können aber zum Beispiel bei Haaren vorkommen.
Wenn wir solche Bilder betrachten, nehmen wir die hohen Frequenzen meist nicht bewusst wahr. Ein Bild, bei dem hohe Frequenzen verändert wurden, sieht für uns daher fast genauso aus wie das originale Bild. Die Technik lässt sich aber nicht so leicht blenden: „Bei hohen Frequenzen gibt es bei GAN-erzeugten Bildern charakteristische Abweichungen von echten Fotos“, erklärt Jonas Ricker. Die hohen Frequenzen kommen bei künstlich erzeugten Bildern übermäßig häufig vor.
Dadurch wird in der Frequenzdarstellung von gefälschten Bildern beispielsweise eine typische Gitterstruktur sichtbar. „Unsere Experimente haben ergeben, dass diese Artefakte nicht nur bei GANs auftreten, sondern dass es sich um ein strukturelles Problem aller Deep-Learning-Algorithmen handelt“, erklärt Frank. „Die Frequenzanalyse ist somit ein effektiver Weg, computergenerierte Bilder automatisiert zu erkennen.“