Informatik

KI-System ermöglicht Bildmanipulation für Laien

Intuitive Veränderung digitaler Bilder durch „DragGAN“ erleichtert auch Deep Fakes

Bildmanipulation
Das KI-System DragGAN ermöglicht es, Fotos durch einfaches Klicken und Ziehen zu manipulieren. © Max-Planck-Institut für Informatik

Anklicken und Ziehen genügt: Eine neue künstliche Intelligenz macht das Verändern eines Gesichtsausdrucks, einer Pose oder des Hintergrunds von digitalen Bildern einfacher. Man muss nur noch die gewünschte Manipulation durch Klicken und Ziehen andeuten, schon passt das KI-System „DragGAN“ das Foto oder Filmbild entsprechend an. Dass dies auch Missbrauch und böswillige Manipulation durch Deep Fakes erleichtert, räumt allerdings auch das Forschungsteam ein.

Die Blickrichtung eines Mensch- oder Tierporträts anpassen? Die Perspektive auf einem Landschaftsbild verschieben? Oder die Körperhaltung und Mimik einer Person verändern? Solche Bildmanipulationen waren auch bisher schon möglich, erforderten aber meist einigen Aufwand und Kenntnisse in Bildbearbeitungsprogrammen.

Bildmanipulation per Klick und Drag

Das könnte sich nun ändern. Denn ein Forschungsteam um Xingang Pan vom Max-Planck-Institut für Informatik in Saarbrücken hat nun ein KI-gestütztes System entwickelt, das die Bildbearbeitung radikal vereinfacht. „Mit ‚DragGAN‘ entwickeln wir derzeit ein Werkzeug, dass es dank einer übersichtlichen Nutzeroberfläche auch Laien ermöglicht, komplexe Bildbearbeitungen vorzunehmen“, erklärt Pans Kollege Christian Theobalt.

Anders als bei Bildgeneratoren wie Midjourney oder DALL-E erstellt das neue KI-System keine neuen Fotos oder Filmbilder, sondern kann bestehende Fotos oder Filmbilder tiefgreifend verändern. „Nutzer müssen nur die Stellen im Foto markieren, die sie verändern möchten. Dann geben sie in einem Menü an, welcher Art die Veränderung sein soll – und mit nur wenigen Mausklicks kann jeder Laie dank KI-Unterstützung die Pose, den Gesichtsausdruck, die Blickrichtung oder den Blickwinkel auf einem Foto, beispielsweise von einem Haustier, anpassen“, erklärt Theobalt.

GAN: Zwei selbstlernende Netzwerke konkurrieren

Möglich wird dies dank einer speziellen Form der künstlichen Intelligenz, der sogenannten Generative Adversarial Networks (GAN). Ähnlich wie ChatGPT, DALL-E und andere KI-Systeme beruhen auch GANs auf selbstlernenden neuronalen Netzwerken. Und auch GANs sind generative Modelle und damit Systeme, die neue Inhalte generieren können. Der Unterschied liegt in der Art, wie ein GAN lernt: „Der Begriff Adversarial zeigt an, dass es sich um ein KI-Modell handelt, in dem zwei Netzwerke gegeneinander spielen“, erklärt Pan.

Das erste Netzwerk eines GAN ist der Generator, der Bilder oder in diesem Falle die veränderten Inhalte eines Bildes erstellt. Das zweite Netzwerk, der Discriminator, muss anschließend entscheiden, ob die Bilder echt sind oder vom Generator erstellt wurden. Das System wird dann so lange trainiert, bis der Discriminator die Bilder des Generators nicht mehr von echten Bildern unterscheiden kann.

Fehlendes wird täuschend realistisch ergänzt

In ersten Tests zeigte DragGAN bereits gute Leistungen beispielsweise beim Verändern der Pose oder des Gesichts von Tieren und Menschen, aber auch bei der Veränderung von Landschaften oder Fahrzeugen. Die Fähigkeit des KI-Systems, dabei generativ zu arbeiten und fehlende Inhalte zu ergänzen, ermöglicht zudem weitreichende Manipulationen: GANs können beispielsweise auch einen zuvor verdeckten Hintergrund ergänzen oder die gesamte Perspektive eines Bildes verschieben.

„In unserem Fall erweist sich diese Eigenschaft von GANs als vorteilhaft, wenn in einem Bild zum Beispiel die Blickrichtung eines Hundes geändert werden soll. Das GAN berechnet dann im Grunde das ganze Bild neu und antizipiert, wo welcher Pixel im Bild mit der neuen Blickrichtung landen muss“, erklärt Pan. „Ein Nebeneffekt davon ist, dass DragGAN auch Dinge berechnen kann, die vorher etwa durch die Kopfposition des Hundes verdeckt waren. Oder wenn der Nutzer die Zähne des Hundes darstellen will, kann er dem Hund auf dem Bild die Schnauze öffnen.“

Anwendungen auch in Videos

Auch im professionellen Kontext könnte DragGAN genutzt werden. So vereinfacht es beispielsweise die digitale Anprobe von Kleidung oder die Konfiguration eines Fahrzeugs: Mit wenigen Klicks lassen sich verschiedene Design-Konfigurationen und Blickwinkel durchspielen. Auch im Videobereich und beim Streamen könnte das KI-System eingesetzt werden. Bei der sogenannten Video-Frame-Prediction prognostiziert es beispielsweise das nächste Bild eines Videos, was den Datenaufwand beim Videostreaming reduzieren kann.

Die GANs können zudem niedrig aufgelöste Bilder hochskalieren und die Bildqualität verbessern, indem sie die Position der zusätzlichen Pixel der neuen Bilder vorhersagen. Das neue Tool der Saarbrücker Informatiker hat bereits wenige Tage nach Veröffentlichung ihres Preprints in der internationalen Tech-Community für Aufsehen gesorgt. Es gilt vielen als der nächste große Schritt in der KI-gestützten Bildbearbeitung.

Gefahr des Missbrauchs

Allerdings haben die Fähigkeiten von DragGAN auch Schattenseiten, wie auch Pan und sein Team einräumen. „Unsere Methode könnte auch missbraucht werden, um Bilder einer realen Person mit gefälschter Pose, Form oder Gesichtsausdruck zu erzeugen“, erklären sie. „Jede Anwendung oder Forschung, die unseren Ansatz nutzt, muss daher Persönlichkeitsrechte und Datenschutzregelungen strikt einhalten.“

Doch vergangene Deep Fakes haben bereits gezeigt, dass ein solcher Missbrauch nur schwer zu verhindern und zu kontrollieren ist. Je einfacher die Herstellung manipulierter Bildern wird, desto mehr Menschen werden diese Möglichkeit auch nutzen – zum Guten wie zum Schlechten. (arXiv Preprint, 2023; doi: 10.1145/3588432.3591500)

Quelle: Universität des Saarlandes

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Himmelsscheibe von Nebra

Wie die Himmelsscheibe geschmiedet wurde

War die frühe Venus doch keine zweite Erde?

UV-Strahlung in Mitteleuropa hat zugenommen

Wie viel Strom verbrauchen E-Autos wirklich?

Diaschauen zum Thema

Dossiers zum Thema

Bücher zum Thema

Die berechnete Welt - Leben unter dem Einfluss von Algorithmen Von Nora S. Stampfl

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Top-Clicks der Woche