Forscher haben ein System entwickelt, mit dem man in Sekundenschnelle aus Texten Bilder erzeugen kann – ohne komplizierte Handhabung oder Hochleistungsrechner. Basis ist ein KI-Modell, das einfache Textanweisungen in detaillierte Bilder umwandeln, die Auflösung unscharfer Fotos erhöhen oder Objekte aus Bildern entfernen kann. Trotz dieser Leistungsfähigkeit ist das Modell nur wenige Gigabyte groß und kann auch mithilfe einer normalen Grafikkarte zum Laufen gebracht werden.
Tiere mit skurriler Bekleidung, Samurai-Krieger auf fremden Planeten oder Albert Einstein im Stil von Picasso gemalt: Computergenerierte Bilder sind im Internet längst keine Seltenheit mehr. Text-zu-Bild-Generatoren wie DALL-E 2 oder Googles Imagen sind sogar in der Lage, einfache Textbeschreibungen in realistische Fotos oder Gemälde umzuwandeln oder nach Textanweisung bereits bestehende Bilder abzuändern.
Basis dieser Technologien ist künstliche Intelligenz in Form neuronaler Netzwerke. Diese werden mit Milliarden von Trainingsbildern gefüttert, durch die sie lernen, das Abgebildete mit Begriffen zu verbinden und zu kategorisieren. Auf dieser Grundlage kann das KI-System dann die Begriffe wiedererkennen und die dazu passenden Abbildungen generieren.
Bilder werden aufgelöst
Der aktuell wohl vielversprechendste Codierungsansatz ist dabei eine sogenannte Diffusions-Methode, bei der die Bilder in mehreren Schritten immer weiter verpixelt und dadurch aufgelöst werden, bis nichts mehr von ihnen übrig ist. Während die Komplexität der codierten Pixel immer geringer wird, sorgen die sogenannten Autoencoder des neuronalen Netzes dafür, dass nur die relevantesten Informationen gespeichert werden und der Datensatz so möglichst effizient wird.