Informatik

KI: Mehr Transparenz für Text-Bild-Generatoren

Größte unabhängige Text-Bild-Datenbank für das Training von KI-Systemen erstellt

Zukunftszenario
Dieses Zukunftsszenario mit fliegenden Autos wurde vom KI-Bildgenerator Stable Diffusion nach dem Training mit den freien LAION-Datensätzen erstellt. © LAION/ Stable Diffusion

Ob ChatGPT, Dall-E oder BARD: Bisher entstehen solche künstlichen Intelligenzen größtenteils hinter verschlossenen Türen – es bleibt meist unbekannt, welche Trainingsdaten und -methoden im Einzelnen genutzt wurden. Das erschwert die Überprüfung der KI-Systeme und macht die KI-Systeme intransparent. Deshalb haben nun Forschende des LAION-Verbunds die bisher größte frei zugängliche Text-Bild-Datenbank für die Entwicklung unabhängiger KI-Modelle erstellt. Das Ergebnis kann man online testen.

Generative KI-Systeme wie ChatGPT, DALL-E, Imogen und Co sorgen seit einiger Zeit für Furore. Denn diese auf neuronalen Netzen basierenden Algorithmen können auf Kommando maßgeschneiderte Texte oder Bilder produzieren – in nahezu jedem gewünschten Stil, zu jedem gewünschten Thema und in beeindruckender Perfektion. Selbst Medizinertests oder Juraprüfungen absolvieren diese selbstlernenden, an Milliarden Daten trainierten künstlichen Intelligenzen scheinbar mühelos, selbst wissenschaftliche Gutachter fallen auf ihre Erzeugnisse herein.

Jenia Jitsev
Dr. Jenia Jitsev vom Jülich Supercomputing Centre (JSC) war an der Entwicklung des LAION-Datensatzes und dem Training des Text-Bild-Generators „Stable Diffusion auf Basis dieser Daten beteiligt. © Forschungszentrum Jülich / Ralf-Uwe Limbach

Offene Text-Bild-Datenbank für KI-Training

Doch die KI-Revolution findet größtenteils hinter verschlossenen Türen statt. Hinter den meisten dieser Systeme stehen Hightech-Unternehmen wie Google, Microsoft oder OpenAI, die nicht offenlegen, welche Daten und Methoden für das Trainings ihrer KI-Systeme verwendet wurden. Das macht es jedoch für unabhängige Wissenschaftler schwer, diese KI-Modelle zu überprüfen und beispielsweise nach Wegen zu suchen, um ethisch fragwürdige oder schlicht falsche Outputs zu vermeiden.

Deshalb haben Wissenschaftler nun eine Alternative entwickelt: Im gemeinnützigen Forschungsverbund LAION haben sie die bisher größte frei zugängliche Text-Bild-Datenbank für das Training von Text-zu-Bild-Generatoren erstellt. Mit dabei sind Jenia Jitsev und Mehdi Cherti vom Jülich Supercomputing Centre (JSC). Sie erklären im Interview, welches Potenzial in den Text-Bild-KIs steckt und wie weit ihre Open-Source-KI schon ist.

Wie universell sind die aktuellen Text-Bild-KIs? Können die mehr, als nur schöne Bilder zu generieren?

Mehdi Cherti: Ja, absolut, die Einsatzmöglichkeiten sind schier endlos. Die Anwendungen reichen von den Materialwissenschaften über die Entwicklung neuer Batteriekomponenten bis hin zur Vorhersage der Sonnenaktivität anhand von Satellitenbildern.

Ein wichtiger Bereich sind auch Anwendungen in der Medizin. Schon ältere, einfachere Modelle waren Dermatologen bei der Auswertung von Bildern zur Erkennung von Hautkrebs überlegen. Es gibt bereits eine entsprechende praktische Anwendung, die läuft sogar auf dem Smartphone. Die jüngsten Entwicklungen im Language-Vision-Learning eröffnen aber Perspektiven, die noch weit darüber hinausgehen. So kann man verschiedene Formen der medizinischen Bildgebung wie Röntgendiagnostik, Ultraschall, MRT und so weiter nutzen, um Text-Bild-Modelle zu schaffen, die Ärzte oder auch Laien bei komplexen Diagnosen unterstützen.

Ein weiteres Beispiel ist die Navigation von Robotern. In einer kürzlich erschienen Arbeit wurde mit einem Modell, das wir auch zur Validierung unserer Daten nutzen, die generische Steuerung eines Roboters ermöglicht. Der Roboter findet sich selbstständig in seiner Umgebung zurecht und folgt einer Route auf der Grundlage frei formulierter Anweisungen. Die damit verbundenen Fähigkeiten sind auch wichtig für das autonome Fahren, wenn es darum geht, Objekte auf und neben der Straße zu identifizieren oder Fahrzeuge ans Ziel zu führen.

Die Modelle können neben Bildern auch Sounds bearbeiten, beispielsweise um Musik zu komponieren oder Stimmen zu erkennen. Dabei wird ausgenutzt, dass sich Töne auf einem Computer als bildähnliche Objekte darstellen lassen, als sogenanntes Spektrogramm. Oder man kann den neuronalen Netzwerken beibringen, aus einigen groben 2D-Skizzen und einem Text 3D-Modelle zu erstellen, zum Beispiel von Gebäuden, was die Arbeit von Designern enorm erleichtern kann. Diese können sich dann noch mehr auf kreative Aspekte und weniger auf technische Routinen konzentrieren.

Was ist das „Geheimnis“ dieser verblüffenden neuen Fähigkeiten? Wie unterscheiden sich die neuen KI-Modelle von früheren Ansätzen?

Jenia Jitsev: Ein wichtiger Aspekt ist das sogenannte selbstüberwachte Lernen, mit dem die Modelle Sprache und Sehen gemeinsam erlernen. Frühere KI-Ansätze lernten entweder Bilder zu erkennen oder Texte, aber nicht beides gleichzeitig. Dazu benötigte man viele, gut kuratierte Trainingsdaten. Jetzt können dagegen sowohl die Bild- als auch die Sprachdaten inkonsistent und teilweise fehlerhaft sein. Dass es funktioniert, ist letztlich eine Frage der Skalierung.

Wenn man ein Modell für maschinelles Lernen nimmt und damit auf immer größere Skalen geht, dann passieren zwei Dinge. Erstens verbessern sich einige Funktionen messbar schon auf kleineren Skalen. Zweitens kann es passieren, dass in den oberen Skalenbereichen plötzlich weitere Funktionalitäten auftauchen, die auf den unteren und mittleren Skalen überhaupt nicht vorhanden sind. Indem man also die Trainingsdauer für das Netzwerkmodell und die Größe des Datensatzes erhöht, verbessert sich die Performance und die Genauigkeit. Und in den oberen Skalenbereichen treten auf einmal bestimmte emergente Funktionalitäten auf.

Der große Durchbruch gelang vor einigen Jahren, als man erkannte, dass die Netzmodelle umso robuster und effizienter werden, je umfangreicher sie im Voraus mit allgemeinen Daten auf ausreichend großen Skalen trainiert werden. Das geht so weit, dass danach völlig neue Aufgaben schon nach wenigen Wiederholungen oder gleich beim ersten Mal zufriedenstellend ausgeführt werden – was auch als Zero-Shot-Learning bezeichnet wird.

Wie funktioniert dieses Zero-Shot-Learning konkret in der Praxis?

Mehdi Cherti: Darin liegt der große Unterschied zum traditionellen maschinellen Lernen. Wenn man den Modellen früher beibringen wollte, 100.000 verschiedene Pflanzenarten zu unterscheiden, dann musste man für jede einzelne Pflanzenart Hunderte oder sogar Tausende von Beispielbildern sammeln, die alle korrekt beschriftet sein müssen, was schwierig bis unmöglich ist. Exotische Pflanzen, von denen es nur ein oder zwei Bilder gibt, kann ein solches System nicht lernen.

Die neuen generalistischen, selbst-überwachten Modelle werden hingegen über einen langen Zeitraum mit allgemeinen Daten trainiert. In der Regel nutzt man dafür recht einfache, allgemeine Aufgaben. Die resultierenden Modelle werden auch als „foundation model“ oder „Basismodell“ bezeichnet. Für ein Basismodell wie CLIP, das wir trainiert haben, besteht eine solche Aufgabe beispielsweise darin, zu erkennen, ob ein Bild und eine Textbeschriftung zusammenpassen oder nicht. Dazu nutzt man Bild-Text-Paare, die in Datensätzen wie unserem LAION-5B-Datensatz bereitgestellt werden.

Die Basismodelle sind nach entsprechendem Vortraining so robust, dass sie in der Lage sind, jeden neuen visuellen Typ selbständig zu erkennen und zu klassifizieren. Für das Erlernen von 100.000 neuen Pflanzenarten sind dann nur wenige Beispiele pro Pflanze nötig. Die neuen Modelle lernen also sehr dateneffizient und benötigen nur wenige Bilder oder liegen auf Anhieb richtig, was auch als „Few-Shot-Learning“ oder „Zero-Shot-Learning“ bezeichnet wird.

Wolf im Schafspelz
Noch nicht ganz perfekt: Das Ergebnis für „Wolf im Schafspelz“. © LAION/ Stable Diffusion

Mit der LAION-Initiative setzen Sie sich für Open-Source und Open-Science im Bereich des maschinellen Lernens ein. Was ist Ihre Motivation?

Jenia Jitsev: Lange Zeit war dieser ressourcenintensive Ansatz nur großen Unternehmen wie Google, Meta oder OpenAI vorbehalten. Die Entwicklung in diesen Unternehmen findet jedoch hinter verschlossenen Türen statt. Die Ergebnisse werden nicht veröffentlicht und können nicht von anderen Wissenschaftlern reproduziert werden. Man kann sie nicht selbst testen und damit experimentieren. Dies erschwert die Überprüfung und führt zu Sicherheitsproblemen, da niemand unabhängig kontrollieren kann, wie das Modell erstellt wurde und welche Daten für das Training verwendet wurden.

Als das amerikanische Unternehmen OpenAI vor einigen Jahren den kommerziellen Bildgenerator DALL-E vorstellte, war für uns sofort klar, dass wir ein solches Modell auch gerne frei verfügbar hätten, damit die Scientific Community es richtig untersuchen kann. Der LAION-5B-Datensatz, den wir entwickelt und genutzt haben, besteht aus 5,8 Milliarden Text-Bild-Paaren. Die Daten wurden mit relativ geringem menschlichem Arbeitsaufwand automatisiert gewonnen. Das macht man mit sogenannten Crawlern, die das gesamte Internet scannen.

Die gesammelten Daten wurden zunächst mit einem vortrainierten CLIP-Modell von OpenAI verarbeitet, das öffentlich zugänglich ist. Dies war sicherlich einer der Gründe für die guten Ergebnisse. Spätere Tests haben aber gezeigt, dass der Ansatz auch ohne diesen Filter funktioniert. Die Performance geht dann etwas zurück, aber das lässt sich durch noch mehr Daten ausgleichen.

Der LAION-Datensatz, den Sie mit veröffentlicht haben, kann zum Trainieren neuer KI-Modelle verwendet werden. Wie weit ist Ihr freier Ansatz mittlerweile, auch im Vergleich zu kommerziellen Alternativen?

Jenia Jitsev: Wir stehen noch ganz am Anfang, was die Arbeit mit sehr großen Datensätzen angeht. In Tests zum Zero-Shot-Learning schneiden Modelle, die mit unseren freien Daten trainiert wurden, aber bereits ähnlich gut ab wie Modelle von nicht-öffentlichen kommerziellen Anbietern wie OpenAI. Der Open-Source-Bildgenerator Stable Diffusion, der mit unseren Daten trainiert wurde, ist in der Lage, auf Befehl maßgeschneiderte Bilder zu produzieren. Die Befehle können ganz frei in natürlicher Sprache eingegeben werden, ähnlich wie bei einer Google-Suche. So etwas kannte man bis jetzt nur von nicht-öffentlichen, kommerziellen Modellen wie DALL-E 2.

Die Demonstration, dass es mit frei verfügbaren Daten aus dem öffentlichen Internet funktioniert, war auch einer der Hauptgründe, warum wir eine Auszeichnung bei der NeurIPS-Konferenz Ende 2022 erhalten haben. Davor wusste niemand, was passiert, wenn man Modelle auf einem so großen unkuratierten Datensatz aufbaut. Wir haben gezeigt, dass es im Prinzip tatsächlich möglich ist, funktionierende selbstlernende Modelle einfach nur mit Daten aus dem freien Internet aufzubauen. Diese Modelle stehen nun Forschenden frei zur Verfügung, um ihre Stärken und Schwächen zu untersuchen, was eine weitere gemeinsame Entwicklung ermöglicht.

LAION-trainierter Bildgenerator zum Selbsttesten

Wer möchte, kann den mit dem LAION-5B-Datensatz trainierten Bild-Generator Stable Diffusion 2.0 selbst testen. Eine Demo ist hier ohne Anmeldung zugänglich, eine weitere mit etwas mehr Einstellungsmöglichkeiten hier.

Quelle: Forschungszentrum Jülich

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Skelett eines ungeborenee Kindes

So entstehen die Knochen des ungeborenen Kindes

Astronomen entdecken jüngsten Transit-Planet

Mehr Blackouts durch Wind- und Sonnenstrom?

Parkinson: Wenn mehr Dopamin mehr Zittern bedeutet

Diaschauen zum Thema

Dossiers zum Thema

Killerroboter - Autonome Waffensysteme – wenn Computer über Leben und Tod entscheiden

Alan Turing - Genialer Computerpionier und tragischer Held

Bücher zum Thema

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Top-Clicks der Woche