ChatGPT ist nur ein Vertreter der neuen künstlichen Intelligenzen, die durch beeindruckende Fähigkeiten vor allem im sprachlichen Bereich auffallen. Auch Google und andere Konkurrenten von OpenAI arbeiten an solchen Systemen, auch wenn LaMDA, OPT-175B, BLOOM und Co weniger öffentlich in Erscheinung treten als ChatGPT. Das Grundprinzip dieser KI-Systeme ist jedoch ähnlich.
Lernen durch gewichtete Verknüpfungen
Wie bei den meisten modernen KI-Systemen bilden künstliche neuronale Netzwerke die Basis für ChatGPT und seine Kollegen. Sie beruhen auf vernetzten Systemen, bei denen Rechenknoten in mehreren Schichten miteinander verschaltet sind. Wie bei den Neuronenverknüpfungen in unserem Gehirn wird darin jede Verbindung, die zu einer richtigen Entscheidung führt, im Laufe der Trainingszeit stärker gewichtet – das Netzwerk lernt. Anders als bei unserem Gehirn optimiert das künstliche neuronale Netz aber nicht Synapsen und funktionelle Nervenbahnen, sondern Signalwege und Korrelationen zwischen Input und Putput.
Das ChatGPT zugrundeliegende KI-System GPT-3 beziehungsweise GPT 3.5 gehören zu den sogenannten generativen Transformern. Dabei handelt es sich im Prinzip um neuronale Netze, die darauf spezialisiert sind, eine Abfolge von eingegebenen Zeichen in eine andere Zeichenfolge als Output zu übersetzen. Bei einem Sprachmodell wie GPT-3 entsprechen die Zeichenfolgen den Sätzen in einem Text. Die KI lernt durch Training auf Basis Millionen Texten, welche Wortfolgen grammatikalisch und inhaltlich am besten zur eingegebenen Frage oder Aufgabe passen. Im Prinzip bildet die Struktur des Transformers dabei menschliche Sprache in einem statistischen Modell ab.
Trainingsdatensatz und Token
Um dieses Lernen zu optimieren, hat der generative Transformer hinter ChatGPT ein mehrstufiges Training durchlaufen – er ist, wie sein Namenskürzel schon verrät, ein generativer vortrainierter Transformer (Generative Pre-trained Transformer, GPT). Die Basis für das Training dieses KI-Systems bilden Millionen Texte, die zu 82 Prozent aus verschiedenen Kompilationen von Internetinhalten stammen, 16 Prozent kommen aus Büchern und drei Prozent aus Wikipedia.
Diese Texte „lernt“ der Transformer aber nicht inhaltsbasiert, sondern als Abfolge von Zeichenblöcken. „Unsere Modelle verarbeiten und verstehen Texte, indem sie diese in Token zerlegen. Token können ganze Wörter sein, aber auch Wortteile oder nur Buchstaben“, erklärt OpenAI. Bei GPT-3 umfasst der Trainingsdatensatz 410 Milliarden solcher Tokens. Das Sprachmodell erfasst darin durch statistische Auswertungen, welche Zeichen in welchen Kombinationen besonders oft zusammenstehen und zieht daraus Rückschlüsse auf zugrundeliegende Strukturen und Regeln.
Prä-Training und belohnende Verstärkung
Im nächsten Schritt folgt das angeleitete Training: „Wir prätrainieren Modelle, indem wir sie vorhersagen lassen, was in einer Zeichenfolge als nächstes kommt“, heißt es bei OpenAI. „Sie lernen beispielsweise Sätze zu vollenden wie: Statt nach links abzubiegen, bog sie nach ________.“ Das KI-System bekommt dabei jeweils Beispiele, wie es richtig geht und Feedback. Im Laufe der Zeit akkumuliert GPT dadurch „Wissen“ über sprachliche und semantische Zusammenhänge – indem bestimmte Kombinationen und Zeichenfolgen-Übersetzungen in seiner Struktur stärker gewichtet werden als andere.
Auf dieses Training folgt bei dem hinter ChatGPT stehenden KI-System als abschließender Schritt ein sogenanntes „Reinforcement Learning from Human Feedback“ (RLHF). Bei diesem werden verschiedene Reaktionen des GPT auf Aufgaben-Prompts von Menschen bewertet und diese Einstufung wird einem weiteren neuronalen Netz, dem Reward Model, als Trainingsmaterial gegeben. Dieses „Belohnungsmodell“ lernt dann anhand von Vergleichen, welche Ausgaben auf welche Eingaben optimal sind und bringt dies dann in einem weiteren Trainingsschritt auch dem ursprünglichen Sprachmodell bei.
„Man kann sich diesen Prozess so vorstellen, dass er bei GPT-3 die Fähigkeiten freisetzt, die er schon hatte, die aber durch die Trainings-Prompts alleine schwer zu mobilisieren waren“, erklärt OpenAI. Dieser zusätzliche Lernschritt trägt dazu bei, die sprachlichen Outputs zu glätten und besser an die Eingaben in der Benutzeroberfläche anzupassen.