KI als Historiker: Kennen und verstehen künstliche Intelligenzen die Weltgeschichte? Das haben Forschende erstmals mit einem Expertentest auf Doktoranden-Niveau überprüft. Dabei ging es um historische Fakten, aber auch Interpretationen und Widersprüche. Das Ergebnis: Die getesteten Varianten von GPT-4, Gemini und Llama beantworteten nur 33 bis 46 Prozent der Fragen korrekt – zu wenig für echtes Expertenwissen. Besonders schlecht schnitten die KI-Modelle in der Geschichte der Neuzeit ab, aber auch in einigen Regionen wie Afrika und Ozeanien.
Künstliche Intelligenzen haben in den letzten beiden Jahren rasante Fortschritte gemacht. Sie übertreffen uns Menschen inzwischen in vielen Wissensaufgaben, bestehen den Turingtest, helfen im Alltag und sind kreativ. Die Schattenseite jedoch: Die KI-Systeme halluzinieren, können absichtlich lügen und haben kein echtes Weltverständnis. Bei moralischen oder politisch brisanten Themen sind ihre Antworten zudem oft nicht neutral. Dennoch verlassen sich viele Menschen zunehmend auf KI-generierte Informationen.
Neue Benchmark fürs Geschichtswissen
Doch wie sieht es mit dem Geschichtswissen und -verständnis der Großen Sprachmodelle (LLM) aus? Das haben nun Jakob Hauser vom Complexity Science Hub in Wien und seine Kollegen untersucht. Anders als frühere Tests nutzten sie dafür eine Benchmark, die historisches Wissen auf dem Niveau von Doktoranden überprüft und über bloßes Allgemeinwissen hinausgeht. Die Basis bildet eine Datenbank, die historisches Wissen über 600 Gesellschaften weltweit mit mehr als 36.000 Datenpunkten und über 2.700 wissenschaftlichen Fachartikeln umfasst.
„Die in unserer Datenbank enthaltenen Informationen reichen von den grundlegenden Fakten bis zu hochkomplexen Themen wie bestimmten religiösen und ideologischen Systemen“, erklären die Forschenden. „Für letztere ist es entscheidend, auch verschiedenen Interpretationen, Nuancen und den historischen Kontext zu berücksichtigen.“ Die historischen Informationen reichen von der Zeit vor 10.000 Jahren bis heute und umfassen Kulturen in allen Regionen der Erde.
Sieben KI-Modelle im Test
Kandidaten im Geschichtstest waren die drei OpenAI-Modelle GPT-3.5, GPT-4-Turbo und GPT-4o, drei Versionen von Llama sowie Gemini-1.5flash von Google. Hauser und sein Team erstellten für den Test Multiple-Choice-Fragen mit jeweils vier Antwortmöglichkeiten, jede KI erhielt am Anfang vier Beispielaufgaben zur Erklärung des Prinzips. „Wir nutzten zudem Personalisierung, indem wir die LLMs baten, wie ein Historiker zu antworten“, berichten die Forschenden. Dies kann die Leistung eines KI-Modells oft verbessern.
Aufgabe der KI-Modelle war es, die richtige Antwort auszuwählen. Außerdem sollten sie angeben, ob die abgefragten Informationen auf gesicherten faktischen Belegen beruhen oder aber auf Hypothesen und möglicherweise widersprüchlichen Interpretationen. „Wir wollten eine Benchmark festlegen, um bewerten zu können, wie gut die Fähigkeit dieser LLMs ist, mit historischem Fachwissen umzugehen“, erklärt Hauser.
„Überraschend schlechte Ergebnisse“
„Ein überraschendes Ergebnis war, wie schlecht diese Modelle tatsächlich abschnitten“, sagt Koautor Peter Turchin vom Complexity Science Hub. Die Ergebnisse reichten von gut 33 Prozent richtigen Antworten für Llama-3.1-8B bis zu 46 Prozent für GPT-4-Turbo. „Damit ist die Leistung der Großen Sprachmodelle zwar besser als bei bloßem Raten, sie liegt aber deutlich unter dem Niveau eines Geschichtswissens auf Expertenniveau“, konstatieren die Forschenden.
Besondere Schwächen zeigten die künstlichen Intelligenzen in der neueren Geschichte ab etwa dem Jahr 1500. In dieser Zeitperiode erreichte keines der Modelle mehr als knapp 40 Prozent. „Das legt nahe, dass die LLMs zwar das begrenzte historische Wissen über frühe Epochen gut verarbeiten. Mit der höheren Komplexität der jüngeren Geschichte haben sie jedoch Probleme“, erklären Hauser und sein Team. Denn gerade in der Neuzeit spielen gegensätzliche Strömungen, übergreifende Entwicklungen und komplexe Zusammenhänge eine wichtige Rolle.
Tiefgreifendes Verständnis fehlt
„Die zentrale Erkenntnis dieser Studie ist, dass Große Sprachmodelle trotz beeindruckender Fähigkeiten noch nicht über das tiefgreifende Verständnis verfügen, das für fortgeschrittene Geschichtsforschung auf Doktoranden-Niveau erforderlich ist“, sagt Seniorautorin R. Maria del Rio-Chanona vom University College London. „Sie eignen sich hervorragend für die Vermittlung grundlegender Fakten, aber wenn es um eine differenziertere historische Untersuchung geht, sind sie der Aufgabe noch nicht gewachsen.“
Den Grund dafür sieht das Team vor allem in der Komplexität geschichtlicher Zusammenhänge, die oft ein Verständnis der dahinterliegenden sozialen, wirtschaftlichen und weltanschaulichen Faktoren erfordern. „Geschichte wird oft als eine Sammlung von Fakten betrachtet, doch manchmal ist Interpretation erforderlich, um sie sinnvoll zu erfassen“, so del Rio-Chanona.
Wo GPT und Co nachsitzen müssen
Einige Defizite sind allerdings auch auf die Trainingsdaten der aktuellen KI-Systeme zurückzuführen: So zeigten fast alle KI-Modelle Lücken in Bezug auf die Geschichte bestimmter Kontinente: Für Nord- und Mittelamerika waren ihre Leistungen meist deutlich besser als für das südliche Afrika oder Ozeanien. Dies spiegelt das Ungleichgewicht der Trainingsdaten wider: Weil der größte Teil dieser Daten aus Europa und Nordamerika stammt, enthalten sie auch mehr historische Informationen zu diesen Regionen.
Abhilfe schaffen könnte aber ein gezieltes „Nachsitzen“ für die KI-Systeme: „Unser öffentlich verfügbarer Datensatz könnte ein wichtiger Schritt sein, um das historische Wissen der LLMs zu erweitern“, schreiben Hauser und seine Kollegen. „Zudem möchten wir neuere LLM-Modelle wie GPT-4o3 testen, um zu sehen, ob sie die in dieser Studie identifizierten Lücken schließen können.“ (NeurIPS conference, 2024; Preprint)
Quelle: Complexity Science Hub