Mathematik

Noch mehr Mathematik in Literatur entdeckt

Worthäufigkeiten folgen tatsächlich weitgehend dem Zipfschen Gesetz

Die Worthäufigkeiten in vielen Literatur-Werken folgen einem simplen mathematischen Gesetz. © picaland/freeimages, scinexx

Worthäufigkeiten als Hyperbel: Forscher haben eine weitere mathematische Gesetzmäßigkeit in literarischen Werken entdeckt. Wie oft ein Wort im Text auftaucht und in welchem Verhältnis es zum nächsthäufigen steht, lässt sich demnach mit einer verblüffend einfachen Formel ausdrücken. Übereinstimmungen mit diesem Zipfschen Gesetz fanden die Wissenschaftler immerhin in knapp der Hälfte der gut 30.000 englischsprachigen Werke im Projekt Gutenberg.

Dass sich in Literatur durchaus mathematische Prinzipien verstecken können, hat erst vor kurzem die Entdeckung von fraktalen Strukturen in großen Werken der Weltliteratur bewiesen. Aber es gibt noch viel vordergründigere Mathematik in geschriebenen Texten: das Zipfsche Gesetz. Diese 1930 vom US-Linguisten George Zipf aufgestellte Regel besagt, dass die Häufigkeit bestimmter Wörter in einem Text einer verblüffend simplen mathematischen Funktion folgt.

Worthäufigkeit als Hyperbel

Nach dem Zipfschen Gesetz entspricht die Verteilung der Worthäufigkeiten dabei in ihrer einfachsten Form einer Hyperbel mit der Formel 1/n. Konkret gesagt: Das häufigste Wort in einem Text kommt genau doppelt so oft vor wie das zweithäufigste, dieses wiederum ist ein dreimal häufiger als das drittplatzierte und so weiter. Für einzelne Werke wie beispielsweise den Roman Effi Briest von Fontane haben Analysen diesen Zusammenhang auch schon bestätigt.

Die Verteilung der Worthäufigkeiten in einer Stichprobe aus "Effi Briest" entspricht etwa dem Zipfschen Gesetz 1/n © Berklas/ CC-by-sa 2.5

Aber gilt das Zipfsche Gesetz für alle literarischen Werke? Um das herauszufinden, haben Forscher der Universität Autònoma de Barcelona erstmals alle englischsprachigen Werke im Gutenberg-Projekt auf ihre Übereinstimmung mit drei Varianten dieses mathematischen Gesetzes untersucht. 30.000 Werke, und damit so viel wie noch nie zuvor, testeten die Wissenschaftler dafür.

Gut Übereinstimmung bei 40 bis 55 Prozent

Das Ergebnis: Werden alle Wörter berücksichtigt, folgen immerhin rund 40 Prozent der literarischen Werke der simpelsten Formulierung des Zipfschen Gesetzes. Ließen die Forscher jeweils die Wörter weg, die nur einmal im gesamten Buch vorkamen, verbesserte sich dieser Anteil auf 55 Prozent.

„Es ist ziemlich überraschend, dass die Worthäufigkeit in so vielen Werken einer so einfachen, nur durch einen Parameter bestimmten Formel folgt“, konstatiert Studienleiter Alvaro Corral. „Obwohl Literatur als einer der Ausdrucksformen mit der größten kreativen Freiheit gilt, können nicht einmal William Shakespeare oder Charles Dickens der Tyrannei des Zipfschen Gesetzen entkommen.“

Zipf-Variante von der Sprache abhängig?

Wie die Forscher betonen, war es gar nicht ihr Ziel, dass ihre Zipf-Varianten auf so viele Texte wie möglich passen – eher im Gegenteil. Sie wählten bewusst eher strenge Rahmenbedingungen aus. „Es ist daher erstaunlich, wie gut die einfachste Zipf-Verteilung bei einer so großen Menge an Texten funktioniert“, betonen die Wissenschaftler.

Die anderen beiden, etwas komplexeren Varianten des Zipfschen Gesetzes passten allerdings weniger gut auf die Texte. Nach Ansicht der Forscher könnte dies mit der englischen Sprache zusammenhängen. Weil im Englischen relativ wenige Wörter explizite Beugungsformen besitzen, gibt es weniger Wörter mit geringen Häufigkeiten als in anderen Sprachen, vermuten sie. Ob bei diesen möglicherweise eine andere Zipf-Variante besser passt, müssen weitere Studien klären.

Ein bisschen Zipf steckt überall

Übrigens: Das Zipfsche Gesetz ist keineswegs auf Literatur beschränkt, ganz im Gegenteil. Es verbirgt sich in so unterschiedlichen Bereichen wie den Tönen in einem Musikstück, bei den Besuchern einer Website, oder den Mitarbeitern von Firmen. Sogar in der Häufigkeit der Proteine in unseren Körperzellen findet sich dieses mathematische Gesetz wieder.

„Versuche, dafür eine Erklärung zu finden, hat es schon viele gegeben“, sagen Isabel Moreno-Sánchez und ihre Kollegen. „Aber bisher konnte man sich auf keine gültige Lösung einigen.“ Sie sehen in den neuen Möglichkeiten der Analyse großer Datenmengen eine Chance, hier künftig einen Schritt weiter zu kommen. (PLSO ONE, 2016; doi: 10.1371/journal.pone.0147073)

(Universitat Autònoma de Barcelona, 24.02.2016 – NPO)

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Diaschauen zum Thema

Dossiers zum Thema

Schneekristall

Symmetrie - Geheimnisvolle Formensprache der Natur

Bücher zum Thema

Das Buch der Zahlen - Das Geheimnis der Zahlen und wie sie die Welt veränderten von Peter Bentley

Was Sie schon immer über 6 wissen wollten - Wie Zahlen wirken von Holm Friebe und Philipp Albers

Darf ich Zahlen? - Geschichten aus der Mathematik von Günter M. Ziegler

Top-Clicks der Woche