KI gegen Hasskommentare: Ein Experiment enthüllt, warum viele Algorithmen gegen Hasskommentare in sozialen Medien scheitern. Demnach reichen schon Tippfehler, falsche Grammatik und fehlende Leerstellen zwischen Wörtern aus, um die KI-Systeme in die Irre zu führen. Auch eingestreute Positiv-Wörter wie „Liebe“ verhindern eine Erkennung des Hate Speech. Ein gezieltes Training der Algorithmen auf solche Merkmale könnte aber Abhilfe schaffen, so die Forscher.
So nützlich soziale Medien sind, so ausgeprägt sind auch ihre „dunkeln Seiten“. Denn dank Facebook, Twitter und Co grassieren Fake-News und Hasskommentare. Der Echokammer-Effekt sorgt zudem dafür, dass Nutzer keine echte Meinungsvielfalt mehr erleben. Längst versuchen Anbieter, lernfähige Algorithmen zum Herausfiltern von Fake-News und Hate Speech einzusetzen – allerdings nur mit begrenztem Erfolg.
Sieben lernfähige Filtersysteme im Test
Warum Algorithmen so oft an Hasskommentaren scheitern, haben nun Tommi Gröndahl von der Universität Aalto und sein Team untersucht. Für ihr Experiment stellten sie sieben aktuelle KI-Systeme zur Hate Speech-Detektion auf die Probe. Die künstlichen Intelligenzen bekamen dabei im ersten Test Hasskommentare, die aus dem Trainings-Datensatz der jeweils anderen Algorithmen stammten.
Im zweiten Test prüften die Forscher, wie gut die KI-Systeme mit Tippfehlern, falscher Grammatik oder weggelassene Leeerstellen zwischen Wörtern klarkamen. Abschließend ergänzten die Wissenschaftler klassische Hasskommentare wie „I hate you“ einfach durch ein positives Wort wie „love“ – würde dies die Algorithmen beeinflussen?