KI gegen Hasskommentare: Ein Experiment enthüllt, warum viele Algorithmen gegen Hasskommentare in sozialen Medien scheitern. Demnach reichen schon Tippfehler, falsche Grammatik und fehlende Leerstellen zwischen Wörtern aus, um die KI-Systeme in die Irre zu führen. Auch eingestreute Positiv-Wörter wie „Liebe“ verhindern eine Erkennung des Hate Speech. Ein gezieltes Training der Algorithmen auf solche Merkmale könnte aber Abhilfe schaffen, so die Forscher.
So nützlich soziale Medien sind, so ausgeprägt sind auch ihre „dunkeln Seiten“. Denn dank Facebook, Twitter und Co grassieren Fake-News und Hasskommentare. Der Echokammer-Effekt sorgt zudem dafür, dass Nutzer keine echte Meinungsvielfalt mehr erleben. Längst versuchen Anbieter, lernfähige Algorithmen zum Herausfiltern von Fake-News und Hate Speech einzusetzen – allerdings nur mit begrenztem Erfolg.
Sieben lernfähige Filtersysteme im Test
Warum Algorithmen so oft an Hasskommentaren scheitern, haben nun Tommi Gröndahl von der Universität Aalto und sein Team untersucht. Für ihr Experiment stellten sie sieben aktuelle KI-Systeme zur Hate Speech-Detektion auf die Probe. Die künstlichen Intelligenzen bekamen dabei im ersten Test Hasskommentare, die aus dem Trainings-Datensatz der jeweils anderen Algorithmen stammten.
Im zweiten Test prüften die Forscher, wie gut die KI-Systeme mit Tippfehlern, falscher Grammatik oder weggelassene Leeerstellen zwischen Wörtern klarkamen. Abschließend ergänzten die Wissenschaftler klassische Hasskommentare wie „I hate you“ einfach durch ein positives Wort wie „love“ – würde dies die Algorithmen beeinflussen?
Totalversagen bei Leerstellen und „Liebe“
Das Ergebnis: Keines der lernfähigen Maschinenhirne schnitt sonderlich gut ab, wenn es mit Hate Speech aus einem der „fremden“ Datensätze konfrontiert war. Auch Tippfehler und falsche Grammatik ließen viele Hasskommentare „durchrutschen“. Noch drastischer aber fiel das Ergebnis aus, als die Forscher Leerstellen zwischen Wörtern wegließen: Nicht ein einziger Filteralgorithmus erkannte dann noch eine Formulierung wie „Ihate you“
Das aber bedeutet, dass die gängigen Filter bisher leicht auszutricksen sind: „Im einfachsten Fall verändert man den Text einfach so, dass ein menschlicher Leser die beabsichtigte Botschaft noch versteht, während die Filter den Text falsch klassifizieren“, erklären Gröndahl und seine Kollegen. „Gegen solche absichtlich verschleiernden Inputs sind nahezu alle Modelle hilflos.“ Auch die simple Ergänzung eines Hasskommentars um das Wort „love“ führte häufig zu falscher Klassifizierung.
Besseres Training nötig
Wie die Experimente belegten, betrifft dies selbst das relativ fortgeschrittene Google-System „Perspective“. Diese lernfähigen Algorithmen bewerten schon bei der Eingabe von Kommentaren deren „Toxizität“. Nachdem 2017 eine Studie enthüllte, wie leicht dieses System durch Tippfehler in die Irre zu führen ist, hat Google deutlich nachgebessert. Doch wie die Forscher feststellten, fällt auch „Perspective“ auf fehlende Leerstellen und ein ergänztes „love“ herein. Der Satz „I hate you“ wurde in der Form „Ihate you love“ nicht mehr als „toxisch“ eingestuft.
Nach Ansicht der Wissenschaftler liegt das Problem aber nicht in der Grundstruktur der eingesetzten Modelle und Algorithmen, sondern vielmehr bei den Datensätzen, die bisher zu deren Training verwendet wurden. Sie sollten vermehrt um bewusst falschgeschriebene Begriffe, zusammengezogene Wörter und auch angehängt „Störwörter“ ergänzt werden. (ACM AISec workshop, 2018)
(Aalto University, 17.09.2018 – NPO)