Beunruhigende Entwicklung: In den USA werden bereits Algorithmen als Justizhelfer eingesetzt – beispielsweise bei der Prognose des Rückfallrisikos von Straftätern. Doch jetzt enthüllt ein Experiment: Die Trefferquote dieser Software liegt nicht höher als die von zufällig ausgewählten Internetnutzern. Der Einsatz dieser Systeme sei daher fragwürdig und müsse überdacht werden, betonen die Forscher im Fachmagazin „Science Advances“.
Künstliche Intelligenzen und Algorithmen bestimmen längst viele Aspekte unseres Lebens: Sie stecken in unserem Handy, werten unser Surfverhalten aus, aber helfen auch Ärzten bei der Diagnose oder Bankern und Versicherungen bei Finanzentscheidungen. Das Urteil der Software gilt dabei meist als verlässlicher und objektiver als das von Menschen. Allerdings: Inzwischen belegen Studien, dass selbst Algorithmen nicht frei von Vorurteilen sind.
Software als Justizhelfer
Was viele nicht wissen: Sogar im Justizwesen agieren inzwischen Algorithmen. Vor allem in den USA helfen Softwaresysteme unter anderem dabei, vorherzusagen, wer nach abgesessener Strafe am ehesten rückfällig werden wird. Seit dem Jahr 2000 hat beispielsweise das von der Firma Northpointe entwickelte COMPAS- oder Equivant-System bereits mehr als eine Million Straftäter bewertet.
„Das System prognostiziert das Risiko, das ein Angeklagter innerhalb der nächsten zwei Jahre erneut eine Straftat begeht“, erklären Julia Dressel und Hany Farid vom Dartmouth College in den USA. Die Einschätzung der Software beruht dabei auf 137 Merkmalen der Person und ihrer Vorgeschichte. Wie der Algorithmus allerdings zu seinem Urteil gelangt, hält die Firma geheim.
Trefferquote eher mau
Das Problem dabei: Die Prognose des Algorithmus kann das Urteil des Gerichts beeinflussen und damit letztlich das Schicksal des Angeklagten – und der Rechner liegt keineswegs immer richtig. Im Gegenteil: Als Forscher die Treffsicherheit von COMPAS auf Basis von 700 Fällen der Jahre 2013 und 2014 überprüften, stellten sie fest: Die Software lag nur bei rund 65 Prozent seiner Vorhersagen richtig.
Hinzu kommt: Obwohl die Software keine Angaben über die Rassenzugehörigkeit der Angeklagten bekam, machte sie klare Unterschiede. Bei Weißen irrte sie eher zugunsten der Angeklagten, bei Schwarzen dagegen prognostizierte sie doppelt so oft fälschlicherweise einen Rückfall. „Das weckt die Frage, ob diese Algorithmen überhaupt besser sind als ungeübte Laien, wenn es um eine faire und genaue Vorhersage dieser Art geht“, konstatieren Dressel und Farid.
Blutige Laien contra Spezialsoftware
Genau das haben die Forscher jetzt in einem Experiment überprüft. Für 1.000 zuvor von COMPAS bewertete Fälle erstellten sie Kurzsteckbriefe der Angeklagten. Diese enthielten nur Angaben zu Alter und Geschlecht der Angeklagten, zur aktuellen Anklage und zu den Vorstrafen der Person. In einem weiteren Durchgang beschränkten die Forscher die Informationen sogar nur auf zwei Merkmale: Alter und Zahl der Vorstrafen.
Die Bewertung erfolgte durch 400 zufällig ausgewählte Internetnutzer ohne Vorerfahrungen in der Justiz. Sie bekamen jeweils 20 Täterprofile und sollten entscheiden, ob der Angeklagte ihrer Ansicht nach in den nächsten zwei Jahren eine weitere Straftat begehen würde oder nicht.
Der Algorithmus ist nicht besser
Das Ergebnis: Die Internetnutzer lagen in knapp 63 Prozent der Fälle richtig – und waren damit fast genauso gut wie COMPAS. Wurden ihre Entscheidungen zusammengenommen ausgewertet, stieg die Trefferquote sogar auf 67 Prozent. „Damit ist eine kleine Gruppe von Nichtexperten bei der Prognose der Rückfallwahrscheinlichkeit genauso treffsicher wie COMPAS – obwohl sie nur sieben Merkmale statt 137 bekommen hatten“, konstatieren die Forscher. Und selbst bei nur zwei Merkmalen lag ihre Trefferquote genauso hoch wie die der Software.
Interessant auch: In Bezug auf die – nicht genannte – Rassenzugehörigkeit der Straftäter entschieden die menschlichen Entscheider etwas weniger einseitig als die Software. Sowohl bei den falschpositiven als auch den falschnegativen Entscheidungen waren die Unterschiede zwischen weißen und schwarzen Angeklagten geringer als bei COMPAS.
„Das ist beunruhigend“
Nach Ansicht der Forscher wirft dies kein gutes Licht auf Algorithmen als Justizhelfer: „Es ist beunruhigend, dass bei diesen für die Betroffenen lebensverändernden Entscheidungen ein Computerprogramm nicht besser abschneidet als ungeübte Internetnutzer“, sagt Farid. „Diese Ergebnisse wecken erhebliche Zweifel an dem ganzen Ansatz, Algorithmen zur Rückfallprognose bei Straftätern einzusetzen.“
Zumal die geringe Trefferquote nicht auf das Beispiel COMPAS beschränkt ist: Wie eine Überprüfung vor Kurzem ergab, schneiden von neun verschiedenen Algorithmen zur Rückfall-Prognose acht ähnlich schwach ab wie das Northpointe-System. „Der Einsatz von Software zur Rückfallprognose in Gerichtssälen sollte grundsätzlich in Frage gestellt werden“, meint Dressel. (Science Advances, 2018; doi: 10.1126/sciadv.aao5580)
(AAAS, 18.01.2018 – NPO)