Täuschend echt: Wir Menschen können Sprach-Deepfakes selbst mit einiger Übung nur schwer von echten Stimmen unterscheiden, wie eine Studie belegt. In ihr erreichten Testpersonen bei menschlichen und KI-generierten Sprachaufnahmen in Englisch und Mandarin eine Trefferquote von nur 73 Prozent. Die Forschenden vermuten, dass die Erkennungsrate in Alltags-Situationen noch deutlich geringer ist. Um betrügerische Deepfakes zu erkennen, seien daher trainierte Algorithmen vielversprechender als menschliche Analysten.
Deepfakes ahmen mit Hilfe maschinellen Lernens das Aussehen oder die Stimme einer echten Person nach. Dabei besteht ein hohes Missbrauchspotenzial: Bekannt wurden beispielsweise Fälle, in denen Gesichter von Hollywood-Stars in Pornos geschnitten wurden, Politikern wie dem ukrainischen Präsidenten Wolodymyr Selenskyj gefälschte Aussagen in den Mund gelegt wurden und Bankmanager mit Hilfe nachgeahmter Stimmen ihrer Vorgesetzten dazu veranlasst wurden, große Geldsummen zu überweisen.
Da die Algorithmen immer fortschrittlicher werden, ist es inzwischen auch für Laien möglich, mit wenig Aufwand überzeugende Fälschungen zu erstellen. Zugleich arbeiten zahlreiche Forschungsteams daran, Algorithmen darauf zu trainieren, Deepfakes von Bildern, Videos und Tonaufnahmen zu erkennen. Auf welche Feinheiten die Algorithmen achten, ist aber meist unklar. Zudem wurde bislang wenig erforscht, inwieweit Menschen in der Lage sind, Deepfakes zu identifizieren.
Mensch oderMaschine?
Das hat nun ein Team um Kimberly Mai vom University College London untersucht. Dazu präsentierten die Forschenden 529 Testpersonen eine Auswahl von echten und künstlich generierten Sprachaufnahmen und baten sie, jeweils einzuschätzen, welche der Aufnahmen von einem echten Menschen und welche von einer künstlichen Intelligenz stammt. Einige Teilnehmer erhielten vorab zum Training fünf KI-generierte Sprachaufnahmen.