Spracherkennung: Ein Einsatzgebiet der künstlichen Intelligenz ist die Transkription von Audio-Aufnahmen. Doch wie nun ein Vergleich zeigt, kann die KI bisher noch nicht mit manuellen, von Menschen erstellten Abschriften mithalten. So haben KI-basierte Systeme beispielsweise Probleme, Fachbegriffe oder Sprecher richtig zuzuordnen, wie das Forschungsteam berichtet. Was folgt daraus?
Ob Youtube-Videos, Audio-Interviews oder andere Sprachaufnahmen: Viele Informationen liegen nur als Tonspur vor und müssen zum weiteren Auswerten und Verarbeiten erst in geschriebenen Text „übersetzt“ werden. Ein gutes Transkript beinhaltet dabei nur die relevanten gesprochenen Wörter – ohne Füllwörter, Wiederholungen oder Stotterer. Im Journalismus oder der Forschung werden solche Transkripte oft an professionelle Dienstleister delegiert.
KI als Transkriptions-Helfer
Inzwischen wird für solche Transkriptions-Aufgaben jedoch immer häufiger auch künstliche Intelligenz eingesetzt. In einigen Tests erwiesen sich solche Spracherkennungssysteme sogar schon als dem Menschen überlegen. Doch gilt dies auch für die kommerziellen, KI-gestützten Transkriptionsdienste, die beispielsweise Journalisten oder Forschende zum Umwandeln ihrer Interviews nutzen?
Das haben nun Rafael Mrowczynski und seine Kollegen vom CISPA – Helmholtz-Zentrum für Informationssicherheit näher untersucht. Dafür verglichen sie die elf bekanntesten Dienstleister miteinander. Unter den getesteten Services waren die fünf manuellen Transkriptionsdienste Amberscript, GoTransript, QualTranscribe, Rev und Scribble sowie die sechs KI-basierten Transkriptionsanbieter Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft Azure und Whisper AI von OpenAI.
Elf Transkriptionsdienste im Test
Für den Test schickten die Forschenden den Anbietern jeweils dasselbe Datenset bestehend aus etwa zehnminütigen Einzelinterviews und Gruppengesprächen auf Deutsch und Englisch. Die Aufnahmen stammten von den CISPA-Forschenden und drehten sich um das Forschungsfeld Cybersicherheit. „Wichtig war, dass Fachbegriffe aus der Community fallen, um daran die Präzision der Transkription überprüfen zu können“, erläutert Mrowczynski. Einige Interviews reicherte das Team mit Hintergrundgeräuschen an, wie sie unter realen Interview-Bedingungen im Forschungsalltag vorkommen.
Die von den Dienstleistern erhaltenen Transkripte verglichen Mrowczynski und seine Kollegen anschließend mit einem selbst angefertigten Referenz-Transkript. Dabei untersuchten sie, wie viele Wörter sich zwischen der jeweiligen Abschrift und ihrem Referenz-Transkript unterscheiden und ob dabei der Inhalt richtig wiedergegeben wurde.
Mensch übertrifft künstliche Intelligenz
Das Team kommt zu dem Schluss, dass „die meisten der manuellen Transkriptionsdienste ein lobenswertes Leistungsniveau [haben], während KI-basierte Dienste häufig bedeutungsverzerrende Abweichungen zwischen Aufnahme und Transkription aufwiesen.“ Mit anderen Worten: Menschliche Dienstleister schnitten besser ab als KI-basierte Services, die den Inhalt von Aufnahmen oft falsch wiedergeben. Dies machten Mrowczynski und seine Kollegen unter anderem an Fachbegriffen fest: „Im Transkript wurde zum Beispiel aus ‚hashes‘ das Wort ‚ashes‘“, so Mrowczynski.
Trotz Fortschritten bei der Spracherkennung in den vergangenen Jahren haben die KI-basierten Anbieter zudem auch weiterhin Probleme damit, in Dialogen und Gruppengesprächen den gesprochenen Inhalt dem richtigen Sprecher zuzuordnen. Darüber hinaus mussten die von einer KI erstellten Transkript-Dateien neu formatiert werden, bevor die Texte in einer Analyse-Software für die Forschung verwendet werden konnten, wie das Team berichtet.
Hintergrundgeräusche stören Spracherkennung
Insgesamt kamen die meisten Transkriptions-Anbieter mit Englisch besser klar als mit Deutsch. Hintergrundgeräusche wirkten sich zudem generell negativ auf das Transkript-Ergebnis aus, wie Mrowczynski und sein Team feststellten. Unter den KI-Anbietern die besten Abschriften lieferte zum Stand der Untersuchung im Dezember 2022 Whisper AI von OpenAI. Aktuellere Entwicklungen in der KI-Branche wurden in der Studie allerdings nicht berücksichtigt.
KI-basierte Abschriften von Audio-Aufnahmen bergen der Studie zufolge bislang noch mehr Fehlerquellen und einen höheren Fehleranteil als von Menschen erstellte Transkripte. Das erklärt auch, warum automatisch aus Video-Tonspuren erstellte Untertitel noch häufig Fehler enthalten. (Konferenzposter, ACM CCS 2023)
Quelle: CISPA – Helmholtz-Zentrum für Informationssicherheit