Informatik

Mensch schlägt KI bei der Spracherkennung

Manuell transkribierte Audio-Aufnahmen sind besser als KI-generierte Abschriften

Illustration zur Transkription von Audio-Inhalten
Illustration zum Konferenzposter: "From Hashes to Ashes – A Comparison of Transcription Services" © CISPA

Spracherkennung: Ein Einsatzgebiet der künstlichen Intelligenz ist die Transkription von Audio-Aufnahmen. Doch wie nun ein Vergleich zeigt, kann die KI bisher noch nicht mit manuellen, von Menschen erstellten Abschriften mithalten. So haben KI-basierte Systeme beispielsweise Probleme, Fachbegriffe oder Sprecher richtig zuzuordnen, wie das Forschungsteam berichtet. Was folgt daraus?

Ob Youtube-Videos, Audio-Interviews oder andere Sprachaufnahmen: Viele Informationen liegen nur als Tonspur vor und müssen zum weiteren Auswerten und Verarbeiten erst in geschriebenen Text „übersetzt“ werden. Ein gutes Transkript beinhaltet dabei nur die relevanten gesprochenen Wörter – ohne Füllwörter, Wiederholungen oder Stotterer. Im Journalismus oder der Forschung werden solche Transkripte oft an professionelle Dienstleister delegiert.

KI als Transkriptions-Helfer

Inzwischen wird für solche Transkriptions-Aufgaben jedoch immer häufiger auch künstliche Intelligenz eingesetzt. In einigen Tests erwiesen sich solche Spracherkennungssysteme sogar schon als dem Menschen überlegen. Doch gilt dies auch für die kommerziellen, KI-gestützten Transkriptionsdienste, die beispielsweise Journalisten oder Forschende zum Umwandeln ihrer Interviews nutzen?

Das haben nun Rafael Mrowczynski und seine Kollegen vom CISPA – Helmholtz-Zentrum für Informationssicherheit näher untersucht. Dafür verglichen sie die elf bekanntesten Dienstleister miteinander. Unter den getesteten Services waren die fünf manuellen Transkriptionsdienste Amberscript, GoTransript, QualTranscribe, Rev und Scribble sowie die sechs KI-basierten Transkriptionsanbieter Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft Azure und Whisper AI von OpenAI.

Elf Transkriptionsdienste im Test

Für den Test schickten die Forschenden den Anbietern jeweils dasselbe Datenset bestehend aus etwa zehnminütigen Einzelinterviews und Gruppengesprächen auf Deutsch und Englisch. Die Aufnahmen stammten von den CISPA-Forschenden und drehten sich um das Forschungsfeld Cybersicherheit. „Wichtig war, dass Fachbegriffe aus der Community fallen, um daran die Präzision der Transkription überprüfen zu können“, erläutert Mrowczynski. Einige Interviews reicherte das Team mit Hintergrundgeräuschen an, wie sie unter realen Interview-Bedingungen im Forschungsalltag vorkommen.

Die von den Dienstleistern erhaltenen Transkripte verglichen Mrowczynski und seine Kollegen anschließend mit einem selbst angefertigten Referenz-Transkript. Dabei untersuchten sie, wie viele Wörter sich zwischen der jeweiligen Abschrift und ihrem Referenz-Transkript unterscheiden und ob dabei der Inhalt richtig wiedergegeben wurde.

Mensch übertrifft künstliche Intelligenz

Das Team kommt zu dem Schluss, dass „die meisten der manuellen Transkriptionsdienste ein lobenswertes Leistungsniveau [haben], während KI-basierte Dienste häufig bedeutungsverzerrende Abweichungen zwischen Aufnahme und Transkription aufwiesen.“ Mit anderen Worten: Menschliche Dienstleister schnitten besser ab als KI-basierte Services, die den Inhalt von Aufnahmen oft falsch wiedergeben. Dies machten Mrowczynski und seine Kollegen unter anderem an Fachbegriffen fest: „Im Transkript wurde zum Beispiel aus ‚hashes‘ das Wort ‚ashes‘“, so Mrowczynski.

Trotz Fortschritten bei der Spracherkennung in den vergangenen Jahren haben die KI-basierten Anbieter zudem auch weiterhin Probleme damit, in Dialogen und Gruppengesprächen den gesprochenen Inhalt dem richtigen Sprecher zuzuordnen. Darüber hinaus mussten die von einer KI erstellten Transkript-Dateien neu formatiert werden, bevor die Texte in einer Analyse-Software für die Forschung verwendet werden konnten, wie das Team berichtet.

Hintergrundgeräusche stören Spracherkennung

Insgesamt kamen die meisten Transkriptions-Anbieter mit Englisch besser klar als mit Deutsch. Hintergrundgeräusche wirkten sich zudem generell negativ auf das Transkript-Ergebnis aus, wie Mrowczynski und sein Team feststellten. Unter den KI-Anbietern die besten Abschriften lieferte zum Stand der Untersuchung im Dezember 2022 Whisper AI von OpenAI. Aktuellere Entwicklungen in der KI-Branche wurden in der Studie allerdings nicht berücksichtigt.

KI-basierte Abschriften von Audio-Aufnahmen bergen der Studie zufolge bislang noch mehr Fehlerquellen und einen höheren Fehleranteil als von Menschen erstellte Transkripte. Das erklärt auch, warum automatisch aus Video-Tonspuren erstellte Untertitel noch häufig Fehler enthalten. (Konferenzposter, ACM CCS 2023)

Quelle: CISPA – Helmholtz-Zentrum für Informationssicherheit

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Skelett eines ungeborenee Kindes

So entstehen die Knochen des ungeborenen Kindes

Astronomen entdecken jüngsten Transit-Planet

Mehr Blackouts durch Wind- und Sonnenstrom?

Parkinson: Wenn mehr Dopamin mehr Zittern bedeutet

Diaschauen zum Thema

Dossiers zum Thema

Bücher zum Thema

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Top-Clicks der Woche