Spracherkennung: Ein Einsatzgebiet der künstlichen Intelligenz ist die Transkription von Audio-Aufnahmen. Doch wie nun ein Vergleich zeigt, kann die KI bisher noch nicht mit manuellen, von Menschen erstellten Abschriften mithalten. So haben KI-basierte Systeme beispielsweise Probleme, Fachbegriffe oder Sprecher richtig zuzuordnen, wie das Forschungsteam berichtet. Was folgt daraus?
Ob Youtube-Videos, Audio-Interviews oder andere Sprachaufnahmen: Viele Informationen liegen nur als Tonspur vor und müssen zum weiteren Auswerten und Verarbeiten erst in geschriebenen Text „übersetzt“ werden. Ein gutes Transkript beinhaltet dabei nur die relevanten gesprochenen Wörter – ohne Füllwörter, Wiederholungen oder Stotterer. Im Journalismus oder der Forschung werden solche Transkripte oft an professionelle Dienstleister delegiert.
KI als Transkriptions-Helfer
Inzwischen wird für solche Transkriptions-Aufgaben jedoch immer häufiger auch künstliche Intelligenz eingesetzt. In einigen Tests erwiesen sich solche Spracherkennungssysteme sogar schon als dem Menschen überlegen. Doch gilt dies auch für die kommerziellen, KI-gestützten Transkriptionsdienste, die beispielsweise Journalisten oder Forschende zum Umwandeln ihrer Interviews nutzen?
Das haben nun Rafael Mrowczynski und seine Kollegen vom CISPA – Helmholtz-Zentrum für Informationssicherheit näher untersucht. Dafür verglichen sie die elf bekanntesten Dienstleister miteinander. Unter den getesteten Services waren die fünf manuellen Transkriptionsdienste Amberscript, GoTransript, QualTranscribe, Rev und Scribble sowie die sechs KI-basierten Transkriptionsanbieter Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft Azure und Whisper AI von OpenAI.