Besser als der Mensch: Forscher haben ein Computersystem entwickelt, das spontan gesprochene Sprache besser erkennen kann als ein Mensch. Bei einem aus tausenden Telefongesprächen mitgeschnittenen Test erreicht die künstliche Intelligenz eine Fehlerrate von fünf Prozent, bei menschlichen Probanden sind es 5,5 Prozent. Die Latenzzeit der KI lag nur bei gut einer Sekunde – sie reagierte also nahezu in Echtzeit.
Ob Siri, Alexa oder Cortana: Spracherkennungssysteme ermöglichen es heute, akustisch mit Computersystemen zu kommunizieren. Auch Übersetzungen oder die Transkription gesprochener Texte sind möglich. Dahinter stehen künstliche neuronale Netzwerke – lernfähige Systeme, die darauf trainiert werden, die akustischen Sprachlaute einer Bibliothek von Silben und Wörtern zuordnen. Bei gelesenem Text oder direkter Ansprache erreichen diese Spracherkennungssysteme schon verblüffend gute Leistungen.
Stottern, Pausen und Genuschel
Doch bei alltäglichen Gesprächen oder Telefongesprächen stoßen sie an ihre Grenzen. „Wenn Menschen miteinander sprechen, gibt es Abbrüche, Stotterer, Fülllaute wie ‚äh‘ oder ‚hm‘ und auch Lacher oder Huster“, erklärt Alex Waibel vom Karlsruher Institut für Technologie (KIT). „Oft werden Worte zudem noch undeutlich ausgesprochen.“ Schon für Menschen ist es manchmal schwer, von einem solchen informellen Dialog eine akkurate Transkription anzufertigen.
„Einer KI fiel dies bislang noch schwerer“, sagt Waibel. Ein alltägliches Gespräch zu verfolgen und genau wiederzugeben, gilt daher als eine der größten Herausforderungen für die künstliche Intelligenz. Einem Forscherteam um Waibel ist es nun erstmals gelungen, ein Computersystem zu entwickeln, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme.