Die meisten von uns begegneten ihnen zunächst durch das Navigationsgerät im Auto. Heute sprechen sie auch an Bahnhöfen und Flughäfen, in Fahrstühlen, aus Smartphones und heimischen Lautsprecherboxen zu uns: Synthetische Stimmen durchdringen zunehmend unseren Alltag. Selbst aus Haushaltsgeräten wie Wäschetrocknern tönen sie inzwischen.
Waren die ersten Computerstimmen noch klar als solche zu erkennen, klingen moderne Versionen immer natürlicher. Egal ob Siri, Google Assistent oder Alexa: Kunststimmen sollen heute möglichst menschlich erscheinen – und das gelingt den Entwicklern bereits erstaunlich gut. Mittlerweile ist es technisch sogar möglich, die Stimmen echter Personen zu kopieren. Schon kurze Stimmproben von weniger als einer Minute reichen dafür.
Perfekt unperfekt
Damit synthetische Sprachausgaben wie Menschen klingen, muss aber nicht nur die Stimme selbst lebensecht daherkommen. Auch die Sprechweise ist entscheidend. So hat Amazons Alexa gelernt, zu flüstern und Googles telefonierender Assistent Duplex gerät mitunter ins Stocken und streut „Mmhs“ und „Ähs“ ins Gespräch ein. Es ist diese scheinbare Imperfektion, dank der das System kaum noch von einem echten Menschen zu unterscheiden ist. Menschlich zu sprechen, bedeutet, nicht perfekt zu sprechen.
Sprechende Maschinen wie Menschen klingen zu lassen ist das eine. Doch wie schafft man es, dass sie auf den Hörer auch sympathisch wirken? Wissenschaftler auf der ganzen Welt forschen derzeit daran, durch welche Mittel Kunststimmen soziale Effekte erzeugen und ihr menschliches Gegenüber auf emotionaler Ebene ansprechen.