Künstliche Intelligenz

KI als Simultan-Dolmetscher

Künstliche Intelligenz von Meta übersetzt aus 100 Sprachen ohne Umweg über Transkription

KI-Dolmetscher
Meta hat einen KI-Dolmetscher entwickelt, der Speech-to-Speech-Übersetzungen ohne Umweg über die Transkription erstellen kann. © Thiradet Surathot/ iStock

KI als „Babel fish“: Ein neues KI-System kann gesprochene Sprache direkt in eine andere übersetzen – ohne Umweg über mehrere verknüpfte KI-Modelle und transkribierten Text, wie bisher meist üblich. Insgesamt beherrscht die „SEAMLESSM4T“ getaufte künstliche Intelligenz 101 Sprachen als Input und kann in 36 Sprachen sprechen. Möglich wird dies durch ein spezielles Training des von Meta entwickelten Open-Source-KI-Modells, wie das Team in „Nature“ berichtet.

Ob Google Translator, Copilot oder DeepL: Übersetzungshilfen auf Basis von künstlicher Intelligenz sind heute längst alltäglich. Millionen Menschen nutzen sie, um fremdsprachige Texte zu lesen oder mit Menschen anderer Sprache zu kommunizieren.

Audio-zu-Audio statt Umweg über Text

Doch bisher sind die meisten dieser Systeme schriftbasiert. Um auch gesprochenen Text zu übersetzen, werden daher mehrere KI-Modelle miteinander gekoppelt: Eines transkribiert das Gehörte, ein zweites übersetzt es in geschriebenen Text und ein Text-to-Speech-Modell übernimmt dann die Audioausgabe. Das erfordert jedoch entsprechend viel Rechenleistung und Energie und macht eine weitere Skalierung solcher Modelle schwierig.

Sprachen der KI-Übersetzer
Vergleich der beherrschten Ein- und Ausgabe-Sprachen von SEAMLESSM4T und anderen KI-Modellen. © Name /CC-by-nc-nd 4.0

Einen anderen Ansatz haben nun Forschende vom Meta-Forschungszentrum FAIR um Loïc Barrault gewählt: Sie haben ein KI-Modell entwickelt, das gesprochene Sprache direkt, ohne Umweg über die Transkription, dolmetschen kann. Das „SEAMLESSM4T“ getaufte KI-System kann 101 gesprochene Sprachen verstehen und in 36 gesprochene Sprachen übersetzen. Bei Speech-to-Text-Übersetzungen beherrscht es 96 Ausgabesprachen. Damit ist dieser KI-Dolmetscher deutlich polyglotter als bisherige Speech-to-Speech oder Speech-to-Text-Übersetzer, wie das Team berichtet.

Training mit multilingualen Datenpaaren

Vorbild für den neuen KI-Übersetzer war der „Babel fish“ aus dem Science-Fiction-Roman „Per Anhalter durch die Galaxis“. Dieser kleine Fisch kann – ins Ohr des Nutzers gesteckt – alle Sprachen des Universums simultan übersetzen. „Einen solchen Babelfish zu erschaffen, erfordert allerdings fortgeschrittene, innovative Technologien und linguistische Expertise“, erklären Barrault und seine Kollegen.

Basis von SEAMLESSM4T bildet ein KI-Modell, das mit rund 4,5 Millionen Stunden Audiodaten aus dem Internet trainiert wurde. Die künstliche Intelligenz lernte dabei zu erkennen, wann eine Audio-Input mit einem zweiten inhaltlich übereinstimmt – beispielsweise ein Videoclip in einer Sprache mit Untertiteln in einer anderen. Barrault und sein Team stellten dafür zunächst 330.000 Stunden solcher passenden Paare zusammen, anschließend trainierte das KI-Modell selbstständig weiter.

Besser als gängige Systeme…

Wie gut der KI-Dolmetscher funktioniert, testeten die Forschenden anschließend im Vergleich zu anderen, auf kaskadierenden KI-Systemen aufgebauten Übersetzungsprogrammen für Speech-to-Speech, Speech-to-Text, Text-to-Text und Text-to-Speech. Das Ergebnis: „SEAMLESSM4T übertrifft die existierenden Top-Systeme. Es erreicht acht Prozent höhere Werte bei Sprache-zu-Text und 23 Prozent höhere Werte bei Sprache-zu-Sprache-Aufgaben“, berichten Barrault und seine Kollegen.

Ebenfalls die Nase vorn hat die neue Dolmetscher-KI beim Übersetzen in lauten, von Stimmengewirr erfüllten Räumen, wie ein weiterer Test ergab. „SEAMLESSM4T-V2 ist dabei im Schnitt 42 bis 66 Prozent resilienter gegen Hintergrundgeräusche und Sprechervariationen“, schreibt das Team. Positiv auch: Das KI-Modell ist – ähnlich wie schon die META-KI Llama – Open Source. Das ermöglicht es beispielsweise, das Grundmodell dieses KI-Übersetzers an eigene Bedürfnisse anzupassen.

…aber noch nicht perfekt

Nach Ansicht von Barrault und seinem Team eröffnet die neue Dolmetscher-KI neue Chancen, Menschen auch über Sprachbarrieren hinweg zu verbinden und die gesprochene Kommunikation zu erleichtern. Hilfreich könnte das KI-System zudem für sehbehinderte oder blinde Menschen sowie für Personen ohne Lesefähigkeit sein. „Durch SEAMLESSM4T unterstützte Anwendungen können Nutzer in multilingualen Konversationen unterstützen und ihr Selbstvertrauen in solchen Interaktionen fördern“, so die Forschenden.

Allerding räumt das Team auch ein, dass ihre künstliche Intelligenz – ähnlich wie bisher gängige KI-Übersetzer – noch einige Probleme mit sprachlichen Dialekten, Nuscheln oder anderen Abweichungen von der Standardsprache hat. Auch KI-typische Halluzinationen lassen sich nicht ganz ausschließen. Sie sehen in SEAMLESSM4T-Anwendungen daher eher eine Ergänzung zum Sprachenlernen oder menschlichen Dolmetschern als ein völliger Ersatz – und als „Work in Progress“. (Nature, 2025; doi: 10.1038/s41586-024-08359-z)

Quelle: Nature

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Andromedagalaxie

Andromedagalaxie so groß wie nie

Pompeji: Luxuriöses Badehaus freigelegt

KI als Simultan-Dolmetscher

Fatigue-Syndrom nach Corona achtmal häufiger als ohne

Diaschauen zum Thema

Dossiers zum Thema

Bücher zum Thema

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Top-Clicks der Woche