Test in der Tiefsee: Um eine neue Video-Technologie zu testen, sind Forschende bis zum Wrack der Titanic hinuntergetaucht. Dort, in 4.000 Meter Tiefe, testeten sie eine Übertragungsmethode, durch die Videokonferenzen auch mit sehr geringen Bandbreiten möglich sind – sogar das Sonar eines U-Boots reicht als Trägersignal aus. Möglich wird dies, weil Ton und Bild in Text umgewandelt und erst beim Empfänger in ein synthetisch generiertes Video umgewandelt werden.
Spätestens seit Beginn der Corona-Pandemie sind Video-Konferenzen im Trend – immer mehr Menschen kommunizieren mittels Zoom, WebEx, Skype und Co. Doch gerade in ländlichen Gegenden oder bei Überlastung des Netzes läuft dies alles andere als glatt: Weil die Bandbreite fehlt, hemmen schlechte Übertragungsqualität, Aussetzer und Verbindungsabbrüche die Kommunikation.
Titanic-Wrack als Teststandort
Eine Lösung für solche Probleme könnte nun ein Team um Alex Waibel vom Karlsruher Institut für Technologie (KIT) und der Carnegie Mellon University gefunden haben. Sie haben eine Methode entwickelt, mit der Videodaten auch bei geringer Bandbreite übertragen werden können. Möglich ist dies, weil die Daten nicht als Bild und Ton gesendet, sondern vor der Übertragung in Text umgewandelt werden. Dieser umfasst deutlich weniger Daten und kommt daher auch bei schlechter Verbindung und begrenzter Leitungskapazität durch.
Ob und wie das System funktioniert, haben die Forschenden an einem ungewöhnlichen Ort getestet: Während eines Tauchgangs zum Wrack der Titanic im Nordatlantik. „Daten aus vier Kilometer Tiefe durch Salzwasser hindurch verlustfrei zu übertragen, ist extrem schwierig“, erklärt Waibel. Denn das Meerwasser schluckt nahezu alle kurzwelligeren Radiowellen, so dass eine Übertragung vom Tauchboot zum Mutterschiff an der Wasseroberfläche nur mit Sonar funktioniert – entsprechend begrenzt ist die Bandbreite.
Vom Text zum synthetischen Video
Konkret funktioniert das neue System so: Die von der Kamera und dem Mikrophon des Rechners aufgenommenen Ton- und Bildinformationen werden von einem speziellen Programm bearbeitet. Dieses wandelt den Dialog der Sprecher in Text um und reduziert auch die Bildinformationen auf das für ein Porträtbild nötige. Diese stark reduzierten Informationen werden nun an den Adressaten geschickt – beim Praxistest im U-Boot geschah dies über Sonar.
Beim Empfänger werden die reduzierten Daten mithilfe einer weiteren Software wieder zurücktransformiert: Aus den Bildinformationen generiert das System ein synthetisches Video des Sprechers. Parallel dazu wird der Text über ein System zur Sprachausgabe wieder in akustische Sprache umgewandelt. „Im Video ist dann eine synthetische Stimme zu hören, die auf die Stimme des Sprechers übertragen wird, so dass sie wie die Stimme des Sprechers klingt“, erklärt Waibel. „Zudem wird die Video Synthese so gesteuert, dass die Lippen des Sprechers sich dabei synchron mit dem Ton bewegen.“
Auch für die Synchronisation geeignet
Das Ergebnis ist ein komplett synthetisches, erst beim Empfänger erzeugtes Video, dass aber dank modernster Technologie dennoch einer Videokonferenz ähnelt. Anders als diese kann ein solches Video aber auch über eine geringe Bandbreite übertragen werden – sogar vom Meeresgrund. „Das wird in Zukunft die Kommunikation in gesprochener Sprache erleichtern“, sagt Waibel.
Wie der Forscher erklärt, eignet sich die Technologie aber auch, um Filme in eine andere Sprache zu übersetzen oder für die lippensynchrone Vertonung von Videos.
Quelle: Karlsruher Institut für Technologie