Wie soll ein Computer Videos korrekt erkennen lernen? Autonom, findet Hilde Kühne, nicht mehr anhand von Annotationen, sondern selbstständig. Kühnes Team schöpft dazu aus einem Pool von 100 Millionen YouTube-Videos. Zum Lernen ist der Computer mit einem künstlichen neuronalen Netz bestückt. Dabei handelt es sich um Algorithmen, die im Prinzip so funktionieren wie Nervenzellen in einem Gehirn.
„Eigentlich aber sind es mathematische Funktionen, die Zahlenkolonnen in andere Zahlenkolonnen umwandeln“, sagt Kühne. Aus jedem Videoclip erhält der Computer drei Informationen: Die eigentliche Videosequenz, die eine Bewegung zeigt, den Ton des Videos und eventuell noch Untertitel, die im Video eingeblendet werden.
Bild, Ton und Untertitel zusammen
Ein Beispiel wäre eine Sequenz aus einem Kochvideo, in der die You-Tube-Köchin eine Paprika schneidet und dabei spricht: „Jetzt schneiden wir die Paprika in Stücke.“ Gleichzeitig erscheint im Untertitel „Paprika in Stücke schneiden“. Für den Computer sind die Informationen Video, Ton und Untertitel drei Zahlenkolonnen, aus denen er mithilfe einer mathematischen Funktion drei Punkte in einem sogenannten Embedding Space errechnet, den man sich als großen, durchsichtigen Würfel vorstellen kann.
Kühne erklärt: „Wir wollen eine mathematische Funktion finden, die die drei Zahlenkolonnen zur Bewegung ’schneiden‘ so übersetzt, dass sie drei nahe beieinanderliegende Punkte im Embedding Space bilden. Video-, Ton- und Untertiteldaten einer anderen Bewegung wie zum Beispiel ‚winken‘ sollte entsprechend drei Punkte an einer anderen Stelle des Embedding Space generieren.“
Von der Punktgruppe zum Begriff
Das Training des Computers besteht nun darin, viele Videos zu analysieren und für verschiedene Bewegungen jeweils Punktegruppen im Embedding Space zu generieren. Im nächsten Schritt zeigen die Informatikerinnen und Informatiker dem Computer annotierte Videos, sodass er die Punktegruppen mit den dazugehörigen Begriffen wie „schneiden“ oder „winken“ verknüpfen kann und nun „weiß“, wie die jeweiligen Bewegungen genannt werden.
Irgendwann soll der Computer dann die verschiedensten Bewegungen erkennen können, auch wenn sie Teile eines längeren Videos mit vielen Szenen sind. Er wird dieselben Bewegungen der Klassifikation „schneiden“ zuordnen, auch wenn die Sprecher in den Videos statt „schneiden“ von „schnibbeln“, „zerteilen“, „auslösen“ oder „klein-“ , „ab-“ oder „zuschneiden“ sprechen. Und er wird auch unterscheiden können, ob Gemüse, die Gartenhecke oder ein Video geschnitten wird.