Wie soll ein Computer Videos korrekt erkennen lernen? Autonom, findet Hilde Kühne, nicht mehr anhand von Annotationen, sondern selbstständig. Kühnes Team schöpft dazu aus einem Pool von 100 Millionen YouTube-Videos. Zum Lernen ist der Computer mit einem künstlichen neuronalen Netz bestückt. Dabei handelt es sich um Algorithmen, die im Prinzip so funktionieren wie Nervenzellen in einem Gehirn.

„Eigentlich aber sind es mathematische Funktionen, die Zahlenkolonnen in andere Zahlenkolonnen umwandeln“, sagt Kühne. Aus jedem Videoclip erhält der Computer drei Informationen: Die eigentliche Videosequenz, die eine Bewegung zeigt, den Ton des Videos und eventuell noch Untertitel, die im Video eingeblendet werden.
Bild, Ton und Untertitel zusammen
Ein Beispiel wäre eine Sequenz aus einem Kochvideo, in der die You-Tube-Köchin eine Paprika schneidet und dabei spricht: „Jetzt schneiden wir die Paprika in Stücke.“ Gleichzeitig erscheint im Untertitel „Paprika in Stücke schneiden“. Für den Computer sind die Informationen Video, Ton und Untertitel drei Zahlenkolonnen, aus denen er mithilfe einer mathematischen Funktion drei Punkte in einem sogenannten Embedding Space errechnet, den man sich als großen, durchsichtigen Würfel vorstellen kann.
Kühne erklärt: „Wir wollen eine mathematische Funktion finden, die die drei Zahlenkolonnen zur Bewegung ’schneiden‘ so übersetzt, dass sie drei nahe beieinanderliegende Punkte im Embedding Space bilden. Video-, Ton- und Untertiteldaten einer anderen Bewegung wie zum Beispiel ‚winken‘ sollte entsprechend drei Punkte an einer anderen Stelle des Embedding Space generieren.“