Technik

Autonomes Lernen

Wie Computer sich selbst trainieren

Wie soll ein Computer Videos korrekt erkennen lernen? Autonom, findet Hilde Kühne, nicht mehr anhand von Annotationen, sondern selbstständig. Kühnes Team schöpft dazu aus einem Pool von 100 Millionen YouTube-Videos. Zum Lernen ist der Computer mit einem künstlichen neuronalen Netz bestückt. Dabei handelt es sich um Algorithmen, die im Prinzip so funktionieren wie Nervenzellen in einem Gehirn.

Kochvideo
Das lernfähige Computersystem wertet Bild, Ton und Untertitel von You-Tube-Videos aus – und lernt so Zusammenhänge.© reklamlar/ Getty images

„Eigentlich aber sind es mathematische Funktionen, die Zahlenkolonnen in andere Zahlenkolonnen umwandeln“, sagt Kühne. Aus jedem Videoclip erhält der Computer drei Informationen: Die eigentliche Videosequenz, die eine Bewegung zeigt, den Ton des Videos und eventuell noch Untertitel, die im Video eingeblendet werden.

Bild, Ton und Untertitel zusammen

Ein Beispiel wäre eine Sequenz aus einem Kochvideo, in der die You-Tube-Köchin eine Paprika schneidet und dabei spricht: „Jetzt schneiden wir die Paprika in Stücke.“ Gleichzeitig erscheint im Untertitel „Paprika in Stücke schneiden“. Für den Computer sind die Informationen Video, Ton und Untertitel drei Zahlenkolonnen, aus denen er mithilfe einer mathematischen Funktion drei Punkte in einem sogenannten Embedding Space errechnet, den man sich als großen, durchsichtigen Würfel vorstellen kann.

Kühne erklärt: „Wir wollen eine mathematische Funktion finden, die die drei Zahlenkolonnen zur Bewegung ’schneiden‘ so übersetzt, dass sie drei nahe beieinanderliegende Punkte im Embedding Space bilden. Video-, Ton- und Untertiteldaten einer anderen Bewegung wie zum Beispiel ‚winken‘ sollte entsprechend drei Punkte an einer anderen Stelle des Embedding Space generieren.“

Von der Punktgruppe zum Begriff

Das Training des Computers besteht nun darin, viele Videos zu analysieren und für verschiedene Bewegungen jeweils Punktegruppen im Embedding Space zu generieren. Im nächsten Schritt zeigen die Informatikerinnen und Informatiker dem Computer annotierte Videos, sodass er die Punktegruppen mit den dazugehörigen Begriffen wie „schneiden“ oder „winken“ verknüpfen kann und nun „weiß“, wie die jeweiligen Bewegungen genannt werden.

Irgendwann soll der Computer dann die verschiedensten Bewegungen erkennen können, auch wenn sie Teile eines längeren Videos mit vielen Szenen sind. Er wird dieselben Bewegungen der Klassifikation „schneiden“ zuordnen, auch wenn die Sprecher in den Videos statt „schneiden“ von „schnibbeln“, „zerteilen“, „auslösen“ oder „klein-“ , „ab-“ oder „zuschneiden“ sprechen. Und er wird auch unterscheiden können, ob Gemüse, die Gartenhecke oder ein Video geschnitten wird.

  1. zurück
  2. |
  3. 1
  4. |
  5. 2
  6. |
  7. 3
  8. |
  9. 4
  10. |
  11. 5
  12. |
  13. weiter
Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

Inhalt des Dossiers

Videoerkennung: Ist es Kochen oder Winken?
Wie Computer lernen, unsere Bewegungen zu erkennen

Alarm im Notfall
Wer überwacht das Wohlergehen älterer Menschen?

Was sehe ich da?
Warum das Erkennen von Bewegungen so schwierig ist

Autonomes Lernen
Wie Computer sich selbst trainieren

Computer als "Videowächter"
Wertvolle Hilfe oder totale Überwachung?

Diaschauen zum Thema

News zum Thema

keine News verknüpft

Dossiers zum Thema