Zum Hauptinhalt Zur Navigation

Deep Learning: Algorithmus sagt menschliche Verhaltensweisen voraus

Umarmung oder high-five? Kuss oder Handschlag? Ein Algorithmus soll anhand eines Bildes erkennen, was darauf abgebildete Menschen als Nächstes machen. Er lernte das durch Fernsehgucken.
/ Werner Pluta
25 Kommentare News folgen (öffnet im neuen Fenster)
Marcia Cross (l.) und Felicity Huffman: Was passiert als Nächstes? (Bild: Mark Mainz/Getty Images)
Marcia Cross (l.) und Felicity Huffman: Was passiert als Nächstes? Bild: Mark Mainz/Getty Images

Zwei Menschen stehen sich gegenüber. Was passiert als Nächstes? Werden sie sich die Hand reichen, abklatschen, umarmen? Forscher des Massachusetts Institute of Technology (MIT) haben einen Deep-Learning-Algorithmus entwickelt, der das vorhersagen soll. Dazu haben sie ihn mit Fernsehserien gefüttert.

Vorhersage-Algorithmus: Was passiert als nächstes – MIT
Vorhersage-Algorithmus: Was passiert als nächstes – MIT (00:54)

Handlungen vorherzusehen, bevor sie passieren, sei ein schwieriges Problem beim Computersehen, schreiben die Forscher um Carl Vondrick(öffnet im neuen Fenster) . Die Aufgabe sei schwierig, weil sie ein umfangreiches Wissen über die Welt erfordere. Es sei aber schwierig, das aufzuschreiben. "Wir glauben, dass ohne weiteres verfügbare, nicht gekennzeichnete Videos ein gutes Mittel sind, um sich dieses Wissen effizient anzueignen."

Algorithmus schaute 600 Stunden lang Serien

Die Forscher ließen den Algorithmus rund 600 Stunden lang bekannte Fernsehserien analysieren, darunter beispielsweise Big Bang Theory, Desperate Housewives oder The Office. Er lernte, was Händeschütteln, eine Umarmung oder ein Kuss bedeuten und wie es dazu kommt: Welche Interaktion führt dazu, dass zwei Menschen sich umarmen, welche dazu, dass sie abklatschen?

Nach dieser langen Lernphase musste der Algorithmus zeigen, was er draufhat: Die Forscher des Computer Science and Artificial Intelligence Laboratory (Csail) legten ihm ein Einzelbild aus einem Video vor, das er vorher noch nicht gesehen hatte. Daraus sollte er schließen, was als Nächstes passiert.

Der Mensch erkennt besser

Noch ist das Ergebnis nicht sehr überzeugend: In 43 Prozent, also nicht einmal der Hälfte der Fälle, lag der Algorithmus richtig. Zum Vergleich: Ein Mensch sagt eine solche Situation in 71 Prozent der Fälle richtig vorher, eine Gruppe von Menschen sogar in 85 Prozent der Fälle. Aber immerhin ist der MIT-Algorithmus besser als die Konkurrenten, deren Trefferquote bei etwa 36 Prozent liegt.

Ziel des Projekts ist, einen Algorithmus zu entwickeln, der unmittelbar bevorstehende Handlungen erkennen kann. Das soll es beispielsweise Robotern vereinfachen, sich zwischen Menschen zu bewegen und mit ihnen zu interagieren. Eine andere Anwendung wären Kameras, etwa in öffentlichen Plätzen, die erkennen, wenn ein Mensch fällt und dann den Krankenwagen alarmieren.

Vondrick will den Algorithmus auf der International Conference on Computer Vision and Pattern Recognition(öffnet im neuen Fenster) vorstellen, die derzeit in Las Vegas stattfindet.


Relevante Themen