Deep Learning: Algorithmus sagt menschliche Verhaltensweisen voraus
Umarmung oder high-five? Kuss oder Handschlag? Ein Algorithmus soll anhand eines Bildes erkennen, was darauf abgebildete Menschen als Nächstes machen. Er lernte das durch Fernsehgucken.

Zwei Menschen stehen sich gegenüber. Was passiert als Nächstes? Werden sie sich die Hand reichen, abklatschen, umarmen? Forscher des Massachusetts Institute of Technology (MIT) haben einen Deep-Learning-Algorithmus entwickelt, der das vorhersagen soll. Dazu haben sie ihn mit Fernsehserien gefüttert.
Handlungen vorherzusehen, bevor sie passieren, sei ein schwieriges Problem beim Computersehen, schreiben die Forscher um Carl Vondrick. Die Aufgabe sei schwierig, weil sie ein umfangreiches Wissen über die Welt erfordere. Es sei aber schwierig, das aufzuschreiben. "Wir glauben, dass ohne weiteres verfügbare, nicht gekennzeichnete Videos ein gutes Mittel sind, um sich dieses Wissen effizient anzueignen."
Algorithmus schaute 600 Stunden lang Serien
Die Forscher ließen den Algorithmus rund 600 Stunden lang bekannte Fernsehserien analysieren, darunter beispielsweise Big Bang Theory, Desperate Housewives oder The Office. Er lernte, was Händeschütteln, eine Umarmung oder ein Kuss bedeuten und wie es dazu kommt: Welche Interaktion führt dazu, dass zwei Menschen sich umarmen, welche dazu, dass sie abklatschen?
Nach dieser langen Lernphase musste der Algorithmus zeigen, was er draufhat: Die Forscher des Computer Science and Artificial Intelligence Laboratory (Csail) legten ihm ein Einzelbild aus einem Video vor, das er vorher noch nicht gesehen hatte. Daraus sollte er schließen, was als Nächstes passiert.
Der Mensch erkennt besser
Noch ist das Ergebnis nicht sehr überzeugend: In 43 Prozent, also nicht einmal der Hälfte der Fälle, lag der Algorithmus richtig. Zum Vergleich: Ein Mensch sagt eine solche Situation in 71 Prozent der Fälle richtig vorher, eine Gruppe von Menschen sogar in 85 Prozent der Fälle. Aber immerhin ist der MIT-Algorithmus besser als die Konkurrenten, deren Trefferquote bei etwa 36 Prozent liegt.
Ziel des Projekts ist, einen Algorithmus zu entwickeln, der unmittelbar bevorstehende Handlungen erkennen kann. Das soll es beispielsweise Robotern vereinfachen, sich zwischen Menschen zu bewegen und mit ihnen zu interagieren. Eine andere Anwendung wären Kameras, etwa in öffentlichen Plätzen, die erkennen, wenn ein Mensch fällt und dann den Krankenwagen alarmieren.
Vondrick will den Algorithmus auf der International Conference on Computer Vision and Pattern Recognition vorstellen, die derzeit in Las Vegas stattfindet.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
wir glauben an einen freien Willen.
you made my day :D
Dachte ich mir auch. Als dann auch noch "the big bang theory" als Serie genannt wurde...
Als ich Prinzeumel gelesen hatte wusste ich sofort, das was jetzt kommt ist gespickt mit...