Original-URL des Artikels: https://www.golem.de/news/dfki-projekt-empat-ein-laecheln-macht-noch-keinen-frohsinn-1902-139370.html    Veröffentlicht: 15.02.2019 12:05    Kurz-URL: https://glm.io/139370

Emotionen erkennen

Ein Lächeln macht noch keinen Frohsinn

Wer lächelt, ist froh - zumindest in der Interpretation eines Computers. Die gängigen Systeme zur Emotionserkennung interpretieren den Gesichtsausdruck als internes Gefühl. Die interne Gefühlswelt ist jedoch sehr viel komplexer. Ein Projekt des DFKI entwickelt ein System, das Gefühle besser erkennen soll.

"Frau Schneider" steht an der Tür zu dem Büro im Institut für Informatik der Universität des Saarlands in Saarbrücken. Sie ist Trainerin für Bewerbungsgespräche. Doch als Patrick Gebhard die Tür aufschließt, ist niemand im Raum. Zu sehen ist nur ein Tisch, zwei Kameras und ein großer Bildschirm. Auf diesem existiert Frau Schneider.

Die Trainerin ist eine virtuelle Figur, ein Avatar - und recht forsch: "Bevor wir beginnen, eine kurze Frage: Woher haben Sie denn dieses Outfit? Irgendwie passt Ihnen das nicht wirklich", teilt sie der Probandin auf der anderen Seite des Tisches mit und fragt, als sei diese nicht schon verlegen genug, gleich nach der Eignung für die ausgeschriebene Stelle.

Die Antwort scheint der virtuellen Frau Schneider nicht zu gefallen: "Was Sie erzählt haben, haben alle anderen Bewerber auch schon gesagt. Sie haben da jetzt nicht gerade herausgestochen", entgegnet sie schnippisch und macht gleich offensiv weiter: "Wie gehen Sie mit Kritik um?" Zwar kann die Probandin kontern, sie könne gut mit Kritik umgehen, doch die Verunsicherung ist ihr anzumerken.

So läuft nicht jedes Training. Für die Vorführung hat Patrick Gebhard, Leiter der Forschungsgruppe Affective Computing Group des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI), eine Variante mit schambehafteten Fragen ausgewählt, bei denen das Aussehen oder die Fähigkeiten der Person direkt infrage gestellt werden. Auf einem Tablet sieht Gebhard genau, wo im Ablauf das Gespräch gerade ist, auch, ob im technischen Aufbau alles funktioniert, wie es soll. Im Notfall kann er darüber auch in ein Gespräch eingreifen.

Wichtig ist die Reproduzierbarkeit: Die Gespräche laufen nach vorgefertigten Skripten ab, die von Soziologen und Psychologen, aber auch von Theaterautoren verfasst werden. Sie sind für alle Probanden gleich. Zur Gegenprobe lassen die Forscher noch Interviews mit Schauspielern führen. Sie können dann vergleichen, ob die Kommunikation mit einem Menschen anders verläuft als mit einer virtuellen Figur. Das gelte vor allem für die schambehafteten Fragen, sagt Gebhard.

Ziel des Projekts ist es, Probanden, vor allem Jugendliche, auf ein Bewerbungsgespräch vorzubereiten. "Damit habe ich die Interview-Situation schon einmal erlebt und weiß, was auf mich zukommt", beschreibt Projektleiter Gebhard. So etwas lasse sich mit einem Buch oder einem Videotraining nicht simulieren.

Der Avatar ist unparteiisch

Einen Coach zum Trainieren kann sich nicht jeder leisten, die Menschen im persönlichen Umfeld sind oft nicht unvoreingenommen. "Mit den Eltern ist es vielleicht schwierig, weil sie Erwartungen an ihr Kind haben. Der Freund oder der Kollege könnten Rivalen sein, auch wenn ihnen das gar nicht bewusst ist", sagt Gebhard. "Das alles ist die interaktive Figur nicht." Mit dem System auf dem Smartphone oder dem Tablet könne sich ein Bewerber in eine sichere Situation zurückziehen und entspannt mit dem Avatar üben.

Es muss aber keine Bewerbung sein: Mit einem solchen System lässt sich jede Art von Verhandlungen trainieren, eigentlich fast alle sozialen Interaktionen. Das DFKI sei schon mit verschiedenen Firmen im Gespräch, die solche Trainingssysteme entwickelten.

Aber, sagt der Wissenschaftler: Das Training sei nur eine Funktion der Bewerbungsgespräche. Die andere sei es, Daten zu sammeln, Daten über menschliches Verhalten.

Versuch einer Theorie für computerlesbare Gefühle

Während die Probandin die Fragen von Frau Schneider über sich ergehen lässt, zeichnen ein Mikrofon und eine Tiefenkamera ihre Antworten, vor allem aber ihre Reaktionen, auf: Wo schaut sie hin, wie bewegt sie Kopf und Oberkörper, welche Mienen zieht sie?

Allein für die Augen haben die Forscher vier Kanäle reserviert: Sind sie offen oder schließt die Probandin sie? Wohin schaut sie: nach links oder rechts, nach oben oder unten? Auch das übrige Gesicht wird beobachtet, das Spiel der Brauen oder des Mundes, ob sie lächelt oder die Mundwinkel nach unten wandern.

Dann erfasst das System die Haltung des Oberkörpers: Ist er er nach vorn gebeugt oder nach hinten, aufrecht oder krumm? Was macht sie mit ihren Armen? Daraus lässt sich schließen, wie engagiert die Probandin dem Gespräch folgt. Die gesprochene Antwort wird ebenfalls erfasst: Was sagt sie? Wie ist die Sprachmelodie? "Aber wir fokussieren uns auf die nonverbalen Signale, also wie sie reagiert", sagt Gebhard.

Was bedeutet ein Lachen?

Ziel ist es, ein computergestütztes System zu entwickeln, das Gefühle eines Menschen simulieren kann, die mit dem individuellen Situationserleben einhergehen. "Der erste Ansatz, der auch der etablierte ist, ist, dass wir die Gefühle, die wir im Gesicht und in der Stimme erkennen, auch als interne Gefühle annehmen. Das heißt, wenn ich lächele, attributiere ich diese Situation als gute Situation", sagt Gebhard. Aber wie oft überspielen wir Unsicherheit oder Ärger mit einem Lächeln? "Also, wenn ich im Gesicht lache, bedeutet das nicht, dass ich mich freue. Das ist aber Stand der Dinge in der Informatik. Die Informatiker sind gute Mustererkenner. Aber das Modell hintendran fehlt noch: Was bedeutet dann das Lachen eigentlich?", sagt Gebhard.

Außerdem funktioniert ein solches System nur, wenn es auch Daten gibt. Was aber, wenn ein Proband keine erfassbaren Regungen zeigt? Auch das hätten sie schon gehabt, erzählt Gebhard: Ein Proband in Frankreich habe erst gar nicht auf den Avatar reagiert - und dann den Bildschirm aus dem Fenster geworfen. "Das ist das Schlimmste für einen Informatiker, weil er dann nichts messen kann."

Gesichtsausdruck und Sprachmelodie zu betrachten, zeige nur die sogenannten kommunikativen Emotionen, erklärt Gebhard. Die Mimik mit der Gefühlslage gleichzusetzen, greift also zu kurz. "Es gibt Gefühle, die kann ich kommunizieren, und es gibt interne Gefühle, die sagen etwas aus über mich selber und über die Situation. Die Gefühle über mich selber nennen wir strukturelle Gefühle, die über die Situation situationale Gefühle."

Wie lassen sich Gefühle erkennen?

Wie aber lassen sich solche internen Gefühle von außen erkennen? Im Rahmen des Projekts Empathische Trainingsbegleiter für den Bewerbungsprozess (EmpaT) haben die DFKI-Forscher zusammen mit Forschern der Universität Augsburg um Elisabeth André ein erweitertes Computermodell erzeugt, das die Emotionsregulation von Gefühlen mit einbezieht. Das System erkennt vier Regulationsstrategien und kann daran bewerten, wie engagiert die Person an dem Gespräch teilnimmt - oder besser: "Welchen Hinweis geben all diese sozialen Signale auf mögliche Regulationsprozesse, die beim Menschen stattfinden", sagt Gebhard.

Das System erfasst, dass da eventuell eine Regulation stattfindet - also dass die Person etwas überspielt. "Das haben wir in ein kognitives Computermodell für Gefühle eingebaut, in dem wir eine Situationsrepräsentation drin haben, wie ein Mensch eine Situation bewerten kann", sagt Gebhard - wobei die Betonung auf "kann" liege. "Damit der Computer versteht, was in einer Person passiert, müsste das Programm in Dialog mit ihr treten, um herauszufinden, was sie da gedacht hat."

Das macht es nicht.

Computer simuliert Emotionszustände

Stattdessen, sagt Gebhard, erstelle es "verschiedene Situationsmodelle, was in dem Menschen passieren könnte. Das heißt, das System baut sich - deshalb Simulation von Gefühlen und nicht Erkennen - mögliche interne virtuelle Situationen, wie es in dem anderen Menschen aussehen könnte, basierend auf einer ersten Annahme, wie ein Mensch das interpretieren könnte."

Das System beschränkt sich aber nicht nur auf eine Annahme, sondern dekliniert mehrere Ausgangssituationen mit den vier Regulationsregeln durch, die dann neue Situationen produzieren. Insgesamt erzeugt es so 64 Modelle, wie es in dem Menschen gerade aussehen könnte. Welche davon diejenige ist, die den tatsächlichen emotionalen Status des Probanden repräsentiert, lässt sich nur in der Rückkopplung mit diesem erfahren. Das System wählt die wahrscheinlichsten aus, die der Testperson dann zur Beurteilung vorgelegt werden sollen.

Das macht zum Beispiel der Emotionale mobile Assistent (Emma), eine von dem DFKI-Team entwickelte Smartphone-App, die die Wiedereingliederung von Burn-out-Patienen in den Berufsalltag überwacht. Der Nutzer bespricht am Abend mit dem Avatar, wie der Tag verlaufen ist. Emma versucht dann zu ergründen, wie es ihm geht. "Wir gehen davon aus, dass das Nonverbale reicht, um festzustellen: Ist das eine schwierige Situation?", erzählt Gebhard.

Der digitale Assistent gibt Hinweise

Was also tatsächlich in einer Person vorgeht - der Probandin, als die virtuelle Frau Schneider sie mit unangenehmen Fragen löchert, oder dem Patienten nach dem Arbeitstag -, das weiß nur die Person selbst - so sie sich selbst transparent genug ist. In dem Fall kann die Probandin Gebhard und seinen Forscherkollegen Rückmeldung geben, wie gut ihr System ist, oder der Patient, so er das will, seinem Arzt. Falls nicht, bekommen sie für sich zumindest einen Hinweis, zu überlegen, was in dem Moment in ihnen vorgegangen ist. Und damit hätte das Trainingssystem auf jeden Fall seinen Zweck erreicht.

Ein System, das einen Menschen beobachtet und dann seine Emotionen erkennt, hält Gebhard für unmöglich. Dazu seien die Menschen zu unterschiedlich. Im Umkehrschluss bedeutet das: Das System wird sich auch nicht für die Überwachung einsetzen lassen. Die Angst davor sei allerdings durchaus vorhanden, sagt Gebhard.

Er nimmt diese sehr ernst, hält jedoch dagegen: "Wenn man sich die Fahrassistenzsysteme ansieht, da gibt noch einige Hürden, die man überwinden muss. Der Freiheitsgrad, den eine soziale Kommunikation mit sich bringt, ist exponentiell komplexer. Da geht es ja nicht nur um links, rechts, bremsen und Gas geben, sondern da ist alles Mögliche involviert. Jeder Mensch ist unterschiedlich groß geworden, hat unterschiedliche Dinge erlebt. Daraus kann man schließen, dass jeder eine Situation vollkommen unterschiedlich interpretiert", resümiert er.  (wp)


Verwandte Artikel:
NEC: SoC für DivX Plus HD angekündigt   
(18.08.2009, https://glm.io/69143 )
OpenAI: KI erfindet Geschichten von Gimli, Legolas und dem Brexit   
(15.02.2019, https://glm.io/139425 )
EMotion: Fisker-Elektroauto soll in 9 Minuten Strom für 200 km laden   
(22.08.2017, https://glm.io/129606 )
Wenn Spiele auf Emotionen reagieren   
(31.03.2006, https://glm.io/44398 )
Mars: Planet der Roboteraffen   
(04.09.2018, https://glm.io/136267 )

© 1997–2020 Golem.de, https://www.golem.de/