Künstliche Intelligenz und Empathie. Vom Leben mit Emotionserkennung, Sexrobotern & Co. Catrin Misselhorn
Чтение книги онлайн.

Читать онлайн книгу Künstliche Intelligenz und Empathie. Vom Leben mit Emotionserkennung, Sexrobotern & Co - Catrin Misselhorn страница 4

СКАЧАТЬ Mikromimik (kurze, schnelle Gesichtsbewegungen, die nur Sekundenbruchteile andauern) erkennen lässt, welche Emotion jemand tatsächlich hat, auch wenn die Person dies verbergen möchte. Zwar ist nicht jeder spontan in der Lage, solche Mikroausdrücke zu erkennen. Diese Fähigkeit lässt sich jedoch nach Ekman gut trainieren. Er arbeitet mit dem Auslandsgeheimdienst (CIA), dem Verteidigungsministerium und dem nach den Terroranschlägen vom 11. September 2001 gegründeten Heimatschutzministerium (Department of Homeland Security) der USA zusammen. Die Mitarbeiter dieser Einrichtungen sollen darin geschult werden, potentielle Terroristen anhand ihrer Mikromimik zu enttarnen. Dieses Beispiel verdeutlicht den großen Reiz, den automatisierte gesichtsbasierte Emotionserkennung ausübt: Sie soll es den Nutzern – seien es staatliche oder kommerzielle Akteure – erlauben, die wahren Emotionen einer Person zu erkennen, ohne auf deren Selbstinterpretation angewiesen zu sein.

      Künstliche Systeme müssen jedoch nicht in Anlehnung an Ekmans Gesichtsbewegungskodierungssystem programmiert werden. Es ist auch möglich, sie mit Hilfe von ›Big Data‹ darauf zu trainieren, Gesichtsausdrücke als Muster in Datensätzen zu erkennen. Beide Verfahrensweisen lassen sich auch miteinander kombinieren. Die Datengrundlage besteht aus Live-Aufnahmen von Kameras, Videoaufzeichnungen, Standbildern aus Videos oder Fotos. So nutzen Firmen etwa die Profilbilder auf Datingplattformen oder Fotos menschlicher Gesichter auf Flickr. Auch wenn die Nutzer der Verwendung im Rahmen einer Creative-Commons-Lizenz zugestimmt haben, ist dies im Hinblick auf den Datenschutz nicht unproblematisch, da keine Vereinbarung mit den Firmen selbst über diese Nutzung vorlag.

      Die gesichtsbasierte Emotionserkennung geht in drei Schritten vor: Zunächst erfolgt die Gesichtserkennung, dann die Merkmalsextraktion und danach die Klassifikation der Emotion. Bei der Merkmalsextraktion können etwa die geometrischen Merkmale wie die Abstände zwischen wichtigen Gesichtspunkten oder die Geschwindigkeitsvektoren dieser Punkte verwendet werden, wenn sich der Gesichtsausdruck verändert. Ein anderes Verfahren nutzt Änderungen der Bildtextur, die sich aus der Verformung des neutralen Gesichtsausdrucks ergeben (beispielsweise Ausbuchtungen und Falten im Gesicht).

      Doch wie zuverlässig sind künstliche Systeme bei der gesichtsbasierten Emotionserkennung? Ekman vertritt die Auffassung, dass trainierte Menschen diese Aufgabe besser bewältigen als Algorithmen. Zur Unterstützung könne jedoch auf die automatisierte gesichtsbasierte Emotionserkennung durch künstliche Systeme zurückgegriffen werden. Einige Forscherteams behaupten jedoch, bereits Systeme entwickelt zu haben, die Menschen in der Erkennung von Mikroausdrücken überlegen seien.10 Allerdings hängt die Zuverlässigkeit künstlicher Systeme bei der gesichtsbasierten Emotionserkennung stark davon ab, dass Laborbedingungen herrschen: Die Bilder müssen frontal aufgenommen und sehr scharf sein und dürfen keine verdeckten Gesichtsteile enthalten. Unter Bedingungen des echten Lebens schneiden künstliche Systeme entsprechend schlechter ab.

      Die automatisierte gesichtsbasierte Emotionserkennung ist jedoch noch aus anderen Gründen umstritten. Ein Kritikpunkt lautet, dass sie den Kontext vollkommen ausblendet. Es ist fraglich, ob Gesichtsausdrücke notwendig oder hinreichend sind, um Emotionen zu erkennen. Das lässt sich anhand des Kuleshov-Effekts veranschaulichen: Lev Kuleshov war ein sowjetischer Filmemacher, der bereits zu Beginn des 20. Jahrhunderts anhand eines Kurzfilms die Kontextabhängigkeit der Emotionszuschreibung belegen wollte. In der Filmsequenz wird die Einstellung ein und desselben Männergesichts mit verschiedenen anderen Bildern abgewechselt (einem Suppenteller, einem aufgebahrten toten Mädchen und einer leichtbekleideten Frau auf einem Diwan). Diese Objekte wurden vom Publikum als Auslöser unterschiedlicher Emotionen verstanden. Je nachdem, welches Bild gezeigt wurde, interpretierten die Betrachter den Ausdruck des Gesichts als Hunger, Trauer oder sexuelles Verlangen.

      Neuere Studien haben versucht, diesen Effekt mit den Mitteln der modernen empirischen Psychologie zu bestätigen.11 Ein Algorithmus hätte in diesem Fall wohl einen neutralen Gesichtsausdruck festgestellt. Kommt er der Sache näher als die menschliche Praxis der Emotionszuschreibung, die kontextuelle Faktoren berücksichtigt? Oder verhält es sich genau umgekehrt und muss ein künstliches System an der Emotionserkennung scheitern, weil es den Kontext nicht miteinbezieht?

      Neben dem Bezugsobjekt könnte auch der soziale und kulturelle Kontext bei der Zuschreibung von Emotionen eine Rolle spielen. So besitzt ein Lächeln in der japanischen Kultur eine andere Bedeutung als in den USA oder in Europa. Für Ekman überformen kulturelle Regeln des Emotionsausdrucks lediglich die weitgehend biologisch angelegten basalen Emotionen, die sich trotzdem in Form von Mikroausdrücken ihren expressiven Weg bahnen. Emotionen sind für ihn »undichte Stellen«, an denen das ansonsten private Innenleben einer Person unfreiwillig nach außen dringt. Doch selbst wenn man ihm diesen Punkt zugesteht, sind zumindest die nicht-basalen Emotionen stark vom kulturellen Kontext abhängig, so dass die gesichtsbasierte Emotionserkennung nur einen eingeschränkten Einsatzbereich besitzt.

      Problematisch ist weiterhin, dass die gesichtsbasierte Emotionserkennung rassistischen Vorurteilen unterliegt. So wurden schwarzen Basketballspielern von einschlägigen Algorithmen selbst dann deutlich mehr negative Emotionen wie Ärger oder Verachtung zugeschrieben, wenn sie lächelten.12 Eine technische Lösung für den Umgang mit solchen Vorurteilen bestünde in einer entsprechenden Erweiterung der Datenbasis sowie der Auswahl menschlicher Annotatoren, die die Zuordnung von Gesichtsausdrücken und Emotionen in den Trainingsdaten unter Diversitätsgesichtspunkten vornehmen. Manche Firmen werben deshalb mit einer diversifizierten Datenbank.

      Die grundsätzliche Frage ist, ob eine rein technische Lösung befriedigen kann oder ob nicht immer gewisse Personengruppen ausgeschlossen sein werden. So sperrte Uber aufgrund von Fehlern bei der Gesichtserkennung die Accounts von Transgender-Fahrern.13

      Stimmbasierte Emotionserkennung

      Neben dem Gesicht kann auch der stimmliche Ausdruck zur Emotionserkennung genutzt werden. Im Vordergrund stehen hierbei nicht die Wortbedeutungen, sondern die akustischen und prosodischen Eigenschaften des Sprechens. Bereits in den 1970er und 80er Jahren gab es stimmbasierte Stresstests, die in sehr kurzen Sprachauszügen ein winziges Beben (engl. micro-tremor) mit einer Bandbreite von 8–14 Hz als unbeabsichtigtes Anzeichen psychischen Stresses erkennen sollten.14

      Im Unterschied zur gesichtsbasierten Emotionserkennung verwendet die stimmbasierte Emotionserkennung zumeist ein dimensionales Ordnungssystem. Emotionen werden nicht einem bestimmten Typus zugeordnet, sondern anhand graduierbarer Merkmale in einem Koordinatensystem verortet. Zwei Hauptdimensionen einer solchen Einteilung bilden die Valenz (positiv – negativ) und der Erregungsgrad. Diese beiden Dimensionen lassen sich als orthogonale Achsen darstellen, um deren Schnittpunkt die Emotionen kreisförmig angeordnet sind.15 Jede Emotion wird durch einen bestimmten Vektor aus Valenz und Erregung dargestellt. Das Modell kann um weitere Dimensionen wie Dominanz ergänzt werden. Diese Dimension gibt an, wie viel Kontrolle oder Macht jemand in einer Situation ausübt.

      Die stimmbasierte Analyse bezieht sich in erster Linie auf die Erregungsachse. Die Parameter lassen sich jedoch genauer ausdifferenzieren, etwa in Bezug auf Lautstärke, Tonhöhe oder Sprechgeschwindigkeit. So weist Ärger ein Muster mit gesteigerter Lautstärke und Tonhöhe auf, während bei Furcht die Tonhöhe und die Sprechgeschwindigkeit höher sind. Auch die Anzahl der Pausen sowie die Häufigkeit von Überschneidungen, die entstehen, wenn eine Person einer anderen ins Wort fällt, werden berücksichtigt.

      Ein Anwendungsfeld der stimmbasierten Emotionsanalyse sind Call-Center. Dort sollen die Stimmen von Kunden und Call-Center-Mitarbeitern analysiert werden, um herauszufinden, wann eine Situation aus dem Ruder läuft. Mitarbeiter werden anhand solcher Aufnahmen gezielt darauf trainiert, anhand bestimmter Strategien mit diesen Situationen umzugehen und die Kunden zu einem erwünschten Verhalten zu bringen. Auch für Amazons persönlichen Assistenten Alexa gibt es seit 2019 eine stimmbasierte Emotionserkennungssoftware, die die Dimensionen Valenz, Erregung und Dominanz miteinander kombiniert.16 Ein künstliches neuronales Netz wurde hierfür mit Hilfe öffentlich zugänglicher Daten trainiert.

      Einige Firmen haben СКАЧАТЬ