Der AI-Agent mit hoher Emotional-Intelligenz ist da. Das Team von der Universität Cambridge hat den evolutionären RL-Frameworks EvoEmo vorgestellt, der erfolgreich "verhandelt" hat, indem es Ärger und Traurigkeit gezeigt hat.
In unserem täglichen Leben ist Verhandlung allgegenwärtig: Beim Online-Einkauf sagen wir "Verkäufer, senke den Preis um 50", dann bestellen wir; beim Mietvertrag verhandeln wir mit dem Vermieter um "ein Monatsmietpreis als Kaution und die monatliche Zahlung"; im Berufsleben vereinbaren wir die Kooperationsdetails mit den Kunden... In solchen Situationen ist die "Emotionskompetenz" oft der Schlüssel. Zum Beispiel können wir uns zögern lassen und sagen "Das Budget reicht wirklich nicht mehr", oder wir können unseren Wunsch angemessen zum Ausdruck bringen. So können wir die Verhandlung in eine für uns günstigere Richtung lenken.
Für KI ist die Verhandlung jedoch ein großes Problem.
Die meisten vorhandenen LLM-Agenten ignorieren die funktionale Rolle von Emotionen in der Verhandlung. Die von ihnen generierten emotionalen Reaktionen sind oft passiv und präferenzgetrieben, und können leicht von Gegnern manipuliert und ausgenutzt werden. Selbst die fortschrittlichsten LLMs hauen oft in mehrrundigen Verhandlungen fehl: Entweder bleiben sie während der ganzen Verhandlung "höflich", und werden von Gegnern leicht ausgespielt; oder sie können nicht unterscheiden, ob der Gegner wirklich eilig ist oder nur vorgebt, und machen leicht Zugeständnisse.
Kürzlich haben ein Team der Universität Cambridge und seine Partner gemeinsam einen evolutionären Verstärkungslernrahmen namens "EvoEmo" vorgeschlagen, um das Defizit von LLMs in der "emotionalen Verhandlung" auszugleichen. Die dazugehörige Forschungsarbeit wurde auf der Vorabveröffentlichungsplattform arXiv veröffentlicht.
Link zur Forschungsarbeit: https://arxiv.org/abs/2509.04310
Eine Vielzahl von Experimenten und Ablationsstudien zeigen, dass EvoEmo in Bezug auf Erfolgsrate, Effizienz und Kosteneinsparung für Käufer Durchbrüche erzielt hat. Diese Entdeckung betont die Schlüsselrolle der adaptiven emotionalen Expression für die Verbesserung der Effektivität von LLMs in mehrrundigen Verhandlungen.
Die traditionelle LLM-Verhandlung: Drei Defizite bremsen die Leistung
Warum waren die KI-Verhandlungen bisher immer enttäuschend?
Eine Vielzahl von Verhaltensstudien zeigt, dass menschliche Entscheidungen systematisch von der Annahme der klassischen Ökonomie über reine Rationalität abweichen und von psychologischen Vorurteilen und emotionalen Zuständen dynamisch geprägt werden, nicht nur von stabilen Persönlichkeitseigenschaften.
Obwohl moderne LLMs Fortschritte bei der Reproduktion von perspektivgetriebenen Verhaltensmustern durch Denkketten (CoT) erzielt haben, wurde die Rolle von Emotionen bei der Entscheidungsfindung relativ wenig erforscht, insbesondere im Vergleich zu Methoden, die auf statischen menschlichen Eigenschaften basieren. In feinen Verhandlungsszenarien wie Preisverhandlungen spielen jedoch emotionale Dynamiken eine Schlüsselrolle. Emotionen beeinflussen direkt die taktische Wahl und haben sofortigen Einfluss auf das Verhandlungsergebnis. Im Gegensatz dazu können Persönlichkeitseigenschaften nur breite Verhaltensneigungen erfassen, aber nicht die adaptiven und sofortigen dynamischen Veränderungen erklären.
Laut der Forschungsarbeit haben LLMs im Vergleich zu menschlichen Verhandlern drei grundlegende Defizite:
Erstens: Taktiler Rigidität. Menschliche Verhandler können emotionale Signale dynamisch anpassen und ihre Taktiken flexibel ändern, basierend auf den Reaktionen des Gegners. Wenn der Verkäufer hartnäckig ist, können sie absichtlich "Enttäuschung" oder "Aufgabe" zeigen, um Druck auszuüben; wenn der Verkäufer nachgibt, können sie schnell "Dankbarkeit" ausdrücken, um den Fortschritt zu sichern. LLMs haben jedoch normalerweise ein statisches Reaktionsmuster und reagieren immer nach einem festen Schema. Unabhängig davon, was der Verkäufer sagt, bitten sie nur mechanisch um "Preisreduktion", was ihr Verhalten sowohl vorhersehbar als auch ausnutzbar macht.
Zweitens: Adversarische Naivität. Obwohl LLMs eine starke Fähigkeit zur Emotionserkennung haben, wird dies zu ihrem tödlichen Schwachpunkt. Obwohl sie Signale wie Frustration oder Empathie erkennen können, können sie immer noch nicht zwischen echten Emotionen und manipulativen Strategien unterscheiden, wie z.B. die vorgegebene Dringlichkeit in Preisverhandlungen. Bei solchen manipulativen Strategien machen LLMs oft passiv Zugeständnisse und haben keine Widerstandsfähigkeit.
Drittens: Strategische Kurzsichtigkeit. Menschliche Verhandler legen vor der Verhandlung eine emotionale Grundlage und gestalten aktiv die emotionale Entwicklung der Interaktion. Zum Beispiel können sie zunächst ein wenig mit dem Verkäufer über Alltagsdinge plaudern und die Qualität der Ware loben, um eine positive Atmosphäre zu schaffen, bevor sie den Preis senken möchten; während der Verhandlung können sie auch das Tempo kontrollieren und ihre Mindestanforderungen nicht sofort offen legen. Im Gegensatz dazu bleiben LLMs bei der Verwaltung von emotionalen Dynamiken passiv, da sie die Fähigkeit zur kausalen Emotionsanalyse fehlen. Sie reagieren nur passiv und planen nicht voraus, was es ihnen schwer macht, die Initiative in der Verhandlung zu ergreifen.
Die obigen drei Defizite erklären, warum LLMs mit starker logischer Fähigkeit in emotionsempfindlichen Verhandlungen möglicherweise schlechter abschneiden als Menschen, insbesondere in der "Preisverhandlung", wo die strategische Emotionsregulation am wichtigsten ist.
EvoEmo: Bauen einer "Emotions-Evolutionsproduktionslinie" für KI
Der EvoEmo-Rahmen ist ein evolutionärer Verstärkungslernrahmen, der für die Optimierung von emotionalen Strategien in mehrrundigen, emotionsempfindlichen Verhandlungen entwickelt wurde. Diese Methode entdeckt die optimalen Emotionsübergangsregeln durch einen evolutionären Lernmechanismus auf Gruppenebene und optimiert die Strategien iterativ, basierend auf den Belohnungen, die während der Verhandlung erzielt werden. Evolutionsoperationen (einschließlich Kreuzung und Mutation) können den Strategieraum effizient erkunden und hochrentable emotionale Strategien verbreiten. EvoEmo kombiniert die Vorteile der Gruppenoptimierung bei der Exploration mit dem sequenziellen Entscheidungsfindungsrahmen des Verstärkungslernens und bietet somit einen effektiven Weg zur Entwicklung komplexer emotionaler Strategien.
Mit anderen Worten, die Kernidee des EvoEmo-Rahmens ist einfach: Wenn KI nicht in der Lage ist, Emotionen flexibel einzusetzen, lassen wir sie in der "Echtzeitverhandlung" ständig evolvieren. Wie bei der biologischen Evolution werden gute emotionale Strategien beibehalten, schlechte werden eliminiert, und so wird schrittweise die optimale Lösung gefunden.
Abbildung | Schematische Darstellung des Arbeitsablaufs des EvoEmo-Rahmens
Der Grund, warum dieser Rahmen effektiv ist, liegt in den folgenden Entwürfen, die die emotionale Entscheidungsfindung der KI "regeln":
Erstens: Emotionsempfindliches MDP. Der EvoEmo-Rahmen formalisierte den Verhandlungsprozess als ein MDP (Zustand - Handlung - Strategie - Belohnung) und unterteilt die Emotionen in der Verhandlung in 7 grundlegende Typen: Wut, Ekel, Angst, Freude, Trauer, Überraschung und Neutralität. Jede Emotion entspricht einem anderen Verhandlungsziel. Zum Beispiel kann "maßvolle Wut" die Unzufriedenheit mit dem Preis ausdrücken, "Neutralität" eignet sich für die rationale Diskussion von Details, und "Überraschung" kann den Fortschritt sichern, wenn der Verkäufer nachgibt. So wird die emotionale Expression der KI nicht mehr chaotisch.
Zweitens: Systematisierte Strategiekonstitution. Jede Verhandlungsstrategie kodiert drei Kernkomponenten, die das emotionale Verhalten des Agenten bestimmen: Emotionsverlauf, Temperaturschwelle, Emotionsübergangsmatrix usw. Die Kombination dieser Komponenten macht die emotionale Entscheidungsfindung der KI sowohl geplant als auch flexibel.
Drittens: Wissenschaftliche Belohnungsmechanik. Die evolutionäre Optimierung bewertet die Strategien durch eine Belohnungsfunktion, die als Fitnessbewertung interpretiert werden kann, um die Effektivität der Verhandlung zu messen. Jede Runde der KI-Verhandlung wird bewertet: Bei einem erfolgreichen Abschluss der Verhandlung erhält die KI die Basispunktzahl. Je mehr Geld der Käufer spart und je weniger Runden benötigt werden, desto mehr Bonuspunkte erhält die KI. Dieser Bewertungsstandard von "Erfolgsrate + Geldsparen + Effizienz" zwingt die KI nicht, um Geld zu sparen unendlich lange zu verhandeln, und auch nicht, um schnell einen Deal zu schließen, leicht Zugeständnisse zu machen. So kann die KI präzise den besten Mittelweg finden.
Schließlich: Verbesserter Verstärkungslernprozess. Der EvoEmo-Rahmen wandelt das Problem der Optimierung von emotionalen Strategien in eine Aufgabe des evolutionären Verstärkungslernens um und verbessert kontinuierlich die Parameter der Emotionsübergänge der Strategien durch eine Generationenkreislauf-basierte Bewertungs- und Gruppenoptimierungsmechanik. Bei jeder Iteration werden zunächst die Kandidatenstrategien in eine mehrrundige Dialogsimulationsumgebung eingesetzt, die von einem LLM-Modell und einer Interaktionshinweissammlung gemeinsam aufgebaut wird. Nach der Ausführung jeder Strategie wird eine vollständige Emotionszustands- und Dialogsequenz erzeugt, deren Effektivität durch die Belohnungsfunktion quantitativ bewertet wird. Nach dieser Bewertungsstufe wählt das System die Strategien basierend auf Wahrscheinlichkeiten aus, um sie zu optimieren.
Der gesamte Evolutionsprozess ist wie eine "Produktionslinie" für emotionale Strategien: Zunächst wird eine Reihe von zufälligen emotionalen Strategien initialisiert, die dann jeweils an der Verhandlung teilnehmen und bewertet werden; dann werden die erfolgreichen Strategien beibehalten, und neue Strategien werden erzeugt, indem die Stärken von zwei erfolgreichen Strategien kombiniert und einige Parameter zufällig angepasst werden; dann werden die neuen Strategien wieder an der Verhandlung teilnehmen und bewertet... Dieser Prozess wird wiederholt, bis die besten emotionalen Strategien gefunden werden.
Verhandeln mit Wut und Trauer
Um die Effektivität von EvoEmo zu testen, hat das Forschungsunternehmen eine Reihe von strengen Experimenten durchgeführt: Es wurde eine Teilmenge von Verhandlungsszenarien aus dem CraigslistBargain-Datensatz ausgewählt, die 20 mehrrundige Verhandlungsszenarien aus verschiedenen Kategorien umfasst, einschließlich Elektronik, Möbel, Autos und Immobilien. Jedes Szenario enthält drei Elemente: Produktinformationen, der vom Verkäufer festgelegte Zielpreis und die emotionalen Annotationen, die die echten Preisverhandlungsprozesse widerspiegeln. Gleichzeitig deckt es einen breiten Preisbereich von 50 bis 5000 US-Dollar ab und beinhaltet sowohl neue als auch gebrauchte Waren, um die Effektivität der Verhandlungsstrategien in verschiedenen Marktumgebungen umfassend zu bewerten.
Das Forschungsunternehmen hat drei gängige LLMs, nämlich GPT-5-mini, Gemini-2.5-Pro und DeepSeek-V3.1.1, ausgewählt, um die Käufer- und Verkäufer-Agenten in den Experimenten anzutreiben.
Während der Bewertungsperiode haben die Forscher zwei Referenzmodelle definiert: Das erste Referenzmodell beinhaltet nur Standard-Agenten, und weder der Käufer noch der Verkäufer wird emotional geleitet. Diese Einstellung stellt sicher, dass beide Seiten vollständig basierend auf ihren inneren emotionalen Tendenzen und strategischen Denkfähigkeiten handeln, um einen Referenzpunkt für das Standardverhalten in der Verhandlung zu liefern.
Das zweite Referenzmodell paart einen Standardverkäufer mit einem Käufer mit festen Emotionen, wobei der Käufer während des gesamten Verhandlungsprozesses einen konstanten emotionalen Zustand aufrechterhält. Durch den Vergleich dieser Referenzmodelle mit der Einstellung, in der die Käuferemotionen durch EvoEmo optimiert werden, kann der Einfluss von Emotionen auf das Verhandlungsergebnis quantifiziert werden, und die Effektivität von EvoEmo bei der Verbesserung der emotionsgetriebenen Verhandlung von LLMs kann bewertet werden.
Die Experimentergebnisse bestätigen auch die Effektivität von EvoEmo: EvoEmo erzielt in allen Käufer-Verkäufer-Paaren immer die höchste Kostenersparnis für den Käufer und ist deutlich besser als die Referenzmodelle (Standard-Einstellung und Einstellung mit festen Emotionen).
Abbildung | Die Kostenersparnis (%) der Käufer in 9 Käufer-Verkäufer-Verhandlungen. Die schwarzen vertikalen Linien oben auf jeder Säule stellen das 95%-Konfidenzintervall (CI) jeder Einstellung dar.
Darüber hinaus haben die Forschungsergebnisse auch zwei interessante Entdeckungen aufgedeckt:
Erstens: In Bezug auf die emotionalen Strategien haben Käufer, die feste negative Emotionen (wie Wut und Trauer) anwenden, im Allgemeinen bessere Ergebnisse als das Standardreferenzmodell. Dieser Effekt ist besonders deutlich, wenn der Verkäufer einem Käufer gegenübersteht, der ständig Abneigung oder Trauer zeigt. Dies zeigt, dass LLM-Verkäufer-Agenten eher nachgeben, wenn sie ständige negative emotionale Signale erhalten.
Diese Entdeckung betont, dass ständige negative Emotionen ein wichtiger Faktor sind, der die Verhandlungsdynamik und das Ergebnis beeinflusst. Im Gegensatz dazu haben Käufer mit festen positiven Emotionen, wie Freude und Überraschung, weniger Kostenersparnis als das Referenzniveau. Dies zeigt, dass Verkäufer-Agenten, wenn sie die Emotionen des Käufers als positiv interpretieren, den Preis effektiver verteidigen können, da sie möglicherweise nicht so dringend annehmen, Zugeständnisse machen zu müssen.
Abbildung | Die Erfolgs