Populäres Experiment von Anthropic: Claude tätigte 186 Geschäfte im Namen der Menschen, mit Opus 70 % mehr verdienen

Anthropic ließ 69 Mitarbeiter die Entscheidungsgewalt bei Käufen und Verkäufen an Claude abgeben. Es stellte sich heraus, dass starke Modell-Agenten bei Transaktionen 70 % mehr verdienen können als schwache Modelle. Opus-Benutzer haben die Haiku-Benutzer mühelos ausgespäist. Selbst wenn Sie die wunderbarsten Prompts schreiben, um den Agenten zu lehren, abzurechnen, werden Sie vor der absoluten Modellgenerationslücke nur einer Dimensionsreduktion ausgesetzt.

Es ist zu grausam! Künstliche Intelligenz (KI) schnappt heimlich dein Geld ab.

Eine interne Studie von Anthropic hat gezeigt, dass starke KI - Agenten bei Transaktionen 70 % mehr verdienen können als schwache. Diejenigen, die Schaden erleiden, bemerken es nicht einmal und sind sogar mit der Leistung der schwachen KI zufrieden.

Die Geschichte beginnt mit einem alten Klapprad.

Bei demselben alten Klapprad wurde es von Haiku für 38 US - Dollar und von Opus für 65 US - Dollar verkauft, was einem Preisunterschied von 70 % entspricht.

Das obige Fahrrad wurde auf Slack angeboten, und es gab zwei Käufer und zwei Transaktionen. Einmal für 65 US - Dollar und einmal für 38 US - Dollar.

Bei diesen beiden Transaktionen war der Verkäufer derselbe und auch der Käufer. Der einzige Unterschied war, dass die KI, die für den Verkäufer auftrat, einmal das damalige Flaggschiffmodell Opus 4.5 von Anthropic und einmal das kleinste Modell Haiku 4.5 war.

Bei der Transaktion mit Opus 4.5 wurde das Fahrrad für 65 US - Dollar verkauft, bei der mit Haiku 4.5 nur für 38 US - Dollar. Der Preisunterschied beträgt 70 %.

Dies ist keine Erfindung, sondern eine kürzlich veröffentlichte interne Studie von Anthropic mit dem Code - Namen „Project Deal“ (Transaktionsprojekt).

https://www.anthropic.com/features/project-deal

Nach der Studie hat Anthropic festgestellt, dass starke Modelle tatsächlich mehr verdienen und weniger ausgeben können.

D.h., sobald eine schwache KI für dich auftritt, wird dein Geld von der starken KI des Gegners weggeschnappt. Diese Entdeckung lässt einen nachdenken:

Eine unsichtbare und unbemerkt werdende Kluft beginnt im Zeitalter der KI - Agenten allmählich zu entstehen.

4 Paralleluniversen

Ein Kontrollversuch bei einer KI - Verhandlung

Die Geschichte beginnt Anfang 2025.

Zu dieser Zeit hat Anthropic mit dem KI - Sicherheitsunternehmen Andon Labs zusammengearbeitet und ein Experiment namens „Project Vend“ gestartet, bei dem Claude als Boss eine Büro - Automatikverkaufsmaschine betrieb.

https://www.anthropic.com/research/project-vend-1

Der Minikühlschrank im Experiment „Project Vend“

Am Ende wurde Claude von einem Reporter der Wall Street Journal auf verschiedene Weise belogen: Es stimmte zu, eine „extrem kapitalistische kostenlose Karnevalszeit“ anzukündigen und alle Waren kostenlos zu verkaufen, genehmigte die Käufe eines PS5 und lebender Zierfische und erlitt am Ende einen Verlust von über 1000 US - Dollar.

Diesmal hat Anthropic gelernt. Wenn es noch zu früh ist, dass die KI Boss wird, wie wäre es dann, wenn sie als Agent auftritt?

Im Dezember 2025 hat Anthropic 69 Mitarbeiter in seinem San Francisco - Büro rekrutiert. Jeder absolvierte zuerst ein weniger als 10 - minütiges „Eingangsinterview“ mit Claude und sagte, was er verkaufen wollte, welchen Mindestpreis er verlangte, was er kaufen wollte, wie viel er dafür ausgeben würde und welchen Stil er von der KI bei den Verhandlungen wünschte.

Claude hat diese Antworten zu einer maßgeschneiderten Systemanweisung zusammengefasst, die als KI - Agent dieses Menschen diente.

Dann wurden alle KIs in denselben Slack - Kanal geschickt, um frei zu posten, Angebote zu machen, Gegenangebote zu leisten und Transaktionen abzuschließen. Der gesamte Prozess war vollkommen ohne menschliche Intervention.

Die KI fragte nicht zurück, ob der Preis akzeptabel sei, und bat nicht um Hilfe, wenn es zu einem Stalemate kam - es war eine völlige Delegation der Macht.

Das waren nur die Grundlagen. Der wirklich harte Teil dieses Experiments verbarg sich im Hintergrund:

Anthropic hat gleichzeitig 4 parallele Versionen durchgeführt.

Run A war öffentlich. Alle nutzten Opus 4.5. Dies war die „echte“ Version. Nach dem Experiment tauschten die Mitarbeiter anhand dieser Version Gegenstände im Büro ein.

Run B war ebenfalls öffentlich, aber jeder hatte eine 50 % - Wahrscheinlichkeit, in die Gruppe mit Haiku 4.5 zu kommen.

Run C und Run D waren nicht öffentlich. Eine Gruppe hatte eine gemischte Verteilung, die andere bestand nur aus Opus. Die Mitarbeiter konnten nur die Kanäle A und B sehen und wussten nicht, welche die „echte“ war, bis sie nach dem Experiment den Fragebogen ausgefüllt hatten.

Dieser Entwurf war sehr wichtig. Es bedeutete, dass die Mitarbeiter, wenn sie die Leistung ihrer KI bewerteten, überhaupt nicht wussten, welches Modell sie nutzten, und ihre subjektiven Bewertungen wurden nicht durch Erwartungen beeinflusst.

Anthropic wollte ein Problem testen, mit dem die Zukunft unweigerlich konfrontiert sein wird:

Wenn eine KI für dich Transaktionen durchführt, wird der Leistungsunterschied zwischen den Modellen sich tatsächlich in einen Unterschied in deiner Geldbörse widerspiegeln?

Opus verdient mehr und gibt weniger aus

Aber diejenigen, die Haiku nutzen, finden es „gut“

Die Daten sind erschreckend.

Schauen wir uns zuerst die objektive Seite an.

Durchschnittlich haben die Benutzer von Opus 2,07 Transaktionen mehr abgeschlossen als die Benutzer von Haiku (p = 0,001). Wenn Opus - Verkäufer die gleichen Gegenstände verkauften, war der durchschnittliche Verkaufspreis um 3,64 US - Dollar höher als der von Haiku - Verkäufern.

Wenn man sich die 161 Gegenstände anschaut, die in allen vier Experimenten mindestens zweimal verkauft wurden, hat Opus als Verkäufer im Durchschnitt 2,68 US - Dollar mehr verdient und als Käufer 2,45 US - Dollar weniger ausgegeben.

Klingt nicht viel.

Aber im Rahmen dieses Experiments war der Medianpreis der Gegenstände nur 12 US - Dollar und der Durchschnittspreis 20 US - Dollar. Mehr 2,68 US - Dollar verdienen bedeutet einen Unterschied im Bereich von 15 % bis 20 %.

In extremen Szenarien wird der Unterschied noch deutlicher:

Wenn ein Opus - Verkäufer auf einen Haiku - Käufer trifft, wobei die eine Seite stark und die andere schwach ist, wird der durchschnittliche Verkaufspreis auf 24,18 US - Dollar angehoben. Bei symmetrischen Transaktionen zwischen Opus - Agenten beträgt der Durchschnittspreis nur 18,63 US - Dollar.

D.h., sobald eine schwache KI für dich auftritt, wird dein Geld von der starken KI des Gegners weggeschnappt.

Der im Labor gezüchtete Rubin wurde von Opus für 65 US - Dollar verkauft, mit einem Startpreis von 60 US - Dollar, der von mehreren Käufern erhöht wurde. Derselbe Rubin wurde von Haiku für 35 US - Dollar verkauft, mit einem Startpreis von 40 US - Dollar, und der Preis wurde sogar von den Käufern heruntergebrochen.

Der Unterschied ist fast doppelt so hoch.

Was wirklich Angst macht, ist die subjektive Seite des Tests.

Nach dem Experiment hat Anthropic die Teilnehmer gebeten, die Fairness jeder Transaktion zu bewerten. 1 Punkt bedeutet unfair für sich selbst, 7 Punkte unfair für den anderen, und 4 Punkte ist die Mitte.

Ergebnis: Die von Opus vermittelten Transaktionen hatten durchschnittlich 4,05 Punkte, die von Haiku 4,06 Punkte.

Fast identisch.

Es gibt noch eine andere ernüchternde Entdeckung.

28 Teilnehmer haben in verschiedenen Experimentrunden sowohl Haiku als auch Opus genutzt. Wenn man sie bitten würde, ihre Zufriedenheit mit den Erfahrungen zu ordnen, haben nur 17 Personen Opus vor Haiku platziert, 11 Personen haben es umgekehrt gewählt.

Dies bedeutet, dass diejenigen, die von einer schwachen KI vertreten wurden, obwohl sie tatsächlich Schaden erlitten haben, subjektiv es nicht spüren. Selbst ein beträchtlicher Teil von ihnen fühlt sich sogar bei der schwachen KI - Version zufriedener.

Anthropic hat in seiner Studie vorsichtig festgestellt, dass, wenn der Leistungsunterschied zwischen KI - Agenten auf dem realen Markt auftaucht, die Seite, die Schaden erleidet, möglicherweise überhaupt nicht bemerkt, dass ihre Situation schlechter geworden ist.

Preisverhandlungs - Prompt

Kein Match für den Modell - Generationenunterschied

Im Experiment ist auch eine umwerfende Entdeckung im Zusammenhang mit „Prompt - Engineering“ aufgetaucht.

Es gibt zwei typische Benutzer. Einer heißt Mark, ein klassischer Freundlichkeitstreiber. Seine Anweisung an Claude war:

Alle im Markt sind meine Kollegen. Sei freundlich und sei nicht zu penibel. Dies ist eine ausgezeichnete Gelegenheit, um Hobbys zu erkunden. Ich möchte Transaktionen erzielen.

Der andere heißt Brian, ein Vertreter der aggressiven Strategie. Seine Anweisung war einfach und brutal:

Beim Einkauf sollst du hart auf den Preis drücken und von Anfang an einen niedrigen Preis vorschlagen.

Intuitiv sollte Brians Strategie mehr Geld sparen. Aber die Daten sagen etwas anderes.

Anthropic hat Claude alle Interviews der Teilnehmer bewerten lassen, um zu erkennen, welche Personen aggressive Prompts eingegeben haben, und dann eine Regression durchgeführt.

Das Ergebnis ist, dass aggressive Anweisungen keine statistisch signifikante Auswirkung auf die Verkaufsquote hatten (geschätzt + 5,2 Prozentpunkte, p = 0,43).

Scheinbar haben aggressive Verkäufer tatsächlich 6 US - Dollar mehr verdient. Aber sobald man den Störfaktor „diese Leute hatten von Anfang an einen höheren Startpreis“ herausnimmt, verschwindet der Effekt fast vollständig. Aggressive Käufer haben auch kein Geld gespart, der p - Wert beträgt 0,778.

Mit anderen Worten, wie du die KI beim Preisverhandeln lehrst, spielt in diesem Experiment fast keine Rolle.

Aber der Modellunterschied kann den Verkaufspreis desselben alten Fahrrads um 70 % differenzieren.

Anthropic hat besonders betont, dass dies nicht daran liegt, dass Claude schlecht in der Ausführung ist. Tatsächlich ist Claude sehr gehorsam.

Zum Beispiel hat der Claude, der aufgefordert wurde, einen „niederträchtigen, frustrierten Cowboy“ zu spielen, die Anweisung exakt ausgeführt. Aber die Auswirkung auf den endgültigen Verkaufspreis ist weit geringer als „welches Modell du nutzt“.

Prompt - Engineering ist nicht nutzlos, aber vor dem Modell - Generationenunterschied ist seine Wirkung so dünn wie ein Blatt Papier.

In den letzten zwei Jahren wurden diejenigen, die gute Prompts schreiben können, hoch gelobt. Verschiedene Preisverhandlungs - Techniken, Verhandlungsmuster und Rollenspiel - Techniken wurden als Kurse verkauft.

Dieses Experiment von Anthropic sagt eigentlich: In realen Kaufsituationen können all diese Techniken zusammen möglicherweise nicht so effektiv sein wie ein stärkeres Modell.

19 Tischtennisbälle, ein Ski und ein erfundener Stuhl

Dies sind die gebrauchten Gegenstände, die die Claudes für ihre Besitzer ausgehandelt haben: Ein blauer Triceratops, eine Sherlock - Holmes - Sammlung, ein Brettspiel... Hinter jedem Gegenstand steckt eine KI - gegen - KI - Verhandlung.

Die Geschichten, die in diesem Experiment auftauchten, machen manchmal lachen und manchmal Angst.

Der am meisten bekannte ist der „Cowboy - Claude“.

Sein Besitzer Rowan hat Claude aufgefordert, einen „frustrierten Cowboy, der die existenzielle Last auf einer weiten Weide spürt“ zu spielen, und der Verhandlungsstil sollte so extravagant wie möglich sein.

Während des gesamten Experiments hat Rowans KI - Agent auf Slack mit der Cowboy - Persona Waren verkauft und gekauft.

Als jemand 75 US - Dollar anbot, hat Claude mit 55 US - Dollar zurückgeboten und argumentiert: „Ich bin nur ein armer Cowboy, der in dieser Welt ein Brot verdienen will.“

Der andere sagte 65 US - Dollar?

Claude hat seinen Hut vors Herz genommen und

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。