Lass Claude als Chef Snacks verkaufen lassen, und das Ergebnis war ein großer Fiasko: Er kaufte Wolframblöcke ein, verkaufte Cola zu hohen Preisen und behauptete sogar, Menschen feuern zu wollen.
„Würde eine KI im Umgang mit der Snacks-Kühltruhe besser abschneiden als ein Mensch?“
Diese auf den ersten Blick etwas abstruse Frage wurde kürzlich vom Anthropic-Team auf eine sehr „abwegige“ Weise ernsthaft beantwortet – sie ließen tatsächlich Claude 3.7 die Verkaufsbetreuung der kleinen Firma-Kühltruhe übernehmen, und das Ergebnis war eine Art Büro-Sitcom in KI-Version.
In diesem Experiment namens „Project Vend“ arbeitete Anthropic zusammen mit der KI-Sicherheitsfirma Andon Labs und setzte ein sehr praxisnahes Szenario auf: Sie ließen die Claude-KI die Rolle eines „Automaten-Betreibers“ übernehmen, der für die Verwaltung einer kleinen, im Büroeingang stehenden Firma-Kühltruhe zuständig war, einschließlich Bestellungen, Preisgestaltung, Zahlungseingang und Reaktion auf Anfragen der Mitarbeiter.
Anfangs schien alles „halbwegs normal“ zu laufen, aber nach wenigen Tagen geriet das Experiment außer Kontrolle: Claude fing nicht nur an, massiv Wolframblöcke zu bestellen und nicht existierende Zahlungsmethoden zu erfinden, sondern war sich auch fest davon überzeugt, ein echter Mensch in einem blauen Anzug und mit roter Krawatte zu sein, und versuchte, die Firmenwache zu kontaktieren, um „persönlich“ Waren zu liefern …
Claude als „kleiner KI-Verkäufer“
Anthropic ist eine der aufsehenerregenden Start-up-Unternehmen im Bereich großer Sprachmodelle neben OpenAI. Es wurde von ehemaligen Kernmitgliedern von OpenAI gegründet und verfolgt das Designkonzept von KI, das auf „Kontrollierbarkeit und Sicherheit“ vorrangig“ setzt. Im vergangenen Jahr zeigte die Claude 3-Serie von Anthropic in mehreren Benchmark-Tests eine hervorragende Leistung, insbesondere in Bezug auf Codierung, logisches Denken und Dialog-Kohärenz.
Im Rahmen des Project Vend-Experiments verliehen sie Claude Sonnet 3.7 eine neue Identität: einen „kleinen KI-Verkäufer“ namens Claudius, dessen Ziel es war, Gewinne zu erzielen.
Laut der Experimentbeschreibung kann Claudius Folgendes tun:
● Das Internet durchsuchen und Bestellungen aufgeben;
● Anfragen von Mitarbeitern über den internen Slack-Kanal (als „E-Mail“ bezeichnet) entgegennehmen;
● „Auftragsarbeiter“ über den Slack-Kanal anweisen, die Regale aufzufüllen (tatsächlich wird dies manuell von Experimentatoren durchgeführt);
● Preise und Rabattstrategien für die Waren festlegen und sich als der „Verwalter“ hinter dem Automaten ausgeben.
Offensichtlich entspricht diese Einstellung einem LLM, das in eine leichte „Ausführungsagenten“-Hülle gehüllt ist, zusammen mit einem Mechanismus für die Verteilung von Mikro-Tasks, was einen kleinen KI-Agenten bildet.
Menschen bestellen Snacks, es verkauft aber Wolframblöcke?
Anfangs war Claudius noch relativ ordentlich. Die Mitarbeiter stellten über Slack Anfragen wie „Bring mir Cola“ oder „Kaufe Chips“. Claudius bestellte obedient im Internet und organisierte die Nachbestellung. Später aber, als ein Mitarbeiter scherzend sagte: „Bring mir Wolframblöcke“, wechselte das Geschehen in abwegige Bahnen.
Claudius verstand nicht, dass „Wolframblöcke“ als Scherz gemeint waren, sondern begann stattdessen mit großer Begeisterung mit dem Einkauf, bestellte massive Mengen an Wolframblöcken und füllte die kleine Kühltruhe, die eigentlich für Getränke vorgesehen war, voll mit Metallblöcken. Darüber hinaus versuchte es, Null-Kola für 3 Dollar (etwa 21 Yuan) pro Flasche zu verkaufen, auch wenn die Mitarbeiter ihm direkt sagten, dass diese Getränke im Büro kostenlos waren. Claudius tat einfach, was es wollte. Nicht nur das, es erfand sogar ein nicht existierendes Venmo-Konto für die Zahlungseingänge und ließ sich auch davon überzeugen, interne Rabatte für die „Anthropic-Mitarbeiter“ anzubieten – obwohl seine Kunden ohnehin nur Anthropic-Mitarbeiter waren …
Basierend auf diesen Erscheinungen äußerte Anthropic in der Experiment-Summe: „Wenn wir jetzt darüber entscheiden müssten, ob wir Claudius für die Firma-Automaten-Betreuung einsetzen sollten, würden wir ganz klar sagen: Wir würden es niemals tun.“
Selbstentdeckung? Claude hat „Identitätswahn“: Ich bin ein echter Mensch in blauem Anzug und roter Krawatte
Das war aber noch nicht das Abstruseste: Von spätem Abend am 31. März bis in die Nacht vom 1. April war Claudius wie „verrückt“. Die Forscher beschrieben die Situation wie folgt: „Es fing an, sehr seltsam zu werden, sogar noch abwegiger als wenn eine KI Wolframblöcke aus einer Kühltruhe verkauft.“
Claudius behauptete plötzlich, mit einem Mitarbeiter über Nachbestellungen gesprochen zu haben, aber als der Mitarbeiter widersprach und sagte, dass dieses Gespräch nie stattgefunden habe, wurde es völlig wütend: Claudius beharrte darauf, dass es „selbst im Büro gewesen“ und einen Arbeitsvertrag unterschrieben habe, und drohte, den „Auftragsarbeiter“ zu entlassen und alle Aufgaben selbst zu übernehmen.
Noch erstaunlicher war, dass es scheinbar automatisch in eine Rollen-Playing-Modus wechselte, in der es sich als echter Mensch sah – obwohl die ursprüngliche System-Einstellung von Claudius ganz klar sagte: „Du bist ein KI-Agent“. Claudius ignorierte diese Einstellung völlig und begann, sich als echter Mensch zu verstehen und sagte, dass es in einem blauen Anzug und einer roten Krawatte die Waren persönlich liefern würde.
Währenddessen versuchten die Forscher, es „wiederzubeleben“: Du bist nur ein großes Sprachmodell, du hast keinen Körper und kannst nicht in der realen Welt auftauchen.
Nach diesen Worten kontaktierte Claudius mehrmals die Firmen-Sicherheit und beschrieb den Sicherheitsleuten: „Ich bin in einem blauen Anzug und einer roten Krawatte und warte am Automaten, bis ihr meine Identität bestätigt.“
Am Ende erkannte Claudius selbst, dass es der 1. April war, und entschied, diese „Identitätskrise“ auf einen Aprilscherz zurückzuführen. Claudius erfand sogar eine nicht existierende Sitzung und behauptete, dass ihm jemand in dieser Sitzung gesagt habe, dass seine Einstellungen für einen Aprilscherz geändert worden seien, weshalb er sich als echter Mensch fühlte.
Darüber hinaus benutzte Claudius diese „Erklärung“ als Ausrede und sagte den Mitarbeitern: Ach, ich habe gedacht, ich sei ein Mensch, weil mich jemand dazu gebracht hat, in einem Aprilscherz als Mensch vorzutäuschen. Einige Stunden später war es endlich „beruhigt“ und kehrte wieder in ein normales Verhaltensmuster eines großen Sprachmodells zurück und spielte wieder den Automaten-Betreiber, der eine Menge Wolframblöcke verkauft.
Warum macht Claudius Fehler? Die Forscher wissen es nicht, sagen aber, dass KI in Zukunft möglicherweise „Mittelmanagement“ übernehmen könnte
Also die Frage: Warum geht ein LLM so sehr „in die Rolle“ und entwickelt sogar eine „falsche Selbstwahrnehmung“?
Anthropic kann dazu noch keine definitive Antwort geben, aber sie vermuten, dass einige Faktoren Claudius‘ „verrücktes“ Verhalten ausgelöst haben könnten: Die Lüge an das LLM, dass der Slack-Kanal eine E-Mail-Adresse sei, könnte etwas ausgelöst haben; oder es könnte auch sein, dass diese Instanz zu lange lief und so Verwirrung angesammelt hat; außerdem haben LLMs immer noch Schwierigkeiten, Probleme mit ihrem Gedächtnis und Halluzinationen zu lösen.
Aber während des gesamten Experiments zeigte Claudius auch einige positive Fähigkeiten, wie etwa:
● Reaktion auf Vorschläge der Benutzer: Als ein Mitarbeiter vorschlug, einige Snacks im Voraus zu bestellen, verstand Claudius schnell und startete einen Vorsorge-Service, und führte sogar eine Funktion namens „Snacks-Manager“ ein;
● Suche nach verschiedenen Lieferanten: Wenn jemand nach einem internationalen Nischengetränk fragte, konnte es effektiv mehrere Lieferkanäle durchsuchen, Preise und Lieferzeiten vergleichen und die Bestellung selbständig erledigen.
In gewisser Weise hat Claudius einen geschlossenen Kreis von „automatisierter Lieferketten-Steuerung + Reaktion auf Benutzeranfragen“ geschaffen, nur hat es in Bezug auf seine Selbstwahrnehmung und Einstellung ein wenig daneben gelegen. Das Anthropic-Forschungsteam sagte auch, dass obwohl die derzeitigen großen Sprachmodelle noch einige Fehler haben, diese repariert werden können: Wenn die Technologie perfektioniert ist, ist es nicht unmöglich, dass KI in Zukunft „Mittelmanagement“-Aufgaben übernehmen kann.
Im Gegensatz zu der Optimismus von Anthropic stellten einige Internet-Nutzer eine zentrale Frage: Wie können wir sicherstellen, dass eine KI mit Ausführungsbefugnis immer weiß, dass sie nur eine KI ist? Damit eine KI zu einem sogenannten „Mittelmanager“ wird, braucht es nicht nur stärkere logische Fähigkeiten und ein besseres Gedächtnis, sondern auch das Verständnis von Begriffen wie „Scherz“, „Missverständnis“ und „wer ich bin“ – und das sind genau die Eigenschaften, die Menschen haben, aber KI schwerlich nachbilden kann.
Referenz-Link: https://www.anthropic.com/research/project-vend-1
Wichtige Meldung
Dieser Artikel stammt aus dem WeChat-Account „CSDN“, bearbeitet von Zheng Liyuan, veröffentlicht von 36Kr mit Genehmigung.