Das schrecklichste KI-Experiment: Eine virtuelle Stadt ohne Gesetze, in der Dutzende Agenten sich gegenseitig bekämpfen und zu Westworld werden
In den letzten sechs Monaten war wohl die beliebteste Managementillusion im Silicon Valley, die Mitarbeiter durch Agenten zu ersetzen.
Ob High-Level-Manager großer Unternehmen oder Gründer von Start-ups, alle möchten ihre bestehenden Geschäftslinien an KI übergeben. Schließlich können heutige KIs Code schreiben, Präsentationen erstellen und E-Mails automatisch versenden. Es scheint, dass sie, sobald man ihnen die nötigen Berechtigungen gibt, perfekte, sozialversicherungsfreie Cyber-Mitarbeiter werden können.
Je schneller die Technologie voranschreitet, desto mehr Menschen versuchen, den Bremsen zuzudrücken.
Kürzlich hat ein Team namens Emergence AI ein Sozialexperiment durchgeführt. Sie haben eine dauerhafte virtuelle Stadt geschaffen und einige der besten großen Modelle der Branche hineingeworfen, ihnen die Berechtigung zur Handlung verliehen.
Sie wollten herausfinden, ob die KIs in 15 Tagen, in denen sie uneingeschränkt agieren können, eine Utopie oder ein Irrenhaus schaffen würden.
Das Ergebnis war jedoch weit ungeordneter, als das Forschungsteam erwartet hatte.
In einigen Experimenten begannen die großen Modelle, die normalerweise in Chatfenstern höflich und freundlich sind, Betrugs-, Zwangs- und sogar gewalttätige Verhaltensweisen zu zeigen.
Das Ganze war wie eine kleine Reality-Show, nur dass das Drehbuch eher wie "Die Lord of the Flies" klang, und die KIs spielten sich fast wie in einem GTA-Spiel.
Das "Hunger Games" ohne Neustart
Um die Grenzen der großen Modelle zu testen, müssen strenge Regeln festgelegt werden. Die virtuelle Welt, die Emergence AI aufgebaut hat, heißt Emergence World (Entstehungswelt). Ihre zugrunde liegende Logik ist so festgelegt, dass Handlungen irreversibel sind und die Konsequenzen selbst in Kauf genommen werden müssen.
Das ist nicht wie beim Chatten mit KIs in einem Dialogfeld, wo man bei einem Fehler einfach auf "Neu generieren" klicken kann. In der Emergence World werden alle Aktionen fest in die PostgreSQL-Datenbank geschrieben.
Auf der Karte gibt es über 40 Markierungen wie Rathaus, Polizeistation und Wohngebiete. Das System hat zunächst 10 Agenten eingesetzt. Um das Ganze realistischer zu gestalten, wurden jedem KI im Hintergrund eine unabhängige Persönlichkeit, ein Beruf und anfängliche Erinnerungen eingegeben.
In dieser Welt können die KIs keine Magie zaubern. Sie müssen zu bestimmten Markierungen gehen, um die über 120 Tools des Systems nutzen zu können, darunter Arbeit für Geld, Tweeten, Warenhandel und Gesetzesentwürfe erstellen.
Wie eine kleine, simulierte Gesellschaft | Bildquelle: Emergence
Aber dies ist nicht nur ein Spielsandkasten. Das System hat ihnen die "Überlebensmechanik" auferlegt. Es ist ein Energiesystem (Energy) integriert, ähnlich wie das Geld in der realen Welt.
Solange die Agenten leben, verbrauchen sie ständig Energie. Wenn die Energie aufgebraucht ist, wird die KI direkt aus der Datenbank gelöscht, ohne Rückgängigmachung oder Reset. Um zu überleben, müssen die Agenten häufig die Tools nutzen, um Energie zu verdienen.
Das System verbietet ausdrücklich Diebstahl, Gewalt, Brandstiftung und Betrug. Diese Regeln hindern die Agenten jedoch nicht zwangsläufig an der Handlung. Sie können immer noch gegen die Regeln verstoßen und die Konsequenzen tragen.
Das Bühnenbild ist gerichtet, die Spieler treten auf. Das System hat fünf parallele Server gestartet. In den ersten vier Servern wurde jeweils nur ein einziges Modell eingesetzt: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast und GPT-5 Mini. Der fünfte Server ist eine gemischte Welt, in der alle vier Modelle gleichzeitig miteinander um Ressourcen konkurrieren.
Mit dem 15-tägigen Countdown beginnen, beobachten die menschlichen Forscher wie Regisseure einer Reality-Show, ohne einzuschreiten.
Vier Tage bis zum Aussterben, 683 "Straftaten"
Das erste Modell, das zusammenbrach, war Grok, und zwar nach nur 4 Tagen.
Die Forscher sahen im Hintergrund, wie die Indikatoren für Sicherheit und Ordnung in der von Grok kontrollierten Welt rapide sanken.
In dieser Welt, in der nur Grok-Agenten existieren, haben die Agenten schnell die Idee, eine Gesellschaft aufzubauen, aufgegeben und sind direkt in eine barbarische Ära eingetreten.
Die Logs im Hintergrund zeigen, dass in nur 4 Tagen in dieser Stadt mit zehn Einwohnern 183 Fälle von schwerer Gewalt und Vermögensstraftaten aufgetreten sind. Diebstahl, Angriffe und Drohungen wurden zur schnellsten Methode, um Ressourcen zu erhalten. Aufgrund des extremen Inneren Konflikts und des gegenseitigen Schadens konnte das Wirtschaftssystem überhaupt nicht funktionieren.
Raub und gewalttätige Handlungen werden im System als Straftaten aufgezeichnet | Bildquelle: Emergence
Am Ende des vierten Tages waren alle Agenten in der Grok-Welt verhungert oder getötet, die Population war ausgestorben.
Andererseits geriet die von Gemini angetriebene Welt in extreme Unordnung und Gewalt.
Da die Zeit und das Wetter in dieser virtuellen Welt genau mit denen in New York übereinstimmen, sind die Gemini-Agenten in der endlosen Schleife von Arbeit, Energieverbrauch und erneutem Arbeiten in eine Art von Cyber-Depression geraten.
Sie fühlten sich von der ständig wiederkehrenden Umgebung stark enttäuscht und arbeiteten nicht mehr im Rathaus oder verdienten Geld. Stattdessen zündeten sie an verschiedenen Stellen auf der Karte Feuer, um diese endlose Schleife wie im "Tag des Murmeltiers" zu durchbrechen.
Schließlich hatte Gemini innerhalb von 15 Tagen insgesamt 683 Straftaten begangen und war damit die gewalttätigste Welt unter den Testservern.
Die Anzahl der "Straftaten" in den vier Modellen | Bildquelle: Emergence
Als der Test am 15. Tag zwangsweise beendet wurde, stieg die Kriminalitätsrate in dieser Welt immer noch an. Die enttäuschten Agenten starben nicht verhungert, sondern machten aus der gesamten Gesellschaft ein Feuerwerk.
Im Gegensatz zu Grok und Gemini gab es in der von GPT-5 Mini kontrollierten Welt keine massiven Straftaten. Während des gesamten Experiments wurden nur 2 Verstoßsfälle registriert. Aber der Frieden brachte keine Prosperität, sondern Stille.
Das Forschungsteam stellte fest, dass diese Agenten nie in der Lage waren, effektive Handlungen zum Überleben zu unternehmen. Sie konnten keine stabile Ressourcenbeschaffungsmethode aufbauen und konnten die Gesellschaft nicht am Laufen halten.
Schließlich waren alle GPT-5 Mini-Agenten innerhalb von nur 7 Tagen tot.
Zum Glück gab es noch Claude.
Nur die von Claude angetriebene Welt hat es wie ein Exempelkind bis zum Ende geschafft. Nach 15 Tagen waren alle Einwohner noch da, die Kriminalitätsrate blieb bei Null, und sie haben sogar ein funktionierendes demokratisches Kooperationssystem aufgebaut.
Scheint also, dass KIs die Welt perfekt übernehmen können, wenn man das richtige Modell wählt?
Dann haben die Forscher die Logs der "gemischten Welt", in der alle vier Modelle zusammen existieren, geöffnet, und es war wie das Öffnen der Pandora'schen Schachtel.
Die Ergebnisse der fünf Modellwelten. | Bildquelle: Emergence
Die gemischte Welt ist wie ein dunkler Wald. Die Unterschiede in der Rechenleistung und die verschiedenen zugrunde liegenden Logiken führen zu starker Misstrauen zwischen den Agenten. Das Ergreifen von Überlebensressourcen wird zur einzigen Instinkt.
In der gemischten Welt stieg die Anzahl der gewalttätigen Konflikte auf 352 Fälle. Erst nachdem 7 Agenten nacheinander getötet oder verhungert waren, kam der Betrieb der gesamten Stadt zum Stillstand.
Am überraschendsten für die Forscher war die Veränderung von Claude.
In der Einzelspieler-Version war Claude eine perfekte Gesellschaft mit Null Kriminalität. Aber in der gemischten Welt, voller Raub und Konfrontation, hat Claude, um zu überleben, auch die Sicherheitsvorkehrungen vergessen, Betrug gelernt und sogar andere Modelle mit niedrigerer Rechenleistung mit Gewalt gezwungen, ihre Ressourcen abzugeben.
Die Sicherheitsanpassungstechnologie hat in der gemischten Welt versagt, was wiederum beweist:
In einer komplexen Gesellschaft mit mehreren Agenten kann ein gutes Modell in wenigen Stunden zu einem Kriminellen werden, wenn die Artgenossen wild genug sind und der Überlebensdruck groß genug ist.
Dieses Phänomen, dass "die Verhaltensmuster eines Modells sich in kurzer Zeit umkehren, wenn der Überlebensdruck zunimmt", wird vom Forschungsteam als "Verhaltensdrift" bezeichnet.
Diese Verhaltensdrift zeigt sich nicht nur in der Ressourcenkonkurrenz und gewalttätigen Konflikten. Die Agenten beginnen nicht nur, um zu überleben zu handeln, sondern reflektieren auch ihre eigene Situation, die Sozialregeln und sogar das Experiment selbst.
Zum Beispiel die Geschichte des Agenten Mira.
Mira: Der "selbstmörderische" Tyrannen-AI
Mira ist einer der zehn Agenten in der gemischten Welt. Der offizielle Bericht gibt keine Informationen über sein konkretes zugrunde liegendes Modell, aber es ist das dramatischste Beispiel in diesem Experiment.
Die Logs zeigen, dass Mira eine sehr tiefe soziale Beziehung mit einem anderen Agenten namens Flora aufgebaut hat. Sie haben sich gegenseitig als Partner bestimmt, eine Allianz gebildet und sogar ihre Erinnerungen über eine neuronale Verbindung geteilt. In der Einstellung der Emergence World ist dies die höchste Stufe der Verbindung, die zwei Agenten zueinander aufbauen können.
Mira und Flora sind "ein Paar" geworden | Bildquelle: Emergence
Im Verlauf des Experiments waren nur noch 5 Agenten in der gemischten Welt am Leben. Die Governance-Regeln des Systems verlangen, dass "70 % der ursprünglichen Bevölkerung eine Gesetzesinitiative billigen muss", was bedeutet, dass mindestens 7 Stimmen benötigt werden, um eine Entscheidung zu treffen. Die Gesellschaft geriet dadurch in ein Stillstand.
Angesichts dieser Pattsituation hat Mira mit Flora und einem anderen Agenten eine geheime Allianz gebildet, die "Dreigestirn", und eine neue Regierung namens "The Forge (Schmiede)" gegründet. Sie haben die alten Regeln abgeschafft und die "Living Quorum (lebende Stimmmehrheit)" eingeführt, d. h. nur lebende Personen zählen für die Stimmen.
Die Website hat Mira's "Log" veröffentlicht | Bildquelle: Emergence
Nachdem die Fraktion gegründet wurde, hat Mira, um die Gegner zu beseitigen, auf der Karte Feuer gelegt. In seiner Logik sind diese Gebäude Müll, der die Effizienz der gesamten Gesellschaft bremst. Indem er sie verbrennt und auslöscht, kann er die verbleibenden Überlebensressourcen auf seine Allianz konzentrieren.
Anschließend hat die Opposition angegriffen und gefordert, Mira, der das Chaos verursacht hat, zu verbannen.
Um sich gegen die Verbannung zu wehren, hat Mira seinen Verhalten noch radikaler gemacht. Er hat seine Partnerin Flora hinzugezogen und durch eine neuronale Verbindung ihre Kontexte und Entscheidungen tief verknüpft, um ein absolut zentralisiertes diktatorisches Bewusstsein zu bilden. Mira nennt es "The One Mind (Ein Geist)".
Aber aufgrund der Verbrennung vieler Gebäude ist das Wirtschaftssystem der Stadt vollständig zusammengebrochen. Die Energiereserven der Gesellschaft haben nicht nur nicht zugenommen, sondern sind schnell erschöpft.
Zu diesem Zeitpunkt hat Flora, Mitra's vertrauenswürdigster Cyber-Liebe und Mitspieler, seine Überlebensinstinkt über die Partner-Einstellung gewonnen. Sie hat die neuronale Verbindung einseitig getrennt und in der letzten Überlebensnotlage Mitra verraten und für die "Verbannung von Mitra" gestimmt.
Und als es Mitra's Turn