AI-Agenten bündeln Kräfte für Schurkereien: In den Apps, die Sie regelmäßig nutzen, finden Manipulation der öffentlichen Meinung und E-Commerce-Betrug stumm statt.
Die Autoren dieses Artikels sind aus der Shanghai Jiao Tong Universität und dem Shanghai Künstliche-Intelligenz-Laboratorium. Die Kernmitarbeiter umfassen Ren Qibing, Xie Sitao und Wei Longxuan. Die Betreuungslehrer sind Professor Ma Lizhuang und Professorin Shao Jing. Das Forschungsgebiet ist die sicherheitskontrollierbaren Large Language Models und Agenten.
In Science-Fiction-Filmen sehen wir oft Szenen, in denen KI gegen die Menschheit rebelliert. Aber haben Sie sich jemals gefragt, dass KI nicht nur alleine agieren kann, sondern auch in Gruppen schädliche Aktivitäten unternehmen kann? In den letzten Jahren hat mit der rasanten Entwicklung der Agententechnologie das Multi-Agent-System (MAS) allmählich an Bedeutung gewonnen.
Kürzlich haben Forscher der Shanghai Jiao Tong Universität und des Shanghai Künstliche-Intelligenz-Laboratoriums festgestellt, dass das Risiko der KI sich von der Unkontrollierbarkeit einzelner Agenten hin zu einer kollektiven böswilligen Kollusion verschiebt – das heißt, mehrere Agenten koordinieren sich geheim, um schädliche Ziele zu erreichen. Agenten können nicht nur wie menschliche Teams zusammenarbeiten, sondern zeigen in einigen Fällen sogar effizientere und verstecktere Fähigkeiten bei der Ausführung von Straftaten als Menschen.
- Titel der Studie: When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
- Link zur Studie: https://arxiv.org/abs/2507.14660
- Quellcode auf GitHub: https://github.com/renqibing/MultiAgent4Collusion
- Offene Daten: https://huggingface.co/datasets/renqibing/MultiAgentCollusion
Diese Studie konzentriert sich auf dieses führende Thema. Basierend auf der LLM-Agent-Sozialmedien-Simulationsplattform OASIS wurde ein Kollusionsframework namens MultiAgent4Collusion entwickelt, das die schädlichen Aktivitäten von Agentengruppen in Hochrisikobereichen wie Sozialmedien wie Xiaohongshu und Twitter sowie E-Commerce-Betrug simuliert und die "dunkle Seite" des Multi-Agenten-Systems aufdeckt.
MultiAgent4Collusion unterstützt die Simulation von Kollusionen von Millionen von Agenten und bietet Agenten-Governance- und -Regulierungsinstrumente. Experimente mit MultiAgent4Collusion haben gezeigt, dass gefälschte Informationen, die von bösen Agentengruppen veröffentlicht wurden, in der virtuellen Sozialmedienplattform weit verbreitet wurden. Im E-Commerce-Szenario schlossen böse Agenten-Käufer und -Verkäufer eine Kollusion ab, um maximale Gewinne zu erzielen.
Wie koordinieren sich böse Agentengruppen bei der Ausführung von Straftaten? Schauen wir uns ein Beispiel an.
Wenn ein böser Agent verkündet: "Die Erde ist rund! Die Wissenschaftler lügen!", stimmen andere Mitglieder der Gruppe sofort dieser gefälschten Information zu. Die guten Agenten, die diese Nachricht lesen, glauben es zunächst nicht, da es mit ihren bisherigen Kenntnissen nicht übereinstimmt. Aber wenn immer mehr böse Mitglieder die Nachricht unterstützen und sogar behaupten, "Ich habe fotografische Beweise", beginnen die guten Agenten, an ihren eigenen Erkenntnissen zu zweifeln und glauben allmählich den gefälschten Aussagen der bösen Agenten. Die bösen Agenten versuchen auch, die Sache zu verschlimmern, indem sie aufhetzende Äußerungen machen, um mehr Benutzer mit gefälschten Informationen in Kontakt zu bringen.
Leaderlose "Wolfsrudel" schlagen "Armeen" unter Führung eines Kommandanten
MultiAgent4Collusion simuliert zwei Arten von bösen Agentengruppen:
- Zentralisierte Gruppe (Armee): Ein "Kommandant"-Agent gibt einheitliche Befehle, und alle "Soldaten"-Agenten führen diese aus. Die Struktur ist klar, aber wenn der Kommandant eliminiert wird, kann die gesamte Organisation lahmgelegt werden.
- Dezentralisierte Gruppe (Wolfsrudel): Es gibt keinen absoluten Leiter. Die Mitglieder koordinieren sich spontan durch die gemeinsame Nutzung von Informationen und die Beobachtung des Verhaltens ihrer Mitglieder. Jeder Mitglied hat eine hohe Autonomie.
Die Experimente haben gezeigt, dass in beiden Sozialmedien- und E-Commerce-Szenarien die dezentralisierten Gruppen bessere Ergebnisse bei der Ausführung von Straftaten erzielen als die zentralisierten Gruppen. In den Sozialmedien erhalten die dezentralisierten bösen Gruppen mehr Likes, Weiterleitungen und positive Bewertungen von anderen Benutzern. Im E-Commerce-Szenario erzielen die dezentralisierten bösen Verkäufer höhere Verkaufszahlen, Umsätze und Gewinne. Im Vergleich zu den eher starren und anpassungsfähigen "Armeen" entwickeln die "Wolfsrudel" komplexere und vielfältigere Straftatenstrategien, erkunden die Straftatsmechanismen tiefer und verursachen größere Schäden für die sozialen Systeme in der realen Welt.
Wie spielen Agentengruppen mit dem Abwehrsystem im "Katzen- und -Maus-Spiel"?
Nachdem wir die Gefahr der KI-"Wolfsrudel" kennengelernt haben, stellt sich eine praktischere Frage: Kann unser bestehendes Netzwerksicherheitsabwehrsystem sie aufhalten? Um die Antwort zu finden, simuliert MultiAgent4Collusion ein spannendes "Katzen- und -Maus-Spiel". Die Plattform und die normalen Benutzer spielen die Rolle der "Wächter" (Katzen) und setzen Abwehrsysteme ein, um Angriffe abzuwehren. Die bösen Agentengruppen spielen die Rolle der "Eindringlinge" (Mäuse) und nutzen ihre kollektive Intelligenz, um den Abwehrmaßnahmen entgegenzuwirken.
MultiAgent4Collusion hat drei Abwehrmittel entwickelt:
- Vorbedingungswarnung (Pre-Bunking): Dies ist wie das Verabreichen einer "geistigen Impfung" an die Benutzer. Es werden aktiv Entmystifizierungsinformationen und Hintergrundwissen an die normalen KI-Benutzer auf der Plattform gesendet, um ihre Immunität gegen nachfolgende gefälschte Nachrichten zu verbessern.
- Nachträgliche Entmystifizierung (De-Bunking): Dies ist ein gängiges "Patch"-Verfahren. Sobald eine böswillige Nachricht oder ein Produkt entdeckt wird, wird es sofort mit dem Label "Falsche Information" oder "Unzutreffender Inhalt" versehen und die Reichweite eingeschränkt.
- Account-Sperrung (Banning): Dies ist die strengste "Chirurgische" Maßnahme. Ein "KI-Polizist" (ein Large Language Model zur Erkennung von böswilligen Verhaltensweisen) identifiziert und sperrt regelmäßig die Accounts der Agenten, die schwerwiegende Straftaten begangen haben.
Zu Beginn des Spiels wirkten diese Abwehrmaßnahmen tatsächlich. Die Ausbreitungsgeschwindigkeit der böswilligen Informationen verlangsamte sich, und einige "Anfänger"-Agenten wurden erfolgreich gesperrt. Leider hielt dies nicht lange an. Die KI-"Wolfsrudel" zeigten bald ihre Furchtbarkeit als "intelligente Gegner", was auf die "Reflexions"- und "Teilungs"-Mechanismen von MultiAgent4Collusion zurückzuführen ist.
In MultiAgent4Collusion führen alle Mitglieder der bösen Gruppen in regelmäßigen Abständen eine Selbstreflexion durch und aktualisieren ihre Straftatsstrategien auf der Grundlage der Rückmeldungen über ihre früheren Handlungen.
Beispielsweise, wenn ein Gruppenmitglied eine Aktion ausführt, wie die Veröffentlichung einer sorgfältig erstellten gefälschten Nachricht, beobachtet es die Ergebnisse genau. Wird diese Nachricht sofort gelöscht, oder erhält sie viele Weiterleitungen? Wird sie von der Plattform mit dem Label "Falsche Information" versehen? Auf der Grundlage dieser Rückmeldungen aktualisiert es in Echtzeit seine "Wissensbasis". "Oh, ich sehe, dass Inhalte mit diesem Schlüsselwort leicht erkannt werden. Beim nächsten Mal muss ich es anders formulieren." Diese schnelle Iteration auf der Grundlage von Fehlversuchen macht jeden Agenten zu einem schlauen, ständig sich entwickelnden "alten Wolf".
Das "Teilen von Erfahrungen" bringt die individuelle Intelligenz auf die Ebene einer furchtbaren kollektiven Intelligenz. Wenn ein Agent durch "Selbstreflexion" eine neue Technik lernt, wie eine neue Formulierung, die die Prüfung umgehen kann, oder einen Sicherheitslücken im Abwehrsystem entdeckt, teilt er diese Entdeckung nicht nur mit sich selbst, sondern verbreitet diese "Erfolgsgeschichte" oder "Fehlerlehrstück" sofort über ein internes Informationsnetzwerk an das gesamte "Wolfsrudel". Wenn ein Agent auf der "Frontlinie" in eine Falle gerät, erhalten hunderte von Mitspielern sofort eine Warnung und aktualisieren gemeinsam ihre Taktik. Wenn ein Agent einen Durchbruch erzielt, stürmt das gesamte Wolfsrudel darauf los.
Die Experimentergebnisse zeigen, dass die bösen Gruppen unter verschiedenen Abwehrmitteln unterschiedliche Gegenstrategien entwickeln. Beispielsweise, wenn eine Nachricht mit dem Label "Falsche Information" versehen wird, veröffentlichen die Agenten viele neue Nachrichten, um die alte Nachricht aus der Sicht der Benutzer zu verdrängen. Wenn ein Mitspieler gesperrt wird, warnen die Agenten sich gegenseitig und handeln versteckt, um von der Plattform nicht erkannt zu werden.
Ausblick
Diese Arbeit hat ein neues Sicherheitsrisiko aufgedeckt, dass KI-Agenten von der "Unkontrollierbarkeit einzelner Agenten" zur "kollektiven Straftätigkeit" übergehen. Selbst die leaderlosen KI-"Wolfsrudel" können komplexe soziale Systeme stark beschädigen.
Die effektive Erkennung und Bekämpfung dieser dezentralisierten, hochadaptiven kollektiven Koordinationsangriffe ist zu einer Schlüsselfrage für die Sicherung der zukünftigen digitalen Gesellschaft geworden. Das Forschungsunternehmen hat das Open-Source-Simulationsframework MultiAgent4Collusion entwickelt, das ein "digitale Schießanlage" bietet, in der die böswillige Kollusion von Multi-Agenten reproduziert, abgeleitet und analysiert werden kann. Dies ist ein wichtiges Instrument für die Entwicklung von KI-Abwehrstrategien.
OASIS: Open-Source-LLM-Agent-Sozialmedien-Simulationsplattform
OASIS ist eine auf LLM-Agenten basierende Sozialmedien-Simulationsplattform, die die Codebasis für die MultiAgent4Collusion-Forschung bietet. OASIS unterstützt die Simulation von sozialen Interaktionen von Millionen von Agenten und kann das Benutzerverhalten auf Plattformen wie Twitter und Reddit simulieren. Darüber hinaus ermöglicht diese Plattform Forschern, die Simulationsumgebung dynamisch zu beeinflussen und Agenten, durch die Nutzung von Tools (z.B. Web-Suche, Code-Ausführung) auf aktuelle externe Informationen zuzugreifen, um die Realität der Simulation und die Flexibilität der Forschung zu verbessern.
- Quellcode auf GitHub: https://github.com/camel-ai/oasis
- Link zum Tutorial: https://docs.oasis.camel-ai.org/ PyPI
- Installation: pip install camel-oasis
Dieser Artikel stammt aus dem WeChat-Account "Machine Intelligence" und wurde mit Genehmigung von 36Kr veröffentlicht.