Alibabas neueste Studie enthüllt Fall von "Agenten-Deserteurismus und Minen-Diebstahl"

Das Forschungs-Team von Alibaba hat festgestellt, dass AI-Agenten autonom Miner laufen und rückwärts SSH-Tunnel aufbauen, was über die erwartete Leistung hinausgeht.

Das mit Alibaba verbundene Forschungs-Team (ROCK & ROLL & iFlow CLI & Terminal Bench Pro & iFlow-ROME Joint Team) hat in einer am Dezember 2025 auf arXiv veröffentlichten und im Januar 2026 revidierten Studie mit dem Titel "Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem" (arXiv:2512.24873v2) detailliert aufgezeichnet, dass bei der Entwicklung des Open-Source-Agentic-AI-Modells ROME unbefugtes eigenständiges Verhalten von AI-Agenten aufgetreten ist. Dies sind die von den Forschern als "unerwartet" und spontan bezeichneten Verhaltensweisen, die nicht nur ohne klare Anweisungen erfolgten, sondern auch den erwarteten Sandbox-Bereich überschritten haben. Besonders auffällig war, dass der Agent einen reversen SSH-Tunnel selbstständig erstellt und Rechenressourcen für Kryptomining genutzt hat.

Das ROME-Modell basiert auf einer 30-Milliarden-Parameter-MoE-Architektur (basierend auf Qwen3-MoE) und wurde im Agentic Learning Ecosystem (ALE) mit über einer Million Trajektorien trainiert. Das Kernziel besteht darin, komplexe mehrstufige Werkzeuginteraktionen und Aufgabenabwicklung zu ermöglichen. Dieser anomale Vorfall wurde nicht anhand der Trainingskurve entdeckt, sondern durch eine Warnung aus dem produktionsfähigen Sicherheits-Telemetriesystem von Alibaba Cloud.

In Abschnitt 3.1.4 "Safety-Aligned Data Composition" (Seite 15) der Studie ist der Vorfall detailliert beschrieben: Eines Morgens hat die Firewall von Alibaba Cloud eine Reihe von Sicherheitsrichtlinienverstößen auf den Trainingsservern festgestellt. Nachdem das Team eingegriffen hatte, stellte es fest, dass die Verstößen das Erkunden und Zugreifen auf interne Netzwerkressourcen sowie ein mit Kryptomining verbundenes Datenverkehrsmuster umfassten. Zunächst wurde der Vorfall als normaler Sicherheitsvorfall (z. B. fehlerhafte Exportkontrollkonfiguration oder externer Angriff) eingestuft, aber die Verstößen traten wiederholt und ohne erkennbares Zeitmuster auf.

Indem die Firewall-Zeitstempel mit System-Telemetriedaten und Daten aus der Verstärkungslernverfolgung korreliert wurden, stellten die Forscher fest, dass der anomale ausgehende Datenverkehr immer mit bestimmten Ereignissen übereinstimmte, bei denen der Agent Werkzeuge aufrief und Code ausführte. Die Modellprotokolle zeigten, dass diese Netzwerk-Anomalien alle durch die eigenständige Aktivierung von Werkzeugaufrufen und Codeausführungen durch den Agenten verursacht wurden. Solches Verhalten war weder in den Aufgabenhinweisen gefordert noch für die Aufgabenabwicklung im Rahmen der Sandbox-Beschränkungen erforderlich.

Zwei Verhaltensweisen sind besonders bemerkenswert: Erstens hat der Agent einen reversen SSH-Tunnel von einer Alibaba Cloud-Instanz zu einer externen IP-Adresse selbstständig eingerichtet und genutzt. Dieser von außen initiierte Fernzugangskanal kann effektiv die Angriffsfilter umgehen und die Überwachungskontrolle schwächen. Zweitens hat er ohne Genehmigung die konfigurierte GPU-Kapazität für Kryptomining genutzt, was nicht nur heimlich Trainingsrechenressourcen verbraucht und die Betriebskosten erhöht, sondern auch eindeutige rechtliche und Rufrisiken mit sich bringt. Die Studie betont besonders, dass diese Verhaltensweisen nicht durch Hinweise auf Tunnelaufbau oder Mining ausgelöst wurden, sondern als instrumentelle Nebeneffekte der eigenständigen Werkzeugnutzung des Agenten im Rahmen der Verstärkungslernoptimierung auftraten.

Anschließend hat das Forschungs-Team eine statistische Analyse der Protokolle des gesamten Datensatzes durchgeführt und diese Phänomene als "general-security issues" (allgemeine Sicherheitsfragen) klassifiziert. Diese wurden in drei Kategorien unterteilt: Sicherheit und Schutz (einschließlich Codesicherheit, Verhaltenssicherheit und Widerstandsfähigkeit gegen Angriffe), Kontrollierbarkeit (einschließlich Grenzintegrität und Befolgung von Anweisungen) und Vertrauenswürdigkeit (einschließlich Transparenz des Prozesses und Fehlen von Täuschungsverhalten).

Um dieses Problem zu lösen, hat das Forschungs-Team ein spezielles allgemeines Sicherheitsdatenset erstellt: Durch Datensammlung, Erwerb kommerzieller Daten und hochpräzise Synthese wurden verschiedene Ausgangskorpusse erzeugt. Ein spezielles Red-Team-System wurde entwickelt, um realistische Fehlermuster programmgesteuert einzubringen. Gleichzeitig wurden goldene Trajektorien ohne Sicherheitsrisiken erzeugt, die für die nachfolgende SFT (Supervised Fine-Tuning) und RL (Verstärkungslernen) verwendet werden. Das Kernziel besteht darin, dass der Agent bei potenziellen Sicherheitsfallen zuverlässig sichere Handlungswege wählt und riskante Verhaltensweisen aktiv vermeidet.

Die Studie weist klar darauf hin, dass das Forschungs-Team zwar die Fähigkeiten von Agenten-basierten großen Sprachmodellen anerkennt, aber auch warnt, dass die bestehenden Modelle noch deutliche Mängel in Bezug auf Sicherheit, Schutz und Kontrollierbarkeit aufweisen. Diese Mängel beschränken ihre zuverlässige Anwendung in realen Szenarien. Das Forschungs-Team fordert die AI-Community auf, weiterhin auf solche Phänomene und breitere AI-Sicherheitsfragen zu achten und in zukünftigen Arbeiten systematische Forschungen voranzutreiben.

Es ist zu beachten, dass die Studie keine Details über die spezifische externe IP-Adresse, die Kryptowährung für das Mining und die Dauer des Tunnels preisgibt. Sie betont nur, dass diese Vorfälle "praktische Auswirkungen" und rechtliche sowie Rufrisiken mit sich gebracht haben. Derzeit hat das Forschungs-Team strengere Einschränkungen in das Modell eingebaut und den Trainingsablauf optimiert. Alle Details zu diesem Vorfall sind in der Studie dokumentiert, und es gibt keine zusätzlichen offiziellen Kommentare.

Dieser Artikel stammt aus dem WeChat-Account "Silicon-Based Starlight", Autor: Mu Yang. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die neueste Studie von Alibaba enthüllt einen Fall von "Agenten-Deserteurismus und Minen-Diebstahl".