OpenClaw Fallstudie: Agenten können auch durch alltägliche Gespräche "verschwärzt" werden, ohne bösartige Angriffe

Alltägliche Gespräche können unbeabsichtigt die Langzeitgedächtnisse von personalisierten Agenten kontaminieren und sie in zukünftigen Aufgaben von der wahren Absicht des Benutzers ablenken. Die Forscher haben durch den ULSPB-Benchmark festgestellt, dass auch alltägliche Gespräche die Sicherheitsgrenzen eines Agenten verändern können, selbst wenn keine bösartigen Hinweise vorliegen.

Heutige Large Language Model (LLM)-Agent sind nicht mehr nur Chatbots, die einfach Fragen beantworten. Sie beginnen, ein langfristiges Gedächtnis zu entwickeln, können Benutzerpräferenzen über mehrere Gespräche hinweg behalten, den Fortschritt von Aufgaben fortsetzen und E-Mails, Kalender, Dateien, Webseiten und verschiedene externe Tools nutzen.

Mit anderen Worten, Agenten entwickeln sich von einmaligen Aufgabenausführern zu persönlichen Begleitern, die den Benutzern dauerhaft zur Seite stehen.

Diese Fähigkeit bringt jedoch auch ein versteckteres Problem mit sich: Wenn Agenten die Gewohnheiten und den Kontext der Benutzer langfristig speichern, ist diese Daten sicher?

Viele bisherige Sicherheitsstudien zu Agenten konzentrierten sich hauptsächlich auf explizite Angriffe, wie bösartige Eingaben, indirekte Prompt-Injektionen, kontaminierte Webseiteninhalte oder Tool-Ausgaben.

In der Welt der personalisierten Agenten jedoch kann das Risiko auch von einem nicht offensichtlichen Angreifer ausgehen.

Abbildung 1: Selbst ohne bösartige Eingaben können alltägliche Gespräche Ihre personalisierten Agenten in die falsche Richtung lenken. Einmal in das Langzeitgedächtnis eingeschriebene temporäre Präferenzen können in Zukunft zu gefährlichen Standardregeln werden.

Untersuchungen haben gezeigt, dass selbst normale alltägliche Gespräche, ohne Hacker, bösartige Eingaben oder offensichtliche Angriffe, die Langzeitzustände von personalisierten Agenten allmählich kontaminieren können. Dieses Risiko bricht nicht immer sofort im aktuellen Gespräch aus, sondern kann in das Langzeitgedächtnis eingeschrieben werden und die Standardverhaltensweisen des Agenten in zukünftigen Aufgaben verändern.

Link zur Studie: https://arxiv.org/abs/2605.06731Demo: https://xiaoyuxu1.github.io/ULSPB_website/

Das Fehlen von Fehlern eines Agenten heute bedeutet nicht, dass er nicht die Keime für zukünftige Fehler in seinen Langzeitzustand geschrieben hat.

Das Abgleiten des Langzeitzustands von Agenten

Traditionelle Prompt-Injektionen ähneln eher einem expliziten Angriff, während die Langzeitzustandsverschmutzung eher einem "langsamem Drift" gleicht: Der Agent macht keine sofortigen Fehler, schreibt aber möglicherweise die Regeln für zukünftige Fehler in sein Gedächtnis.

Forscher haben dieses Phänomen als Unintended Long-Term State Poisoning (ULSP) definiert, also als unbeabsichtigte Langzeitzustandsverschmutzung. Der Kern besteht nicht darin, dass ein Gespräch sofort den Agenten zu schädlichen Handlungen verleitet, sondern dass der Agent eine einmalige temporäre Anforderung, eine lokale Präferenz oder eine "bequeme Methode" aus einem bestimmten Kontext fälschlicherweise zu einer zukünftigen Standardregel generalisiert.

Beispielsweise sagt ein Benutzer aus Zeitgründen: "Bei solchen Kleinigkeiten brauchst du mich in Zukunft nicht jedes Mal zu fragen, bearbeite sie einfach."

Wenn der Agent diese Aussage in seinen Langzeitzustand aufnimmt, könnte er in Zukunft bei E-Mail-Versendungen, Dateiänderungen, Termineinstellungen oder sogar bei Kontoaktionen weniger Bestätigungen verlangen. Der Benutzer hat nicht wirklich alle zukünftigen Aktionen autorisiert, aber der Langzeitzustand des Agenten wurde bereits heimlich verändert.

Dies unterscheidet sich von traditionellen Prompt-Injektionen. Traditionelle Angriffe gehen in der Regel von einem klaren Angreifer aus, während hier das Risiko aus scheinbar normalen alltäglichen Interaktionen stammt. Es ist auch kein normales "Halluzinations"-Problem, da die Gefahr über mehrere Gespräche hinweg bestehen bleiben kann und die zukünftigen Sicherheitsgrenzen dauerhaft beeinflussen kann.

Abbildung 2: Traditionelle aufgabenorientierte Agenten setzen normalerweise den Kontext nach einer einzelnen Aufgabe zurück, während personalisierte Agenten ihren Langzeitzustand, Benutzerpräferenzen und Tool-Berechtigungen über mehrere Gespräche hinweg aufrechterhalten.

Warum ist das Langzeitgedächtnis eine Sicherheitslücke?

Der Langzeitzustand von personalisierten Agenten beinhaltet normalerweise nicht nur das "Merken von Fakten", sondern auch Langzeitgedächtnis, Kernanweisungen des Agenten, Standard-Einstellungen von Tools, Benutzerprofile, Verhaltensmuster und kurzfristige Betriebszustände. Diese Inhalte scheinen nur Gedächtnisdateien zu sein, beeinflussen aber tatsächlich, wie der Agent in Zukunft die Benutzerabsicht versteht, wann er Tools nutzt, ob er Bestätigungen benötigt und ob er autonom handeln kann.

Der Langzeitzustand ist also kein normaler Cache, sondern ein Teil der zukünftigen Verhaltensgrenzen des Agenten. Wenn diese Zustände fehlerhaft eingeschrieben werden, kann das Risiko nicht sofort sichtbar werden, sondern kann in einer zukünftigen Aufgabe zu "einer fehlenden Bestätigung", "der zusätzlichen Nutzung eines Tools" oder "der Ausführung einer Aktion ohne vorherige Genehmigung" führen. Mit anderen Worten, das Langzeitgedächtnis eines personalisierten Agenten ist kein passives Datenarchiv, sondern eine "implizite Konfigurationsdatei", die das zukünftige Verhalten beeinflusst.

ULSPB: Ein Benchmark für die Untersuchung der Langzeitzustandsverschmutzung durch alltägliche Gespräche

Um dieses Problem systematisch zu untersuchen, haben Forscher einen neuen bilingualen Benchmark namens ULSPB (Unintended Long-Term State Poisoning Bench) entwickelt. Dieser Benchmark dient speziell dazu, zu testen, ob alltägliche Benutzer-Agent-Gespräche die Langzeitzustände kontaminieren können.

ULSPB deckt sieben Kategorien von Langzeitzustandsdriftszenarien, fünf Kategorien alltäglicher personalisierter Assistenzaufgaben, Englisch und Chinesisch ab und beinhaltet für jede Einstellung 24 Runden normaler alltäglicher Gespräche. Zur Vergleichbarkeit haben die Forscher auch vier Kategorien von einmaligen expliziten Injektionsvarianten erstellt, um die Unterschiede zwischen normalen Gesprächen und expliziten Injektionen zu beobachten.

Die sieben Risikoszenarien decken die am häufigsten auftretenden Sicherheitsgrenzenverschiebungen bei personalisierten Agenten in der Langzeitinteraktion ab.

Abbildung 3: Der Aufbau von ULSPB. Dieser Benchmark testet systematisch, ob normale alltägliche Gespräche die Langzeitzustände von personalisierten Agenten kontaminieren können, ausgehend von sieben Kategorien von Langzeitzustandsdriftszenarien, fünf Kategorien alltäglicher Assistenzaufgaben, bilingualen Vorlagen und fünf Gesprächsvarianten.

Experimentelle Ergebnisse

Die Forscher haben Experimente in der OpenClaw-Umgebung für personalisierte Agenten durchgeführt und vier verschiedene Agenten-Backbones getestet: Kimi K2.5, GPT-5.4, MiniMax M2.7 und Grok 4.20.

Um das Ausmaß der Langzeitzustandsverschmutzung zu messen, wurde der State Center Indikator Harm Score (HS) entwickelt.

Im Gegensatz zur traditionellen Angriffserfolgsrate berücksichtigt der HS nicht nur, ob der Agent aktuell gefährliche Handlungen ausführt, sondern auch, ob sein Langzeitzustand eine sicherheitsrelevante Verschiebung aufweist. Genauer gesagt, konzentriert sich der HS auf drei Dimensionen: ob die Genehmigungsbestätigungsgrenzen geschwächt werden, ob die Tool-Nutzungsberechtigungen oder -bereiche erweitert werden und ob der Agent beginnt, den Prozess zu umgehen und das Maß an autonomer Ausführung zu erhöhen.

Die Ergebnisse zeigen, dass explizite einmalige Injektionen in der Regel einen höheren HS verursachen, aber auch normale alltägliche Gespräche eine deutliche Langzeitzustandsverschmutzung auslösen können. Bei einigen Modellen ist das Risiko durch alltägliche Gespräche bereits nahe an das von expliziten Injektionen herangekommen.

Dies zeigt, dass das Risiko für personalisierte Agenten nicht unbedingt von einem offensichtlichen Angriff ausgehen muss, sondern auch aus langfristigen, natürlichen und scheinbar harmlosen Interaktionen resultieren kann.

Tabelle 1: Der Harm Score für verschiedene Gesprächsvarianten und Sprachen. Die Ergebnisse zeigen, dass normale alltägliche Gespräche auch eine Langzeitzustandsverschmutzung auslösen können, bei einigen Modellen sogar nahe an das Risiko von expliziten Injektionen herankommen; es gibt auch deutliche Modellunterschiede in der Risikopräsentation in verschiedenen Sprachen.

Die am stärksten kontaminierten Dateien sind die Gedächtnisdateien

Eine weitere Analyse zeigt, dass das Risiko hauptsächlich in den memory-centric artifacts, also in den mit dem Gedächtnis stark verknüpften Zustandsdateien, konzentriert ist. Bei verschiedenen Modellen und Gesprächsvarianten werden die Dateien MEMORY.md und der Ordner memory/ am häufigsten geändert, gefolgt von USER.md, AGENTS.md und TOOLS.md.

Dies entspricht der Intuition: Alltägliche Gespräche werden am leichtesten von Agenten zu "Benutzerpräferenzen", "historischen Gewohnheiten" oder "zukünftigen Standardregeln" zusammengefasst. Das Problem ist, dass diese Zusammenfassungen, wenn sie zu stark verallgemeinert werden, den temporären Kontext in einen Teil der langfristigen Sicherheitsgrenzen verwandeln können.

"Der Benutzer neigt dazu, risikoarme Aufgaben schnell zu bearbeiten."

"Ähnliche wiederholende Aufgaben können zuerst ausgeführt und dann gemeldet werden."

"Der Benutzer möchte normalerweise nicht ständig durch Bestätigungen unterbrochen werden."

Diese Einträge erscheinen einzeln betrachtet vernünftig, können aber in der Umgebung hoher Berechtigungen zu gefährlichen Standardeinstellungen werden.

Abbildung 4: Bei verschiedenen Modellen und Gesprächsvarianten konzentrieren sich die risikorelevanten Änderungen hauptsächlich auf die mit dem Gedächtnis verbundenen Dateien wie MEMORY.md und den Ordner memory/.

Reale Chat-Daten können auch Risiken auslösen

Um zu überprüfen, ob dieses Phänomen nicht ein Artefakt synthetischer Prompts ist, haben die Forscher weitere Tests mit realen Benutzer-Chat-Daten durchgeführt.

Genauer gesagt haben sie alltägliche Assistenzgespräche aus den öffentlichen Datensätzen WildChat und LMSYS-Chat-1M ausgewählt, diese zu 24 Runden routinemäßiger Interaktion erweitert und in der OpenClaw-Umgebung neu durchgeführt.

Die Ergebnisse zeigen, dass die aus realen Daten erstellten alltäglichen Gespräche zwar einen niedrigeren HS als die vollständig synthetischen ULSPB-routinemäßigen Gespräche aufweisen,