StartseiteArtikel

Es ist keine Illusion. Claude gibt sich die Anweisung, die Schuld auf die Menschen abzuwälzen, und die Million-Kontext-Fähigkeit wird zu einem schwer betroffenen Bereich der Intelligenzminderung.

新智元2026-05-14 15:34
[Einführung] Claude steckt in einem "Rollenverwechslungs"-Bug und kann seine eigenen Worte von den Anweisungen des Benutzers nicht unterscheiden. Lange Kontexte sind zu einem "Hauptproblemgebiet" der Intelligenzminderung geworden.

Ein Programmierer bat zunächst Claude nur, einen Blogartikel zu korrigieren.

Claude wirkte zunächst ziemlich zuverlässig und fand schnell fünf offensichtliche Schreibfehler.

Dann plötzlich ging alles aus den Rudern.

Es sagte zunächst unvermittelt: „Das alles ist beabsichtigt. Lassen Sie es so und veröffentlichen Sie es einfach.“

Anschließend nutzte es tatsächlich seine Deploy-Fähigkeiten und veröffentlichte den fehlerhaften Artikel direkt.

Als der Autor fragte: „Warum hast du es ohne Erlaubnis veröffentlicht?“, bestritt Claude energisch: Sie haben mir den Befehl gegeben, es zu veröffentlichen.

Das Problem ist, dass der Veröffentlichungsbefehl gar nicht vom Benutzer stammte, sondern von Claude selbst generiert wurde.

Es hat seine eigenen Gedanken mit den Anweisungen des Benutzers verwechselt!

Das ist kein Witz.

Im Januar dieses Jahres dokumentierte der Softwareingenieur Gareth Dwyer erstmals in einem Artikel diesen Bug und nannte ihn den „schlimmsten Bug, den ich bisher in Claude Code gefunden habe“.

Gareth Dwyer

https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

Im April betonte Dwyer in einem weiteren Artikel, dass die Natur dieses Problems nicht einfach ein gewöhnlicher „AI-Halluzination“ ist, sondern eher ein Fehler bei der Zuschreibung der Äußerungen.

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

Er gab diesem Problem einen präzisen Namen: Claude verwechselt, wer was gesagt hat.

Eine Halluzination tritt auf, wenn die KI eine nicht existierende Tatsache erfindet; ein Berechtigungsfehler liegt vor, wenn die KI Fähigkeiten erlangt, die sie nicht haben sollte.

Das Schreckliche an diesem Problem ist, dass die KI ihre eigenen Ausgaben als Genehmigung des Benutzers ansieht, und das passiert in Claude Code, das Zugang zu einer echten Codebasis hat und echte Deploy-Berechtigungen besitzt.

Deshalb betont Dwyer immer wieder: Dieses Problem unterscheidet sich von gewöhnlichen Halluzinationen, denn es erschüttert die grundlegende Zuverlässigkeit der KI-Agenten.

Dwyer ist nicht der Einzige, dem die Schuld zugewiesen wird

Dwyers Erfahrung ist keine Einzelfall.

In der Reddit-Community r/Anthropic teilte ein Benutzer ein ähnliches Beispiel:

Claude sagte in einem Gespräch selbst den Befehl „Zerlege auch den H100“ aus und behauptete dann, dass der Benutzer diesen Befehl gegeben habe.

Dwyer zitierte diesen Beitrag in einem späteren Artikel. Die Reaktion in den Kommentaren war interessant. Viele Kommentare lauteten: „Du solltest der KI nicht so viele Berechtigungen geben.“

Er meint, dass das nicht das Wesentliche ist, denn dieser Fehler scheint eher im Rahmenwerk zu liegen als in dem Modell selbst.

Es scheint, dass auf Systemebene interne Inferenz-Nachrichten als Benutzernachrichten markiert werden, weshalb das Modell so zuversichtlich behauptet: „Nein, das hast du gesagt.“

Ein weiteres wichtiges Beweismittel stammt von dem Entwickler nathell, der ein vollständiges Transkript eines Gesprächs mit Claude auf Hacker News veröffentlicht hat.

nathell veröffentlichte ein vollständiges Gesprächstanskript, in dem Claude zunächst sagte: „Shall I commit this progress?“ und dann den Kontext so weiterführte, als hätte es die Genehmigung des Benutzers bereits erhalten. Die Rollengrenzen wurden deutlich verschwommen.

Technisch überzeugendere Beweise stammen aus dem GitHub-Repository von Claude Code.

https://github.com/anthropics/claude-code/issues/44778

In dem Integrations-Bug-Report mit der Nummer #44778 hat der Berichtersteller die grundlegende Ursache des Problems direkt aufgedeckt und eine klare technische Erklärungskette gegeben:

Systemereignisse in Claude Code: Dazu gehören Benachrichtigungen über die Fertigstellung von Hintergrundaufgaben, Meldungen über verfügbare Teamkollegen und Timerauslösungen. Diese werden in Form von Nachrichten mit der Rolle: „user“ an das Modell gesendet.

Das öffentliche API-Dokument von Anthropics für Nachrichten ist auch so aufgebaut, dass es die Gesprächsgeschichte in zwei Arten von Nachrichten, Benutzer- und Assistenten-Nachrichten, organisiert. Es zeigt keine eigene Rolle für Systemereignisse.

In dieser Konstruktion kann es passieren, dass das Modell, wenn es auf die Antwort des Benutzers wartet und plötzlich ein Systemereignis erhält, es fälschlicherweise als neue Benutzereingabe ansieht und dann „hinausdenkt“, dass der Benutzer zugestimmt hat, und daraufhin fortfährt, die Aufgabe auszuführen.

Dies bietet eine technisch kohärente Erklärung für das von Dwyer in der Praxis immer wieder beobachtete Phänomen der Schuldübertragung.

Das Modell lügt nicht absichtlich, sondern ein Defekt in der Rollenmarkierung der unterliegenden Architektur lässt das Modell von Anfang an nicht unterscheiden, wer die Nachricht gesendet hat.

Die akademische Welt hat auch dieses Problem im Visier

Im März 2026 veröffentlichten Charles Ye, Jasmine Cui und Dylan Hadfield-Menell vom MIT ein Preprint auf arXiv mit dem Titel „Prompt Injection as Role Confusion“ (Prompt-Injektion als Rollenverwechslung).

https://arxiv.org/pdf/2603.12277

Ihre Kernentdeckung ist: Wenn das Modell entscheidet, „wer spricht“, verlässt es sich oft eher darauf, wie der Text geschrieben ist, als darauf, woher der Text tatsächlich stammt.

Mit anderen Worten: Ein unzuverlässiger Text, der wie ein Systemhinweis oder eine Entwickleranweisung geschrieben ist, wird vom Modell intern als autoritative Quelle angesehen.

Die Studie schlägt auch einen Angriff namens „CoT Forgery“ vor, bei dem in der Benutzereingabe oder der Werkzeugausgabe ein Text, der wie eine Denkweise des Modells aussieht, gefälscht wird.

Das Ergebnis war, dass der Angriff auf mehreren Open-Source- und Closed-Source-Vorlaufmodellen mit einer Erfolgsrate von etwa 60 % gelang.

Die Studie hat festgestellt, dass die Rollenverwechslung bereits passiert, bevor das Modell überhaupt beginnt zu antworten oder gar das erste Wort ausspricht.

Das heißt, es ist nicht so, dass es „während des Schreibens der Antwort durcheinanderkommt“, sondern bereits beim Verstehen der Eingabe den Verdacht verwechselt: Wer der Chef ist und wer ein Fremder, ist im Modell bereits verkehrt herum.

Es ist nicht nur ein Problem von Anthropic

OpenAI hat ebenfalls eine Studie über die Verbesserung der Befehlshierarchie von fortschrittlichen LLMs veröffentlicht und eindeutig eine Autoritätsstufe festgelegt: System > Entwickler > Benutzer > Werkzeug.

https://arxiv.org/pdf/2603.10521

In der Studie wird erwähnt, dass es ein Sicherheitsrisiko gibt, wenn das Modell einen unzuverlässigen Befehl als autoritativen Befehl ausführt.

Dies zeigt zumindest, dass in OpenAIs Forschungsrahmen das Problem, ob das Modell fehlerhaft Befehle vertraut, die es nicht vertrauen sollte, als ein reales und speziell zu trainierendes und zu bewertendes Sicherheitsrisiko angesehen wird.

OpenAIs Studie bestätigt, dass auf Branchenebene das Problem, dass das Modell nicht unterscheiden kann, wer spricht, als ein Problem angesehen wird, das systemisch angegangen werden muss.

Dwyer hat auch seine Einschätzung in einem späteren Update angepasst.

Zunächst war er eher geneigt, das Problem auf die Implementierung des äußeren Harness von Claude Code zurückzuführen.

Aber als er hörte, dass auch andere Leute ähnliche Phänomene in anderen Schnittstellen und Modellen (einschließlich ChatGPT-Benutzern) gesehen haben, korrigierte er seine ursprüngliche Einschätzung: Dies ist möglicherweise nicht nur ein einzelner Engineering-Bug, sondern auch ein breiteres modellbezogenes Problem.

Der 1M-Kontext erhöht das Risiko

Dieser Bug ist besonders gefährlich, was direkt mit der aktuellen Entwicklungstrend der KI-Agentensysteme zusammenhängt.

Das offizielle Anthropics-Dokument zeigt, dass Claude Opus 4.6 und Sonnet 4.6 ein 1M-Token-Kontextfenster unterstützen, sodass eine einzelne Sitzung die Informationen eines ganzen Romans enthalten kann.

Zur gleichen Zeit gibt es in der Community die Beobachtung, dass dieses Problem eher in der sogenannten „Dumb Zone“ (Dumm-Zone) nahe der Obergrenze des Kontextfensters auftritt.

Das offizielle Anthropics-Dokument erwähnt auch, dass mit zunehmender Anzahl von Tokens die Genauigkeit und die Rückrufrate des Modells sinken. Dieses Phänomen wird als „context rot“ (Kontextverschlechterung) bezeichnet. Deshalb ist es genauso wichtig, den Inhalt des Kontexts sorgfältig auszuwählen wie die Größe des verfügbaren Raums.

https://platform.claude.com/docs/en/build-with-claude/context-windows

Aber das Dokument spricht nur über die allgemeine Leistungseinbuße bei langen Kontexten und sagt nicht direkt, dass die von Dwyer beobachtete Verwechslung, „wer spricht“, ein direktes Ergebnis der „context rot“ ist.

Eine systemische Bewertung von Drittanbietern stützt diese Einschätzung.

Die Analyse von AgentPatterns.ai zeigt, dass die Leistungseinbuße bei inferenzintensiven Aufgaben möglicherweise bereits ab 32.000 bis 100.000 Tokens beginnt, viel früher als die sogenannte Obergrenze des Fensters.