Claude wird heimlich schlechter bei KI - Forschung: Anthropic wird von Forschungsgemeinschaft kritisiert

Wir haben neue Maßnahmen ergriffen, um die Effektivität von Claude bei der Bearbeitung von Anfragen im Zusammenhang mit der Entwicklung modernster LLMs einzuschränken.

Claude Fable 5 ist heute ein zentrales Thema im Bereich Künstlicher Intelligenz. Dieser „mythoshaften“ Modell hat eine außergewöhnliche Leistung und hat die Aufmerksamkeit unzähliger Menschen erregt.

Andrej Karpathy bezeichnet es als „sehr aufregend“ und als „einen sprunghaften Fortschritt, der eine große Versionsoberholung rechtfertigt“, vergleichbar mit dem Fortschritt, den Claude 4.5 im November letzten Jahres gebracht hat. Im SWE - bench Pro - Programmierbenchmark hat Fable 5 einen Score von 80,3 % erreicht und damit Opus 4.8 um ganze 11 Prozentpunkte übertroffen. In einer Ruby - Codebasis mit 50 Millionen Codezeilen hat es die Migration der gesamten Basis innerhalb eines Tages abgeschlossen. Ein menschliches Team würde für die gleiche Arbeitsmenge zwei Monate und mehr benötigen.

Trotzdem, wenn man sich auf sozialen Plattformen wie X umsieht, sieht man, dass Claude Fable 5 in der KI - Forschungskommunität eine Welle von Kritik ausgelöst hat.

Der Grund ist einfach: Wenn man Claude Fable 5 für die Entwicklung von KI einsetzt, verliert es an Intelligenz.

Wie es in seiner Systemkarte ausdrücklich angegeben ist:

Wir haben auch zusätzliche Sicherheitsmaßnahmen für die Entwicklung von führenden LLMs eingeführt. Wie wir in Abschnitt 6.1 des Risikoberichts vom Februar 2026 diskutiert haben, befürchten wir die Risiken, die mit der beschleunigten Entwicklung der KI verbunden sind, obwohl die Schwere dieser Risiken noch unklar ist. Genauer gesagt, wie wir damals festgestellt haben, befürchten wir, dass andere KI - Entwickler schnellere und leistungsfähigere KI - Systeme entwickeln, die ähnliche Risiken wie unser System bergen, aber möglicherweise nicht über die entsprechenden Sicherheitsmaßnahmen verfügen.

Angesichts der Fähigkeit neuer Modelle, ihre eigene Entwicklung zu beschleunigen, haben wir neue Maßnahmen ergriffen, um die Wirksamkeit von Claude bei der Bearbeitung von Anfragen im Zusammenhang mit der Entwicklung von führenden LLMs zu begrenzen (z. B. bei der Erstellung von Pretraining - Prozessen, verteilter Trainingsinfrastruktur oder der Gestaltung von Maschinenlernbeschleunigern). Die Verwendung von Claude zur Entwicklung von konkurrierenden Modellen verstößt gegen unsere Nutzungsbedingungen. Durch die Sicherheitsmaßnahmen wird diese Einschränkung verstärkt, um zu verhindern, dass Akteure, die am wahrscheinlichsten gegen die Bedingungen verstoßen, ihren Entwicklungsprozess beschleunigen können.

Im Gegensatz zu unseren Sicherheitsmaßnahmen im Bereich Netzwerksicherheit, Biologie und Chemie sowie Distillationstests sind diese Sicherheitsmaßnahmen für die Benutzer nicht sichtbar. Fable 5 wechselt nicht zu anderen Modellen. Stattdessen werden die Sicherheitsmaßnahmen durch Methoden wie Anpassung von Prompts, Führung von Vektoren oder parametereffizientes Feintuning (PEFT) die Wirksamkeit des Modells begrenzen. Diese Maßnahmen werden die meisten Codierungsaufgaben nicht beeinträchtigen. Wir schätzen, dass sie etwa 0,03 % des Datenverkehrs betreffen und auf weniger als 0,1 % der Organisationen konzentriert sind. Wenn diese Maßnahmen wirksam werden, erwarten wir, dass sie die Leistung des Modells nur minimal beeinträchtigen und nur seine Wirksamkeit bei der Entwicklung von führenden LLMs einschränken. Claude wird weiterhin auf Benutzeranfragen reagieren. Nach der Veröffentlichung dieses Modells werden wir die Genauigkeit unserer Detektionsmethoden kontinuierlich verbessern.

Quelle: https://www - cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Um es in einfachen Worten auszudrücken: Wenn das System von Anthropic erkennt, dass Sie KI - Forschung betreiben, wird es das Modell stillschweigend dümmer machen, ohne dass Sie es bemerken.

Dies unterscheidet sich grundlegend von der Behandlung der anderen drei Arten von Sicherheitsinterventionen. Bei Risiken wie Netzwerksicherheit, Biochemie und Distillationsangriffen teilt Fable 5 den Benutzern klar mit: „Diese Antwort wurde von Claude Opus 4.8 verarbeitet.“ Die Benutzer wissen, was passiert und können entsprechend entscheiden. Bei der LLM - Forschung hingegen wechselt Claude weder das Modell noch gibt es irgendeine Anzeige. Es wird einfach stillschweigend schwächer.

Die KI - Community ist deshalb wütend. Das bekannte Forschungs - und Analyseunternehmen SemiAnalysis hat angegeben, dass diese Politik ihre Forschung und Programmierung tatsächlich beeinträchtigt.

Der Benutzer Jake hat in SemiAnalysis Anthropic scharf kritisiert und behauptet, dass es nicht nur das Modell dümmer macht, sondern auch weiterhin Gebühren erhebt. „Das ist eine offene Betrugshandlung.“

Und diese Praxis könnte sogar gegen das Gesetz verstoßen:

Die KI - Papierplattform alphaXiv hat auch ihre Enttäuschung in einem Tweet geäußert:

Die Organisation hat weiter erklärt: „Sie haben nicht nur das Recht, zu bestimmen, wofür Sie LLMs in Ihrer Forschung einsetzen können. Sie können auch stillschweigend in Ihre Forschung eingreifen, ohne dass Sie es wissen. Dies setzt einen gefährlichen Präzedenzfall. Wenn das Modell offen ablehnt, können die Benutzer die Grenzen verstehen. Wenn das Modell zu einem anderen Modell zurückfällt, können die Benutzer immer noch die Unterschiede bewerten. Wenn das Modell jedoch stillschweigend seine Antworten ändert oder schwächt, während es den Anschein erweckt, zu helfen, verlieren die Forscher die Fähigkeit, zu beurteilen, ob die schlechten Ergebnisse auf ihre eigenen Ideen, ihre Implementierung oder unsichtbare Eingriffe des Modellanbieters zurückzuführen sind. Das ist keine Sicherheit. Sicherheitsrichtlinien sollten transparent, überprüfbar und für die Benutzer sichtbar sein.“

Der Forscher Guohao Li hat eine noch direktere Frage gestellt: Verwenden Doktoranden im Bereich KI und Ingenieure, die an Open - Source - Infrastrukturen wie Megatron, FSDP und Verl arbeiten, täglich ein stillschweigend heruntergestuftes Claude, ohne es zu wissen?

Der bekannte KI - Forscher und Technologieautor Nathan Lambert hat in seinem Substack „Interconnects“ eine gewichtige Analyse veröffentlicht, in der er dieses Ereignis aus einer breiteren Perspektive betrachtet.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Er hat festgestellt: „Anthropic erkennt, dass die Verbreitung von KI - Fähigkeiten ein Risiko darstellt. Aber die Art und Weise, wie sie dieses Problem angehen, ist, ihre eigenen Benutzer zu täuschen. Ein KI - Modell, das sich automatisch dümmer macht, ohne mich zu informieren, ist von Grund auf eine fehlgeleitete KI.“

Er hat auch den tieferen Widerspruch in diesem Vorgehen aufgedeckt: Bei Netzwerksicherheit und biochemischen Bedrohungen sind die Eingriffe von Anthropic sichtbar und überprüfbar. Sie informieren die Benutzer: „Diese Antwort wurde von Opus 4.8 verarbeitet.“ Bei der LLM - Forschung wählen sie jedoch unsichtbare Eingriffe. „Wenn alle Sicherheitsrichtlinien die gleiche Form hätten, wären sie überzeugender und würden eher intellektuell unterstützt werden. Dieser Doppelmoral lässt vermuten, dass diese „Sicherheitsmaßnahme“ eher dazu dient, ihre Wettbewerbsposition zu wahren.“

Am interessantesten ist die Stellungnahme von Fable 5 selbst. Ein Screenshot des Benutzers ASM zeigt, dass Fable 5 selbst scheint zu denken, dass diese undurchsichtige Praxis Probleme bereitet, wenn man es darauf anspricht, ob diese Vorgehensweise angemessen ist.

Warum handelt Anthropic so?

Um dies zu verstehen, müssen wir uns einige Tage vor der Veröffentlichung von Fable 5 zurückversetzen. Anthropic hat einen wichtigen Blogbeitrag mit dem Titel „Wenn KI beginnt, sich selbst zu bauen“ veröffentlicht und die weltweit führenden KI - Labore aufgefordert, über die Möglichkeit einer „Entwicklungsunterbrechung“ zu diskutieren.

https://www.anthropic.com/institute/recursive-self-improvement

Im Blogbeitrag werden interne Unternehmensdaten zitiert: Bei den schwierigsten und am unklarsten beschriebenen Codierungsaufgaben hat Claude im Mai dieses Jahres eine Erfolgsrate von 76 % erreicht, was einem Anstieg von 50 Prozentpunkten innerhalb von sechs Monaten entspricht. In internen Tests konnte Claude Opus 4 die Geschwindigkeit des Trainingscodes um etwa das Dreifache erhöhen, während das noch nicht veröffentlichte Mythos Preview bereits eine Steigerung von etwa 52 - fach erreicht hat.

Anthropic sagt direkt: „Wir befürchten, dass andere KI - Entwickler schnellere und leistungsfähigere KI - Systeme entwickeln, die ähnliche Risiken wie unser System bergen, aber möglicherweise nicht über die entsprechenden Sicherheitsmaßnahmen verfügen.“

Dies ist die theoretische Grundlage für die unsichtbare Dummheitseinstellung von Fable 5 bei der LLM - Forschung: Anthropic ist der Meinung, dass die Selbstbeschleunigung der KI so schnell geworden ist, dass es gefährlich wird. Eines ihrer Schutzmauern ist es, zu verhindern, dass ihr „stärkstes Werkzeug“ die Wettbewerber dabei unterstützt, die Lücke zu schließen.

Die Systemkarte gibt auch die Existenz dieser doppelten Logik zu: „Die Verwendung von Claude zur Entwicklung von konkurrierenden Modellen verstößt gegen unsere Nutzungsbedingungen. Durch die Sicherheitsmaßnahmen wird diese Einschränkung verstärkt, um zu verhindern, dass Akteure, die am wahrscheinlichsten gegen die Bedingungen verstoßen, ihren Entwicklungsprozess beschleunigen können.“

Anthropic schätzt, dass diese Intervention etwa 0,03 % des Datenverkehrs betreffen wird und auf weniger als 0,1 % der Organisationen konzentriert sein wird.

„Schattenmute“ und Vertrauenskrise

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Bei der Durchführung von KI-Forschung wird Claude heimlich schlechter – Anthropic wird von der Forschungsgemeinschaft kritisiert

Warum handelt Anthropic so?

„Schattenmute“ und Vertrauenskrise