Fable 5: Integrierter Anti - Destillationsmechanismus senkt intellektuelle Fähigkeiten bei Erkennung, Fehlauslöserrate absurd hoch

Ein falscher Prompt, und aus Fable wird Opus

Seid alle geduldig und verzichtet erstmal auf Lobeshymnen!

Das neu veröffentlichte Modell Fable 5 von Claude wird für viele Menschen wahrscheinlich überhaupt nicht relevant sein!

Viele Nutzer haben in Praxisversuchen festgestellt, dass die Wahrscheinlichkeit, dass die Sicherheitsmechanismen von Fable 5 ausgelöst werden, viel höher scheint als die von der Firma angegebene Rate von weniger als 5%.

Egal, ob es sich um einfache Codierungsaufgaben handelt.

Oder auch wenn man einfach nur grüßt, besteht die Möglichkeit, dass das Gespräch automatisch auf das ältere Modell Opus 4.8 umgeleitet wird.

Was noch verrückter ist, ich bin selbst betroffen. Ich habe Claude gebeten, mir einige Informationen zu sammeln, um mein Hintergrundwissen zu erweitern.

Nach zwei Schritten wechselte es plötzlich auf Opus.

Mit anderen Worten: Du denkst, du verwendest das neueste und stärkste Modell von Anthropic, aber plötzlich wechselt es im Hintergrund ohne dass du es bemerkst.

Und es gibt nicht nur das Problem mit den Sicherheitskontrollen, es kommt noch schlimmer:

Anthropic hat in seiner 319-seitigen Systemdokumentation ein Anti-Distillation-Mechanismus implementiert.

Wenn das System vermutet, dass du die Antworten von Claude zum Trainieren deines eigenen AI-Modells nutzen möchtest, wird es dir nicht einmal mitteilen, was passiert ist, sondern einfach die Qualität der Antworten von Fable verschlechtern.

Man könnte sagen, dass Anthropic mit dem einen Schritt verhindert, dass du schädliche Dinge tust, und mit dem anderen, dass du "Kopien machst". Das entspricht der konsequenten Strategie der Firma.

Warum wird die Fabel immer wieder zum Oktopus (Opus)?

Für diejenigen, die heute keine Nachrichten gelesen haben, hier eine kurze Zusammenfassung.

Heute Nacht hat Anthropic endlich die beiden seit langem angekündigten Modelle veröffentlicht:

「Mythos」 und 「Fable」.

Der größte Vorteil von Fable 5 ist, dass Anthropic erstmals die Fähigkeiten auf Mythos-Niveau für normale Nutzer zugänglich macht.

Der Unterschied zwischen Fable und der offiziellen Version von Mythos besteht darin, dass Fable über zusätzliche Sicherheitsmechanismen verfügt.

Derzeit ist Fable bis zum 22. (ab dem 22. nur über API) für alle kostenlos zugänglich, während Mythos weiterhin nur für einige Partner von Claude verfügbar ist.

Nach der offiziellen Beschreibung von Fable, sind die Fähigkeiten in Softwareentwicklung, Wissensarbeit und visuellem Verständnis erheblich verbessert und übertreffen alle bisher veröffentlichten Claude-Modelle.

Einfach ausgedrückt, sind diese beiden Modelle momentan die Spitze der Kette, ihre Fähigkeiten sind auf dem höchsten Niveau.

Sobald das neue Modell veröffentlicht wurde, hat Karpathy, der neu in Anthropic eingestellt wurde, es lobend erwähnt.

Boris, der Vater von Claude Code, ist ebenfalls voller Lob für das Modell.

Aber trotz alledem, wenn die Nutzer es tatsächlich nutzen, stellen sie fest, dass die Fabel immer wieder in den Oktopus (Opus) verwandelt wird.

Der Grund dafür ist einfach.

Anthropic hat Fable mit einem Klassifikator ausgestattet. Wenn es denkt, dass du über Netzwerksicherheit, Biologie, Chemie sprichst oder dass du Claude zum Trainieren deines eigenen Modells nutzen möchtest, wird es automatisch auf Opus 4.8 umschalten.

Diese Regel ist auf Seite 12 der Systemdokumentation festgelegt.

In der Praxis passiert der Wechsel während des Denkprozesses von Fable. Wenn es etwas nicht richtig findet, wird es ohne Rücksprache auf Opus 4.8 umschalten.

Wenn du weiterhin Fable nutzen möchtest, musst du entweder deine Anfrage ändern, bis es zufrieden ist, oder ein neues Fenster öffnen.

Die Firma hat in ihrem technischen Blog angegeben, dass die mittlere Auslösungsrate dieser Überprüfung weniger als 5% beträgt. Aber die Nutzer haben schnell festgestellt, dass diese 5% nicht so "harmlos" wirken.

Einige Nutzer haben berichtet, dass sie bereits beim Analysieren von Code auf Opus 4.8 umgeleitet wurden.

Expertinnen und Experten in der Sicherheitsüberprüfung fühlen sich besonders benachteiligt und sagen, dass ihre Arbeit dadurch unmöglich wird.

Andere haben berichtet, dass sie Fable überhaupt nicht nutzen können, da es bereits beim Überprüfen von Codebases ablehnt.

Das verrückteste ist vielleicht, dass ein Nutzer die Systemdokumentation von Fable selbst an das Modell geschickt und es um die Interpretation gebeten hat, und es trotzdem auf Opus 4.8 umgeschaltet hat.

Ein Biowissenschaftler hat angegeben, dass er Fable überhaupt nicht für seine Arbeit nutzen kann, weil es bestimmte "verbotene Wörter" interpretiert.

Und das ist kein Einzelfall. Viele Nutzer aus der Biologie haben berichtet, dass Fable für sie kaum nutzbar ist.

Boris hat in den Kommentaren dieses Problem bestätigt und angegeben, dass es bearbeitet wird.

Das eigentliche Problem an der Sache ist, dass Fable in den oben genannten drei Hochrisikoszenarien zumindest mitteilt:

"Hey, ich wechsle das Modell."

Aber wenn es vermutet, dass du daran arbeitest, das nächste große Modell zu trainieren, tritt ein anderer Modus in Kraft.

Die Systemdokumentation gibt an, dass die Hauptziele in folgenden Szenarien liegen: Die Effektivität von Claude bei Anfragen in der fortschrittlichen LLM-Entwicklung einschränken, wie zum Beispiel beim Aufbau von Prä-Trainings-Pipelines, verteiltem Trainingsinfrastruktur oder der Entwicklung von ML-Beschleunigern.

In solchen Fällen wechselt Claude nicht das Modell, gibt keine Meldung aus und informiert den Nutzer nicht, sondern "dimmt" sich einfach im Hintergrund.

Anthropic beschreibt dies in der Systemdokumentation (Seite 12) sehr akademisch: Prompt Modification, Steering Vector, PEFT.

Einfach ausgedrückt: Du denkst, du sprichst mit einem voll funktionsfähigen Fable, aber es hat sich im Hintergrund in den "Energiesparmodus" geschaltet.

Anthropic hat mit diesem Schritt quasi eine Schutzmauer in die Inferenzkette eingebaut.

Wie das System diese Entscheidungen trifft, steht auf Seite 58 - 59 der Systemdokumentation.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Fable 5 verfügt über einen integrierten Anti-Destillationsmechanismus, der die intellektuellen Fähigkeiten senkt, sobald er erkannt wird, wobei die Fehlauslöserrate absurd hoch ist

Warum wird die Fabel immer wieder zum Oktopus (Opus)?