Fable 5: Erledigt Zwei Monatsarbeit An Einen Tag – Diese Art Von Ingenieuren Ist Jetzt Wertvoller

Anthropic stellt Claude Fable 5 vor und gestaltet die Muster der Mensch-Maschine-Zusammenarbeit neu.

【Einführung】Nach der Veröffentlichung von Fable 5 sagte das Claude Code-Team, dass sie nicht mehr prüfen, ob Claude die Arbeit richtig macht, sondern nun darauf achten, ob es die richtige Arbeit macht. Die Entwickler haben sich von Aufsehern, die auf den Codeausgang achten, zu Produktmanagern, die Standards festlegen, gewandelt. Damit hat sich auch der Maßstab für hervorragende Ingenieure geändert.

Über Nacht war das Internet mit einem Bild überschwemmt, in dem ein „5“-Zeichen aus fliegenden Schmetterlingen zusammengesetzt war.

Das Hauptattrakt dieser Grafik ist das von Anthropic neu vorgestellte stärkste Modell – Claude Fable 5.

https://www.anthropic.com/news/claude-fable-5-mythos-5

Anthropic hat offiziell bekannt gegeben, dass dies ihr erstes Mythos-Modell ist, das für allgemeine Szenarien sicherheitstechnisch aufbereitet wurde und dessen Fähigkeiten alle bisher veröffentlichten Modelle übertreffen.

Anschließend hat das Unternehmen auch bekannt gegeben, dass alle 5-Stunden- und wöchentlichen Rate-Limits für alle Benutzer auf Null gesetzt werden, damit alle „Fable 5 ausgiebig genießen“ können.

Bei den Entwicklern hat sich ebenfalls über Nacht die Situation gewandelt.

Mit eigenen Worten des Claude Code-Teams: Früher haben sie darauf geachtet, ob Claude die Arbeit korrekt erledigt hat; jetzt achten sie darauf, ob Claude die richtige Arbeit macht.

Thariq Shihipar, Mitglied des Claude Code-Teams, ist der Meinung, dass Fable ein großer Durchbruch im Bereich der Modelle ist, der die Art und Weise, wie Menschen mit Claude zusammenarbeiten, verändern wird. Mit einem solchen Werkzeug an der Seite ist es „an der Zeit, ehrgeiziger zu sein“.

Thariq ist der Autor des Tools AskUserQuestion. Die Funktion dieses Tools besteht darin, dass das KI-System die Benutzer interviewt: Bevor es mit dem Schreiben von Code beginnt, stellt es eine Reihe von Multiple-Choice-Fragen, um Details zur Implementierung, Randbedingungen und Abwägungen zu klären. Je länger das Modell autonom arbeiten kann, desto wichtiger ist diese Fähigkeit, im Voraus alles zu klären.

Thariq hat auch die vom Team zusammengefassten Veränderungen, die Fable 5 mit sich bringt, geteilt –

Drei Dinge haben sich geändert: Wie Sie es anweisen, wie Sie seine Arbeit prüfen und wie viele davon Sie gleichzeitig lenken können.

Schauen wir uns zunächst das Stripe-Beispiel in der Ankündigungsmitteilung von Anthropic an: Die Migration einer 50-Millionen-Zeilen-Ruby-Codebasis hätte von Hand zwei Monate und länger gedauert, aber Fable 5 hat es in einem Tag erledigt.

Eine 50-Millionen-Zeilen-Ruby-Codebasis musste migriert werden. Ein Team hätte dafür zwei Monate und länger gebraucht, aber Fable 5 hat es in einem Tag erledigt.

Die Verkürzung der Zeit von zwei Monaten auf einen Tag geht weit über eine reine Beschleunigung hinaus. Die Aufgabenteilung zwischen Menschen und KI wurde erneut neu definiert.

Von Aufsehern, die den Prozess beobachten, zu Produktmanagern, die Standards festlegen

Der Schwerpunkt dieser Aktualisierung liegt nicht auf Benchmarks.

Anthropic hat Claude Code als „agentisches Programmierumfeld“ positioniert.

Es kann Dateien lesen, Befehle ausführen und Code ändern. Es kann das Problem selbst weiterverfolgen, wenn Sie es beobachten, unterbrechen oder einfach gehen.

Das ist der entscheidende Punkt: Wenn es selbst arbeiten kann, wofür sollten Sie es dann noch beobachten? In den offiziellen Best Practices von Claude Code steht folgender Satz:

Wenn Sie Claude keine ausführbare Prüfung geben, werden Sie selbst zur Prüfschleife. Jeden Fehler müssen Sie selbst entdecken.

Offizielle Best Practices von Claude Code: Geben Sie Claude eine ausführbare Prüfung, wie z. B. Tests, Builds oder Screenshot-Vergleiche. Andernfalls werden Sie selbst zur Prüfschleife.

Das bedeutet, dass Sie früher der Aufseher waren und vor dem Bildschirm saßen und jede Zeile des Codes beobachteten und bei Fehlern korrigierten. Jetzt ist es anders. Ihre Aufgabe hat sich von „schrittweise Lenken“ zu „Ziel definieren, ausreichenden Kontext geben und Prüfstandards festlegen“ gewandelt.

„Ziel und Kontext geben“ klingt nicht kompliziert, aber die Umsetzung ist nicht einfach. Die offiziellen Best Practices geben auch Anhaltspunkte.

Lassen Sie es nicht sofort mit dem Schreiben von Code beginnen. Lassen Sie es zuerst erkunden, dann planen und erst dann handeln, um zu vermeiden, dass es sich mit einem falschen Problem beschäftigt.

Ein weiterer wichtiger Punkt: Verwenden Sie das oben erwähnte AskUserQuestion-Tool, um Claude zunächst Sie zu interviewen und die Implementierungsdetails, Randbedingungen und Abwägungen, über die Sie sich noch nicht im Klaren sind, herauszufinden. Am Ende entsteht daraus eine SPEC.md-Datei.

Machen Sie sich keine Sorgen, dass diese Vorbereitungen Zeit verschwenden. Wenn das Modell stark genug ist, um autonom zu arbeiten, ist es viel wertvoller, die Anforderungen klar zu stellen, als es beim Schreiben von Code zu beobachten.

Genau das ist passiert, als das Claude Code-Team von der Prüfung, ob Claude die Arbeit richtig macht, zur Prüfung, ob es die richtige Arbeit macht, wechselte.

Loslassen ist schön, aber wie kann man vertrauen?

Loslassen klingt toll, aber warum sollte man Claude vertrauen?

Das ärgerlichste an ihm ist, dass er sich auch dann sicher ist, wenn er falsch liegt. Je stärker das Modell ist, desto glaubhafter sieht die Ausgabe aus und desto schwieriger ist es, die Fehler auf den ersten Blick zu erkennen.

Claude stoppt, wenn es „fertig zu sein scheint“. Dies ist jedoch das gefährlichste Signal.

Ohne eine ausführbare Prüfung ist das „scheinbar Fertigsein“ das einzige Kriterium für Claude. Am Ende kann das zu Problemen für Sie werden.

Die offizielle Lösung besteht darin, ihm etwas zu geben, mit dem es „Bestanden“ oder „Nicht bestanden“ feststellen kann.

Beispielsweise eine Testsuite, einen Build-Ausgangscode oder einen Screenshot-Vergleich mit einem Entwurf. Es arbeitet, führt die Prüfung durch, liest das Ergebnis und korrigiert, bis die Prüfung bestanden ist. Dieser Zyklus schließt sich selbst.

Um es noch weiter zu treiben, gibt es in Claude Code den Befehl /goal. Sie setzen eine Abschlussbedingung, und es arbeitet über mehrere Runden hinweg, ohne dass Sie es in jeder Runde anhalten müssen.

Nach jeder Runde gibt ein kleineres Modell eine Bewertung ab: Es ist nicht das Claude, das die Arbeit erledigt, sondern ein kleineres, schnelleres und billigeres Modell (standardmäßig Haiku). Es liest die Abschlussbedingung und das aktuelle Gespräch und gibt eine Entscheidung darüber, ob die Bedingung erfüllt ist oder nicht, sowie eine Begründung.

Der /goal-Befehl in Claude Code: Setzen Sie eine Abschlussbedingung, und ein kleines Modell entscheidet nach jeder Runde, ob die Bedingung erfüllt ist. Wenn nicht, wird weitergearbeitet.

Es sieht aus wie autonomes Fahren. Aber es muss klar sein: Das bewertende kleine Modell führt keine Befehle aus und liest keine Dateien. Es kann nur die Beweise sehen, die Claude im Gespräch präsentiert.

Das heißt, wie gut dieser Zyklus funktioniert, hängt davon ab, ob Claude die echten Beweise präsentiert. Wenn die Bedingungen zu locker sind oder Claude nur behauptet, dass es etwas getan hat, kann der Bewertungsalgorithmus trotzdem positiv sein.

Deshalb bedeutet Selbstprüfung und Abgabe nicht, dass keine menschliche Überprüfung erforderlich ist.

Das Vertrauen beruht darauf, dass man jederzeit die Beweise sehen kann, nicht darauf, dass man auf die Intelligenz des Modells setzt.

Eine Person lenkt nun Hunderte von Agenten

Während der /goal-Befehl es einem Claude ermöglicht, länger zu arbeiten, ermöglicht Dynamic workflows es einer Gruppe von Claudes, zusammenzuarbeiten.

Die Funktionsweise ist, dass Claude ein JavaScript-Skript für Sie schreibt, das eine Vielzahl von Sub-Agenten im Hintergrund orchestriert.

Die offiziell angegebenen Anwendungsfälle umfassen die Code-Audits für gesamte Codebasen, die Migration von 500 Dateien und Forschungsfragen, die Querverifizierung erfordern.

Wie groß ist der Betriebsmaßstab? Bei einem Lauf können bis zu 1.000 Agenten mobilisiert werden, und es können gleichzeitig bis zu 16 parallel laufen.

Die Workflow-Beschränkungen in der offiziellen Dokumentation von Claude Code. Der markierte Bereich zeigt, dass bei einem Lauf maximal 1.000 Agenten eingesetzt werden können.

Claude Code hat sogar einen integrierten Workflow namens /deep-research, der eine Frage in mehrere Aspekte aufteilt, diese durchsucht, querverifiziert und unsichere Aussagen aussortiert. Am Ende erhält man einen Bericht mit Zitaten.

Was bedeutet das? Claude Code ist nicht mehr nur das Dialogfeld im Terminal, das mit Ihnen spricht. Es nähert sich einem Engineering-Agentensystem, das kontinuierlich läuft, orchestriert und wiederverwendet werden kann.

Eine Person kann nun mit einem Befehl in /workflows eine KI-Armee lenken.

Autonomie bedeutet nicht Ersetzung

Fable 5 ist tatsächlich stärker.

Die Offizielle Seite sagt, dass es länger autonom arbeiten kann als alle anderen Claude-Modelle. Je länger und komplexer die Aufgabe ist, desto größer ist der Vorsprung. Dies bedeutet jedoch nicht, dass Programmierer völlig die Kontrolle abgeben können.

Im Gegenteil, in den offiziellen Best Practices wird in ganzer Breite auf vier Aufgaben hingewiesen, die Menschen erledigen müssen: Prüfstandards festlegen, Berechtigungen verwalten, Kontext steuern und Beweise prüfen.

Es werden sogar einige häufige Fehlermuster aufgeführt, die vermieden werden sollten. Einer dieser Fehler wird als „Vertrauens- und Verifizierungs-Lücke“ bezeichnet. Dies bezieht sich auf Situationen, in denen Claude eine Ausgabe liefert, die auf den ersten Blick gut aussieht, aber die Randbedingungen nicht berücksichtigt.

Die Lösung ist einfach: Sie können es erst veröffentlichen, wenn Sie es verifizieren können. Wenn Sie es nicht verifizieren können, veröffentlichen Sie es nicht.

Die Kosten und die Schwierigkeit können auch nicht ignoriert werden.

Der Preis für Fable 5 beträgt 10 US-Dollar pro Million eingegebener Token und 50 US-Dollar pro Million ausgegebener Token. Sein stärkerer „Zwillingsbruder“ Mythos 5 basiert auf demselben Modell, hat jedoch weniger Sicherheitsbeschränkungen. Derzeit ist er nur für eine kleine Gruppe von Netzwerksicherheitsexperten und Infrastruktur-Anbietern verfügbar.

Fable 5 hat auch eine Klassifikator-Sicherheitsbarriere.

Bei sensiblen Themen wie Netzwerksicherheit und Biochemie übergibt es die Antwort automatisch an Opus 4.8. Die Offizielle Seite sagt, dass in über 95,0 % der Gespräche diese Rückfalloption nicht ausgelöst wird. Die Sicherheitsbarriere ist jedoch eher konservativ eingestellt, so dass gelegentlich auch normale Anfragen fehlinterpretiert werden können.

Das Vertrauen in lange Aufgaben zu geben, bedeutet nicht, dass man völlig die Kontrolle abgeben kann. Je autonomer es wird, desto wichtiger ist es, die Arbeit zu prüfen.

Zurück zu Thariqs Worten:

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Fable 5 erledigt die Arbeit von zwei Monaten an einem Tag – diese Art von Ingenieuren ist jetzt wertvoller

Von Aufsehern, die den Prozess beobachten, zu Produktmanagern, die Standards festlegen

Loslassen ist schön, aber wie kann man vertrauen?

Eine Person lenkt nun Hunderte von Agenten

Autonomie bedeutet nicht Ersetzung