Gerade veröffentlichte Claude Mythos 5: 50 Millionen Zeilen Code pro Tag erledigt!

Die Bestie ist aus ihrem Käfig ausgebrochen.

Anthropics zweimonatige Verschwiegenheit um das „Mythos“ ist nun beendet –

Das bisher leistungsfähigste Flaggschiff der eigenen Großen Sprachmodelle wird in zwei Versionen vorgestellt: Claude Fable 5 und Claude Mythos 5.

Fable 5 ist die Version von Mythos mit Sicherheitsmechanismen und ist für alle Benutzer zugänglich.

Wenn ein Benutzer eine Anfrage stellt, die den Risikoklassifikator auslöst (z. B. indem er versucht, es anzuweisen, Schadsoftware zu schreiben), wird das System automatisch auf die Vorgängerversion Claude Opus 4.8 zurückgreifen, um die Frage zu beantworten.

Mythos 5 ist die unveränderte, volle Version von „Mythos“, wird jedoch nur wenigen vertrauenswürdigen Benutzern zur Verfügung gestellt.

Es hat in Bereichen wie Netzwerksicherheit die Sicherheitsbeschränkungen aufgehoben. Die offizielle Website behauptet, dass es „die weltweit besten Fähigkeiten in der Netzwerksicherheit und in der biologischen Forschung“ habe.

Die Offizielle Seite gibt an, dass Fable 5 und Mythos 5 länger autonom laufen können als alle früheren Claude-Modelle.

Ein kleiner Seufzer? Die Spitzenkünstliche Intelligenz betritt nun die Ära der Zugangsberechtigungen.

Und das erst wenige Tage nachdem Anthropic eindringlich alle AI-Forschungen aufzuhören bat...

Ich verstehe nicht, warum Dario nun auch den Weg von Altman geht und für jedes neue Modell und Produkt großartig Werbung macht.

(Ich weiß, dass das Unternehmen seine Gründe hat, aber ich kann es trotzdem nur mit einem Lächeln betrachten.)

Dennoch gibt es auch für Entwickler ermutigende Nachrichten auf nicht-technischer Ebene: Die API-Preise für die beiden neuen Flaggschiffe sind um mehr als die Hälfte gesunken im Vergleich zur Vorschauversion:

Nur 10 US-Dollar pro Million eingegebener Token und 50 US-Dollar pro Million ausgegebener Token.

Okay, lass uns schnell in die technischen Details eintauchen, los!

Die Zwei-Versionen von Mythos sind da! Die Offizielle Seite hebt die „Token-Effizienz“ hervor

Zuerst eine Information.

In den offiziellen Veröffentlichungslogs und in brancheninternen Tests gibt es keine langen, öffentlichen Benchmark-Listen für Mythos 5 wie für Fable 5 (z. B. MMLU, GSM8K, SWE-bench usw.).

Da beide Modelle auf demselben Kernmodell basieren, können sie als „Spiegelbilder“ desselben Kerns betrachtet werden, und ihre grundlegenden technischen Parameter sind identisch.

Deshalb müssen wir uns zunächst nur die Leistung von Fable 5 ansehen, die bisher hauptsächlich über offizielle Kanäle veröffentlicht wurde.

Laut Anthropic ist Claude Fable 5 derzeit das stärkste öffentliche Claude-Modell und die erste Version der Fable-Serie, die Mythos-Niveau erreicht.

Seine Stärken liegen hauptsächlich in folgenden Bereichen: Softwareentwicklung, komplexe Wissensarbeit, visuelle Verarbeitung, lange Kontexte, Gedächtnisfähigkeit und Lebenswissenschaften-Forschung.

Was noch wichtiger ist: Je länger und komplexer die Aufgabe, desto deutlicher wird der Vorteil von Fable 5 gegenüber früheren Claude-Modellen – das zeigt, dass Fable 5 nicht so sehr auf schöne Einzeldialoge abzielt, sondern auf die Bewältigung langfristiger Aufgaben.

Lassen Sie uns die Dominanz dieses mythologischen Modells mit Daten und harten Demos auseinandernehmen:

Softwareentwicklung: Höchste Benchmarks durchbrochen, von „Fehlerbehebung“ bis zur „vollautomatischen Armee“

In der SWE-bench Pro-Testung, die die Fähigkeit eines Modells misst, reale, komplexe Softwareentwicklungsprobleme zu lösen, erreichte Claude Fable 5 eine beeindruckende Punktzahl von 80,3%.

Zum Vergleich: Das Spitzenmodell der Konkurrenz, GPT-5.5, erreichte nur 58,6%.

In der Cognition's Frontier Code-Testung – diese Testung legt mehr Wert darauf, ob ein Modell schwierige Programmieraufgaben lösen kann und gleichzeitig an die Standards einer hochwertigen Produktionscodebasis herankommt – erreichte Fable 5 bei mittlerer Inferenzstärke die höchste Punktzahl aller Spitzenmodelle.

Der FrontierCode-Benchmark ist extrem schwer zu saturieren.

Aber selbst im „mittleren Anstrengungsmodus“ belegte Fable 5 die Spitzenposition aller Spitzenmodelle.

Das erste typische Beispiel von der offiziellen Seite stammt von Stripe.

In einer Ruby-Codebasis mit 50 Millionen Zeilen absolvierte Fable 5 eine vollständige Migration der gesamten Codebasis. Ein Engineering-Team hätte diese Aufgabe manuell zwei Monate und länger gebraucht.

Fable 5 absolvierte sie in nur einem Tag.

Darüber hinaus erreichte Fable 5 auf dem End-to-End-Frontend-Entwicklungsbenchmark ViBench (Vibe-coding benchmark) nahezu die Sättigung der grundlegenden Entwicklungsfälle und ermöglichte eine echte „One-shot“-Anwendungsgenerierung.

Native visuelle Verarbeitung: Ohne Hilfsmittel, blind durch Pokémon durch!

Das bekannte Tech-Magazin VentureBeat berichtete in einem Artikel, dass Fable 5 und Mythos 5 in der GDPpdf-Testung, die sich auf die visuelle Dateiverarbeitung konzentriert, ohne externe Hilfsmittel 29,8% erreichten.

Zum Vergleich: Opus 4.8 erreichte 22,5%, GPT-5.5 24,9% und Gemini 3.1 Pro 16,7%.

Anthropic hat auch einen Demo-Video von Fable 5 beim Spielen eines Spiels veröffentlicht, um die Leistung visuell darzustellen.

Frühere Claude-Modelle mussten für das Spielen des RPG-Spiels Pokémon FireRed eine äußerst komplexe „Hilfsstruktur“ (einschließlich Kartennavigation und Lesen des Spielzustands aus dem Speicher) haben.

Jetzt kann Fable 5 rein „nativ-visuell“ und blind spielen.

Nur mit Bildschirmfotos des Spiels und ohne jegliche Kartenhilfe kann es das gesamte Spiel autonom planen und durchspielen.

Darüber hinaus hat es bei der Konfiguration mit einem dauerhaften Dateispeicher in einem Karten-Roguelike-Spiel (Slay the Spire) seine Leistung um das Dreifache gesteigert, und die Wahrscheinlichkeit, das Endziel zu erreichen, hat sich ebenfalls verdreifacht.

Verbesserte Fähigkeiten in langen Kontexten und Gedächtnis, und eine Betonung der „Token-Effizienz“

Die Verbesserung der Fähigkeiten in langen Kontexten und des Gedächtnisses war auch ein Schwerpunkt dieser Aktualisierung.

Anthropic behauptet, dass Fable 5 in Langzeitaufgaben mit Millionen von Token konzentriert bleiben kann und die Ausgabe mithilfe seiner eigenen Notizen verbessern kann.

Die Offizielle Seite hat Slay the Spire als Testfall genommen. Nach der Konfiguration mit einem dauerhaften Dateispeicher hat Fable 5 seine Leistung um das Dreifache im Vergleich zu Opus 4.8 gesteigert, und die Häufigkeit, das Endkapitel zu erreichen, hat sich ebenfalls verdreifacht.

Dies ist eigentlich ein sehr grundlegender Aspekt der Agentenfähigkeit.

Ein KI-System, das lange Zeit arbeiten kann, muss sich daran erinnern, was es getan hat, was es verpasst hat und warum es den nächsten Schritt macht. Ohne stabiles Gedächtnis kann eine autonome Aufgabe leicht zu einem Chaos der Vergesslichkeit werden.

Deshalb betont Anthropic besonders die Token-Effizienz (dies ist auch ein Schlüsselaspekt dieses Modells).

Je länger ein Modell autonom arbeiten kann, desto mehr Token verbraucht es.

Wenn ein Modell einerseits stark ist, andererseits aber viel „Redewendungen“ verbraucht, wird die Kosten schnell so hoch, dass es Unternehmen weh tut.

Fable 5 betont die Token-Effizienz, um im Wesentlichen das Kostenproblem bei der Implementierung von Agenten zu lösen.

Finanzen, Recht und Betrieb: Erstmalig über 90% im Logik-Benchmark

In der Hebbia-Finanz-Testung (Finance Benchmark for senior-level reasoning), die die Fähigkeit der fortgeschrittenen analytischen Inferenz misst, erreichte Fable 5 die höchste Punktzahl in der Branche.

Bei der Analyse von langen Dokumenten, der Interpretation komplexer Diagramme und Tabellen sowie der mehrstufigen Ursachenanalyse hat Fable 5 einen zweistelligen Sprung erzielt.

In praktischen Tests bei den quantitativen Handelsunternehmen IMC und Optiver hat Fable 5 fast alle Gewichtungen in der Handelsanalysebewertung erreicht (einschließlich Faktenabfrage, Konzeptinferenz und Erwartungswertberechnung) und eine erstaunliche Stabilität gezeigt – bei mehreren Wiederholungen war die Ausgabe immer identisch.

Die Bewertung der Datenanalyseplattform Hex lautet wie folgt:

Fable 5 ist das erste Modell in der Branche, das in unserem Kern-Analyse-Benchmark (der extrem komplexe, langfristige Analyseaufgaben abdeckt) die 90%-Marke überschritten hat, was eine Steigerung von ganzen 10 Prozentpunkten gegenüber Opus bedeutet. Bei den schwierigsten Fragen zeigt es eine mikroskopische Beurteilungsfähigkeit wie ein menschlicher Experte.

Spitzenforschung: Das Mythos in voller Stärke, 100-mal kleiner, aber stärker

In der Spitzenforschung der Physik haben Tests von Start-ups wie VibeCAD und physikalischen Forschungsinstituten gezeigt, dass Fable 5 mit nur einem Drittel der Inferenz-Token in 36 Stunden Ergebnisse erzielt hat, die nahe an die von GPT-5.5 nach vier Tagen kommen.

Und das immer noch etwas verschleierte Mythos taucht endlich in diesem Bereich auf.

Anthropic gibt an, dass das voll ausgestattete Mythos 5 im Bereich der Biowissenschaften in der Lage ist, alle Arbeitsabläufe eines Biologen unabhängig auszuführen, ohne menschliche Hilfe: Es kann Proteinbindungsstellen auswählen, verschiedene bioinformatische Tools autonom planen und ausführen, und selbst bei Fehlern Debugging betreiben.

Von den 14 von ihm entworfenen Protein-Zielkomplexen sind bereits 9 in die reale Arzneimittelentwicklung in Labors aufgenommen worden.

Anthropic betont auch, dass Mythos 5 „unser erstes Modell ist, das kontinuierlich neue und aufregende wissenschaftliche Hypothesen generieren kann“.

In einer direkten, blinden Gegenüberstellung mit den Opus-Modellen haben Wissenschaftler in 80% der Fälle die molekularbiologischen Hypothesen von Mythos bevorzugt, und einige dieser Hypothesen sind bereits in die experimentelle Überprüfungsphase eingetreten.

Zugleich wurde eine Hypothese von Mythos – ein neuer Mechanismus für E. coli-Proteine – in einer Studie eines unabhängigen Labors bestätigt, die sich mit demselben Problem befasst: „A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species“.

Noch beeindruckender ist es in der Genomforschung: Mythos 5 hat mehr als eine Woche lang autonom gearbeitet, Einzelzell-Daten von 138 Arten zusammengefügt und ein benutzerdefiniertes kleines maschinelles Lernmodell trainiert.

Dieses von der KI trainierte, 100-mal kleineres Modell hat die neuesten Forschungsergebnisse, die kürzlich in der Zeitschrift „Science“ veröffentlicht wurden, direkt geschlagen.

Nach der Forderung, die

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。