Eingehende Diskussion zu Fable 5: Differenzierung der Modelleinnahmen, RSI, Verlangsamung des Tokenmaxxing
Fable 5 ist das am meisten auf dem Markt erwartete Modell der letzten sechs Monate. Nach seiner eigentlichen Veröffentlichung wurde es jedoch schnell zum "kontroversesten" Modell. Abgesehen von Sicherheitsverboten ist der Unterschied in der Benutzererfahrung auch ziemlich deutlich: In einigen Aufgaben verhält sich Fable 5 eher wie ein Kollege, der Aufgaben unabhängig vorantreiben kann, anstatt wie ein Praktikant, der nur Befehle ausführt. Gleichzeitig geben jedoch einige Entwickler das Gegenteil an: In vielen echten Produktionsaufgaben hat es keine grundlegende Veränderung der Intelligenz auf der untersten Ebene gebracht.
Die zwei Extremen der Bewertungen widersprechen sich eigentlich nicht: Nur bei hochwertigen Aufgaben ist die Obergrenze des Modells sichtbar. Bei Aufgaben, die bereits "ausreichen", wird der Unterschied zwischen dem stärksten Modell und billigen Modellen schnell egal. Diese Diskrepanz selbst ist das am meisten beachtenswerte Signal: Eine Differenzierung zwischen Modellfähigkeiten und Einnahmen findet statt.
Die Tatsache, dass GLM 5.2 Diskussionen auslöst, ist im Wesentlichen auch die andere Seite des Wettbewerbs um "Mythos - Level - Modelle": Fable 5 (und das angeblich bevorstehend veröffentlichte GPT 5.6) verdienen den Aufschlag für hochwertige Aufgaben an der Spitze, während chinesische Modelle, die schnell die SOTA - Leistung erreichen können, die Chance haben, die riesigen Token an der Basis zu verschlingen.
Diese beiden Kräfte weisen auf dieselbe Struktur hin. Diese Struktur ist auch unsere Einschätzung, auf die im zweiten Halbjahr am meisten gesetzt werden sollte: Spitzenmodelle nehmen 80 % der Einnahmen, während Open - Source - und billige Modelle 80 % der Token verarbeiten. Die Differenzierung der Modellfähigkeiten wird zur Differenzierung der Modell - Einnahmen. Und was tatsächlich die Einnahmenhöhe der teuren Modelle bestimmt, ist, wie dick die hochwertigen Aufgaben an der Spitze der Pyramide sind.
Dieser Artikel ist eine thematische Diskussion über Fable 5 in der Community "Best Ideas" von Shixiang. Wir hoffen auch, ihn als ein Referenzsystem für die Beobachtung von Modellen im zweiten Halbjahr zu nutzen und die Trends im Modellwettbewerb kontinuierlich zu beobachten.
Insight 01
Diskrepanz in den Bewertungen: Die Obergrenze des Modells ist nur bei hochwertigen Aufgaben sichtbar
Eindrücke von Front - Entwicklern
1. In den Benutzererfahrungen von Fable 5 gibt es einen sehr interessanten und beachtenswerten Differenzierungs Trend:
• Einerseits halten viele Benutzer, dass Fable 5 bereits nahe an die Rolle eines Projektleiters herankommt: Es kann den Kontext aktiv ergänzen, Aufgaben zerlegen, Werkzeuge aufrufen, den Prozess vorantreiben und die Ergebnisse überprüfen;
• Gleichzeitig geben andere Benutzer genau das Gegenteil an und halten sogar, dass Fable 5 im Vergleich zu Opus 4.7 / 4.8 keine wesentliche Veränderung in der Intelligenz aufweist;
• Am interessantesten ist, dass selbst bei Entwicklungsaufgaben Fable bei SQL - Sprachaufgaben als sehr stark angesehen wird, während es bei Python - Aufgaben von den Benutzern als "ähnlicher GPT - 5.5" bewertet wird.
2. Die Essenz dieser Diskrepanz liegt eigentlich in den unterschiedlichen Testaufgaben. Wenn man die tatsächlichen Testaufgaben der beiden Arten von Rückmeldungen genauer betrachtet, wird man feststellen, dass es bei Aufgaben wie Lebensplanung, Textformatierung und normalem Coding, die bereits von bestehenden Modellen gut erledigt werden können, schwierig ist, den Unterschied zwischen Fable 5 und Modellen wie GPT - 5.5, Opus 4.8 und Sonnet direkt und intuitiv zu erkennen. Bei hochwertigen Aufgaben wie komplexen Projekten, Decompilierung, automatischer Recherche, Sicherheitsangriffen und Verteidigung sowie großen Systemumwandlungen ist es jedoch leichter, die Fähigkeiten von Fable bei der aktiven Vorantreibung, Reflexion und Fehlerkorrektur, Werkzeugentwicklung und Planung von Sub - Agents zu zeigen.
3. Ein AI - Forscher hat erwähnt, dass Mythos bei einigen offenen Forschungsrichtungen bereits nahe an die Urteile menschlicher Forscher herankommt. Beim Wechsel von Claude zu Gemini 3.5 für dieselbe Art von Forschungsarbeit kann man deutlich spüren, dass die Qualität der Aufgabenvorantreibung sinkt: Der Forschungsfortschritt, der mit Claude bereits auf etwa 70 % gebracht wurde, könnte nach dem Wechsel zu Gemini auf etwa 50 % fallen, möglicherweise aufgrund von Halluzinationen, instabilem Befolgungsverhalten von Anweisungen und der Unfähigkeit, entlang des festgelegten Experimentpfads fortzusetzen, was zu Rückarbeiten oder Rückschritten führt.
4. Die Diskrepanz in den Benutzerbewertungen von Fable 5 hängt auch mit dem tatsächlichen Zustand des Modells während der Verwendung zusammen.
Einige Benutzer haben Fable 5 auf "low effort" eingestellt und empfinden es dann eher wie eine "stabile Version von Opus 4.6". Die Qualität ist immer noch akzeptabel, aber der Tokenverbrauch kann deutlich sinken. Andere haben beobachtet, dass Fable 5 in Sub - Agent - Aufgaben einfache Schritte an billigere Modelle wie Haiku delegiert. Darüber hinaus kann in einigen Aufgaben ein Sicherheitsfallback ausgelöst werden, und das tatsächlich die Aufgabe übernehmende Modell kann dann Opus 4.8 oder ein anderes Modell sein. Daher kann Fable 5 bei verschiedenen Benutzern unterschiedliche Anstrengungsgrade, Routings und Kostenstrukturen haben, und die endgültigen Bewertungen sind natürlich nicht vollständig übereinstimmend.
5. Die Erfahrungen von Entwicklungsbenutzern mit Fable werden jedoch auch in gewissem Maße von Fables Sicherheitsklassifikator und Zugangsberechtigungen beeinflusst. Daher können die meisten Entwickler möglicherweise nicht die vollständigen Fähigkeiten von Fable 5 nutzen. Beispielsweise werden derzeit Bereiche wie Netzwerksicherheit, Biochemie und Modell - Distillation leichter abgelehnt, eingeschränkt oder an Claude Opus 4.8 weitergeleitet.
6. Eine allgemeine Vermutung ist, dass hoch sensible Fähigkeiten wie AI für Wissenschaft und Netzwerksicherheit in Zukunft möglicherweise nicht vollständig über öffentliche Modelle zugänglich sein werden, sondern eher in Form von Lizenzen, Whitelists oder speziellen Modellen angeboten werden.
7. Die Diskrepanz auf dem Kapitalmarkt in Bezug auf Fable 5 kann auch in diesem Rahmen der Benutzererfahrung betrachtet werden. Vom optimistischen Blickwinkel aus macht Fable 5 hochwertige Aufgaben, Superprojekte und automatische Forschung näher an der Verwirklichung, was zeigt, dass die Modellfähigkeiten weiterhin beschleunigt werden. Vom vorsichtigen Blickwinkel aus hat Fable 5 noch keine starke TAM - Expansionstriebkraft gezeigt, der Nutzungsaufwand ist hoch, und der Wert der hochwertigen Aufgaben ist noch nicht geklärt.
Benchmark - Leistung
8. Die Testergebnisse von Fable 5 im Xbench von Sequoia China verdeutlichen deutlicher, warum die Eindrücke von Entwicklern in Bezug auf Fable 5 unterschiedlich sind:
• Erstens zeigt sich die Verbesserung von Fable 5 nicht direkt in einem allgemeinen Anstieg aller Benchmark - Punkte;
• In Tests wie ScienceQA können Sicherheitsrouting, Ablehnungen und Fallbacks die Gesamtpunktzahl senken. Wenn man jedoch die Einzelheiten wie die ausgegebenen Token betrachtet, kann es bei einigen Aufgaben mit kürzeren Inferenzketten antworten.
Kosten
9. Basierend auf den Ergebnissen im Xbench, dass Fable 5 im Durchschnitt weniger Token ausgibt, und den tatsächlichen Erfahrungen einiger Entwickler, die den Anstrengungsgrad auf "low" eingestellt haben, kann man eine grobe Kostenschätzung vornehmen: Obwohl der Tokenpreis von Fable 5 etwa fünfmal höher als der von Opus 4.8 ist, verbraucht es in einigen Aufgaben weniger Token und weniger Ressourcen bei der Zwischeninferenz. Der Tokenverbrauch kann etwa nur die Hälfte von Opus 4.8 betragen, und wenn man den Anstrengungsgrad auf "low" einstellt, kann der Verbrauch im Zwischenprozess sogar weniger als ein Fünftel betragen. Daher kann die Gesamtkosten von Fable 5 bei "low effort" niedriger als die von Opus 4.8 sein.
10. Dies bedeutet jedoch nicht, dass Fable 5 in allen Szenarien kostengünstiger ist. Im CursorBench, das näher an einem echten Coding - Agenten liegt, wird das Verhältnis zwischen Kosten und Leistung komplexer.
11. CursorBench 3.1 zeigt, dass Fable 5 Max die höchsten Punkte erzielt, aber auch die höchsten Kosten pro Aufgabe hat. Gleichzeitig ist die Skalierung der Rechenleistung während des Tests bereits relativ flach. Eine weitere Erhöhung des Inferenzbudgets kann zwar noch höhere Punkte bringen, aber die Grenzverbesserung pro Einheit der Kosten hat bereits abgenommen.
Insight 02
Anwendungsfall: Umgestaltung des Unternehmensworkflows
12. Ein Startup - Team hat erwähnt, dass Fable 5 ihren Arbeitsablauf fast vollständig umgestaltet hat. Jetzt bestimmt der Mensch eher die Ziele, Grenzen und Prüfkriterien, während das Modell die Aufgaben aufteilt und die Ausführung vorantreibt. Mit der Verbesserung der Fähigkeiten von Fable 5 bei End - to - End - Aufgaben ändert sich auch die Aufgabenteilung zwischen Mensch und Agent: Das Team verhält sich zunehmend wie ein Dateisystem, und jeder Mitarbeiter ist ein unabhängiger IC, der die Aufgaben an das Modell übergibt und dann die Ergebnisse kontinuierlich verfolgt.
13. Obwohl Fable 5 in der Lage ist, den Kontext zu ergänzen, Aufgaben aufzuteilen, Sub - Agenten zu starten, sich selbst zu prüfen und zu korrigieren, bedeutet dies nicht, dass der Geschäftsprozess automatisiert ist. Da das Modell 100 Sub - Agenten parallel aufrufen kann, kann es auch fehlerhafte Wege vergrößern. Ein wirklich wiederverwendbarer Workflow erfordert stabile Eingaben, Ausgaben, Zustandsverwaltung, Fehlerbehandlung und Prüfkriterien. Sowohl Opus 4.8 als auch Fable 5 erfordern immer noch viel Aufwand, um einen wiederverwendbaren Workflow von Grund auf aufzubauen, und am Ende muss der Mensch oft ein bis zwei Wochen damit verbringen, ihn neu zu organisieren und zu schreiben.
14. Das Grundgerüst für die Effizienzsteigerung in Unternehmen ist immer noch der Workflow plus die Werkzeugkette, und die KI verändert nur die letzten beiden Schritte.
15. Der Schlüssel für die KI - Transformation von Unternehmen liegt nicht nur darin, bestehende Prozesse durch KI zu ersetzen, sondern darin, die Prozesse selbst neu zu strukturieren. Die Reduzierung der Informationsübertragung, die Komprimierung der Zusammenarbeitsebenen und die Vereinfachung der Entscheidungswege können oft mehr Wert schaffen als die bloße Zuweisung stärkerer Modelle an die Mitarbeiter.
16. Mit der Verbesserung der Modellfähigkeiten werden die Agenten für Codierer und Nicht - Codierer zwei verschiedene Wege einschlagen:
• Codierer benötigen ein offeneres und programmierbares System;
• Nicht - Codierer benötigen eine einfachere und stabilere Aufgabenoberfläche und verlassen sich auf GUI und vordefinierte Workflows, um ihre Arbeit zu erledigen.
17. Die meisten Benutzer müssen nicht gleichzeitig Produzenten und Verbraucher sein. Der Wert von Harness besteht darin, die Modellfähigkeiten in eine direkt nutzbare Arbeitsoberfläche zu verpacken.
18. Design, 3D und Interaktions - Demos
Benutzer haben in three.js, der 3D - Weltkonstruktion und der One - Shot - Webseitenentwicklung eine deutliche Verbesserung des Design - Geschmacks von Fable 5 festgestellt. Beispielsweise kann Fable 5 komplexere 3D - Demos generieren, und die Komplexität steigt von einfachen Spielen auf interaktive Szenen in der Art von "Minecraft". Bei der One - Shot - Webseitenentwicklung hat die erste von Fable 5 generierte Webseite bereits ein gewisses Aussehen, die KI - Farbgebung ist schwächer, und es macht eher Subtraktionen bei der visuellen Darstellung, was einen "less is more" - Design - Geschmack zeigt.
19. Decompilierung und Erfassung von verstecktem Kontext
In solchen Aufgaben muss Fable 5 den Kontext aus Webseiten, obfuskiertem JavaScript, Android - Apps, Spiel - ROMs und der Laufzeitlogik extrahieren und dann die Produktfunktionen oder das Spielmechanik wiederherstellen.
Ein Beispiel ist die Wiederherstellung eines Web - Spiels in Godot. Fable 5 kann die Logik der ersten Stufe über obfuskiertes JavaScript wiederherstellen, der Code kann ausgeführt werden, und die wichtigsten Elemente können wiedergegeben werden. Die Schwächen liegen hauptsächlich in den visuellen Details. Die Größe, Überlappung, Skalierung und Ausrichtung der Elemente mit der Referenzgrafik sind nicht stabil genug. Selbst wenn der Benutzer eine Referenzgrafik zur Verfügung stellt, kann das Modell möglicherweise nicht alle visuellen Details richtig einstellen.
"Obfuskiertes JavaScript" bezieht sich normalerweise auf die JavaScript - Code - Obfuskation, bei der der ursprünglich leicht lesbare und verständliche JavaScript - Quellcode in einen schwer lesbaren, aber fun