DeepSeek hat die Preise dauerhaft gesenkt, und der erste Sieger ist bereits ans Licht gekommen.
Letzte Freitag hat DeepSeek angekündigt, dass die 25%-ige Rabattaktion für die API von vorübergehend auf dauerhaft geändert wird.
Für Entwickler bleibt der Preis unverändert, aber die Gültigkeitsdauer der Rechte ändert sich von einem Monat auf unbefristet. Globale Nutzer gerieten in Euphorie. Aber der Preis ist nur die Oberfläche. Die wirklich bemerkenswerte Variable liegt auf der anderen Seite: Ein Programmier-Agent namens Reasonix wird auf GitHub extrem beliebt.
Seine Logik ist äußerst direkt: Es ist nur mit DeepSeek kompatibel und reduziert durch extrem gute technische Optimierungen die Nutzungskosten um weitere 80%.
Zwei Fäden, einer offen und einer versteckt, laufen gleichzeitig ab. Wie nutzt Reasonix die zugrunde liegenden Eigenschaften von DeepSeek, um eine überlegene Leistung zu erzielen? Warum ersetzt die technische Kombination aus "Modell + Agent" zunehmend die reine Modellleistung? Dies sind die Fragen, die wir aufklären müssen.
01
"Präfix-Caching" und "Byte-Fingerabdruck"
Zuerst das Wort "Präfix-Caching". Dies ist eine Technologie zur Optimierung der Inferenz von Large Language Modellen, die bereits im vergangenen Jahr weit verbreitet war.
Der Kerngedanke ist einfach: Zwischenspeichern des KV-Caches aus früheren Gesprächen, damit nachfolgende Anfragen diese Zwischenergebnisse direkt wiederverwenden können. Dadurch wird die Generierungsverzögerung des ersten Tokens erheblich reduziert und die Inferenzeffizienz verbessert.
Die technischen Details sind etwas kompliziert. Deshalb haben die meisten Entwickler nur eine emotionale Vorstellung von DeepSeeks Präfix-Caching, nämlich dass es "Geld spart". Die Entwickler von Reasonix haben jedoch das physikalische Wesen erfasst: Byte-Stabilität (Byte-stable).
Um Reasonix zu verstehen, muss man zuerst die Logik von DeepSeeks Caching verstehen: Präfix-Hashing (Prefix Hash).
Stellen Sie sich vor, dass die vom Benutzer gesendeten Eingabewörter für den Computer eine extrem lange Zahlenfolge sind. Der Hash-Algorithmus gibt dieser Zahlenfolge, die einem Text entspricht, eine "einzigartige digitale Signatur", die als "Fingerabdruck" bezeichnet wird. Wenn der Fingerabdruck des vom Benutzer gesendeten Inhalts mit dem des auf dem Server zwischengespeicherten Inhalts übereinstimmt, muss dieser Teil des Inhalts nicht erneut berechnet werden, und die Kosten können um 80% reduziert werden.
Aber wie wir alle wissen, hat jeder einen anderen Fingerabdruck. Und diese Caching-Logik hat auch einen fatalen Nachteil: Sie erfordert, dass der Gesprächsinhalt exakt von Anfang an übereinstimmt.
Die meisten Programmier-Agenten auf dem Markt basieren auf dem Designkonzept der "Zeit ohne Caching". Ihr Optimierungsziel ist nur eines: Die Gesamtzahl der gesendeten Tokens so gering wie möglich zu halten.
Um Kosten zu sparen, komprimieren diese Agenten dynamisch die früheren Gespräche und löschen unnötige Zwischenergebnisse. Oder um das Modell klarer denken zu lassen, ordnen sie in jedem Gesprächsrunden die System-Eingabewörter neu an.
Diese scheinbar cleveren Optimierungen brechen jedoch die Kontinuität des Präfixes. Sobald eine kleine Änderung die "exakte Übereinstimmung" bricht, gehen Millionen von Token-Caches, die sonst getroffen werden könnten, plötzlich verloren. Dies ist ein klassisches Beispiel für "den großen Fisch verpassen und den kleinen fangen": Um 100 Token zu sparen, gehen 10.000 Token-Caches verloren.
Das von Reasonix gewählte Verfahren mag aus traditioneller Sicht etwas klobig erscheinen und kann als "absolutes Anhängemodus (Append-Only Loop)" bezeichnet werden.
Einfach ausgedrückt, folgt es in der Schleife des Modelllaufs immer einer strengen Regel: Keine Neuordnung, keine Komprimierung, keine Änderung der Vergangenheit. Sowohl die Ergebnisse der Tool-Aufrufe als auch die zusätzlichen Rückmeldungen des Benutzers werden einfach wie ein Tagebuch am Ende angehängt. Diese scheinbar klobige Methode führt dazu, dass der gesendete Kontext mit fortschreitendem Gespräch immer länger wird.
Allerdings bringt dies auch geniale Ergebnisse. Da das Präfix immer gleich bleibt, kann der Modell das lange Kontext immer "merken". Selbst in Programmier-Sitzungen über mehrere Stunden hinweg bleibt die Cache-Trefferquote von Reasonix in Kombination mit DeepSeek V4 über 94%. In extremen Testfällen in GitHub Projects erreichte die Trefferquote sogar beängstigende 99,82%.
Das ist also eine äußerst genaue mathematische Berechnung: In einer Umgebung wie DeepSeek, in der die Kosten für Cache-Treffer vernachlässigbar gering sind, ist die Grenzkosten für die Aufrechterhaltung eines langen Kontexts weit geringer als die Kosten für einen Neustart nach dem Verlust des Caches.
02
Recycling-Mechanismus der Denkketten
Da Reasonix ein speziell für DeepSeek entwickelter Programmier-Agent ist, profitieren nicht nur das neue V4-Modell, sondern auch das ältere R1-Modell.
R1 ist das vorherige Inferenzmodell. Sein bekanntester Merkmal ist, dass es in den <think>-Tags Denkketten mit Tausenden von Wörtern anzeigt. In der praktischen Anwendung bringt diese "Denken zuerst"-Strategie jedoch zwei große Herausforderungen für die Agenten mit sich: Denkleckage und Syntaxfehler.
Wie der Name schon sagt, bedeutet Denkleckage, dass R1 manchmal während des Denkprozesses sehr starke "Ausführungsabsichten" zeigt. Wenn ein Agent das R1-Modell auswählt, sollte es erst nach Abschluss des Denkens die entsprechenden Tool-Aufruf-Befehle senden. Doch wegen der langen Denkketten schreibt es oft bereits innerhalb der Denkketten verschiedene Tool-Aufruf-Befehle.
Die meisten Agenten können nur die offiziell definierten Tool Call-Blöcke erkennen. Die "vorzeitigen" Befehle in der Denkketten des Modells werden als normaler Text ignoriert. Im schlimmsten Fall kann dies dazu führen, dass die Sitzung blockiert.
Reasonix hat dafür einen Echtzeit-Scan-Mechanismus entwickelt. Selbst wenn die Tool-Aufruf-Befehle in die Denkketten entkommen, kann Reasonix sie genau erkennen und zurückholen, um sie neu zu planen und auszuführen.
Dies verbessert die Planungseffizienz um 38% und, noch wichtiger, spart die teuren Inferenz-Token-Kosten. Das Modell muss nicht mehr jedes Mal neu denken, wenn die Denkketten etwas durcheinander geraten.
Syntaxfehler sind ebenfalls leicht zu verstehen. Selbst wenn das Modell einen Tool-Aufruf korrekt initiiert, ist die Empfindlichkeit des JSON-Formats immer noch ein Albtraum für die Agenten. Ein zusätzliches Komma oder ein fehlendes Anführungszeichen in der Modellausgabe kann die Agenten zum Stillstand bringen.
Im oben genannten "absoluten Anhängemodus" muss der Agent, wenn ein Tool-Aufruf aufgrund eines Syntaxfehlers fehlschlägt, die Fehlermeldung an das Modell senden, und das Modell muss die Logik neu generieren. In diesem Prozess entstehen bereits mehrere Verluste: Die Fehlermeldung verunreinigt den Kontext, die neu generierte Antwort zerstört die Bestimmtheit des Fingerabdrucks, und der Cache-Vorteil wird stark gemindert.
Deshalb hat Reasonix ein "Selbstheilungs"-Verfahren gewählt: Bevor der Befehl an den Ausführungsmechanismus gesendet wird, muss Reasonix eine Selbstreparatur mit einer Erkennungsbeschränkung durchführen. Das ist wie ein erfahrener Programmierer, der Fehler behebt, fehlende Symbole ergänzt, das Format korrigiert und die Felder neu ordnet.
Nach der Reparatur sinkt die Fehlerrate des Tool-Ausführungs auf unter 3%. Somit wird der Gesprächsverlauf "sauber" und korrekt, und der Präfix-Cache kann wie ein Schneeball kontinuierlich wachsen.
03
Herrschaft der passiven Ökosysteme
Zurück zum Ausgangspunkt: Die dauerhafte Preisreduktion von DeepSeek ist für Entwickler eine Programmierfeier, aber für konkurrierende Unternehmen eine plötzliche Katastrophe.
Daraus entsteht eine nicht ganz exakte, aber sehr harte Geschäftsgleichung:
Die Macht eines AI-Produkts = (die ursprüngliche Fähigkeit des Modells + die Ergänzung durch die Community) / die Umstellungskosten der Nutzer.
Es ist offensichtlich, dass in der heutigen AI-Branche, wenn ein Modell 90% der Leistung seiner Konkurrenten erreicht und nur 1/10 des Preises kostet, eine vernichtende Substitutionseffekt auftreten wird.
In letzter Zeit gab es innen die Baidu AI Developer Conference und die Alibaba Cloud Summit, außen die Google I/O 2026. Alle diese Unternehmen versuchen, ihre verschiedenen AI-Produkte in eine einheitliche Schnittstelle zu integrieren und unüberwindliche Ökosystembarrieren aufzubauen.
Im Gegensatz dazu hat DeepSeek keine Cloud-Plattform-Services wie Baidu Cloud und Alibaba Cloud, keine weltweit verbreiteten Dienste wie YouTube und Gmail von Google und sogar keine Multimodalität.
Aber es hat erfolgreich einen Logik bewiesen, der von globalen Entwicklern respektiert wird: Die Fähigkeit auf der ersten Stufe in China zu halten, die Kosteneffizienz auf das Maximum zu bringen, und die Nutzungsmenge wird von alleine kommen. Die restlichen Funktionen werden von der Open-Source-Community ergänzt und verbessert.
In der Vergangenheit dachten die großen Unternehmen immer, dass das Ökosystem von oben nach unten aufgebaut werden muss. Wir haben das "Garten mit Mauern" bereits in den frühen Tagen der Agenten-Zeit bei der Doubao-Mobilhilfe und der Qianwen-App gesehen.
Reasonix hat jedoch die Macht des passiven Ökosystems bewiesen. Es ist kein kommerzielles Produkt wie Claude Code und Codex, sondern eine von Entwicklern freiwillig errichtete Festung für DeepSeek.
Warum sind Entwickler bereit, speziell für DeepSeek eine Optimierungslogik zu schreiben? Die Antwort ist einfach: DeepSeek bietet den globalen Entwicklern genügend Raum für Gewinne. Bei den teuren Modellen aus China und aus dem Ausland können die technischen Optimierungen auf Entwickler-Ebene die Kosten für die Token-Verbrauch nicht ausgleichen. Aber bei DeepSeek kann jede Optimierung direkt in "Fehlertoleranz" für die Entwickler umgesetzt werden.
Das ist die Machtumkehr, die die Open-Source-Bewegung bringt.
Wir gestehen zu, dass DeepSeek immer noch einen Abstand zu den weltweit besten Modellen hat. Aber wenn der Preis der API eines Modells niedrig genug ist, wird V4 von einem einfachen Modell zu einer kostengünstigen AI-Infrastruktur, und die Community wird seine Schwächen freiwillig ergänzen. Das Team von Liang Wenfeng hat vielleicht keine Zeit, eine optimale TUI zu entwickeln, aber es gibt immer Teams wie Reasonix, die die "Kalkulatoren" schnell ersetzen können.
Dieses von Interessen angetriebene Ökosystem entwickelt sich viel schneller als die "All-in-One"-Produkte der großen Unternehmen.
04
Verschiebung des Bewertungssystems
Jetzt können die chinesischen AI-Produkte endlich stolz an diesem Wettbewerb der Agenten-Programmierung teilnehmen.
Wenn wir nicht auf Opus 4.7 in Claude Code und GPT-5.5 in Codex zugreifen können, können wir DeepSeek V4 in Reasonix nutzen.
Während wir uns freuen und stolz sind, verändert sich ein leicht zu übersehender Aspekt: Der Wettbewerb in der AI-Branche hat sich in einen Wettlauf zwischen "Modell + Programmier-Agent (Coding Agent)" gewandelt.
Viele AI-Hersteller in China und im Ausland neigen dazu, alle Funktionen in eine Benutzeroberfläche zu packen. Reasonix hat jedoch wie Claude Code eine vertikale Strategie gewählt: Nur Programmierung, tief in die Terminalen. Es hat nicht an der Konkurrenz um IDE-Plug-ins teilgenommen, sondern stattdessen einen eigenen Cell-Diff-Renderer basierend auf Yoga entwickelt. Obwohl das Entwicklerteam eine Desktop-Version mit niedrigerem Zugangsschwellen bietet, liegt das Gewicht eindeutig auf der optimalsten Interaktion in der Terminalumgebung.
In der Bewertungssystem von Artificial Analysis sind Effizienz und Kosten die Kernfaktoren.
Es ist nicht notwendig, zu erwähnen, wie teuer die Produktkombinationen von Anthropic und OpenAI sind. Ein Monatsabonnement von 20 US-Dollar reicht oft nicht für die Bedürfnisse der Entwickler. Wenn man jedoch die Kombination von Reasonix + DeepSeek nutzt, kostet die Nutzung von 400 Millionen Tokens nur 12 US-Dollar (gemäß den Preisen der internationalen Version von DeepSeek).
Diese extreme Kosteneffizienz bringt nicht nur die Freiheit, Fehler zu machen, sondern auch die Blüte des Ökosystems der Multi-Agenten-Kooperation. Benutzer können in Massen Aufgabenausführungspläne generieren, ohne befürchten zu müssen, dass die Rechnung plötzlich zu hoch wird. Diese psychische Befreiung bietet die Möglichkeit, dass AI tatsächlich in die Massenproduktivität eindringt.
Das Auftauchen von Reasonix ist ein Zeichen dafür, dass der Agenten-Bereich von der Showleistung zur genauen Kalkulation wechselt. Der Wettbewerb in der AI-Zeit hat sich auf die Cache-Fingerabdrücke jedes Bytes und die Fehlerkorrektur bei jedem Tool-Aufruf verlagert.
DeepSeek hat Rechenleistung und Intelligenz in billiges Leitungswasser für alle verwandelt. Und Reasonix ist der erste Wasserhahn mit hoher Effizienz und geringem Verlust.
Dieser Artikel stammt aus dem WeChat-Account "Silicon Base Starlight". Autor: Si Qi. Veröffentlicht von 36