Fünf Schlüsselsignale von DeepSeek V4: Was Sie wissen müssen!

Weitergehen

Am 24. April wurde endlich die Vorschauversion des V4-Modells von DeepSeek veröffentlicht, und die Gewichte wurden gleichzeitig Open Source gemacht.

Bei dieser Veröffentlichung gibt es zwei Versionen. Eine ist die Flaggschiffversion V4 PRO mit insgesamt 1,6 Milliarden Parametern und 49 Milliarden aktiven Parametern. Die andere ist die kostengünstige Version V4-Flash mit 284 Milliarden Parametern und 13 Milliarden aktiven Parametern. Beide unterstützen einen Kontext von 1 Million Tokens und sind vollständig Open Source unter der MIT-Lizenz.

Am Vortag hatte OpenAI gerade GPT - 5.5 eingeführt, und der Preis für eine Million ausgegebener Tokens beträgt 30 US - Dollar. Heute beträgt der Ausgabe - Preis von DeepSeek V4 - Flash 2 Yuan pro Million Tokens, was weniger als 0,3 US - Dollar entspricht.

An zwei aufeinanderfolgenden Tagen stehen die beiden Preislogiken von Closed Source und Open Source direkt gegenüber auf dem Markt.

Zeitpunkt: Nach drei Verzögerungen

Das Erscheinen von DeepSeek an diesem Tag war nicht völlig überraschend, aber es kam später als alle erwartet hatten.

Von Ende letzten Jahres bis Februar, März und Anfang April dieses Jahres wurde das Veröffentlichungsfenster von DeepSeek V4 dreimal verschoben. In der Branche waren die häufigen Updates der verschiedenen Modelle fast im intensivsten Stadium.

Es muss zugegeben werden, dass Ende April 2026 ein Kontext von einer Million Tokens nicht mehr absolut führend ist. Gemini, Qwen usw. haben bereits diese Größenordnung erreicht. Bei der Implementierung von DeepSeek V4 geht es nicht darum, "ob es möglich ist", sondern "ob die Kosten nach der Implementierung tragbar sind".

Die Antwort von V4 ist eine neue hybride Attention - Architektur. Sie führt einen Kompressionsmechanismus in der Token - Dimension ein und kombiniert ihn mit der selbst entwickelten DSA - Sparse Attention. Dadurch muss das Modell bei der Verarbeitung von sehr langen Texten nicht alle Tokens vollständig berechnen, sondern kann die Wichtigkeit unterscheiden: stark assoziierte Tokens werden genau gelesen, schwach assoziierte werden komprimiert oder übersprungen.

Dieser Mechanismus ändert bereits in der Vorhersagephase die Art und Weise, wie das Modell lange Sequenzen verarbeitet. Laut dem technischen Bericht hat V4 auch die Manifold Constraint Hyper - Connection (mHC) eingeführt, um die traditionelle Residual - Connection zu ersetzen und die Stabilität der Signalausbreitung im tiefen Netzwerk zu verbessern. Außerdem wird der Muon - Optimierer verwendet, um die Konvergenzgeschwindigkeit des Trainings zu erhöhen. Das gesamte Modell wurde auf über 32 Milliarden Tokens vorab trainiert.

Die tatsächlichen Ergebnisse lassen sich mit zwei Zahlen zusammenfassen: Bei einem Kontext von einer Million Tokens beträgt der Rechenleistungsverbrauch von V4 - Pro pro verarbeitetem Token nur 27 % von V3.2, und der KV - Cache - Bedarf beträgt nur 10 %.

Die Offizielle Ankündigung ist noch deutlicher: "Ab sofort wird ein 1M - Kontext für alle offiziellen Dienste von DeepSeek standardmäßig sein." Dies bedeutet, dass der lange Kontext offiziell von einer "aufpreispflichtigen Funktion" zu einer "Standardkonfiguration" geworden ist. Dies ist eine Neubewertung der Kostenerwartungen für die gesamte Branche.

Matrix: Zwei Modelle + Drei Modi

Bei dieser Veröffentlichung unterstützen sowohl die Flaggschiffversion V4 - Pro als auch die kostengünstige Version V4 - Flash drei Inferenz - Modi: Nicht - Denkmode (schnelle Reaktion), Denkmode - Hoch (explizite Inferenzkette), Denkmode - Extrem (bis an die Grenzen der Modellfähigkeiten). Die Offizielle Empfehlung ist, den Extremmodus für komplexe Agent - Szenarien zu verwenden.

DeepSeek hat für die Positionierung von V4 - Pro ein direkt vergleichbares Beispiel gegeben: Die internen Mitarbeiter verwenden es bereits als tägliches Agentic Coding - Tool. Die Erfahrung ist besser als bei Claude Sonnet 4.5, und die Lieferqualität ist nahe an der Nicht - Denkmode von Opus 4.6, aber es gibt immer noch einen Abstand zur Denkmode von Opus 4.6.

Was die Inferenzleistung betrifft, übertrifft es in der mathematischen, STEM - und Wettbewerbs - Code - Bewertung alle bisher veröffentlichten Open - Source - Modelle und ist mit den weltweit besten Closed - Source - Modellen vergleichbar. Die Weltwissenlage liegt deutlich vor anderen Open - Source - Modellen und ist nur etwas hinter Gemini - Pro - 3.1 zurück.

Die Inferenzfähigkeit von V4 - Flash ist der Pro - Version nahe, aber die Weltwissensreserven sind etwas hinterher. Bei einfachen Agent - Aufgaben ist es auf Augenhöhe, bei schwierigen Aufgaben gibt es einen Abstand.

Bei dieser Selbstbewertung ist es bemerkenswert, dass DeepSeek bewusst den Abstand zur Denkmode von Opus 4.6 kennt. In der traditionellen Sprache bei der Veröffentlichung von chinesischen Großmodellen ist diese Zurückhaltung selbst ein Ausdruck technischer Selbstvertrauen.

Auslöser: Token - Preisunterschied

Mit der Veröffentlichung der Vorschauversion wurde auch der API - Preis von V4 gleichzeitig eingeführt.

Pro Million Tokens beträgt der Eingabe - Preis von V4 - Flash 1 Yuan (0,2 Yuan bei Cache - Treffer), der Ausgabe - Preis 2 Yuan. Der Eingabe - Preis von V4 - Pro beträgt 12 Yuan (1 Yuan bei Cache - Treffer), der Ausgabe - Preis 24 Yuan. Die Offizielle Ankündigung gibt an, dass dies der Preis der Vorschauversion ist. Der Preis der Pro - Version wird nach der Kapazitätserweiterung im zweiten Halbjahr stark gesenkt werden.

Diese Zahlen müssen in einem Koordinatensystem betrachtet werden, um Sinn zu ergeben.

Der Eingabe - Preis von 1 Yuan pro Million Tokens für die Flash - Version ermöglicht es fast allen Entwicklern, ein Open - Source - Flaggschiffmodell mit einer Billionen - Parameter - MoE - Architektur ohne Belastung aufzurufen.

Im Vergleich dazu beträgt der Ausgabe - Preis von GPT - 5.5, das am Vortag gerade eingeführt wurde, 30 US - Dollar pro Million Tokens, was über 200 Yuan entspricht. Der Unterschied zum Ausgabe - Preis von 2 Yuan von V4 - Flash beträgt über das 100 - fache. Selbst wenn man den Ausgabe - Preis von 24 Yuan von V4 - Pro vergleicht, ist der Unterschied immer noch um mindestens eine Größenordnung.

Der aktuelle Preis der Pro - Version ist relativ hoch, aber die Offizielle Ankündigung hat bereits eine klare Senkungsvoraussage gegeben. Die zugrunde liegende Einschränkung ist nicht die Preispolitik, sondern die Rechenleistungszufuhr - Die Hochleistungsinferenz der Pro - Version erfordert höhere Chip - Ressourcen, und die aktuelle Service - Durchsatzleistung ist sehr begrenzt. Dies bestätigt auch indirekt die intensive Investition von V4 in die Anpassung an die eigene Rechenleistung.

Der Rabattbetrag bei Cache - Treffern ist ebenfalls bemerkenswert. Der Cache - Trefferpreis von Flash beträgt nur ein Fünftel des Nicht - Trefferpreises, bei Pro ist es ein Zwölftel.

Dies bedeutet, dass DeepSeek mit dem Preishebel eine Art Nutzungsmethode fördert: Feste Inhalte wie Systemhinweise, Tool - Definitionen und Dokumentvorlagen werden in den Anforderungskopf gestellt, damit der Cache - Mechanismus automatisch wirksam wird. Für Agent - Anwendungen ist dies genau das typischste Aufrufmodell.

Mit dem günstigen Preis von Flash wird die Menge erhöht, mit der hochwertigen Fähigkeit von Pro werden die Spitzen - Szenarien abgedeckt, und mit dem Cache - Mechanismus wird die Grenzkosten für Agent - Entwickler gesenkt. Jeder Schritt trifft genau auf die schmerzhaftesten Stellen auf der Anwendungsseite.

Richtung: Agent - Basis

Wenn man aus der Veröffentlichung von V4 nur ein Schlüsselwort extrahiert, ist Agent vielleicht wichtiger als der Million - Token - Kontext.

Die Offizielle Ankündigung schreibt klar: V4 wurde speziell für die Hauptstrom - Agent - Produkte wie Claude Code, OpenClaw, OpenCode, CodeBuddy usw. angepasst und optimiert und erreicht auf der Agentic Coding - Bewertung das beste Niveau unter den Open - Source - Modellen. Diese Anpassungsliste enthält sowohl die Produkte von Anthropic als auch chinesische Entwicklertools.

Dieses Signal ist sehr klar: DeepSeek plant nicht, ein eigenes Anwendungsökosystem aufzubauen, sondern will der Basislieferant in der Agent - Zeit werden.

Diese Wahl ist in der gegenwärtigen Branchenlandschaft ein bewusstes Abwägen. Das Jahresumsatz von Anthropic ist in den letzten vier Monaten von 9 Milliarden US - Dollar auf 30 Milliarden US - Dollar gestiegen, und der Zuwachs stammt fast vollständig von Claude Code. Der Wert eines Code - Editors Cursor beträgt bereits 60 Milliarden US - Dollar. Das Geld auf der Anwendungsseite ist da, aber DeepSeek entscheidet sich, es nicht zu berühren.

Dies zeigt, dass es nicht als das nächste Anthropic positioniert ist, sondern eher als Infrastruktur in der Agent - Zeit.

Die Kombination von langem Kontext, niedrigem API - Preis und Agent - Anpassung macht es im Wesentlichen zu einer Stromstation, damit alle Geräte billiger laufen können.

Für die Agent - Entwickler, die den ganzen Tag mit dem Token - Verbrauch kämpfen, eröffnet V4 ein konkretes Szenario: Das gesamte Code - Repository, die vollständigen Anforderungsdokumente und hunderte historische Dialoge können auf einmal in den Aufruf eingefügt werden, ohne dass die aufwändige Arbeit der Aufteilung, Suche und Zusammenfassung erforderlich ist. In der Vergangenheit war die Kontextverwaltung bei der Agent - Entwicklung das größte Problem - Mit jeder zusätzlichen Runde des Dialogs stiegen die Tokens exponentiell, und die Kosten und die Stabilität verschlechterten sich gleichzeitig.

Wenn V4 seine Versprechen unter realen Belastungen einlöst, wird die Kostenstruktur dieses Problems neu definiert.

Ökosystem: Wettlauf zwischen Modell und Rechenleistung

In der Zeit, in der die Veröffentlichung von V4 verzögert wurde, war das Schlachtfeld der chinesischen Open - Source - Großmodelle nie ruhig.

Um das chinesische Neujahr dieses Jahres gab es eine intensive Explosion: Das Gesamtparameter von Alibaba Qwen3.5 beträgt 397 Milliarden, und nur 17 Milliarden sind aktiv. Der API - Preis für eine Million Tokens liegt so niedrig wie 0,8 Yuan, was ein Achtzehntel von Gemini - 3 - Pro entspricht. Das Code - Generierungsergebnis von Zhipu GLM - 5 erreicht 96,2 % in der HumanEval und ist das stärkste unter den Open - Source - Modellen.

Im April hat die Entwicklung weiter beschleunigt: Kimi K2.6 hat auf der SWE - Bench Verified 80,2 % erreicht und ist fast auf Augenhöhe mit Claude Opus 4.6. Zhipu GLM - 5.1 hat auf der SWE - Bench Pro mit 58,4 % GPT - 5.4 und Claude Opus 4.6 übertroffen. Qwen 3.6 Plus hat auch den Bereich von einem Million - Token - Kontext erreicht.

Die Häufigkeit, mit der diese chinesischen Modelle wie Qwen, Kimi, GLM, MiniMax, MiMo in der internationalen Entwickler - Community auftauchen, nimmt sichtbar zu.

Neben den Modellen wird auch die Anpassung der Rechenleistung synchron umgesetzt.

Am gleichen Tag wie die Veröffentlichung von V4 hat Huawei bestätigt, dass die gesamte Ascend - Produktreihe - A2, A3 und der neueste Ascend 950 - vollständig mit V4 - Flash und V4 - Pro kompatibel ist.

Die Formulierung "enges Zusammenwirken der Chip - und Modelltechnologien" bedeutet, dass die Anpassungsarbeit zwischen DeepSeek und Ascend bereits in der Modellentwicklungsphase synchron vorangeschritten ist.

Huawei hat eine Reihe konkreter Leistungsdaten angegeben: Basierend auf dem Ascend 950 - Superknoten hat V4 - Pro in einem 8K - Eingabeszenario eine Einzel - Token - Decodierungsverzögerung von etwa 20 ms erreicht, und der Ein - Karte - Durchsatz beträgt 4700 TPS. V4 - Flash kann eine Verzögerung von etwa 10 ms erreichen, und der Ein - Karte - Durchsatz beträgt 1600 TPS.

Bei der massiven Bereitstellung von 64 Karten auf dem Ascend A3 - Superknoten beträgt der Ein - Karte - Durchsatz von V4 - Flash über 2000 TPS.

Hinter diesen Zahlen stecken drei Generationen - Upgrades der unterliegenden Architektur von Ascend 950: Native Unterstützung von Niedrigpräzisionsformaten wie FP8/MXFP4 (Verringerung des Speicherbedarfs um mehr als 50 % und Verdoppelung der Rechenleistung), Hardware - Level - Optimierung für die MoE - Sparse - Zugriffseigenschaften sowie ein neues Design, bei dem die Vector - und Cube - Einheiten den Speicher auf dem Chip teilen.

Noch bemerkenswerter sind die Maßnahmen auf der Ebene des Ingenieurökosystems.

Huawei hat gleichzeitig das PyPTO - Programmierparadigma Open Source gemacht, wodurch die Entwicklungszeit für komplexe Operatoren wie Attention - Kompression und mHC in der neuen V4 - Architektur von Wochen auf Tage verkürzt wird. Entwickler müssen nicht manuell die Synchronisierung und den Datentransport auf Hardwareebene handhaben.

Am gleichen Tag der Veröffentlichung hat Cambricon ebenfalls angekündigt, dass es die Day 0 - Anpassung von V4 - Flash und V4 - Pro basierend auf dem vLLM - Framework abgeschlossen hat und den Code auf GitHub Open Source gemacht hat.

Zwei chinesische Chiphersteller haben bereits am Tag der Modellveröffentlichung ein komplettes Inferenz - Deploymentschema vorgelegt. Diese Reaktionsgeschwindigkeit zeigt bereits, dass die Anpassungsarbeit nicht auf die Schnelle erstellt wurde, sondern dass sie seit langem eng mit der Modellentwicklung verknüpft war.

DeepSeek hat einen beträchtlichen Ingenieuraufwand für diese Migration der unterliegenden Rechenleistung betrieben. Laut früheren Berichten hat das Team eine große Menge an Kerncode neu geschrieben und die gesamte Technologiestapel - Migration von der CUDA - Umgebung zum Ascend CANN - Framework abgeschlossen. Dies ist auch einer der Gründe für die wiederholten Verzögerungen von V4.

Aber wenn ein Open - Source - Flaggschiffmodell mit einer Billionen - Parameter - Architektur am Tag der Veröffentlichung auf der gesamten Produktreihe der chinesischen Rechenleistung laufen kann, die Anpassungscode direkt Open Source ist und die Inferenzleistung konkrete Durchsatz - und Verzögerungsdaten statt "bald unterstützt" angibt - die Bedeutung dieses Ereignisses geht über die Bewertung eines einzelnen Modells hinaus.

Obwohl es zwischen den

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。