Ist Deepseek V4 ein Riesen-Erfolg oder Totalversagen? Erste Testrunde und Rangliste!

DeepSeek V4 führt bei der Offenlegung der Code-Fähigkeiten an und ist bis zu 99% billiger als die Konkurrenz.

Nach der Veröffentlichung der Open-Source-Vorschauversion von DeepSeek V4 sind die ersten Testresultate aus Drittlisten herausgekommen.

Mehrere Tests haben gezeigt, dass die Leistung von DeepSeek V4, insbesondere bei Codetasks, in die erste Open-Source-Ebene eingestiegen ist. Gleichzeitig senkt es mit "Millionen-Ebene-Kontext + niedrigen Preisen" die Nutzungsschwelle für Entwickler weiter.

Nach Dritttests hat die Testplattform Arena.ai auf X die V4 Pro (Denkmodus) als "einen großen Sprung gegenüber DeepSeek V3.2" bezeichnet und in ihrem Code-Arena den dritten Platz unter den Open-Source-Modellen und den vierzehnten Platz in der Gesamtranking erreicht. Eine andere Testinstanz, Vals AI, hat hingegen behauptet, dass die V4 in ihrem Vibe Code Benchmark "mit überwältigender Überlegenheit" die Spitze der Open-Source-Gewichtsmodelle errreicht hat und geschlossene Modelle wie Gemini 3.1 Pro besiegt hat. Im Vergleich zur Vorgängerversion V3.2 hat sie eine ungefähr zehnfache Leistungssteigerung erzielt.

Im Hinblick auf die Preise beträgt der Ausgabe-Preis von V4-Flash 0,28 US-Dollar pro Million Tokens, was um über 99 % niedriger ist als bei Claude Opus 4.7. Der Ausgabe-Preis von V4-Pro beträgt 3,48 US-Dollar. Es ist einer der Modelle mit den niedrigsten Preisen in der Spitzenklasse. Die Vergleichstabelle zeigt, dass Flash in der untersten Stufe der kleinen Modelle liegt, während Pro auch in der unteren Stufe des "Spitzenbereichs großer Modelle" angesiedelt ist.

Die Diskussionen über die praktische Erfahrung beginnen sich zu spalten. Viele Internetnutzer haben auf X behauptet, dass das Preis-Leistungs-Verhältnis "unschlagbar" sei. DeepSeek hat in seinen eigenen Erklärungen dagegen zurückhaltend geäußert und gesagt, dass es in Bezug auf Wissen und Inferenz nahe an geschlossenen Systemen liegt, aber immer noch einen Zeitraum von etwa 3 bis 6 Monaten an Leistung nachholen muss. Gleichzeitig wurde darauf hingewiesen, dass die Service-Durchsatzleistung von Pro aufgrund der begrenzten Hochleistungsrechenkapazität begrenzt ist und dass es Voraussichten auf eine Preissenkung gibt.

Dritttests: Spitzenleistung in der Codekompetenz, Gesamtranking dicht auf den Spitzenmodellen auf der Spur

Kurz nach der Veröffentlichung von OpenAI GPT - 5.5 wurde die Vorschauversion von DeepSeek - V4 offiziell veröffentlicht und gleichzeitig Open - Source gemacht. Sie umfasst das V4 - Pro mit einer Gesamtanzahl von 1,6 Milliarden Parametern (49 Millionen aktive Parameter) und das V4 - Flash mit einer Gesamtanzahl von 284 Millionen Parametern (13 Millionen aktive Parameter). Beide Modelle unterstützen ein Ultra - Lang - Kontextfenster von 1 Million Tokens und verwenden die MIT Open - Source - Lizenz.

Die Modelltestplattform Arena.ai hat am Tag der Veröffentlichung von V4 angekündigt, dass das DeepSeek V4 Pro (Denkmodus) in ihrer Code - Arena den dritten Platz unter den Open - Source - Modellen und den vierzehnten Platz in der Gesamtranking erreicht hat und die Veröffentlichung als "einen großen Sprung gegenüber DeepSeek V3.2" bezeichnet hat. Arena.ai hat auch das V4 Flash getestet. Beide Modelle unterstützen einen Kontext von 1 Million Tokens.

Die Testresultate von Vals AI sind noch interessanter. Die Plattform hat erklärt, dass das DeepSeek V4 in ihrem Vibe Code Benchmark "mit überwältigender Überlegenheit" die Spitze der Open - Source - Gewichtsmodelle errreicht hat, nicht nur den zweiten Platz Kimi K2.6 übertroffen, sondern auch geschlossene Spitzenmodelle wie Gemini 3.1 Pro besiegt hat.

Vals AI hat besonders betont, dass die V4 im Vergleich zur V3.2 eine ungefähr zehnfache Leistungssteigerung erzielt hat - "Die V3.2 hat in diesem Benchmark nur 5 Punkte erreicht, das ist kein Schreibfehler." Im Vals - Gesamtindex - Ranking hat die V4 den zweiten Platz belegt und liegt nur 0,07 % hinter dem ersten Platz Kimi K2.6.

Die Reaktion der Community war sehr positiv. Auf der X - Plattform hat der Nutzer Sigrid Jin gesagt, dass es ein neues "schockierendes Moment" gebracht hat und erwähnt, dass "man jetzt zu Hause ein Modell wie GPT 5.4 ausführen kann". Er schrieb:

"Entschuldigung, GPT - 5.5, DeepSeek V4 ist das neue schockierende Moment. Es hat in der Code - Arena das Hochleistungsmodell von GPT - 5.4 besiegt."

Der Nutzer Ejaaz hat hingegen gesagt:

"China dominiert die KI. Sie hat aufgeholt. DeepSeek V4 Flash ist um 99 % billiger als Opus 4.7 und kostet nur 0,28 US - Dollar pro Million Tokens. Es hat den ersten Platz in der Code - Arena erreicht, das ist kein Schreibfehler."

Einige Nutzer haben auch Vorbehalte geäußert. Der X - Nutzer Michael Anti hat nach dem Testen gesagt, dass die praktische Erfahrung mit V4 Flash die bereits recht ausgereifte V3.2 nicht übertroffen habe und dass die Upgrade - Erfahrung für alte Nutzer enttäuschend sei.

Offizielle Selbstbewertung: Zurückhaltende Formulierung, geringster Abstand in der Codekompetenz und im Agentenbereich

DeepSeek hat bei der Bewertung seiner eigenen Leistung immer zurückhaltend geäußert. Offizielle Dokumente zeigen, dass das V4 - Pro in Wissens - und Inferenztasks die gängigen Open - Source - Modelle übertroffen hat und sich an geschlossenen Systemen wie Gemini nähert, aber immer noch einen Zeitraum von etwa 3 bis 6 Monaten an Leistung hinter den Spitzenmodellen zurückliegt. Im Agenten - und Codetaskbereich hat es eine Leistung erreicht, die sich an Claude Sonnet annähert oder teilweise übertrifft.

Bezüglich der internen Nutzungsdaten hat DeepSeek erklärt, dass das V4 das Hauptmodell für Agentic Coding (Intelligent - Agenten - Programmierung) bei seinen internen Mitarbeitern geworden ist. Die Testrückmeldungen zeigen, dass die Nutzungs - Erfahrung besser ist als bei Claude Sonnet 4.5, die Lieferqualität sich der Nicht - Denkmodus - Version von Opus 4.6 annähert, aber immer noch einen gewissen Abstand zur Denkmodus - Version von Opus 4.6 hat.

Im mathematischen, STEM - und Wettbewerbs - Codetest hat das V4 - Pro alle bisher veröffentlichten Open - Source - Modelle übertroffen, einschließlich des Kimi K2.6 Thinking und des Zhipu GLM - 5.1 Thinking, und Ergebnisse erzielt, die mit denen der Spitzen - Closed - Source - Modelle vergleichbar sind.

Der Blogger Simon Willison hat in seinem Testartikel festgestellt, dass das V4 - Pro (1,6 Milliarden Parameter) derzeit das größte bekannte Open - Source - Gewichtsmodel ist, das Kimi K2.6 (1,1 Milliarden), GLM - 5.1 (754 Millionen) und DeepSeek V3.2 (685 Millionen) übertrifft und neue Optionen für Unternehmen bietet, die lokal deployen möchten.

Er hat auch die Pelikanabbildungen verschiedener Modelle gezeigt:

Das ist der Pelikan von DeepSeek - V4 - Flash:

Und das von DeepSeek - V4 - Pro:

Preissystem: Nur 1 % der Konkurrenz, weiteres Preisgefälle im zweiten Halbjahr

Die Preispolitik von DeepSeek war der am meisten beachtete Teil dieser Veröffentlichung. Die Eingabe - / Ausgabe - Preise von V4 - Flash betragen 0,14 US - Dollar / 0,28 US - Dollar pro Million Tokens, was niedriger ist als bei OpenAI GPT - 5.4 Nano (0,20 US - Dollar / 1,25 US - Dollar) und Gemini 3.1 Flash - Lite (0,25 US - Dollar / 1,50 US - Dollar). Es ist derzeit die Option mit den niedrigsten Preisen unter den kleinen Modellen.

Die Eingabe - / Ausgabe - Preise von V4 - Pro betragen 1,74 US - Dollar / 3,48 US - Dollar, was ebenfalls niedriger ist als bei Gemini 3.1 Pro (2 US - Dollar / 12 US - Dollar), GPT - 5.4 (2,50 US - Dollar / 15 US - Dollar), Claude Sonnet 4.6 (3 US - Dollar / 15 US - Dollar) und Claude Opus 4.7 (5 US - Dollar / 25 US - Dollar).

Die von dem Blogger Simon Willison zusammengefassten Preisvergleichsdaten zeigen, dass das V4 - Pro derzeit die Option mit den niedrigsten Kosten unter den großen Spitzenmodellen ist, während das V4 - Flash die Option mit den niedrigsten Kosten unter den kleinen Modellen ist, sogar niedriger als OpenAI's GPT - 5.4 Nano.

DeepSeek hat diese niedrigen Preise auf die extreme Effizienzoptimierung des Modells in Ultra - Lang - Kontext - Szenarien zurückgeführt. Offizielle Daten zeigen, dass in einem Szenario mit 1 Million Tokens die Rechenleistung für die Inference pro Token des V4 - Pro nur 27 % der V3.2 beträgt und der KV - Cache nur 10 %; bei V4 - Flash liegen diese Werte sogar bei 10 % und 7 %.

Es ist bemerkenswert, dass DeepSeek in der Preisangabe angemerkt hat, dass "aufgrund der begrenzten Hochleistungsrechenkap

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ist es ein Riesen-Erfolg oder ein Totalversagen? Hier kommt die erste Runde von Tests für Deepseek V4 (nebst Rangliste)!

Dritttests: Spitzenleistung in der Codekompetenz, Gesamtranking dicht auf den Spitzenmodellen auf der Spur

Offizielle Selbstbewertung: Zurückhaltende Formulierung, geringster Abstand in der Codekompetenz und im Agentenbereich

Preissystem: Nur 1 % der Konkurrenz, weiteres Preisgefälle im zweiten Halbjahr