10 Göttliche Eierlegende Wollmilchsäue in DeepSeek-V4 Technologiebericht Versteckt: "Alchemie-Paragraphen" in Dissertation Aufgenommen

DeepSeek hat es bis zu einem extremen Grad geschafft, "Geld" und "Ressourcen" zu sparen.

DeepSeek-V4 ist endlich da.

Am 24. April veröffentlichte das offizielle DeepSeek-Konto einen Artikel mit dem Titel „DeepSeek-V4 Vorschauversion: Eintreten in die Ära der Million-Kontext-Gemeingüter“. Im Artikel wurde offiziell angekündigt, dass „die Vorschauversion des neuen Modells DeepSeek-V4 offiziell online geht und gleichzeitig Open Source veröffentlicht wird.“

Zusätzlich wurde auch erwähnt: DeepSeek-V4 verfügt über einen Million-Wort-Überlängskontext und führt in der Agent-Fähigkeit, Weltwissen und Inferenzleistung sowohl im Inland als auch im Open-Source-Bereich an. Das Modell ist in zwei Versionen nach Größe aufgeteilt:

Nach der Veröffentlichung wurden die Tests und Diskussionen bereits ausführlich geführt, daher wird hier nicht weiter darauf eingegangen.

Boxed Lunch Finance bemerkte, dass DeepSeek gleichzeitig einen technischen Bericht über DeepSeek-V4 veröffentlichte. Die Adresse lautet wie folgt: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Dieser technische Bericht mit dem Titel „DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence“ umfasst insgesamt 55 Seiten und beschreibt V4 aus sechs Teilen, darunter Architektur, allgemeine Infrastruktur, Vorabtraining und Nachtraining. In diesem hochprofessionellen technischen Bericht verstecken sich 10 interessante Easter Eggs.

Easter Egg 1: Der „Think Max“-Modus, ein „Ausschöpfungsbefehl“ ohne Kürzungen

Position: Seite 30, Tabelle 3

Der Originaltext lautet:

Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.

Die Übersetzung lautet ungefähr:

Inferenzaufwand: Absolut maximal, keine Kürzungen erlaubt. Dein Denken muss äußerst gründlich sein, das Problem muss vollständig zerlegt werden, um die zugrunde liegenden Ursachen zu ermitteln, und deine Logik muss für alle möglichen Pfade, Randfälle und Gegnerszenarien einer strengen Belastungsprüfung unterzogen werden. Die vollständige Überlegungsgeschichte muss explizit geschrieben werden, jeder Zwischenschritt, in Betracht gezogene Alternativen und abgelehnte Hypothesen müssen aufgezeichnet werden, um sicherzustellen, dass keine unüberprüften Prämissen übrig bleiben.

Dieser Text ist der „System Prompt“, den das System heimlich an das Large Language Model sendet, wenn es den Think Max (Extremdenkmodus) aktiviert. Er klingt sehr bedrohlich, als würde ein strenger Lehrer seinen Schüler zwingen, sein Gehirn auszuschöpfen und keine Faulheit zu betreiben.

DeepSeek hat für diesen Modus eine extrem strenge Systemanweisung festgelegt. Die Wörterwahl ist bedrohlich, und es werden ausschließlich absolute Imperative verwendet: „Absolut maximal“, „Keine Kürzungen erlaubt“, „Muss gründlich sein“, „Strenge Belastungsprüfung“, „Keine Hypothese darf unberücksichtigt bleiben“. Es befiehlt dem Modell auch explizit, „keine Kürzungen zu nehmen“ und jeden abgelehnten Hypothese und jeden Zwischenschritt aufzuzeichnen.

Durch diesen extrem strengen engineeringmäßigen Prompt wird die Rechenleistung des Large Language Models im 1M-Kontext (Million-Kontext) ausgeschöpft, um Code- und Logikfehler zu überprüfen. Dies ist wie ein „logisches Band“ für das Modell, um sicherzustellen, dass es bei der Verarbeitung komplexer Logik oder Codes nicht aus Gründen der Geschwindigkeit Details übersieht.

Easter Egg 2: Ein „Öffentlicher Brief“ an Hardwarehersteller: Stoppen Sie die nutzlose Bemühung um Bandbreite

Position: Seite 16, Abschnitt 3.1

Der Originaltext lautet:

Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.

Der Sinn ist:

Sobald die Bandbreite diesen Schwellenwert erreicht, ist sie kein Engpass mehr. In diesem Fall bringt die Verwendung zusätzlicher Chipfläche zur weiteren Erhöhung der Bandbreite abnehmende Renditen. Wir ermutigen zukünftige Hardwareentwürfe, sich auf solche Gleichgewichtspunkte zu konzentrieren, anstatt die Bandbreite bedingungslos zu erweitern.

DeepSeek hat in seinem Bericht die Initiative ergriffen und Hardwareherstellern wie Nvidia und Huawei „Ratschläge“ gegeben. Es hat höflich seine Ansichten in Bezug auf die Hardware geäußert: Die blinde Erhöhung der Bandbreite trägt nur begrenzt zur Verbesserung der Effizienz der gegenwärtigen KI-Trainings bei. Es wird empfohlen, die Chipfläche für Stellen zu verwenden, die das Verhältnis von Rechnung zu Kommunikation verbessern können.

Easter Egg 3: Extreme Effizienz, nur 10 % des Caches von V3.2 bei 1M Länge

Position: Zusammenfassung, Abstract

Originaltext:

In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.

Der Sinn ist:

Im Kontext von einer Million Tokens benötigt DeepSeek-V4-Pro im Vergleich zu DeepSeek-V3.2 nur 27 % der FLOPs für die Inferenz eines einzelnen Tokens und 10 % des KV-Caches.

DeepSeek hat es geschafft, „Geld“ und „Ressourcen“ auf eine extreme Weise zu sparen.

Durch die CSA (Compressed Sparse Attention)- und HCA (Heavily Compressed Attention)-Technologien benötigt es bei der Verarbeitung von Texten mit einer Länge von 1 Million Wörtern nur ein Zehntel des Speichers des Vorgängermodells. Dies bedeutet, dass es in Zukunft möglich sein könnte, dass Privatcomputer oder sogar Mobiltelefone die Analyse von Texten mit einer Länge von 1 Million Wörtern ausführen können.

Easter Egg 4: Ehrliche „Alchemie-Mystik“: Man weiß, was es tut, aber nicht warum

Position: Seite 26, Abschnitt 4.2.3

Der Originaltext lautet:

Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.

Der Sinn ist: Obwohl das umfassende theoretische Verständnis ihrer zugrunde liegenden Mechanismen derzeit noch offen ist, teilen wir sie öffentlich, um die weitere Erforschung durch die Community zu fördern.

Im Kapitel „Mitigation von Trainingsinstabilität“ hat das DeepSeek-Team zwei spezielle Techniken zur Lösung des Problems des Trainingsabbruchs von Modellen mit Billionen von Parametern geteilt: Anticipatory Routing und SwiGLU Clamping.

Im technischen Bericht haben sie auch sehr ehrlich zugegeben: Diese Art von Ehrlichkeit, „Obwohl ich nicht weiß, wie es funktioniert, aber es funktioniert tatsächlich. Nehmt es einfach und nutzt es“, ist eine wahre Darstellung der KI-Alchemie und zeigt ein starkes Open-Source-Geist.

Easter Egg 5: Spezielle Tokens für „Schnelle Anweisungen“ (Quick Instruction)

Position: Seite 33, Tabelle 5

Um die Reaktionsgeschwindigkeit des Chatbots zu erhöhen, hat DeepSeek eine Reihe von speziellen Tokens („Geheimcodes“) in das Modell integriert.

Der Grund, warum V4 so schnell ist, liegt darin, dass es den bereits berechneten KV-Cache (Cache) für lange Texte direkt wiederverwendet. Es muss nicht wie zuvor Hunderttausende von Wörtern erneut an ein anderes kleines Modell geben, um eine Beurteilung zu treffen. Dadurch wird die „überflüssige Vorauffüllung“ (redundant prefilling) vollständig eliminiert, und die Wartezeit der Benutzer kann erheblich verkürzt werden.

Easter Egg 6: Rang 23 weltweit auf Codeforces

Position: Seite 39, Abschnitt 5.3.2

Der Originaltext lautet: On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.

Dies bedeutet, dass DeepSeek-V4-Pro-Max derzeit auf der Codeforces-Tabelle auf Platz 23 unter den menschlichen Teilnehmern steht.

Dieses „Easter Egg“ hat einen hohen Stellenwert. In der globalen Top-Programmierwettbewerbsliste von Codeforces, an der nur Menschen teilnehmen, reicht die geschätzte Punktzahl von DeepSeek-V4 (3206 Punkte) aus, um auf Platz 23 weltweit zu landen. Dies bedeutet, dass es die meisten Top-Programmierer übertroffen hat und sich in der Spitze der menschlichen Programmierintelligenz befindet.

Easter Egg 7: Interne „Mitarbeiterumfrage“, 52 % können sich nicht mehr ohne es trennen

Position: Seite 44, Abschnitt 5.4.4

Der Originaltext lautet:

In a survey asking DeepSeek developers and researchers (𝑁 = 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work — whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.

Die Übersetzung lautet:

In einer Umfrage unter DeepSeek-Entwicklern und Forschern (N = 85), die alle Erfahrung mit der Verwendung von DeepSeek-V4-Pro für die Agent-Codierung in ihrer täglichen Arbeit haben, wurde gefragt, ob DeepSeek-V4-Pro im Vergleich zu anderen führenden Modellen bereit ist, als ihr Standard- und primäres Codierungsmodell zu dienen. 52 % gaben eine positive Antwort, 39 % neigten zur Zustimmung, und weniger als 9 % sagten nein.

DeepSeek hat sehr selten die echten Rückmeldungen von 85 Spitzenforschern innerhalb des Unternehmens veröffentlicht. Mehr als die Hälfte der internen Kernmitarbeiter von DeepSeek verwenden es bereits als tägliches bevorzugtes Programmierwerkzeug. Dieses Verhalten des „Essen seiner eigenen Suppe“ spricht mehr für die tatsächliche Leistung des Modells in der Produktion als Benchmarkdaten.

Easter Egg 8: Echte „Kritik“ von internen Mitarbeitern wird in den technischen Bericht aufgenommen

Position: Seite 44, Abschnitt 5.4.4

Originaltext:

Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.

Die Übersetzung lautet:

Die Befragten fanden, dass DeepSeek-V4-Pro bei den meisten Aufgaben zufriedenstellende Ergebnisse liefert, aber sie wiesen auch auf kleine Fehler, Fehlinterpretationen von unklaren Anweisungen und gelegentliches Überdenken hin.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

10 göttliche Eierlegende Wollmilchsäue in der Technologiebericht von DeepSeek-V4 versteckt, und das "Alchemie-Paragraphen" ist auch in der Dissertation aufgenommen.

Easter Egg 1: Der „Think Max“-Modus, ein „Ausschöpfungsbefehl“ ohne Kürzungen

Easter Egg 2: Ein „Öffentlicher Brief“ an Hardwarehersteller: Stoppen Sie die nutzlose Bemühung um Bandbreite

Easter Egg 3: Extreme Effizienz, nur 10 % des Caches von V3.2 bei 1M Länge

Easter Egg 4: Ehrliche „Alchemie-Mystik“: Man weiß, was es tut, aber nicht warum

Easter Egg 5: Spezielle Tokens für „Schnelle Anweisungen“ (Quick Instruction)

Easter Egg 6: Rang 23 weltweit auf Codeforces

Easter Egg 7: Interne „Mitarbeiterumfrage“, 52 % können sich nicht mehr ohne es trennen

Easter Egg 8: Echte „Kritik“ von internen Mitarbeitern wird in den technischen Bericht aufgenommen