StartseiteArtikel

Eile dich nicht, alles in DeepSeek V4 zu setzen. Lies zuerst die ehrlichen Meinungen dieser 10 Branchenmitarbeiter.

阿菜cabbage2026-04-30 01:07
Der systematische Kampf um Modelle und KI-Anwendungen hat begonnen.

Text | Zhou Xinyu, Wang Yuchan

Editor | Yang Xuan

Die Interpretation des technischen Berichts von DeepSeek V4 ist in den letzten Tagen die beliebteste kollektive Aktivität in der KI - Branche geworden.

Ist V4 leistungsstark? In der Dimension der Ingenieuroptimierung ist die Antwort zweifellos ja. In der Vergangenheit glaubten die Menschen an die "rohe Kraftästhetik des Skalierungsgesetzes" – d. h., die Modellleistung durch Anhäufung von mehr hochwertiger Rechenleistung und größeren Parameterskalen zu verbessern. V4 geht jedoch einen völlig anderen Weg. Es definiert eine "zurückhaltende Ästhetik des Modelltrainings":

Anstatt rücksichtslos Rechenleistung und Parameter anzuhäufen, wird dies durch eine Reihe von kombinierten Optimierungen und Rekonstruktionen erreicht:

Attention - Mechanismus (ermöglicht es dem Modell, "die Schlüsselpunkte zu erfassen", ähnlich wie eine Person automatisch auf Schlüsselsätze achtet, wenn sie einen langen Artikel liest)

MoE - Architektur (Mixture of Experts - Modell, das als "verschiedene Experten mit verschiedenen Problemtypen beaufträgen und nur wenige Experten jeweils aktivieren, um Zeit und Mühe zu sparen" verstanden werden kann)

Post - Training (zielgerichtetes ergänzendes Training und Verstärkung nach der anfänglichen Bildung des Modells)

Inferenzsystem - Ingenieurwesen (Optimierung der Effizienz jeder Phase während des tatsächlichen Betriebs)

Das Ergebnis hiervon ist, dass die Rechenleistung, die V4 - Pro benötigt, um einen langen Kontext von einer Million Tokens (etwa Hunderttausende von Wörtern) zu verarbeiten, auf 27 % derjenigen der Vorgängerversion V3.2 reduziert wurde. Gleichzeitig wurde der KV - Cache (der als das "Mitschreibpapier" des Modells beim Chat mit Ihnen verstanden werden kann), der zum temporären Speichern des Dialogkontexts verwendet wird, auf 10 % der ursprünglichen Größe komprimiert.

Allerdings ist Ingenieurwesen nur Ingenieurwesen, und Rankings sind nur Rankings.

Beim Bewerten eines Modells möchten wir nicht nur auf die Papierparameter achten. Stattdessen sollten wir den Wert von V4 in realen Szenarien der Implementierung, Entwicklung und Investition diskutieren. Aus diesem Grund haben wir fast 10 Entwickler, Anwendungsunternehmer und Investoren für etwa drei Tage zu Erfahrungen und Tests eingeladen.

Zunächst stellen wir eine kontraintuitive Schlussfolgerung vor: Die Auswirkungen von DeepSeek auf die Anwendungsebene könnten größer sein als auf die Modellebene.

Während wir uns über die extreme Ingenieuroptimierung wundern, wie DeepSeek selbst im V4 - technischen Bericht zugeben hat, liegt seine Entwicklungsbahn etwa 3 bis 6 Monate hinter den führenden Closed - Source - Modellen zurück. Die gegenwärtigen Errungenschaften von V4 sind wie ein Teufelsbargeld: Es hat die Stärken der Inferenz - und Agenten - Fähigkeiten (intelligente Agenten) erweitert, indem es einige Genauigkeit geopfert hat.

Hersteller von Closed - Source - Modellen können sich vorerst beruhigen. Für die Geschäftswelt, die auf Stabilität und Genauigkeit Wert legt, ist V4 offensichtlich kein Modell, das direkt implementiert werden kann.

Li Bojie, der Chefwissenschaftler von Pine AI, und Chillin, ein Unternehmer eines führenden Coding - Agents, haben uns beide direkt gesagt, dass die Stabilität der Werkzeugaufrufe und die Halluzinationsrate auf der Harness - Ebene verbessert werden müssen (die "Zaum" und "Sicherheitsgurte" für den intelligenten Agenten, um sein Verhalten zu regulieren und das Fehlerrisiko zu verringern). Die Implementierung von V4 kann nicht ohne das "Gerüst" funktionieren.

Allerdings beeinflusst die iterative Richtung des intelligenten Gehirns oft das Ökosystem der nachgelagerten Anwendungen. Der KI - Anwendungsstartup wird härteren doppelten Tests ausgesetzt sein, sowohl technisch als auch finanziell.

"Die Leistung des Basismodells iteriert immer noch schnell." Dieser Branchenkonsens bedeutet auch, dass Anwendungen jederzeit die Sandkörner sein können, die vom Modell umgeworfen werden. Ein Investor aus einem Dual - Currency - Fonds hat viele Beispiele von "Ehemaligen" genannt: "Workflow, Coding..."

Chen Weipeng, der Gründer und CEO des KI - Anwendungsunternehmens "Yongyue Intelligence", hat zusammengefasst: In Zukunft besteht die Hürde für KI - Anwendungen darin, das Modell, den Agenten, das Produkt - Szenario und die Datenrückkopplung in ein zuverlässiges, kostengünstiges und skalierbares Produktionssystem zu integrieren.

Hervorhebung: Nicht nur Fähigkeiten bei Langtext und Programmierung, sondern auch hohe Fähigkeiten zu niedrigen Kosten

Vorab: Kernvorteile – Code - und intelligente Agenten - Fähigkeiten

In mehreren wichtigen Code - und Software - Ingenieur - Bewertungen hat V4 - Pro das höchste Niveau unter den gegenwärtigen Open - Source - Modellen gezeigt, fast auf Augenhöhe mit den besten Closed - Source - Modellen. Wir haben die Kern - Daten wie folgt zusammengefasst:

KI - Bildgenerierung

🧑‍🏫Huang Dongxu, Mitgründer und CTO von PingCAP

Ich migriere meinen Hermes - Workflow zu DeepSeek V4. Zuvor war ich ein bisschen verschwenderisch und nutzte Claude Opus und GPT5.4 als Agenten. Später stellte ich jedoch fest, dass die meisten meiner täglichen Aufgaben eigentlich keine extrem hohen Codierungsfähigkeiten erfordern.

Tägliche Bürotätigkeiten umfassen hauptsächlich: (a) tägliche E - Mail - Sortierung; (b) Artikel schreiben; (c) Kalenderverwaltung; (d) Inhaltszusammenfassung; (e) Webbrowsing.

Jetzt habe ich vollständig zu DeepSeek V4 gewechselt. Seine Leistung ist besser als ich erwartet habe. Vielleicht wurde es für Chinesisch optimiert, und seine allgemeine Sprachfähigkeit entspricht eher den Sprachgewohnheiten von Muttersprachlern als Opus und GPT.

Meine erste Schlussfolgerung ist also: Wenn Sie derzeit teurere Modelle als Agenten für Ihre täglichen Arbeitsassistenten verwenden, können Sie sich ziemlich sicher zu DeepSeek V4 Pro wechseln.

Seine Fähigkeiten liegen ungefähr auf dem Niveau von Claude Sonnet 4.5 bis 4.6, aber der Preis ist weniger als ein Viertel desjenigen der besten Modelle. Jetzt muss ich mir im Grunde keine Gedanken mehr über die Kosten des Agenten machen.

Das Papier von DeepSeek V4 betont ständig den 1M - Kontext, aber ich finde es nicht wirklich so bemerkenswert, weil die meisten der gegenwärtigen Mainstream - SOTA - Modelle auch mindestens einen 1M - Kontext haben. Es holt nur auf.

Seine wirklichen Vorteile sind:

1. Die Kosten sind wirklich sehr niedrig;

2. Es ist ein Open - Source - Modell.

Ich muss mir nicht zu sehr Sorgen machen, dass, wenn Anthropic oder OpenAI die Lieferung einstellen, meine bisherigen Workflows nicht mehr funktionieren. So etwas ist tatsächlich schon passiert. In dieser Hinsicht gibt mir der Wechsel zu DeepSeek V4 ein höheres Sicherheitsgefühl.

Als nächstes betrachten wir die Programmierfähigkeit. Da die Testzeit noch relativ kurz ist, habe ich es noch nicht für die Entwicklung sehr komplexer großskaliger Systemanwendungen verwendet.

Aber für Projekte mit einer Größe von etwa einigen tausend Codezeilen oder für die Entwicklung kleiner Anwendungen und in Szenarien, die verschiedene externe Drittanbieter - Systemaufrufe betreffen (z. B. der Zugang zu einem unbekannten Tool auf Supabase oder TiDB Cloud durch Lesen der Dokumentation), habe ich bisher keine großen Probleme encountered.

In der Größenordnung von einigen tausend bis zehntausend Zeilen ist die Einmal - Erfolgsrate von V4 (die Bereitstellung ausreichender Beispiele und Anweisungen auf einmal ohne zusätzliche Fehlersuche) relativ hoch.

Wenn Sie also nur einige einfache kleine Websites oder kleine Anwendungen entwickeln, denke ich, dass die Programmierfähigkeit von DeepSeek definitiv viel stärker ist als die der Vorgängerversion.

Da mein Harness - Framework nicht sehr komplex manuell angeordnet ist und hauptsächlich auf der eigenen kollaborativen Fähigkeit des Modells basiert (unter Verwendung von Slock.ai).

Einfach ausgedrückt, gibt es folgende zwei Punkte:

1. Es kann mit Agenten anderer Modelle kollaborieren;

2. Es kann einige einfache/spezifische Aufgaben erledigen.

Wenn also einige relativ leistungsstarke Modelle (z. B. GPT5.5) DeepSeek V4 Pro leiten und es dann für die Ausführung verantwortlich machen, denke ich, dass dieses Modell die Kosten des gesamten Harness - Engineerings erheblich reduzieren kann.

🧑‍🏫Zhao Binqiang, Vizepräsident des Technologie - und Produktzentrums von Lingyiwanwu

DeepSeek V4 ist nicht das "allrund bestmögliche", aber es ist das "vertrauenswürdigste". Sein fester Open - Source - Versprechen, der vollständige technische Bericht, die extrem niedrigen Inferenzkosten und die Full - Stack - Lokalisierung der Technologie machen es zur kostengünstigsten Wahl für das Basismodell im ToB - Szenario (geschäftsorientiert).

Zwei Dinge über DeepSeek V4 haben mich wirklich beeindruckt.

Erstens die zugrunde liegende Innovation der Modellarchitektur. Es behält immer noch eine hohe Inferenzfähigkeit unter einem 1 - Million - Token - Kontextfenster bei, was auf der zugrunde liegenden Innovation des gemischten Attention - Mechanismus basiert. Dieser Mechanismus kann einfach erklärt werden als: "Überfliegen" konzentriert sich auf die Gesamtaussage, und "Genau lesen" versteht die Details genau.

Insbesondere die Erforschung der Kontextkompression ist sehr fortschrittlich, und DeepSeek hat die Details im technischen Bericht uneingeschränkt offen gelegt. Dieser Ehrlichkeit und Open - Source - Geist ist im hochkompetitiven Bereich der großen Modelle äußerst wertvoll.

Zweitens die Full - Stack - Anpassung an die heimische Rechenleistung. DeepSeek hat die Anpassung von Huawei Ascend 910B/950 abgeschlossen und sehr detaillierte Arbeit in Aspekten wie Quantisierung, Sparsifizierungsmechanismus und Domänenexpertenoptimierung geleistet.

Dies bedeutet, dass die heimische Full - Stack - Lösung von den Chips über die zugrunde liegende Software bis hin zur Modelltraining und - Inferenz einen wesentlichen Schritt in die richtige Richtung gemacht hat. Obwohl wir nicht sagen können, dass wir uns vollständig von der Abhängigkeit vom NVIDIA - Ökosystem befreit haben, haben wir die richtige Entwicklungsrichtung gefunden. Die Schwierigkeit und die Bedeutung davon können nicht genug betont werden.

🧑‍🏫Li Bojie, Chefwissenschaftler von Pine AI

Am meisten hat mich beeindruckt, dass DeepSeek es geschafft hat, eine lange Liste von architektonischen Innovationen wie MoE, CSA + HCA gemischter Attention, mHC, Muon und FP4QAT auf der derzeit größten Open - Source - Skala von 1,6 T (1,6 Billionen Parameter) erfolgreich umzusetzen.

Es ist, als würde man eine Reihe von Technologien kombinieren, die theoretisch sehr fortschrittlich sind, aber in kleinen Skalexperimenten oft fehlschlagen, und sie auf einem riesigen Motor stabil funktionieren lassen. Wir haben selbst mehr als 20 Arten von architektonischen Innovationen getestet, und die Schlussfolgerung ist fast immer, dass "es auf einer 7 - Milliarden - Parameter - Skala funktioniert, aber fehlschlägt oder sogar einen negativen Effekt hat, wenn die Skala erhöht wird".

Die meisten der Modellarchitektur - Innovationen anderer Unternehmen bleiben auch an diesem Punkt stecken. Die Fähigkeit, mehrere Innovationen auf der größten Skala zusammenarbeiten zu lassen, zeigt, dass DeepSeek eine extrem tiefe technische Akkumulation in der zugrunde liegenden Trainingstechnik hat. Nur eine der "mHC" - Technologien hat die fast 3000 - fache Signalverstärkung im 27B - Experiment auf etwa 1,6 Mal reduziert, was das Training stabil und kontrollierbar macht.

🧑‍🏫Song Chunyu, Vizepräsident der Lenovo Group, Chefinvestitionsbeauftragter und Seniorpartner der Lenovo Capital and Incubation Group

DeepSeek hat bewiesen, dass "KI - Kosteneffizienz" ein aktiv gestalteter struktureller Vorteil sein kann.

Es benötigt nur 27 % der Rechenleistung und 10 % der Videospeicherbelegung. Gleichzeitig werden, obwohl die Gesamtzahl der Parameter 1,6 T beträgt, nur 49 M Parameter bei jedem Aufruf aktiviert, was äußerst effizient ist.

Diese strukturelle Kostensenkung, kombiniert mit der Niedrigpreisstrategie der V4 - Flash - Version API zu 1 Yuan pro Million Tokens, hat das "erschwingliche ultralange Kontext" zu einem neuen Maßstab für KI - Anwendungen gemacht.

🧑‍🏫Chen Weipeng, Gründer und CEO von Yongyue Intelligence

Was mich bei DeepSeek V4 wirklich begeistert hat, ist nicht nur die Verbesserung einer Einzelpunkt - Fähigkeit, sondern dass es zeigt, dass die heimischen großen Modelle von der "Aufholjagd bei den Basisfähigkeiten" in die Phase des "Teilnehmens am Systemwettbewerb in der Agenten - Ära" eingetreten sind.

In der Vergangenheit war man mehr daran interessiert, ob das Modell antworten, schließen und Code schreiben kann. Heute ist es jedoch wirklich wichtig, ob das Modell in komplexen Aufgaben das Ziel stabil erreichen kann und ob es mit niedrigen Kosten und hoher Effizienz an das reale Produktsystem angeschlossen werden kann.

Schade: Für die reale Implementierung fehlt V4 noch etwas "Gerüst"

Vorab: Relative Nachteile – faktische Kenntnisse und extrem komplexe Schlussfolgerungen

Das DeepSeek - Unternehmen und verschiedene Bewertungsplattformen haben mehrere offensichtliche Schwächen von V4 - Pro aufgezeigt. Für ein intuitiveres Verständnis haben wir die Schlüssel - Schwachpunkt - Daten in die folgende Tabelle zusammengefasst:

KI - Bildgenerierung.

🧑‍🏫Li Bojie, Chefwissenschaftler von Pine AI

Ich verwende es hauptsächlich für Code - verwandte und Agenten - Aufgaben. In dieser Art von Arbeit:

Die Werkzeugaufruff