StartseiteArtikel

DeepSeek bahnt sich einen Weg durch: Die Durchbruch des chinesischen Large Language Model beruht nicht auf Glück.

高恒商业说2025-12-03 11:19
Von Aufmerksamkeit zu Agent: Die grundlegende Lösung für die Fähigkeitssteigerung.

Anfang Ende 2025 hat Google fast den technologischen Vorsprung auf der globalen Bühne der Large Language Models zurückerobert. Mit dem Auftauchen von Gemini 3 Pro, das auf mehreren autoritativen Benchmarks alle Open-Source-Modelle übertrifft, hat das Closed-Source-Kampfgebiet seinen technologischen Vorsprung wiederhergestellt. Plötzlich wurden wieder Fragen wie "Haben Open-Source-Modelle ihre Grenzen erreicht?" und "Ist die Skalierungsregel tatsächlich an ihre Grenzen gestoßen?" aufgeworfen, und eine gewisse Trägheit breitete sich in der Open-Source-Community aus.

Genau in dieser Situation hat DeepSeek nicht schweigend zugesehen. Am 1. Dezember veröffentlichte es auf einmal zwei bahnbrechende Modelle: DeepSeek-V3.2, dessen Inferenzleistung mit der von GPT-5 vergleichbar ist, und die Speciale-Version, die in Mathematik, Logik und mehrfachem Werkzeugaufruf außergewöhnlich stark ist. Dies ist nicht nur eine Konzentration der technologischen Fähigkeiten, sondern auch eine direkte Antwort auf die "neue Grenze" des Closed-Source-Bereichs, auch wenn die Rechenressourcen nicht unbedingt im Vorteil sind.

Dies ist keine einfache Modellaktualisierung. DeepSeek versucht, in der Post-Skalierungs-Ära einen neuen Weg zu finden: Wie kann man die Lücke in der Vorhersage durch Architekturreform ausgleichen? Wie kann man durch die "Denkkette beim Werkzeuggebrauch" eine effiziente Leistung eines Intelligenten Agenten mit wenigen Token erreichen? Und vor allem: Warum ist der Agent von einer zusätzlichen Funktion zum Kernmotor für den Sprung der Modellfähigkeiten geworden?

Dieser Artikel wird sich um diese drei Hauptthemen drehen: Wie hat DeepSeek die technologischen Engpässe überwunden? Warum hat es zuerst im Open-Source-Bereich stark in Agenten investiert? Und bedeutet dies, dass es für Open-Source-Modelle noch einen Weg gibt, die Barriere des Closed-Source-Bereichs zu durchbrechen?

I. Vom Nachhinken zum Gleichlauf: Wie hat DeepSeek es in die Spitzengruppe geschafft?

In der Welt der Spitzen-AI-Modelle wurde immer angenommen, dass Open-Source-Modelle nur "einholen" können, aber nicht wirklich "konkurrieren" können. Doch diesmal hat DeepSeek-V3.2 ein Ergebnis vorgelegt, das nicht mehr dem eines Nachhinkers entspricht.

Nach den offiziellen Daten von DeepSeek ist V3.2 in öffentlichen Inferenz-Benchmarks vollständig mit GPT-5 vergleichbar und nur geringfügig hinter Gemini 3 Pro zurück. In mehreren wichtigen Bewertungen hat es nicht nur Kimi-K2-Thinking stabil geschlagen, sondern auch den Rekord der chinesischen Open-Source-Modelle in der Inferenzfähigkeit verbessert. In Aufgaben wie Mathematik, Logik und komplexen Fragen-Antworten ist die Leistung von DeepSeek-V3.2 der von Closed-Source-Führermodellen nahe, was es in die Spitze der "globalen zweiten Liga" katapultiert.

Der Schlüssel hierfür lässt sich nicht einfach mit der "Weitervergrößerung" der Large Language Models erklären. Der Kern des Durchbruchs von DeepSeek liegt in der Umgestaltung der unterliegenden Architektur, insbesondere in der Einführung des Sparse Attention Mechanismus (DSA). Im traditionellen Transformer-Architektur muss der Attention-Mechanismus für jedes Token die Beziehung zu allen vorherigen Token berechnen, was zu einer quadratischen Zunahme der Rechenkomplexität führt und somit den Hauptengpass bei der Inferenz von Large Language Models darstellt.

Der "Lightning Indexer", der mit DSA eingeführt wurde, fungiert wie ein "Schnellvorhersager" in diesem Rechenprozess. Anstatt für alle Token eine vollständige Attention-Verteilung durchzuführen, filtert er mit nur wenigen, niedrigpräzisen Indexköpfen (die auf FP8 laufen können) schnell die wichtigsten Token-Paare aus und führt nur für diese Kernpositionen eine genaue Berechnung durch. Durch diese Konstruktion wird die Komplexität des Kern-Attention-Mechanismus von quadratisch auf nahezu linear reduziert, sodass auch bei einer sehr langen Eingabe von 128K Tokens die Rechenlast relativ stabil bleibt.

Es ist bemerkenswert, dass DeepSeek bei der Einführung von DSA nicht radikal ersetzt hat, sondern eine zweistufige Trainingsstrategie von "dichter Vorwärmung - sparzer Übergang" gewählt hat. In der frühen Phase des Modellvorhersagens behält es die ursprüngliche Attention-Struktur bei und trainiert nur den Indexer, die ursprüngliche Verteilung zu imitieren. Erst in der Nachtrainingsphase wird die Struktur schrittweise durch eine spärliche Struktur ersetzt, um einen unterbrechungsfreien Übergang zu gewährleisten. Diese "graduelle Architekturevolution" hat nicht nur die Effizienz von V3.2 bei der Inferenz mit langer Kontextlänge verbessert, sondern auch die Genauigkeit nicht beeinträchtigt. Tests wie Fiction.liveBench und AA-LCR für Langtextaufgaben zeigen, dass die Punktzahlen von V3.2 in der Informationswiederherstellung, der Kontextkonsistenz und der komprimierten Ausdrucksfähigkeit deutlich gestiegen sind.

Der noch wertvollere Durchbruch für die Branche liegt jedoch nicht nur hier. DeepSeek hat in V3.2 erstmals das Paradigma des "Denkens beim Werkzeuggebrauch" ("Thinking in Tool-Use") eingeführt, das die Ausführungsreihe des Modells von "Denken → Werkzeugaufruf → Ende" in die alternierende Logik von "Denken → Aufruf → Weiterdenken → erneuter Aufruf" umgestaltet. Diese Mechanik stimmt mit der Richtung des "Interleaved Thinking" überein, die in der Agenten-Branche in den letzten Jahren vorgeschlagen wurde. Sie verbessert nicht nur die logische Kontinuität des Werkzeugaufrufs, sondern auch die Möglichkeit, die Zwischenzustände der Inferenz in einer Aufgabe wiederzuverwenden.

Diese Fähigkeit ist besonders wichtig in realen Agentenszenarien. In der Realität erfordern Aufgaben oft mehrere Runden von Informationsgewinnung, -überprüfung und Strategieanpassung. Wenn der Agent bei jedem Werkzeugaufruf seinen "Gedächtnisinhalt" verliert, muss er jedes Mal von vorne anfangen. V3.2 behält stattdessen die "Inferenztrajektorie" als Teil des Kontexts bei und setzt nach der Rückgabe neuer Informationen durch das Werkzeug die ursprüngliche Denkrichtung fort. Diese Mechanik reduziert nicht nur die Erzeugung von doppelten Token, sondern auch die logischen Unterbrechungen aufgrund von Zustandsverschiebungen.

Letztendlich ist dieser technologische Sprung von DeepSeek nicht durch eine höhere FLOP-Zahl erreicht worden, sondern durch "klügeres" Verwenden der Rechenressourcen. DSA verteilt die Rechenleistung effizienter, und das alternierende Denken macht den Werkzeugaufruf stabiler. Beide Aspekte zielen auf ein Ziel: Das Modell soll ein "ständig denkender Intelligenter Agent" werden, nicht nur ein großer Sprachkomplettierer.

Dies bedeutet auch, dass nach dem Erreichen der Skalierungsgrenze der Wettbewerb zwischen Modellen zunehmend von der Anzahl der Parameter auf die "Denkorganisation" und den "Energieeffizienzquotienten" ausgerichtet sein wird. Und V3.2 ist ein erster Hinweis auf diesen Wandel.

II. Die Investition in Agenten: Kein Trendverfolgung, sondern strategischer Wendepunkt

Im Vergleich zu den technologischen Durchbrüchen in der Modellleistung ist der größte Wandel in der strategischen Richtung von DeepSeek-V3.2, dass es die "Agentenfähigkeit" und die "Inferenzfähigkeit" gleichberechtigt als Kernkriterien in die technische Dokumentation aufgenommen hat. Dies ist eine Richtungskorrektur, die bisher von chinesischen Open-Source-Modellen kaum öffentlich betont wurde. Aus der Sicht von DeepSeek ist der Agent nicht mehr ein zusätzliches Modul für den Werkzeugaufruf, sondern eine Brücke zwischen der Freisetzung der Modellfähigkeiten und der industriellen Umsetzung, ja sogar der Vorposten für die zukünftige Plattformisierung von Large Language Models.

Diese Einschätzung ist keine technologische Romantik, die sich von der Realität entfernt. Im vergangenen Jahr hat die Branche der Large Language Models einen wichtigen Wandel erfahren: Unternehmen haben gemerkt, dass der Grenznutzen von "klügeren Chatbots" abnimmt und dass nur Agenten mit echter "Handlungsfähigkeit" das Potenzial haben, einen geschlossenen Geschäftszyklus zu bilden. Von der automatischen Berichtserstellung und Tabellengenerierung bis zur Massenbearbeitung von Tickets und Codekorrektur sind Unternehmen bereit, für diese "ausführbaren" Intelligenten Agenten zu bezahlen, nicht für ein menschenähnlicheres Gespräch.

Dies erklärt auch, warum DeepSeek in der Nachtrainingsphase von V3.2 umfangreiche Ressourcen in die Entwicklung eines Agenten-Trainingssystems investiert hat und eine eigene Massenproduktionslinie für Aufgaben generiert hat. Laut offiziellen Angaben hat das Team über 1.800 Agenten-Umgebungen synthetisiert und rund 85.000 komplexe Aufgabenhinweise für Agenten entwickelt. Diese Aufgaben werden nicht manuell annotiert, sondern automatisch durch einen Umgebungsbauer und ein Trajektorienbewertungsmechanismus generiert und über Reinforcement Learning in einem geschlossenen Zyklus trainiert.

Dieser Ansatz bricht mit der traditionellen Vorhersage, die auf eine riesige Menge an Dialogdaten angewiesen ist. Im Vergleich dazu haben die Trajektorien von Agentenaufgaben eine stärkere Struktur, Überprüfbarkeit und Seltenheit. Sobald sie aufgebaut sind, ist das Trainingsergebnis weit besser als bei der herkömmlichen "Dialogkomplettierung". Vor allem ermöglicht das Reinforcement Learning, dass die Modellfähigkeiten kontinuierlich über eine Rückkopplungsschleife optimiert werden, anstatt auf die eine Richtung der Vorhersage beschränkt zu sein.

DeepSeek hat die selbst entwickelte Strategie GRPO (Group Relative Policy Optimization) eingesetzt und sie für das Training von Massenmehrfachaufgaben lokal angepasst. In diesem Prozess muss das Modell nicht nur die Rationalität der Einzelergebnisse optimieren, sondern auch die Inferenzkonsistenz und die Sprachausdrucksstabilität in mehrfachen Aufgaben ausbalancieren. Um das Problem des "katastrophalen Vergessens" in der traditionellen RL zu vermeiden, hat DeepSeek die Inferenzbelohnung, die Sprachkonsistenzpunktzahl und die Aufgabenabschlussbewertung zu einem mehrdimensionalen Belohnungssignal integriert, um die Integrität der Agentenausführungsreihe während des Trainings aufrechtzuerhalten.

Um diesen komplexen Trainingsmechanismus zu unterstützen, muss die "Zustandswahrnehmungsfähigkeit" des Modells ebenfalls verbessert werden. V3.2 hat in seiner Architektur eine umfassende Kontextverwaltungsstrategie eingeführt: Das Modell setzt seinen Denkzustand nur dann zurück, wenn der Benutzer eine neue Nachricht sendet. Während des kontinuierlichen Werkzeugaufrufs wird die Inferenztrajektorie vollständig beibehalten. Dies bedeutet, dass das Modell "Denkreste" sammeln kann und nach der Rückgabe neuer Informationen durch das Werkzeug weiterdenken kann, anstatt von vorne anzufangen. Dieser "Zustandsfortsetzungsmechanismus" ist eine wichtige Garantie für die Kontinuität des mehrfachen Verhaltens von Agenten und ermöglicht es dem Modell, komplexere, mehrstufige Aufgaben zu lösen.

Von der systemischen Logik her hat DeepSeek seine Sichtweise auf Agenten von einem "Aufgabenausführungsplugin" zu einem Bestandteil des "Modellbetriebssystems" erweitert. Es ist kein externes Add-On, sondern ein Teil der Kernstruktur des Modells. Dieser Wandel in der Systembetrachtung bedeutet, dass die zukünftige Form der Large Language Model-Plattform einer Scheduling-Betriebssystem annähern wird: Das Modell selbst ist der OS-Kern, der Agent ist das Benutzerprogramm, und die Werkzeugplugins sind die aufrufbaren Module. Wer die Standards auf der Agentenschicht festlegt, hat möglicherweise die Macht über die Plattform in der KI-Ära.

Dies ist auch der Grund, warum DeepSeek versucht, das einheitliche Paradigma von "alternierendem Denken + Werkzeuggebrauch" zu etablieren und das Konzept des "Denkens beim Werkzeuggebrauch" ("Thinking in Tool-Use") als grundlegende Entwurfssprache vorzustellen. Dies ist nicht nur ein Unterschied in den technischen Details, sondern auch ein Zeichen für ein Plattformdenken.

Für die Branche markiert dieser Wandel von DeepSeek einen neuen Wendepunkt: Die Agentenfähigkeit ist nicht mehr eine optionale Funktion für das Ingenieursteam, sondern ein Kernbestandteil des Modellaufbaus. Die Fähigkeit eines Modells auf Plattformebene, Agenten zu betreiben, ist bereits zu einem Schlüsselkriterium für die mittelfristige und langfristige Wettbewerbsfähigkeit geworden.

III. Wo liegen die Grenzen von Open-Source-Modellen? DeepSeeks "Nachtrainingsstrategie" versucht, eine Antwort zu geben

Obwohl V3.2 und Speciale auf mehreren Benchmarks den Wandel von "Nachhinken" zu "Gleichlauf" im Open-Source-Bereich erreicht haben, hat DeepSeek in seinem technischen Bericht auch zugegeben, dass die Lücke zwischen Open-Source-Modellen und Closed-Source-Systemen in einigen Schlüsselbereichen weiter gewachsen ist. Insbesondere in der Wissensbreite, der Fähigkeit zur Bearbeitung von äußerst komplexen Aufgaben und der Token-Erzeugungseffizienz ist das Open-Source-System immer noch auf Ressourcen, Daten und Budgets angewiesen.

DeepSeek hat diese Einschränkungen nicht verheimlicht, sondern mit einer sehr praktikablen Strategie geantwortet: Wenn man in den Ressourcen hinterherhinkt, muss man sich auf die Methode konzentrieren und den Trainingsvorgang "tiefer" gestalten.

Der Kern dieser Strategie ist das "Nachtrainings-Trikotage": Experten-Distillation + Mehrspuriges Reinforcement Learning + Integration des Werkzeugdenkmechanismus.

Zunächst die Experten-Distillation (Expert Distillation). Während die meisten Modelle noch hauptsächlich mit allgemeinen Daten gemischt trainiert werden, hat DeepSeek für V3.2 sechs Arten von Expertenmodellen entwickelt, die Kernfähigkeiten wie Mathematik, Programmierung, logische Inferenz, allgemeine Agenten, Agentenprogrammierung und Agentensuche abdecken. Jede Aufgabe hat ein eigenes Modell, das in einem eigenen Datensatz und in generierten Trajektorien eine einzelne Fähigkeit stärkt. Diese Experten werden nicht direkt eingesetzt, sondern dienen zur Erzeugung von hochwertigen Trainingsbeispielen, die dann in das Hauptmodell zurückgeführt werden.

Anschließend werden die Daten, die von diesen "aufgaben-spezifischen Modellen" erzeugt werden, gemeinsam für das Training eines allgemeinen Modells verwendet. Technisch gesehen bedeutet dies, dass man mehrere extrem spezialisierte "Klassenbester" verwendet, um einen "Alleskönner" zu ernähren. Dies vermeidet die Verdünnung der Fähigkeiten in der Mehrfachaufgabentraining und behält die strukturelle Verbindung zwischen verschiedenen Aufgaben bei.

Die zweite Ebene ist die Erweiterung und Verbesserung des Reinforcement Learning (RL). DeepSeek hat die GRPO-Strategie aus V3.2-Exp fortgesetzt und die Daten- und Belohnungsstruktur weiter verbessert. Das Modell muss nicht nur die Aufgabe abschließen, sondern auch die Sprachqualität, die Logik der Inferenzkette und die natürliche Fähigkeit, Werkzeuge aufzurufen, optimieren. Der Rechenaufwand in der gesamten Nachtrainingsphase macht bereits über 10% des Vorhersagebudgets aus, was in der Open-Source-Modellwelt sehr bemerkenswert ist.

Wichtiger noch ist, dass das Reinforcement Learning nicht auf menschliche Bewertungen angewiesen ist, sondern durch den eingebauten Rückkopplungsmechanismus und die Rubrik der Aufgabenumgebung automatisch bewertet wird. Dieser Ansatz ermöglicht es, dass das Modelltraining nicht auf die manuelle Anpassung von Daten beschränkt ist, sondern in einen geschlossenen Lernzyklus von "strukturierte Aufgabe - automatische Bewertung - Verhaltensoptimierung" eintritt. Dadurch entstehen Modellfähigkeiten, die seltener, aber wiederverwendbarer sind als Chatdaten.

Die dritte Ebene ist die Integration des Werkzeuggebrauchs und der "Denkkette". In der Anfangsphase des Trainings versteht das Modell oft nicht, "wann es ein Werkzeug aufrufen und wann es weiterdenken soll", was zu Unterbrechungen in der Inferenztrajektorie und der Logik führt. Deshalb hat DeepSeek für V3.2 ein Cold-Start-Systemhinweis entwickelt, das Beispiele für den Werk