Kurz vor Veröffentlichung von DeepSeek-V4: "Entscheidender Schritt" für Agentenbeschleunigung

Zusammen mit Tsinghua-Universität und Peking-Universität wird der Engpass bei der Inferenzeffizienz von Agenten überwunden.

DeepSeek hat wieder neue Aktivitäten unternommen.

Allerdings ist das diesmal veröffentlichte Produkt immer noch nicht das lange erwartete DeepSeek-V4.

Dies hindert es jedoch nicht daran, eine beeindruckende Premiere zu feiern – DeepSeek hat gemeinsam mit der Tsinghua-Universität und der Peking-Universität ein neues Inferenzsystem namens DualPath vorgestellt.

Was noch wichtiger ist, ist dieses System nicht für normale Gespräche konzipiert. Es zielt auf die zentralen Herausforderungen in den derzeit komplexeren und heißesten Agentenszenarien ab.

DualPath verbessert die GPU-Nutzung erheblich, indem es die Art und Weise der Datenladung neu strukturiert. Dadurch kann der Agent in der realen Welt mit langen Kontexten und mehrfachen Interaktionen reibungsloser und praktischer funktionieren.

Da es sich um ein technologisches Ergebnis der Zusammenarbeit dreier Spitzeninstitute handelt, gibt es in der Publikation natürlich eine Reihe von Fachausdrücken, die es schwer machen, sie zu verstehen.

Keine Sorge, in diesem Artikel werden keine Fachjargon verwendet, sondern nur einfache Sprache. Hier lernen Sie ganz einfach, was DualPath ist und worin seine Stärken liegen.

01 Agenteninferenz: Die Rechenleistung spielt eine untergeordnete Rolle

Sie haben vielleicht bemerkt, dass sich die Richtung in der KI-Branche geändert hat – von „Großen Modellen“ zu „Agenten“.

In der Vergangenheit war die Interaktion mit großen Modellen sehr einfach: Sie geben einen Hinweis ein, das Modell denkt einige Runden nach und gibt Ihnen eine Antwort.

In der Ära der Agenten ist die Sache komplizierter geworden. Die beiden Seiten der Interaktion sind nicht mehr nur „Mensch“ und „Maschine“, sondern auch „Maschine“ und „Maschine“. Das Modell muss nicht nur Ihre Worte verstehen, sondern auch selbst den Browser aufrufen, den Code-Interpreter öffnen und mit der externen Umgebung interagieren. Die Anzahl der Interaktionen ist von einigen auf Dutzende oder sogar Hunderte gestiegen.

In diesem Prozess ist die Eingabe und Ausgabe, die der Agent bei jedem Toolaufruf erzeugt, eigentlich sehr kurz und erfordert möglicherweise nur einige hundert Token. Das Problem besteht jedoch darin, dass mit zunehmender Anzahl der Interaktionsrunden der Kontext wie ein Schneeball immer größer wird und schließlich zu einem riesigen Haufen von Hunderttausenden von Token anwächst.

Mit anderen Worten, Agentenaufgaben weisen ein eigenartiges Merkmal auf: Mehrfache Runden, langer Kontext, kurze Ergänzungen.

Die direkte Folge dieses Modells ist, dass die Trefferquote von KV-Cache oft über 95 % liegt.

Was ist KV-Cache? Ein Vergleich mit dem Serienfernsehen macht es verständlich:

Nehmen wir an, der Inferenzprozess eines großen Modells sei wie das Folgen einer Fernsehserie, die gerade auf die 20. Folge aktualisiert wurde.

Der Inhalt der 20. Folge besteht aus dem Handlungsumfeld der ersten 19 Folgen (d. h. dem Kontext) plus der neuen Handlung der 20. Folge (neue Eingabe).

Ohne KV-Cache wären Sie wie jemand mit Amnesie. Wenn Sie eine neue Folge sehen möchten, müssten Sie die ersten 19 Folgen von vorne bis hinten erneut anschauen, um die 20. Folge zu verstehen.

Mit KV-Cache ist es so, als hätten Sie die ersten 19 Folgen in Gedächtnis. Sie müssen nur die neue Folge anschauen, um nahtlos weiterzusehen.

Für Modelle mit Transformer-Architektur gilt dasselbe Prinzip.

Wenn der Agent eine Interaktion abgeschlossen hat und bereit ist, die nächste Aufgabe zu bearbeiten, wurde der überwiegende Teil des benötigten Kontexts bereits in früheren Interaktionen berechnet. Man kann einfach aus dem Cache lesen, und nur sehr wenige neue Inhalte müssen neu berechnet werden.

Für den Computer ist es natürlich umso besser, je höher die Trefferquote von KV-Cache ist, denn ein Treffer bedeutet „Arbeitsersparnis“.

Aber hinter der „Arbeitsersparnis“ verbirgt sich ein neues Problem:

Eine leistungsstarke GPU benötigt möglicherweise weniger als 1 Millisekunde, um eine neue Interaktion mit einigen hundert Token zu berechnen. Bevor sie dies tun kann, muss sie jedoch die „Erinnerung“ an die Hunderttausende von Token – d. h. die KV-Cache-Daten von einigen Gigabyte – abrufen.

Um die KV-Cache-„Arbeitsersparnis“ nutzen zu können, muss man diese Daten von der Festplatte oder einem verteilten Speichergerät in den Grafikspeicher der GPU transferieren.

Das ist wie ein erstklassiger Koch, der nur 1 Sekunde braucht, um ein Gericht zu kochen, aber dessen Assistent 10 Sekunden braucht, um die Lebensmittel zu kaufen.

Somit ist die größte Schwachstelle der Agenteninferenz nicht mehr die Rechenleistung, sondern die Ein- und Ausgabe-Geschwindigkeit der KV-Cache-Daten.

02 Vorhandene Architektur: PD-Trennung

Um die Inferenzleistung zu verbessern, wird in der Branche allgemein eine Architektur namens „Präfüllung-Dekodierungstrennung“ (kurz PD-Trennung) eingesetzt.

Einfach ausgedrückt, wird in dieser Architektur das GPU-Cluster in zwei Bereiche aufgeteilt:

Ein Präfüllungsmodul ist für die Verarbeitung von Masseneingabetexten zuständig. Dies ist eine rechenintensive Aufgabe, die sich gut für die Massenverarbeitung eignet. Ein Dekodierungsmodul ist für die zeichenweise Generierung von Antworten verantwortlich. Es ist extrem empfindlich gegenüber Verzögerungen, aber an den Speicher gebunden.

In dieser Organisation muss das Präfüllungsmodul ständig Massen an KV-Cache-Daten aus dem externen Speicher laden. Seine Speichernetzkarten sind fast immer in einem Überlastungszustand und blockiert.

Währenddessen läuft das Dekodierungsmodul zwar normal, aber seine Speichernetzkarten sind die meiste Zeit untätig.

In einem Lagerhaus ist die Eingangstür blockiert, während die Ausgangstür leer ist. So bleibt die gesamte Logistikkette stecken.

In einer Zeit, in der die Rechenleistungskosten hoch sind, ist es eine enorme Verschwendung, die Hardware-Ressourcen in einem Hochleistungs-Chip-Cluster ungenutzt zu lassen.

Die offensichtlichste Lösung wäre natürlich, die Eingangstür zu erweitern – d. h. die Bandbreite des Präfüllungsmoduls zu erhöhen. In der Praxis ist dies jedoch weder realistisch noch kostengünstig.

Eine klüglichere Lösung besteht darin, die Ausgangstür auch zum Einladen zu nutzen – d. h. das inaktive Dekodierungsmodul soll einen Teil der Aufgabe des „Datenabrufs“ übernehmen.

03 DualPath: Offenbar eine Sache angehen, tatsächlich eine andere

Das Forschungsunternehmen von DeepSeek, Tsinghua und Peking hat bei der Untersuchung moderner KI-Datenzentren Inspiration erhalten.

Ähnlich wie bei der AI-Supercomputer-Infrastruktur DGX SuperPOD von NVIDIA weist die Architektur in der Regel ein wichtiges Hardwaremerkmal auf: Netzwerkisolation.

Jede GPU ist normalerweise mit zwei Netzwerkkarten ausgestattet:

Eine ist die Rechennetzwerkkarte (Compute NIC): Sie wird speziell für die Kommunikation zwischen GPUs über verschiedene Knoten hinweg verwendet. Normalerweise sind mehrere Karten installiert, die insgesamt eine sehr hohe Übertragungsbandbreite haben.

Die andere ist die Speichernetzwerkkarte (Storage NIC): Sie wird zum Lesen und Schreiben von Daten auf der Festplatte oder in verteilten Speichern verwendet. Normalerweise ist nur eine Karte installiert, und die Gesamtbandbreite ist relativ gering.

Basierend auf diesem Konzept hat das Forschungsunternehmen versucht, die Netzwerkübertragungsleistung voll auszunutzen und den Ansatz des Zwei-Pfad-KV-Cache-Ladens (Dual-path KV-Cache loading) entwickelt.

In der vorherigen Architektur hat das Präfüllungsmodul die KV-Cache-Daten direkt über seine eigene Speichernetzwerkkarte von der Festplatte oder dem verteilten Speicher abgerufen.

Bei DualPath hingegen nutzt das inaktive Dekodierungsmodul die Speichernetzwerkkarte, um die KV-Cache-Daten von der Festplatte oder dem verteilten Speicher in seinen eigenen Speicher zu laden und über das Rechennetzwerk mit hoher Bandbreite schnell an das Präfüllungsmodul zu übertragen.

Natürlich lässt DualPath das Dekodierungsmodul nicht blindlings helfen, sondern überwacht in Echtzeit die Stausituation an beiden Türen.

So, wenn die Eingangstür blockiert ist und keine Ausgabe erfolgt, beginnt die Ausgangstür auch mit dem Einladen. Die Bandbreite der Speichernetzwerkkarten aller Module wird effektiv genutzt, und das Problem der asymmetrischen Bandbreitensättigung wird gelöst.

Das Forschungsunternehmen hat durch eine strenge Bandbreitenanalyse bewiesen, dass bei der üblichen Verteilung von Präfüllungs- und Dekodierungsknoten DualPath die Bandbreite der Speichernetzwerkkarten sättigen kann, ohne dass die Bandbreite der Rechennetzwerkkarten ein neues Engpass wird. Dies deckt die meisten praktischen Einsatzszenarien ab.

04 Traffic-Scheduling und Prioritätsspiel

Obwohl der Datenfluss um einen Umweg geht, kann die tatsächliche Inferenzleistung erheblich verbessert werden. Der Gedanke scheint sehr gut zu sein.

Aber um diese Lösung in einem System, das im Mikrosekundenbereich arbeitet, umzusetzen, gibt es noch erhebliche Herausforderungen:

Erstens das Chaos, das durch die Einführung einer großen Menge von Daten verursacht wird:

Es ist tatsächlich eine gute Idee, dass das Dekodierungsmodul beim Abrufen der historischen Erinnerungsdaten (KV-Cache) hilft, aber dies birgt auch große Risiken.

Während des Inferenzprozesses muss die GPU häufig mit anderen GPUs im Cluster in „Kollektivkommunikation“ treten, um die Daten zu synchronisieren und die Ergebnisse auszutauschen. Diese Kommunikation ist extrem empfindlich gegenüber Verzögerungen und darf nicht verlangsamt werden.

Wenn das Dekodierungsmodul beginnt, mehrere Gigabyte an KV-Cache-Daten herunterzuladen, kann der Datenstrom wie ein Vulkanausbruch die Netzwerkbandbreite überlasten. Wenn die Kollektivkommunikation zwischen den GPUs blockiert wird, bleibt der Inferenzprozess stecken.

Um dieses Chaos zu bewältigen, hat das Forschungsunternehmen auf der Ebene der Netzwerkkarten einen „Verkehrspolizisten“ auf der Autobahn installiert:

Die Kommunikation zwischen den GPUs muss die höchste Priorität haben. Sie hat das Recht, die VIP-Spur zu nutzen, und muss unter allen Umständen ordnungsgemäß funktionieren. Es darf keine Staus geben.

Die Aufgabe des Abrufs von KV-Cache-Daten hat nur eine normale Priorität. Sie kann nur fahren, wenn die VIP-Spur leer ist. Wenn eine GPU-Kommunikationsaufgabe auftritt, muss sie sofort ausweichen.

Dieser „Verkehrspolizist“, der von der Rechennetzwerkkarte (CNIC) dargestellt wird, muss die beiden Datenströme vollständig vone

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Kurz vor der Veröffentlichung von DeepSeek-V4 wird ein "entscheidender Schritt" unternommen, um den Weg für die Beschleunigung des Agenten zu ebnen.

01

Agenteninferenz: Die Rechenleistung spielt eine untergeordnete Rolle

02

Vorhandene Architektur: PD-Trennung

03

DualPath: Offenbar eine Sache angehen, tatsächlich eine andere

04

Traffic-Scheduling und Prioritätsspiel