Das neueste Modell von DeepSeek ist online. Der neue Attention-Mechanismus basiert auf der besten Publikation der ACL von Peking-Universität.
Das neueste Modell von DeepSeek, V3.2-Exp, ist veröffentlicht. Es führt einen neuen Aufmerksamkeitsmechanismus namens DeepSeek Sparse Attention (DSA) ein. Gleichzeitig wird die Effizienz von Training und Inferenz verbessert, und die API-Preise werden um mehr als 50 % gesenkt!
Gerade eben ist das neueste Modell von DeepSeek online gegangen!
Mit dem Codename DeepSeek-V3.2-Exp wird es von DeepSeek als das neueste experimentelle Modell gefeiert!
Dieses V3.2 basiert hauptsächlich auf DeepSeek-V3.1-Terminus und führt erstmals „DeepSeek Sparse Attention“ (DeepSeek Sparse Attention, DSA) ein, um ein schnelleres und effizienteres Training und Inferenz für lange Kontexte zu ermöglichen.
Es ist bemerkenswert, dass dies die erste Schlüsseltechnologie (Aufmerksamkeitsmechanismus) ist, die mit der Marke „DeepSeek“ benannt wurde!
Wir haben festgestellt, dass DSA eine Verbesserung der Native Sparse Attention (NSA) aus dem ACL 2025 Best Paper ist, das zuvor in Zusammenarbeit mit Peking Universität von Liang Wenfeng veröffentlicht wurde.
Zitate aus dem Technischen Bericht
Neuer Aufmerksamkeitsmechanismus
Das Kernstück von DeepSeek-V3.2-Exp, „DeepSeek Sparse Attention“, realisiert erstmals einen feingranularen Aufmerksamkeitsmechanismus. Ohne nennenswerten Einfluss auf die Modellausgabe wird die Effizienz von Training und Inferenz für lange Texte erheblich verbessert.
Publikationslink: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
Der größte Unterschied zum vorherigen Modell ist, dass DSA nicht mehr jedes Token alle anderen Token in der Sequenz betrachten lässt. Stattdessen wird ein effizienter Baustein namens „Lightning Indexer“ eingeführt.
Dieser Indexer kann in kürzester Zeit bestimmen, welche historischen Token in der Sequenz für das aktuell verarbeitete Token am wichtigsten sind.
Anschließend wählt das Modell nur einen kleinen Teil (z. B. 2048) der wichtigsten Token (Top-k) zur genauen Berechnung aus.
Somit sinkt die Komplexität der Kernaufmerksamkeitsberechnung von O(L²) auf O(Lk), wobei k ein fester Wert ist, der viel kleiner als L ist.
Dies bringt bei der Verarbeitung von langen Texten eine enorme Effizienzsteigerung.
Am wichtigsten ist, dass diese Effizienzsteigerung nicht auf Kosten der Leistung geht.
Basierend auf DeepSeek-V3.1 initialisiert das Team zunächst den Lightning Indexer in einer kurzen „Dichten Vorwärmphase“, damit er die Aufmerksamkeitsverteilung des ursprünglichen Modells lernen kann.
Anschließend beginnt die „Spars-Trainingsphase“, in der das gesamte Modell sich an das neue sparse Muster gewöhnt.
Schließlich wird der gleiche Nach-Trainingsprozess wie beim Vorgängermodell beibehalten, einschließlich Experten-Distillation und gemischtem verstärkendem Lernen (GRPO).
Um die Auswirkungen der Einführung von Sparse Attention rigoros zu evaluieren, hat DeepSeek die Trainingsbedingungen von DeepSeek-V3.2-Exp streng mit denen von V3.1-Terminus abgestimmt.
Das Architekturdiagramm von DeepSeek-V3.2-Exp, in dem DSA unter MLA implementiert ist.
Die Evaluationsergebnisse zeigen, dass die Leistung von DeepSeek-V3.2-Exp im Vergleich zu seinem „dichten Aufmerksamkeits“-Vorgänger V3.1-Terminus bei Kurz- und Langtextaufgaben keine wesentliche Leistungseinbuße aufweist.
Zur gleichen Zeit ist die Beschleunigungseffekt und die Kosteneinsparung bei der Inferenzkosten-Testung in der praktischen Implementierung sehr signifikant.
Obwohl DeepSeek-V3.2-Exp derzeit noch ein experimentelles Modell ist, zeigt es die Eigenschaft, „Leistung unverändert, Kosten drastisch gesenkt“. Dies weist einen hoffnungsvollen Engineering-Pfad für die Überwindung der Langtextschranke von großen Modellen auf.
Billigere Preise
DeepSeek hat erneut die Modellpreise gesenkt!
Dank der erheblichen Reduzierung der Servicekosten des neuen Modells werden auch die offiziellen API-Preise entsprechend gesenkt. Die neuen Preise treten sofort in Kraft.
Unter der neuen Preispolitik wird die Kosten für Entwickler, die die DeepSeek-API aufrufen, um mehr als 50 % gesenkt.
Derzeit ist die Modellversion der API DeepSeek-V3.2-Exp, und der Zugang bleibt unverändert.
Schließlich muss man sagen, dass DeepSeek diesmal sehr freundlich war. Die „Veröffentlichungsrhythmen“ haben wirklich die Vorschläge der Netizens berücksichtigt und vielen Freunden aus der KI-Branche einen schönen Urlaub ermöglicht!
Quellenangaben:
https://api-docs.deepseek.com/zh-cn/news/news250929
Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“. Autor: New Intelligence Yuan, Redakteure: Hao Kun, Ding Hui. Veröffentlicht von 36 Kr mit Genehmigung.