Kürzlich hat DeepSeek das V3.2-Exp open source gemacht und das neue Sparse Attention-Mechanismus DSA veröffentlicht.
Es ist immer noch der vertraute Rhythmus!
Am Tag vor den Ferien hat DeepSeek tatsächlich etwas unternommen.
Gerade jetzt wurde DeepSeek-V3.2-Exp open source gemacht!
Die Anzahl der Parameter dieses Modells beträgt 685M. HuggingFace-Link: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
Außerdem wurde in diesem Release überraschenderweise auch die Publikation synchron veröffentlicht, in der der neue Sparse Attention-Mechanismus von DeepSeek offen gelegt wurde, der uns weitere Details bietet:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DeepSeek Sparse Attention (DSA) - Sparser Attention-Mechanismus
In der offiziellen Einführung hat DeepSeek angegeben, dass DeepSeek-V3.2-Exp eine experimentelle Version ist. Als Übergang zur nächsten Generation von Architekturen hat V3.2-Exp auf der Grundlage von V3.1-Terminus den DeepSeek Sparse Attention-Mechanismus (DeepSeek Sparse Attention, DSA) eingeführt - einen Sparsen Attention-Mechanismus, der darauf abzielt, die Effizienz von Training und Inferenz in Szenarien mit langer Kontextlänge zu erforschen und zu validieren.
DSA ist auch die einzige architektonische Verbesserung in der Version 3.2.
Die Architektur von DeepSeek-V3.2-Exp, in der DSA unter MLA implementiert ist.
Wichtig zu erwähnen ist, dass DeepSeek sagt, dass diese experimentelle Version ihre kontinuierliche Forschung nach effizienteren Transformer-Architekturen repräsentiert, wobei besonderer Wert auf die Verbesserung der Rechenleistung bei der Verarbeitung von erweiterten Textsequenzen gelegt wird.
In der Version v3.2 hat DeepSeek Sparse Attention (DSA) erstmals feingranularen Sparsen Attention realisiert, der die Effizienz von Training und Inferenz in Szenarien mit langer Kontextlänge erheblich verbessert, während die Qualität der Modellausgabe fast gleich bleibt.
Um die Auswirkungen der Einführung des Sparsen Attention-Mechanismus streng zu bewerten, hat DeepSeek speziell die Trainingskonfiguration von DeepSeek-V3.2-Exp mit der von V3.1-Terminus, das am 22. September gerade herausgebracht wurde, verglichen. In öffentlichen Benchmark-Tests in verschiedenen Bereichen hat DeepSeek-V3.2-Exp eine ähnliche Leistung wie V3.1-Terminus gezeigt.
Für weitere Informationen können die Leser die HuggingFace-Einführung von DeepSeek-V3.2-Exp lesen.
Worthwile zu erwähnen ist, dass GLM-4.6 von Zhipu auch bald veröffentlicht wird. Auf der Website von Z.ai kann man sehen, dass GLM-4.5 als das vorherige Flaggschiffmodell bezeichnet wird.
Zum Schluss gibt es noch eine kleine Angelegenheit. Bevor das Modell veröffentlicht wurde, haben einige Internetnutzer im Community-Bereich gepostet: "Nationalfeiertag ist Ruhetag. Bitte geben Sie den von uns beobachteten Leuten etwas Zeit zum Ausruhen."
Was halten Sie davon?
Dieser Artikel stammt aus dem WeChat-Account "Almost Human" (ID: almosthuman2014). Autor: jemand, der sich für große Modelle interessiert. 36Kr hat die Veröffentlichung mit Genehmigung gemacht.