StartseiteArtikel

Die Technologie von Zhipu GLM-5 wird vollständig offen gelegt! Sie ist vollständig kompatibel mit chinesischen Chips wie denen von Huawei. Amerikanische Internetnutzer sind neidisch.

量子位2026-02-24 08:42
Einführung des gleichen Mechanismus wie bei DeepSeek

GLM-5 wie wurde es entwickelt?

Jetzt ist endlich die Studie hinter ihm vollständig öffentlich gemacht worden.

Der Name der Studie ist auch sehr direkt: Abschied von Vibe Coding, Einstieg in die Agenten-Engineering (Agentic Engineering).

Wie wir auch in unseren früheren Tests festgestellt haben, kann es selbstständig über 24 Stunden lang Code ausführen, 700-mal Werkzeuge aufrufen und 800-mal den Kontext wechseln, um direkt von Grund auf einen Game Boy Advance (GBA)-Emulator zu programmieren.

Kurz gesagt, GLM-5 hat die Open-Source-KI in die Ära der Langzeitaufgaben geführt.

Ausländische Internetnutzer rufen: "GLM-5 ist das beste Open-Source-Modell":

Außerdem halten sie es für "eine deutliche Verringerung der Lücke zu Claude Opus 4.6".

Darüber hinaus kann die Leistung des Kapitalmarktes auch indirekt die Stärke eines Unternehmens im Bereich Large Language Model belegen.

Nach all den Anstieg des Aktienkurses von Zhipu während der chinesischen Neujahrsfeiertage war für alle offensichtlich.

Jetzt enthüllt diese 40-seitige Studie endgültig alle technischen Geheimnisse hinter ihm. Die Highlights sind wie folgt:

Architektur: Aufbauend auf der überprüften ARC-Fähigkeit (Agent, Reasoning und Coding) und dem MoE der Vorgängerversion wird die gleiche sparse Attention wie bei DeepSeek (DSA) eingeführt. Dadurch werden die Kosten erheblich gesenkt, ohne die Fähigkeit für lange Kontexte einzubüßen.

Nachdem Training: Die neu aufgebaute asynchrone Infrastruktur für Reinforcement Learning trennt die Generierung und das Training voneinander. Zusammen mit dem eigenständigen asynchronen Agenten-RL-Algorithmus wird die Effizienz erheblich gesteigert.

Chip-Kompatibilität: GLM-5 hat die ganzheitliche Kompatibilität mit chinesischen Chips wie Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, Muxi und Suyuan erreicht.

Das lässt viele Internetnutzer nach dem Lesen der Studie ausrufen:

In Bezug auf Kosteneffizienz kann die US-amerikanische KI der chinesischen nicht folgen.

Lasst uns nun gemeinsam die technische Studie, die ausländischen Internetnutzern beneidet wird, genauer untersuchen.

Die drei Schlüsseltechnologien von GLM-5

Bevor wir uns den Technologien nähern, müssen wir zunächst verstehen, welche Herausforderungen GLM-5 in der gegenwärtigen technologischen Entwicklung zu bewältigen hat, nämlich dass Large Language Model nun wirklich an komplexen und schwierigen Aufgaben arbeiten müssen.

In der Zeit von GLM-4.5 hat Zhipu bereits bewiesen, dass es vollkommen machbar ist, die ARC-Fähigkeiten in eine einzelne MoE-Architektur zu integrieren.

Aber wenn das Modell tatsächlich in komplexe Softwareentwicklungsprojekte und echte Geschäftsprozesse mit langfristigen, mehrstufigen Dialogen eingesetzt wird, werden die Rechenleistungskosten und die Anpassungsfähigkeit an die reale Umgebung zu großen Problemen.

Der gesamte Trainingsablauf von GLM-5

GLM-5 soll diese Engpässe lösen. Daher setzt es in Bezug auf die Kerntechnologien drei Schwergewichte ein.

Erstes Schwergewicht: Einführung des gleichen sparse Attention-Mechanismus wie bei DeepSeek

In der Transformer-Architektur wächst die Komplexität der traditionellen dichten Attention-Berechnung quadratisch (O(N2)) mit der Länge des Kontextes.

Wenn das Kontextfenster auf 200.000 oder sogar mehr erweitert wird, werden die Rechenkosten extrem hoch, was der Haupthindernis für die Fähigkeit von Agenten, komplexe Aufgaben zu bewältigen, wird.

Die Lösung von GLM-5 besteht darin, den dynamischen sparse Attention-Mechanismus DSA einzuführen. Das Kernkonzept besteht darin, den traditionellen dichten Attention-Mechanismus durch einen dynamischen, feingranularen Auswahlmechanismus zu ersetzen. Im Gegensatz zum festen Sliding-Window-Modell "prüft" DSA den Inhalt und entscheidet dynamisch, welche Token wichtig sind.

Das direkte Training eines riesigen Modells auf der Grundlage von DSA ist jedoch wie das Gehen auf einem Seil. Es besteht die Gefahr, dass aufgrund des Informationsverlusts durch die Sparsifizierung ein Gradientenexplosion oder ein Kollaps des Modells auftritt.

Daher hat das GLM-5-Team eine äußerst clevere Fortsetzung des Pre-Trainings Strategie verfolgt, die hauptsächlich aus zwei Schritten besteht:

Dichter Warm-up (Dense Warm-up): Das Modell beginnt nicht sofort mit der Sparsifizierung. In der Anfangsphase des Pre-Trainings verwendet das Modell weiterhin einen relativ dichten Attention-Mechanismus (ähnlich einer Variante von MLA), damit es zunächst alle Informationen betrachten und eine globale, stabile semantische Repräsentationsfähigkeit aufbauen kann. Das ist wie wenn jemand, bevor er Schnelles Lesen lernt, zunächst gründlich lesen muss.

Glatter Übergang und sparse Training (Sparse Training): Wenn das Modell eine gute Grundlage hat, beginnt es, allmählich die Sparsität zu erhöhen. Die Kernlogik von DSA besteht darin, dass bei der Berechnung der Attention für das aktuelle Token nicht alle historischen Token berücksichtigt werden, sondern nur die Top-K-Token, die am relevantesten sind, über einen dynamischen Routing-Mechanismus (Routing Mechanism) ausgewählt werden.

Vergleich der SFT-Verlustkurven von MLA und DSA-Training

Nach den in der technischen Bericht veröffentlichten Daten hat diese Maßnahme sofortige Wirkung gezeigt:

Der KV-Cache-Aufwand sinkt um 75%: Das bedeutet, dass die gleiche Grafikkarte jetzt mehr als viermal so viele parallele Anfragen unterstützen oder einen viermal so langen Kontext verarbeiten kann.

Die Infrarotschnelligkeit steigt um das Dreifache: Die FLOPS der Attention-Berechnung werden erheblich reduziert, und die Antwortzeit für das erste Zeichen (TTFT) und die Anzahl der generierten Token pro Sekunde (TPS) erreichen Spitzenwerte in der Branche.

Die Fähigkeit für lange Texte bleibt fast unverändert: Dies ist das erstaunlichste. In der berühmten "Sucht im Heuhaufen" und in komplexen Inferenz-Tests für lange Texte wie RULER zeigt GLM-5 mit DSA im Vergleich zu einem vollständig dichten Modell nur eine minimale Leistungseinbuße (weniger als 0,5%).

Zweites Schwergewicht: Asynchrones Multi-Task Reinforcement Learning

Wenn DSA das Problem der Inferenzkosten löst, so löst das zweite Schwergewicht von GLM-5 das Problem der Trainings-effizienz, insbesondere in der Nach-Trainingsphase, die die endgültige Intelligenz des Modells bestimmt.

Der derzeitige Mainstream-Algorithmus für Reinforcement Learning Alignment ist immer noch PPO (Proximal Policy Optimization).

Das Standard-PPO ist ein hochgradig synchronisierter Prozess, der vier Modelle umfasst: das Actor-Generierungsmodell, das Referenzmodell, das Critic-Kritikermodell und das Reward-Belohnungsmodell, die auf mehreren GPUs kooperieren.

Dieser synchrone Mechanismus, bei dem man "einen Schritt macht und dann anhält", führt dazu, dass die GPU-Nutzung des gesamten Clusters häufig zwischen 20% und 30% liegt. Der größte Teil der Rechenleistung geht für die Wartezeit auf die Netzwerkkommunikation und die Prozesssynchronisierung verloren.

Um diesen Engpass zu überwinden, hat Zhipu auf der Grundlage des Slime-Frameworks aus der 4.5-Zeit für GLM-5 von Grund auf eine asynchrone Infrastruktur für Reinforcement Learning (Asynchronous RL Infrastructure) neu geschrieben.

Das Kernkonzept besteht darin, den Trainings- und den Inferenz-Engine auf verschiedenen GPU-Geräten zu entkoppeln. Die Inferenz-Engine generiert kontinuierlich Trajektorien. Sobald die Anzahl der generierten Trajektorien einen vorbestimmten Schwellenwert erreicht, werden diese Daten an die Trainings-Engine gesendet, um das Modell zu aktualisieren. Um die Strategieverzögerung zu verringern und die Annäherung an eine gleichzeitige Strategie beim Training aufrechtzuerhalten, werden die Modellgewichte der Inferenz-Engine regelmäßig mit der Trainingsseite synchronisiert.

Dieser vollständig asynchrone Trainingsansatz erhöht die GPU-Nutzung und die Trainings-effizienz erheblich, indem er die "Leerlaufzeiten" während des Agent-Rollouts reduziert.

Aber um diese asynchrone Architektur zu unterstützen, müssen noch einige Schlüsseltechnikprobleme gelöst werden:

Erstens, Token-in-Token-out (TITO) anstelle von Text-in-Text-out.

In der RL-Rollout-Konfiguration bedeutet TITO, dass der Trainingsablauf direkt die genauen Tokenisierungen und decodierten Tokenströme, die von der Inferenz-Engine generiert werden, verbraucht, um die Lern-Trajektorien zu erstellen. Im Gegensatz dazu behandelt Text-in-Text-out die Rollout-Engine als eine Blackbox, die nur den endgültigen Text zurückgibt. Der Trainer muss dann die Trajektorien neu tokenisieren und rekonstruieren.

Diese scheinbar kleine Wahl hat tatsächlich einen großen Einfluss: Die Neutokenisierung kann bei den Tokengrenzen, der Leerzeichenbehandlung, der Trunkierung oder der Platzierung von speziellen Token leichte Unstimmigkeiten einführen, was die Schätzung der Samplingwahrscheinlichkeiten für einzelne Token beeinflusst. GLM-5 hat ein TITO-Gateway implementiert, das alle Generierungsanfragen des Rollout-Tasks abfängt und die Token-ID und die Metadaten jeder Trajektorie aufzeichnet, um die aufwändige Token-ID-Verarbeitung von der downstream-Agent-Rollout-Logik zu isolieren.

Zweitens, direkte Zwei-Seiten-Wichtigkeitssampling zur Lösung des Off-Policy-Biases.

In einer asynchronen Konfiguration kann die Rollout-Engine während der Generierung einer einzelnen Trajektorie mehrere Updates erfahren. Dies macht es berechnungsbedingt unmöglich, die genauen Verhaltenswahrscheinlichkeiten der historischen Trainingsseitenmodelle zu verfolgen - die Aufrechterhaltung mehrerer historischer Modellgewichte ist offensichtlich nicht realistisch.

Das Forschungsteam hat eine vereinfachte Lösung gewählt: Die logarithmierten Wahrscheinlichkeiten, die während des Rollouts generiert werden, werden als direkte Verhaltensproxies verwendet. Durch die Berechnung des Wichtigkeitssampling-Verhältnisses rt(θ) = πθ/πrollout wird das traditionelle πθ_old verworfen, und die Rechenkosten für die separate Inferenz der alten Strategie werden eliminiert. Gleichzeitig wird eine Zwei-Seiten-Kalibrierungs-Token-Level-Maskierungsstrategie eingesetzt, um das Vertrauensintervall auf [1-ε_l, 1+ε_h] zu beschränken. Für Token, die außerhalb dieses Intervalls liegen, wird die Gradientenberechnung vollständig abgeschaltet.

Drittens, DP-sensitives Routing zur Beschleunigung der Inferenz für lange Kontexte.

In der multi-round Agent-Arbeitslast teilen aufeinanderfolgende Anfragen aus demselben Rollout denselben Präfix. Das Forschungsteam hat vorgeschlagen, jedes Rollout-ID über eine konsistente Hashfunktion auf einen festen Datenparallelen (DP) Rang zu mappen und dies mit einer leichten dynamischen Lastneuauslastung im Hashraum zu kombinieren. Dies vermeidet redundante Prä-Population-Berechnungen und erfordert keine KV-Synchronisierung über DP-Ränge hinweg. Mit zunehmender Rollout-Länge bleibt der Prä-Population-Aufwand proportional zum inkrementellen Token.

Diese asynchrone RL-Infrastruktur unterstützt das gemischte RL-Training von GLM-5 in mehreren Bereichen: Mathematik, Wissenschaft, Coding und Werkzeug-Integrations-Inferenz (TIR). Die Datenquellen umfassen Open-Source-Datensätze, STEM-Probleme, die gemeinsam mit externen Annotationsanbietern erstellt wurden, sowie repräsentative Datensätze wie Codeforces und TACO. Beim Training werden für jeden Bereich ein eigener Richtermodell oder eine Bewertungssystem zugewiesen, um binäre Ergebnisbelohnungen zu generieren. Die Gesamtmischung der vier Bereiche bleibt in etwa ausgeglichen.

Drittes Schwergewicht: Füttern mit echten Welt-Daten

Traditionelle SFT-Daten verlassen sich oft auf Standardlösungen, aber die reale Welt ist komplex und sich ständig verändernd.

Um dem Modell echte Ingenieurfähigkeiten zu verleihen, besteht das dritte Schwergewicht von GLM-5 darin, eine große Menge an überprüfbaren echten Welt-Umgebungsdaten zu erstellen.

Der gesamte SFT-Korpus umfasst drei Kategorien: Allgemeine Dialoge, Inferenz, Coding und Agent.