Echtzeit-Test: Die nächste Generation der Infrastruktur von Qwen stürmt voran und löst binnen Sekunden die Mathematikaufgaben des AIME-Wettbewerbs. Die Geschwindigkeit wird um über das Zehnfache erhöht, und die Kosteneffizienz verbessert sich ebenfalls um das Zehnfache.
Die nächste Modellarchitektur von Qwen ist bereits da!
Qwen3-Next ist veröffentlicht. Lin Junyang, der Leiter des Qwen-Teams, sagte, dass dies die vorzeitige Vorschauversion von Qwen3.5 sei.
Basierend auf Qwen3-Next hat das Team zunächst Qwen3-Next-80B-A3B-Base open source gemacht.
Das Modell hat 80 Milliarden Parameter, aber die Trainingskosten betragen weniger als ein Zehntel von denen von Qwen3-32B, und bei der Inferenz mit einem Kontext von über 32 k erreicht es eine Durchsatzleistung, die mehr als zehnmal höher ist als die des letzteren.
Basierend auf diesem Modell hat das Team nacheinander zwei neue Modelle entwickelt und veröffentlicht:
Qwen3-Next-80B-A3B-Instruct: Es zeigt deutliche Vorteile bei der Verarbeitung von 256-Kontexten.
Qwen3-Next-80B-A3B-Thinking: Es übertrifft in mehreren Benchmark-Tests das proprietäre Modell Gemini-2.5-Flash-Thinking.
Netizens sagen, dass diese Aktualisierungsrate erstaunlich ist.
Ohne weitere Worte, schauen wir uns mal an, welche Verbesserungen das neue Modell bietet.
4 Wichtige Verbesserungen
Die Kernverbesserungen von Qwen3-Next liegen in vier Bereichen:
- Hybrides Attention-Mechanismus
- MoE-Struktur mit hoher Sparsität
- Optimierung der Stabilität
- Mehr-Token-Vorhersagemodell
Hybrides Attention-Mechanismus
Lineares Attention hat eine hohe Effizienz bei der Verarbeitung von langen Kontexten, aber eine begrenzte Rückrufkraft. Standard-Attention hingegen hat hohe Rechenkosten und eine niedrige Inferenz-Effizienz. Beide haben ihre Grenzen, wenn sie allein verwendet werden.
Deshalb hat das Qwen-Team Gated DeltaNet eingeführt, das in Bezug auf die Fähigkeit zum Kontext-Lernen besser als das übliche Sliding Window Attention und Mamba2 ist. Bei einer Mischstrategie von 3:1 (75 % der Schichten verwenden Gated DeltaNet, 25 % behalten Standard-Attention) wird sowohl Leistung als auch Effizienz berücksichtigt.
Zugleich haben sie in den behaltenen Standard-Attention-Schichten mehrere Optimierungsdesigns eingeführt:
1. Fortsetzung des Ausgabegating-Mechanismus aus früheren Arbeiten, um das Problem des niedrigen Rangs in der Attention zu lindern;
2. Erweiterung der Dimension eines einzelnen Attention-Heads von 128 auf 256;
3. Hinzufügung von Rotations-Positions-Codierung nur für die ersten 25 % der Dimensionen des Attention-Heads, um die Fähigkeit zur Extrapolation von langen Sequenzen zu verbessern.
MoE-Struktur mit hoher Sparsität
Qwen3-Next verwendet eine MoE-Architektur mit hoher Sparsität. Die Gesamtzahl der Parameter beträgt 80 Milliarden, aber bei jeder Inferenz werden nur etwa 3 Milliarden Parameter aktiviert.
Im Vergleich zu Qwen3-MoE mit 128 Gesamt-Experten und 8 Routing-Experten hat Qwen3-Next auf 512 Gesamt-Experten erweitert und ein Kombinationsdesign von 10 Routing-Experten und 1 gemeinsam genutzten Experten eingesetzt, um die Ressourcennutzung bei gleichbleibender Leistung zu maximieren.
Optimierung der Trainingsstabilität
In Qwen3-Next hat das Team zur weiteren Verbesserung der Modellstabilität Zero-Centered RMSNorm eingesetzt und auf dieser Grundlage eine Gewichtsabnahme (weight decay) auf die Normgewichte angewendet, um ein unbegrenztes Wachstum der Gewichte zu vermeiden.
Darüber hinaus haben sie die Parameter des MoE-Routers bei der Initialisierung normalisiert, um sicherzustellen, dass jeder Experte zu Beginn des Trainings unvoreingenommen ausgewählt wird und die Störung der Initialisierung auf die Experimentergebnisse zu verringern.
Mehr-Token-Vorhersagemodell
Qwen3-Next hat einen nativen Multi-Token Prediction (MTP)-Mechanismus eingeführt. Es hat nicht nur einen MTP-Modul mit einer hohen Akzeptanzrate bei der Spekulativen Decodierung erhalten, sondern auch die Gesamtleistung des Modell-Hauptstamms verbessert.
Darüber hinaus hat es die Mehrschritt-Inferenz von MTP speziell optimiert, indem es eine konsistente Mehrschritt-Strategie für Training und Inferenz anwendet, um die Akzeptanzrate der Spekulativen Decodierung in praktischen Anwendungsfällen weiter zu verbessern.
10-mal schneller, aber 10-mal billiger
Als nächstes schauen wir uns an, wie das neue Modell performt.
Zunächst hat Qwen3-Next eine gleichmäßig gesampelte Teilmenge des 36-T-Prä-Trainingskorpus von Qwen3 verwendet, die nur 15 T Tokens enthält.
Die benötigten GPU-Stunden für das Training betragen weniger als 80 % von denen von Qwen3-30A-3B. Im Vergleich zu Qwen3-32B erreicht es mit nur 9,3 % der GPU-Rechenressourcen eine bessere Leistung.
Darüber hinaus zeichnet es sich auch durch eine hervorragende Inferenz-Effizienz aus, dank der innovativen hybriden Modellarchitektur.
Im Vergleich zu Qwen3-32B zeigt Qwen3-Next-80B-A3B bereits in der Vorauffüllungsphase (prefill) eine ausgezeichnete Durchsatzleistung:
Bei einer Kontextlänge von 4 k ist der Durchsatz fast siebenmal höher als der des ersteren. Wenn die Kontextlänge über 32 k liegt, ist die Steigerung des Durchsatzes sogar mehr als zehnmal höher.
Auch in der Decodierungsphase (decode) ist das Modell sehr effizient. Der Durchsatz bei einem 4-k-Kontext steigt um etwa das Vierfache, und in der langen Kontext-Szene (über 32 k) kann es immer noch einen Durchsatz-Vorteil von mehr als zehnmal aufrechterhalten.
Basierend auf Qwen3-Next hat das Qwen-Team zunächst das Qwen3-Next-80B-A3B-Base-Modell trainiert.
Dieses Modell übertrifft bereits in den meisten Benchmark-Tests Qwen3-32B-Base mit nur einem Zehntel der Nicht-Einbettungs-Aktivierungsparameter und ist deutlich besser als Qwen3-30B-A3B, was seine hervorragende Effizienz und Leistung zeigt.
Basierend auf der hervorragenden Leistung von Qwen3-Next-80B-A3B-Base hat das Team weiter Qwen3-Next-80B-A3B-Instruct und Qwen3-Next-80B-A3B-Thinking entwickelt und veröffentlicht.
Qwen3-Next-80B-A3B-Instruct
Zunächst zeigt Qwen3-Next-80B-A3B-Instruct eine deutlich bessere Leistung als Qwen3-30B-A3B-Instruct-2507 und Qwen3-32B-Non-thinking und kommt in den meisten Indikatoren Qwen3-235B-A22B-Instruct-2507 nahe.
Darüber hinaus übertrifft Qwen3-Next-80B-A3B-Instruct in den RULER-Tests unabhängig von der Kontextlänge Qwen3-30B-A3B-Instruct-2507, das die gleiche Anzahl von Schichten, aber mehr Attention-Schichten hat.
Es ist sogar in einem Bereich von bis zu 256 k besser als Qwen3-235B-A22B-Instruct-2507, das mehr Schichten hat, was die Vorteile des hybriden Modells von Gated DeltaNet und Gated Attention in der Verarbeitung von langen Texten deutlich zeigt.
Qwen3-Next-80B-A3B-Thinking
Schauen wir uns nun Qwen3-Next-80B-A3B-Thinking an. Seine Leistung ist ebenfalls sehr gut.
Es übertrifft in mehreren Benchmark-Tests das proprietäre Modell Gemini-2.5-Flash-Thinking und kommt in einigen Indikatoren dem neuesten Flaggschiffmodell von Qwen, Qwen3-235B-A22B-Thinking-2507, nahe.
Sehr gute Inferenzfähigkeit
Als nächstes testen wir die Inferenzfähigkeit von Qwen3-Next-80B-A3B.
Wir verwenden die Qwen Chat-Website und geben ihm direkt eine AIME-Mathematikwettbewerbsaufgabe:
Da Qwen3-Next-80B-A3B Multimodalität unterstützt, können wir hier direkt Bilder hochladen.
Fast sofort hat das Modell einen ausführlichen Lösungsansatz und Rechenprozess aufgeschrieben, und die endgültige Antwort "588" stimmt genau mit der offiziellen AIME-Antwort überein.