StartseiteArtikel

Alles für den Agent: Qianwen, Step, Gemini starten den "Kampf der 3.5-Modelle". Wird das Frühlingsfest zum entscheidenden Wendepunkt?

雷科技2026-02-06 18:14
Eine Richtung, drei größere Verbesserungen.

Kurz nach Jahresbeginn 2026 wird es wieder in der Welt der Large Language Models (LLMs) richtig heiß.

Innerhalb weniger Tage um Februar herum wurden nacheinander Kimi 2.5, Qwen3-Max-Thinking und Step 3.5 Flash vorgestellt. Qwen3-Max-Thinking setzt sich direkt mit Flaggschiff-Inferenzmodellen wie GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro auseinander. Kimi 2.5 und Step 3.5 Flash zielen hingegen auf die Modell-Upgrades für die Agenten-Ära ab.

Am frühen Morgen heute (6. Februar) haben OpenAI und Anthropic fast gleichzeitig die kleinen Versionen GPT-5.3-Codex und Claude Opus 4.6 veröffentlicht.

All das ist aber erst der Anfang. Der Forscher Zheng Chujie von Alibaba Qwen betonte bei der Veröffentlichung von Qwen3-Max-Thinking, dass dies das bisher beste Modell von Qwen sei. Gleichzeitig gab er auch preis, dass die Veröffentlichung von Qwen 3.5 „in Kürze“ erwartet werde.

Bildquelle: X

Qwen 3.5 ist nicht das Einzige, das in Kürze erwartet wird.

Zu Beginn von Januar ging Zhipu an die Börse. Der Chefwissenschaftler von Zhipu, Tang Jie, gab in einem internen Brief preis, dass bald ein neues Modell, das GLM-5, veröffentlicht werde. Kürzlich haben Informationen der South China Morning Post den Veröffentlichungszeitpunkt auf „vor dem chinesischen Neujahr“ eingegrenzt. Auch MiniMax, das mit „HaiLuo AI“ Bekanntheit erlangte, wird in der gleichen Zeit ein neues Large Language Model, das MiniMax M2.2, vorstellen.

Vor einigen Tagen bestätigte The Information nicht nur die bevorstehende Veröffentlichung von Qwen 3.5, sondern berichtete auch, dass ByteDance im März eine neue Generation von Modellmatrizen einführen werde, darunter das Large Language Model Doubao 2.0, das Bildgenerierungsmodell Seedream 5.0 und das Videogenerierungsmodell SeedDance 2.0.

Ob das nächste Modell von DeepSeek, das DeepSeek V4, wie im vergangenen Jahr während des chinesischen Neujahrs veröffentlicht wird, ist noch unklar. Laut South China Morning Post wird stattdessen die DeepSeek V3-Serie weiterentwickelt.

Bildquelle: DeepSeek

Egal, ob DeepSeek beteiligt ist oder nicht, der Kampf um das chinesische Neujahr wird beispiellos heftig sein. Neben den kleinen Versionen GPT-5.3-Codex und Claude Opus 4.6 sind auch einige Benchmark-Ergebnisse und Testleistungen des in der Internen-Testphase befindlichen Gemini 3.5 (Codename „Snow Bunny“) und des Claude (Sonnet) 5 (Codename „Fennec“) herausgekommen.

Kurz gesagt, die führenden chinesischen und amerikanischen Akteure treiben fast gleichzeitig eine größere Version-Upgrade voran. Der Wettbewerb dreht sich nicht nur um die Parametergröße oder die Platzierung in den Rankings, sondern darum, wer die KI in 2026 definieren kann.

Alles für die Agenten: Die drei Upgrades der neuen Modellgeneration

Wenn man den Wettbewerb der Large Language Models in den letzten zwei Jahren als „größer, stärker, vollständiger“ zusammenfassen kann, hat sich die Richtung der Updates im Jahr 2026 deutlich verändert.

Aus den bisher veröffentlichten Informationen geht hervor, dass sich die Schwerpunkte der Upgrades der neuen Modellgeneration, sei es bei den chinesischen Modellen wie Qwen, GLM und DeepSeek oder bei den ausländischen Modellen wie Gemini und Claude, deutlich unterscheiden. Einerseits wird die verstärkte Lernmethode (Reinforcement Learning, RL) wieder eingeführt, andererseits ist man nicht mehr nur an den „Fähigkeiten“ interessiert, sondern auch an der „Praktikabilität“.

Erstens: Die Inferenzfähigkeit ist nicht mehr ein Alleinstellungsmerkmal einiger Flaggschiffmodelle, sondern wird zur Standardfähigkeit der nächsten Generation von Basis-Modellen.

Nach der Börsengänge von Zhipu war das Signal sehr klar: GLM-5 legt nicht mehr den Schwerpunkt auf die Parametergröße, sondern auf die Fähigkeit, komplexe Aufgaben konsistent zu erledigen, einschließlich langfristiger Inferenz, Querdokumentverständnis und die stabile Tool-Integration. Das bedeutet, dass die Inferenz nicht mehr „einen Schritt weiter denken“ ist, sondern die Standardarbeitsweise des Modells.

Das im Februar veröffentlichte Open-Source-Modell Step 3.5 Flash von Jieyue Xingchen macht dies noch deutlicher. Mit einer Parametergröße von 196 Milliarden (11 Milliarden aktiviert) erreicht es nicht nur eine stärkere Inferenzfähigkeit, sondern auch eine Sofortantwort. Ein Schlüsseltechnologie ist, dass Step 3.5 Flash die MTP-3 (Three-way Multi-Token Prediction) -Technologie verwendet, die es dem Modell ermöglicht, beim Generieren des aktuellen Inhalts mehrere nachfolgende Token gleichzeitig vorherzusagen.

Oben rechts ist Step 3.5 Flash. Bildquelle: Jieyue Xingchen

Ausländisch wurde auch bekannt, dass das in der Internen-Testphase befindliche Gemini 3.5 die Tiefe-Inferenz-Modus verbessert hat und eine dynamische Umschaltung zwischen Geschwindigkeit und Tiefe ermöglicht. Hinter dieser Art von Design liegt die Einigkeit: Wenn die Inferenzfähigkeit nicht bedarfsgerecht abgerufen werden kann, bleibt sie immer nur eine Ranking-Fähigkeit.

Zweitens: Die Langkontextfähigkeit bleibt weiterhin ein Schwerpunkt bei der Verbesserung der Basis-Modelle.

Am 3. Februar hat das Team von Tencent Hunyuan nach der Veröffentlichung von Tencent Hunyuan die erste Studie von Yao Shunyu, dem Chef-KI-Wissenschaftler, veröffentlicht und die CL-Benchmark-Tests vorgestellt. Der Kernpunkt dieser Tests liegt auf den Schwachstellen der Large Language Models bei der „Kontextlernen“ (Lernen auf Abruf).

Obwohl DeepSeek V4 noch nicht veröffentlicht wurde, hat es im Januar eine wichtige Studie veröffentlicht, in der ein neues „Engram Conditional Memory“ -Mechanismus vorgeschlagen wurde. Dieser Mechanismus kann bei einer 18 %igen Reduzierung des Rechenaufwands im Vergleich zu MoE-Modellen in Langkontextaufgaben mit 32.768 Token die Leistung von MoE-Modellen mit der gleichen Parameteranzahl übertreffen.

Bildquelle: DeepSeek

Dieselbe Logik spiegelt sich auch in den Entwurfsgerüchten über GLM-5 und Gemini 3.5 wider: Die Langkontextfähigkeit wird zunehmend in echten Arbeitsumgebungen eingesetzt, wie z. B. in der Quellcodeanalyse über mehrere Dateien hinweg, in der Inferenz von mehreren Dokumenten und in langfristigen Agenten-Aufgaben, anstatt einfach nur mit Texten gefüllt zu werden.

Das bedeutet, dass die Langkontextfähigkeit von einem „Indikator“ zu einer „Systemfähigkeit“ wird.

Drittens: Agenten sind nicht mehr nur Demos, sondern der Kern der KI-Systeme.

Obwohl wir die Aufregung um den Doubao-Mobilassistenten und die Open-Source-Begeisterung für AutoGLM gesehen haben, waren die Agenten im Jahr 2025 hauptsächlich in der Präsentationsphase. Im Jahr 2026 hingegen definieren Agenten die Basis-Modelle neu und verändern die KI-Erfahrung weiter.

Studien von Qwen, Zhipu und DeepSeek haben wiederholt die Tool-Integration-Fähigkeit und die Fähigkeit, mehrschrittige Aufgaben zu erledigen, erwähnt. Dies zeigt auf dasselbe Problem hin: Kann das Modell eine Aufgabe mit minimaler menschlicher Intervention vollständig erledigen, ohne mitten im Prozess abzustürzen?

Das Step 3.5 Flash von Jieyue Xingchen ist sogar „für Agenten gemacht“. Es hat eine neue Basis-Modellstruktur geschaffen, und viele Upgrades wurden um die „Schließung der Schleife von Inferenz bis Ausführung“ herum optimiert. Es legt den Schwerpunkt auf die Planungsfähigkeit des Modells, die Tool-Integration und die Fähigkeit, langfristige Aufgaben auszuführen, sowie auf eine schnelle Ausgabe.

Es wurde auch bekannt, dass das Claude 5 (Codename Fennec) einen „Schwarmmodus“ hat, der die Zusammenarbeit mehrerer Agenten und die Fähigkeit, lange Aufgaben zu bewältigen, verbessert. Im Vergleich zu einer intelligenten Einzelergebnis ist Claude 5 mehr an der Konsistenz des Modells in komplexen Arbeitsabläufen interessiert, bei denen es die Rolle, das Ziel und den Kontext beibehalten muss.

Bildquelle: APIYI

Wenn diese Fähigkeiten reif werden, wird das Modell nicht nur ein „Assistent im Dialogfeld“ sein, sondern eher ein „Motor“, der in verschiedene Systeme integriert wird.

Das chinesische Neujahr naht: Worauf sollte man bei diesem Modellkampf achten?

Warum konzentrieren sich die Veröffentlichungen gerade um das chinesische Neujahr 2026? Der Grund ist eigentlich nicht kompliziert.

Einerseits hat der unerwartete Erfolg von DeepSeek im vergangenen chinesischen Neujahr gezeigt, dass dieses Zeitfenster eine enorme technologische Aufmerksamkeit erregen kann. Andererseits war die neue Runde von verstärkter Lernmethode und Inferenz-Training im Ende 2025 fast abgeschlossen, und die nächsten Generationen von Modellen vieler Hersteller kamen daher Anfang des Jahres in die Veröffentlichungsphase. Zusammen mit der Börsengänge, Finanzierung und dem globalen Wettbewerbsrhythmus wird das chinesische Neujahr zu einem seltenen „Synchronisationsfenster“.

Aber der Zeitpunkt ist nur der Hintergrund. Was wird wirklich passieren in diesem Modellkampf um das chinesische Neujahr?

Aus den bisherigen Veröffentlichungstakten der verschiedenen Parteien geht hervor, dass es nicht nur um ein oder zwei Modelle geht, sondern eher um eine Serie von Veröffentlichungen. Das bedeutet, dass die Branche wahrscheinlich von ein paar Wochen vor dem chinesischen Neujahr bis Anfang März in eine seltene Phase der „kontinuierlichen Veröffentlichungen“ eintritt: Alle paar Tage wird ein führender Hersteller ein neues Modell oder eine wichtige Funktionsaktualisierung vorstellen.

Dieser Takt bedeutet aber auch, dass es für ein einzelnes Modell schwierig ist, die breite Aufmerksamkeit über einen längeren Zeitraum zu halten. Nur wenige Modelle werden möglicherweise zu absoluten Diskussionshotspots. Dies ist eine große Herausforderung für die Modelle selbst und für die Marketingstrategien der Hersteller.

Bildquelle: DeepSeek

Im Gegensatz zur Vergangenheit wird es wahrscheinlich keine lange Testphase nach der Veröffentlichung dieser Runde von Modellen geben. Der Grund ist einfach: Die meisten neuen Modelle werden gleichzeitig mit der Veröffentlichung die API oder die Produktzugänge öffnen, und Entwickler und normale Benutzer können fast sofort damit beginnen. Zusätzlich sind die Fähigkeiten wie Inferenz, Agenten und Langkontext leicht zu erleben, und die Unterschiede zwischen den Modellen werden in der echten Nutzung schnell sichtbar.

Mit anderen Worten, es wird wahrscheinlich während des chinesischen Neujahrs eine große Anzahl von horizontalen Vergleichen zwischen verschiedenen Modellen in denselben Aufgaben geben. Nicht in Benchmark-Tests, sondern in echten Szenarien wie das Schreiben von Code, das Erstellen von Plänen, das Bewältigen von mehrschrittigen Aufgaben und das Verwenden von Tools. Sobald diese Vergleiche in der Community und in den sozialen Medien verbreitet werden, wird sich in kürzester Zeit ein Konsens über die Qualität der Modelle bilden.

Mit anderen Worten, die erste Phase dieses Kampfes wird wahrscheinlich nicht die Veröffentlichung selbst sein, sondern die tatsächlichen Nutzungsrückmeldungen nach der Veröffentlichung.

Nicht jede Runde von Modell-Updates bringt zwangsläufig eine Generationenverschiebung. In den letzten zwei Jahren waren viele Version-Upgrades eher lineare Leistungsverbesserungen: schneller, genauer, länger. Aber aus den bisherigen Signalen der verschiedenen Parteien geht hervor, dass die Runde von Updates im Jahr 2026 möglicherweise erstmals gleichzeitig Veränderungen in der Trainingsmethode, der Inferenzmethode und der Modellpositionierung beinhaltet.

Wenn die neuen Modelle vieler Hersteller die Umstellung in der verstärkten Lernmethode, der Inferenzarchitektur, der Tool-Integration und der Systemintegration abschließen, wird diese Runde von Updates nicht nur eine Leistungsverbesserung bringen, sondern auch eine Veränderung der Arbeitsweise der Modelle.

Für Entwickler bedeutet dies, dass die Aufrufmethoden und die Anwendungsstrukturen möglicherweise neu geschrieben werden