Nachdem Zhipu und Minimax ihre "großen Schüsse" abgegeben haben, hat DeepSeek einfach einen "normalen Angriff" gemacht.
Wer hätte gedacht, dass binnen einer einzigen Nacht drei der größten chinesischen KI-Riesen nacheinander ihre neuen Modelle vorgestellt haben?
DeepSeek, Zhipu und MiniMax haben diesen spektakulären Showdown nahtlos aufgeführt. Die KI-Enthusiasten werden in diesem Frühlingsfest sicherlich nicht langweilig werden.
Angesichts des Engpasses an Rechenleistung und der zunehmenden Homogenisierung gehen die chinesischen Große Modelle (Large Language Models, LLM) auf den Weg der Differenzierung:
Einige setzen auf die Gedächtnisgrenzen für extrem lange Texte, andere bemühen sich um die industrielle Umsetzung von Agenten, und wieder andere entscheiden sich für Leichtigkeit und Effizienz, um in den Unternehmensmarkt vorzudringen.
01 DeepSeek: Millionen-Ebene-Kontext definiert die Grenzen der Langtextverarbeitung
Zunächst hat DeepSeek, das lange Zeit auf der Produktenseite still war, aber weltweit erwartet wurde, heimlich eine Graustufen-Testphase für sein neues Modell auf der Website und der mobilen App gestartet.
Obwohl die offizielle technische Dokumentation noch nicht veröffentlicht wurde, wird in der Community allgemein vermutet, dass es sich um die bevorstehende DeepSeek-V4-Lite-Version handeln könnte.
Nach den derzeit kursierenden Nachrichten hat das Modell möglicherweise nur eine Parametergröße von etwa 200 Milliarden und verwendet nicht das von DeepSeek und der Peking-Universität gemeinsam entwickelte Engram-Bedingtes Gedächtnis-Mechanismus.
Trotzdem können wir in einfachen Tests den Kernvorsprung der neuen Version entdecken: Ein ultrasch langer Kontextfenster von einer Million (1M) Tokens.
Dieser Parameter liegt weit über den Beschränkungen der Vorgängerversionen und einiger führender chinesischer Große Modelle von 32.000 bis 128.000 Tokens. Ein einzelner Interaktionsvorgang kann eine Textmenge verarbeiten, die der Menge von 500 Seiten A4-Dokumenten entspricht, und kann Szenarien wie Langtextanalyse und Interkapitel-Inferenz behandeln, die im täglichen Leben häufig auftreten.
Empirische Prüfung des ultrasch langen Kontexts: Suche nach einer Nadel im Heuhaufen
Der "Suche nach einer Nadel im Heuhaufen"-Test ist eine der branchenüblichen Methoden zur Bewertung der Langtextfähigkeiten in der KI-Welt. Dabei werden bestimmte Informationen zufällig in einen ultrasch langen Text eingefügt, und das Modell wird aufgefordert, diese präzise zu lokalisieren und auf verwandte Fragen zu antworten, um die tatsächliche Wirksamkeit des Kontextfensters zu überprüfen.
Nach den Testergebnissen der technischen Community kann DeepSeeks neues Modell bei einer Länge von einer Million Tokens immer noch eine Genauigkeit von über 60 % erreichen. Die Genauigkeitskurve verläuft innerhalb von 200.000 Tokens nahezu horizontal und beginnt erst danach mit einem relativ sanften Abfall. Dies ist besser als bei den im gleichen Zeitraum getesteten Gemini-Modellen.
Falls diese Testergebnisse zuverlässig sind, bedeutet dies, dass DeepSeeks neues Modell nicht nur tatsächlich einen Kontext im Millionenbereich unterstützt, sondern auch ein hohes Maß an effektivem Kontextnutzungsgrad aufweist. Das Modell kann die Informationen in einem ultrasch langen Text wirklich verstehen und nutzen, und nicht nur auf technischer Ebene empfangen.
In der technischen Community hat ein weiterer Tester die beeindruckende Leistung des Modells bestätigt.
Der Tester hat 30 Markdown-Dateien seiner selbst geschaffenen Weltanschauungssammlung auf einmal an DeepSeek hochgeladen, was etwa 570.000 Bytes, entsprechend 190.000 bis 285.000 Tokens, entspricht. Anschließend hat er fünf Kategorien von Detailfragen zu Charakterhintergründen, Gegenstandsherkünften, Stützpunktbeschreibungen usw. gestellt.
Das Modell kann spärliche Informationen präzise lokalisieren und den Kontext wiederherstellen, ohne jemals einen Charakter zu übersehen, auch wenn er nur selten vorkommt. Daher hat DeepSeeks neues Modell in der praktischen Verarbeitung von Dokumenten im Bereich von 200.000 Tokens bereits eine zuverlässige Fähigkeit zur feingranularen Informationssuche gezeigt.
Leistungsgrenzen: Fokus auf den Textbereich
Im klassischen "Pelikan fährt Fahrrad"-Test hat DeepSeek bei der Ausgabe von Vektorgrafiken strukturelle Verwirrung und geometrische Verzerrungen gezeigt.
Dieser Test erfordert, dass das Modell in einem Null-Sample-Szenario den SVG-Bildcode für eine seltene Kombinationsszene generiert, um die Fähigkeit des Modells zur genauen Kontrolle von strukturierten Sprachen zu überprüfen.
Die Ergebnisse zeigen, dass das Modell bei Codegenerierungsaufgaben, die geometrische Koordinaten und räumliche Beziehungen betreffen, Einschränkungen aufweist.
Dieser Befund steht in direktem Zusammenhang mit DeepSeeks technischer Ausrichtung und ist daher nicht überraschend: Wie bei den Vorgängerversionen bleibt das neue Modell ein reines Textmodell. Die Forschungsschwerpunkte liegen auf der Textmodellierung und Informationskompression für einen Kontext im Millionen-Token-Bereich, nicht auf der multimodalen visuellen Strukturinferenz oder der genauen Codegenerierung.
Tatsächlich ist es angesichts der begrenzten Rechenressourcen sinnvoll, die Optimierung von strukturierten Grafiksprachen wie SVG aufzugeben und stattdessen die Langtextverarbeitungsfähigkeiten zu stärken. Dies entspricht der chinesischen KI-Entwicklungsrichtung, die auf die praktische Anwendung abzielt, und trägt zur Bildung einer differenzierten technischen Route bei.
Die in diesem Test gezeigten Schwächen von DeepSeeks neuem Modell sind keine Leistungsmängel, sondern eine notwendige Kompromisslösung bei der Ressourcenallokation.
Schließlich kursieren in der technischen Community und auf sozialen Medien Nachrichten, dass DeepSeek möglicherweise ein riesiges Modell mit einer Parametergröße von über einer Billion in Ausbildung hat. Obwohl es unwahrscheinlich ist, dass es im Februar veröffentlicht wird, könnten multimodale Funktionen implementiert werden.
02 Zhipu: Die industrielle Umsetzung von Agenten und die Realität des Engpasses an Rechenleistung
Wenn man sagt, dass DeepSeeks veröffentlichtes Leichtgewichtmodell ein einfacher Schlag war, dann war Zhipus anschließende Veröffentlichung von GLM - 5 ein echtes Superangriff.
Die Veröffentlichung von GLM - 5 war eigentlich nicht überraschend. Die Entstehung von pony - alpha vor einigen Tagen und die Vorausschau der technischen Architektur (Die Architekturdetails von GLM - 5 tauchen auf: DeepSeek bleibt immer noch eine unumgängliche Hürde) haben gezeigt, dass Zhipu bereit war, ein neues Produkt vorzustellen.
Allerdings gibt es in der offiziellen Veröffentlichungsankündigung eine sehr interessante These: Zhipu hat seine technische Erzählweise von "Vibe Coding" (Stimmungsprogrammierung) zu "Agentic Engineering" (industrielle Umsetzung von Agenten) verschoben.
Wörtlich gesehen zeigt diese Veränderung, dass die Fähigkeiten von Zhipus Großen Modell beginnen, sich zu verlagern: Von der früheren Generierung von Codeausschnitten und Frontend - Demos hin zur Erledigung von komplexen, end - to - end - Systemaufgaben.
Jetzt schauen wir uns gemeinsam die tatsächlichen Fähigkeiten von GLM - 5 an.
Ein Sprung in der Zuverlässigkeit
Zunächst die Bewertungsliste von Artificial Analysis:
Ein Open - Source - Modell mit dem vierten Platz weltweit in Sachen Intelligenz, dem sechsten Platz in Sachen Programmierfähigkeit und dem dritten Platz in Sachen Agentenfähigkeit!
Ehrlich gesagt war ich beim ersten Blick auf diese Liste ziemlich geschockt.
Das ist das erste Mal, dass ich ein chinesisches Modell an einer so vorderen Stelle in der Rangliste aufgrund seiner umfassenden Stärke sehe. Der Abstand zu Weltklasse - Closed - Source - Modellen wie Gemini, GPT und Claude ist nur minimal, was beweist, dass Zhipus groß angelegte technische Erzählweise nicht ohne Grund ist.
Nach den offiziell veröffentlichten Daten hat GLM - 5 eine Gesamtparametergröße von 744 Milliarden und 40 Milliarden aktive Parameter. Im Vergleich zum Vorgängermodell GLM - 4.7 hat sich die Parametergröße mehr als verdoppelt, und die vortrainierten Daten sind von 23 Billionen auf 28,5 Billionen gestiegen.
Das Skalierungsgesetz wirkt weiterhin. Mehr Parameter und Daten bieten GLM - 5 eine solide semantische Grundlage für die Bearbeitung komplexer Aufgaben.
Technisch gesehen stimmt es weitgehend mit der früheren Analyse überein. Das Modell integriert erstmals DeepSeeks Sparse Attention Mechanism (DSA) und strebt bei gleichbleibender Langtextverarbeitungsleistung eine höhere Effizienz an, wodurch die Bereitstellungskosten erheblich gesenkt werden.
Zusätzlich hat GLM - 5 ein eigenes entwickeltes Slime - Asynchrones Verstärkungslernframework eingeführt, das es dem Modell ermöglicht, in der Langzeitinteraktion mit Benutzern kontinuierlich Wissen zu erlernen und die Kohärenz und Stabilität der Aufgabenplanung zu verbessern. Allerdings hat Zhipu noch keine wissenschaftliche Publikation über diese Technologie veröffentlicht. Nach der Veröffentlichung wird es weiter analysiert werden.
Der wichtigste technische Durchbruch liegt in einem Sprung bei den Zuverlässigkeitsindikatoren: Im AA - Omniscience - Halluzinationsratetest hat GLM - 5 die Halluzinationsrate von 90 % der Vorgängerversion GLM - 4.7 direkt auf 34 % reduziert und damit den Rekord von Claude 4.5 Sonnet gebrochen und die Spitze erreicht.
Ein Modell, das häufig Halluzinationen erzeugt, kann keine komplexen, systematischen Aufgaben bewältigen. GLM - 5 ist bei der Generierung von faktischem Inhalt deutlich vorsichtiger und reduziert erheblich das Risiko der Erfindung von Informationen, was von den Benutzern am meisten abgelehnt wird. Dies bietet auch die notwendige Garantie für die von Zhipu behauptete "industrielle Umsetzung von Agenten".
Prüfung der Programmier - und Agentenfähigkeiten
In Bezug auf die Programmier - und Agentenfähigkeiten hat GLM - 5 in etablierten Benchmarks wie SWE - bench Verified und Terminal - Bench 2.0 hohe Punktzahlen erzielt und ist auf dem Niveau führender Open - Source - Modelle.
Nach internen Testergebnissen hat GLM - 5 bei der Frontend - Konstruktionsaufgabe eine Erfolgsrate von bis zu 98 %. In den Szenarien der Backend - Rekonstruktion und Aufgabenplanung hat die Erfolgsrate im Vergleich zum Vorgängermodell GLM - 4.7 um mehr als 20 % zugenommen, und die praktische Nutzungserfahrung ist der von Claude Opus 4.5 ähnlich.
GLM - 5 kann die Benutzeranforderungen selbständig aufteilen und mehrere Toolketten koordinieren, um Abhängigkeiten richtig zu behandeln und end - to - end - Aufgaben abzuschließen. Beispielsweise kann das Modell nach Eingabe einer natürlichen Sprachanforderung direkt einen deploybaren Side - Scroller - Puzzle - Spiel und eine Paper - Suchanwendung generieren.
Im Vending Bench 2 - Simulationsbetriebstest hat der von dem Modell erstellte Agent, der einen Automat betreibt, innerhalb eines Jahres 4.432 US - Dollar verdient, was seine Fähigkeit zur Steuerung der Ressourcenallokation, Marktfluktuationen und Langzeitzielvereinheitlichung zeigt.
Die