Zhipu GLM-5V-Turbo hat "ein versehentliches Schussgeräusch" gemacht, und der Krieg zwischen chinesischen multimodalen Agenten steht kurz bevor.
In der heftigen Konkurrenz der chinesischen Großmodelle hat die GLM-Serie von Zhipu immer eine extrem kommerziell wertvolle Trumpfkarte in der Hand: eine ausgezeichnete Fähigkeit in Bezug auf Code.
Mit der Umwandlung der Hauptform von KI von Großsprachmodellen zu Agenten ist der Wettlauf in der Branche in die zweite Hälfte eingetreten. Entwickler und die Entwicklerökosysteme sind die Gruppen mit der stärksten Zahlungsbereitschaft.
Allerdings ist die Erwartung der Branchenriesen an die KI offensichtlich nicht bloß ein "ausgelagerter Programmierer". Nur wenn die KI ein allumfassender Agent wird, der die Systemarbeitsabläufe wirklich übernehmen kann, kann sie in das Leben jedes Durchschnittsbuerger einsteigen.
Daher reicht es für eine starke KI nicht aus, nur Tasten zu drücken. Sie muss "Augen" bekommen, um die Webseitenlayouts zu betrachten, Plakate und Diagramme zu verstehen und sogar komplexe nicht-textuelle Informationen in der GUI zu begreifen.
Vor ein paar Tagen hat DeepSeek mit der Grautestphase des "Bilderkennungsmodus" den ersten Schuss abgegeben.
Jetzt folgt Zhipu eng hinterher und startet offiziell eine neue Erkundung im Bereich der Multimodalität. In der technischen Bericht des neuesten Modells GLM-5V-Turbo können wir deutlich erkennen, dass dies ein neuer Angriff von Zhipu auf die nativen multimodalen Agenten ist und auch ein Bekenntnis voller technischer Macht, technischer Kompromisse und kommerzieller überlegungen.
01
Die ästhetische Gewalt und die Kunst des Feinsteuerns der visuellen Basis
Der Gedanke, der Großsprachmodellen visuelle Fähigkeiten hinzuzufügen, wurde in den letzten Jahren häufig versucht.
Allerdings sind die daraus hervorgegangenen visuellen Sprachmodelle (VLM) oft nur zusammengesetzte Produkte. Das Sprachmodell ist das absolute "Gehirn", während das visuelle Modul nur eine angeschlossene Kamera ist.
D.h., das Modell kann die in Bildern und anderen Informationen enthaltenen Logiken gar nicht verstehen. Wenn die zweidimensionalen visuellen Signale zwangsweise in eine eindimensionale Token-Sequenz komprimiert werden, kann das Modell Bilder nicht verstehen, wichtige Details übersehen oder sogar starke Halluzinationen haben. Natürlich kann es dann auch nicht als Agent eingesetzt werden.
Deshalb hat GLM-5V-Turbo von Anfang an die Richtung festgelegt:
Die multimodale Wahrnehmung darf nicht bloß eine Hilfs-Schnittstelle sein. Sie muss eine native Kernkomponente für die Modellinferenz, -planung, -werkzeugaufrufe und -aufgabenausführung werden.
Um die echte "Nativität" zu erreichen, hat Zhipu dieses Mal drei große Änderungen an der unteren Architektur vorgenommen:
1. Neukonstruktion der visuellen Basis: CogViT, speziell für Agenten entwickelt
Agenten müssen den Computer des Benutzers bedienen. Deshalb muss das Modell in der grafischen Benutzeroberfläche nicht nur wissen, was auf einem Bild ist, sondern auch auf alle leicht zu übersehenden Details achten, selbst auf einen Button, dessen Länge und Breite vielleicht nur wenige Pixel betragen.
Dafür hat Zhipu ein eigenes visuelles Encoder-System namens CogViT mit hoher Parameter-Effizienz entwickelt und eine zweistufige Vor-Trainingsmethode angewendet:
In der ersten Stufe ist es die Merkmalsrekonstruktion. Von den beiden Lehrmodellen ist SigLIP2 dafür verantwortlich, dass das Modell die Semantik erkennt, und DINOv3, dass es die Textur erkennt. Schließlich wird die visuelle Merkmalsrepräsentation des Modells durch Masken-Bildmodellierung verbessert.
In der zweiten Stufe ist es die Bild-Text-Ausrichtung. Durch die Einführung des NaFlex-Schemas zur Verarbeitung dynamischer Auflösungen wird die globale Batch-Größe direkt auf 64K erhöht.
Diese Art der Gestaltung maximiert die räumliche Wahrnehmung und die geometrische Verstandnisfähigkeit des neuen Modells von Zhipu und legt auch die Grundlage für die spätere Bedienung von Webseiten und Mobiltelefon-UI.
2. Das Gleichgewicht zwischen Technik und Algorithmus: Multimodales Multi-Token-Vorhersage (MMTP)
Die Einführung multimodaler Fähigkeiten geht zwangsläufig mit einem exponentiellen Anstieg des Grafikspeicher- und Rechenleistungsverbrauchs einher.
Entwickler, die sich mit dem KI-Bereich befassen, sollten wissen, dass Zhipu in den letzten sechs Monaten nicht über ausreichende Rechenkapazitäten verfügt. Die kürzlich heftig diskutierte Preisanpassung hat indirekt bewiesen, dass die Rechenleistungskosten bei der Masseninferenz ein unendlicher Verlust sind.
Die Einführung der Multi-Token-Vorhersage (MTP) zur Verbesserung der Inferenzeffizienz ist eine gängige Methode in der Branche. Allerdings hat Zhipu bei der Einführung der MTP eine textbuchmäßige technische Entscheidung getroffen:
Es ist nicht möglich, die visuelle Merkmale, die eine große Menge an Informationen enthalten, direkt an den MTP-Vorhersagekopf zu übergeben. Stattdessen wird ein gemeinsamer spezieller Token "<|image|>" als Platzhalter für die visuelle Eingabe verwendet.
Diese scheinbar einfache Änderung entspricht am besten dem "technischen Pragmatismus". Sie reduziert erheblich die Kommunikationskomplexität bei der Pipeline-Parallelisierung und vermeidet direkt das problematische Problem des Grafikspeicherexplosions.
Außerdem kann diese "Kunstgriff" bei Gewährleistung einer stabilen Konvergenz des Modells die Rechenleistungskosten für das Training und die Inferenz stark senken.
3. Brechen des Flächenschwanz-Heimsuchungs: Ein ultra-großangebotes multimodales verstärkendes Lernsystem
Derzeit unterscheidet sich der Trainingsansatz für Agenten im Wesentlichen nicht von dem für Großsprachmodelle. Es wird immer noch verstärkendes Lernen verwendet.
Allerdings neigt das Ein-Task-verstärkende Lernen bei der Agenten-Trainingsphase dazu, dass das Modell in Schwingungen gerät.
Das Forschungsteam von Zhipu hat festgestellt, dass das Multi-Task-kollaborative verstärkende Lernen dem Modell eine reichhaltigere Strategieverteilung zeigen kann und sogar ein Transfer des Denkmodus zwischen verschiedenen Aufgaben auftreten kann.
Deshalb hat Zhipu eine gemeinsame verstärkende Lernphase über mehr als 30 Aufgabenkategorien durchgeführt und die gesamte Pipeline in der Infrastruktur entkoppelt und asynchron ausgeführt. Sie haben nicht nur den Schritt der visuellen Segmentierung von der Vorwärts-Propagationsphase in die Datenladephase verlegt, sondern auch eine extreme Speicherverwaltung für die Kommunikation zwischen den GPUs vorgenommen.
02
Der Paradigmenwechsel von der API-Verteilung zum Arbeitsablauf-übernahme
Die untere technische Neukonstruktion zielt immer auf den Sprung der kommerziellen Monetarisierungslogik ab.
Die multimodale Tiefforschungskapazität, die GLM-5V-Turbo zeigt, deutet auf zwei kommerzielle Veränderungen in der Anwendung von Zhipu KI hin:
Erstens bricht die multimodale Tiefforschung die Barrieren des traditionellen Text-SaaS.
Die meisten früheren KI-Assistenten können nur reinen Textinhalt lesen. Selbst wenn die Benutzer Bilder, Videos, PDFs und andere Anhänge hochladen können, fällt die Erkennungsfähigkeit der KI rapide ab, wenn die darin enthaltenen nicht-textuellen Informationen zu überhand nehmen.
Allerdings kann GLM-5V-Turbo den Arbeitsablauf "Planung → multimodales Lesen → Statusaktualisierung" autonom wiederholen, direkt die hochwertigen visuellen Informationen in verschiedenen Diagrammen, Dokumenten und Präsentationen analysieren und direkt Markdown-Geschäftsberichte und hochstrukturierte Folien liefern.
In diesem Punkt ist die Strategie von Zhipu fast identisch mit der von Anthropic, die gestern Claude for Microsoft 365 herausgebracht hat und direkt in die Microsoft-Ökosystem eingestiegen ist.
Deshalb werden die traditionellen Informationssuchwerkzeuge unweigerlich einer "Dimension-Reduktions-Attacke" ausgesetzt. Wenn die KI fertige Berichte mit Datenvisualisierung end-to-end liefern kann, wird das Modell der Token-basierten Abrechnung allmäglich in ein geschäftsmäßiges Modell der "Projekt-basierten Abrechnung" übergehen.
Zweitens wird die ultimative Form des Agenten die Symbiose von Modell und "Träger" sein.
Das technische Bericht von Zhipu gibt einen sehr inspirierenden Gedanken:
Die Kapazitätsgrenze des Systems wird nicht mehr einseitig vom Modell bestimmt, sondern gemeinsam von dem Modell und dem umgebenden Rahmen (Harness) geformt.
Als einer der führenden chinesischen Modelle bietet Zhipu auch ständig eine reichhaltigere Werkzeugkette (Official Skills) an und hat eine nahtlose Integration mit den branchenstandardisierten Rahmen Claude Code und Auto Claw erreicht.
Tatsächlich hat Zhipu schon klar erkannt, dass es für ein einzelnes KI-Startup fast unmöglich ist, eine so starke Ökosystem wie Google zu schaffen. Anstatt alles auf eine Karte zu setzen, ist es besser, dass Claude Code und AutoClaw, die globale allgemeine Werkzeuge, die gut darin sind, Terminal- und Dateilogik zu handhaben, als "geschickte Hände" für die Computerbedienung dienen.
Die einst erwartete "Allumfassende Großmodell"-Mythos ist jetzt fast gescheitert. Selbst OpenAI kann mit Großsprachmodellen allein keine AGI erreichen. Die zukünftigen Schutzmauern werden sich auf die tiefe Kopplung von Modellkapazität und externen Werkzeugen verlagern.
Schließlich brauchen die B-Kunden, die die Hauptzahlungsträger sind, nie einen Roboter, der über alles reden kann, sondern einen kognitionsgesteuerten Motor, der direkt nahtlos in das bestehende System integriert werden kann.
03
Die Blutige Geschichte: Drei Gesetze der Agenten-Entwicklung
Die Veröffentlichung dieses technischen Berichts von Zhipu unterscheidet sich von anderen, weil das Forschungsteam am Ende des Berichts sehr selten und ehrlich die von ihnen in der Entwicklungsphase zusammengefassten Entwurfsperspektiven geteilt hat.
Dieser "Fehlschlagvermeidungsleitfaden", der mit unzähligen Rechenkapazitäten und überstunden erworben wurde, ist viel wertvoller als die Open-Source-Modelle und -Technologien und hat für die gesamte KI-Branche einen sehr hohen Wert.
Zuerst soll man nicht zu große Ziele setzen. Die untere Wahrnehmung ist die Grundlage, die die Obergrenze des Modells bestimmt.
In den letzten Jahren hat sich in der KI-Branche eine Art von "Mode" entwickelt. Wenn alle Produkte herausgebracht werden, tragen sie immer die Stichwörter wie "tiefes Denken", "Selbstreflexion" und "langfristige Logikplanung". Es scheint, dass nur die Produkte mit diesen Stichwörtern "hochwertige" KI sind.
Allerdings ist es in den Benutzerrückmeldungen nicht schwer zu erkennen, dass diese hochfliegenden Stich