Zhipu hatte nur knapp Pech. Die Forschung zu visuellen Tokens stößt wieder mit DeepSeek zusammen.
Was für ein Zufall... Zhipu und DeepSeek haben es wieder mal auf die gleiche Wellenlänge gebracht.
Es ist so konkurrenzintensiv! Weniger als einen Tag nachdem DeepSeek-OCR veröffentlicht wurde, hat Zhipu seine eigene visuelle Token-Lösung - Glyph - open source gemacht.
Da es sich um einen Wettlauf handelt, sollten wir natürlich den Karpasi, der in den letzten Tagen DeepSeek so stark gelobt hat, dazu bitten, es zu beurteilen:
Vielleicht interessiert Sie auch unsere Arbeit.
Man schreibt ja einfach seine Paper, aber hier scheint man sich um die Gunst zu streiten. (doge)
Netizens spotten: Es gibt auch in der Welt der KI seine eigenen Liebesfilme mit dominanten Männern.
Zhipu beschäftigt sich auch mit visueller Kompression
Ja, genau wie DeepSeek-OCR zielt auch das Paper von Zhipu darauf ab, das Problem der langen Kontexte in aktuellen LLMs auf visuelle Weise zu lösen.
Der sprunghafte Anstieg der Kontexte
Mit dem rasanten Fortschritt der Fähigkeiten von LLMs wird die Nachfrage von Benutzern und Herstellern nach langen Kontexten immer dringender.
Schließlich darf das Modell bei der Analyse langer Dokumente, der Überprüfung von Code oder bei mehrmaligen Gesprächen nicht wie ein Goldfisch vergessen, was es gelesen hat. Um zuverlässig Aufgaben ausführen zu können, benötigt es ein stabiles "Arbeitsgedächtnis".
Aber die Erweiterung der Kontexte ist eine ziemlich mühevolle und wenig lohnende Aufgabe.
Zum Beispiel: Wenn man den Kontext von 50K auf 100K erweitert, erhöht sich der Rechenaufwand ungefähr auf das Vierfache.
Der Grund liegt darin, dass mehr Token bedeuten, dass das Modell mehr Aktivierungswerte, Zwischenergebnisse und Aufmerksamkeitsgewichte speichern muss, und all dies kostet beim Training und bei der Inferenz viel Rechenleistung und Zeit.
Wenn man dadurch tatsächlich die Leistung verbessern könnte, würde man vielleicht auch mehr Geld ausgeben.
Aber am ärgsten ist, dass selbst wenn man viel Geld in die Erweiterung der Kontexte steckt, das Modell nicht unbedingt schlauer wird.
Eine Studie von IBM zeigt, dass es nicht genügt, einfach "mehr Token reinzustecken", um eine lineare Verbesserung der Modellleistung zu gewährleisten.
Im Gegenteil, wenn die Eingabe zu lang und die Informationen zu ungeordnet sind, kann das Modell eher in Rauschen und Informationsüberlastung geraten und sich verwirren.
Zurzeit gibt es ungefähr drei gängige Lösungen für solche Probleme:
Die erste Lösung ist die Erweiterung der Positionskodierung.
In der Transformer-Architektur weiß das Modell nicht, in welcher Reihenfolge die Eingabe kommt. Deshalb muss man jedem Token eine "Positionskodierung" hinzufügen, um dem Modell zu sagen, was zuerst und was danach kommt.
Die Idee hinter der Erweiterung der Positionskodierung besteht darin, den ursprünglichen Positionskodierungsbereich einfach nach außen zu erweitern.
Zum Beispiel kann man den Positionsbereich von 0 bis 32K auf 0 bis 100K "interpolieren", damit das Modell bei der Arbeit längere Eingaben akzeptieren kann, ohne neu trainiert zu werden.
Trotzdem löst dies das Problem der Inferenzkosten nicht, da das Modell bei der Inferenz immer noch alle Kontexte durchlaufen muss.
Außerdem, obwohl das Modell weiterhin lesen kann, wird es wahrscheinlich nicht gut abschneiden, da es in der Trainingsphase noch nie so lange Kontexte gesehen hat.
Die zweite Lösung ist die Verbesserung des Aufmerksamkeitsmechanismus.
Da der Kontext länger geworden ist, sollte man das Modell "schneller lesen" lassen, indem man Techniken wie die sparse Attention oder die lineare Attention anwendet, um die Verarbeitungseffizienz jedes Tokens zu erhöhen.
Aber egal wie schnell es ist, die Gesamtzahl der Token bleibt die gleiche. Wenn der Kontext Hunderttausende von Token hat, reicht auch die höchste Effizienz nicht aus.
Die dritte Lösung ist der Ansatz der Retrieval-Enhanced Generation (RAG).
Dabei werden zuerst die wichtigen Informationen aus einer externen Quelle abgerufen und dann dem Modell übergeben. Dadurch wird die Eingabe kürzer und die Inferenz schneller.
Aber wie man weiß, ist die Ausgabe von RAG nicht so gut wie die Antwort des Modells auf der Grundlage der Trainingsdaten, und die zusätzlichen Abrufschritte verlangsamen die Gesamtantwortzeit.
Es ist wirklich schwierig, eine Lösung für das Problem der Kontexte zu finden.
Lesen anhand von Bildern
Um dieses Problem zu lösen, hat das Forschungsunternehmen ein neues Paradigma - Glyph - vorgeschlagen.
Die Idee ist einfach: Wenn die Informationsdichte von reinen Texten nicht ausreicht, kann man sie in Bilder packen.
Wenn ein normales LLM Texte verarbeitet, zerlegt es die Sätze in einzelne Token und gibt sie nacheinander ein, was sehr ineffizient ist.
Zum Beispiel, wenn ein Satz in 1000 Token zerlegt werden kann, muss das Modell 1000 Vektoren berechnen und auch die Aufmerksamkeitsberechnungen zwischen ihnen durchführen.
Im Gegensatz dazu liest Glyph nicht Wort für Wort, sondern bringt zunächst den gesamten Text in eine bildähnliche visuelle Token-Form und gibt dann diesen "Screenshot" an ein VLM weiter, um ihn zu verarbeiten.
Der Grund dafür ist, dass Bilder eine viel höhere Informationsdichte als reine Texte haben. Ein einzelnes visuelles Token kann die Informationen enthalten, die sonst mehrere Text-Token benötigen würden.
Auf diese Weise kann selbst ein VLM mit einem festen Kontextfenster, ohne die Hilfe von sparse Attention, RAG oder anderen Tools, problemlos sehr lange Texte verarbeiten, die ein normales LLM "überfordern" würden.
Zum Beispiel hat der Roman "Jane Eyre" ungefähr 240K Text-Token. Für ein traditionelles LLM mit einem Kontextfenster von nur 128K kann man nur die Hälfte reinstecken.
In diesem Fall kann das traditionelle Modell wahrscheinlich keine Fragen beantworten, die sich auf einen großen Zeitraum im Roman beziehen.
Zum Beispiel: Wer hat Jane geholfen, als sie in Schwierigkeiten geraten war, nachdem sie Thornfield verlassen hatte?
Aber wenn man Glyph verwendet und das ganze Buch in ein kompaktes Bild rendert, benötigt man nur ungefähr 80K visuelle Token.
So kann ein VLM mit einem 128K-Kontextfenster problemlos das ganze Buch "Jane Eyre" lesen, den Handlungsverlauf verstehen und Fragen aus einer breiteren Perspektive beantworten.
Wie wird ein solch deutlicher Effekt erreicht?
Der Trainingsablauf von Glyph besteht hauptsächlich aus drei Phasen:
Erste Phase: Dauerhaftes Vortraining (Continual Pre-training)
Das Ziel dieser Phase ist es, dass das Modell seine Fähigkeit, lange Kontexte zu verstehen, aus der Welt der Texte in die Welt der Bilder überträgt.
Genauer gesagt, rendert das Forschungsunternehmen so viele lange Texte wie möglich in Bilder verschiedener Stile und lässt das VLM in verschiedenen Satzbildern, Schriftarten und Layouts "Bilder lesen und Texte verstehen", um eine bessere Generalisierungsfähigkeit zu trainieren.
In diesem Prozess lernt das Modell ständig, wie man die Textinformationen in den Bildern mit der ursprünglichen Textbedeutung in Übereinstimmung bringt.
Zweite Phase: Vom LLM angetriebene Rendering-Suche (LLM-driven Rendering Search)
Obwohl verschiedene Rendering-Methoden die Generalisierungsfähigkeit des Modells verbessern können, müssen in der Praxis Effizienz und Genauigkeit beide berücksichtigt werden.
Die Art und Weise, wie man Texte in Bilder umwandelt, bestimmt das feine Gleichgewicht zwischen Kompressionsrate und Lesbarkeit.
Zu große Schriftarten und zu lockere Satzbilder sind natürlich nicht gut, da die Informationsdichte zu niedrig ist und dies dem Grundgedanken der visuellen Token widerspricht.
Aber auch die Überbetonung der Informationsdichte ist nicht gut.
Zu kleine Schriftarten und zu enge Layouts können zwar eine hohe Kompressionsrate erreichen, aber das Modell kann möglicherweise "nicht gut sehen" und die Bedeutung falsch verstehen.
Deshalb hat das Forschungsunternehmen einen vom LLM angetriebenen genetischen Suchalgorithmus eingeführt, um das Modell automatisch die optimalen Rendering-Parameter - wie Schriftgröße, Seitenlayout, Bildauflösung usw. - zu finden, um so viel wie möglich zu komprimieren, ohne die Bedeutung zu verlieren.
Dritte Phase: Nachtraining (Post-training)
Nachdem man die optimale Rendering-Methode gefunden hat, hat das Forschungsunternehmen zwei Dinge getan: überwachtes Feintuning und verstärkendes Lernen, um das Modell beim "Lesen von Texten anhand von Bildern" schlauer und stabiler zu machen.
Außerdem haben sie in der SFT- und RL-Phase auch eine Hilfs-OCR-Ausrichtungsaufgabe hinzugefügt, um das Modell zu lehren, die Text Details genau aus den Bildern wiederherzustellen, damit die visuellen und die textuellen Fähigkeiten wirklich integriert werden.
Schließlich hat Glyph zwei große Fähigkeiten erlernt:
1. Es versteht lange Texte und kann präzise inferieren.
2. Es erkennt Details und hat keine Schwierigkeiten beim Lesen von Bildern.
Dank dieser Kombination kann Glyph auch in Aufgaben mit stark komprimierten visuellen Kontexten gut abschneiden.
Reduzierung des Kontexts um 75%
Nachdem man das Prinzip verstanden hat, sehen wir uns nun die tatsächliche Leistung von Glyph an.
Tatsächlich trägt Glyph dazu bei, die Anzahl der Token erheblich zu reduzieren.
Die Experimentergebnisse zeigen, dass Glyph in mehreren Tests mit langen Kontexten eine Token-Kompressionsrate von 3 bis 4 erreicht und dennoch eine ähnliche Genauigkeit wie die gängigen Modelle (z. B. Qwen3-8B) aufweist.
Diese Kompression reduziert nicht nur den Rechenaufwand, sondern bringt auch eine ungefähr vierfache Beschleunigung der Vorabfüllung und der Dekodierung sowie eine ungefähr zweifache Beschleunigung des SFT-Trainings.
Noch erstaunlicher ist, dass in einem extrem komprimierten Fall ein VLM mit einem 128K-Kontextfenster immer noch in der Lage ist, Textaufgaben im Millionen-Token-Bereich zu bewältigen und dabei nicht hinterher zu hinken.
Außerdem, obwohl die Trainingsdaten von Glyph hauptsächlich aus gerenderten Textbildern stammen, zeigt es auch in multimodalen Aufgaben eine ausgezeichnete Leistung, was seine starke Generalisierungsfähigkeit beweist.
Zusammenfassend