Nach dem eingehenden Studium der DeepSeek OCR - Studie habe ich von weit her die Umrisse des "Weltmodells" erahnen können.
DeepSeek OCR ist ein guter kleiner OCR - Modell, aber es ist überbewertet.
Netzwerkteilnehmer auf Zhihu haben darauf hingewiesen, dass es selbst im Vergleich zu den besten OCR - Modellen nicht unter den Spitzenrangplätzen steht.
In den folgenden zwei Fällen erkannte das 3B große (3 Milliarden Parameter) DeepSeek OCR in der Expansion mathematischer Formeln nicht das "Polarkoordinatensystem", und die Erkennung der Tabellenstruktur war ebenfalls falsch. Im Vergleich dazu war das PaddleOCR - VL (von Baidu FeiJiang Open Source) mit nur 0,9B (900 Millionen Parameter) überlegen.
DeepSeek OCR ist auch nicht ausreichend original. Außenstehende vermuten, dass Google Gemini möglicherweise frühzeitig visuelle komprimierte Token für den Support von Millionen von Token - Kontexten verwendet hat. Am gleichen Tag veröffentlichte das Team von Tsinghua Universität und Zhipu das Glyph, das fast den gleichen Ansatz verfolgt, "lange Texte in visuelle Token zu komprimieren und diese als Modellinput zu verwenden". Letzteres scheint keine "weitergehenden Interpretationen" ausgelöst zu haben.
DeepSeek zieht jedes Mal, wenn es tätig wird, enorme Aufmerksamkeit auf sich. Aber wenn man darüber nachdenkt, ist das auch normal.
Es ist fast unmöglich, ein Beispiel für ein großes chinesisches Internetunternehmen zu finden, das nach der Monopolisierung eines lukrativen Geschäftssegments noch die Zukunft des Menschen im Auge behält und sich mit führenden Technologien befasst. DeepSeek wird von amerikanischen Kollegen als "unabsehbar stark" beschrieben. Seine innewohnenden Werte und Organisationsform sind eher ein seltener Ausnahmefall unter chinesischen Unternehmen.
DeepSeek unter der Leitung von Liang Wenfeng hat kein Geldproblem und strahlt einen extrem romantischen technologischen Idealismus aus. Es veröffentlicht die neuesten und wertvollsten Details der Modelltrainierung Open Source. Nach den weltweiten Sensationen, die V3 und R1 ausgelöst haben, hat es fast aktiv das enorme Potenzial an Traffic aufgegeben und sich nicht daran versucht, wie OpenAI ein leicht erreichbares AI - Geschäftsimperium aufzubauen... Es folgt nicht dem normalen Weg, "groß und stark zu werden", lebt in der Zukunft statt in der Gegenwart und strebt mit jedem Wort und jeder Handlung ein hochgradig ungewisses AGI an. In einem China, in dem es um Nachahmung, Überbietung, Plagiat und Geld geht, ist es tatsächlich "Glück des Landes", dass eine solche Firma entstehen konnte.
Laien schauen sich das Geschehen an, Fachleute lesen die Paper. Zur Sache zurück: Der tiefe Wert von DeepSeek OCR liegt nicht in einem "echten, unendlichen Kontext" oder in der Tatsache, dass es in verschiedenen Testsets und bei verschiedenen großen Modellen einen Rekord für OCR - Modelle aufgestellt hat, sondern darin, dass die Erforschung der "kontinuierlichen visuellen Repräsentationskompression" auf ein ultimatives Ziel hinweist - das "Weltmodell".
Was Karpathy in seiner Bewertung sagen wollte, aber nicht direkt aussprach: Er hat den Fokus der Spitzenforschung an großen Modellen von diskreten Sprach - Token "wieder auf" kontinuierliche visuelle Repräsentationen von visuellen Token gelenkt.
Kompression ist Intelligenz
Wenn man das Gehirn als einen biologischen Computer ansieht, sagte Ilya, dass wir es schaffen werden, die dunkelsten und feinsten Stellen des menschlichen Denkens zu durchdringen. Vielleicht ist es überraschend "einfach im Großen und Ganzen".
Ilya hat den Glauben, dass "wenn man Informationen effizient komprimieren kann, man schon Wissen erworben haben muss, sonst könnte man die Informationen nicht komprimieren. Wenn man die effiziente Kompression von Informationen erreicht hat, hat man auch Wissen".
Die Kompression repräsentiert Informationen effizient, indem sie Muster und Regeln erkennt, was eng mit intelligentem Verhalten zusammenhängt. Einige Forscher sind der Meinung, dass die Kompression möglicherweise die Grundlage für allgemeine Intelligenz ist oder sogar gleichzusetzen ist mit Intelligenz, wie Ilya es glaubt: "Kompression ist Intelligenz".
Ilya hat vielleicht nur die Hälfte recht. Im Vergleich zu Sprache, einer eindimensionalen diskreten Information, hat die erfolgreiche Kompression von Sprache ChatGPT, das die Welt schockierte, hervorgebracht. Die visuelle Information hingegen, als höherdimensionale kontinuierliche Information, ist es extrem schwierig, end - to - end zu komprimieren und eine einheitliche Repräsentation zu extrahieren.
Heutige mächtige vortrainierte große Sprachmodelle sind in ihren Grundprinzipien sehr einheitlich: Sie trainieren ein riesiges neuronales Netzwerk mit einer riesigen Menge an Internettexten. Man kann es als eine Menge von Parametern ansehen. Wenn der Benutzer eine Eingabe macht, werden bestimmte Netzwerknodeparameter aktiviert und an der Berechnung beteiligt, um das "Token mit der höchsten Wahrscheinlichkeit als Ausgabe zu prognostizieren". Genauer gesagt wird der vom Benutzer eingegebene Text durch die Tokenisierung, also die Aufteilung in Wörter und Symbole (der Worttrennprozess), in Vektoren umgewandelt. Diese Eingabevektoren werden in einem hochdimensionalen Vektorraum auf Muster abgesucht, indem die aktivierten Netzwerkparameter an der Berechnung beteiligt werden, um das nächste Wort mit der höchsten Wahrscheinlichkeit zu berechnen.
Um es einfach auszudrücken, versucht ein LLM, das nächste Wort anhand der Modellparameter und des Kontexts zu erraten. Wenn man die Entwicklung von großen Sprachmodellen betrachtet, hat die Entdeckung eines allgemeinen Algorithmus und die Transformer - Architektur die Skalierung tatsächlich machbar gemacht. Die Kombination eines einfachen Algorithmus, riesiger Datenmengen und des sprunghaften Anstiegs der GPGPU - Rechenleistung hat es möglich gemacht, fast alle Textdaten im Internet zu komprimieren und einen sehr intelligenten Token - Prädiktor zu schaffen.
Die Ausgabe eines LLM erfolgt "Token für Token" in einer autoregressiven Weise, was bedeutet, dass jedes Token einmal mit dem vorherigen Text "interagieren" muss. Wenn man 100.000 Token eingibt, muss das Modell 100.000 x 100.000 = 10 Milliarden "Interaktionen" durchführen. Je länger der Eingabekontext ist, desto exponentiell höher wird der Rechenaufwand für die Vorhersage des nächsten Wortes.
Selbst die größte Grafikspeicherbandbreite und - kapazität können die riesigen Zwischenmatrizen in der Berechnung nicht auf einmal verarbeiten, und die Inferenzverzögerung wird immer größer. Die Innovationen bei LLMs in den letzten Jahren, wie die Sparse - und Optimierung der Attention - Schichtberechnung, die zur Entstehung von MTP, NSA und DSA geführt haben, sowie die sparse Aktivierung der dichten FFN - Schicht und die Routenaktivierung von riesigen MoE - Expertennetzwerken, zielen im Wesentlichen darauf ab, die Probleme auf der Rechenseite zu lösen.
DeepSeek OCR scheint auf den ersten Blick ein OCR - Modell zu sein, aber es zielt tatsächlich auf die Rechenleistung ab und versucht, die effiziente Kompression eines zu langen Eingabekontexts zu erreichen.
Der Kern von DeepSeek OCR ist der DeepEncoder, ein Encoder, der den Eingabekontext mithilfe von visuellen Token codiert. Er erreicht eine OCR - Dekodierungsgenauigkeit von über 96 % bei einer 9 - 10 - fachen Textkompression, etwa 90 % bei einer 10 - 12 - fachen Kompression und immer noch etwa 60 % bei einer 20 - fachen Kompression.
Bei einem Kompressionsverhältnis von 10 kann man fast verlustfreie Kompression erreichen. Das bedeutet, dass für einen Modellkontext, der ursprünglich 100.000 Token enthielt, nur 10.000 visuelle Token benötigt werden.
Außerdem heißt es in der DeepSeek - Paper, dass man das Kompressionsverhältnis kontinuierlich einstellen kann und eine Balance zwischen Kompressionsverhältnis und Erkennungsgenauigkeit finden kann. Und hier kommt der Knackpunkt: DeepSeek vergleicht diese dynamische visuelle Kompression mit dem menschlichen Gedächtnis und dem Vergessen.
DeepSeek schlägt eine Kompressionsstrategie ähnlich dem biologischen Vergessensmechanismus vor:
Jüngerer Kontext: Hohe Auflösung beibehalten, hohe Token - Auslastung, klare Informationen;
Älterer Kontext: Schrittweise Verringerung der Auflösung, weniger Token, unklare Informationen;
Dieser Mechanismus simuliert den natürlichen Abbau des menschlichen Gedächtnisses:
Je länger die Zeit vergeht, desto unklarer wird das Gedächtnis;
Je weiter weg etwas ist, desto schwächer wird die visuelle Wahrnehmung;
Beides zeigt ein Muster des schrittweisen Informationsverlusts (wie in der Abbildung gezeigt).
In der Paper erklärt DeepSeek, dass die Arbeit an OCR eine erste Erkundung der Grenzen der visuellen Textkompression darstellt und das Kernproblem untersucht, wie viele visuelle Token benötigt werden, um N Text - Token zu dekodieren. Die ersten Ergebnisse sind ermutigend:
Die optische Kontextkompression ist nicht nur technisch machbar, sondern auch biologisch sinnvoll. Sie bietet einen neuen Blickwinkel auf die Modellierung von langen Kontexten. DeepSeek ist davon überzeugt, dass dieser Ansatz ein wichtiger Durchbruch für die zukünftige Forschung an LLMs und VLMs sein wird.
DeepSeek - OCR erreicht bei einem Kompressionsverhältnis von etwa 10 fast verlustfreie OCR - Kompression und behält bei einem Verhältnis von 20 immer noch eine Genauigkeit von 60 % bei. Diese Ergebnisse bedeuten, dass in mehrfachen Dialogen die historischen Aufzeichnungen nach k Runden optisch verarbeitet werden können, um eine 10 - fache Kompression zu erreichen; die alten Kontexte können schrittweise in ihrer Darstellung verkleinert werden, um den Token - Verbrauch zu reduzieren; der menschliche Vergessensmechanismus wird simuliert, wobei je älter der Inhalt ist, desto höher ist das Kompressionsverhältnis, desto unschärfer wird das Bild und desto mehr geht die Information verloren.
In der Paper betont DeepSeek, dass die optische Kontextkompression noch ein junger, aber vielversprechender Forschungsbereich ist. DeepSeek - OCR ist nicht nur ein gutes und häufig verwendetes OCR - Tool, sondern auch ein Modell von hohem praktischem Wert. Es verfügt über die Fähigkeit, große Mengen an vortrainierten Daten zu produzieren und kann als unverzichtbarer Helfer bei der LLM - Trainierung dienen. In der Praxis kann dieses Modell täglich Trainingsdaten im Millionenbereich an Seiten produzieren, was die Effizienz bei der Erstellung von multimodalen Daten erheblich verbessert.
Der "Umriss" des Weltmodells
Wenn man das menschliche Gehirn aus der Perspektive eines "biologischen Computers" betrachtet, kann man es grob so zusammenfassen: Es komprimiert Informationen auf eine äußerst effiziente Weise in einer multimodalen und einheitlichen Repräsentation, um die reale Welt zu modellieren und vorherzusagen.
Ein LLM hingegen "modelliert und prognostiziert die reale Welt über die Sprache als einzige Modalität".
Wenn ein großes Sprachmodell auf ein AGI hinauslaufen könnte, würde das heißen, dass der Mensch die Welt nur über die Sprache versteht und über die Sprache die Welt modellieren kann? Aber hier gibt es einen offensichtlichen Fehler. Der Mensch hat nicht den "erworbenen, nicht apriorischen" Worttrenner wie bei der LLM - Tokenisierung. Karpathy beschreibt den Tokenisierungsprozess als hässlich und klobig.
Der vom Benutzer eingegebene Text wird durch ein sogenanntes "Tokenizer" (Worttrenner) in AI - "lesbare" Inhalte umgewandelt. Ein Satz wird in einzelne "Token" zerlegt. Beispielsweise könnte "Hello, world!" in [Hello], [,], [world], [!], also vier Token, zerlegt werden. Die Standards für die Worttrennung sind nicht einheitlich. Verschiedene Wortlisten und Tokenizer bedeuten auch verschiedene Tokenisierungsmethoden für die jeweiligen Modelle, was sich auf die endgültige Leistung des Modells auswirkt.
Ist der Worttrennerprozess bei der Umwandlung von LLM - Text in Token wirklich unumgänglich? Und die Paper von DeepSeek - OCR liefert versehentlich einen Beweis: Sie zeigt, dass ein AI - System mit nur 100 "visuellen Token" (Vision Tokens) den Originaltext, der 1000 "Text - Token" enthält, mit hoher Genauigkeit "dekomprimieren" kann, ohne dass der Texttrennprozess erforderlich ist.
Die Sprache hängt stark von visuellen Erfahrungen und multimodalen Grundlagen ab. Die Schrift selbst ist eine sekundäre Abstraktion der Wahrnehmung der Welt. Warum sollten unsere AI - Systeme die ursprünglichen und reichhaltigen Repräsentationsschichten umgehen? Wenn ein Modell Texte direkt auf der Pixel - Ebene versteht, sieht es nicht nur die Sprache, sondern erlernt ein reichhaltigeres und tieferes Lernmechanismus.
Wie bereits erwähnt, ist es im Vergleich zu eindimensionalen diskreten Informationen wie der Sprache extrem schwierig und bisher erfolglos, eindimensional kontinuierliche visuelle Informationen end - to - end zu komprimieren und eine einheitliche Repräsentation zu