Das ultimative Streben von DeepSeek: Die Grundsprachen großer Sprachmodelle alle in Bilder umwandeln
Wenn wir über DeepSeek sprechen, wird Multimodalität selten erwähnt.
Am 20. Oktober 2025 hat DeepSeek jedoch plötzlich DeepSeek-OCR Open-Source gemacht. Es scheint ein OCR (Optical Character Recognition)-Modell zu sein, das auf autoritativen Benchmarks wie OmniDocBench SOTA (State of the Art) bewiesen hat.
Warum hat es plötzlich in den OCR-Bereich eingestiegen? Die Antwort verbirgt sich in der größten Herausforderung, vor der sich aktuelle Large Language Models (LLMs) befinden: der Rechenleistungsschwelle bei der Verarbeitung von langen Kontexten.
Der Kernpunkt dieser Studie lautet: Textinformationen können durch optische 2D-Abbildung (d.h. Rendering in Bilder) effizient komprimiert werden, und dann kann ein VLM (Visual Language Model) die ursprünglichen Informationen aus den Bildern extrahieren.
Einfach ausgedrückt: Textinhalt wird in Bildform umgewandelt, und die gleichen Informationen werden mit viel weniger visuellen Token repräsentiert als mit äquivalentem digitalem Text.
Der Guru Andrej Karpathy hat sich auch von dieser Studie stark inspirieren lassen und meint, dass Pixel möglicherweise ein besserer Input für LLMs sind als Text.
Er hat auch vier Vorteile aufgeführt:
Informationskompression: Er hat explizit die Ansicht aus der DeepSeek-OCR-Studie zitiert, wonach dies zu "kürzeren Kontextfenstern und höherer Effizienz" führen wird.
Allgemeinerer Informationsfluss: Der Input ist nicht länger auf reinen Text beschränkt, sondern kann auch "fettgedruckten, farbigen Text und beliebige Bilder" enthalten.
Stärkeres Verarbeitungsverfahren: Bilder können durch "bidirektionale Attention" leicht verarbeitet werden, was "viel stärker" ist als die übliche autoregressive Attention bei Texten.
Entfernung des Tokenizers (auf der Eingabeseite): Dies war der Punkt, der ihn am meisten aufregte. Er hat damit heftig das Problem der bestehenden Tokenizer kritisiert.
Dieser Artikel wird diese Idee tiefgehend analysieren und untersuchen, warum DeepSeek die visuelle Methode anwendet, um Textprobleme zu lösen. Diese Studie wird möglicherweise das gesamte Eingabeparadigma von LLMs mit der Macht eines Bildes, das tausend Worte sagt, verändern.
01 OCR im Namen, langer Kontext in der Tat
In der Welt der LLMs scheint alles auf die "längeren Kontexte" abzustellen. Vom Tausend- zum Zehntausend- und heute zum Millionentokenfenster hat dieser Wettrüsten niemals aufgehört.
Die zugrunde liegende Einschränkung stammt aus dem Kern des Transformer-Frameworks, dem Attention-Mechanismus.
Der Standard-Global-Attention-Mechanismus ermöglicht es jedem Token in einer Sequenz, alle anderen Token zu "sehen", was dem Modell eine starke Fähigkeit zur Kontextverstehung verleiht. In den derzeit vorherrschenden autoregressiven Modellen ist diese Fähigkeit jedoch teuer: Da jedes Token eine multiplikative Beziehung zu allen vorhergehenden Token aufbauen muss, um das nächste Token vorherzusagen, wächst die Rechenkomplexität und der Speicherbedarf quadratisch mit der Sequenzlänge.
Obwohl die Branche Techniken wie Grouped Attention, Multi-Query Attention und RoPE-Positions-Codierung vorgeschlagen hat, um die Anzahl der Query-Head zu reduzieren, versuchen diese Methoden im Wesentlichen, die quadratische Komplexität der Tokenberechnung zu optimieren, ohne die Anzahl der Token selbst zu reduzieren.
Die Ingenieure des DeepSeek-AI-Teams haben offensichtlich dieses Problem erkannt. Sie haben sich aus der Optimierung der Attention-Berechnung herausgearbeitet und eine grundlegendere Frage gestellt: Können wir die Anzahl der Token selbst "komprimieren"?
Dies ist der logische Ausgangspunkt der optischen Kompression (Contexts Optical Compression).
Um dies zu verstehen, müssen wir zuerst die Unterschiede zwischen visuellen Token und Text-Token verstehen.
Visuelle Token sind die grundlegenden Informations-Einheiten, die visuelle Modelle bei der Verarbeitung von Bildern verwenden. Während Textmodelle (LLMs) Text-Token (Wörter oder Subwörter) lesen, "sehen" visuelle Modelle (VLMs) visuelle Token.
In der DeepSeek-OCR-Studie werden visuelle Token erzeugt, indem hochauflösende Bilder in kleine Bildblöcke geschnitten werden. Bei der Codierung wird jeder kleine Bildblock in einen numerischen Vektor (d.h. ein Token) umgewandelt, der alle Informationen des Bildblocks repräsentiert. Ein 1024x1024-Bild kann daher in 4096 visuelle Token aufgeteilt werden.
Ein Bild, das die Hälfte der Größe hat, kann ungefähr 10.000 Text-Token aufnehmen.
Ein Dokumentbild mit 10.000 Wörtern hat nach der Visualisierung nur noch die Hälfte der Tokenanzahl. Nach der Bildkompression benötigt es möglicherweise nur einige hundert visuelle Token, während es in Textform über 10.000 Text-Token benötigen würde. Diese Erkenntnis, dass das visuelle Modal natürlicherweise ein effizientes Kompressionsmedium für Textinformationen ist, hat das DeepSeek-OCR-Projekt geboren.
DeepSeek-OCR ist im Wesentlichen eine Proof-of-Concept für ein "optisches Kompressions- und Dekompressionssystem". Es versucht, eine grundlegende Frage zu beantworten: Wie viele visuelle Token sind erforderlich, um wie viele Text-Token zu dekodieren?
Die Antwort auf diese Frage wird direkt die Machbarkeit der "visuellen Kompression" als Lösung für lange Kontexte bestimmen. DeepSeeks aktuelles Verfahren erreicht eine Kompression von 10-fach mit fast keinem Informationsverlust und von 20-fach, wobei das Ergebnis immer noch brauchbar ist.
02 DeepEncoder, die Kunst der Kompression
Um die optische Kompression zu erreichen, braucht das Team einen bisher nicht existierenden visuellen Encoder. Er muss hochauflösende Eingaben verarbeiten können (da Textbilder eine Menge Details enthalten) und möglichst wenige visuelle Token erzeugen. Gleichzeitig muss der Aktivierungsspeicher so niedrig wie möglich sein (ansonsten verliert die Optimierung ihren Sinn).
Die Studie hat klar festgestellt, dass alle gängigen VLM-Frameworks (wie Vary, InternVL2, Qwen2-VL) diese drei Anforderungen nicht gleichzeitig erfüllen können.
Deshalb hat DeepSeek-AI die erste Kerninnovation in dieser Studie entwickelt: DeepEncoder.
DeepEncoder ist ein serielles Framework mit ca. 380 Millionen Parametern. Seine Arbeitsweise ähnelt einer Geheimdienststelle, die ein dreistufiges serielles Framework bildet.
Die erste Stufe ist ein SAM-base-Sensor mit 80 Millionen Parametern. Er ist wie ein Spion, der Geheimdienstinformationen sammelt und sich auf die lokalen Details der hochauflösenden Eingabe konzentriert. Bei einem 1024x1024-Bild teilt er es in 4096 Bildblöcke auf. Durch den Window-Attention-Mechanismus beschränkt er die Berechnung streng auf kleine Fenster, um so bei der Verarbeitung einer großen Anzahl von lokalen Token einen sehr geringen Aktivierungsspeicher zu halten.
Die zweite Stufe ist der Schlüssel des gesamten Frameworks, ein 16-facher Kompressor (Conv 16x). Er ist wie ein Informations-Summarizer und besteht aus einem zweischichtigen Convolution-Modul. Er erhält die 4096 "rohen Informationen" aus der ersten Stufe und "komprimiert" sie durch eine lernfähige 16-fache Subsampling in eine "Zusammenfassung" mit nur 256 visuellen Token. Er hat gelernt, welche Merkmale für die "Dekodierung des Textes" am wichtigsten sind.
Die dritte Stufe ist eine Wissensschicht (CLIP-large) mit 300 Millionen Parametern, die wie ein Oberbefehlshaber fungiert. Dieser Teil schaut nicht auf die 4096 rohen Informationen, sondern nur auf die Zusammenfassung mit 256 Token. Da die Zusammenfassung kurz genug ist, kann er teuren Global-Attention-Mechanismus verwenden, um diese 256 Token gründlich zu vergleichen und zu analysieren, um die langfristigen Beziehungen und die globale semantische Struktur dieser komprimierten Token zu verstehen.
Die 256 Token, die der Encoder (DeepEncoder) ausgibt, sind nur eine globale visuelle Zusammenfassung. Der eigentliche Decoder, der den gesamten Kontext in der richtigen Reihenfolge wiederherstellt, ist der Decoder DeepSeek-3B-MoE. DeepSeek-3B-MoE erhält diese visuelle Token-Zusammenfassung und erzeugt Text. Er berücksichtigt die visuellen Beweise aus der "mittleren" globalen Zusammenfassung des DeepEncoders und verwendet sein eigenes Sprachmodell, um die Kohärenz des Kontexts sicherzustellen.
Das serielle Design von DeepEncoder, das zuerst lokal, dann komprimiert und schließlich global arbeitet, vermeidet perfekt die Probleme aller bisherigen Lösungen.
Vary ist wie zwei unabhängige Experten, einer sieht die Details, der andere das Ganze, und der LLM muss schließlich raten. DeepEncoder hingegen ist ein serielles Framework, das die Informationen schrittweise aufbereitet und somit ein besseres Design hat.
InternVL2 teilt große Bilder in Tausende von Fragmenten auf, was Tausende von Token erzeugt, ohne globale Sicht und Kompressionsfähigkeit. DeepEncoder erzeugt durch interne Kompression nur einige hundert Token.
Qwen2-VL versucht, Global-Attention direkt auf Tausende von Token anzuwenden, was leicht zu einem Speicherverbrauchsexplosion führt. DeepEncoder wendet Global-Attention nur auf die 256 komprimierten Token an, was kostengünstig ist.
Dieses Designkonzept von "zuerst lokale Wahrnehmung, dann Kompression und schließlich globale Verständnis" löst perfekt das Problem zwischen der Verarbeitung von hochauflösenden Bildern und dem geringen Rechenaufwand.
Die Experimentergebnisse haben die Effektivität dieses Designs bewiesen:
10-fache Kompressionsrate: Wenn 64 visuelle Token (Tiny-Modus) verwendet werden, um 600-700 Text-Token zu dekodieren, erreicht die Kompressionsrate 10,5-fach, und die OCR-Genauigkeit liegt bei 96,5%.
20-fache Kompressionsrate: Wenn die Kompressionsrate auf fast 20-fach steigt (z.B. 64 Token für 1200+ Token), sinkt die Genauigkeit des Modells, bleibt aber immer noch bei ~60%.
Die Anzahl der benötigten Token für DeepSeek OCR variiert je nach Dokumententyp: Ein einfaches Präsentationsdokument benötigt etwa 64 Token, Bücher und Berichte etwa 100 Token, und komplexe Zeitungsinhalte erfordern den sogenannten "Gundam-Modus", bei dem bis zu 800 Token verwendet werden können.
Im realen OCR-Benchmark OmniDocBench hat es sogar eine dominierende Leistung gezeigt:
DeepSeek-OCR (Small-Modus) erreicht mit nur 100 visuellen Token eine bessere Leistung als GOT-OCR2.0 mit 256 Token.
DeepSeek-OCR (Gundam-Modus) erreicht mit weniger als 800 visuellen Token eine bessere Leistung als MinerU2.0, das fast 7000 Token benötigt.
Dies bedeutet, dass man mit dieser Methode die aktuelle maximale Länge des Kontexts um das Zehnfache erhöhen kann, ohne die Genauigkeit zu verringern. Aufgrund seiner Kompressionsleistung kann eine einzelne NVIDIA A100 GPU mehr als 200.000 Seiten Dokumente pro Tag verarbeiten. Mit 20 Servern (jeweils mit 8 A100 GPUs) kann die tägliche Verarbeitungsleistung des Systems auf etwa 33 Millionen Seiten gesteigert werden.
DeepSeek-OCR kann auch verschiedene Dokumententypen erkennen und verarbeiten, einschließlich reinen Textes, Diagrammen, chemischen Formeln und geometrischen Figuren. Es unterstützt etwa 10