Sensation: DeepSeek öffnet erneut die Quelle: Vision ist Kompression, 100 Tokens schlagen 7.000
Bild sagt mehr als tausend Worte! Das DeepSeek-OCR-Modell erkundet mutig die Grenzen der visuell-textuellen Kompression. Durch die Dekodierung aus nur wenigen visuellen Token kann es mehr als zehnmal so viele Textinformationen extrahieren. Diese End-to-End-VLM-Architektur schlägt nicht nur das GOT-OCR2.0 auf der OmniDocBench-Benchmark, sondern bietet auch eine effiziente Lösung für das Problem der langen Kontexte in LLMs.
DeepSeek hat ein neues Modell veröffentlicht!
Auf GitHub hat DeepSeek ein neues Repository namens DeepSeek-OCR erstellt, um die Grenzen der visuell-textuellen Kompression zu erkunden.
Es heißt: Ein Bild sagt mehr als tausend Worte. Das gilt auch für LLMs!
Theoretisch hat das DeepSeek-OCR-Modell die Machbarkeit der "kontextuellen optischen Kompression" erstmals bestätigt –
Aus nur wenigen visuellen Token kann das Modell effektiv mehr als zehnmal so viele Text-Token dekodieren.
Das bedeutet, dass ein einzelnes Bild mit Dokumententexten eine reiche Menge an Informationen mit weit weniger Token darstellen kann als der äquivalente Text.
Dies zeigt, dass eine höhere Kompressionsrate durch die optische Kompression mit visuellen Token erreicht werden kann.
Als vermittelnde Modalität zwischen Vision und Sprache ist die OCR-Aufgabe ein idealer Testplatz für das Paradigma der visuell-textuellen Kompression –
Sie etabliert eine natürliche Kompressions-Dekompressions-Mapping-Beziehung zwischen visueller und textueller Repräsentation und bietet gleichzeitig quantifizierbare Bewertungsmetriken.
Das DeepSeek-OCR hat einen hohen praktischen Wert in der OCR-Aufgabe: In der OmniDocBench-Benchmark übertrifft es das GOT-OCR2.0 (256 Token pro Seite) mit nur 100 visuellen Token und das MinerU2.0 (durchschnittlich über 6.000 Token pro Seite) mit weniger als 800 visuellen Token.
Abbildung (a) zeigt die Kompressionsrate (Anzahl der echten Text-Token / Anzahl der vom Modell verwendeten visuellen Token) in der Fox-Benchmark; Abbildung (b) zeigt den Leistungsvergleich auf der OmniDocBench.
In der praktischen Anwendung kann eine einzelne A100-40G-Grafikkarte die Erzeugung von Trainingsdaten für Large Language Models / Vision-Language Models für mehr als 200.000 Seiten pro Tag unterstützen.
Das neue Modell kann auch Diagramme, chemische Formeln, einfache geometrische Figuren und natürliche Bilder analysieren:
In verschiedenen historischen Kontextphasen kann die visuell-textuelle Kompression des DeepSeek-OCR die Anzahl der Token um das 7- bis 20-fache reduzieren, was eine praktikable Richtung für die Lösung des Problems der langen Kontexte in Large Language Models bietet.
Dieses Paradigma eröffnet neue Möglichkeiten für das erneute Überdenken der synergetischen Fusion von visuellen und sprachlichen Modalitäten und somit für die Verbesserung der Rechenleistung bei der Verarbeitung großer Textmengen und in Agentensystemen.
Diese Entdeckung wird die zukünftige Entwicklung von Vision-Language-Modellen und Large Language Modellen stark vorantreiben.
GitHub: https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR
Das Open-Source-Werkzeug DeepSeek-OCR erkundet die kontextuelle optische Kompression
Aktuelle Open-Source-VLM (Vision-Language-Modell)-Architekturen verwenden drei Haupttypen von visuellen Encodern, aber alle haben ihre eigenen Nachteile.
Mit dem Fortschritt von VLM sind viele End-to-End-OCR-Modelle entstanden, die die traditionelle Pipeline-Architektur grundlegend verändert und das OCR-System vereinfacht haben.
Aber es gibt ein zentrales Problem:
Für ein Dokument mit 1.000 Wörtern, wie viele visuelle Token sind mindestens erforderlich, um es zu dekodieren?
Dieses Problem ist von großer Bedeutung für die Erforschung des Prinzips "Ein Bild sagt mehr als tausend Worte".
Das DeepSeek-OCR zielt darauf ab, diese Frage zu beantworten. Es verwendet eine einheitliche End-to-End-VLM-Architektur, die aus einem Encoder und einem Decoder besteht.
Der Encoder (DeepEncoder) ist für die Extraktion von Bildmerkmalen und die Tokenisierung und Kompression der visuellen Repräsentation verantwortlich. Der Decoder erzeugt das gewünschte Ergebnis basierend auf den Bild-Token und den Hinweisen.
Encoder: Die innovative Architektur von DeepEncoder
Um die Machbarkeit der "kontextuellen optischen Kompression" zu bestätigen, muss der visuelle Encoder die folgenden Eigenschaften erfüllen:
- Er muss in der Lage sein, hochaufgelöste Bilder zu verarbeiten;
- Er muss bei hoher Auflösung einen geringen Aktivierungsaufwand haben;
- Er muss weniger visuelle Token erzeugen;
- Er muss die Unterstützung von Mehrfachauflösungen ermöglichen;
- Er muss eine moderate Parameteranzahl haben.
Die Forscher haben einen völlig neuen visuellen Encoder namens DeepEncoder vorgeschlagen. DeepEncoder hat etwa 380 Millionen Parameter und besteht hauptsächlich aus einem in Reihe geschalteten SAM-base und einem CLIP-large.
Der visuelle Wahrnehmungsmerkmalsextraktor verwendet hauptsächlich Window Attention und basiert auf einem SAM-base mit 80 Millionen Parametern (Patch-Größe 16);
Der visuelle Wissensmerkmalsextraktor verwendet Dense Global Attention und basiert auf einem CLIP-large mit 300 Millionen Parametern.
Zwischen diesen beiden Komponenten befindet sich ein 2-Schichten-Faltungsmodul, das die visuellen Token um das 16-fache unterabtastet.
DeepEncoder komprimiert die Bildgröße, indem es beispielsweise ein Eingangsbild der Größe 1024×1024 in 1024/16×1024/16 = 4096 Patch-Token aufteilt.
Der erste Teil des Encoders wird von Window Attention dominiert und hat nur 80 Millionen Parameter, daher ist der Aktivierungsspeicherverbrauch akzeptabel.
Bevor die 4096 Token in das globale Attention-Modul gelangen, werden sie durch ein Kompressionsmodul geleitet, und die Anzahl der Token wird schließlich auf 4096/16 = 256 reduziert, wodurch der gesamte Aktivierungsspeicherverbrauch kontrollierbar bleibt.
Angenommen, es gibt ein Bild mit 1.000 optischen Zeichen, um zu testen, wie viele visuelle Token für die Dekodierung erforderlich sind, muss das Modell die Unterstützung von variablen Anzahlen von visuellen Token ermöglichen.
Das bedeutet, dass DeepEncoder die Unterstützung von mehreren Auflösungen benötigt.
Dynamische Interpolations-Positionskodierung kann diese Anforderungen erfüllen.
Die Forscher haben mehrere Auflösungsmodi entworfen, um während des Modelltrainings die Unterstützung von mehreren Auflösungen zu ermöglichen, wodurch ein einzelnes DeepSeek-OCR-Modell die Unterstützung von mehreren Auflösungen erreicht.
Wie in Abbildung 4 gezeigt, unterstützt DeepEncoder hauptsächlich zwei Eingabemodi: Originalauflösung und dynamische Auflösung. Jeder Modus enthält mehrere Teilmodi.
Die Originalauflösung unterstützt vier Teilmodi: Tiny, Small, Base und Large.
Die dynamische Auflösung besteht aus einer Kombination von zwei Originalauflösungen.
Die Unterstützung der dynamischen Auflösung zielt hauptsächlich auf die Anwendungsanforderungen bei Eingaben mit extrem hoher Auflösung (z. B. Zeitungsbilder) ab. Das Tiling ist eine Methode der sekundären Window Attention, die weiterhin effektiv den Aktivierungsspeicherverbrauch reduzieren kann.
Im Gundam-Modus gibt DeepEncoder n×100 + 256 visuelle Token aus, wobei n die Anzahl der Kacheln ist.
Der Gundam-Modus wird zusammen mit den vier Originalauflösungsmodi trainiert, um das Ziel zu erreichen, dass ein Modell mehrere Auflösungen unterstützt.
Es ist erwähnenswert, dass der Gundam-master-Modus (lokale Ansicht von 1024×1024 + globale Ansicht von 1280×1280) durch das Weiter-Training auf einem bereits trainierten DeepSeek-OCR-Modell erhalten wird.
Die folgende Tabelle 1 fasst die Auflösungen und die Anzahl der Token in jedem Modus zusammen.
Decoder: DeepSeek-3B-MoE
Der Decoder verwendet DeepSeekMoE, genauer gesagt DeepSeek-3B-MoE.
Während der Inferenz aktiviert das Modell 6 Routing-Experten und 2 gemeinsame Experten, was insgesamt etwa 570 Millionen Parameter aktiviert.