DeepSeek-OCR: Die Technologie großer Sprachmodelle steht an einem neuen Wegkreuz.
Stellen Sie sich vor, in dieser Zeit, in der die KI-Technologie wie eine Flut hereinbricht, entdecken wir plötzlich, dass ein einfaches Bild in erstaunlicher Effizienz eine riesige Menge an Textinformationen tragen kann. Dies ist kein „Traum“ mehr, sondern eine gerade geschehene Realität.
Diese Woche hat DeepSeek ein Modell namens „DeepSeek-OCR“ open source gemacht. Es hat erstmals das Konzept der „Kontextuellen Optischen Kompression“ (Context Optical Compression) eingeführt, und die technischen Details sowie die dahinterliegende Studie wurden ebenfalls veröffentlicht.
Obwohl es noch nicht viele Diskussionen auf dem Markt gibt, könnte dies ein leiser, aber tiefgreifender Wendepunkt in der Entwicklung der KI sein – es lässt uns beginnen zu hinterfragen: Ist das Bild der wahre König der Informationsverarbeitung?
01 Die verborgene Macht des Bildes: Warum Bilder Texten überlegen sein könnten
Denken Sie zurück, die Dokumente, Berichte und Bücher, die wir täglich bearbeiten, werden oft in unzählige Text-Tokens zerlegt. Diese Tokens stapeln sich wie Ziegelsteine zu einer „Verständniswand“ des Modells.
Aber DeepSeek-OCR geht einen anderen Weg: Es behandelt Texte als Bilder. Durch visuelle Codierung komprimiert es den gesamten Seiteninhalt in wenige „visuelle Tokens“ und dekodiert sie dann wieder in Texte, Tabellen oder sogar Diagramme.
Was ist das Ergebnis? Die Effizienz hat sich um mehr als das Zehnfache verbessert, und die Genauigkeit liegt bei bis zu 97%.
Dies ist nicht nur eine technische Optimierung, sondern versucht zu beweisen: Das Bild ist kein Sklave der Information, sondern ein effizienter Träger.
Nehmen wir einen Artikel mit tausend Wörtern. Die herkömmliche Methode benötigt möglicherweise über tausend Tokens zur Verarbeitung, während DeepSeek nur etwa 100 visuelle Tokens benötigt, um alles mit 97%iger Wiedergabetreue wiederherzustellen. Das bedeutet, dass das Modell problemlos mit überlangen Dokumenten umgehen kann, ohne sich Gedanken über die Rechenressourcen machen zu müssen.
02 Architektur und Funktionsweise
Das Systemdesign von DeepSeek-OCR ist wie eine präzise Maschine und besteht aus zwei Modulen: Der leistungsstarke DeepEncoder ist für die Erfassung der Seiteninformationen zuständig, und der leichte Textgenerator fungiert wie ein Übersetzer, der die visuellen Tokens in lesbare Ausgaben umwandelt.
Der Encoder kombiniert die Fähigkeit zur lokalen Analyse von SAM und das globale Verständnis von CLIP. Dann reduziert ein 16-facher Kompressor die anfänglichen 4096 Tokens auf nur 256. Dies ist das zentrale Geheimnis der Effizienz.
Was noch klüger ist, es kann sich automatisch an die Komplexität des Dokuments anpassen: Ein einfaches PPT benötigt nur 64 Tokens, ein Buchbericht etwa 100, und eine dichte Zeitung maximal 800.
Im Vergleich dazu übertrifft es GOT-OCR 2.0 (benötigt 256 Tokens) und MinerU 2.0 (mehr als 6000 Tokens pro Seite), und die Anzahl der Tokens ist um 90% reduziert. Der Decoder verwendet eine Mixed-Experts (MoE)-Architektur mit etwa 3 Milliarden Parametern (etwa 5,7 Milliarden bei Aktivierung) und kann schnell Texte, Markdown oder strukturierte Daten generieren.
In praktischen Tests kann eine A100-Grafikkarte mehr als 200.000 Seiten Dokumente pro Tag verarbeiten; wenn man auf 20 Server mit acht Karten erweitert, kann die tägliche Verarbeitungsmenge auf 33 Millionen Seiten steigen. Dies ist kein Laborspielzeug mehr, sondern ein industrietaugliches Werkzeug.
03 Ein tiefgreifendes Paradoxon: Warum sind Bilder „sparender“?
Hier verbirgt sich ein interessantes Paradoxon: Ein Bild enthält offensichtlich mehr Rohdaten, warum kann es in einem Modell aber mit weniger Tokens auskommen? Die Antwort liegt in der Informationsdichte.
Text-Tokens scheinen zwar auf den ersten Blick einfach, aber im Inneren des Modells müssen sie in Tausende von Dimensionen aufgelöst werden; visuelle Tokens hingegen sind wie ein kontinuierliches Bild, das die Informationen kompakter packen kann. Das ist wie beim menschlichen Gedächtnis: Aktuelle Ereignisse bleiben klar im Gedächtnis, während ferne Erinnerungen verschwimmen, aber dennoch das Wesen behalten.
DeepSeek-OCR hat die Machbarkeit von visuellen Tokens bewiesen, aber das Training eines reinen visuellen Basis-Modells bleibt ein Rätsel. Herkömmliche Große Modelle sind dank des klaren Ziels „das nächste Wort vorhersagen“ erfolgreich, während das Vorhersageziel für Bilder und Texte unklar ist – das nächste Bildsegment vorhersagen? Die Bewertung ist zu schwierig; in Text umzuwandeln, führt wieder zurück zum alten Weg.
Deshalb ist es derzeit nur eine Verbesserung des bestehenden Systems, nicht aber eine Alternative. Wir stehen an einer Kreuzung: Es gibt unendliche Möglichkeiten vor uns, aber wir müssen geduldig auf einen Durchbruch warten.
Wenn diese Technologie reif und verbreitet wird, wird sie wie eine Kette von Wellen Auswirkungen haben:
Zunächst wird es die „Token-Ökonomie“ verändern: Lange Dokumente sind nicht mehr durch die Kontextfenstergrenze eingeschränkt, und die Verarbeitungskosten werden erheblich gesenkt. Zweitens wird die Informationsgewinnung verbessert: Finanzdiagramme und technische Zeichnungen können direkt in strukturierte Daten umgewandelt werden, präzise und effizient. Schließlich wird die Flexibilität erhöht: Es kann auch unter nicht idealen Hardwarebedingungen stabil funktionieren und die KI-Anwendungen demokratisieren.
Was noch besser ist, es kann auch das Langzeitgedächtnis von Chatbots verbessern. Durch die „visuelle Abnahme“: Alte Gespräche werden in Bilder mit niedriger Auflösung umgewandelt und gespeichert, um das Absterben des menschlichen Gedächtnisses zu simulieren und den Kontext zu erweitern, ohne die Token-Belastung zu sprengen.
04 Fazit
Die Bedeutung der Erforschung von DeepSeek-OCR liegt nicht nur in der Verbesserung der Effizienz um das Zehnfache, sondern auch darin, dass es die Grenzen der Dokumentenverarbeitung neu zeichnet. Es hinterfragt die Kontextbeschränkung, optimiert die Kostenstruktur und revolutioniert die Unternehmensprozesse.
Obwohl das Licht am Ende des Tunnels für das reine visuelle Training noch weit entfernt ist, ist die optische Kompression zweifellos eine neue Option auf dem Weg in die Zukunft.
Index der häufig gestellten Fragen:
Frage: Warum kann man nicht direkt mit Bildern von Texten ein Basis-Modell trainieren?
Antwort: Die Erfolge von Großen Modellen basieren auf dem klaren Ziel „das nächste Wort vorhersagen“ und der einfachen Bewertungsmethode. Bei Bildern von Texten ist die Bewertung des Vorhersagens des nächsten Bildsegments schwierig und langsam; in Text-Tokens umzuwandeln, führt wieder zurück zum herkömmlichen Weg. DeepSeek hat sich entschieden, ein bestehendes Modell zu feinabstimmen und die visuelle Repräsentation zu dekodieren, aber es hat die Token-Basis nicht ersetzt.
Frage: Wie ist die Geschwindigkeit im Vergleich zu herkömmlichen OCR-Systemen?
Antwort: Bei der Verarbeitung eines Bildes mit 3503×1668 Pixeln benötigt die Grund-Textextraktion 24 Sekunden, die strukturierte Markdown-Generierung 39 Sekunden und die vollständige Analyse mit Koordinatenrahmen 58 Sekunden. Herkömmliche OCR-Systeme sind schneller, aber bei gleicher Genauigkeit benötigen sie Tausende von Tokens – z. B. MinerU 2.0 benötigt über 6000 Tokens pro Seite, während DeepSeek weniger als 800 benötigt.
Frage: Kann diese Technologie das Langzeitgedächtnis von Chatbots verbessern?
Antwort: Ja. Durch die „visuelle Abnahme“: Alte Gespräche werden in Bilder mit niedriger Auflösung umgewandelt, um das Absterben des menschlichen Gedächtnisses zu simulieren und den Kontext zu erweitern, ohne die Token-Belastung zu sprengen. Es eignet sich für Langzeitgedächtnisszenarien, aber die Details der Implementierung in der Produktion müssen noch erläutert werden.
Dieser Artikel stammt aus dem WeChat-Account „Silicon Starlight“, Autor: Garcia, veröffentlicht von 36Kr mit Genehmigung.