StartseiteArtikel

Das neueste sensationelle Modell von DeepSeek: Ein bahnbrechender Durchbruch in der VLM-Architektur, AI liest Bilder wie ein Mensch.

智东西2026-01-27 16:07
Dieses Framework kann zur Integration mehrerer Modalitäten wie zusätzlichen Texten, Sprach- und visuellen Informationen verwendet werden.

▲ Die Kopfabbildung wurde von KI generiert.

Nach Berichten von Zhidongxi vom 27. Januar hat DeepSeek gerade sein spezielles Modell DeepSeek-OCR 2 für OCR-Szenarien open source gemacht und gleichzeitig den technischen Bericht veröffentlicht. Dieses Modell ist eine Weiterentwicklung des DeepSeek-OCR-Modells vom vergangenen Jahr. Der neuartige Decoder lässt das Modell Bilder betrachten und Dateien lesen, ähnlich wie ein Mensch, anstatt wie ein mechanischer Scanner.

Einfach ausgedrückt, lasen frühere Modelle Bilder von links oben nach rechts unten in einem Teppichmuster, während DeepSeek-OCR 2 die Struktur verstehen und schrittweise lesen kann. Dieser neue visuelle Verständnisansatz ermöglicht es DeepSeek-OCR 2, komplexe Layoutreihenfolgen, Formeln und Tabellen besser zu verstehen.

Im Dokumentenverständnis-Referenztest OmniDocBench v1.5 erreichte DeepSeek-OCR 2 eine Punktzahl von 91,09 %. Bei unveränderten Trainingsdaten und Encoder stellte sich dies im Vergleich zu DeepSeek-OCR um 3,73 % verbessert dar. Im Vergleich zu anderen End-to-End-OCR-Modellen ist dies bereits ein SOTA-Ergebnis, jedoch liegt seine Leistung etwas hinter der OCR-Pipeline PaddleOCR-VL von Baidu (92,86 %).

Zusätzlich ist bei ähnlichem visuellen Token-Budget die Editierdistanz (der Arbeitsaufwand, um den Text korrekt zu editieren) von DeepSeek-OCR 2 bei der Dokumentenanalyse geringer als die von Gemini-3 Pro. Dies beweist, dass DeepSeek-OCR 2 bei hervorragender Leistung eine hohe Komprimierungsrate der visuellen Token aufrechterhält.

DeepSeek-OCR 2 hat einen doppelten Wert: Es kann sowohl für explorative Forschungen als neuartige VLM (visuelles Sprachmodell)-Architektur eingesetzt werden als auch als praktisches Werkzeug zur Generierung hochwertiger vortrainierter Daten für das Training von Large Language Modellen dienen.

Link zur Studie: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

Open-Source-Adresse: https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01. Verstehen Large Language Modelle keine komplexen Dateistrukturen? Beobachten Sie zuerst die Gesamtansicht und lesen Sie dann, um das Problem zu lösen

Von der Architektur her erbt DeepSeek-OCR 2 die Gesamtarchitektur von DeepSeek-OCR, die aus einem Encoder und einem Decoder besteht. Der Encoder diskretisiert das Bild in visuelle Token, während der Decoder basierend auf diesen visuellen Token und Textaufforderungen die Ausgabe generiert.

Der entscheidende Unterschied liegt im Encoder: DeepSeek hat den bisherigen DeepEncoder zu DeepEncoder V2 verbessert. Dieser behält alle ursprünglichen Fähigkeiten bei, ersetzt jedoch den ursprünglich CLIP-basierten Encoder durch einen LLM-basierten und führt gleichzeitig durch ein neues Architekturdesign kausale Inferenz ein.

Das zentrale Problem, auf das DeepEncoder V2 abzielt, ist, dass das Modell bei der Modellierung von Raumbeziehungen unweigerlich von der Reihenfolge beeinflusst wird, wenn die zweidimensionale Struktur in eine eindimensionale Sequenz abgebildet und mit einer linearen Reihenfolge verknüpft wird.

Dies mag in natürlichen Bildern noch akzeptabel sein, jedoch in Szenarien wie OCR, Tabellen und Formularen mit komplexem Layout stimmt die lineare Reihenfolge oft stark nicht mit der tatsächlichen semantischen Organisation überein, was die Fähigkeit des Modells, visuelle Strukturen auszudrücken, einschränkt.

Wie löst DeepEncoder V2 dieses Problem? Zunächst verwendet es einen visuellen Tokenizer, um das Bild effizient darzustellen. Durch die Fenster-Attention wird eine etwa 16-fache Token-Komprimierung erreicht, wodurch die nachfolgenden globalen Attention-Berechnungen und der GPU-Speicherbedarf erheblich reduziert werden, während gleichzeitig ausreichend lokale und mittelmaßstäbliche visuelle Informationen beibehalten werden.

Anstatt auf Positionsencodierung zu setzen, um die semantische Reihenfolge der visuellen Token festzulegen, führt es kausale Strömungsabfragen (causal queries) ein, um die visuellen Markierungen inhaltlich zu sortieren und zu destillieren. Diese Reihenfolge wird nicht durch Regeln für die räumliche Entfaltung bestimmt, sondern wird vom Modell schrittweise nach der Betrachtung des gesamten visuellen Kontexts generiert, wodurch eine starke Abhängigkeit von einer festen eindimensionalen Reihenfolge vermieden wird.

Jede kausale Abfrage kann alle visuellen Token und frühere Abfragen berücksichtigen, wodurch bei gleichbleibender Tokenanzahl die visuellen Merkmale semantisch neu sortiert und die Informationen destilliert werden. Am Ende wird nur die Ausgabe der kausalen Abfragen an den nachgelagerten LLM-Decoder gesendet.

Dieses Design bildet im Wesentlichen einen zweistufigen kausalen Inferenzprozess: Zunächst werden die ungeordneten visuellen Markierungen innerhalb des Encoders durch kausale Abfragen semantisch sortiert. Anschließend führt der LLM-Decoder auf dieser geordneten Sequenz eine autoregressive Inferenz durch.

Im Vergleich zur Methode, die räumliche Reihenfolge durch Positionsencodierung zu erzwingen, entspricht die von den kausalen Abfragen induzierte Reihenfolge eher der visuellen Semantik selbst, d. h. der normalen Gewohnheit des Menschen, Inhalte zu lesen.

Da sich DeepSeek-OCR 2 hauptsächlich auf die Verbesserung des Encoders konzentriert, wurde die Decoderkomponente nicht verbessert. Gemäß diesem Designprinzip behielt DeepSeek den Decoder von DeepSeek-OCR bei: eine 3B-Parameter-MoE-Struktur mit etwa 500 Millionen aktiven Parametern.

02. OmniDocBench-Punktzahl von 91,09 %, Editierdistanz geringer als die von Gemini-3 Pro

Um die Wirksamkeit des obigen Designs zu bestätigen, führte DeepSeek Experimente durch. Das Forschungsunternehmen trainierte DeepSeek-OCR 2 in drei Phasen: Encoder-Vortraining, Abfrageverstärkung und Decoder-Spezialisierung.

In der ersten Phase erwerben der visuelle Tokenizer und der LLM-stilige Encoder die grundlegenden Fähigkeiten der Merkmalsextraktion, Token-Komprimierung und Token-Neusortierung. In der zweiten Phase wird die Token-Neusortierungsfähigkeit des Encoders weiter verbessert, und gleichzeitig wird die visuelle Wissenskomprimierung verstärkt. In der dritten Phase werden die Encoder-Parameter eingefroren, und nur der Decoder wird optimiert, wodurch bei gleichen FLOPs ein höherer Datendurchsatz erreicht wird.

Um die Effektivität des Modells zu bewerten, wählte DeepSeek OmniDocBench v1.5 als Hauptbewertungsgrundlage. Diese Basis enthält 1.355 Dokumentenseiten und umfasst neun Hauptkategorien in chinesischer und englischer Sprache (einschließlich Zeitschriften, wissenschaftlicher Artikel und Forschungsberichte).

DeepSeek-OCR 2 erreichte eine Leistung von 91,09 % bei der Verwendung der minimalen visuellen Markierungsgrenze (V-token maxmax). Im Vergleich zur DeepSeek-OCR-Basislinie zeigte es bei ähnlichen Trainingsdatenquellen eine Verbesserung von 3,73 %, was die Wirksamkeit der neuen Architektur bestätigt.

Außer der gesamten Verbesserung sank auch die Editierdistanz (ED) der Lesereihenfolge (R-order) erheblich (von 0,085 auf 0,057), was zeigt, dass der neue DeepEncoder V2 die anfänglichen visuellen Markierungen effektiv auswählen und anordnen kann, basierend auf den Bildinformationen.

Bei ähnlichem visuellen Markierungsbudget (1.120) war die Editierdistanz von DeepSeek-OCR 2 (0,100) bei der Dokumentenanalyse geringer als die von Gemini-3 Pro (0,115), was weiter beweist, dass das neue Modell bei Gewährleistung der Leistung eine hohe Komprimierungsrate der visuellen Markierungen aufrechterhält.

Allerdings ist DeepSeek-OCR 2 nicht allmächtig. Bei Zeitungen mit sehr hoher Textdichte ist die Erkennungseffektivität von DeepSeek-OCR 2 nicht so gut wie bei anderen Texttypen. Dieses Problem kann später durch die Erhöhung der Anzahl der lokalen Zuschneidungen gelöst werden oder durch die Bereitstellung von mehr Stichproben während des Trainings.

03. Fazit: Möglicherweise der Beginn einer neuen VLM-Architektur

DeepEncoder V2 liefert eine erste Bestätigung für die Machbarkeit eines LLM-stiligen Encoders in visuellen Aufgaben. Noch wichtiger ist, dass das Forschungsunternehmen von DeepSeek glaubt, dass diese Architektur das Potenzial hat, sich zu einem einheitlichen ganzheitlichen Modus-Encoder zu entwickeln. Ein solcher Encoder könnte Text komprimieren, Sprachmerkmale extrahieren und visuelle Inhalte neu organisieren innerhalb desselben Parameterspace.

DeepSeek sagt, dass die optische Komprimierung von DeepSeek-OCR eine erste Erkundung in Richtung nativer Multimodalität darstellt. In Zukunft werden sie weiterhin die Integration zusätzlicher Modi durch diesen gemeinsamen Encoder-Frameworks erforschen, was der Beginn einer neuen VLM-Architektur für die Forschung sein könnte.

Dieser Artikel stammt aus dem WeChat-Account „Zhidongxi“ (ID: zhidxcom), Verfasser: Chen Junda. Veröffentlicht von 36Kr mit Genehmigung.