Das neue Modell von DeepSeek ist verrückt: Der gesamte KI-Bereich forscht an der visuellen Route, und Karpathy gibt es nicht mehr vor.
„Ich mag die neue DeepSeek-OCR - Studie sehr … Vielleicht wäre es sogar sinnvoller, dass alle Eingaben für große Sprachmodelle (LLMs) Bilder sein sollten. Selbst wenn man zufällig reinen Text hat, sollte man ihn zuerst in ein Bild rendern und dann als Eingabe verwenden.“
Über Nacht scheint das Paradigma der großen Sprachmodelle von den neuen Modellen von DeepSeek umgestürzt worden zu sein.
Gestern Nachmittag wurde das neue Modell DeepSeek - OCR plötzlich Open - Source veröffentlicht. Bei der Verarbeitung dieses Modells kann ein Artikel mit 1.000 Wörtern auf 100 visuelle Token komprimiert werden. Bei einer Komprimierung um den Faktor 10 kann die Genauigkeit noch 97 % erreichen. Ein NVIDIA A100 kann pro Tag 200.000 Seiten Daten verarbeiten.
Diese Methode könnte möglicherweise das momentan Kopfzerbrechen machende Problem der Effizienz bei langen Kontexten im Bereich der großen Sprachmodelle lösen. Noch wichtiger ist, dass, wenn sich „sehen“ anstelle von „lesen“ als die richtige Richtung herausstellt, dies bedeutet, dass sich das Paradigma der großen Sprachmodelle grundlegend ändern wird.
Auf GitHub hat das DeepSeek - OCR - Projekt binnen einer Nacht über 4.000 Sterne erhalten.
Da es sich um ein Open - Source - Kleinstmodell handelt, wurde DeepSeek - OCR sofort von der gesamten AI - Community getestet. Viele Experten haben nach dem Lesen der Studie ihre Meinungen geäußert, und ihre Begeisterung war unübersehbar.
Andrej Karpathy, ein Mitbegründer von OpenAI und ehemaliger Leiter der Fahrerassistenzsysteme bei Tesla, hat gesagt, dass es sich um ein sehr gutes OCR - Modell handelt.
Er sagte: Als jemand, der im Kern Computer Vision erforscht und sich nur vorübergehend als Sprachwissenschaftler ausgibt, interessiert er sich besonders dafür, ob Pixel für große Sprachmodelle besser als Text als Eingabe geeignet sind. Verbrauchen Text - Token am Eingang möglicherweise Ressourcen und sind sogar schlecht?
Vielleicht wäre es sinnvoller, dass alle Eingaben für LLMs Bilder sein sollten. Selbst wenn man zufällig reinen Text hat, möchte man ihn vielleicht lieber zuerst rendern und dann als Eingabe verwenden:
- Mehr Informationskompression (siehe Studie) => Kürzerer Kontextfenster, höhere Effizienz
- Offensichtlich universellere Informationsflüsse => Nicht nur Text, sondern auch fett gedruckter Text, farbiger Text, beliebige Bilder.
- Jetzt kann man die Eingabe problemlos mit bidirektionaler Aufmerksamkeit verarbeiten, und das standardmäßig, anstatt mit autoregressiver Aufmerksamkeit - viel leistungsfähiger.
- Entfernen Sie den Tokenisierer (am Eingang)!! Ich habe schon genug darüber gejammert, wie sehr ich Tokenisierer hasse. Tokenisierer sind hässlich, eigenständig und nicht end - to - end. Sie „importieren“ alle Unschönheiten von Unicode und Byte - Codierungen, tragen eine Menge historischer Ballast und haben Sicherheits - / Ausbruchrisiken (z. B. aufeinanderfolgende Bytes). Sie lassen zwei Zeichen, die für das menschliche Auge gleich aussehen, im Netzwerk wie zwei völlig verschiedene Token aussehen. Ein Lächelnssymbol sieht wie ein seltsames Token aus, anstatt … einem echten Lächeln, einschließlich der Pixel und allem, was damit verbunden ist, sowie allen Transferlernprozessen. Der Tokenisierer muss entfernt werden.
OCR ist nur eine von vielen nützlichen visuellen Textaufgaben. Text - Text - Aufgaben können in visuelle Textaufgaben umgewandelt werden, aber nicht umgekehrt.
Viele Benutzerinformationen liegen in Bildern vor, aber die Ausgabe des Dekoders (die Antwort des intelligenten Assistenten) ist immer noch Text. Wie kann man Pixel tatsächlich ausgeben … oder vielmehr, wenn man Pixel ausgeben möchte, ist das nicht so offensichtlich.
Xie Saining, ein Assistentprofessor an der New York University, hat auch in einem Tweet Karpathys Kommentar hoch gelobt. Er fühlte sich besonders von dem Satz „Als jemand, der im Kern Computer Vision erforscht und sich nur vorübergehend als Sprachwissenschaftler ausgibt“ angesprochen.
Schließlich war es Xie Saining, der damals erstmals das Transformer - Framework mit Diffusionsmodellen kombiniert und das Diffusions - Transformer (DiT) vorgeschlagen hat, was einen neuen Weg für die Text - zu - Video - Generierung geebnet hat.
Einige Forscher haben auch eine noch interessantere Interpretation der potenziellen Bedeutung der DeepSeek - OCR - Studie gegeben.
Emanuel schrieb weiter: Traditionell sind in multimodalen großen Sprachmodellen visuelle Token fast wie ein Nachthought oder eine „Add - on“ - Funktion über dem Sprachmodellrahmen. Wenn man Text in Form von erkennbaren Bildpixeln darstellt, wird der Platz, den tausende englischer Wörter in einem multimodalen LLM einnehmen, viel größer sein als wenn man sie mit Text - Token darstellt.
Zum Beispiel könnte ein englischer Text mit zehntausend Wörtern ursprünglich 15.000 Text - Token entsprechen, aber wenn man ihn in visuelle Token umwandelt, könnte es 30.000 bis 60.000 visuelle Token werden. Offensichtlich ist die Effizienz von visuellen Token viel niedriger, daher waren sie in der Vergangenheit nur für Daten geeignet, die nicht effektiv mit Wörtern ausgedrückt werden konnten (z. B. Bilder oder visuelle Szenen).
Aber die Veröffentlichung dieser Studie hat alles umgeworfen.
DeepSeek hat eine Methode gefunden, die die Kompressionseffizienz von visuellen Token um das 10 - fache höher macht als die von Text - Token!
Mit anderen Worten, ein Text, der ursprünglich 10.000 Wörter benötigt, kann theoretisch jetzt mit nur etwa 1.500 speziell komprimierten visuellen Token vollständig dargestellt werden.
Wenn man über die Funktionsweise des menschlichen Gehirns nachdenkt, ist das nicht ganz überraschend.
Schließlich, wenn wir uns einen Teil eines gelesenen Buches erinnern, orientieren wir uns oft visuell: Wir können uns erinnern, auf welcher Seite, welcher Seite der Seite und an welcher ungefähren Position im Buch der Inhalt war. Das zeigt, dass unser Gehirn eine Art visuelles Gedächtnisrepräsentationsmechanismus verwendet.
Es ist jedoch noch unklar, wie sich dieser Mechanismus in der kognitiven Fähigkeit von LLMs am Ende auswirken wird. Kann das Modell noch so intelligent wie mit normalen Text - Token schließen, wenn es diese komprimierten visuellen Token verwendet? Oder macht diese Methode das Modell weniger gut darin, Sprache auszudrücken, weil es gezwungen wird, mehr visuell zu denken?
Wie auch immer, man kann sich vorstellen: Angesichts des tatsächlichen Leistungs - Trade - offs könnte dies eine sehr vielversprechende neue Richtung werden, um die effektive Kontextlänge (context size) von Modellen erheblich zu erweitern.
Insbesondere, wenn man es mit einer anderen Studie von DeepSeek über sparse Attention, die vor einigen Wochen veröffentlicht wurde, kombiniert, wird die Zukunft noch aufregender. Weitere Informationen finden Sie in der Meldung von Almost Human: „DeepSeek Open - Sources V3.2 - Exp, Publiziert Neues Sparse Attention - Mechanismus DSA“.
Er sagte auch: „Soweit wir wissen, könnte Google möglicherweise auch schon eine ähnliche Technologie entdeckt haben. Das könnte erklären, warum das Gemini - Modell so ein riesiges Kontextfenster hat und in OCR - Aufgaben so schnell und gut abschneidet. Natürlich würde man, wenn man es tatsächlich geschafft hat, es wahrscheinlich nicht öffentlich machen - schließlich würde es als wichtigstes Geschäftsgeheimnis angesehen werden. Das Verdienst von DeepSeek liegt darin, dass sie sich entschieden haben, alles Open - Source zu machen, einschließlich der Modellgewichte und der methodischen Details. Das bedeutet, dass jeder diese Revolution testen, verifizieren und weiter erforschen kann.“
Selbst wenn diese Techniken die Ausdrucksfähigkeit der Aufmerksamkeitsmechanismen etwas beeinträchtigen könnten, wäre es dennoch aufregend, wenn es es Front - Level - LLMs ermöglichen würde, ein Kontextfenster von zehn Millionen oder sogar zwanzig Millionen Token zu haben.
Stellen Sie sich vor: Sie können alle wichtigen internen Dokumente eines Unternehmens in den Präfix des Prompts einfügen und im System von OpenAI zwischenspeichern. Danach können Sie einfach eine spezifische Frage oder einen Prompt hinzufügen und die Abfrage schnell und kostengünstig durchführen, ohne ein Suchtool zu verwenden.
Oder Sie können die gesamte Codebasis in den Kontext einfügen und zwischenspeichern. Bei jeder Änderung müssen Sie nur den Unterschied wie bei Git hinzufügen.
Er sagte auch: „Das bringt mich an die Geschichte des berühmten Physikers Hans Bethe in Erinnerung - er war berühmt für sein erstaunliches Gedächtnis und konnte eine Menge zufälliger physikalischer Daten auswendig können (z. B. das gesamte Periodensystem, die Siedepunkte verschiedener Stoffe). Daher musste er beim Denken und Rechnen fast nie unterbrechen, um nach Informationen zu suchen.“
Es ist zweifellos, dass es eine extrem mächtige Fähigkeit ist, eine Menge aufgabenbezogener Kenntnisse zu haben und jederzeit darauf zugreifen zu können. Und die Methode von DeepSeek scheint ein kluger und erweiterbarer Weg zu sein, um die „Arbeitsgedächtnis“ - Kapazität von Modellen um das 10 - fache oder mehr zu erhöhen.
Auf Plattformen wie Hacker News hat DeepSeek - OCR auch breite Diskussionen ausgelöst.
Simon Willison, Mitbegründer des Django Web - Frameworks, hat sogar erfolgreich versucht, das Claude Code - Modell auf NVIDIA Spark - Hardware laufen zu lassen. Der gesamte Prozess dauerte nur 40 Minuten und erforderte nur 4 Prompts.
Der Tech - Videopodcaster NiceKate AI hat es erfolgreich auf einem Mac deployed.
Es ist jedoch zu beachten, dass viele Forscher darauf hingewiesen haben, dass, obwohl das neue DeepSeek - Modell in der Technik unstreitig ein großer Erfolg ist, der Kerngedanke der Methode nicht neu ist.
Tatsächlich wurde bereits 2022 in der Studie Language Modelling with Pixels von der Universität Kopenhagen und anderen Institutionen ein ähnlicher Gedanke vorgeschlagen. Darin wurde ein auf Pixeln basierender Sprachencoder (Pixel - based Encoder of Language), kurz PIXEL, vorgeschlagen, der möglicherweise das Vokabularproblem von Sprachmodellen lösen kann.
Übersicht über die PIXEL - Architektur, aus der Studie „Language Modelling with Pixels“, arXiv:2207.06991
Genauer gesagt, ist PIXEL ein vortrainiertes Sprachmodell, das Text in Bilder rendern kann, um auf der Grundlage der Ähnlichkeit der Schriftform oder des Pixel - Co - Aktivierungsmusters die Repräsentation zwischen verschiedenen Sprachen zu transferieren. Im Gegensatz zu traditionellen Sprachmodellen, die die Tokenverteilung vorhersagen, hat PIXEL das Ziel, die Pixel der verdeckten Bildblöcke wiederherzustellen.
Seitdem wurden von mehreren Forschungsergebnissen dieser Forschungsansatz weiterentwickelt und verbessert, mindestens einschließlich:
- CVPR 2023 - Studie: CLIPPO: Image - and - Language Understanding from Pixels Only
- NeurIPS 2024 - Studie: Leveraging Visual Tokens for Extended Text Contexts in Multi - Modal Learning
- Studie aus 2024: Improving Language Understanding from Screenshots
- NeurIPS 2025 - Studie: Vision - centric Token Compression in Large Language Model
Wie auch immer, es scheint, dass DeepSeek - OCR tatsächlich ein sehr nützliches Modell ist, und schon viele Pioniere haben es eingesetzt: