StartseiteArtikel

Der Text ist tot, die Visualisierung regiert. Karpathy lobt enthusiastisch das neue DeepSeek-Modell und beendet die Ära der Tokenizer.

新智元2025-10-21 15:20
Karpathy kann es kaum erwarten, an der Arbeit zu sein und kann es längst nicht mehr ertragen, den Tokenizer zu benutzen.

Neuer Durchbruch in der KI! DeepSeek-OCR verarbeitet Text auf Pixelebene, hat eine Kompressionsrate von weniger als 1/10 und führt in Benchmarks an. Es hat binnen einer Nacht 4.400 Sterne auf GitHub erhalten. Andrej Karpathy ist neugierig und sieht die Potenziale eines universellen visuellen Inputs.

DeepSeek hat die Welt erneut überrascht!

Ihr neuestes Ergebnis, DeepSeek-OCR, ändert grundlegend die Spielregeln –

Text ist nicht der universelle Input. Stattdessen wird die visuelle Darstellung an seine Stelle treten!

Darüber hinaus ist das DeepSeek-OCR-Modell in der Aufgabe der optischen Zeichenerkennung (OCR) wirklich das Optimum der Ingenieurskunst –

🚀 Auf einer einzelnen A100-40G-GPU kann es etwa 2.500 Token pro Sekunde verarbeiten und ist somit extrem schnell.

🧠 Bei einer OCR-Genauigkeit von 97% kann es den visuellen Kontext auf 1/20 des ursprünglichen Umfangs komprimieren. Unter normalen Bedingungen liegt das Kompressionsverhältnis leicht unter 1/10.

📄 Im OmniDocBench-Benchmark kann es mit weniger visuellen Token die Leistung von GOT-OCR2.0 und MinerU2.0 übertreffen.

Wie beeindruckend ist das Ergebnis tatsächlich?

Eine ganze Seite voller Text kann auf nur 100 visuelle Token komprimiert werden, was im OmniDocBench eine Kompression um das 60-fache ermöglicht!

DeepSeek-OCR verwandelt Text praktisch in Pixel, ähnlich wie wenn man ein 100-seitiges Buch in ein einzelnes Foto komprimiert, und die KI kann es dennoch verstehen.

Wenige Parameter, hohe Kompressionsrate, schnelle Verarbeitung und Unterstützung von 100 Sprachen … DeepSeek-OCR bietet alles.

Es hat nicht nur großen theoretischen Wert, sondern auch eine hohe Praxistauglichkeit und hat daher viele positive Bewertungen erhalten:

Das auf GitHub veröffentlichte Open-Source-Projekt DeepSeek-OCR hat binnen einer Nacht 4.400 Sterne 🌟 erhalten:

DeepSeek-OCR beweist mit Fakten, dass physische Seiten (wie Mikrofilme, Bücher) eine bessere Datenquelle für das Training von KI-Modellen sind – und nicht der niedrigwertige Internettext.

Andrej Karpathy, ein „Computer-Vision-Experte von Herzen“, ehemaliger Leiter der KI bei Tesla und Mitglied des Gründerteams von OpenAI, kann seine Begeisterung nicht verbergen und unterstützt das neue DeepSeek-Modell.

Karpathy ist neugierig und hat es schon lange satt mit Tokenisierern

Karpathy gefällt die neue Studie zu DeepSeek-OCR sehr gut.

Das Interessantere ist jedoch, ob für große Sprachmodelle ein Pixel-Input besser ist als ein Text-Input. Ist die Verwendung von Text-Token am Eingang eine verschwenderische und schlechte Methode?

DeepSeek-OCR bringt die „zentrale Stellung des Textes in der KI“ in Frage, und die visuelle Darstellung könnte wieder zum Hauptstrom werden!

Karpathy bezeichnet sich selbst als „Computer-Vision-Experten von Herzen“ und hat sich nur vorübergehend mit der Verarbeitung natürlicher Sprache beschäftigt. Daher interessieren ihn die obigen Fragen besonders.

Vielleicht sollte der gesamte Input für große Sprachmodelle nur Bilder sein, das wäre logischer. Selbst wenn Sie einen reinen Text-Input haben, ist es möglicherweise besser, ihn zuerst in ein Bild zu rendern und es dann an das Modell zu übergeben:

Eine höhere Informationskompressionsrate => ein kürzeres Kontextfenster und höhere Effizienz.

Eine deutlich verbesserte Universalität des Informationsflusses => nicht mehr auf Text beschränkt, sondern auch fett gedruckter Text, farbiger Text und beliebige Bilder können verarbeitet werden.

Der Input kann nun einfach und standardmäßig mit einem bidirektionalen Attention-Mechanismus verarbeitet werden, anstatt mit einem autoregressiven Attention-Mechanismus – das ist viel leistungsfähiger.

Schmeißen Sie den Tokenisierer am Eingang weg!!

Insbesondere letzteres hat Karpathy schon lange genug geduldet und hat den Tokenisierer schon öfters kritisiert –

Der Tokenisierer ist unschön, unabhängig und kein end-to-end-Komponenten.

Er „führt“ alle Schwächen von Unicode und Byte-Codierungen ein, hat eine schwere historische Last und birgt Sicherheits- und Ausbruchrisiken (z. B. das Problem mit aufeinanderfolgenden Bytes).

Er macht es möglich, dass zwei Zeichen, die für das menschliche Auge identisch erscheinen, im Netzwerk zwei völlig verschiedene Token werden.

Ein Lächelnssymbol 😄 ist für ein LLM-Modell nur ein seltsames Token, nicht ein reales Lächeln mit Pixeln, das reich an Informationen ist und für das Transfer-Learning genutzt werden kann.

Insgesamt hält Karpathy den Tokenisierer für „schuldig“ und will ihn nun endgültig loswerden.

Darüber hinaus sieht er das Potenzial in der Verwendung von visuellen Input als universellem Input:

OCR ist nur eine von vielen Anwendungen für die Umwandlung von visuellen Darstellungen in Text. Auch Aufgaben, die bisher „Text-zu-Text“ waren, können in „visuelle-zu-Text“-Aufgaben umgewandelt werden, aber nicht umgekehrt.

Vielleicht wird der Nutzer-Input in Zukunft Bilder sein, aber die Ausgabe des Decoders (d. h. die Antwort des „Intelligenten Assistenten“) wird immer noch Text sein.

Wie man tatsächlich Pixel ausgibt oder ob man das überhaupt möchte, ist noch weitgehend unklar.

Jetzt sagt Karpathy, dass er sich sehr anstrengt, sich nicht in die Erstellung eines „nanochat“-Projekts zu stürzen, das nur Bilder als Input akzeptiert.

Warum ist ein Bild-Input für KI besser?

Ein Nutzer fragt:

Warum kann ein Bild so einfach einen bidirektionalen Attention-Mechanismus nutzen, während Text das nicht kann?

Außerdem: Obwohl Bilder nicht wie Text „tokenisiert“ werden, erhalten wir doch ähnliche, wenn nicht sogar schlechtere Ergebnisse, wenn wir das Eingabebild in einzelne Patches aufteilen, oder?

Karpathy antwortet, dass es prinzipiell möglich ist, aber aus Effizienzgründen wird der Text normalerweise mit einem einfachen autoregressiven Verfahren trainiert.

Man kann sich einen Zwischenschritt beim Training vorstellen, in dem ein bidirektionaler Attention-Mechanismus verwendet wird, um die Bedingungsinformationen zu feinabstimmen, z. B. die Token, die die Nutzer-Nachricht repräsentieren und die wir nicht vorhersagen oder generieren müssen.

Prinzipiell könnte man das gesamte Kontextfenster bidirektional codieren, nur um das nächste Token vorherzusagen. Aber der Preis dafür wäre, dass das Training nicht parallelisiert werden kann.

Was die zweite Frage angeht, hält er fest, dass es streng genommen nicht um „Pixel vs. Token“ geht. Der Kern liegt darin, dass Pixel normalerweise codiert werden, während Token decodiert werden.

Die Nutzer stimmen Karpathys Idee eines „nanochat“-Nebenprojekts nicht zu:

DeepSeekOCR beweist, dass es nicht nur um Kompression geht – sondern auch um die Destillation von Semantik.

Die Zeit des Tokenisierers bedeutet Lesen und Schreiben, die Zeit der Pixel bedeutet Wahrnehmung.

Das Nanochat sollte kein Nebenprojekt sein, sondern der Beginn der „optischen Kognition“.

Unter dem Beitrag bitten die Nutzer Karpathy, ein „nanochat“ mit nur Bild-Input zu erstellen!