DeepSeek hat der KI einen künstlichen Finger gegeben, sodass sie sehen kann.
Am Tag vor dem Laborertag-Wochenende hat DeepSeek plötzlich einen Bericht über visuelle multimodale Technologien veröffentlicht.
Vor dem Öffnen hatte ich mir schon eine Vorstellung gemacht. Im Grunde geht es darum, wie weit und wie klar das Modell sehen kann.
Im vergangenen Jahr haben sich die meisten multimodalen Modelle in diese Richtung beworben. OpenAI spricht von "thinking with images", d. h., dass das Modell Bilder während des Inferenzprozesses zuschneiden, vergrößern und drehen kann. Auch Gemini und Claude versuchen, das Modell in der Lage zu versetzen, höhere Auflösungen und komplexere visuelle Eingaben zu verarbeiten.
Die gemeinsame Annahme aller ist, dass die visuelle Inferenz natürlich stärker wird, wenn das Modell detaillierter sieht.
Aber wenn man diesen Bericht von DeepSeek liest, wird man feststellen, dass sie einen völlig anderen Weg eingeschlagen haben.
DeepSeek legt nicht den Schwerpunkt darauf, "dem Modell mehr Pixel zu zeigen", sondern richtet seine Aufmerksamkeit auf ein tieferliegendes Problem.
Selbst wenn das Modell etwas klar sieht, wie kann man sicherstellen, dass es während des Inferenzprozesses dasselbe Objekt meint wie Sie?
Tatsächlich ist dies der am leichtesten zu übersehende Knackpunkt bei der multimodalen Inferenz.
Wenn Menschen ein Bild betrachten, können sie mit dem Finger auf Objekte zeigen. Zum Beispiel "Dieser Mensch ist so und so" oder "Jener Mensch ist so und so". Aber wie soll das Modell wissen, welches Objekt Sie meinen?
Das Modell kann nur mit Worten sagen "das linke", "das obere", "diese Linie". Sobald die Szene komplex wird, schwankt die sprachliche Referenz, und die Inferenz bricht zusammen.
Also sagt DeepSeek: Warum nicht einfach dem Modell einen "Finger" geben?
Es macht Punkte und Begrenzungsrahmen zu den Grundeinheiten des Modelldenkens, so dass das Modell während des Inferenzprozesses mit diesem cybernetischen Finger auf Objekte zeigen kann.
01 Von kontinuierlicher Vision zu diskreten Symbolen
In diesem Technologiebericht stellt DeepSeek eine sehr interessante Frage. Sie sind der Meinung, dass das eigentliche Problem bei multimodalen Modellen nicht das Sehen von Bildern ist, sondern das stabile Referenzieren desselben visuellen Objekts während des kontinuierlichen Inferenzprozesses.
Nehmen Sie zum Beispiel an, Sie sagen Ihrem Freund: "Auf dem Markt verkauft die Stände der Oma Zhang die frischesten Gemüsesorten." Aber es gibt so viele Rentner auf dem Markt. Welche ist Oma Zhang?
Aber wenn Sie direkt mit dem Finger darauf zeigen und sagen "Das hier", wird Ihr Freund sofort verstehen.
DeepSeek nennt dieses Problem die "Referenzlücke" (Reference Gap).
Im vergangenen Jahr haben fast alle führenden multimodalen Modelle versucht, das Problem der "Wahrnehmungslücke" (Perception Gap) zu lösen.
Wenn Ihnen ein Foto vorliegt und es zu unscharf oder die Auflösung zu niedrig ist, können Sie möglicherweise die kleinen Schriftzeichen oder die Details in der Ferne nicht erkennen. Das Gleiche gilt für KI. Wenn die Qualität des eingegebenen Bildes nicht ausreicht oder die Verarbeitungsweise falsch ist, kann es "nicht sehen", und dies ist die Wahrnehmungslücke.
Modelle wie GPT, Claude und Gemini erhöhen ständig die Auflösung und führen Techniken wie Hochauflösungszuschneidung, dynamische Zerlegung und Mehrskalenverarbeitung ein, um dem Modell die Möglichkeit zu geben, mehr Details zu sehen.
Diese Richtung hat sicherlich Wert, aber DeepSeek weist in seinem Bericht darauf hin, dass selbst wenn das Modell sehr klar sieht, es dennoch bei komplexen räumlichen Inferenztasks zu logischen Zusammenbrüchen kommen kann.
Das Problem liegt in der natürlichen Sprache selbst.
Wenn es ein Foto mit einer Dutzend Hunden gibt und Sie sagen "der linke Hund", kann das Modell nicht verstehen, welchen Hund Sie konkret meinen.
Noch schlimmer ist es, wenn Sie das Modell auffordern, die Anzahl der Hunde auf dem Foto zu zählen. Dann kann es leicht passieren, dass das Modell während des Inferenzprozesses nicht mehr weiß, welche Hunde es schon gezählt hat und welche noch nicht.
Im Bericht wird auch ein Extremfall wie die Labyrinthnavigation erwähnt. Reine Sprache kann die unregelmäßigen Pfade und komplexen topologischen Beziehungen nicht genau beschreiben.
Als Referenzmittel ist Sprache in kontinuierlichen visuellen Räumen von Natur aus unscharf. Sie eignet sich gut für abstrakte Konzepte und kausale Beziehungen, aber bei der räumlichen Ortung und topologischen Beziehungen hat sie grundlegende Beschränkungen.
Aber DeepSeek ist ein universelles Sprachmodell. Wie kann es dieses Problem lösen?
Daher gibt es diesen "Finger", den wir am Anfang des Artikels erwähnt haben.
Das von ihnen vorgeschlagene Kernkonzept sind "visuelle Primitive" (Visual Primitives). Konkret bedeutet dies, dass Begrenzungsrahmen (bounding boxes) und Punkte (points), die beiden grundlegendsten räumlichen Markierungen in der Computervision, zu den "kleinsten Denkeinheiten" erhoben werden.
Frühere multimodale Modelle konnten zwar auch Begrenzungsrahmen um Objekte zeichnen, aber sie zeigten nur das Endergebnis, um zu beweisen, dass sie "etwas gefunden haben". Es ist wie beim Schreiben einer Prüfung, wenn Sie nur die Antwort abgeben, aber nicht die Lösungswege schreiben.
Einige Studien haben auch versucht, dass die KI während des Denkprozesses Begrenzungsrahmen zeichnet, aber das Ziel war nur, "genauer zu sehen". Die Begrenzungsrahmen waren nur Hilfsmittel. Es ist wie beim Lösen von Matheaufgaben, wenn Sie ein Zettelpapier benutzen. Das Zettelpapier hilft Ihnen nur, genauer zu rechnen, aber es ist nicht Teil des Lösungsdenkens.
Was DeepSeek tun will, ist völlig anders.
Sie integrieren diese räumlichen Markierungen direkt in den Inferenzprozess des Modells, so dass sie ein organischer Teil der Inferenz werden. Wenn das Modell denkt, beschreibt es nicht nur mit Worten "Ich sehe einen Hund", sondern gibt auch aus "Ich sehe einen Hund, und er befindet sich hier: [[x1,y1,x2,y2]]".
Diesen Mechanismus nennt DeepSeek "point while it reasons" (Zeigen während der Inferenz).
Jeder Denkschritt des Modells ist an konkrete Koordinaten im Bild verankert.
Im Technologiebericht wird ein solches Beispiel gegeben: Das Modell startet von einem Startpunkt, erkundet, geht zurück und versucht erneut, und gibt schließlich eine komplette Koordinatenfolge aus, wobei jede Koordinate einem Punkt im Labyrinth entspricht, den es passiert hat.
So kann das Modell während des Inferenzprozesses nicht "verlaufen". Es weiß nicht durcheinander, was es meint und worauf es zeigt. Jedes visuelle Objekt hat einen eindeutigen räumlichen Ankerpunkt, und der Inferenzprozess wird nachverfolgbar und überprüfbar.
Diese Technologierichtung steht in einem interessanten Kontrast zu der von OpenAI.
OpenAI erwähnt in der offiziellen Einführung von o3 und o4-mini explizit das Konzept von "thinking with images", d. h., dass das Modell Bilder in die Inferenzkette einbeziehen und sie durch Zuschneiden, Vergrößern, Drehen usw. verarbeiten kann. Der Schwerpunkt dieser Richtung liegt darin, dass das Bild selbst ein Teil der Denkkette wird. Das Modell kann während des Inferenzprozesses neue Bilder generieren, Bilder ändern und mit Bildern operieren.
Die Richtung von OpenAI betont die universelle Fähigkeit. Vision, Code, Suche, Dateien und Toolaufrufe arbeiten zusammen. Das Modell verfügt über eine starke "visuelle Arbeitsfläche", mit der es verschiedene visuelle Aufgaben flexibel verarbeiten kann.
Die Richtung von DeepSeek ist eher "symbolischer". Sie lässt Koordinaten in die Denkkette einfließen. Das Modell schreibt in der Inferenztexte die Koordinaten von Begrenzungsrahmen und Punkten explizit auf und macht visuelle Objekte zu wiederverwendbaren Ankerpunkten während der Inferenz.
Das führt dazu, dass die visuelle Inferenz von OpenAI intern abläuft. Der Benutzer kann nur die endgültige Antwort und die notwendigen Erklärungen sehen, während der visuelle Verarbeitungsprozess ein Blackbox ist. DeepSeek dagegen macht die mittleren visuellen Ankerpunkte explizit, so dass der Inferenzprozess völlig transparent wird.
Der Vorteil von DeepSeek ist, dass der Inferenzprozess leichter trainiert, überprüft und bewertet werden kann. Dies erleichtert auch die Gestaltung von Formaten, Qualitäts- und Aufgabenrewards. Insbesondere bei Aufgaben wie Labyrinthnavigation und Pfadverfolgung können detailliertere Rückmeldungen zu Pfadlegalität und Trajektorienabdeckung gegeben werden.
Das Modell lernt nicht nur, die richtige Antwort auszugeben, sondern auch, wie man mit visuellen Primitiven inferiert.
02 Effizienz ist der Schlüssel
Es gibt ein leicht zu übersehendes, aber äußerst wichtiges Detail in diesem Bericht von DeepSeek. Ihr Modell verbraucht bei der Bildverarbeitung weit weniger Token als andere führende Modelle.
Im Bericht gibt es ein Vergleichsdiagramm, das die Anzahl der verbrauchten Token bei der Verarbeitung eines 800×800-Pixel-Bildes durch verschiedene Modelle zeigt.
Gemini-3-Flash verbraucht etwa 1100 Token, Claude-Sonnet-4.6 etwa 870 Token, GPT-5.4 etwa 740 Token, Qwen3-VL etwa 660 Token, und DeepSeek etwa 361 Token und behält nur etwa 90 Einträge im KV-Cache.
Der Unterschied ist nicht gering. DeepSeek verbraucht nur ein Drittel der Token von Gemini, und die Anzahl der KV-Cache-Einträge ist nur etwa ein Zehntel.
Wie wird diese extreme Effizienz erreicht?
DeepSeek verwendet einen Mechanismus namens "Compressed Sparse Attention" (CSA).
Sie können sich das so vorstellen: Wenn Sie einem Freund ein Familiengruppenfoto zeigen, werden Sie nicht sagen "Ab dem 237. Pixel von links gibt es eine rote Fläche...", sondern direkt "Links ist meine Mutter, rechts ist mein Vater".
DeepSeek-ViT komprimiert zuerst das Bild in weniger visuelle Token, und CSA komprimiert dann die Darstellung dieser visuellen Token im KV-Cache weiter.
Dieser Mechanismus wurde bereits im DeepSeek-V4-Flash-Modell verwendet und wird jetzt auch in der visuellen Multimodalität eingesetzt.
Der genaue Komprimierungsprozess ist wie folgt. Ein 756×756-Pixel-Bild enthält 571536 Pixel. Diese Pixel werden zuerst von ViT verarbeitet und in 14×14-Pixel-Patches aufgeteilt, was 2916 Patch-Token ergibt. Dann erfolgt eine 3×3-räumliche Komprimierung, bei der jede Gruppe von 9 benachbarten Token entlang der Kanalachse zu einem Token komprimiert wird, so dass 324 visuelle Token entstehen.
Diese 324 Token werden in das Large Language Model vorgespeichert. Schließlich komprimiert der CSA-Mechanismus diese visuellen Token im KV-Cache noch um den Faktor 4, so dass am Ende nur 81 Einträge übrig bleiben.
Von 571536 Pixeln auf 81 KV-Cache-Einträge - das entspricht einem Komprimierungsverhältnis von 7056.
Die meisten großen KI-Unternehmen verwenden brute-force-Methoden, um Rechenressourcen zu erhöhen, während DeepSeek auf der Ebene der Informationstheorie Abwägungen trifft und nur die anschaulichsten Informationen behält.
Das direkte Ergebnis ist, dass die Inferenzgeschwindigkeit erheblich erhöht wird.
Die Anzahl der Bild-Token hat einen direkten Einfluss auf die Inferenzverzögerung des Modells. Bei der autoregressiven Generierung muss das Modell bei der Generierung jedes neuen Tokens die Attention über alle vorherigen Token im KV-Cache berechnen. Wenn ein Bild 1000 Token beansprucht, muss bei jeder Generierung die Attention über diese 1000 Token berechnet werden. Wenn es nur 90 Token beansprucht, wird die Rechenmenge erheblich reduziert.
Für Anwendungsfälle, die eine Echtzeitantwort erfordern, wie Robotervision, Autonomes Fahren und Echtzeit-Videoanalyse, spielt die Verbesserung der Inferenzgeschwindigkeit eine entscheidende Rolle.
Außerdem beansprucht es weniger Speicher.
Der KV-Cache ist die Speicherengstelle bei der Inferenz von Large Language Modellen. Insbesondere bei der Verarbeitung von langen Kontexten oder Batch-Inferenz beansprucht der KV-Cache eine große Menge an Grafikspeicher. Indem DeepSeek den KV-Cache der visuellen Token auf 90 Einträge komprimiert, kann es auf demselben Hardware aus mehr Bildern verarbeiten oder längere Mehrfachdialoge behandeln.
Dies ist für die praktische Implementierung sehr wichtig. Viele Multimodal-Modelle von Unternehmen funktionieren im Labor gut, aber bei der praktischen Implementierung treten Kostenprobleme auf. Je mehr Token ein Bild verbraucht, desto höher sind die Inferenzkosten und desto weniger gleichzeitige Benutzer können unterstützt werden. Der Effizienzvorteil von DeepSeek wird bei der Skalierung noch stärker.
Außerdem erhöht es indirekt die Kontextkapazität des Modells.
Wenn ein Bild 1000 Token beansprucht, können in einem 128k-Kontextfenster nur etwas mehr als 100 Bilder platziert werden. Wenn es nur 300 Token beansprucht, können mehr als 400 Bilder platziert werden. Dies ist für Anwendungsfälle wie Mehrbilddialoge, Langzeit-Videoanalyse und das Verständnis einer großen Anzahl von Dokumenten von entscheidender Bedeutung.
Das Modell von DeepSeek kann in einem Dialog mehr Bilder verarbeiten, kann mehrere Dutzend oder sogar hundert Bilder vergleichend analysieren und kann langfristige Veränderungen in Videos verfolgen.
Das Wichtigste ist die Trainingskosten.
Obwohl der Bericht hauptsächlich über die Inferenzeffizienz spricht, ist dieser Komprimierungsmechanismus auch in der Trainingsphase effektiv. Weniger visuelle Token bedeuten ein kleineres Rechengraph, eine schnellere Trainingsgeschwindigkeit und geringere Hardwareanforderungen.
DeepSeek ist bekannt dafür, "mit weniger Ressourcen bessere Ergebnisse zu erzielen". Von der Reinforcement Learning-Trainingsmethode von R1 über die MoE-Architektur von V4 bis hin zur aktuellen visuellen Multimodalität durchzieht diese Effizienzphilosophie das gesamte Unternehmen.
Aber hier gibt es ein wichtiges Problem. Verursacht die Komprimierung einen Informationsverlust?
DeepSeek leugnet nicht, dass die Komprimierung