StartseiteArtikel

Ist das DeepSeek-Bilderkennungsmodus ein neues Modell? Hier ist eine erste-händige praktische Testung.

量子位2026-04-30 15:45
Der Nicht-Denkmodus ist unglaublich schnell.

Hast du heute die DeepSeek-Bilderkennungsfunktion in der Graustufe erhalten?

Die Menschen haben sich schon so lange auf die Multimodalität von DeepSeek gefreut. Jetzt ist mit der Veröffentlichung von V4 eine Überraschung eingetroffen. Bevor die DeepSeek-Entwickler weitere Informationen preisgaben, haben die Anwender bereits von allen Seiten die Hintergründe der "Bilderkennung" erforscht.

Es wurden tatsächlich einige Dinge entdeckt.

Beispielsweise scheint hinter der DeepSeek-Bilderkennungsfunktion ein neues Modell zu stehen, das unabhängig von V4 flash/pro ist.

Außerdem scheint es so, dass die "Zukunftsperspektiven" in der V4-Technischen Dokumentation von DeepSeek bereits weitgehend umgesetzt sind...

Heute morgens bekam ich auch die Graustufenversion. Hier möchte ich die Ergebnisse meiner Tests präsentieren.

Test der DeepSeek-Bilderkennungsfunktion

Im Bilderkennungsmodus kannst du entscheiden, ob du die Tiefenanalyse aktivieren möchtest.

Ohne Tiefenanalyse ist das DeepSeek-Bildmodell extrem schnell, sogar schneller als ein Blitzangriff.

Sobald du die Sende-Schaltfläche drückst, erscheint die Antwort sofort.

Wie unterscheidet sich die Inferenzfähigkeit von DeepSeek im Bilderkennungsmodus zwischen dem Modus mit und ohne Tiefenanalyse?

Inferenzfähigkeit

Hier ist eine Räumliche Inferenzaufgabe: Welches Bild muss an der Fragezeichen-Stelle hinzugefügt werden, damit die rechten Figuren ohne Drehung die linke Würfelform bilden können?

Ohne Tiefenanalyse gibt es sofort eine Antwort, aber sie ist falsch.

Nach der Aktivierung der Tiefenanalyse findet DeepSeek die richtige Antwort D.

Aber man kann sehen, dass es mehr als 4 Minuten für diese Überlegung gebraucht hat.

Wir können die Länge dieses Überlegungsvorgangs direkt spüren -

Im mittleren Teil des Überlegungsvorgangs hat DeepSeek bereits die richtige Antwort gefunden:

Aber dann kommt ein "Warte mal", und es folgt eine lange Erklärung.

Dieses Problem wurde auch in den Kommentaren zu einem Beitrag von DeepSeek-Forscher Chen Xiaokang gemeldet.

Probieren wir noch eine Bildunterschiede-Findungsaufgabe: Finde alle Unterschiede zwischen den beiden Bildern.

Ohne Tiefenanalyse findet DeepSeek schnell 7 Unterschiede.

Man kann deutlich sehen, dass es viele Halluzinationen gibt. Beispielsweise weiß man nicht, wo der Schlüssel auf dem Tablett in Punkt 5 herkommt, und es gibt kein weißes leeres Tablett zwischen Apfel und Banane in Punkt 7.

Im Modus mit Tiefenanalyse benötigt DeepSeek nur 16 Sekunden und findet 12 Unterschiede.

Aber... vielleicht liegt es am Bild selbst, aber es gibt noch mehr Halluzinationen.

Praktische Funktionen

Es gibt noch Raum für Verbesserungen bei der Inferenzfähigkeit. Wie sieht es mit den praktischen Funktionen der DeepSeek-Bilderkennungsfunktion aus?

Probieren wir OCR.

Wenn man die Zusammenfassung des DeepSeek V4-Technischen Berichts in die DeepSeek-Bilderkennungsfunktion lädt, liefert sie ohne Tiefenanalyse sofort ein Ergebnis und stellt sogar die Open-Source-Links als Hyperlinks zur Verfügung.

Bei reinen Texten scheint es keine Probleme zu geben. Schauen wir uns mal an, ob DeepSeek auch Tabellen verarbeiten kann.

Es gibt keine Probleme, und das Format kann auch in Markdown ordentlich dargestellt werden.

Eine beliebte neue Funktion ist, Webseitenbilder an DeepSeek zu senden, und es kann direkt HTML-Code generieren (dies ist auch ohne Tiefenanalyse möglich).

Die Buttons sind nutzbar. Beispielsweise kann es die API-Dokumentations-Links automatisch konfigurieren und einen Link erstellen.

DeepSeek kann auch erfolgreich den "Verstecktes Bild"-Test bestehen.

Aber beim Farbenblindheitstest gibt es manchmal Fehlschläge.

Nach den Antworten des Bilderkennungsmodus basiert sein Wissen wie das von DeepSeek V4 flash/pro auf dem Stand von Mai 2025.

Ein Blogger hat in seinem Weltwissen eine Besonderheit entdeckt: Das Bildmodell kennt jemanden, während V4 flash/pro ihn nicht kennt.

Heißt das, dass das Bildmodell im Bilderkennungsmodus unabhängig trainiert wurde?

Eine Überprüfung hat gezeigt, dass flash ohne Internetverbindung keine Informationen über diese Person hat. Der Bilderkennungsmodus hingegen findet Informationen aus April 2026.