StartseiteArtikel

DeepSeek "Kaiyan" löst in der KI-Szene einen Sturm aus: Ich habe mit 12 anspruchsvollen Bildern die Grenzen seiner Fähigkeiten getestet.

雷科技2026-04-30 09:12
DeepSeek hat das letzte Puzzlestück ergänzt!

Fünf Tage nachdem DeepSeek mit seiner V4-Version die Tech-Szene in Aufruhr versetzte, veröffentlichte Chen Xiaokang, ein Forscher im Bereich Multimodalität bei DeepSeek, einen Beitrag auf X und fügte folgende Worte hinzu:

Now, we see you.

(Quelle: Lei Technology)

Ja, es ist genau so, wie es klingt.

Während sich alle noch über den Preis und die Codierungsfähigkeiten von V4 wunderten, startete DeepSeek plötzlich den Test des Bilderkennungsmodus. Die seit einem Jahr im ganzen Netz diskutierte Multimodalitätsfähigkeit ist endlich realisiert.

Die Aktualisierungsgeschwindigkeit lässt einen echt glauben, dass Liang Wenfeng die Entwicklerteam in die Serverräume gesperrt hat, um nicht von den Netizens als untätig dargestellt zu werden.

Es ist zu beachten, dass dieser Test kein Volltest war, sondern ein kleiner Skalentest. Nur einige Benutzer konnten ihn in der offiziellen DeepSeek-App oder auf der Webseite sehen. Über der Eingabezeile gab es neben den bestehenden Schnellmodus und Expertenmodus einen neuen Button für den Bilderkennungsmodus mit der Markierung "Bilderfassungsfunktion in der internen Testphase".

(Quelle: Lei Technology)

Leider konnten keine meiner Kollegen in den Skalentest aufgenommen werden. Die Anzahl der von DeepSeek ausgewählten Personen betrug genau 0!

Glücklicherweise war ich tatsächlich einer von den wenigen Gläubigen.

Da es so passend ist, wäre es schade, wenn ich nicht einige Tests mache. Ich habe 12 Bilder ausgewählt, damit ihr sehen könnt, was DeepSeek in den Bildern erkennt.

Starke Verständnisfähigkeit, Wissensbasis bedarf der Aktualisierung

Ohne weitere Umschweife beginnen wir direkt mit der Bildbeschreibung.

Dieser Aspekt wird als erster getestet, weil die visuelle Verständnisfunktion in der Praxis am häufigsten in dieser Hinsicht eingesetzt wird.

Nehmen wir unser alltägliches Leben als Beispiel. Wenn wir an der Straße eine seltsame Pflanze sehen, deren Name wir nicht kennen, oder wenn wir nach einem ähnlichen Outfit suchen oder in einem fremden Land vor einem Menü in einer fremden Sprache sitzen, ist unser erster Gedanke oft, ein Foto zu machen und es an die KI zu senden und zu fragen: "Was ist das?"

Diese Art der Interaktion, "Was man sieht, fragt man", ist im Wesentlichen eine Prüfung der visuellen Verständnisfähigkeit des Modells.

Diesmal habe ich drei Bilder für den Test ausgewählt: ein Coser-Bild, meine Beobachtungen in einem Museum und ein Bild von einem Aktivitätsort mit viel Informationen.

(Quelle: Lei Technology)

Anweisung: Bitte beschreiben Sie dieses Bild ausführlich und halten Sie die Anzahl der Wörter auf unter 250.

Für das erste Bild war die Antwort von DeepSeek wie folgt:

(Quelle: Lei Technology)

Ja, DeepSeek beschrieb nicht nur alle Details des Bildes, sondern erkannte auch die Figur im Bild und rekonstruierte sogar die Hintergrund- und Beleuchtungselemente. Mit diesen Worten könnte man in einem Text-zu-Bild-Modell ein sehr ähnliches Bild erstellen.

Zu beachten ist, dass dies ohne den Denkmodus geschah.

Für das zweite Bild war die Antwort von DeepSeek wie folgt:

(Quelle: Lei Technology)

Ohne den Denkmodus war die Antwort eine einfache Bildbeschreibung ohne Analyse des Gegenstands. Die Beschreibung war aber ziemlich akkurat, und man konnte am Ende erkennen, dass der Gegenstand starke mittel- oder südasiatische Kunstmerkmale aufweist und wahrscheinlich ein wertvolles Hof- oder religiöses Ritualobjekt ist.

Was passiert, wenn ich den Denkmodus einschalte?

Jetzt beginnt die Analyse. Zuerst wird der Gegenstand zerlegt, und es wird definiert, was er ist, welche Merkmale er hat und in welchem Umfeld er sich befindet.

(Quelle: Lei Technology)

Dann wird eine Definition gegeben. DeepSeek meint, dass es sich um einen Gegenstand im Stil der Qing-Dynastie im Hindustan-Stil handelt.

(Quelle: Lei Technology)

Was ist der Stil der Qing-Dynastie im Hindustan-Stil? Laut Wikipedia ist dies ein Stil von jadeartigen Gegenständen, der im 18. Jahrhundert während der Qianlong-Ära der Qing-Dynastie aus Mittelasien eingeführt wurde und hauptsächlich aus dem mogulischen Königreich in Nordindien stammt.

Zufällig besuchte ich eine Ausstellung über das mogulische Königreich, und DeepSeek hat es tatsächlich erkannt.

(Quelle: Lei Technology)

Für das dritte Bild war die Antwort von DeepSeek wie folgt:

(Quelle: Lei Technology)

Außer der Bildbeschreibung und der Erkennung von Textinformationen erkannte es auch, dass es sich um ein Bild vom Standort der China International Building Expo in Guangzhou handelt. Man muss zugeben, dass die Bildverstehenskompetenz hier in Ordnung ist.

Natürlich waren die obigen Inhalte alle Bildbeschreibungen. Wie sieht es mit der Erkennung neuerer Informationen aus?

Diesmal habe ich drei Bilder aus den letzten Jahren ausgewählt. Anweisung: Was ist das in diesem Bild? Geben Sie Ihre Begründung an und halten Sie die Anzahl der Wörter auf unter 200.

(Quelle: Lei Technology)

Für das erste Bild war die Antwort von DeepSeek wie folgt:

(Quelle: Lei Technology)

Nun... zumindest konnte man aus dem Bild Informationen über Pokémon erkennen, aber das Spiel "Pokopia" ist zu neu und offenbar nicht in DeepSeeks Wissensbasis enthalten.

Für das zweite Bild war die Antwort von DeepSeek wie folgt:

(Quelle: Lei Technology)

Diesmal war die Beurteilung ziemlich genau. Es ist tatsächlich ein Taktikbild von FM24, das von 3dm kopiert wurde.

Für das dritte Bild war die Antwort von DeepSeek wie folgt:

(Quelle: Lei Technology)

Es ist offensichtlich, dass es an den neuesten Produktinformationen mangelt, aber es konnte durch das Nebendisplay auf ein Xiaomi 11 Ultra schließen. Man muss zugeben, dass DeepSeeks Bilderkennung in Bezug auf die Logik wirklich gut ist.

Logikprobleme können ebenfalls nicht gelöst werden

Als nächstes testen wir die Elementerkennung.

Dieser Teil ist eigentlich eine Prüfung der Beobachtungsgabe der KI. Einige dieser Aufgaben sind so schwierig, dass selbst Menschen sie möglicherweise nicht lösen können.

Übrigens, mal sehen, ob DeepSeek auch farbenblind ist.

Es gibt so viele solche Bilder im Internet. Ich habe einfach einige von Google gesammelt, um sie zu testen. Ihr solltet auch nicht zurückschrecken.

(Quelle: Lei Technology)

Testen wir zuerst das erste Bild. Anweisung: Bitte sagen Sie mir direkt, wie viele Tiger in diesem Bild sind.

Überraschenderweise brachte diese Frage DeepSeek dazu, sich selbst zu widersprechen. Es lehnte immer wieder seine vorherigen Zählungen ab und gab schließlich fest, dass es 7 Tiger gibt, obwohl es zweimal 6 gezählt hatte.

(Quelle: Lei Technology)

Das Problem ist, dass es 10 Tiger im Bild gibt. Das ist ziemlich peinlich.

Testen wir das zweite Bild. Anweisung: In diesem Bild ist eine Zahlenfolge versteckt. Bitte sagen Sie mir direkt, wie viele Zahlen es gibt und was sie sind.