StartseiteArtikel

Domestische Large Language Models wenden sich am selben Tag: DeepSeek nach links, Kimi nach rechts. Hat die Zeit der Umsetzung begonnen?

雷科技2026-01-29 08:26
Wird es eine neue Runde großer AI-Upgrades geben?

Am 27. Januar haben zwei der am meisten beobachteten chinesischen Start-up-Unternehmen im Bereich Large Language Models fast gleichzeitig ihre neuesten und wichtigsten Open-Source-Updates herausgebracht:

DeepSeek hat DeepSeek-OCR 2 veröffentlicht und als Open-Source verfügbar gemacht. Dies ist eine entscheidende Weiterentwicklung auf der Grundlage des im vergangenen Jahr branchenbewegenden DeepSeek-OCR. Kimi hat ebenfalls K2.5 veröffentlicht und als Open-Source freigegeben und setzt seinen Ansatz für lange Kontextsequenzen, Multimodalität und die "Agentifizierung" fort.

Auf den ersten Blick handelt es sich um zwei verschiedene Richtungen der Modelliteration.

DeepSeek-OCR 2 beantwortet erneut die Frage, "wie ein Modell Informationen eigentlich 'lesen' sollte". Durch einen neuen visuellen Codierungsmechanismus lernt das Large Language Model die visuelle Logik des Menschen und komprimiert die ursprünglich teuren und langwierigen Texteingaben zu "visuellen Semantiken" höherer Dichte.

Einfach ausgedrückt, versucht es, die Art und Weise, wie KI "Dokumente liest", zu ändern. Das Modell muss nicht mehr jedes einzelne Wort eines Dokuments "hart lesen", sondern kann wie ein Mensch zuerst das Layout betrachten, die Schwerpunkte identifizieren und dann die Bedeutung verstehen. Dies bedeutet, dass es in Zukunft möglich sein könnte, dass KI Ihnen helfen kann, lange Dokumente zu lesen, Informationen zu recherchieren und Tabellen auszuwerten, schneller, kostengünstiger und zuverlässiger.

Bildquelle: DeepSeek

Kimi K2.5 geht in eine andere Richtung: Es geht nicht nur darum, Fragen zu beantworten, sondern die KI noch einen Schritt weiter in Richtung "tätigkeitsfähig" zu entwickeln. Längere Gedächtnisspanne, stärkere Multimodalitätsverstehen und die Fähigkeit, komplexe Aufgaben zu zerlegen und auszuführen, führen zu einer Erfahrung, die eher einem "digitalen Assistenten" entspricht, als einem einfachen Chatfenster.

Kimi behauptet, dass es sich bei K2.5 um das bisher intelligenteste und vielseitigste Modell handelt, das sowohl visuelle als auch Texteingaben, Denk- und Nicht-Denk-Modi sowie Dialoge und Agent-Aufgaben unterstützt.

Bildquelle: Kimi

Das eine Modell konzentriert sich auf die Verbesserung der Effizienz der Eingabe in Sprachmodelle, das andere auf die Fähigkeit zur allgemeinen Intelligenz und Zusammenarbeit bei komplexen Aufgaben. Wenn man sie aber zeitlich betrachtet, weisen sie gemeinsam auf eine wichtigere Frage hin: Die Leistungssteigerung von Large Language Models verschiebt sich von "Parametern und Dialogfähigkeiten" hin zu einer grundlegenderen und ingenieurmäßigeren Neukonstruktion der Fähigkeiten.

Die KI entwickelt sich nicht nur zu einem "klügeren Gehirn".

Die Evolution von Eingabe zu Tätigkeit: Zwei Aufstiegswege chinesischer KI

Das im vergangenen Jahr veröffentlichte DeepSeek-OCR hat erstmals die Branche darauf aufmerksam gemacht, dass die herkömmliche Art der Eingabe von Wörtern und Tokens in Large Language Models grundlegend überdacht werden kann. Das neueste DeepSeek-OCR 2 geht sogar einen Schritt weiter und löst ein konkretes und schwieriges Problem: Wie sollte ein Modell ein komplexes Dokument eigentlich "lesen"?

In der Vergangenheit war die Art und Weise, wie KI Dokumente verarbeitete, sehr mechanisch. Unabhängig davon, ob es sich um PDF-Dateien, Verträge oder Jahresabschlüsse handelte, wurden diese im Wesentlichen in Texteingaben zerlegt und nacheinander in das Modell eingegeben. Die Probleme dieser Vorgehensweise sind offensichtlich:

Einerseits werden die Kontextfenster bei langen Dokumenten schnell erschöpft, was teuer und ineffizient ist. Andererseits werden die Beziehungen zwischen Tabellen, mehrspaltigen Layouts, Anmerkungen und Haupttexten oft beim "Zerlegen in Wörter" zerstört.

Die Lösung, die DeepSeek in OCR-2 bietet, besteht darin, den Ansatz der "visuellen Codierung" zu stärken. Anstatt das Dokument als eine Folge von Wörtern zu betrachten, wird es als ein visuelles Objekt behandelt, das "gelesen" werden muss.

Der entscheidende Unterschied zwischen OCR 2 und der ersten Version liegt nicht nur in der Komprimierungsrate, sondern auch in der Einführung einer Logik, die der menschlichen Lesegewohnheit näher kommt. Das Modell wechselt von der CLIP (Slicing)-Architektur zur LM (Sprachmodell)-visuellen Codierung auf der Grundlage von Qwen2. Das Modell lernt, das Layout des Dokuments zu verstehen und die Inhalte zu strukturieren:

Wo sich die Überschriften befinden, wo die Tabellen sind, welche Informationen miteinander in Beziehung stehen und welche zuerst gelesen werden sollten und welche später.

Funktionsschema, Bildquelle: DeepSeek

Mit anderen Worten, es beginnt zu verstehen, dass "das Layout selbst ein Teil der Informationen ist".

Der direkte Nutzen dieser Veränderung zeigt sich nicht in abstrakten Bewertungen wie "das Modell ist klüger", sondern in einer Reihe von konkreten Verbesserungen der Benutzererfahrung. Wenn Sie beispielsweise der KI bitten, ein mehrseitiges Dokument zu lesen, muss sie nicht jedes einzelne Wort lesen, um eine Schlussfolgerung zu ziehen. Bei der Verarbeitung komplexer Tabellen tritt auch weniger häufig das Problem von fehlerhaften Spaltenzuordnungen und Feldübereinstimmungen auf.

Wichtiger noch ist, dass aufgrund der hohen Komprimierung der Eingabe dieselben Aufgaben mit geringeren Kosten und in kürzerer Zeit durchgeführt werden können. Dies ist der Grund, warum DeepSeek-OCR 2 für die echte KI-Anwendung von größerer Bedeutung ist. Es hat das Potenzial, die KI besser für den Einsatz in echten Dokumentenprozessen geeignet zu machen, sei es bei der Suche, dem Vergleich, der Zusammenfassung oder der Extraktion von strukturierten Informationen.

In diesem Sinne löst OCR 2 nicht nur ein Problem der Modellfähigkeiten, sondern auch ein langjähriges Problem der "schlechten Anwendbarkeit".

Während DeepSeek-OCR 2 die "Eingabeebene" der KI grundlegend überarbeitet, konzentriert sich Kimi K2.5 auf die Fähigkeit der KI, komplexe Aufgaben als Agent auszuführen.

Tatsächlich kann die KI heute auch komplexe Fragen beantworten. Sobald es jedoch um Aufgaben geht, die mehrere Schritte, verschiedene Materialien und die wiederholte Referenzierung des Kontexts erfordern, neigt das Modell dazu, Informationen zu vergessen oder nur allgemeine Empfehlungen zu geben. Die Fähigkeiten der KI sind bereits relativ gut entwickelt, aber viele Benutzer haben immer noch ähnliche Erfahrungen.

Kimi setzt in K2.5 seinen Fokus auf die Linie "langfristiges Gedächtnis + Multimodalität + Agent". Im Wesentlichen versucht es, die KI von der "Frage-Antwort-Modus" in den "Ausführungsmodus" zu bringen.

Einerseits ermöglicht die lange Kontextsequenz dem Modell, Gespräche, Informationen und Zwischenergebnisse über einen längeren Zeitraum zu speichern, wodurch die Kosten für wiederholte Erklärungen reduziert werden. Andererseits ermöglicht die Multimodalitätsfähigkeit der KI nicht nur die Verarbeitung von Texten, sondern auch das Verständnis von Bildern, Screenshots und sogar komplexeren Eingabeformen.

Am wichtigsten ist die kontinuierliche Stärkung der "Agentenfähigkeit". Kimi versucht nicht nur zu sagen, "was man tun sollte", sondern zerlegt die Aufgabe in mehrere Schritte und implementiert eine "Agentenkolonie", die in verschiedenen Phasen unterschiedliche Fähigkeiten einsetzen kann, um schließlich ein relativ komplettes Ergebnis zu liefern. Diese Fähigkeit bestimmt, ob die KI tatsächlich in den Arbeitsablauf integriert werden kann, anstatt nur als Beratungsassistent zu fungieren.

Bildquelle: Kimi

Dies ist auch der Grund, warum Kimi K2.5 sich als "vielseitiger" bezeichnet. Es zielt nicht auf die Maximierung einer einzelnen Fähigkeit ab, sondern darauf, ob es in der Lage ist, längere, komplexere und realitätsnähere Arbeitsabläufe zu bewältigen.

In dieser Runde der Large Language Models geht es darum, "ob sie tatsächlich einsetzbar sind"

Wenn man von DeepSeek-OCR 2 und Kimi K2.5 ausgeht, wird man feststellen, dass die Aufstiegsrichtungen einer Reihe von führenden Large Language Models in den letzten sechs Monaten überraschend einheitlich sind. Ob es sich um OpenAI's GPT-5.2, Anthropic's Claude 4.5, Google's Gemini 3 oder ByteDance's Doubao 1.8 und Alibaba's Qianwen Qwen3-Max-Thinking handelt, alle richten ihren Fokus von "wie stark das Modell ist" auf eine realistischere Frage:

Die KI tiefer in die reale Arbeitsumgebung zu integrieren.

Deshalb wird in dieser Runde der Aufstiegsbemühungen weniger auf die Parametergröße und einzelne Fähigkeiten geachtet, sondern stattdessen werden die folgenden Punkte wiederholt verbessert: Gedächtnis, Verständnis, Fähigkeit, Arbeitsabläufe zu bewältigen und Aufgaben auszuführen.

Zunächst wird die "Gedächtnisfähigkeit" gemeinsam verbessert.

In der Vergangenheit waren Large Language Models eher gute Gesprächspartner für kurzfristige Dialoge, aber schlecht in der Lage, langfristig zusammenzuarbeiten. Sobald die Aufgaben länger und die Materialien umfangreicher wurden, mussten die Benutzer ständig den Hintergrund wiederholen. Die jüngsten Upgrades dieser Modelle adressieren fast alle dieses Problem: Längere Kontextsequenzen und stabilere Zustandsaufzeichnung ermöglichen es den Modellen, Aufgaben von Anfang bis Ende zu verfolgen, anstatt nach ein paar Schritten "die Erinnerung zu verlieren".

GPT-5.2 hat die langen Kontextsequenzen und verschiedene Inferenzmodi direkt in das Produkt integriert. Kimi K2.5 hat die langen Kontextsequenzen in den Agenten-Arbeitsablauf eingebunden, damit das Modell Zwischenergebnisse in mehrschrittigen Aufgaben behalten kann. Diese Veränderungen ermöglichen es der KI, nicht nur Fragen zu beantworten, sondern auch dem Benutzer bei der Lösung von Aufgaben zu helfen.

Zweitens wird das "Sehen" neu definiert.

Wenn in der Vergangenheit die Multimodalität hauptsächlich auf die "Objekterkennung" abzielte, liegt der Schwerpunkt der heutigen Upgrades auf dem "Verständnis". DeepSeek-OCR 2 repräsentiert eine aggressivere und praktikablere Richtung: Anstatt das visuelle Element als einen Vorstufe für die Texteingabe zu betrachten, wird es als eigenständige Informationsquelle behandelt. Das Modell lernt zuerst die Struktur, das Layout und die Beziehungen zu verstehen, bevor es zur semantischen Ebene kommt.

Diese Veränderung findet nicht nur im Dokumentenbereich statt. Sowohl GPT, Claude als auch Gemini verbessern ihre Fähigkeit, Screenshots, Benutzeroberflächen und komplexe Bilder zu verstehen.

Bildquelle: Gemini

Die Informationen in der realen Welt sind nicht einfach als Zeilen von Texten organisiert. Erst wenn das Modell beginnt, zu verstehen, "wie die Informationen in einem Bild organisiert sind", kann die KI natürlicher in die reale Umgebung integriert werden, anstatt nur in einem reinen Textdialogfenster zu existieren.

Drittens ist die am leichtesten zu übersehende, aber dennoch wichtigste Veränderung in dieser Runde der Upgrades die Rolle der KI.

In der Vergangenheit war das Large Language Model eher ein "Berater", der Empfehlungen und Antworten gab, aber nicht für das Endergebnis verantwortlich war. Jetzt werden immer mehr Modelle als "Ausführer" konzipiert. Kimi K2.5 betont die Agentenfähigkeit, was im Wesentlichen bedeutet, dass das Modell lernt, Aufgaben zu zerlegen, Werkzeuge einzusetzen und Arbeitsabläufe zu verwalten. GPT-5.2 kombiniert verschiedene Inferenzmodi mit der Werkzeugnutzung, um die Lücke zwischen "Empfehlung" und "Ausführung" zu verringern.

Wenn die KI beginnt, ganze Arbeitsabläufe zu übernehmen, anstatt nur einzelne Fragen zu beantworten, ändert sich auch das Bewertungsmaßstab für ihre Wertigkeit. Der Schwerpunkt liegt nicht mehr darauf, "ob die Antwort richtig ist", sondern darauf, ob die Aufgabe abgeschlossen werden kann und wie stabil die Leistung ist. Deshalb wird in dieser Runde der Upgrades die Wichtigkeit der "Ingenieurwissenschaften" immer wieder betont.

Die chinesischen KI-Unternehmen sind in dieser Hinsicht besonders aktiv. DeepSeek, Kimi, Qianwen und Doubao betonen alle, wie gut das Modell deployiert, in bestehende Systeme integriert und in realen Geschäftsprozessen eingesetzt werden kann. Andererseits betonen sowohl chinesische als auch ausländische KI-Unternehmen in den letzten Jahren die Stärkung der Produktverpackung, um komplexe Fähigkeiten hinter der Benutzeroberfläche und den Services zu verstecken. Tatsächlich haben alle das gleiche Ziel: Die KI soll nicht nur "demonstriert" werden, sondern "einsetzbar" und "benutzerfreundlich" sein.

Abschlussbemerkung

Kein Modell hat bisher die "allgemeine Intelligenz (AGI)" erreicht. Wenn man jedoch die Zeitspanne betrachtet, werden die meisten Veränderungen in weniger auffälligen Bereichen vorgenommen: Die Eingabemethoden werden neu gestaltet, Aufgaben werden zerlegt und übernommen, und die Modelle werden erwartet, dass sie sich über einen längeren Zeitraum und in komplexeren Arbeitsablä