Diesmal: Liang Wenfeng und Yang Zhilin schütteln die Hände aus der Ferne

Diese Woche begann mit der Veröffentlichung von K2.6 durch Kimi und endete mit der Veröffentlichung von V4 durch DeepSeek.

Es war eine aufregende Woche.

Am Montag hat Kimi gerade das Kimi K2.6 veröffentlicht; am Freitag ist dann das hoch erwartete DeepSeek V4 erschienen.

Dieses Gefühl ist mir sehr vertraut.

In den letzten zwölf Monaten haben diese beiden Unternehmen entweder nacheinander Modelle oder technische Papers veröffentlicht. Entweder hat das eine Unternehmen die Marktheat aufgeheizt, oder das andere hat die technische Diskussion übernommen.

Früher dachte man fast automatisch an DeepSeek, wenn man an chinesische Open-Source-Modelle dachte.

Insbesondere nach der Veröffentlichung von DeepSeek R1 hat dieses Unternehmen nicht nur die globale Wahrnehmung von chinesischer KI verändert, sondern auch das "Vertrauen" anderer chinesischer KI-Start-up-Teams geweckt.

Daher sehen wir, dass mehr chinesische KI-Start-up-Teams Modelle von hoher Wettbewerbsfähigkeit entwickeln und technische Forschungsergebnisse von großer Bedeutung erzielen.

Im Juli 2025, was von der Zeitschrift "Nature" als "ein weiterer DeepSeek-Moment" bezeichnet wurde, hat das Kimi K2-Modell erstmals auf großem Maßstab den zweiten-Order-Optimierer Muon in der unterliegenden Architektur validiert und gleichzeitig den von DeepSeek validierten MLA-Attentionsmechanismus eingesetzt.

Im April 2026 hat DeepSeek V4 in seiner Architektur ebenfalls den Muon-Optimierer wie Kimi K2 übernommen und damit den seit zehn Jahren verwendeten Adam-Optimierer ersetzt.

Dies könnte der größte Wert von Open-Source sein: Chinesischen Unternehmen die gemeinsame Nutzung von Technologien zu ermöglichen und das Einholen der amerikanischen Closed-Source-Riesen zu beschleunigen.

Sie sind derzeit die einzigen beiden chinesischen Modelle, deren Gesamtparameter über eine Billion liegen und deren Gewichte öffentlich zugänglich sind. Sie repräsentieren auch die chinesischen KI-Modelle mit der größten internationalen Bedeutung. Die weltweit wertvollste Firma NVIDIA hat bei der Präsentation der Leistung ihrer nächsten Chip-Generation die Modelle von DeepSeek und Kimi verwendet.

Darüber hinaus fordern sie beide die unterliegende Architektur des Deep-Learning-Netzwerks heraus. DeepSeek hat die mHC-Residualverbindung, und Kimi hat die "Attention Residual", die in der Silicon Valley-Kerntechnologiebranche Diskussionen ausgelöst hat.

A

Obwohl DeepSeek V4 und Kimi K2.6 in derselben Woche veröffentlicht wurden, haben die beiden Modelle unterschiedliche technische Schwerpunkte.

Der Kernbeitrag von V4 liegt in der Kostenoptimierung für einen Kontext von einer Million Tokens. Durch einen neuen gemischten Attentionsmechanismus hat es die Rechenlast pro Token auf 27 % von V3.2 reduziert und den KV Cache auf 10 % gesenkt.

Dieses Verfahren kombiniert komprimierte sparse Attention und stark komprimierte Attention, wodurch ein Kontext im Millionenbereich von einer technischen Demonstration zu einer verbreitbaren Infrastruktur geworden ist.

V4 hat auch eine spezielle Optimierung für Agent-Szenarien vorgenommen. Im Nach-Training wurde der Agent als eigenständige Richtung separat trainiert. Das Format für den Tool-Aufruf wurde von JSON in eine XML-Struktur mit speziellen Tokens geändert, und die Spuren der Inferenz über mehrere Runden hinweg werden im Tool-Aufruf-Szenario vollständig beibehalten.

DeepSeek hat auch eine eigene Sandbox-Plattform namens DSec aufgebaut, die in einem Cluster mehrere hunderttausend Sandbox-Instanzen parallel verwalten kann, um das Training und die Bewertung von Agenten in der Verstärkungslernen zu unterstützen.

Die Richtung von K2.6 liegt eher in der Langzeitkodierung und der Agenten-Clusterbildung. Es hat in der internen Bewertung von Kimi Code Bench eine Punktzahl von 68,2 erreicht, was eine Steigerung von etwa 20 % gegenüber K2.5 (57,4) darstellt.

Es kann bis zu 300 Sub-Agenten parallel unterstützen, um 4.000 Kooperationsschritte auszuführen.

B

Im Februar 2025 hat Kimi das Moonlight-Modell-Serie veröffentlicht und erstmals den zweiten-Order-Optimierer Muon auf ein Large Language Model mit 48 Milliarden Parametern angewendet, um die Effektivität des neuen Optimierers zu validieren.

Im April 2025 wurde das Kimi-VL-Modell veröffentlicht. Basierend auf der Technologie des Moonlight-Modells wurde der MoonViT-Vision Encoder eingeführt, was die Grundlage für zukünftige multimodale Verständnis-Modelle legte.

Im Juli 2025 hat Kimi erstmals den Muon-Optimierer auf die Skala von einer Billion Parametern erweitert und das Open-Source-Modell K2 vorgestellt.

Im Oktober 2025 hat Kimi Kimi Linear veröffentlicht, eine lineare Attentionsarchitektur, deren Hauptziel darin besteht, die Rechen- und Speicherkosten für die Verarbeitung von extrem langen Texten zu senken, während die Fähigkeit für einen langen Kontext beibehalten wird.

Dies zeigt, dass Yang Zhilin nicht mehr nur an der Entwicklung von Modellen interessiert ist, sondern auch an der Verbesserung der unterliegenden Architektur.

Anschließend hat Kimi das Open-Source-Modell Kimi K2.5 mit einer Billion Parametern veröffentlicht, das die Verarbeitung von Bildern und Videos unterstützt.

Im März 2026 hat Kimi ein Paper über die Attention Residual veröffentlicht und damit weiter an der unterliegenden Struktur des Transformers gearbeitet.

Dieses Paper hat Lob von Elon Musk auf X erhalten.

Und dann ist es vor einigen Tagen zu K2.6 gekommen, einem Modell, das auf Langzeitkodierung, Agentenausführung und Fähigkeiten in der Bearbeitung von technischen Aufgaben ausgerichtet ist.

Aus der Entwicklung der Produktpositionierung lässt sich erkennen, dass Kimi sich von einem Konsumentenprodukt für Dialoge zu einem Produktivitätstool wandelt.

Im März 2026 hat Yang Zhilin auf der NVIDIA GTC-Konferenz einen Vortrag gehalten und die technische Route von Kimi systematisch vorgestellt. Er hat die Skalierungsstrategie von Kimi mit drei Schlüsselwörtern zusammengefasst: Token-Effizienz, langer Kontext und Agenten-Cluster.

Er hat erklärt, dass zur kontinuierlichen Verbesserung der Intelligenzgrenze von Large Language Modellen die unterliegenden Bausteine wie Optimierer, Attentionsmechanismus und Residualverbindung neu strukturiert werden müssen.

Die aktuelle Skalierung ist nicht mehr nur eine Ansammlung von Ressourcen, sondern erfordert die Suche nach Skaleneffekten in der Rechenleistung, der Langzeitgedächtnisfähigkeit und der automatischen Kooperation.

Für ein Unternehmen ist es am schlimmsten, wenn nur die Medien über es sprechen, aber die Entwickler es nicht nutzen.

Aber Kimi ist anders. Sowohl auf OpenRouter als auch in den Standard-Schnittstellen der meisten Agenten-Tools sind K2.5 und K2.6 die Hauptoptionen.

Zum Zeitpunkt der Veröffentlichung stehen sowohl Kimi als auch DeepSeek in der TOP 3 der Modelle auf OpenRouter. Auf der AA-Liste hat K2.6 sogar vorübergehend die Nase vorn.

Bei K2.6 wird die Fähigkeit von Agenten, Langzeitaufgaben und Codierung weiter verbessert, was ebenfalls ein Signal ist. Yang Zhilin setzt wirklich auf Produktivitätsszenarien.

Dies ist auch die wichtigste Veränderung von Kimi in diesem Jahr.

Es sagt den Benutzern nicht nur, dass es ihnen hilft, längere Dokumente zu lesen, sondern beantwortet auch tiefere Fragen, wie ein Modell in einem längeren Zeitraum, bei komplexeren Aufgaben und einer höheren Dichte von Tool-Aufrufen stabil bleiben kann.

Der lange Kontext löst das Problem des Gedächtnisses und der Informationsspeicherung; die lineare Attention löst das Problem der Kosten und der Skalierbarkeit; der Agenten-Cluster löst das Problem der Zerlegung komplexer Aufgaben; und die Programmierfähigkeit löst das Problem des Verständnisses und der Ausführung des Modells.

Obwohl es so aussieht, als wären es verschiedene Produktlinien, zeigen sie alle in dieselbe Richtung. Kimi möchte Kimi von einem praktischen Chatfenster zu einem Basis-Modell machen, das reale Arbeitsaufgaben übernehmen kann.

Im April wurde Yang Zhilin zu einer Sitzung von Wirtschaftsexperten und Unternehmern, die vom Premierminister geleitet wurde, eingeladen und als einziger Vertreter eines Large Language Model-Start-ups zu sprechen aufgefordert. Dieser 1993 geborene junge Mann war der jüngste Teilnehmer der Sitzung.

Einen Monat zuvor hat er auf der Plenarsitzung der 2026 Zhongguancun-Forums einen Vortrag gehalten und erklärt, wie chinesische KI-Teams durch die "Neugestaltung" der unterliegenden Architektur die seit zehn Jahren geltenden branchenüblichen Technologiestandards brechen können.

Offensichtlich ist Kimi von einem Start-up zu einem Symbol der chinesischen KI-Technologie geworden.

Der Wachstumsweg von Kimi in diesem Jahr unterscheidet sich deutlich von dem von DeepSeek. Die beiden Unternehmen haben unterschiedliche technische Entscheidungen getroffen, was aber auch die Chancen für chinesische Open-Source-Modelle erhöht.

C

In der Vergangenheit haben wir Artikel über diese beiden Unternehmen geschrieben, in denen es oft darum ging, "welches Modell besser ist" oder "wer der nächste OpenAI sein wird".

Doch dies ist ein Irrtum.

DeepSeek und Kimi sollten nicht einfach als "Gewinner und Verlierer" betrachtet werden. Sie sind eher wie die beiden Beine eines chinesischen Open-Source-Modells im internationalen Wettbewerb. Es geht nicht darum, wer den anderen ersetzt, sondern darum, sich gegenseitig anzuregen und zu fördern.

DeepSeek und Kimi haben beide bewiesen, dass die Entwicklung von fortschrittlichen Modellen nicht unbedingt unbegrenzte Ressourcen erfordert, sondern vor allem Algorithmeninnovation und Ingenieuroptimierung. Ihre Beiträge in Bezug auf Modellalgorithmen, Ingenieurleistung, Open-Source-Strategie und Senkung der Inferenzkosten gehören immer noch zu den wichtigsten technologischen Ereignissen in der chinesischen KI-Branche in den letzten zwölf Monaten.

Sie konkurrieren miteinander, aber sie heben auch die Obergrenze der chinesischen Open-Source-Modelle an.

Wichtig ist nicht, wer zuerst am Ziel ist, sondern dass sie die Wettbewerbsdimensionen der chinesischen Modelle erweitern.

In der Vergangenheit haben wir Modelle oft nur anhand von Listenplätzen, Parametern, Preisen und der Medienpräsenz ihrer Veröffentlichungen bewertet.

Aber der wahre Wettbewerbsvorteil von Modellunternehmen liegt nicht mehr in der "Intelligenz" oder "Leistung" der Modelle. Heute geht es darum, ob ein Modell eine umfassende technische Route bilden kann.

DeepSeek hat dies sehr erfolgreich umgesetzt. Es hat gezeigt, dass chinesische Unternehmen mit höherer Ingenieurleistung die Kosten für das Training und die Inferenz von Modellen senken können, technische Berichte transparent genug erstellen können und die Gewichte ihrer Modelle offenlegen können.

Es hat ein Open-Source-Vertrauen aufgebaut. Entwickler sind bereit, es zu untersuchen, zu reproduzieren und zu implementieren, weil es nicht nur eine API bietet, sondern auch die Methodik hinter dem Modell preisgibt.

Kimi ergänzt einen anderen Aspekt.

Kimi war zunächst für seine Fähigkeit bei der Verarbeitung langer Texte und Chatprodukte bekannt. Seit K2.6 geht es aber nicht mehr nur um einen besseren Chat-Assistenten, sondern darum, wie ein Modell in den realen Arbeitsablauf integriert werden kann.

Langzeitkodierung, Agenten-Cluster, Tool-Aufruf und Langzeitaufgaben sind zwar nicht so offensichtlich wie "Spitzenplätze" in Listen, aber sie bestimmen, ob ein Modell von "versucht" zu "abhängig" wird.

Wenn DeepSeek die Fragen beantwortet, ob ein Modell stark, kostengünstig und offen genug ist, interessiert sich Kimi eher dafür, ob ein Modell komplexe Aufgaben tatsächlich für Menschen übernehmen kann.

Deshalb ist es viel sinnvoller, diese beiden Unternehmen zusammen zu betrachten.

Als Beobachter und Benutzer hoffen wir natürlich, dass beide existieren, damit die Branche weiterentwickeln kann.

Was in der chinesischen KI-Branche wirklich erfreulich ist, ist nicht, dass endlich ein DeepSeek existiert.

Sondern dass Kimi und andere Unternehmen unter der Anregung von DeepSeek selbstständig zu starken Akteuren heranwachsen können.

Dies zeigt, dass chinesische KI-Unternehmen in verschiedenen Dimensionen ihre eigene Position gefunden haben und nicht mehr einfach kopieren, sondern tatsächlich ihre eigene technische Route erkunden.

Die gegenseitige Verstärkung der Technologien von DeepSeek und Kimi zeigt auch, dass der Wert der Open-Source-Ökosystem in der Zusammenarbeit liegt.

Die aktuelle Frage ist nicht, welches von DeepSeek und Kimi stärker ist, sondern ob sie diese Wettbewerbsbeziehung aufrechterhalten können und sich weiterhin technisch anregen können.

Damit chinesische Open-Source-Modelle weltweit wirklich Fuß fassen können, braucht es nicht ein Alleinherrscher, sondern mehrere Unternehmen, die in verschiedenen Bereichen auf Weltklasse-Niveau agieren. Die Existenz von DeepSeek und Kimi erhöht diese Wahrscheinlichkeit.

Dieser Artikel stammt aus dem WeChat-Account "Zimubang" (ID: wujicaijing), Autor: Miao Zheng, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Diesmal schütteln Liang Wenfeng und Yang Zhilin die Hände aus der Ferne.

A

B

C