Yang Zhilin tastet sich am DeepSeek entlang, um den Fluss zu überqueren.
Text | Deng Yongyi
Redaktion | Su Jianxun
Eine Woche nach der Veröffentlichung des Open-Source-Modells K2 hält die globale Euphorie um Kimi an.
Am 11. Juli veröffentlichte Moonshot AI das MoE-Modell Kimi K2 mit Billionen von Parametern. Es handelt sich um ein MoE-Modell mit beeindruckenden 1T Parametern und 32B aktiven Parametern, das in zwei Open-Source-Versionen, Kimi-Base und Kimi-instruct, vorliegt.
K2 hat seine Stärken: Es ist besonders gut in Programmieraufgaben und bei der Arbeit mit Agenten. In den von Kimi veröffentlichten Testresultaten hat Kimi K2 in den drei Dimensionen eigenständiges Programmieren, Werkzeugaufruf und mathematische Logik DeepSeek-V3 und Alibaba Qwen3, ebenfalls Open-Source-Modelle, übertroffen.
△Quelle: Kimi
Laut Hugging Face hat K2 eine Woche nach seiner Open-Source-Veröffentlichung bereits über 100.000 Downloads erreicht, und die Zahl steigt rasant. Im renommierten Ranking LMSYS für Large Language Models hat K2-Instruct bereits Platz 4 erreicht, nur hinter GPT-4o, Claude-3.5 und Gemini-1.5-Pro.
Nach den von Elon Musk auf Twitter geteilten Trends von OpenRouter hat K2 innerhalb einer Woche Platz 2 in der globalen Trendliste erreicht, nur hinter Grok 4.
△Quelle: Twitter
Moonshot AI hat diesmal auf massive Marketingkampagnen verzichtet und stattdessen eine neue Art der Open-Source-Veröffentlichung gewählt.
Nach der Veröffentlichung von K2 haben die Algorithmik-Ingenieure und Forscher von Kimi auf Twitter, Xiaohongshu und Zhihu aktiv über die Arbeit und Technologie von K2 berichtet und die Fragen der Nutzer beantwortet. Das offizielle Twitter-Konto von Kimi hat ständig über die Lobeshymnen und Vorschläge aus der Community geteilt.
Diese engagierte Interaktion hat viele Enthusiasten angelockt. Thomas Wolf, Mitbegründer von Hugging Face, hat Kimi K2 hoch gelobt und festgestellt, dass Open-Source-Modelle die neuesten Closed-Source-Modelle herausfordern.
Die feierliche Veröffentlichung von K2 steht im krassen Kontrast zu den vergangenen sechs Monaten der Stille von Kimi.
In den letzten zwei Jahren hat Kimi eine aufregende Reise erlebt: Es war fast das letzte, das einen Chatbot namens Kimi veröffentlichte, erreichte aber schnell Bekanntheit dank seiner Fähigkeit, lange Texte zu verarbeiten und originellen Marketingkampagnen. Kimi war eines der ersten Large Language Models, das sich in der breiten Öffentlichkeit etablierte.
Aber 2025 hat DeepSeek die gesamte Branche auf den Kopf gestellt. Alle Modellehersteller mussten sich nun beweisen und ihre technologische Stärke unter Beweis stellen, um in der Konkurrenz um AGI bestehen zu können.
Kimi hat seinen Kurs geändert: Die To-C-Anwendung von Kimi hat die Werbeaktivitäten eingestellt und sich stattdessen auf die Verbesserung des Modells konzentriert. Andere To-C-Anwendungen wie Ohai und Noisee, die im vergangenen Jahr getestet wurden, sowie die Experimente mit Multimodalität wurden schnell eingestellt. Dies hat zu heftigen Zweifeln geführt: Hat Kimi die Vorhersage-Training aufgegeben? Wird die To-C-Anwendung aufgegeben?
Nach sechs Monaten der Tarnung braucht Kimi einen Erfolg. Die Veröffentlichung von K2 ist ein Versprechen, wieder in die AGI-Richtung zu gehen.
„Ein weiterer DeepSeek-Moment“
Die Veröffentlichung von K2 hat die globale Entwickler-Community erschüttert. Am 16. Juli hat die renommierte Zeitschrift „Nature“ in einem Artikel die Veröffentlichung von K2 als „einen weiteren DeepSeek-Moment“ bezeichnet, was ein klärender Lobeshymne ist.
Warum ist die Veröffentlichung von K2 so wichtig? K2 folgt dem Muster von DeepSeek: Hohe Leistung bei niedrigen Kosten und echte Open-Source-Veröffentlichung. Am wichtigsten ist, dass es wirklich gute Ergebnisse liefert.
K2 ist ein leistungsstarkes Modell. Es hat ein klares Ziel: Die Unterstützung von Agenten (Agentic AI).
Ein Kimi-Algorithmus-Ingenieur namens Justin Wong schrieb in seinem Blog: Kimi möchte die Interaktion zwischen Menschen und KI von der reinen Chat-Interaktion hin zu einer Interaktion um Artefakte wie 3D-Modelle oder Tabellen verändern.
Mit anderen Worten: Es soll tatsächlich etwas bewirken, nicht nur plaudern.
Um die Entscheidungen von Kimi bei der Modellentwicklung zu verstehen, muss man dieses Ziel im Blick haben.
Bei der Veröffentlichung von DeepSeek R1 lag der Schwerpunkt auf logischen und mathematischen Fähigkeiten. Erst später wurde die Fähigkeit, externe Werkzeuge aufzurufen, hinzugefügt. K2 hat diesen Ansatz nicht verfolgt. Es hat zwar auch die Fähigkeit zur stilisierten Textgenerierung verbessert, legt aber den Schwerpunkt auf die Agenten-Fähigkeit.
„Dies ist eine sehr seltene Entscheidung in der Branche“, kommentierte ein Experte.
Genauer gesagt: K2 optimiert die Fähigkeit, externe Werkzeuge wie Browser, PPT, Excel und 3D-Malprogramme basierend auf der Chat-Kontext aufzurufen, um Aufgaben schneller und effizienter zu lösen. Entwickler können auch Agent/Coding-Frameworks wie owl, Cline und RooCode nutzen, um eigenständig zu programmieren.
In den Beispielen von K2 kann man sehen, dass es schnell 3D-Erdmodelle, Präsentationen, 3D-Landschaften mit Tag-Nacht-Zyklus und 3D-Partikelgalaxien erzeugen kann, ohne lange zu „überlegen“.
△Prompt: Erstelle eine 3D-HTML-Bergszene mit Klippen, Flüssen und Tag-Nacht-Beleuchtung. Unterstütze Ziehen/Vergrößern, animierte Übergänge, realistische Farbverläufe und ein- und ausschaltbare Höhenlinien... (Erstelle eine 3D-HTML-Bergszene mit Klippen, Flüssen und Tag-Nacht-Beleuchtung. Unterstütze Ziehen/Vergrößern, animierte Übergänge, realistische Farbverläufe und ein- und ausschaltbare Höhenlinien...) Quelle: Kimi
Wenn man Kimi K2 130.000 Zeilen Rohdaten gibt, kann es die Auswirkungen der Fernarbeit auf das Gehalt analysieren, statistische Diagramme erstellen und Regressionsmodelle interpretieren. Es kann auch professionelle Diagramme wie Violin-Plots, Box-Plots und Streudiagramme erstellen und diese in einem Bericht zusammenfassen.
△Quelle: Kimi
Ein weiterer wichtiger Aspekt von K2 ist, dass es die Trainings- und Nutzungskosten auf ein Minimum reduziert, während es gleichzeitig eine Leistung nahe am Mainstream-Modell Claude erreicht. K2 ist also äußerst kostengünstig.
Die Preise für die Kimi K2 API betragen 4 Yuan pro Million eingegebener Tokens und 16 Yuan pro Million ausgegebener Tokens. Im Vergleich zu Claude 4 Sonnet, das ebenfalls auf Programmierung spezialisiert ist (3 US-Dollar pro Million eingegebener Tokens und 15 US-Dollar pro Million ausgegebener Tokens), sinken die Gesamtkosten um über 75%.
Diese 75% sollten nicht unterschätzt werden. KI-Programmierung ist ein heiß umkämpfter Bereich in der Startup-Welt. Unternehmen wie Cursor haben bereits eine hohe Bewertung erreicht. Bis Juni 2025 hat Cursor ein ARR (Annual Recurring Revenue) von über 500 Millionen US-Dollar erreicht, was im Vergleich zu den 300 Millionen US-Dollar Mitte April eine Steigerung von 60% in nur zwei Monaten bedeutet.
Entwickler stimmen mit ihrem Geld. Nach der Veröffentlichung von K2 hat die Anzahl der Downloads auf Hugging Face rapide zugenommen. K2 hat schnell Platz 2 in der OpenRouter-Trendliste erreicht. Entwickler beschweren sich darüber, dass die API zu langsam ist und sie es nicht nutzen können.
K2 ist noch nicht perfekt. Die Ergebnisse können manchmal zu langatmig sein, und die Codequalität ist im Vergleich zu top-Modellen wie Claude noch hinterher. Aber es ist kostengünstig. In vielen Testfällen von Bloggern kostet es nur ein paar Yuan, wenn ein normaler Programmierer einen Tag lang mit K2 programmiert. Dies senkt die Kosten für die Nutzung von KI-Programmierung erheblich.
Die Kostengünstigkeit von K2 ist auf einige innovative Lösungen von Kimi zurückzuführen.
Während des Trainings hat Kimi den neuen Optimierer Muon eingeführt, der den bisherigen Standardoptimierer AdamW ablöst. Bei verschiedenen Llama-Architekturen benötigt Muon nur 52% der Rechenleistung von AdamW.
Der Optimierer ist ein zentraler Bestandteil eines Large Language Models. Er bestimmt, wie die Modellparameter während des Trainings angepasst werden. Je besser der Optimierer, desto schneller und stabiler läuft das Modell auf derselben Hardware. Anders ausgedrückt: Es spart Rechenleistung.
Dies war ein technologisches Abenteuer. Muon ist ein relativ neues Konzept, das bisher noch nicht in einer offiziellen Studie veröffentlicht wurde. Es wurde bisher nur in kleinen Modellen getestet. Kimi hat es gewagt, Muon auf ein Modell mit Billionen von Parametern anzuwenden und hat dabei viele technologische Herausforderungen bewältigt. Dies hat die Arbeit an Muon zu einem der angesehensten Projekte bei der Veröffentlichung von K2 gemacht.
Eine Klavieraufstellung vor der Firma und ein Unternehmensname, der nach einem legendären Rockalbum benannt ist, klingt rockig. Aber die Tatsache, dass Kimi sich in einer großen Marktkonkurrenz auf ein neues technologisches Konzept konzentriert hat, es auf ein Modell mit Billionen von Parametern angewandt hat und es erfolgreich umgesetzt hat, ist wirklich rockig.
Für die Sechs Drachte gibt es keinen Rückweg
Die Details der Veröffentlichung von K2 zeigen, dass die Auswirkungen von DeepSeek weiterhin spürbar sind.
Die Veröffentlichung von DeepSeek R1 im Januar dieses Jahres war ein Wendepunkt in der globalen KI-Szene. Davor haben sowohl große Unternehmen als auch Startups sich um die Entwicklung von KI-Anwendungen bemüht, um Benutzer und Kundenbindung zu gewinnen.
Kimi hat 2024 aggressive Werbekampagnen durchgeführt und sich mit Doubao von ByteDance messen lassen. Aber Werbung und Wachstum sind Bereiche, in denen große Unternehmen stärker sind. Kimi hat schnell Schwierigkeiten bekommen. Im November 2024 hat Doubao angekündigt, dass es eine monatliche Benutzerzahl von über 100 Millionen erreicht hat und war in China der Star der Stunde.
Aber diese Erfolge wurden schnell von DeepSeek R1 übertroffen.
Nach DeepSeek haben alle Unternehmen den Konsens erreicht: Die Verbesserung der Modellleistung ist das Wichtigste. Auf dem chinesischen To-C-Markt kämpfen hauptsächlich Yuanbao, Kuaike und Doubao um die Spitze.
Heute ist die Monetarisierung ein eher entfernteres Problem. Vor dem Hintergrund der All-in-Strategie von großen Unternehmen haben Startups in der KI-Branche nur eine Möglichkeit: Open-Source-Entwicklung und die Lösung der schwierigsten Probleme.
Während der 36Kr Waves-Konferenz hat Dai Yusen, Partner von ZhenFund, über Kimi und Minimax gesagt: „Vor einem Jahr haben wir uns um Werbung und Benutzerzahl bemüht. Dies war eher ein Bereich für große Unternehmen. Heute geht es um die technologische Spitze und starke kognitive Fähigkeiten. Ich glaube, dass dies eher geeignet ist für Startup-Teams, die umfassende technologische Kompetenz haben.“
Die Sechs Drachte haben unterschiedliche Wege gewählt. Nach dem Erfolg von DeepSeek R1 haben die Unternehmen verschiedene Strategien verfolgt: Kimi hat sich auf die Verbesserung der Programmier- und Agenten-Fähigkeiten konzentriert, ähnlich wie Anthropic. Minimax und Jieyue haben sich auf Multimodalität konzentriert. Zhipu hat eine eher lokale und To-B/To-G-Strategie verfolgt. Baichuan hat sich weiterhin auf die Entwicklung von medizinischen Modellen konzentriert. 01 hat die Weiterentwicklung von Super-Modellen eingestellt und sich stattdessen auf die Umsetzung von KI-Projekten konzentriert.
Bisher war Kimi in der internationalen Szene eher unbekannt. Aber die Popularität von K2 hat sich gelohnt. Entwickler aus der ganzen Welt beginnen, Kimi zu beobachten. Einige haben sich auch für die Vergangenheit von CEO Yang Zhilin interessiert. Entwickler mögen das Team von Kimi, das eine punkige Kultur hat. Die Teammitglieder von Kimi zeigen auf Xiaohongshu und Twitter die Konferenzräume, die nach legendären Bands benannt sind. Sie geben auch auf Twitter zu, dass K2 noch nicht perfekt ist und dass es noch viele Probleme gibt, die behoben werden müssen.
△Quelle: Twitter
Bevor Kimi sich auf die Verbesserung des Modells konzentrierte und Produkte wie die Tiefenanalyse entwickelt hat, hat dies auch die Kimi-Webanwendung positiv beeinflusst. Seit Juni hat die Zugriffszahl auf die Webseite um 30% zugenommen.
In gewisser Weise teilen Open-Source und Rock die gleiche Philosophie: Freiheit, Offenheit und Respekt vor Technologie. Dies sind die wichtigsten Werte in der heutigen KI-Branche. Sie helfen, ein gutes Image aufzubauen, die Überzeugungen zu kommunizieren und Talente anzulocken - und das ist genau, was KI