StartseiteArtikel

K2 Thinking hat wieder einen großen Eindruck hinterlassen. Yang Zhilin hat in der frühen Morgenstunde 21 Fragen beantwortet.

咏仪2025-11-11 18:28
Frage Kimi alles mögliche.

Text | Deng Yongyi

Editor | Su Jianxun

Nachdem die Veröffentlichung von K2 Thinking letzte Woche erneut weltweit für Aufsehen sorgte, nahmen am frühen Morgen des 11. November (Pekingzeit) Yang Zhilin, der Gründer von Dark Side of the Moon, sowie seine Partner Zhou Xinyu und Wu Yuxin in der Reddit-Community mehrere Stunden lang an einer Online-AMA (Ask Me Anything)-Sitzung teil, um Fragen zum neuen Modell zu beantworten.

Dies war auch das erste gemeinsame Erscheinen der mehreren Mitbegründer.

Von der aggressiven Marketingstrategie hin zur Fokussierung auf die Modelltechnologie: Kimi setzt heute nicht mehr so stark auf Werbung und ist zunehmend ruhiger geworden. Die Veröffentlichung des neuen Modells folgte wie die des K2 vor drei Monaten einem diskreten Ansatz: Es wurde keine offizielle Veranstaltung vor Ort organisiert, sondern das Modell direkt in der Community veröffentlicht.

Die Hauptmitarbeiter des Teams entschieden sich, auf Reddit und Zhihu Fragen zu beantworten, was auch mit Kimis gegenwärtiger Open-Source-Strategie übereinstimmt – diese Communities sind Orte, an denen sich AI-Fachleute und Tech-Enthusiasten treffen.

Ausländische Entwickler haben ihre Begeisterung für Kimi K2 nicht unter den Tisch gekehrt. Nach Beginn der AMA-Sitzung füllten sich schnell die Diskussionsthreads mit Dutzenden von Fragen, vermischt mit Lob für Kimis Kosteneffizienz und die Tiefe seiner Open-Source-Initiativen. „Ein absolut großartiges Modell!“ So äußerten sich viele Benutzer.

Viele Entwickler haben sogar direkt nachgefragt, wann das Kimi-Team kleinere Versionen von K2 Thinking veröffentlichen werde, die auf PCs oder in Unternehmensproduktionsumgebungen eingesetzt werden könnten.

Yang Zhilin hat auch erstmals eine Reihe von Gerüchten geklärt – wird es weiterhin Open-Source-Projekte geben? Ist die Trainingskostenangabe von 4,6 Millionen US-Dollar für K2 Thinking wahr? Und was sind die Pläne für das nächste K3-Modell sowie die entscheidenden Trainingsdetails von K2 Thinking?

△ Yang Zhilin beantwortet Fragen zur Trainingskosten

△ Wird es in Zukunft größere, proprietäre Modelle geben? Eine verschleierte Antwort: Wenn das Modell immer gefährlicher wird :)

Das Kimi-Team hat auch ehrlich auf technische Diskussionen reagiert und sogar humorvoll auf die aktuelle AI-Blase eingegangen – „Wir wissen auch nicht (warum OpenAI so viel Geld ausgibt), nur Sam weiß das. Wir haben unseren eigenen Rhythmus.“ So äußerte sich Zhou Xinyu, Mitbegründer von Dark Side of the Moon.

△ Zhou Xinyu, Mitbegründer von Dark Side of the Moon

Das neu veröffentlichte K2 Thinking ist ein Modell mit einer gigantischen Größe von einer Billion Parametern und einer spärlichen Mixed-Expert (MoE)-Architektur – dies ist eine beachtliche Größe für ein Open-Source-Modell.

In mehreren wichtigen Benchmark-Tests, die die Spitzenleistung messen, hat K2 Thinking tatsächlich gute Ergebnisse erzielt, insbesondere in Bezug auf Inferenz und Aufgabenausführung.

Auf Agent-Ranglisten wie HLE (Humanity's Last Exam, mit über 3.000 anspruchsvollen Testfragen für menschliche Experten) und BrowseComp (Autonomes Webbrowsing), die für ihre Schwierigkeit bekannt sind, hat K2-Thinking sogar bessere Ergebnisse erzielt als GPT-5.

K2 Thinking baut auf der Architektur von DeepSeek auf, macht jedoch weitere Innovationen – die Parameter werden größer gewählt, und neue Quantifizierungsmethoden wie INT4 werden eingesetzt.

Betrachtet man die Kosten, hat K2-Thinking einen enormen Kostenvorteil. Der Preis für die Ausgabe von einer Million Tokens beträgt nur 2,5 US-Dollar, nur ein Viertel des Preises von GPT-5 (10 US-Dollar). Viele bezeichnen es als „kostengünstige Alternative“ zu GPT-5 und Claude Sonnet 4.5.

„Ist dies wieder ein glänzender Moment wie bei DeepSeek?“ So kommentierte Thomas Wolf, Mitbegründer von Hugging Face, auf X nach der Veröffentlichung von K2 Thinking.

In den letzten Monaten war es eine Erntezeit für chinesische Large Language Models (LLMs). Die verschiedenen Anbieter scheinen sich darauf verständigt zu haben, nacheinander Open-Source-Projekte zu veröffentlichen, was Siliciumtal ein wenig in Schock gerissen hat – Im September veröffentlichte Zhipu GLM-4.6, im Oktober veröffentlichte MiniMax M2, und nun kommt K2 Thinking. Auf den globalen Ranglisten gibt es ein spannendes Duell.

(Wir haben auch die vollständigen Fragen und Antworten aus dieser AMA-Sitzung am Ende des Artikels zusammengestellt.)

Das gesprächige K2 Thinking ist für bessere Aufgabenausführung konzipiert

Während der AMA-Sitzung und in Communities wie Zhihu war das erste Gefühl vieler Entwickler, dass K2 Thinking sehr gesprächig ist. Wenn man es eine Frage stellt, denkt es lange nach, und obwohl es kostengünstig ist, verbraucht es eine enorme Menge an Tokens.

Dieses gesprächige Verhalten dient jedoch einem wichtigen Ziel: Es soll ermöglichen, dass die KI für den Menschen mehr Aufgaben erledigen kann.

Von K2 bis K2 Thinking: Alle Designentscheidungen drehen sich um dieses Ziel: Die Fokussierung auf Agentfähigkeiten, damit die KI nicht nur chatten, sondern auch tatsächlich Aufgaben erledigen kann.

Mit einer Billion Parametern ist K2 Thinking ein riesiges Modell, aber diese Größe dient nicht der Demonstration von Technologie, sondern der Absicht, dass das Modell mehr Wissen integrieren kann, was für das Verständnis und die Ausführung von Aufgaben vorteilhaft ist – man könnte sagen, es hat „ein schlaueres Gehirn“. Bei der tatsächlichen Ausführung werden jedoch nur 30 Milliarden Parameter aktiviert, was auch die Geschwindigkeit bei der Beantwortung von Fragen und der Ausführung von Aufgaben gewährleistet.

Die Fähigkeit, lange Denkketten zu bilden, ist ein Stärkenpunkt von K2 Thinking. Laut der offiziellen Kimi-Information kann K2 Thinking bis zu 200 bis 300 aufeinanderfolgende Werkzeugaufrufe durchführen, um komplexe Probleme zu lösen und die Kontinuität der Aufgabe aufrechtzuerhalten.

Ein Benutzer auf Zhihu namens @Pingfan hat ein Experiment durchgeführt: Er stellte K2 Thinking eine mathematische Problemstellung auf Doktoratsebene, und K2 Thinking konnte das Problem bereits nach 23 Werkzeugaufrufen lösen.

Der genaue Ausführungsprozess von K2 Thinking sieht wie folgt aus:

  • Schritt 1: Das Modell versteht zunächst die Fragestellung und plant einen Lösungsansatz.
  • Schritt 2: Es ruft Suchwerkzeuge auf, um relevante Lösungen und Theorien zu finden.
  • Schritt 3: Es analysiert die Suchergebnisse und entscheidet, ob sie verwendbar sind.
  • Schritt 4 bis Schritt N: Es ruft wiederholt einen Python-Code-Executor auf, schreibt Code, führt Berechnungen durch und überprüft Hypothesen.

Zyklus: Es iteriert kontinuierlich in einem Zyklus von „Denken – Werkzeugaufruf – Ergebnisüberprüfung“, bis das Problem gelöst ist.

Es ist leicht zu erkennen, dass dies dem menschlichen Problemlösungsverfahren nachempfunden ist, indem es kontinuierlich in einem Zyklus von „Denken – Werkzeugaufruf – Ergebnisüberprüfung“ iteriert.

„Schritte“ messen die Fähigkeit des Modells, lange Aufgaben auszuführen und die Ausdauer. Je mehr Schritte, desto komplexer sind die Aufgaben, die das Modell bearbeiten kann und desto mehr Iterationen sind erforderlich. Ein wichtiges Trainingsproblem besteht darin, dass das Modell dabei nicht vom ursprünglichen Ziel abweicht.

Viele Designentscheidungen von K2 Thinking zielen darauf ab, dass das Modell komplexe Aufgaben vollständig bearbeiten kann, ohne Informationen zu verlieren. Um das Ziel „Leistung vor allem“ zu erreichen, hat das Kimi-Team entschieden, dass es in Kauf nehmen kann, dass die Token-Effizienz etwas leidet – es ist also okay, dass das Modell gesprächiger ist, solange die Aufgaben erfüllt werden.

Das Kimi-Team hat auch seine Meinung zu der derzeitigen Forschung von DeepSeek in Bezug auf die OCR-Route (Modell mit reinem Pixelinput) geäußert. „Persönlich finde ich, dass dieser Ansatz zu aufwändig ist. Ich neige eher dazu, weiterhin in den Merkmalsraum (Feature Space) zu investieren, um allgemeinere und modusunabhängige (Modality-agnostic) Methoden zu finden, um die Modellleistung zu verbessern.“ So äußerte sich Wu Yuxin, Mitbegründer von Dark Side of the Moon.

△ Zhou Xinyu, Mitbegründer von Dark Side of the Moon

Außer dem Textmodell hat das Kimi-Team auch angekündigt, dass es sich auch an anderen Modalitäten wie der visuellen Verständnis arbeitet, aber der Zeitplan muss noch verschoben werden.

Nach der Lieferunterbrechung von Claude hat die Innovation in China beschleunigt

Die Veröffentlichung von Kimi K2 Thinking, GLM und MiniMax M2 weisen alle in die gleiche Richtung: Unter den Bedingungen von begrenzten Infrastrukturen wie Chips und der Lieferunterbrechung von Claude hat die chinesische LLM-Industrie die Innovation in Bezug auf Algorithmen beschleunigt.

Was die Trainingskosten betrifft, hat Yang Zhilin klar gemacht, dass die Angabe von 4,6 Millionen US-Dollar „keine offizielle Zahl“ sei. Er sagte auch, dass es schwierig sei, die Trainingskosten zu quantifizieren, da der Hauptteil aus Forschung und Experimenten besteht, die nicht in die einmaligen Trainingskosten einbezogen werden können.

Es ist sicher, dass K2 Thinking unter relativ begrenzten Bedingungen entwickelt wurde. Yang Zhilin erklärte, dass K2 Thinking auf H800-GPUs mit Infiniband-Techologie trainiert wurde. Im Vergleich zu den USA hat Kimi in Bezug auf die Anzahl der GPUs einen Nachteil, aber die Leistung jeder Grafikkarte wurde bis an die Grenzen ausgeschöpft.

Es ist nicht nur Kimi, sondern auch andere chinesische Teams, die weiterhin in Basis-Modelle investieren, haben in Bezug auf Algorithmen spezifische Innovationsmöglichkeiten gefunden.

Ein typisches Beispiel ist, dass MiniMax und Dark Side of the Moon unterschiedliche Lösungen für das Problem „Wie kann man lange Kontexte effizient verarbeiten?“ gewählt haben.

Das Vorgängermodell M1 von MiniMax verwendete einen wichtigen Algorithmus namens Linear Attention, aber beim M2 kehrte man wieder zum Full Attention zurück.

Der Unterschied besteht darin, dass MiniMax eine stabilere Technologie bevorzugt, um sicherzustellen, dass keine wichtigen Informationen verloren gehen, wenn lange Informationsketten verarbeitet werden. In einem kürzlich veröffentlichten technischen Blogpost schrieb MiniMax, dass in der Praxis festgestellt wurde, dass obwohl Linear Attention Rechenleistung sparen kann, bei komplexen Agent-Aufgaben mit mehrstufiger Inferenz die traditionelle Methode zuverlässiger ist. Sie legen mehr Wert auf die Stabilität in der gegenwärtigen technologischen Infrastruktur.

Kimi hat sich dagegen für einen aggressiveren Ansatz entschieden. Beispielsweise hat das kürzlich veröffentlichte Kimi Linear eine neue Technologie namens KDA+MLA entwickelt, die auf einer tieferen Hardware- und Architekturebene basiert. Dabei werden die KDA- und MLA-Methoden im Verhältnis von 3:1 kombiniert.

Die traditionelle Transformer-Architektur ist wie ein Sekretär mit einem ausgezeichneten Gedächtnis, aber manchmal etwas vergesslich – das Modell kann jedes Wort merken und verpasst keine Details. Doch je mehr Informationen es speichert, desto stärker erhöht sich die Rechenzeit quadratisch.

Mit der KDA-Architektur wird das Modell gezwungen, „die wichtigsten Informationen zu erfassen“. Das Modell kann die Wichtigkeit und die Aktualität jedes Wortes bewerten und einige Details absichtlich vergessen. Diese neue Architektur hat enorme Vorteile in Bezug auf Leistung, Geschwindigkeit und Speicherplatzbedarf.

Hinter der Wahl der Technologie stehen auch die unterschiedlichen geschäftlichen Ziele der verschiedenen Unternehmen.

Die Strategien der verschiedenen Unternehmen beginnen sich deutlich zu unterscheiden. MiniMax M2 positioniert sich als kostengünstige Lösung mit schneller Inferenz und einer Vielzahl von Multimodalitätsoptionen, um Entwickler zu locken, um auf ihrer Plattform eine vielfältige Anwendungslandschaft aufzubauen.

Kimi hat sich dagegen entschieden, weiter „den Berg hinaufzuklettern“ und konzentriert sich darauf, die Leistung des Textmodells bis an die Grenzen zu treiben und die Grenzen der KI zu erkunden. Um dieses Ziel zu erreichen, legt das Team den Schwerpunkt auf die Leistung, um die Agent-Fähigkeit zu verbessern, und achtet derzeit weniger auf die Token-Effizienz.

Zhipu GLM hat nach der Lieferunterbrechung von Claude einen Teil des Marktes eingenommen, insbesondere in Programmier- und Inferenzszenarien. GLM-4.6 ist ein relativ ausgewogenes Modell in Bezug auf Leistung, Effizienz und Preis, das es Unternehmen ermöglicht, schnell loszulegen. Viele Anwendungsanbieter können es direkt nutzen.

Es gibt keine richtige oder falsche Entscheidung, sondern nur unterschiedliche Überlebensstrategien in der gegenwärtigen Situation.

Tatsächlich beginnt die Anwendungslandschaft chinesischer Open-Source-Modelle, ihre eigenen Stärken zu entwickeln – Viele ausländische Entwickler beginnen, Anwendungen auf chinesischen Open-S