Das Kimi K2 hat nicht nur die Spitze bei der Open-Source übernommen, sondern auch die Namensnennung in seinen eigenen wissenschaftlichen Artikeln beansprucht: Ich "lob" mich selbst.
Letzte Woche hat Dark Side of the Moon eine neue Version des Large Language Models, Kimi K2, veröffentlicht.
Dies ist derzeit das erste Open-Source-Modell weltweit mit einer Billionengröße an Parametern. Nach der Veröffentlichung hat es schnell die Diskussion in der Branche entfacht.
Es hat nicht nur in verschiedenen Bewertungsmaßen hervorragende Leistungen gezeigt, sondern auch allgemeine Zustimmung in der Entwicklergemeinschaft im In- und Ausland erhalten.
Auf der Open-Source-Modell-Rangliste (LMArena) von LMSYS hat Kimi K2 direkt auf Platz 1 gestiegen.
Die erste Spalte zeigt den Rang innerhalb der Open-Source-Modelle. Die ersten vier Plätze gehören allen chinesischen Open-Source-Modellen, und Kimi K2 liegt auf Platz 1. Die zweite Spalte zeigt den Rang aller (Open-Source und Closed-Source) Modelle. Bildquelle: https://lmarena.ai/leaderboard/text
Allerdings haben viele Leute auch bezweifelt, dass Kimi K2 von DeepSeek „kopiert“ wurde.
Das Kimi-Team hat freimütig geantwortet: Es ist tatsächlich auf der Grundlage von DeepSeek V3 verbessert worden.
Selbst einige Internetnutzer haben direkt die Architekturen beider Modelle verglichen und die Detailsunterschiede aufgezeigt:
Nach der Veröffentlichung von Kimi K2 haben Internetnutzer die Unterschiede zwischen der Modellarchitektur von DeepSeek V3 und Kimi K2 zusammengefasst. Quelle: https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison
Während die Leute noch über diese Unterschiede, die Parametergröße und die Modellroute diskutierten, hat Kimi heute noch eine weitere Information preisgegeben: Der technische Bericht von Kimi K2 wurde offiziell veröffentlicht.
Ich habe ihn sofort geöffnet und schnell durchgesehen. Die Schlüsselwörter sind ungefähr: Billionenparameter im Mixed-Experts-Modell, der MuonClip-Optimierer zur Stabilisierung des Trainings, die ständig betonte Agentic-Intelligenz und die selbstkritische allgemeine Verstärkungslearning-Methode...
Bis ich im Anhang eine interessante Liste der Autoren gefunden habe. Außer dem Namen des Gründers von Dark Side of the Moon, Yang Zhilin, war da noch...!
Die Autorenliste des technischen Berichts von Kimi K2
...Ist Kimi K2 selbst einer der Autoren?
Ich war plötzlich ein wenig verwirrt. Man hat dich „erschaffen“, und du nimmst auch an der Schreibung des Papers über deine eigene Entstehung teil?
Warum soll ich dann noch forschen? Wenn es ja schon als Autor genannt ist, kann ich es einfach direkt fragen!
Ich habe also diesen technischen Bericht an Kimi K2 zur Analyse weitergeleitet, um zu sehen, ob es erklären kann, was Kimi K2 tatsächlich gemacht hat.
So ist dieser Artikel nun geworden: Ich habe den technischen Bericht an Kimi K2 gegeben und es aufgefordert, sich selbst „zu enthüllen“.
Kimi K2: Ein Open-Source-Large Language Model mit einer Billionengröße an Parametern, das den Grundstein für die „Agentenzeit“ legt – Eine tiefe Analyse des „Kimi K2 Technical Report“
Von „chatfähig“ zu „arbeitssfähig“: Warum brauchen wir ein neues Generation von Large Language Modellen?
In den letzten zwei Jahren hat der Wettlauf um Large Language Modelle sich auf die Frage konzentriert, „wer die besten Prüfungsergebnisse erzielen kann“. Doch die Anforderungen der realen Welt wenden sich schnell der Frage zu, „wer wie ein Mensch arbeiten kann“.
Von der automatischen Behebung von Codefehlern, der kollaborativen Arbeit mit verschiedenen Tools bis hin zur eigenständigen Durchführung von wissenschaftlichen Experimenten nennt die Branche diese Fähigkeit des „Wahrnehmens - Planens - Ausführens - Reflektierens“ Agentic Intelligence (Agentenintelligenz).
Kimi K2 ist das erste systematische Ergebnis dieser Paradigmenwechsel: Es soll nicht nur Prüfungen bestehen können, sondern auch in komplexen, dynamischen und vielseitigen Tool-Umgebungen wie ein „Azubi“ selbständig lernen und verbessern.
Der Kurzfassung: Schnellübersicht
Technisch gesehen: Der MuonClip-Optimierer, die sparse MoE-Architektur und die Strategie zur Datenumschreibung bieten gemeinsam ein neues Paradigma für das Training von Supergroßen Modellen in der Zeit des Mangels an hochwertigen Daten.
Datentechnisch gesehen: Die 100.000 Tool-Trajektorien in einer gemischten synthetischen und realen Umgebung bieten der Community eine reproduzierbare und erweiterbare Produktionslinie für Agentendaten.
Open-Source-Technisch gesehen: Die Gewichte des 1-T-Parameter-Basis- und -Instruktionsmodells werden vollständig freigegeben, was gleichbedeutend ist mit der Freigabe eines Formel-1-Rennwagens für alle Ingenieure.
Übersicht über das Modell: Ein „spärlicher Riese“ mit einer Billionengröße an Gesamtparametern und 32 Milliarden aktiven Parametern
Größe: Insgesamt 1,04 T Parameter, 32 Milliarden aktive Parameter, MoE (Mixed-Experts)-Architektur mit einer Sparsamkeit von 48 (nur 8 von 384 Experten werden pro Token aktiviert). DeepSeek V3 hat insgesamt 671 Milliarden Parameter, darunter 37 Milliarden aktive Parameter.
Trainingsdaten: 15,5 T Token, die die Bereiche Webseiten, Code, Mathematik und Wissen abdecken und alle einer Qualitätsprüfung und einer „Umschreibmethode“ (Datenvermehrungstechnik zur Erhöhung der Datenvielfalt) unterzogen wurden.
Stabiles Training: Erstmalig während des Trainings eines Supergroßen Modells hat die Verlustfunktion keine großen Schwankungen oder Anomalien gezeigt, was dem neuen Optimierer MuonClip zu verdanken ist.
Kontextfenster: 128.000 Token, um die Anforderungen an lange Dokumente und mehrfache Tool-Aufrufe zu erfüllen.
MuonClip: Eine super effiziente Trainingsmethode für Supergroße Modelle
Der Muon-Optimierer ist bekannt für seine hohe Trainingsleistung. Bei großen Parametermengen kann es jedoch zu einem Explodieren der Aufmerksamkeitsgewichte kommen, d. h. die Logits-Werte werden zu groß, was das Training instabil macht.
Die Autoren haben einen QK-Clip-Mechanismus in den Muon-Optimierer integriert. Der QK-Clip kann automatisch anpassen, wenn die Logits-Werte zu groß werden. Gleichzeitig ändert er die Netzstruktur nicht und hat nur einen minimalen Einfluss auf das Modell, aber seine Wirkung ist enorm.
Das Problem des Explodierens der Aufmerksamkeitsgewichte tritt meistens beim Training von Supergroßen Modellen auf. Dies ist auch einer der wichtigen Durchbrüche, die es ermöglicht haben, Kimi K2 mit einer Billionengröße an Parametern erfolgreich zu trainieren.
Ohne den QK-Clip kann der Muon-Optimierer die Logits-Werte nicht kontrollieren, was das Training des Large Language Modells instabil macht. Kimi K2's MuonClip kann die Logits-Werte jedoch während des gesamten Trainings gut kontrollieren.
Experimente haben gezeigt, dass MuonClip bereits bei einer mittleren Größe von 9 Milliarden aktiven Parametern die Logits-Werte unter 1.000 halten kann. Während des gesamten Trainings von K2 sind keine Instabilitäten oder Optimierungsprobleme aufgetreten, was die Stabilität des Trainings gewährleistet hat.
Textdaten: Doppelbonus durch synthetische und reale Daten
Hohe Qualität Daten werden immer knapper, und das einfache mehrfache Lesen der gleichen Daten während des Trainings kann zu einer Überanpassung des Modells führen. Kimi K2 hat zwei Umschreibstrategien entwickelt:
Wissenstexte: Wikipedia-Artikel werden von einem LLM in verschiedenen Stilen und Perspektiven umgeschrieben, wobei die semantische Konsistenz automatisch überprüft wird. Beispielsweise wird „Photosynthese“ in eine „Detektivgeschichte über die Nährstoffproduktion von Pflanzen“ umgeschrieben.
Mathematiktexte: Sie werden in „Lernnotizen“-Stil umgeschrieben und in mehreren Sprachen übersetzt. Mathematikwettbewerbsaufgaben werden in eine „Feynman-Artige Erklärung“ umgewandelt.
Der Datenumschreibprozess: Der Eingabetext wird in zusammenhängende Abschnitte aufgeteilt, nacheinander umgeschrieben und dann wieder zu einem vollständigen Absatz zusammengefügt.
Kimi K2 wurde in mehreren Experimenten getestet. Die Ergebnisse zeigen, dass die Genauigkeit nach einer Umschreibung und einem einzigen Trainingslauf (28,94%) besser ist als die Genauigkeit nach zehnmaligem Lesen des Originaltexts (23,76%).
Agentendaten: 20.000 Tools, 100.000 Trajektorien
Das Schwerste bei der Ausbildung eines Modells zur Tool-Nutzung ist die Schaffung einer „erweiterbaren realen Umgebung“. Die Autoren haben eine gemischte Pipeline aufgebaut:
Tool-Bibliothek: Über 3.000 reale MCP-Tools und über 20.000 LLM-synthetisierte Tools, die über 20 Bereiche wie Finanzwesen, städtische Internet der Dinge und Softwareentwicklung abdecken.
Automatische Generierung von Agenten-Trainingsbeispielen aus einem „Aufgabe - Agent - Bewertung“-Tripel: Jede generierte Trajektorie (d. h. die Eingabe, Ausgabe, Entscheidungsprozesse und alle Aktionen des Modells) wird von einem LLM-Judge bewertet. Wenn die Durchfallquote kleiner als 10% ist, wird die Ablehnungssampling-Methode angewendet, um sicherzustellen, dass nur die Beispiele für das weitere Training oder die Bewertung ausgewählt werden, die den Anforderungen entsprechen.
Zusätzliche reale Agenten-Aufgabendaten: Beispielsweise werden Code-Aufgaben direkt an eine Open-Source-Container-Orchestrierungsplattform weitergeleitet, um die Aufgabe auszuführen und zu testen, um eine echte Rückmeldung zu erhalten.
Der Datenvermehrungsprozess bei der Verwendung der Tool-Bibliothek: Die Tools stammen aus der realen Welt und von LLMs. Die Intelligenz und die Aufgaben werden aus der Tool-Bibliothek generiert.
Am Ende wurden über 100.000 hochwertige Trajektorien erzeugt, die für das überwachte Feinabstimmen und das Verstärkungslearning verwendet werden.
Verstärkungslearning-Framework: Verifizierbare Belohnungen + Selbstkritik
Verstärkungslearning mit verifizierbaren Belohnungen: Bei Aufgaben wie Mathematik, Code und Logikaufgaben werden direkte Unittests oder numerische Verifikationen durchgeführt, um die Leistung des Modells objektiv zu bewerten.
Selbstkritische Belohnungen: Bei nicht-objektiven Aufgaben (z. B. Gedichtschreiben) bewertet das Modell seine eigenen Antworten anhand von über 30 Kriterien (Klarheit, Objektivität, flüssige Konversation, Sicherheit usw.), um eine Übereinstimmung ohne Musterlösung zu erreichen.
Budgetkontrolle: Die Verwendung von unnötigen Wörtern wird vermieden, und es wird erzwungen, dass das Problem mit möglichst wenigen Token gelöst wird (um die Inferenzkosten zu sparen).
Leistungsbericht: Rang 1 bei Open-Source-Modellen, annähernd an Closed-Source-Modellen herankommend
Alle Vergleiche wurden im „nicht-nachdenkenden“ Modus durchgeführt, ohne Berücksichtigung der Unterschiede in den Rechenressourcen während der Tests.
Kimi K2 hat in den vier Schlüsselkompet