Cursor's Report: Kneeling in Admiration for Open-Source Technology - Fine-Tuning Kimi This Way to Defeat Claude

So spielt man es also mit dem technologischen Umschlag (doge).

Die Angelegenheit, dass Cursor Kimi "umhüllt", ist noch nicht abgeschlossen...

Neueste Nachricht: Cursor hat einen technischen Bericht über Composer 2 veröffentlicht, um zu beweisen, dass es tatsächlich an einer "eigenen Entwicklung" arbeitet. (doge)

Es ist nicht einfach nur eine Umhüllung, sondern eine technisch fundierte und schrittweise Umhüllung.

Die verwendete Methode ist immer noch die Vorausbildung + verstärkte Lernmethode, die sie von Anfang an betont haben.

Diesmal hat Cursor gelernt und hat ehrlich Kimi K2.5 als Quelle angegeben.

So schnell hat es sich gefügt und so aufrichtig war seine Haltung... sogar hat es eine Einigung mit der offiziellen Kimi-Seite erreicht.

Aber die Internetnutzer scheinen das nicht zu akzeptieren.

Cusor: So basieren wir auf Kimi 2.5

Am Anfang des Berichts hat Cusor endlich den richtigen Weg gefunden und zuerst den Geschäftspartner Kimi gelobt:

Vor der Trainingsphase haben wir mehrere potenzielle Open-Source-Basis-Modelle evaluiert, darunter GLM5, Kimi K2.5 und DeepSeek V3.2. Aber Kimi K2.5 ist das beste!

Der Grund für die Auswahl von Kimi K2.5 liegt nicht nur in seiner hervorragenden Gesamtfähigkeit, sondern auch in zusätzlichen Faktoren wie der Ausführungseffizienz in der eigenen Infrastruktur.

(Hust) Man kann sagen, dass Cursor durch diese Angelegenheit endlich das "Ansehen" der chinesischen Open-Source-Modelle perfekt gelernt hat.

Zweitens hat Composer 2 basierend auf Kimi 2.5 zwei unabhängige Trainingsabläufe durchlaufen: Dauerhafte Vorausbildung und asynchrone verstärkte Lernmethode.

1. Dauerhafte Vorausbildung

Ihr Ziel ist es, die Grundkenntnisse und das potenzielle Codierungsvermögen des Modells im Bereich der Codierung zu verbessern und die Grundlage für das nachfolgende Training des Agenten RL zu legen. Sie gliedert sich hauptsächlich in drei Teilphasen:

Zuerst werden die meisten Rechenressourcen in das Training mit einer Sequenzlänge von 32k Token investiert. Dann erfolgt ein kurzfristiges Training zur Erweiterung des langen Kontexts, um die Sequenzlänge auf 256k zu erhöhen. Schließlich wird die Anpassung an bestimmte Codierungsaufgaben durch die Anpassung an kleine Stichprobenanweisungen (SFT) abgeschlossen.

Zusätzlich wurde zur Verbesserung der Online-Inferenzgeschwindigkeit des Modells eine Mehr-Token-Vorhersage (MTP)-Schicht hinzugefügt. In Kombination mit der Spekulativ-Dekodierungstechnik und der Selbst-Distillationsstrategie wird die Konvergenzgeschwindigkeit des Modells gewährleistet.

Während des Trainings ist der Verlustwert des Modells in der eigenen Codierungsbibliothek logarithmisch-linear abnehmend, und die Verwirrung der Codierungsbibliothek korreliert positiv mit der Leistung des downstream RL. Dies beweist die Wirksamkeit der Vorausbildung.

2. Asynchrone verstärkte Lernmethode

Die Trainingsumgebung simuliert in hohem Maße die echten Cursor-Dialogszenarien und umfasst alle Arten von Kernaufgaben der Softwareentwicklung.

Das gesamte Framework für das Training der verstärkten Lernmethode basiert auf der Massen-Strategiegradientenmethode. Um die Stabilität des Trainings zu gewährleisten, wird die Strategiegradientenmethode mit einer einzigen Anweisung und mehreren Stichproben verwendet, und die Größe der Stichproben-Gruppe wird festgelegt.

Eine Anweisung nimmt nur einmal am Training teil. Der Adam-Optimierer wird verwendet, um alle Parameter des Modells während des Trainings zu aktualisieren. Dann wird der GRPO-Algorithmus optimiert, der Längen-Normalisierungs-Term wird entfernt, um Längen-Bias zu vermeiden, und die KL-Divergenz (k1=-log r) wird eingeführt, um die Regularisierung zu erreichen.

Zusätzlich wurde festgestellt, dass die Durchschnittsleistung und die Best-of-K-Leistung des endgültigen Modells gleichzeitig verbessert werden. Dies beweist, dass die RL nicht nur die Inferenzpfade neu gewichtet, sondern auch die Abdeckung der richtigen Lösungen erweitert.

Darüber hinaus hat Composer 2 eine Reihe von Hilfs-Belohnungsmechanismen hinzugefügt, einschließlich positiver Belohnungen für Code-Style und Interaktionsausdruck sowie produktionsrelevanter Strafen für unsachgemäßen Werkzeugaufruf. Die Belohnungsregeln werden dynamisch anhand der während des Trainings auftretenden Verhaltensmuster angepasst.

Bei den Benchmark-Tests hat Cursor auch einen eigenen internen Evaluationssatz - CursorBench - vorgestellt.

Die Aufgaben in CursorBench stammen alle aus realen Agenten-Nutzungsszenarien. Es wird nicht nur die Funktionskorrektheit als einziges Kriterium verwendet, sondern auch die Code-Qualität, die Ausführungseffizienz, die Agenten-Interaktion und andere Aspekte berücksichtigt.

Die Daten zeigen, dass die Codeänderungen in CursorBench größer sind (Median: 181 Zeilen), während die Validierungssätze von SWE-bench und die mehrsprachige Version nur 7 - 10 Zeilen haben. Gleichzeitig sind die Anweisungshinweise in CursorBench kürzer, der Median beträgt nur 390 Zeichen, weit weniger als die 1185 - 3055 Zeichen in den öffentlichen Benchmark-Tests.

Konkret betrachtet kann die Genauigkeit von Composer 2 in CursorBench-3 61,3% erreichen, was eine relative Verbesserung von 37% gegenüber Version 1.5 und von 61% gegenüber Version 1 darstellt.

Im Vergleich zu Kimi K2.5 hat die Genauigkeit ebenfalls eine erhebliche Verbesserung erfahren.

Insgesamt gesehen hat Composer 2 auf Kostenebene eine Pareto-Optimalität erreicht. Die Inferenzkosten sind mit denen kleinerer Modelle vergleichbar, während die Genauigkeit mit der von großen, führenden Modellen konkurriert. Die Token-Nutzungseffizienz entspricht auch der anderer SOTA-Modelle, ohne zusätzlichen Ressourcenverbrauch.

Ehrlich gesagt, ist dies doch eine Art Kimi K2.5 pro-Version, nur dass der Hersteller jetzt Cursor auf der anderen Seite des Ozeans ist.

Mit der Offenlegung der Basis-Modelle und des technischen Berichts kann Cursor auch in einer anderen Bedeutung als "Open-Source" bezeichnet werden. (doge)

Wir heißen es willkommen, dass die ganze Welt die chinesischen Open-Source-Modelle "umhüllt", aber bitte geben Sie einfach die Quelle an!

Yang Zhilin's Neubetrachtung von großen Modellen

Während Cursor mit seinem Bericht versucht, sich zu rechtfertigen, hat Kimi bereits "vorwärts geschaut" -

Yang Zhilin hat in einem Vortrag auf dem Zhongguancun-Forum seine neuesten Überlegungen über Open-Source-Modelle und Modelltraining im Team von Kimi ausführlich geteilt.

Zuerst ist seiner Meinung nach die Essenz von großen Modellen die Umwandlung von Energie in Intelligenz, und das Wichtigste dabei ist die Skaliertheit.

Mit anderen Worten, es geht darum, so viel Energie wie möglich über Rechenleistung und Modellträger in höhere Intelligenz umzuwandeln.

Die Skaliertheit von großen Modellen, also das oft genannte Scaling Law, ist nicht gleichbedeutend mit einer blinden Anhäufung von Rechenleistung, sondern erfordert Methoden und Effizienz.

Die Skalierungsstrategie von Kimi basiert auf drei Punkten:

1. Verbesserung der Token-Effizienz.

Ein wirklich guter Algorithmus ist nicht derjenige, der am meisten Rechenleistung oder Daten hat, sondern derjenige, der mit denselben begrenzten Daten mehr Intelligenz erlernt.

2. Erweiterung der Kontextlänge.

Wenn ein Algorithmus einen längeren Kontext verarbeiten kann, bedeutet das, dass er komplexere und längerfristige Logiken verstehen und komplexere Aufgaben lösen kann.

Dafür hat Kimi eine neue Netzwerkarchitektur namens Kimi Linear und Trainingsdaten entwickelt, um die Fähigkeit für lange Kontexte grundlegend zu verbessern, anstatt einfach die Fensterlänge zu verlängern.

3. Einführung von Agent-Clustern.

Dies ist ein neuer Ansatz, der erstmals in Kimi K2.5 vorgeschlagen wurde. Anstatt sich darauf zu konzentrieren, ein einzelnes Modell auf die Spitze zu bringen, wird eine Gruppe von Agenten eingeführt, um komplexere Probleme zu lösen.

Durch die Fähigkeit des Agent-Clusters können Skalierungseingaben, -ausgaben, -ausführungen oder -orchestrierungen erreicht werden.

Außerdem hält Kimi auch eine gute untere Netzwerkarchitektur für sehr wichtig.

Zum Beispiel kann die neueste Open-Source-Modellarchitektur Attention Residuals als eine Variante des LSTM angesehen werden, die die Attention auf die Netzwerk-Tiefe anwendet, um das Modell in der Lage zu machen, die Informationen aller Schichten effizienter zu nutzen.

Tatsächlich sind die Attention-Architektur und das Residual-Learning klassische Techniken aus vor Jahren. Jetzt, wo die Rechenleistung stärker ist und die Forschung eher auf Engineering und Massenvalidierung ausgerichtet ist, kann man nicht nur auf theoretische Ideen setzen. Die früheren Standardlösungen können auch neu herausgefordert und verbessert werden.

Was die Open-Source-Angelegenheit betrifft, sollte man es tun und es auch weiterhin stark vorantreiben.

Open-Source-Modelle werden allmählich zum neuen Standard. Open-Source-Modelle wie Kimi K2.5 sind bereits das Referenzmodell für alle Chiphersteller weltweit, um die Hardwareleistung zu testen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Cursor's Report on Kneeling in Admiration for Open-Source Technology: Fine-Tuning Kimi in This Way Can Defeat Claude

Cusor: So basieren wir auf Kimi 2.5

Yang Zhilin's Neubetrachtung von großen Modellen