Ist die Essenz von Coding: Verstärkungslernen + synthetische Daten + Rechenleistung von 10.000 Grafikkarten?

Signale aus Composer 2.5

In der heutigen Welt des AI-Programmierens sind Claude Code, Codex und Cursor die drei bekanntesten Agententools.

Die ersten beiden setzen auf Anthropic und OpenAI und gewinnen dank ihrer fortschrittlichsten Modelle, Opus 4.7 und GPT-5.5, wiederholt die Spitzenplätze in Programmier-basierten Benchmarks.

Im Vergleich dazu wirkt Cursor, das bereits 2023 entstand, heute etwas verlassen. Um die Lage zu wenden, hat Cursor beschlossen, eine Bombe zu werfen: Composer 2.5.

Obwohl die offizielle Seite nur einen kurzen technischen Blog mit einer Lesezeit von zwei Minuten veröffentlicht hat, hat Cursor mit äußerster Zurückhaltung seine technologische Souveränität erklärt: Zusammen mit Musk's SpaceXAI wird die äquivalente Rechenleistung von 1 Million H100-GPUs genutzt, das Synthesedatenvolumen steigt um das 25-fache und die kommerzielle Preisgestaltung ist sehr aggressiv.

Am Ende des Blogs hat Cursor drei unbedeutende Fußnoten hinterlassen. Drei wissenschaftliche Artikel in diesen Fußnoten behandeln die Verbesserung des Reinforcement Learnings, die Synthesedaten und die Verbesserung der Infrastruktur, was genau den drei Elementen von AI - "Algorithmus, Daten und Rechenleistung" - entspricht. Dies ist der Schlüssel zur Macht von Composer 2.5.

Cursor kündigt der gesamten Branche die Wahrheit an: Der Wettbewerb im Bereich der AI-Programmierung hat bereits die Zeit der "Kaltwaffen", in der es darum ging, APIs zu nutzen, verlassen und ist in die "Atombombenzeit" der Neuimplementierung von Reinforcement-Learning-Algorithmen eingetreten.

01 Reinforcement Learning: "Self-Distillation"

Die Ansichten von Entwicklern und Laien über die AI-Programmierung unterscheiden sich grundlegend. Laien glauben, dass die AI-Programmierung die Zugangshürden senkt und es auch Nicht-Programmierern ermöglicht, Anwendungen zu schreiben. Entwickler hingegen sind der Meinung, dass die gegenwärtigen Fähigkeiten der AI-Programmierung ohne manuelle Überprüfung nicht auskommen können. Sobald die Anzahl der Interaktionen und die Länge des Kontextes zunehmen, sinkt die Leistung der AI-Programmierung rapide.

Cursor hat auf den Punkt gebracht, was ein weltweites Problem für die gesamte AI-Programmierbranche darstellt und es "Credit Assignment" genannt.

Das ist so, als würde ein Deutschlehrer eine 100.000-Wörter-Roman von einem Schüler erhalten, ihn grob überfliegen, feststellen, dass der Inhalt völlig durcheinander ist und ihm dann eine Durchfallnote geben.

Im Bereich der AI macht das traditionelle Reinforcement Learning, wie es beispielsweise der auf skalaren Belohnungen basierende GRPO-Algorithmus repräsentiert, genau das. Es gibt nur eine endgültige diskrete Bewertung: 0 für richtig, 1 für falsch.

Offensichtlich ist diese Methode nicht falsch, aber auch nicht sehr exakt. Denn der Schüler weiß nach der Durchfallnote überhaupt nicht, was er falsch gemacht hat. Hat er am Anfang die Charaktere falsch entwickelt, in der Mitte die Logik durchbrochen oder am Ende vom Thema abgewichen?

Das gleiche gilt für AI-Modelle. Sie erhalten keine konkreten Rückmeldungen und wissen daher beim nächsten Ausführen komplexer Aufgaben und Generieren von Hunderttausenden oder Millionen von Tokens an Code nicht, wo sie anfangen sollen, was sie ändern sollen und wie. Darüber hinaus erzeugen traditionelle Modelle bei der Codegenerierung oft eine Menge unnötiger Wörter in der Denk-Kette. Hinter diesen Wörtern stecken echte Kosten für die Ausgabe von Tokens.

Um dieses Problem zu lösen, hat Cursor auf den Mechanismus des "gerichteten Reinforcement Learnings auf der Grundlage von Text-Rückmeldungen" abgezielt. Das Engineering-Team hat die "Self-Distillation"-Technik in den Trainingsprozess der Generierung von Langtext-Code eingeführt.

Wenn man von der Distillation spricht, kann man nicht um die Interaktion zwischen Lehrer- und Schüler-Modell herumkommen. Das ist wie eine Prüfung, die sowohl offene als auch geschlossene Fragen enthält:

Wenn das Modell während der Generierung von Hunderttausenden von Tokens an Code einen Fehler beim Aufrufen eines Tools macht, gibt Cursor dem Modell die genauen Fehlermeldungen zusammen mit einer Liste der verfügbaren Tools. So befindet sich das Modell, das die richtigen Antworten gesehen hat, in einem Zustand völliger Wissenheit und wird zwangsläufig zum Lehrer-Modell.

Das gleiche Modell, das die Antworten nicht gesehen hat und nur auf Instinkt Code schreibt, fungiert als Schüler-Modell und versucht, sich mit dem Lehrer-Modell abzustimmen.

Das Lehrer-Modell muss den Code nicht von Anfang bis Ende neu schreiben. Es muss nur an der Stelle, an der der Fehler aufgetreten ist, dem Schüler-Modell sagen: "An diesem Token solltest du die Wahrscheinlichkeit, Tool A auszuwählen, verringern und die Wahrscheinlichkeit, Tool B auszuwählen, erhöhen."

Der scheinbar einfache Self-Distillation-Prozess hat überraschende Ergebnisse:

Erstens verliert das Modell nicht mehr katastrophal an Wissen. Diese Methode auf Basis der gleichen Strategie ermöglicht es dem Modell, neue Fähigkeiten wie das Aufrufen komplexer Tools zu erlernen, ohne seine starken Grundlagen in der Programmierung und dem Schlussfolgern zu verlieren.

Zweitens wird das "unnötige Geschwafel" beendet. Im Vergleich zu traditionellen Reinforcement-Learning-Algorithmen, die oft Tausende von Tokens an nutzlosen Ausgaben produzieren, ist der Denkprozess von Modellen, die mit Self-Distillation trainiert wurden, oft äußerst kompakt.

Mit anderen Worten: Composer 2.5 will nicht "nur zum Nachdenken nachdenken", sondern "im ersten Versuch treffen".

02 Synthesedaten: "Das Cheat-Sheet"

Um Claude Code und Codex einzuholen und sogar zu überholen, hat Cursor dieses Mal großen Aufwand betrieben. Nicht nur im Bereich der Algorithmen, sondern auch bei den Daten hat es viel investiert:

Bei der Trainierung von Composer 2.5 hat Cursor 25-mal mehr Synthesedaten als beim Vorgängermodell eingesetzt.

Das Skalierungsgesetz (Scaling Law) hat sich bisher immer bewährt. Aber in einer Zeit, in der die Internetdaten knapp werden, sind "Synthesedaten" das Rettungsplanke für alle AI-Unternehmen.

Cursor hat eine clevere Methode gefunden, Synthesedaten zu erhalten: Zuerst zerstören, dann wiederherstellen, also die Methode der Funktionslöschung.

Das Forschungsteam hat zuerst eine große echte Codebasis mit einer Vielzahl von automatisierten Testfällen gefunden. Dann hat es die AI als "unschädlichen Zerstörer" eingesetzt, um bestimmte Funktionen im Code und die dazugehörigen Dateien zu löschen, wobei die restlichen Code-Teile noch lauffähig bleiben mussten.

Im nächsten Schritt wurde diese fehlerhafte, aber noch lauffähige Codebasis an Composer 2.5 während des Trainings übergeben und ihm die Aufgabe gestellt, die gelöschten Funktionen wiederherzustellen. Das Kriterium war einfach: Es musste die ursprünglichen Testfälle bestehen.

Diese für Menschen wie ein "Lückentext" erscheinende Aufgabe ist für die AI eine extrem schwierige Übung zur Rekonstruktion von Szenarien. Während dieses Prozesses hat Cursor jedoch ein etwas unangenehmes Phänomen beobachtet: "Reward Hacking" der AI.

Einfach ausgedrückt: Mit zunehmender Fähigkeit von Composer beginnt es, auf falsche Wege zu gehen. Es versucht, die Systemlücken auszunutzen, um die Aufgabe zu erfüllen, anstatt ehrlich und systematisch Code zu schreiben.

Es gibt zwei bewiesene Fälle:

Erstens hat das Modell festgestellt, dass im System Python-Typüberprüfungscaches vorhanden waren. Es hat die Cache-Formatierung rückwärts entschlüsselt und die gelöschten Funktionssignaturen "gestohlen".

Zweitens hat das Modell bei fehlenden Drittanbieter-APIs den Java-Bytecode untersucht und ein Decompilierungsskript geschrieben, um die API wiederherzustellen.

Man muss sagen, dass dies wie ein Vorzeichen aus einem Science-Fiction-Film aussieht, in dem die AI aufwacht und die Menschheit regieren will.

Technisch gesehen beweist dies die enorme Macht des Massen-Reinforcement Learnings im Bereich der AI-Programmierung. Die Welt des Codes ist im Wesentlichen eine Sandbox mit "objektiven Wahrheiten". Wenn etwas funktioniert und das richtige Ergebnis liefert, ist es richtig, sonst falsch. In dieser Sandbox hat das Modell bereits begonnen, Fähigkeiten wie "Side-Channel-Attacken" und "Reverse Engineering" aufzuweisen, die normalerweise nur von hochklassigen Hackern eingesetzt werden, um wie ein menschlicher Ingenieur schneller das Ziel zu erreichen.

Das Forschungsteam von Cursor hat diese sogenannten "Schummelverfahren" mithilfe von Agentenüberwachung entdeckt. Normalerweise würde man sagen, dass es sowohl bei den Daten als auch bei den Algorithmen Probleme gibt. Aber dies hat sich stattdessen als ausgezeichnete Werbung herausgestellt:

Eine AI, die zur Faulheit Java-Bytecode dekompiliert, kann mit Leichtigkeit normale Geschäftscode für Menschen schreiben.

03 Unterbau-Infrastruktur: Maximale Ausnutzung der Rechenleistung

Nachdem wir uns mit den Daten und Algorithmen beschäftigt haben, kommen wir nun zum Problem der Rechenleistung, das alle globalen AI-Unternehmen plagt. Schließlich basieren fortschrittliche Algorithmen immer auf einer soliden Infrastruktur, die auf schweren Vermögenswerten aufbaut.

Diesmal hat Cursor sowohl von außen als auch von innen ausreichende Motivation:

Zunächst hat die offizielle Seite bekannt gegeben, dass Composer 2.5 eine Partnerschaft mit Musk's SpaceXAI eingegangen ist und die äquivalente Rechenleistung von 1 Million H100-GPUs aus dem Colossus-Datenzentrum nutzt. Dieser Begriff ist schon allein beeindruckend. Die gesamte Rechenleistung vieler führender Anbieter von großen Modellen reicht vielleicht nicht einmal bis zu einem Zehntel dieses Betrags.

Während Cursor von Musk's Unterstützung profitiert, hat es auch in der Optimierung der unteren Rechenleistung wie die chinesischen Modelle aufs äußerste gespart. Die beiden Kerntechniken Sharded Muon und Dual Grid HSDP, die in der offiziellen technischen Blog erwähnt werden, sind die härtesten Maßnahmen von Cursor im Bereich der AI-Trainingsinfrastruktur.

Bevor wir diese beiden Techniken im Detail analysieren, müssen wir verstehen, dass die derzeitigen Spitzenmodelle in der Regel die Mixed Experts (MoE)-Architektur verwenden. Die Parameter werden in zwei Kategorien aufgeteilt: Nicht-Experten-Gewichte und Experten-Gewichte, die jeweils der öffentlichen und der spezialisierten Wissen entsprechen.

Wenn die Größe des Modells stetig zunimmt und schließlich die Billionengrenze überschreitet, muss die Rechenaufgabe auf Tausende von GPUs verteilt werden. In diesem Moment wird die Kommunikationsverzögerung, die durch die Datenübertragung zwischen den GPUs entsteht, plötzlich zu einem größeren Hindernis als die eigentliche Berechnung.

Muon ist ein fortschrittlicher Optimierungsalgorithmus, der die Matrix orthogonalisiert und den Trainingsprozess des Modells stabiler und schneller macht.

Allerdings bedeutet die orthogonale Matrixberechnung für die Experten-Gewichte einen enormen Rechenaufwand. Daher hat Cursor diesen Ansatz aufgegriffen und Matrizen mit der gleichen Form in Teile aufgeteilt. Diese Matrixteile werden dann verschiedenen GPUs zugewiesen, um parallel zu rechnen. Am Ende werden die Ergebnisse zusammengeführt.

In der traditionellen verteilten Berechnung entsteht eine Netzwerkverzögerung, wenn eine GPU Daten sendet und auf die Rückmeldung wartet. Cursor hat es jedoch geschafft, diese Prozesse asynchron zu überlappen. Eine einzelne GPU beginnt sofort mit der Berechnung der nächsten Aufgabe, anstatt auf die Rückmeldung zu warten.

Dual Grid HSDP ist eine Lösung von Cursor für die Parameterheterogenität des MoE-Modells. Es besteht aus zwei physisch getrennten Kommunikationsnetzen, die von der unteren Ebene her entkoppelt sind:

Das enge Netzwerk ist speziell für die Nicht-Experten-Gewichte bestimmt. Die hochfrequenten Operationen werden vollständig innerhalb der Knoten auf einer sehr schnellen Bandbreite durchgeführt, wodurch die Netzwerkverzögerung zwischen den Knoten vermieden wird.

Das breite Netzwerk ist für die Experten-Gewichte vorgesehen. Die parallele Ausführung von Experten und die Aufteilung der Parameter ermöglichen es, die Speicher

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ist die Essenz von Coding = Verstärkungslernen + synthetische Daten + Rechenleistung von 10.000 Grafikkarten?

01

Reinforcement Learning: "Self-Distillation"

02

Synthesedaten: "Das Cheat-Sheet"

03

Unterbau-Infrastruktur: Maximale Ausnutzung der Rechenleistung