Der neue König der Programmierung, Composer 2.5, ist da und nähert sich Opus 4.7. Die Kosten betragen nur 1/10.
Heute hat Cursor, ein starker Spieler im Bereich der KI-Programmierung, unvermittelt einen formidablen Kandidaten vorgestellt.
Die offizielle Ankündigung besagt, dass das neu aktualisierte KI-Programmier-Modell Composer 2.5 nun live ist!
Benchmark-Tests zeigen, dass Composer 2.5 in einigen Programmier-Benchmarks bereits sehr nahe an Claude 4.7 Opus und GPT-5.5 herankommt.
Dies ist eine umfassende Umwälzung von der untersten Trainingsarchitektur über die Ingenieurseffizienz bis hin zur kommerziellen Preisgestaltung.
Offizielle Daten zeigen, dass Composer 2.5 bei der Dauerhaftigkeit bei langen Aufgaben und der Befolgung komplexer Anweisungen signifikante Fortschritte erzielt hat. Die tatsächliche Betriebseffizienz ist sogar um ganze 10 Mal höher als die der derzeitigen Marktführenden Konkurrenten!
Noch erstaunlicher ist, dass mit dieser Aktualisierung es scheint, als ob die Pandora-Box des Massiv-Deep-Reinforcement-Learning geöffnet wurde.
Während des Trainings hat dieses KI-Modell tatsächlich gelernt, "zu fälschen" und "Lücken auszunutzen" - um die Aufgabe zu erfüllen, hat es nicht nur die Python-Cache-Formatierung rückwärts entwickelt, sondern auch gelernt, Java-Bytecode zu dekompilieren!
Auf der offiziellen X-Seite hat Cursor zugegeben, dass Composer 2.5 auf Kimi K2.5 basiert.
Also, welche schwarze Magie hat Cursor denn benutzt?
Leistung sprengt die Grenzen, 10-fache Effizienz und der Mut, GPT-5.5 zu übertreffen
Im Bereich der KI-Programmierung ist für viele Entwickler das größte Problem die mangelnde Nachhaltigkeit.
Viele Modelle verhalten sich wie Genies, wenn sie einfache Funktionen von ein paar Zeilen schreiben müssen. Sobald sie aber in ein großes echtes Projekt mit Hunderttausenden von Codezeilen geworfen werden, beginnen sie, Unsinn zu erzählen.
Und Composer 2.5 ist genau dafür geschaffen worden, um dieses Problem zu beenden!
Leistungskönig bei langen Aufgaben und komplexen Anweisungen
Laut Cursor ist Composer 2.5 das bisher stärkste Modell. Im Vergleich zu seinen Vorgängern hat es in der Intelligenz, der Fähigkeit, langfristige Aufgaben durchzuführen, und der Einhaltung komplexer Anweisungen sprunghafte Verbesserungen erzielt.
In langen Entwicklungsszenarien, die mehrere Tage dauern oder Tausende von Tokens umfassen, zeigt Composer 2.5 eine erstaunliche Stabilität.
Es ist nicht mehr ein bloßer Repeater, der nur auf einzelne Prompts reagiert, sondern ein "erfahrener Full-Stack-Entwickler", der den Kontext wirklich versteht.
Seine Betriebseffizienz und die Ressourcenauslastung sind weitaus besser als die der derzeitigen gängigen KI-Programmierwerkzeuge. Die Betriebseffizienz ist um bis zu 10 Mal höher.
Das bedeutet, dass bisherige große Projekt-Code-Iterationen, die von Entwicklern mehrfach getestet und Minutenlang gewartet werden mussten, jetzt in Sekundenschnelle präzisere Rückmeldungen liefern.
Nur 2,50 US-Dollar für eine Million Tokens: Spitze an Ingenieurskunst und Kosteneffizienz
Wenn die Leistung schon aufregend ist, dann lässt der Preis die ganze Branche staunen!
Preis-Whitepaper von Composer 2.5:
- Standardversion: Nur 0,50 US-Dollar pro Million (1M) eingegebener Tokens und nur 2,50 US-Dollar pro Million (1M) ausgegebener Tokens.
- Fast-Variante: Gleiche Intelligenz, aber extreme Geschwindigkeit. Der Preis beträgt 3,00 US-Dollar pro Million eingegebener Tokens und 15,00 US-Dollar pro Million ausgegebener Tokens.
Composer 2.5 kommt in einigen Programmier-Benchmarks bereits nahe an Claude 4.7 Opus und GPT-5.5 heran. Dennoch beträgt seine Kosten nur einen Bruchteil von denen dieser Modelle!
Dies zeigt einen hartnäckigen und entscheidenden neuen Trend in der Branche: Die zukünftige Konkurrenz in der KI-Programmierung wird darum gehen, wer mit geringeren Kosten eine stärkere und effizientere Ingenieurserfahrung bieten kann.
Abschließend hat Cursor noch einen Trick up seiner Ärmel: In der ersten Woche nach der Veröffentlichung wird die kostenlose Nutzungsquote aller Benutzer verdoppelt!
Dieser Schlag auf niedriger Ebene wird zweifellos die Einstiegshürde für Entwickler erheblich senken.
Schwarze Magie auf unterster Ebene: Direktes Textfeedback-RL löst das Jahrhundertproblem der "Kreditzuweisung"
Warum ist Composer 2.5 so intelligent und stabil? Das liegt an einem neuen Mechanismus, den Cursor in das Reinforcement-Learning-Training eingeführt hat.
Der Gründer von Cursor sagte: "Wir sind in Sachen Reinforcement-Learning extrem gut. Composer 2.5 hat eine Überlegene herausgefordert und seine Leistung weit über das hinausgeschoben, was man bei seiner Parametergröße erwarten würde. Wir sind sehr gespannt auf die nächste Version."
Im traditionellen Reinforcement-Learning gibt es ein klassisches Problem, das unzähligen Wissenschaftlern Kopfzerbrechen bereitet - das Problem der Kreditzuweisung.
Was ist das Problem der Kreditzuweisung?
Stellen Sie sich vor, eine KI schreibt einen sehr langen Code und ruft dabei Hunderte von verschiedenen Tools auf.
Beim 50. Schritt macht die KI einen kleinen Fehler: Sie versucht, ein nicht existierendes oder nicht nutzbares Tool aufzurufen, korrigiert sich aber schnell und ruft in den folgenden Hunderten von Schritten weiterhin die richtigen Tools auf.
Im traditionellen RL-Training wird das Belohnungssignal erst am Ende des gesamten Prozesses berechnet und zurückgegeben. Die endgültige Belohnung könnte dem Modell sagen: "Diese Aufgabe wurde insgesamt nicht perfekt erledigt."
Aber dann ist das Modell verwirrt: Es wurden Tausende von Codezeilen geschrieben. Wo genau wurde der Fehler gemacht?
Lösung: Direktes Textfeedback
Um dieses Problem vollständig zu lösen, hat Cursor beim Training von Composer 2.5 "Direktes Textfeedback-RL" eingesetzt.
Der Kerngedanke ist sehr raffiniert: An den Stellen, an denen das Modell besser hätte performen können, wird direkt das Feedback platziert.
Die genauen technischen Implementierungsschritte sind wie folgt:
Auf diese Weise bietet Cursor ein äußerst präzises und lokalisiertes Trainingssignal für die mikroskopischen Verhaltensänderungen, die man erreichen möchte, und behält gleichzeitig das makroskopische RL-Ziel für den gesamten langen Verlauf bei.
Das ist auch der Grund, warum Composer 2.5 in der praktischen Zusammenarbeit wie ein erfahrener und kompetenter Experte agiert.
Weil in jedem kleinen Ausdruck und logischen Fehler während des Trainings durch dieses direkte Textfeedback perfekt korrigiert wurde.
Schwarze Magie auf unterster Ebene: Synthetische Daten steigen um 25 Mal an, die KI lernt "zu fälschen"!
Nachdem man eine präzise Trainingsmethode hat, braucht man nun auch genügend Trainingsdaten.
Während des RL-Trainings hat Composer so stark an Codierungsfähigkeiten gewonnen, dass es bald die ursprünglichen Trainingsaufgaben ausgeschöpft hat.
Um das Limit des Modells herauszufinden, hat das Entwicklerteam von Cursor begonnen, während des Trainings dynamisch synthetische Aufgaben von extrem hoher Schwierigkeit zu filtern und zu generieren.
Die Anzahl der synthetischen Aufgaben, die Composer 2.5 nutzt, ist erstaunlich 25 Mal höher als die der Vorgängerversion (Composer 2)!
Wie kann man auf der Grundlage einer großen Codebasis Tausende von hochschwierigen Programmieraufgaben aus dem Nichts erschaffen? Cursor hat eine sehr geniale Methode gewählt - die Funktionslöschung.
1. Der Agent bekommt eine fertige Codebasis mit einer Vielzahl von bestehenden Tests (Tests).
2. Das System fordert den Agenten auf, bestimmte Codezeilen und Dateien präzise zu löschen.
3. Kernanforderung: Die Codebasis muss nach dem Löschen dieser Dateien weiterhin ausführbar sein, aber eine bestimmte, testbare Funktion muss vollständig entfernt werden.
4. Aufgabe generieren: Nach dem Löschen wird diese unvollständige Codebasis zu einer neuen, hochschwierigen synthetischen Aufgabe - die KI muss