Gerade jetzt hat die chinesische KI die Spitze Zwei der globalen Programmierrangliste erreicht. Vor ihr steht nur noch Claude.
Heute ist die neueste Rangliste von Code Arena veröffentlicht!
Qwen3.7-Max hat sich mit 1541 Punkten in die globalen Top Four geschafft und hat damit Modelle wie GPT-5.5 und Gemini 3.5 Flash hinter sich gelassen.
Vor ihm befinden sich nur noch Claude Opus 4.7 und Opus 4.6.
Mit anderen Worten: In der Welt der globalen Programmiermodelle ist Alibaba der einzige chinesische Hersteller, der sich an den Tisch gesetzt hat. Es platziert sich hinter Anthropic auf Platz zwei.
Qwen3.7-Max schafft es in die globalen Top Five
Das einzige Nicht-Claude-Modell
Eigentlich war Qwen3.7-Max bereits in der ausländischen Entwickler-Community bekannt, bevor die Rangliste von Code Arena veröffentlicht wurde.
Atomic Chat hat einen Vergleich durchgeführt, bei dem Opus 4.7, GPT-5.5 und Qwen3.7-Max in einem Wettbewerb standen. Die Aufgabe war, einen selbstlernenden Tetris-AI zu programmieren.
Das Ergebnis war, dass Qwen3.7-Max nicht nur mit nur 1,32 US-Dollar Token-Kosten Opus 4.7 und GPT-5.5 übertraf, sondern auch seine Leistung um 56 % steigerte.
Ein anderer ausländischer Entwickler hat Qwen3.7-Max aufgefordert, ein 3D-Modell des Universums zu erstellen. Das Ergebnis war atemberaubend.
Beim Generieren eines "3D-Pixel-Style-Miniatur-Turm-Modells" übertraf Qwen3.7-Max sowohl in der Geschwindigkeit als auch in der Qualität die anderen Modelle.
Der Entwickler Paul Couvert lobt Qwen3.7-Max ausdrücklich. Er meint, dass Qwen3.7-Max nach der Integration von Hermes Agent und OpenCode GPT-5.5 und Opus 4.7 ersetzen kann.
Starke Leistung in der Programmierung
Aber hohe Testwerte reichen nicht aus. Es kommt auf die praktische Leistung an.
Wir haben Qwen3.7-Max eine herausfordernde Aufgabe gestellt: die Erstellung eines Rennspiels.
Nachdem wir eine detaillierte Anweisung eingegeben hatten, generierte Qwen3.7-Max in kürzester Zeit eine spielbare HTML-Datei.
In der ersten Version gab es einen kleinen Fehler: Die Steuerungstasten A und D waren vertauscht.
Aber nach einer einfachen Nachbearbeitung über eine zweite Runde von Konversationen lief ein vollständig funktionsfähiges 3D-Rennspiel.
Ehrlich gesagt war ich beim Öffnen des Spiels beeindruckt.
Vier Autos starten gemeinsam auf einer dreimaligen Rundenstrecke. Auf der Strecke liegen über 100 Goldmünzen verteilt. Bei Kollisionen mit Hindernissen verlangsamen sich die Autos und verlieren die Kontrolle.
Das Ergebnispanel zeigt die Platzierung, die Zeit, die Anzahl der gesammelten Goldmünzen und die schnellste Einzellaufzeit.
Aber was wirklich überraschend war, waren zwei Details, die nur Qwen3.7-Max umgesetzt hat.
Das erste ist die Startseite. Unter den vier getesteten Modellen hat nur Qwen3.7-Max eine echte Startseite erstellt. Man muss auf "Start" klicken, um das Spiel zu beginnen. Die anderen Modelle starten direkt, ohne einmal eine Titelseite anzuzeigen.
Das zweite Detail ist der Sound. In der Anweisung war die Forderung enthalten, Motorgeräusche und den Sound beim Sammeln von Goldmünzen hinzuzufügen. Auch hier war Qwen3.7-Max das einzige Modell, das diese Anforderung umgesetzt hat.
Schauen wir uns nun die Leistung der anderen Modelle an.
Das Bild von Gemini 3.5 Flash wirkt deutlich dünner und fehlt an der nötigen Tiefe.
Das UI-Design hat ebenfalls Probleme. Die Informationen auf dem Armaturenbrett sind an den Ecken des Bildschirms verteilt, was die visuelle Wahrnehmung erschwert.
Im Vergleich dazu hat Qwen3.7-Max die wichtigen Informationen in der Mitte des Bildschirms zusammengefasst, was der natürlichen Blickrichtung der Spieler entspricht.
Die Leistung von Claude Opus 4.6 lässt zu wünschen übrig.
Es gibt nur sehr wenige Goldmünzen auf der Strecke, und die drei KI-Rennwagen fahren fast synchron, ohne jegliche Zufälligkeit, als wären sie kopiert.
Schließlich kommt GPT-5.5.
Das Bild hat eine bessere Qualität als die der anderen beiden Modelle, und die Bedienung ist flüssiger.
Aber warum die Goldmünzen als gelbe "Donuts" dargestellt werden, bleibt unklar.
Das Aussehen ist eigentlich nebensächlich. Wichtig ist, dass die Modelle von Gemini, Claude und ChatGPT mehrere Runden von Fehlersuche benötigten, um alle Funktionen zu implementieren.
Nur Qwen3.7-Max war bereits nach der ersten Generierung spielbar.
Mit ähnlichen Testwerten, guter praktischer Leistung und einem Bruchteil der Kosten wird es den Entwicklern überlassen, ihre Entscheidung zu treffen.
Das "Grundmodell" für die Agenten-Ära
Die beeindruckende Leistung von Qwen3.7-Max in der Programmier-Welt liegt in seiner Produktpositionierung begründet.
Vor ein paar Tagen hat Alibaba Qwen3.7-Max mit einem sehr speziellen Label vorgestellt: Agenten-Grundmodell.
Es wurde entwickelt, um langfristig autonom Aufgaben auszuführen.
Die Daten aus der internen Testphase zeigen, dass Qwen3.7-Max in einer autonomen Programmieraufgabe 35 Stunden lang lief und 1.158 Mal Werkzeuge aufrief.
Der generierte Code erreichte im Vergleich zur Triton-Referenzimplementierung eine erstaunliche zehnfache geometrische Mittelbeschleunigung.
Noch beeindruckender ist seine "Dauerleistung" -
Nach 30 Stunden des Ablaufs blieb das Modell weiterhin sensibel und fand ständig neue Optimierungsmöglichkeiten.
Es gab keine Degradierung des Kontexts, keine Drift der Anweisungen und keine Endlos-Schleifen!
Eigentlich ist die Anzahl von 1.000 Werkzeugaufrufen nicht das Problem. Seit der Einführung des MCP-Protokolls ist das keine Seltenheit.
Die Schwierigkeit liegt in der 35-stündigen konsistenten Inferenz.
Die meisten Modelle scheitern bei langen Aufgaben: Entweder wird der Kontext immer unübersichtlicher und die Ziele aus der ersten Hälfte werden vergessen, oder es kommt zu Endlos-Schleifen, in denen immer wieder das gleiche fehlerhafte Verfahren versucht wird.
Qwen3.7-Max hat es geschafft, "immer das Richtige zu tun".
Geheimnis der Kerntechnologie
Wir vermuten, dass die Verbesserung der Programmierleistung von Qwen3.7-Max mit zwei Upgrades der Trainingsmethoden zusammenhängt.
Das erste Upgrade ist die Erweiterung der Umgebung.
Beim Programmieren wird jede Aufgabe in drei unabhängige Dimensionen aufgeteilt: die Aufgabe selbst, der Ausführungsrahmen und die Prüfmethode. Diese können frei kombiniert werden.
Bei der gleichen Aufgabe wird manchmal