Praxis-Test GLM-5.2: Nach der Abschaltung von Claude 5 kann es diese Nutzerwelle wirklich stabil auffangen
Vor ein paar Tagen, als Fable 5 für ausländische Benutzer geschlossen wurde, kündigte Zhipu plötzlich die Vollzugänglichkeit von GLM-5.2 für alle Benutzer des GLM Coding Plan an und erklärte: „Spitzenintelligenz sollte nicht nur wenigen gehören und auch nicht von wenigen Regeln einfach zurückgenommen werden.“
APPSO hat auch umgehend GLM-5.2 getestet. Nach einigen Tagen Nutzung verstehe ich, warum es im Netz so viele positive Bewertungen für GLM-5.2 gibt. Dies könnte wirklich ein unterschätzetes Modell sein, zumindest auf dem Gebiet der Programmierung.
Die Reaktion des Kapitalmarktes auf GLM-5.2
Heute wurde GLM-5.2 offiziell veröffentlicht. Es hat mehrere Benchmarks verbessert und liegt sogar vor GPT-5.5. Bei der Bearbeitung komplexer Systemoptimierungen und großer Forschungsaufgaben verringert sich der Abstand zu dem Spitzenhandelsmodell Claude Opus 4.8 auf weniger als 1%.
In einem technischen Blog erwähnt Zhipu, dass der Kernvorsprung von GLM-5.2 darin besteht, dass es auch bei einer Kontextlänge von 1M extrem komplexe und rauschbehaftete Code-Debugging- und Systemarchitekturaufgaben bearbeiten kann.
Die Betrachtung von Benchmarks ist nicht sehr anschaulich. Daher haben wir einige Aufgaben mit starker Visualisierung ausgewählt, um die Leistung von GLM-5.2, GPT-5.5 und Opus 4.8 bei der Bearbeitung derselben Aufgaben zu vergleichen.
Die Programmierung liegt zwischen Claude 4.7 und 4.8
Hinweise wie „Kopiere das XX-Projekt“ bedeuten für aktuelle Sprachmodelle möglicherweise, dass ihre Trainingsdaten bereits den kompletten Code des XX-Projekts enthalten. Ähnlich wie bei der Kopie eines macOS/Windows/Linux-Systems oder verschiedener Spiele scheint dies eher die Gedächtnisleistung des Modells als seine Programmierfähigkeit zu testen.
Aber es gibt nur wenige Fälle, in denen das Ergebnis gut ist, wenige Bugs auftreten und die Ergebnisse unseren Erwartungen entsprechen. Wir verwenden daher den einfachen Hinweis „Erstelle ein Minecraft-Klonspiel“.
Wie viele Elemente dieses klassischen Spiels kann GLM-5.2 reproduzieren?
Die Startseite erklärt einfach die Bedienung der Tastatur und der Maus. Nach dem Klicken auf „Start“ ist die Szene und die Interaktion des Spiels fast ein echter Klon von „Minecraft“.
Es überrascht mich sehr, dass ich fliegen kann und das gesamte Erlebnis wie das Spielen in einer Weltmodell ist, ohne Einschränkungen durch Perspektive und Raum. Ich kann bis ins Unendliche fliegen.
Wir haben auch andere Modelle getestet, nämlich Codex mit GPT-5.5 und Claude Code mit Opus 4.8. Die Denktiefe aller drei Modelle wurde auf das höchste Niveau eingestellt.
GPT-5.5 nennt das Spiel nicht direkt Minecraft, sondern hat es in Voxelcraft umbenannt. Die Startseite sieht realistischer aus, aber die tatsächlichen Bedienoptionen sind im Vergleich zu GLM-5.2 um Sprung, Perspektive usw. eingeschränkt.
Obwohl GPT-5.5 eine Tag-Nacht-Wechsel-Funktion hinzugefügt hat, ist die Seite abends und am Dämmerlicht nicht sehr visuell ansprechend. Viele Bilder sind komplett dunkel, und der Zeitwechsel ist eher abrupt.
Die Leistung von Opus 4.8 ist fast identisch mit der von GLM 5.2. Ich frage mich sogar, ob die Konfiguration von Claude Code fehlerhaft ist oder ich die API von GLM nicht richtig konfiguriert habe, so dass ich immer noch das Opus 4.8-Modell verwende.
Nach der Überprüfung des Token-Verbrauchs ist es tatsächlich GLM-5.2, das die relevanten Aufgaben bearbeitet.
Ich verstehe, warum im Netz die Gerüchte kursieren, dass Fable 5 geschlossen wird, weil GLM-5.2 so stark ist.
Bei der Programmierung des Spielklons ist die Leistung von GLM-5.2 deutlich besser als die von GPT-5.5 und auf dem gleichen Niveau wie die von Opus 4.8.
Wir führen weiterhin Tests durch. Diesmal geben wir kein Template, sondern nur ein Konzept: „Erstelle mit Three.js eine Demoversion eines Spiels, ein vollständig erkundbares Raumschiff mit bedienbarem Cockpit, Mannschaftskabine, vor realen Schiffsfenstern vorbeiziehenden Planeten, dynamischer Beleuchtung, Schlaf/Essen-Interaktionen usw.“
Obwohl es etwas einfach aussieht, erfüllt es grundsätzlich unsere Anforderungen. Und dass man aus dem Fenster Planeten sieht, zeigt, dass es ein wenig nachgedacht hat.
Was die Einfachheit betrifft, kann es GPT-5.5 nicht übertreffen. Es ist so einfach, dass man gar nicht weiß, wo das Cockpit und die Mannschaftskabine sind. Darüber hinaus ist GPT-5.5 das einzige Modell von GLM-5.2, Opus 4.8 und ihm selbst, das keine Hintergrundmusik hinzufügt.
Wie bei „M