Wir testen Zhipus stärkstes Modell: Werden die "drei Top - Anbieter" im KI

Zhipu ergänzt das technische Puzzle für Langzeitaufgaben.

Zhidongxi berichtete am 17. Juni. Heute hat Zhipu offiziell das neue Flaggschiffmodell GLM - 5.2 veröffentlicht und es als Open - Source - Projekt freigegeben. Auf dem Programmierbewertungssystem Code Arena der Plattform für Blindtests von großen Modellen (Arena.ai) hat GLM - 5.2 eine hohe Punktzahl von 1595 erreicht. Es belegt den zweiten Platz in der Gesamtranking und steht nur hinter Fable 5. Darüber hinaus führt es in der Liste der weltweit verfügbaren Modelle an.

Im Benchmark - Test FrontierSWE zur Bewertung von "überlangen, offenen und hochschwierigen Softwareentwicklungsprojekten" belegt GLM - 5.2 derzeit nur Platz hinter Opus 4.8 und dem vorübergehend nicht verfügbaren Fable 5.

Auf der Design Arena, die speziell für die Bewertung des Geschmacks (taste) von Modellen entwickelt wurde, hat GLM - 5.2 die beste Leistung weltweit erzielt, und sein ästhetisches Urteil hat sich auch an die Spitze weltweit gesetzt.

Auf Zhihu hat der bekannte Nutzer toyama nao ironisch kommentiert, dass künftig Benutzer, die Opus über eine Zwischenstation nutzen, ein neues Problem haben werden: Wenn Opus von GLM - 5.2 gefälscht wird, können die Benutzer es möglicherweise tatsächlich nicht unterscheiden.

Die Reaktionen von Nutzern aus China und aus dem Ausland, die die tatsächlichen Effekte von GLM - 5.2 erlebt haben, sind sehr positiv. Ein Entwickler hat direkt gesagt: "Dies ist das erste chinesische Modell, das auf meiner Arbeitsweise die Leistung von Opus erreicht."

Ausländische Nutzer haben auch berichtet, dass die Leistung von GLM - 5.2 über ihre Erwartungen hinausgeht und die Lücke zu Fable 5 viel kleiner ist, als erwartet. Jetzt kann Fable 5 nicht mehr normal verwendet werden. Ausländische Internetnutzer hatten gedacht, dass die Sperrung von Fable 5 die Lücke vergrößern würde, aber sie waren überrascht, dass GLM sich bereits schnell nähert. Jetzt hat Anthropic zu schaffen.

Derzeit ist die API von GLM - 5.2 online, und Unternehmen und Nutzer können dieses Modell auch direkt auf Open - Source - Plattformen wie Hugging Face herunterladen und deployen.

Zuvor hat Zhidongxi bereits tiefgreifende Tests mit den Modellen GLM - 4.5, GLM - 4.7, GLM - 5 und GLM - 5.1 von Zhipu durchgeführt. Nach der Veröffentlichung von GLM - 5.2 haben wir sofort einige große Fälle getestet und können deutlich eine klare Evolutionslinie erkennen: Wenn man sagt, dass GLM - 4.7 die Leistung des damaligen Spitzen - Programmiermodells Sonnet 4.6 erreicht hat, dann gibt es bei GLM - 5.2 praktisch keinen Unterschied in der "Nutzungsempfindung" zu Opus - Modellen.

Im Bereich der AI - Programmiermodelle waren bisher weltweit nur Anthropic (Claude - Serie) und OpenAI (GPT - Serie) als Spitzenakteure anerkannt. Jetzt tritt GLM - 5.2 mit der ersten Platzierung in der Liste der weltweit verfügbaren Programmiermodelle und dem echten Ruf als "Opus - Ersatz" von Entwicklern in diesen Spitzensport ein. Man kann sagen, dass sich ein "Top - Dreier in der Programmierwelt" aus Anthropic, OpenAI und Zhipu herausbildet.

Während die proprietären Tech - Riesen die Macht in der Programmiermodellbranche monopolieren und jederzeit den Zugang verweigern können, gibt GLM - 5.2 den Entwicklern die Wahlmöglichkeit zurück, indem es Open - Source ist.

01. Vier Stunden kollaboratives Programmieren mit GLM - 5.2: Fast die Million - Kontextgrenze ausgeschöpft, 16 Fehler behoben, ein Nachbau von "Civilization" von Grund auf erstellt

Meine erste Testaufgabe war es, GLM - 5.2 einen Strategiespiel im Stil von "Civilization" von Grund auf entwickeln zu lassen und es schrittweise von der Version M0 zur Version M4 zu verbessern.

Vor der eigentlichen Entwicklung ließ ich GLM - 5.2 zunächst ein PRD - Dokument schreiben und diskutierte mit ihm über die konkrete technische Umsetzung. Schließlich wurde entschieden, das Spiel mit dem Godot - Engine und der GDScript in 2,5D - Stil zu entwickeln.

Die Version M0 ist der Grundstein des gesamten Projekts. In dieser Version hat GLM - 5.2 mehrere Dateien erstellt und geschrieben und die Kerninhalte wie das Standard - Kartenraster und die grundlegenden Spielsteine generiert. Nach der Fertigstellung der Entwicklung hat GLM - 5.2 schnell eine Überprüfung durchgeführt und die Version M0 abgegeben.

Diese Version ist jedoch nur ein erster Schritt. Das Spieldesign ist noch recht grob, die Charaktere werden nur durch runde Symbole ersetzt, es gibt keine klaren Spielmechanismen, und es gibt auch einige kleine Fehler auf der Interaktionsseite.

Ich habe beschlossen, diese Fehler in der Phase M0 einzeln zu beheben. Unter meinem Befehl hat GLM - 5.2 mehrere Fehler wie das Problem, dass das Informationspanel nicht geöffnet werden kann und dass die Anfangseinheiten nicht bewegt werden können, behoben. Die Behebung jedes Fehlers konnte in ein oder zwei Gesprächsrunden abgeschlossen werden, was eine gute Effizienz ist.

Danach habe ich die Version M1 übersprungen und direkt GLM - 5.2 die Entwicklung der Version M2 befohlen, die der Kern der Tiefe des Spiels ist. Ohne explizite Anforderungen hat GLM - 5.2 selbstständig entschieden, vier Subsysteme hinzuzufügen: das Kampfsystem, den Technologietree, die Stadtwirtschaft und die Ressourcenbeschränkung. Die Entwicklung dieser neuen Systeme erfordert viel Arbeit. GLM - 5.2 hat mehr als 30 Minuten daran gearbeitet, um die Aufgabe abzuschließen.

Während dieses Prozesses hat GLM - 5.2 strikt die von mir und ihm vereinbarten Entwicklungsregeln befolgt: Nach der Fertigstellung einer Funktion wird ein Test durchgeführt, und erst wenn alles in Ordnung ist, wird mit der nächsten Entwicklung begonnen. Tatsächlich hat sich am Ende dieser Iteration der Kontextfenster auf über 300.000 Tokens erweitert, und es ist bemerkenswert, dass GLM - 5.2 die Regeln noch immer beherbergen kann.

Die Version M3 macht das Spiel von einem Sandbox - Spiel zu einem vollständigen Einzelspiel, in dem man gewinnen oder verlieren kann. GLM - 5.2 hat die taktische KI der Gegner implementiert und die Größe der Karte vergrößert. Obwohl meine Entwicklungsanweisungen hauptsächlich auf die Funktionsentwicklung des Spiels selbst abzielten, GLM - 5.2 hat auch das Problem der Spieloptimierung berücksichtigt. Mit der zunehmenden Größe der Karte hat GLM - 5.2 entschieden, die Terrainrendering in statische und dynamische Schichten aufzuteilen und die Minikarte mit einem Cache zu optimieren, was das Spiel flüssiger macht.

Die Arbeit an der Version M4 konzentriert sich hauptsächlich auf die Ästhetik und die Spielbarkeit. In dieser Phase hat GLM - 5.2 ein gutes ästhetisches Urteil gezeigt. Beispielsweise habe ich ihm gesagt, dass das UI - Design des Spiels "keine Spielatmosphäre" habe und nur aus Texten bestand. Dann hat er selbst Materialien gesucht, die Symbole aktualisiert und die Interaktionskarten neu gestaltet, was das visuelle Erscheinungsbild des gesamten Spiels verbessert hat.

Schließlich bin ich auf einen unerwarteten Fehler gestoßen. Wenn die Karte auf eine Größe von 100x100 erweitert wurde, trat das Problem auf, dass das Bild beim Ziehen stark springt. Alle Versuche, das Problem zu lösen, waren erfolglos. Schließlich hat GLM - 5.2 das Problem erfolgreich identifiziert: Es stellte sich heraus, dass dieses Problem bereits in der Version M0 bestand, aber erst bei der Vergrößerung der Karte deutlich wurde. Es hat mit dem Problem der UI - Steuerelemente zu tun.

Die Identifizierung der Ursache dieses Problems bedeutet, dass GLM - 5.2 über Hunderttausende von Kontextlängen hinweg die versteckten Fehler im ursprünglichen Code präzise identifizieren kann.

Nach der Fertigstellung aller obigen Entwicklungsaufgaben haben wir auch einfach die Statistik erstellt. In diesem Projekt hat GLM - 5.2 insgesamt 870.000 Kontextfenster verwendet, was nahe an seiner Grenze liegt.

GLM - 5.2 hat alle Fehler, die es in der Aufgabe mit nahezu einer Million Kontextlänge behoben hat, nachgesehen. Seine Statistik ergab 16 Fehler, was mit den tatsächlichen Daten übereinstimmt. Gleichzeitig hat GLM - 5.2 sich die Ursache und die Lösung jedes Fehlers gemerkt und hat tatsächlich eine zuverlässige Erinnerung in der Million - Kontext - Szene gezeigt.

02. 30 Stunden Podcast - Aufzeichnung auf einmal gelesen, GLM - 5.1 gibt auf

Außer Programmierung kann die Fähigkeit von GLM - 5.2, einen Kontext von einer Million Tokens zu verarbeiten, auch viele andere Anwendungen ermöglichen. In der täglichen Arbeit muss ich oft eine große Menge an langem Text für die Informationsintegration verarbeiten. Ein Modell mit einem größeren Kontextfenster kann die Effizienz deutlich verbessern.

Bei den Tests habe ich 13 Podcast - Aufzeichnungen aus dem Bereich der Künstlichen Intelligenz auf einmal hochgeladen. Die Gesamt

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Wir haben das stärkste Modell von Zhipu selbst getestet – bilden die „drei Top-Anbieter“ im KI-Programmieren bald ein festes Trio?

01. Vier Stunden kollaboratives Programmieren mit GLM - 5.2: Fast die Million - Kontextgrenze ausgeschöpft, 16 Fehler behoben, ein Nachbau von "Civilization" von Grund auf erstellt

02. 30 Stunden Podcast - Aufzeichnung auf einmal gelesen, GLM - 5.1 gibt auf