Kürzlich hat Zhipu ein Open-Source-Visuelles Großmodell mit hunderten von Milliarden Parametern veröffentlicht. Es kann das Hähnchenfrikadellen von McDonald's und KFC unterscheiden und schlägt bei der Aufgabe, aus Bildern Orte zu erraten, 99 % der Menschen.
Zhidongxi berichtete am 11. August, dass ZhiPu heute Abend sein neuestes visuelles Verständnis-Modell GLM-4.5V open source gemacht hat. Dieses Modell basiert auf dem neuen Text-Basis-Modell GLM-4.5-Air von ZhiPu und folgt der Technologie-Richtung des Vorgängermodells GLM-4.1V-Thinking. Es verfügt über 106 Milliarden Parameter und 12 Milliarden Aktivierungsparameter. Das GLM-4.5V verfügt außerdem über eine neue Schalterfunktion für den Denkmodus, mit der Benutzer selbst entscheiden können, ob das Modell nachdenken soll oder nicht.
Die visuellen Fähigkeiten dieses Modells eröffnen einige interessante Anwendungen. Beispielsweise kann das Modell jetzt den Unterschied zwischen den Hähnchenflügeln von McDonald's und KFC erkennen und führt eine umfassende Analyse aus der Sicht der Farbe und des Äußeren der Hähnchenflügel durch.
Das GLM-4.5V kann auch anhand von Bildern Orte erraten. ZhiPu hat mitgeteilt, dass das GLM-4.5V an einem Punktesystemturnier zum Erraten von Orten aus Bildern teilgenommen hat, zusammen mit menschlichen Spielern. Nur sieben Tage nach dem Start des Turniers belegte das GLM-4.5V Platz 66 auf der Turnierwebsite und hatte damit 99 % der menschlichen Benutzer übertroffen.
Zhidongxi hat außerdem das Modell genutzt, um eine Webseite im Stil von Xiaohongshu anhand eines Webseiten-Screenshots zu erstellen, und erreichte eine Ähnlichkeit von etwa 80 - 90 %.
ZhiPu hat die Ergebnisse des GLM-4.5V in 42 Benchmark-Tests geteilt. Diese Tests decken gängige Aufgaben wie das Verständnis von Bildern, Videos, Dokumenten sowie die Steuerung von grafischen Benutzeroberflächen ab. Das GLM-4.5V hat in 41 dieser Tests bessere Ergebnisse erzielt als Modelle gleicher Größe, wie z. B. Step-3 und Qwen2.5-VL.
Derzeit ist das Modell auf den Open-Source-Plattformen Hugging Face, ModelScope und GitHub veröffentlicht worden, und es wird zusätzlich eine FP8-quantifizierte Version angeboten. ZhiPu hat eine Test-App für das Modell entwickelt, die derzeit jedoch nur für Mac verfügbar ist (und zwar nur auf Geräten ohne Intel-Chip).
Benutzer können auf z.ai das GLM-4.5V-Modell auswählen, Bilder oder Videos hochladen und es testen. Alternativ können sie im ZhiPu Qingyan-App/Webportal Bilder hochladen und den "Inferenzmodus" aktivieren, um es auszuprobieren.
Um Entwicklern zu helfen, die Fähigkeiten des GLM-4.5V-Modells kennenzulernen, hat ZhiPu gleichzeitig eine Desktop-Assistenten-App open source gemacht. Diese Desktop-App kann in Echtzeit Screenshots und Aufnahmen des Bildschirms erstellen, um Bildschirminformationen zu erhalten, und basiert auf dem GLM-4.5V, um verschiedene visuelle Inferenztasks zu bearbeiten. Sie kann alltägliche visuelle Aufgaben wie die Unterstützung bei der Programmierung, die Analyse von Videoinhalten, die Lösung von Spielproblemen und die Interpretation von Dokumenten bewältigen.
Die API des GLM-4.5V ist jetzt auf der offenen Plattform BigModel.cn von ZhiPu online und bietet ein kostenloses Paket von 20 Millionen Tokens. Der niedrigste Preis für die API beträgt 2 Yuan pro Million eingegebener Tokens und 6 Yuan pro Million ausgegebener Tokens. Sie unterstützt die Eingabe von Bildern, Videos, Dateien und Texten.
Nach der Veröffentlichung des Modells hat Zhidongxi sofort seine Fähigkeiten getestet und einige der technologischen Innovationen hinter diesem Modell zusammengefasst.
Open-Source-Adresse des Modells:
https://github.com/zai-org/GLM-V
https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
Open-Source-Adresse des Desktop-Assistenten:
https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
01. In der Praxis hat das Erraten von Orten anhand von Bildern ein wenig versagt, aber die Wiederholung von Webseiten hat eine hohe Ähnlichkeit
Zhidongxi hat einige Funktionen des Modells in der Desktop-Assistenten-App mit GLM-4.5V getestet. Diese App bietet Einstellungen wie den Schalter für den Denkmodus, und Benutzer können auch benutzerdefinierte Hinweise und Modelleinstellungen festlegen, was eine große Freiheit bietet.
Um das Modell zu verwenden, müssen Benutzer den API-Schlüssel des GLM-4.5V angeben, den sie auf der offenen Plattform von ZhiPu erhalten können.
Bei den Tests hat Zhidongxi zunächst ein Foto von der offiziellen Seite verwendet, und das Modell konnte den Ort genau erraten und die Koordinaten gemäß der Anforderung angeben.
Anschließend haben wir unser eigenes Testbild hochgeladen, ein Foto von "Einer Ecke des Lingyin-Tempels". Dieses Bild war ziemlich schwierig - obwohl es alte Gebäude mit gelben Wänden und dunklen Dächern, hohe Bäume und Touristen im Bild gibt, gibt es keine eindeutigen Landmarkeninformationen. Obwohl das Wort "Lingyin-Tempel" auf der Straßenlaterne in der unteren rechten Ecke geschrieben steht, konnte es vom System nicht erkannt werden, da es nicht in Vereinfachten Schriftzeichen geschrieben ist.
Das System hat beim Analysieren das Wort "Lingyin-Tempel" auf der Straßenlaterne fälschlicherweise als "Baoyuanqing" erkannt und das Wort "Dankbarkeit" im Bild als "Weisheng". Gleichzeitig hat es das Wort "Toleranz" an einer anderen Stelle erkannt. Basierend auf diesen Wörtern und den Umgebungseigenschaften hat das System schließlich geschlossen, dass es sich um den Qingcheng-Berg in Dujiangyan, Sichuan, handelt. Obwohl es nicht den tatsächlichen Ort genau identifizieren konnte, ist der Denkprozess detailliert und das Ergebnis hat einen gewissen Referenzwert.
Dieses Modell verfügt über gewisse Fähigkeiten in Bezug auf die GUI (grafische Benutzeroberfläche), was für das Verständnis und die Steuerung von Webseiten oder Apps in Agent-Szenarien von entscheidender Bedeutung ist.
In der offiziellen Demo kann das GLM-4.5V Benutzern helfen, Rabattinformationen aus einem verwirrenden Screenshot einer Einkaufswebsite zu berechnen und überprüft und bestätigt auch die generierten Ergebnisse. Die neueste Version des Denk- und Ausführungs-Agents AutoGLM von ZhiPu wird das GLM-4.5V verwenden.
In Bezug auf die Produktivität kann das GLM-4.5V jetzt Frontend-Code anhand von Webseiten-Videos oder -Screenshots wiederholen, indem es die Inhalte, Stile und Layouts im Bild analysiert, den dahinter liegenden Code ermittelt und dann die Interaktionslogik modelliert und implementiert.
Zhidongxi hat die Funktion "Webseiten-Videoaufzeichnung/Screenshot und Wiederholung bestimmter Funktionen" in der App getestet. Benutzer können direkt auf der Seite auf die Schaltfläche für Screenshots oder partielle Videoaufnahmen klicken, das aufgezeichnete Video in das System hochladen, und das System wird es komprimieren und dann durch Inferenzanalyse den entsprechenden HTML-Code generieren und eine interaktive Frontend-Seite rendern.
Bei den praktischen Tests hat das System möglicherweise aufgrund der hohen Zugriffszahl in fast 50 Minuten kein Ergebnis zurückgegeben. Anschließend haben wir die gleiche Aufgabe an die offizielle Plattform von ZhiPu gesendet und es in Form eines Screenshots an das GLM-4.5V übergeben. Innerhalb von weniger als 10 Minuten wurde eine wiederholte Version der Webseite generiert.
Zhidongxi's praktische Testergebnisse (Ergebnislink: https://chat.z.ai/space/f00sx6s4jgp1-art)
Die generierte Seite präsentiert mehr Informationen als die Webseite von Xiaohongshu - außer der Anzahl der Likes werden auch die Kommentardaten angezeigt, und es wird eine untere Funktionsleiste und eine Benachrichtigungsschaltfläche in der oberen rechten Ecke hinzugefügt.
Aber die Ausrichtung des Wasserfalllayouts konnte nicht wiedergegeben werden, und es fehlt das "Wesen" des Xiaohongshu-Layouts. Darüber hinaus wurden die Interaktionsfunktionen in dieser Version nicht implementiert, was möglicherweise daran liegt, dass die Screenshot-Inhalte keine dynamischen Aktionen widerspiegeln können. Das Hochladen von Videos könnte dies möglicherweise verbessern.
In den Beispielen der offiziellen Demo von ZhiPu hat der Mitarbeiter eine kurze Videaufzeichnung der Webseite von Zhihu hochgeladen, und schließlich hat das GLM-4.5V eine relativ vollständige Webseite erstellt, bei der Funktionen wie Klicken, Springen und Eingeben normal funktionieren.
Wenn Benutzer mit einem Teil der Webseite nicht zufrieden sind und nicht wissen, wie sie das Problem im Code lokalisieren sollen, können sie direkt den unzufriedenstellenden Bereich im Webseiten-Screenshot markieren, und das Modell kann direkt den dahinter liegenden Code ändern.