Chinesische Multimodal-AI wieder Open Source: Screenshots in Webseiten umwandeln, Bilder zum Einkaufen suchen

Aufruf von nativen Tools, 128K-Kontext, es gibt immer noch Schwächen bei der Erstellung von Texten und Bildern.

Zhidongxi berichtete am 9. Dezember. Gestern Abend hat Zhipu die Multimodal-Großmodell-Serie GLM-4.6V open source gemacht, einschließlich der Basisversion GLM-4.6V (106B-A12B) für Cloud- und Hochleistungscluster-Szenarien sowie der Light-Version GLM-4.6V-Flash (9B) für lokale Bereitstellung und Anwendungen mit geringer Latenz.

Darüber hinaus hat Zhipu heute Vormittag auch AutoGLM open source gemacht, ähnlich wie der "Doubao Mobile Assistant". Dieser Agent wurde bei seiner Veröffentlichung im Oktober letzten Jahres von der Branche als "der weltweit erste AI-Agent mit Mobiltelefon-Bedienfähigkeit" angesehen.

▲ Offizielle Seite der GLM-4.6V-Open-Source-Version (Quelle: Hugging Face)

▲ Offizielle Seite der AutoGLM-Open-Source-Version (Quelle: Hugging Face)

Laut offizieller Einführung kann GLM-4.6V Aufgaben wie intelligentes Mischen von Text und Bildern sowie Inhaltserstellung, Bildbasierte Einkaufssuche und Beratung, Frontend-Nachbau und Entwicklung von mehrfachen visuellen Interaktionen sowie Verständnis von Dokumenten und Videos mit langer Kontextlänge erledigen. Zhidongxi hat es sofort getestet.

Bei der praktischen Testung hat GLM-4.6V eine stabile Leistung bei der Bildsuche, Preisvergleich im gesamten Netz sowie beim Verständnis von langen Texten und Videos gezeigt. Es generiert Texte und Webseiten schnell und präzise. Bei der Fähigkeit des Mischens von Text und Bildern konnten die generierten Bilder jedoch nicht angezeigt werden. Bei unklaren Anweisungen gab es auch einige Verständnisabweichungen.

Die GLM-4.6V-Serienmodelle haben das Kontextfenster während des Trainings auf 128.000 Tokens erhöht. Zum ersten Mal haben sie die Function Call (Tool-Aufruf)-Fähigkeit in die Architektur des visuellen Modells integriert.

In Bezug auf die Leistung haben die GLM-4.6V-Serienmodelle bei gleicher Parametergröße SOTA-Leistungen bei Schlüsselkompetenzen wie Multimodal-Interaktion, logischer Inferenz und langer Kontextlänge erzielt.

Insbesondere hat die 9B-Version GLM-4.6V-Flash in 22 von 34 Tests, die die Fähigkeiten in allgemeinen visuellen Fragen und Antworten, multimodaler Inferenz, Multi-Agent, multimodalen langen Texten, Diagrammerkennung und räumlicher Ortung abdecken, bessere Ergebnisse als Qwen3-VL-8B erzielt. Die Leistung von GLM-4.6V mit 106 Milliarden Parametern und 12 Milliarden aktiven Parametern ist ähnlich der von Qwen3-VL-235B mit der doppelten Parameteranzahl.

▲ Benchmark-Tests der GLM-4.6V-Serienmodelle (Quelle: z.ai/blog/glm-4.6v)

Im Hinblick auf die Preise hat die GLM-4.6V-Serie im Vergleich zu GLM-4.5V einen Preisverfall von 50% verzeichnet. Der API-Aufruf kostet nur 1 Yuan pro Million Tokens für die Eingabe und 3 Yuan pro Million Tokens für die Ausgabe. GLM-4.6V-Flash ist vollständig kostenlos.

▲ Preisliste der GLM-4.6V-Serienmodelle (Quelle: Zhipu AI)

Open-Source-Adresse von GLM-4.6V:

GitHub: https://github.com/zai-org/GLM-V

Hugging Face: https://huggingface.co/collections/zai-org/glm-46v

ModelScope Community: https://modelscope.cn/collections/GLM-46V-37fabc27818446

Testadresse von GLM-4.6V: https://chat.z.ai/

01. Intelligentes Mischen von Text und Bildern: Kann Outlines für Tweets generieren, aber Bilder nicht anzeigen

Zunächst betrachten wir die Fähigkeiten des intelligenten Mischens von Text und Bildern sowie der Inhaltserstellung. GLM-4.6V hat eine native Multimodal-Tool-Aufruf-Fähigkeit entwickelt, die direkt multimodale Daten wie Bilder, Screenshots und Dokumentseiten verstehen kann, ohne dass diese zunächst in Textbeschreibungen umgewandelt werden müssen.

Wir haben den technischen Bericht von GLM-4.5V hochgeladen und es aufgefordert, einen illustrierten Artikel für das WeChat-Offizielle-Konto zu generieren. Innerhalb von etwa 1 - 2 Minuten hat GLM-4.6V den gesamten Bericht gelesen und verstanden und einen vollständigen Artikel mit Titel, Einleitung, fünf Kapiteln und Schlusswort generiert. Trotz mehrfacher Versuche konnten die Bilder jedoch nicht angezeigt werden.

▲ Intelligentes Mischen von Text und Bildern

02. Bildbasierte Einkaufssuche und Beratung: Automatischer Preisvergleich, aber unzureichendes Verständnis bei unklaren Suchen

Um die Fähigkeiten der bildbasierten Einkaufssuche und Beratung von GLM-4.6V zu testen, haben wir direkt eingegeben: "Hilf mir, die Preise des iPhone 17 Pro Max auf verschiedenen Plattformen zu suchen."

GLM-4.6V ruft automatisch die relevanten Tools auf, um im gesamten Netz zu suchen und erstellt eine Preisvergleichstabelle mit Produktnamen, Plattformen, Marken, Produktbildern, Produktlinks und Shopnamen. Man kann direkt auf die Links klicken, um zur Kaufseite zu gelangen.

Nach dem Vergleich auf der Kaufseite waren die gesuchten Produktnamen und Preise korrekt. Die verglichenen Produkte stammen jedoch alle von der JD-Plattform, und die Produktnamen wurden direkt von der E-Commerce-Kaufseite übernommen, mit vielen redundanten Informationen und ohne weitere Bearbeitung.

Wir konnten auch direkt GLM-4.6V bitten, die gleichen Brille wie die von Nick im "Zootopia 2" zu suchen. Mit der Bildsuchfunktion hat es direkt ein Foto der gleichen Brille gefunden, aber keinen Kauflink angegeben.

▲ Beratung bei unklaren Suchen

03. Webseite-Nachbau: Ein Bild reicht für die glatte Generierung von Webseiten-Code, aber Fehler beim Ändern der Icons

Wir haben einen Screenshot der Anmeldeseite der X-Plattform hochgeladen und GLM-4.6V aufgefordert, HTML-Code und eine Webseiten-Vorschau zu generieren.

▲ Generierung von Webseiten-Code aus Screenshots

▲ Generierung der Webseiten-Vorschau

Nachdem es die Anweisung erhalten hat, hat GLM-4.6V sofort den HTML-Code Zeile für Zeile generiert und die Vorschau angezeigt. Man kann sehen, dass die generierte "Nachahmungs-X"-Anmeldeseite fast identisch mit der Originalseite ist.

Darüber hinaus unterstützt GLM-4.6V auch mehrfache visuelle Interaktionen, mit denen man direkt die Farbe der Webseite ändern, die Position der Schaltflächen anpassen usw. kann.

Beispielsweise haben wir es nach der vorherigen Ausgabe aufgefordert, die Themafarbe der Webseite in Himmelblau zu ändern und das Icon X in Z zu ersetzen, während der ursprüngliche Stil beibehalten wird. Man kann sehen, dass es die Aufgabe der Änderung der Themafarbe perfekt erledigt hat, aber beim Befehl des Ersetzens von Icon X durch Z ein "Aufwärtspfeil"-Symbol generiert hat.

▲ Änderung von Webseiten-Elementen

04. Verständnis von Dokumenten mit langer Kontextlänge: Kann mehrere chinesische und englische Forschungsartikel gleichzeitig verarbeiten, präzises Verständnis von langen Dokumenten

GLM-4.6V hat die Fähigkeit der Kontextausrichtung zwischen visuellem Encoder und Sprachmodell auf 128.000 erhöht. In der praktischen Anwendung entspricht eine Kontextlänge von 128.000 etwa 150 Seiten eines Dokuments, 200 Seiten einer Präsentation oder einer einstündigen Videoaufzeichnung.

Um seine Fähigkeit des Verständnisses von Dokumenten mit langer Kontextlänge zu überprüfen, haben wir GLM-4.6V drei Forschungsartikel auf dem Gebiet der Netzwerkplattform-Regulierung gegeben, darunter zwei chinesische und einen englischen Artikel, und es aufgefordert, diese Artikel zu lesen und einen Lesebeleg zu generieren.

Beim Ergebnis von GLM-4.6V konnten die Bilder immer noch nicht angezeigt werden, aber der Textinhalt war vollständig und logisch klar. Die Kernaussagen und Schlussfolgerungen jedes Artikels wurden klar aufgelistet, und es gab keine Fehler bei der Verarbeitung des englischen Artikels.

05. Video-Verständnis: Kann Videoinhalte schnell analysieren, aber es gibt Beschränkungen bei der Videogröße

Schließlich kann GLM-4.6V auch den Inhalt von langen Videos verstehen. Benutzer können eine MP4-Video-Datei von weniger als 200 MB hochladen und es bitten, die Aufnahmetechnik, den Inhalt und die Struktur des Videos zu analysieren.

Beispielsweise haben wir ein 6-Minuten-48-Sekunden-Video über Videobearbeitungstechniken hochgeladen und es aufgefordert, die Ideen und den Inhalt des Videos zusammenzufassen und einige Vorschläge für die Erstellung von Fotografie-Selbstmedien zu geben.

▲ Verständnis von Videoinhalten

Innerhalb von wenigen Sekunden hat GLM-4.6V eine vollständige Analyse mit Videoiden, Erzähltechniken, Kamerabedarf und Geräteauswahl gegeben und vier schrittweise Vorschläge für die Gründung eines Fotografie-Blogs gemacht. Die Antwort war präzise, klar und vollständig.

06. Fazit: GLM-4.6V senkt die Einstiegshürde für visuelle Modelle

Bei der praktischen Testung kann GLM-4.6V in der täglichen Arbeit schon viel helfen. Die Generierungsergebnisse sind jedoch noch nicht sehr stabil. Bilder können nicht angezeigt werden, wenn Artikel für das WeChat-Offizielle-Konto generiert werden, und es gibt immer noch kleine Fehler bei der Änderung von