Echtzeit-Test des "ersten Mobiltelefon-Agenten" von Zhipu: Es gibt neue Ideen, aber wenn es in die reale Welt kommt, ist alles von Ohnmacht erfüllt.
Wenn ein Agent nur über feste Funktionen verfügt, ist er dann noch ein Agent?
Bei der Vorstellung von AutoGLM im vergangenen Jahr demonstrierte Zhang Peng, CEO von Zhipu, mit AutoGLM eine automatisierte Aktion: Er gründete eine Gruppe direkt vor den Augen der Zuschauer, änderte den Gruppennamen und schickte in der Gruppe hundert Rohre mit insgesamt 20.000 Yuan. Die Zuschauer waren beeindruckt und sagten, dass dies eine KI sei, die "das Mobiltelefon bedienen" könne. Sobald man die Demonstration jedoch aus der Bühne in die reale Welt verlagert, treten sofort Probleme auf - die WeChat-Versionen der verschiedenen Benutzer unterscheiden sich, die UI-Layouts variieren, einige nutzen Klappmobile, andere kleine Smartphones, und sogar Werbe-Popups können die Aufgabe unterbrechen. Für große Sprachmodelle sind all diese Unsicherheiten Variablen, die nicht vollständig kontrolliert werden können.
Die Lösung, die Zhipu gewählt hat, besteht nicht darin, die "Kognitionsfähigkeit" des Modells weiter zu verbessern, sondern einen anderen Weg zu gehen: Direkt die Unsicherheiten der realen Welt umgehen und eine "standardisierte" Welt schaffen. Das Herzstück von AutoGLM 2.0 ist nicht ein algorithmischer Durchbruch, sondern ein Cloud-Smartphone - mit einheitlicher Größe, einheitlicher Softwareversion und einheitlichem Funktionsumfang. In dieser virtuellen Welt können die Aktionen des Agenten gewährleistet werden.
Mit anderen Worten, der Ansatz von AutoGLM 2.0 besteht nicht darin, das Smartphone zu beherrschen, sondern eine eigene Umgebung zu schaffen, um die chaotische Realität zu beherrschen.
Wie ist das Produkt, das aus diesem Ansatz hervorgegangen ist, denn eigentlich?
1
Die "standardisierte" Welt von AutoGLM
AutoGLM verfügt über zwei Cloud-Geräte, ein Smartphone für den Agenten und einen Computer für den Agenten. Das Smartphone fungiert hauptsächlich als Lebensassistent und ist für Reisen und Bestellungen von Essen zuständig, während der Computer die Funktionen für Büroarbeit und Forschung übernimmt.
Schauen wir uns zunächst die beiden Geräte an und betrachten, welche Funktionen die von Zhipu für den Betrieb des Agenten geschaffene Welt behält und welche sie aufgibt.
AutoGLM Cloud-Smartphone
Ausgenommen die vom System mitgelieferten Apps wie Kamera und Uhr, gibt es auf der Smartphone-Seite insgesamt 30 zusätzliche Apps, die im Grunde das Leben und die Unterhaltung abdecken können.
Soziale Netzwerke und Nachrichten: Weibo, Xiaohongshu, Jinri Toutiao
Lang- und Kurzvideos: Hongguo, Douyin, Kuaishou, Bilibili, iQiyi, Tencent Video, Mango TV
Musik und Radio: QQ Music, Qishui Music, Ximalaya
Romanlesen: Fanqie Xiaoshuo
Verbrauch und Einkaufen: Flush, Taobao, JD.com, Pinduoduo
Lokales Leben: Meituan, Ele.me, Dianping, Alipay, KFC, Keep
Reisen und Fahrten: Didi Chuxing, Ctrip, Qunar, Gaode
Wohnungssuche: Ke.com
Möchten Sie eine neue App über den Browser herunterladen? Leider hat Zhipu diesen Weg blockiert. Ich habe versucht, die Apps Heima und Zhihu zu installieren, aber das System hat die Installation direkt verboten und angegeben, dass das App-Paket ungültig sei. Selbst die offizielle Download-Seite von Zhihu wurde mit einem 404-Fehler beantwortet.
Schauen wir uns nun die Konfiguration an. Das Cloud-Smartphone basiert auf Android 14 und hat das Modell SM-F900F. Aus den gesammelten Informationen geht hervor, dass dieses Gerät tatsächlich das erste Samsung-Glücksspieltelefon Galaxy Fold ist? (Warum nicht ein Redmi?) Wenn das Cloud-Smartphone ein vollständiges Gerät ist und nicht nur das System des Fold nutzt, dann ist die Konfiguration ein Snapdragon 855-Prozessor, 12 GB RAM + 512 GB Speicherplatz.
AutoGLM Cloud-Computer
Der AutoGLM Cloud-Computer ist ein Gerät auf Basis des Ubuntu-Systems. Aus der Sicht der Software-Ökosystem besteht der Cloud-Computer außer dem Browser nur aus der LibreOffice-Suite. Vielleicht ist die sogenannte Büroarbeit bei AutoGLM einfach die Dreiergruppe Word, Excel und PowerPoint. Ebenso hat AutoGLM den Ubuntu Softstore entfernt und den Benutzern das Herunterladen neuer Software verboten.
2
AutoGLM Praxis-Test: Werbung und Anmeldung sind die größten Hindernisse
Nachdem wir uns einen groben Überblick über das AutoGLM Cloud-Smartphone und den Cloud-Computer verschafft haben, kennen wir auch die Grenzen der Fähigkeiten von AutoGLM. Als nächstes testen wir, wie AutoGLM in der eingeschränkten Umgebung abschneidet.
Cloud-Smartphone-Aufgabe - Einkaufen auf Taobao:
Anweisung: Leere meinen Taobao-Warenkorb und kaufe dann die 1-Terabyte-Version des offiziellen iPhone 16 Pro.
Beim Taobao-Einkaufstest zeigte AutoGLM einen relativ vollständigen Ablauf - von der Websuche über die Klärung der Anforderungen bis hin zur App-Bedienung. Das Problem tritt beim Anmelden des Accounts auf - heutzutage erfordern fast alle chinesischen Apps die Anmeldung, um genutzt zu werden. Wenn AutoGLM eine Anmeldung erkennt, fordert es den Benutzer auf, die Kontrolle zu übernehmen. Der Benutzer muss dann manuell Benutzername und Passwort eingeben und kann anschließend die Kontrolle wieder abgeben, um die Aufgabe fortzusetzen.
Das Problem besteht jedoch darin, dass chinesische Apps ein hohes Maß an "Sicherheitsbewusstsein" haben. Die Sicherheitsüberprüfung vieler Apps ist weitaus komplizierter als die Eingabe von Benutzername und Passwort. Beispielsweise wurde ich beim Anmelden bei Xiaohongshu aufgefordert, mit meinem alten Gerät zu scannen, um mich anzumelden. Da ich jedoch mein altes Gerät für AutoGLM nutze, war dies nicht möglich. Beim Anmelden bei Douyin musste ich mein Gesicht scannen, um meine Identität zu bestätigen. AutoGLM zeigte jedoch ständig an, dass es die Kameraressourcen lädt. Selbst als die Ressourcen endlich geladen waren, war mein Gesicht in der Kamera so "verzerrt", dass die Identifizierung fehlschlug und ich mich nicht anmelden konnte.
Der fehlgeschlagene Anmeldevorgang bei Xiaohongshu hat auch dazu geführt, dass einige verknüpfte Funktionen nicht genutzt werden konnten. Beispielsweise war es in der vergangenen AutoGLM-Version möglich, auf Xiaohongshu nach der Zubereitungsmethode und den Zutaten für Bratapfel zu suchen und dann in der Xiaoxiang-Supermarktkette einzukaufen.
Natürlich kann man AutoGLM nicht dafür verantwortlich machen. Die chinesische Ökosystem der Smartphone-Apps eignet sich möglicherweise einfach nicht für die Entwicklung von AutoGLM. Noch schlimmer ist, dass AutoGLM die Benutzerdaten nicht speichert. Das ist sicherlich sicher, aber der Prozess der Anmeldung bei jeder Nutzung einer App, die eine Anmeldung erfordert, ist sehr mühsam.
Außerdem habe ich festgestellt, dass, wenn AutoGLM die Kameraressourcen nutzt und ich Douyin auf dem AutoGLM Cloud-Smartphone beende (Hintergrundprozess beenden), AutoGLM die Kamera nicht freigibt. Erst wenn ich AutoGLM schließe, wird die Kamera wieder freigegeben.
Zurück zur Aufgabe: Abgesehen von den Anmeldeproblemen kann AutoGLM Aufgaben wie das Leeren des Warenkorbs problemlos erledigen. Beim Ausführen von wichtigen Aktionen wie Löschen und Kaufen warnt AutoGLM den Benutzer, ob er die Aktion fortsetzen möchte.
Cloud-Smartphone-Aufgabe - Flugticket kaufen:
Anweisung: Gehe auf Qunar.com und kaufe ein Flugticket für übermorgen zwischen 11 und 14 Uhr von Shanghai nach Peking. Kein Boeing-Flugzeug.
Die Aufgabe ist nicht kompliziert, aber ich habe bewusst um 23 Uhr, kurz vor Mitternacht, getestet. Die Aufgabe hat mehrere Schlüsselpunkte, die die KI erkennen muss: "übermorgen", "zwischen 11 und 14 Uhr", "von Shanghai nach Peking" und "kein Boeing".
Beim ersten Versuch hat AutoGLM die Flugzeit falsch eingegeben, beim zweiten die Flugdatum. Die Start- und Endstationen waren jedoch korrekt, und es wurde kein Boeing-Flugzeug gewählt.
Um die Ursache für die Fehler zu verstehen, habe ich mir die Aktionen von AutoGLM genau angesehen. Zunächst gibt es ein Problem bei der Datumsauswahl: Wenn man die Kalenderansicht betritt und dann wieder verlässt, wird "übermorgen" oft fälschlicherweise als "überübermorgen" interpretiert. Dieses Problem tritt nicht immer auf, aber es zeigt, dass die Basisinteraktion noch nicht zuverlässig genug ist.
Das Problem bei der Zeitauswahl ist noch deutlicher. AutoGLM versteht nicht wirklich die Bedingung "zwischen 11 und 14 Uhr". Stattdessen setzt es sich auf die voreingestellten Optionen von Qunar.com. Es gibt nur die Optionen "9 - 12 Uhr" und "12 - 15 Uhr". AutoGLM wählt einfach eine dieser Optionen aus. Wenn es zufällig einen passenden Flug gibt, ist es "glücklicherweise" richtig. Wenn nicht, tritt ein Fehler auf. Mit anderen Worten, es ist nicht intelligenterweise, sondern eher Zufall.