StartseiteArtikel

Nutzt man die Popularität von Doubao Handys? Zhipu AutoGLM wird Open Source, und endlich hat der Trend für AI-Handys begonnen.

雷科技2025-12-11 16:12
Die großen AI-Unternehmen erobern die Macht zur Entscheidung über AI-Smartphones.

Vor kurzem ist der Doubao Mobiltelefon-Assistent auf die Bühne getreten und hat die chinesische Mobile-Internet-Ökosystem erheblich erschüttert. Gleichzeitig hat er auch wegen seiner systemweiten speziellen Berechtigungsanforderungen viele Kontroversen ausgelöst. Wie in einem Artikel vor einigen Tagen erwähnt wurde, ist es gerade diese Art von "Kontroversen", die die Entwicklung und den Fortschritt der AI-Mobiltelefonbranche antreibt.

Bildquelle: Doubao Mobiltelefon-Assistent

Während die Leute noch darüber streiten, ob "AI ein Mobiltelefon bedienen kann", hat Zhipu plötzlich die Branche um ein großes Stück vorangetrieben. Am 9. Dezember 2025 hat Zhipu die Öffnung der Quelle seines Kern-AI-Agent-Modells AutoGLM angekündigt. Jeder Hersteller, jedes Gerät und jeder Entwickler kann auf seiner Grundlage einen AI-Agenten reproduzieren, der den Bildschirm verstehen, tippen, wischen und eingeben kann.

Bildquelle: github

Nach Ansicht von Lei Technology hat diese Angelegenheit weit mehr Bedeutung als nur die vier Wörter "Quelloffenes Modell".

Worin liegt die Stärke des ersten Phone Use Agent in der Branche?

In der Wahrnehmung der meisten Menschen können AI-Assistenten chatten, zusammenfassen und suchen. Diese Fähigkeiten sind längst keine Neuigkeit mehr. Einen solchen Tool mehr oder weniger in der Branche macht keinen großen Unterschied. Aber AutoGLM ist anders. Es ist kein AI-Agent, der zum Chatten, Beantworten von Fragen oder Zeichnen dient, sondern ein Teil der AI-Fähigkeitskomponenten. Mit anderen Worten, AutoGLM ist das Auge der KI, ein KI-System, das den Bildschirm verstehen und Aufgaben erledigen kann.

Im Gegensatz zu der noch etwas fernen MCP-Lösung ist AutoGLM nicht von der App-Quellcode abhängig und erfordert keine zusätzlichen Anpassungen von Labels durch die Entwickler. Stattdessen beobachtet es den Bildschirm wie ein Mensch, versteht die Bedeutung der Schaltflächen, leitet die Logik der aktuellen Benutzeroberfläche ab und führt dann die nächste Aktion aus.

In früheren Artikeln haben wir erwähnt, dass die traditionellen Lösungen für "KI-Bedienung von Mobiltelefonen" auf Barrierefreiheitslabels oder Entwickler-Schnittstellen angewiesen sind. Da die meisten Entwickler keine Beachtung auf Barrierefreiheitslabels legen, ist es für traditionelle AI-Agenten schwierig, zu verstehen, wo auf der aktuellen Benutzeroberfläche Interaktion möglich ist. Das von AutoGLM verwendete "GUI-Agent"-Konzept kann diese Abhängigkeit von Entwicklern umgehen und lässt das Modell direkt anhand des Bildschirmbildes Urteile fällen.

Bildquelle: Zhipu

Nach dem Verständnis ist die Ausführung die nächste Herausforderung für die KI. Viele Menschen denken, dass die Ausführung nur eine "Klick"-Aktion ist, aber in der realen Welt ist es eine Reihe von kontinuierlichen Entscheidungen. Ist die Schaltfläche überhaupt gerade anklickbar? Wie verhalten sich Pop-ups und die untere Menüleiste zueinander? War der Seitenwechsel erfolgreich? Muss man zurückgehen? Wo soll man nach einem Unterbruch der Aufgabe fortfahren? Dies kann nicht einfach durch das Aufzeichnen von Skripten gelöst werden, sondern erfordert, dass das Modell in der Lage ist, sich selbst zu korrigieren und zu planen. Die KI-Branche hat für diese Art von kontinuierlichen Langzeitaufgaben einen sehr anschaulichen Namen - Aufgabenkette.

Und genau hier liegt der traditionelle Vorteil des GUI-Agent-Ansatzes wie AutoGLM - die KI muss nicht dem aufgezeichneten Ablauf folgen, sondern plant die Aktionen selbst nach dem Verständnis des Bildes. Sie kann in einer Langaufgabenkette von mehreren Dutzend Schritten stabil arbeiten, anstatt wie frühe Agenten nach ein paar Schritten zu verlieren.

Am wichtigsten ist, dass AutoGLM ein quelloffenes Modell ist, dessen Fähigkeiten "wiederholbar und portierbar" sind. Tatsächlich haben einige Mobiltelefonmarken auch vor der Einführung des Doubao Mobiltelefon-Assistenten ähnliche AI-Agent-Funktionen erforscht, wie die bekannte Honor Magic-Serie. Aber die Anzahl der Mobiltelefonunternehmen mit vollständigen AI-Entwicklungskapazitäten bleibt immer noch gering. Die meisten Marken sind auf die Zusammenarbeit mit externen Anbietern angewiesen.

AutoGLM macht diese Fähigkeit direkt zu einer offenen Komponente, sodass jeder Hersteller diese Funktionskette auf seinem Mobiltelefon wiederherstellen kann. Genau diese Universalität macht AutoGLM in der Konkurrenz um KI-Mobiltelefone besonders wichtig.

Die Kontroversen über die Berechtigungen von AI-Agenten werden weiter verschärft

Auch AutoGLM steht wie der Doubao Mobiltelefon-Assistent vor dem Problem der "Berechtigungen".

Die Öffnung der Quelle von AutoGLM hat viele Leute glauben lassen, dass "mit den Fähigkeiten und der Zusammenarbeit der Hersteller das Berechtigungsproblem gelöst werden kann". Leider ist diese Erwartung nicht realistisch. Die Essenz der Berechtigungsdiskussion ist kein technisches Problem, sondern ein Systemregelproblem.

Ereigniseingabe, Bildschirmabfrage und Eingabesimulation gehören zu den hoch sensiblen Systemberechtigungen. Selbst wenn die Mobiltelefonhersteller bereit wären, diese Berechtigungen zu gewähren, können sie nicht um das Risikomanagementsystem der App selbst herumgehen. Das Risikomanagementsystem ist das "Sicherheitssystem" der Internetplattformen und dient seit Jahrzehnten zur Erkennung von Skripten und ungewöhnlichen Verhaltensmustern. Wenn die Verhaltensmerkmale der KI stark mit denen von Skripten übereinstimmen, ist eine Fehlentscheidung fast unvermeidlich.

Trotzdem ist die Zusammenarbeit zwischen KI-Unternehmen und Mobiltelefonmarken dennoch sehr wichtig. Die Unterstützung auf Systemebene bedeutet, dass die KI in einer stabileren Umgebung aufgaben ausführen kann, ohne auf umständliche Tricks zurückgreifen zu müssen, um die Systembeschränkungen zu umgehen. Die Unterstützung auf App-Ebene bedeutet, dass in Zukunft ein standardisierter Agentenerkennungsmechanismus etabliert werden kann, der die App-Risikokontrollen überzeugen kann, dass "dies ein legaler Agentenverhaltensmuster" ist, anstatt einer unbekannten automatischen Klickquelle.

Bildquelle: modelcontextprotocol.io

Selbst aus der Perspektive der Branchenentwicklung lässt AutoGLM die Verbraucher erkennen, dass KI nicht das "Privileg" von wenigen Unternehmen und Personen ist, sondern eine "neue Fähigkeit", die jeder in Zukunft nutzen kann. Aus dieser Sicht ist die Öffnung der Quelle von AutoGLM durch Zhipu nicht dazu da, die Kontroversen über die "KI-Berechtigungen" zu verschärfen, sondern diese Probleme der Öffentlichkeit vorzulegen. Indem man die Verbraucher an die neuen Technologien gewöhnt, werden die Kontroversen über die "KI-Berechtigungen" transparenter und letztendlich von der Öffentlichkeit akzeptiert.

Die KI-Riesen erobern die Macht in der KI-Mobiltelefonbranche

Was wird nach der Öffnung der Quelle des Modells die Entwicklung der KI-Mobiltelefone bestimmen? Laut Lei Technology wird die Einführung von Technologien wie dem Doubao Mobiltelefon-Assistenten und AutoGLM wahrscheinlich ein neues Konzept der "KI-Strömungen" in die Mobiltelefonbranche einführen.

Einfach ausgedrückt, wird sich in der Zukunft, angesichts der zunehmenden Homogenität der Hardware, der Wettbewerb zwischen Flaggschiffsmobiltelefonen wahrscheinlich von der heutigen "Markenunterschied" und "Softwareunterschied" hin zu "KI-Unterschied" verlagern - wer einen stabileren Agenten hat, wer einen intelligenteren Agenten hat und wer mehr reale Anwendungen abdecken kann, werden möglicherweise neue Wettbewerbsdimensionen werden. In manchen Szenarien wird der Benutzer möglicherweise gar nicht mehr darauf achten, "welches Betriebssystem Ihr Telefon hat", sondern nur darauf, "wie gut Ihr Agent funktioniert".

Bildquelle: Doubao Mobiltelefon-Assistent

Unbestreitbar hat die Öffnung der Quelle von AutoGLM diesen Wandel beschleunigt. Sie lässt diesen neuen Wettbewerb nicht nur den Spitzenherstellern vorbehalten. Viele kleine und mittlere Mobiltelefonmarken, Betriebssystemhersteller und sogar einige Hersteller von kundenspezifischen Hardwaregeräten können möglicherweise aufgrund der Erlangung vollständiger Mobiltelefonbedienungskapazitäten plötzlich über Differenzierungsspielräume verfügen, die ihnen bisher verwehrt waren.

Nach Ansicht von Lei Technology bedeutet dies auch, dass die zukünftige Ökosystemstruktur der Mobiltelefone von "Marke + Betriebssystem" zu "Marke + Betriebssystem + KI" werden wird. Die Beziehung zwischen diesen drei Faktoren wird zunehmend der heutigen "Chiparchitektur" ähneln, einer völlig unabhängigen, aber entscheidenden Ebene, die die Obergrenze der Benutzererfahrung bestimmt.

Kann ein quelloffenes Modell die Vertrauenswürdigkeit von KI-Mobiltelefonen erhöhen?

Egal ob der Doubao Mobiltelefon-Assistent oder das neu veröffentlichte AutoGLM - die "Besorgnis" der Benutzer rührt letztendlich von der Skepsis und Unkenntnis gegenüber KI her. Nach mehr als einem Jahrzehnt der Entwicklung sind die Hardware, Software und Interaktionslogik von Smartphones bereits weitgehend festgelegt. Für Mobiltelefonbenutzer, insbesondere die an die Offenheit gewöhnten chinesischen Android-Benutzer, sind wir es langsam gewöhnt, "alles selbst zu erledigen". Das plötzliche Einführen eines neuen AI-Agenten, der auf Augenhöhe mit dem Benutzer steht, bringt natürlich "geistige Verwirrung" für die Mobiltelefonbenutzer mit sich.

Nehmen wir die Beiträge auf Xiaohongshu als Beispiel. Viele Benutzer finden es sehr überraschend, dass "KI den Bankkontostand abfragen kann". Aber aus technischer Sicht ist dies nur eine einfache, standardisierte Aktion der KI unter der Zustimmung des Benutzers.

Natürlich gibt es auch einige Benutzer, die nicht an die KI, sondern an die chinesische Internetumgebung zweifeln. Lei Technology kann leider nichts dagegen tun: In der Phase des wilden Wachstums des chinesischen Mobile Internets haben einige Unternehmen tatsächlich die Bequemlichkeit vor der Privatsphäre entschieden.

Aber aus einer anderen Perspektive bietet die KI-Mobiltelefonära, die von dem Doubao Mobiltelefon-Assistenten und dem quelloffenen AutoGLM-Modell ausgelöst wurde, der chinesischen Mobile-Internetbranche eine Chance, die Dinge wieder in den richtigen Kurs zu bringen. Die Entstehung des Mobiltelefon-GUI-Agenten hat uns in eine "Regellücke" der Branche gebracht. Was wir jetzt am dringendsten tun müssen, ist es, als Pioniere klare und verbindliche Branchenregeln für diese "Regellücke" festzulegen, damit die Technologie ihre wirklichen Fähigkeiten entfalten und den Benutzern dienen kann.

Nach dem gegenwärtigen Trend hat die KI-Bedienung von Mobiltelefonen von der punktuellen Durchbrechung zur Ökosystem-Building-Phase übergegangen. Das Berechtigungsproblem wird schrittweise durch neue Protokolle, neue Verbindungen und neue Mechanismen gelöst. Die Beziehung zwischen dem Betriebssystem und den Apps wird auch durch die Reife des Agentenmechanismus neu definiert. Und die Zukunft der Mobiltelefone wird durch die Einbeziehung von KI von der "Menschen-Bedienung von Maschinen" zu einer neuen Phase der "Maschinen-Bedienung für Menschen" wechseln.

Wenn die ersten zwanzig Jahre der Smartphone-Entwicklung die Zeit waren, in der das Desktop-Internet in die Hand gepackt wurde, dann werden die nächsten zehn Jahre wahrscheinlich die Zeit sein, in der die "Bedienungsmacht" an die KI übertragen wird. Und die Öffnung der Quelle von AutoGLM ist gerade der neue Anfang dieser Mobiltelefon-Transformation.

Dieser Artikel stammt aus dem WeChat-Account "Lei Technology" und wurde von 36Kr mit Genehmigung veröffentlicht.