Zhipu AI hat den neuesten "autonomen intelligenten Agenten" gestartet, "Her" wird endlich Wirklichkeit.
Text | Tian Zhe
Bearbeitung | Su Jianxun
Auf dem Weg, sich mit OpenAI zu messen, hat Zhipu AI einen weiteren Schritt gemacht.
Anfang dieses Jahres wurde berichtet, dass OpenAI Software für KI-Agenten entwickelt, die Menschen ersetzen, automatisch zu jeder Website navigieren und bestimmte Aufgaben ausführen kann.
Am 25. Oktober stellte Zhipu AI ein ähnliches Produkt vor - den autonomen Agenten AutoGLM. Zhipu beschreibt ihn als einen Handy-Bedienungsassistenten, der Benutzerbildschirme simulieren und Aufgaben wie einen Browser-Assistenten ausführen kann.
Das Demonstrationsvideo von Zhipu zeigt, dass AutoGLM Funktionen wie Online-Bestellungen, das Organisieren von Notizen und das Erstellen von Reiseführern sowie das Zusammenfassen von Aufsätzen ausführen kann.
Gleichzeitig hat Zhipu AI auch das End-to-End-Emotion-Stimmenmodell GLM-4-Voice eingeführt. Dieses Modell kann nicht nur eine echte emotionale Ausdrucksweise simulieren, sondern sogar subtile Pausen und Atemgeräusche überzeugend darstellen.
Der Durchbruch dieser Technologie erinnert an Szenen aus dem Science-Fiction-Liebesfilm "Her". Im Film lernt der Protagonist Theodore den AI-Assistenten Samantha kennen, die durch emotionale Sprachinteraktion Nähe und Wärme vermittelt.
Heutzutage scheint das emotionale Sprachmodell von Zhipu AI die Science-Fiction-Szenen aus "Her" in unser tägliches Leben zu bringen, indem es KI einen emotionalen und persönlichen Charakter verleiht.
"Her" nimmt bereits Gestalt an, und es könnte nicht mehr lange dauern, bis selbstbewusste und emotionale KIs auftreten.
Einführung des autonomen Agenten: Kann Essen bestellen, Komplimente verteilen
Ähnlich wie der AI-Agent von OpenAI erfordert das Zhipu Qingyan AutoGLM-Modell keine manuelle Bedienung oder Einschränkung auf einfache Aufgaben oder API-Aufrufe und kann menschliche Aktivitäten übernehmen.
Derzeit kann Zhipu AutoGLM mit 8 bekannten Anwendungen wie WeChat, Taobao, Meituan und Xiaohongshu verwendet werden, um alltägliche Funktionen wie Online-Chat, Online-Shopping, soziale Netzwerke, Karten und Hotel- und Zugbuchungen abzudecken.
Insbesondere erscheinen die Dialoge nach dem Senden eines Befehls an AutoGLM in Sprachform und werden in Echtzeit als Untertitel angezeigt.
Beispielsweise können Sie AutoGLM bitten, eine positive Bewertung für ein Geschäft auf Dianping abzugeben und den Kommentar automatisch zu bearbeiten. Bei der Ausführung von Aktionen über die Anweisung hinaus, wie z.B. das Senden eines Kommentars, weist AutoGLM auf eine Bestätigung hin.
Sie können AutoGLM auch bitten, historische Bestellungen für einen bestimmten Zeitraum auf Taobao zu durchsuchen und bestimmte Produkte erneut zu kaufen.
Sogar längere Aufgaben wie das Liken und Kommentieren eines Moments eines spezifischen WeChat-Freundes können abgeschlossen werden.
Neben Funktionen wie Online-Shopping und dem Bearbeiten von Kommentaren kann AutoGLM auch mehrere Artikel zusammenfassen und Zusammenfassungen generieren.
Laut dem Zhipu-Öffentlichen-Account basiert AutoGLM auf dem WEBRL-Framework für das selbstlernende Onlinetraining mit verstärkendem Lernen, das den Mangel an Trainingsaufgaben, die spärlichen Rückmeldesignale und die Abweichung der Strategieverteilung überwindet, und dank der adaptiven Lernstrategie seine Leistung kontinuierlich verbessert. Dies bedeutet, dass AutoGLM eine gewisse Fähigkeit zur Selbstkorrektur besitzt.
Quelle: Zhipu-Öffentlicher-Account
Es wird berichtet, dass AutoGLM zur Wahrung der Privatsphäre der Benutzer keine persönlichen Informationen aktiv erfasst. Wenn Aufgaben außerhalb des autorisierten Bereichs ausgeführt werden sollen, wird der Benutzer um Bestätigung gebeten.
Sogar mit Benutzererlaubnis besitzt AutoGLM nicht dauerhaft die entsprechenden Berechtigungen. Jedes Mal, wenn AutoGLM im Hintergrund gestartet wird, muss es erneut Zugriffsrechte einholen.
Derzeit ist AutoGLM auf dem Computer im offenen Modus nutzbar. Die Installation des Qingyan-Plugins ermöglicht die Nutzung, und die Smartphone-Version von AutoGLM befindet sich derzeit in der Android-Betatests.
Emotionales Sprachmodell mit Emotionen und Pausen
Vor zwei Monaten zeigte Zhipu Qingyan erstmals seine Sprachkommunikationstechnologie. Obwohl die Sprachkommunikation damals in der Lage war, zu verstehen und relativ akkurat zu antworten, wirkte der Ton wie ein roboterhaftes "Verlesen" und fehlte dem Ausdruck von Emotionen. Bei der Aufforderung zu emotionalem Ausdruck konnte es lediglich formell antworten: "Als eine künstliche Intelligenz kann ich keine Emotionen ausdrücken".
Mit dem aktualisierten emotionalen Sprachmodell ist nun jedoch alles anders. Die Sprache klingt menschlicher und fügt sich emotional ein, als ob man mit einer echten Person spricht.
Es hat gelernt, mit Tönen wie Schmeichelei, Sarkasmus, Wut und Hysterie zu sprechen. Zum Beispiel kann die synthetische Stimme ein Kind nachahmen und in einem schmeichelnden Ton Zuckerwatte von der Schwester fordern.
Falls Standard-Mandarin langweilig wird, kein Problem, es kann auch die Akzente von Beijing, Nordosten, Guangdong, Taiwan und Chongqing annehmen. Ein Beispiel ist die berühmte Aussage "Bashideban" (lecker), die direkt den Appetit anregt.
Auch Rollenspiele sind kein Problem. Es kann zum Beispiel als der Bösewicht Voldemort aus "Harry Potter" auftreten und in einer festgelegten Manier sprechen. Dabei kann es den typischen Ton eines Schurken verwenden.
Wenn es jedoch darauf ankommt, Zungenbrecher schnell auszusprechen, könnte es "abstürzen" und die Aussprache könnte etwas holprig klingen.
Gelegentlich gibt es auch beim Sprechen kurze elektrische Geräusche.
Darüber hinaus könnte die Aussprache gelegentlich nicht präzise sein, z.B. das Wort "warum" als "wai" statt "wei".
Es wird berichtet, dass GLM-4-Voice natürliche Sprachgenerierung (NLG) mit Sprachsynthese-Technologie kombiniert. Im Vergleich zu herkömmlicher TTS-Technologie (Text-to-Speech) kann eine synthetisierte Stimme den Kontext besser verstehen und emotionale, natürliche Gespräche führen.
Zusätzlich modelliert GLM-4-Voice Sprachinformationen direkt als Audio-Token, um Stimmverarbeitung und -erzeugung innerhalb eines einzelnen Modells zu integrieren. Im Vergleich zu herkömmlichen sequenziellen Ansätzen führt dies zu weniger Informationsverlust und Fehlerakkumulation, was theoretisch ein höheres Modellierungspotential bietet.
GLM-4-Voice Modellarchitektur; Quelle: Zhipu AI
Dies ist nicht die vollständige Bandbreite von Qingyan's synthetischem Sprachkommunikationssystem, das auf GPT 40 abzielt und in Aspekten wie Antwort- und Störungsgeschwindigkeit, emotionale Wahrnehmung und Ausdruck, Mehrsprachigkeit und multi-Dialektische Unterstützung weiter voranschreiten wird. Bisher wurden verschiedene Emotionen und regionale Dialekte realisiert, und sogar die Sprachgeschwindigkeit und Lautstärke können angepasst werden, um ein menschliches Gespräch zu erreichen.
Gegenwärtig ist GLM-4-Voice in der Qingyan-App verfügbar, sodass Benutzer mit Qingyan natürlich plaudern können. Bemerkenswert ist, dass GLM-4-Voice bereits als Open-Source-Modell zugänglich gemacht wurde, das erste Open-Source-End-to-End-Multimodalmodell von Zhipu AI.
In naher Zukunft wird es auch Videotelefonie unterstützen, die nicht nur Objekte erkennen kann, sondern auch durch Ton eine "Augenkontakt" Interaktion simulieren kann.
Laut dem Zhipu-Öffentlichen-Account umfasst Zhipus Angebot, von Text-, Bild-, Video- bis hin zu emotionalen Sprachmodellen, um AI den Umgang mit verschiedenen Werkzeugen beizubringen, aufgrund seines neuen fundamentalen Modells – GLM-4-Plus. In Bezug auf die Sprachtext-Kompetenz ist GLM-4-Plus vergleichbar mit GPT-4o und dem 405B-Parameter-Modell Llama3.1.
Verstärkung des AI-Handymarkts: Zhipus bedeutender kommerzieller Durchbruch
„Aktuell befinden sich kleine Modelle noch in der Phase der Marktsuche, sie müssen Markt und Technologie zusammenbringen, um die Effizienz zu steigern und neue Anwendungsfelder zu finden.“
Vor zwei Monaten erwähnte Zhipu AI CEO Zhang Peng in einem Interview mit „The Advent of Intelligence“ diesen Punkt. Die Zusammenarbeit mit Mobiltelefonherstellern bei AI-Agenten mag das neue Feld sein, von dem Zhang Peng sprach.
Das Finden von Szenarien ist eine dringende Aufgabe der Modellanbieter, da dies bedeutet, dass Modellersteller eine stabile Einnahmequelle erlangen und gleichzeitig im Szenario fortlaufend Daten sammeln und das Produkt iterieren können.
Der AI-Agent ist eine der Hauptanwendungsformen von großen Modellen, er weist die Fähigkeit zur autonomen Wahrnehmung, Entscheidungsfindung und Handlung auf und gilt als zukünftige Produktform der nächsten Generation von Computern und intelligenten Mobiltelefonen mit AI-Intelligenz. Laut der Beratungsfirma IDC wird erwartet, dass der Marktanteil von AI-Handys und AI-PCs in China bis 2027 über 50% bzw. 80% erreichen wird.
Zhipu beschleunigt die Einführung großer Modelle in AI-Handys. Am 22. dieses Monats schloss sich Zhipu mit Qualcomm zusammen, um das GLM-4V-Modell für die Vision auf der Endgeräteebene für den Snapdragon 8 Supreme Chip zu optimieren, um multimodale Interaktionen zu ermöglichen; am 23. hat Zhipu eine Zusammenarbeit mit Samsung im Bereich des GLM-4V-Visionmodell der Endgeräteebene gestartet, um gemeinsam AI-Produkte zu schaffen.
Zhipu hat auch angedeutet, dass es intensive Kooperationen mit Smartphone-Herstellern wie Honor plant. Tatsächlich wurde im September dieses Jahres ein gemeinsames AI-Modell Technologie-Labor zwischen Zhipu und Honor gegründet.
Honor hat ebenfalls die Absicht, die Leistungsfähigkeit von AI-Agenten weiter zu verbessern. Bei einem Pressegespräch während der Veröffentlichung von MagicOS 9.0 am 23. erwähnte Zhao Ming, CEO der Honor Terminal Co., Ltd., dass Honor plant, das Betriebssystem durch AI neuzugestalten, um grundlegende Kapazitäten zu schaffen, die intelligenteren Service ermöglichen.
AI-Handys sind derzeit in aller Munde, wobei mehrere Telefonhersteller wie Apple, Honor, Vivo und OPPO sich mit der Einführung von Telefonen mit AI-Funktionen überbieten, darunter AI-Rauschunterdrückung, AI-Anrufzusammenfassungen und mehr.
Jedoch ist die Zahl von Telefonen mit AI-Agenten derzeit noch begrenzt, was auf die noch nicht ausgereifte Entwicklungstechnologie und das Fehlen relevanter Standards zurückzuführen ist.
Aber diese Situation verbessert sich allmählich.
Im Marktbereich haben sich Modellanbieter wie Open.ai und Zhipu bereits mit Telefonherstellern zusammengetan, um die Zusammenarbeit zwischen Modellanbietern, Softwareentwicklern und Telefonherstellern zu fördern.
Auf politischer Ebene hat das China Information and Communication Research Institute in Zusammenarbeit mit mehreren inländischen Telefonherstellern den "Research Report on Terminal Intelligence Grading" veröffentlicht, der eine Grading-Definition der Terminalintelligenz enthält. Dies wird die Entwicklung des AI-Handymarktes in China vorantreiben.
Definition der Terminalintelligenzgrade
Verschiedene große Modelle haben sich bereits mit Unternehmen der Smartphone-Ökologie verbunden, und AI-Handys könnten der Haupttreiber für die kommerzielle Entwicklung von Zhipu werden.