StartseiteArtikel

Gespräch mit Zhang Yaqin von der Tsinghua-Universität: Agenten sind die APPs der Ära der großen Sprachmodelle.

中国企业家杂志2025-06-23 08:27
Die nächste Phase der KI ist die Agenten-KI.

Im Jahr 2025 ist der Wettlauf um die großen Modelle bereits in das dritte Jahr eingetreten. Sowohl auf nationaler Ebene als auch in der Branche wird allmählich klar, dass dies ein Langstreckenrennen ist, bei dem der Wettlauf um Talente den Ausgang entscheidet. Technologische Experten können Kapitalströme in Höhe von Hunderten von Millionen Yuan ankurbeln.

Das Microsoft Research Asia wird von außen als die "Huangpu Military Academy" der chinesischen KI-Industrie bezeichnet. Zhang Yaqin, der Gründungsdirektor des Microsoft Research Asia, war ein wichtiger Initiator der Veränderungen in Bezug auf Talente und Technologie. Vom Wissenschaftler über den Unternehmer bis hin zum Professor an der Tsinghua-Universität hat er sich als Spiegel der Zeit entwickelt.

Im Jahr 1998 kehrte Zhang Yaqin nach China zurück und beteiligte sich an der Gründung des Microsoft Research China. 2001 wurde das Institut zum Microsoft Research Asia aufgewertet, und Zhang Yaqin übernahm die erste Direktoratsperiode. Seitdem hat diese Einrichtung stetig Talente in die chinesische Internet- und KI-Industrie eingebracht. Persönlichkeiten wie Wang Jian, Zhang Hongjiang, Lin Bin und Tang Xiao'ou, die in der Branche und der Wissenschaft von großer Bedeutung sind, haben alle am Microsoft Research Asia gearbeitet.

Zhang Yaqin war 16 Jahre lang bei Microsoft tätig und übernahm die Positionen von Vizepräsident der Weltorganisation und Vorsitzender von Microsoft China. Im September 2014 trat er bei Baidu ein und übernahm die Position des Präsidenten, bis er im Oktober 2019 in den Ruhestand trat. Damals veröffentlichte Lei Jun, der Vorsitzende von Xiaomi, speziell einen Beitrag auf Weibo und wünschte ihm alles Gute: "Herzlichen Glückwunsch an Zhang Yaqin und Baidu. Wir begrüßen es, wenn mehr Elite aus multinationalen Unternehmen in chinesische Unternehmen wechseln."

Man kann sagen, dass Zhang Yaqin die gesamte Entwicklung der chinesischen Internet- und KI-Branche miterlebt hat. Im Jahr 2015 schrieb er in einer Medienberichterstattung erstmals über das Konzept von "AI+". Damals war er überzeugt, dass "Künstliche Intelligenz die führende Technologie der nächsten 40 bis 50 Jahre sein wird."

Nach seinem Ruhestand im Jahr 2019 kehrte Zhang Yaqin in die Wissenschaft zurück und gründete das Institute for AI Industry Research (AIR) an der Tsinghua-Universität. Die Mission dieses Instituts besteht darin, die Branchenentwicklung durch Künstliche Intelligenz zu fördern und den gesellschaftlichen Fortschritt voranzutreiben.

Kürzlich veröffentlichte Zhang Yaqin sein neues Buch "Intelligente Entstehung: Veränderungen und Überlegungen in der Ära der KI". Yao Qizhi, Lei Jun, Li Kaifu und andere haben Empfehlungen geschrieben. Lei Jun erwähnte: "Dieses Buch behandelt viele Inhalte, die bereits oder bald an Bedeutung gewinnen werden" - wie den Gründungszyklus, in dem physische Intelligenz, digitale Intelligenz und biologische Intelligenz miteinander verschmelzen, sowie der Trend, dass die Fahrerlose Automatisierung die globale Automobilindustrie neu gestaltet.

Im Buch sagt Zhang Yaqin: Der Mehrwert, den KI für private Verbraucher bringt, könnte schrittweise und allmählich akkumuliert werden. Die Veränderungen, die KI für Unternehmen und sogar ganze Branchen bringt, könnten dagegen effizient und schnell subversiv sein.

Heute ist der Agent der führende Bereich für die Steigerung des KI-Werts. Zhang Yaqin sagte der Zeitschrift "China Entrepreneur": "Derzeit befindet sich der Agent noch in einem sehr frühen Stadium. Auf dem Markt wird viel über Agenten gesprochen, aber die meisten von ihnen sind wahrscheinlich noch keine echten Agenten."

Darüber hinaus prognostiziert er, dass die kombinierte Intelligenz von AI+HI (HI steht für menschliche Intelligenz, human intelligence) in Zukunft 1200 Punkte erreichen wird, was mindestens eine Größenordnung höher ist als die Intelligenz des Menschen.

Im Folgenden finden Sie den ausführlichen Inhalt des Interviews zwischen "China Entrepreneur" und Zhang Yaqin (gekürzt):

Die beste Art für Agenten ist es, für Menschen zu arbeiten

"China Entrepreneur": Kürzlich haben Sie gesagt, dass die generative KI sich in die Agenten-KI wandelt. Dabei gibt es zwei Durchbrüche: die Länge der Aufgabe und die Genauigkeit der Aufgabe.

Zhang Yaqin: In den letzten Jahren hat sich die Künstliche Intelligenz von der diskriminativen KI, wie z. B. Spracherkennung, Bilderkennung und Gesichtserkennung, zur generativen KI gewandelt, die Texte, Videos und Proteine (neue Strukturen) erzeugt. Jetzt wandelt sie sich in die Agenten-KI, in die autonome Intelligenz, um.

Was ist autonome Intelligenz? Das heißt, wenn Sie der KI ein Ziel vorgeben, kann sie autonom einen Weg finden und das Ziel erreichen. Sie wird immer ähnlicher wie der Mensch. Die größte Fähigkeit des Menschen besteht darin, ein Ziel zu setzen und dann zu planen, zu entscheiden und zu handeln.

Für Agenten gibt es zwei sehr wichtige Indikatoren. Der eine ist die Länge der Aufgabe. Wenn die Aufgabe sehr komplex ist, teilt der Agent sie in verschiedene Phasen auf, definiert in jeder Phase Teilziele und optimiert diese. Am Ende verbindet er sie zu einem großen Ziel.

In den letzten sieben Monaten hat sich die Länge der Aufgaben, die ein Agent bearbeiten kann, verdoppelt. In den nächsten sechs oder sieben Monaten könnte sie sich erneut verdoppeln.

Der andere Indikator ist die Genauigkeit. Der Agent kann die Aufgabe mit einer Genauigkeit von über 50 % erfüllen. Wenn der Agent ein Ziel erreichen muss und dazu 20 verschiedene Wege und Teilaufgaben durchlaufen muss, kann er in 50 % der Fälle das Ziel erreichen. Wenn nicht, kann der Agent mit dem Menschen interagieren, um die Aufgabe zu erfüllen.

"China Entrepreneur": Das Gedächtnis ist auch ein sehr wichtiger Indikator für Agenten.

Zhang Yaqin: Ja, eine wichtige Funktion von Agenten ist, dass sie jetzt über ein langfristiges Gedächtnis verfügen. Das heißt, nachdem der Agent viele Dinge getan hat, kann er sich daran erinnern. Beispielsweise kann er sich im nächsten Monat noch an die Dinge erinnern, die er im vergangenen Monat getan hat. Derzeit ist das Gedächtnissystem der KI noch sehr primitiv.

"China Entrepreneur": Der Begriff des Agenten existiert schon seit langem. Warum ist er in diesem Jahr so heiß?

Zhang Yaqin: Im Bereich der Informatik wird über Agenten seit Jahrzehnten gesprochen. Aber die Agenten in der Vergangenheit konnten im Wesentlichen nicht funktionieren. Erstens war der Algorithmus nicht gut genug. Zweitens war die Rechenleistung nicht ausreichend. Von 2024 bis heute hat sich viel verändert. Die gesamte Rechenleistung hat sich ungefähr verzehnfacht, die Inferenzalgorithmen haben sich verbessert, und es gibt immer mehr und besser strukturierte Daten. Mit MCP können verschiedene Websites und Datenbanken verbunden werden. All dies zusammen ermöglicht es den heutigen Agenten, relativ komplexe Aufgaben zu lösen.

Aber derzeit befindet sich der Agent noch in einem sehr frühen Stadium. Deshalb definieren wir auch fünf Stufen für Agenten, von L1 bis L5. Dies ähnelt der Fahrerlose Automatisierung, bei der man das Maß an autonomer Intelligenz betrachtet. Auf dem Markt wird viel über Agenten gesprochen, aber die meisten von ihnen sind wahrscheinlich noch keine echten Agenten.

"China Entrepreneur": Um zu entscheiden, ob es sich um einen echten Agenten handelt, schaut man sich die Länge der Aufgabe und die Genauigkeit der Aufgabe an.

Zhang Yaqin: Ja, auch die Gedächtnisfunktion, die Fähigkeit zur Inferenz, Planung, Entscheidung und Handlung müssen vorhanden sein, um einen geschlossenen Kreis zu bilden. Wenn eine Aufgabe in n Teilaufgaben aufgeteilt werden kann und jeder Teilaufgabe ein fester Weg zugeordnet ist, handelt es sich möglicherweise um Automatisierung.

Ein Agent lernt in einem breiten Bereich und sucht dann den besten Weg, um die Gesamtaufgabe zu erfüllen.

"China Entrepreneur": Ein Bericht des US-amerikanischen Investmentunternehmens Sequoia Capital hat kürzlich erwähnt, dass die Agenten früher den Prozess, jetzt aber das Ergebnis liefern.

Zhang Yaqin: Agenten müssen unbedingt das Ergebnis liefern. Der Benutzer gibt dem Agenten eine Aufgabe, und am Ende wird diese Aufgabe erfüllt. Die beste Art für Agenten ist es, für Menschen zu arbeiten und eine Aufgabe zu inferenzieren.

Ein weiterer wichtiger Aspekt ist, dass Agenten voneinander lernen müssen. Sie entwickeln sich im Prozess des Lernens und des Wettbewerbs. Deshalb ist die Interaktion zwischen mehreren Agenten ein wichtiger Weg, um die allgemeine Künstliche Intelligenz (AGI) zu erreichen. Und wenn Agenten lernen, sollten sie möglichst wenig anfangs Wissen haben. Sie sollten im Interaktionsprozess lernen.

"China Entrepreneur": Braucht man nicht viel Vor-Training?

Zhang Yaqin: Natürlich braucht es ein gewisses Vor-Training, aber es ist ein interessanter Kompromiss. Je mehr Wissen man einem Agenten gibt, desto weniger Freiheit hat er, sich zu entwickeln. Ähnlich wie beim Schachspiel. Die erste Version von Google's AlphaGo musste Hunderttausende von Schachpartien lernen. Später musste AlphaGo Zero nicht mehr so viele Schachpartien lernen. Man musste ihm nur die Regeln sagen, was gewinnen und was verlieren bedeutet, und es begann von Null zu lernen und sich im Wettbewerb mit anderen Agenten zu verbessern.

"China Entrepreneur": Viele Leute legen viel Wert auf Vor-Training. Ist aber die Rückmeldung aus der realen Welt der Schlüssel für die zukünftige Entwicklung der Intelligenz?

Zhang Yaqin: Genau wie wir Menschen müssen wir etwas Wissen erwerben, aber das wichtigste Wissen lernen wir in der Arbeit und im Leben.

Kürzlich machte Richard Sutton, der "Vater des Reinforcement Learnings", einen Vergleich. Er sagte, dass die Künstliche Intelligenz in drei Phasen unterteilt werden kann. In der ersten Phase bekommt man Fisch zu essen. In der zweiten Phase lernt man, wie man fischt. Dies ähnelt dem Vor-Training plus Reinforcement Learning. In der dritten Phase bekommt man zuerst einen Fisch zu essen. Der Fisch schmeckt so gut, dass man hungrig wird. Dann muss man selbst fischen, aber man wird nicht gelehrt, wie man es macht. Letztendlich kann die dritte Methode das Potenzial am besten ausschöpfen.

"China Entrepreneur": Derzeit hat sich das Scaling Law etwas verändert. Sie haben das Agentic Scaling Law erwähnt. Was ist das Agentic Scaling Law?

Zhang Yaqin: Nach der Veröffentlichung von ChatGPT war das wichtigste Gesetz das Scaling Law. Je mehr Daten und je stärker die Rechenleistung, desto genauer sind die Ergebnisse. Ab einer gewissen Größe, wie z. B. 100 Millionen, 10 Milliarden oder 100 Milliarden Parameter, steigt die Genauigkeit exponentiell. Dies wird als Emergenzeffekt bezeichnet.

Von 100 Milliarden Parametern zu einer Billion Parametern und darüber hinaus folgt die Kurve im Wesentlichen weiterhin diesem Exponenten. Aber Ende 2024 und Anfang 2025 hat die Steigerung nicht mehr exponentiell stattgefunden, sondern ist abgeflacht. Ein wichtiger Grund dafür ist, dass die Daten fast aufgebraucht sind, aber die Intelligenzobergrenze noch lange nicht erreicht ist.

Darüber hinaus hat sich das Scaling Law des Vor-Trainings verschoben. Nachdem man ein Modell hat, wie macht man die Inferenz? Möglicherweise wird die Intelligenz des Modells höher, je mehr Inferenzschritte es gibt. Derzeit wird von allen erforscht, ob das Scaling Law auch im Bereich der Inferenz und im Bereich der Agenten noch gilt. Darüber hinaus wird diskutiert, ob das Scaling Law auch im Bereich der Vision gilt, da es bisher hauptsächlich im Bereich der Sprache gilt.

Ich denke, dass das Scaling Law der gesamten Künstlichen Intelligenz weiterhin gilt, es hat sich nur an einen anderen Ort verschoben.

"China Entrepreneur": Ist es möglich, dass ein kleines Modell große Fähigkeiten hat?

Zhang Yaqin: In den nächsten 5 bis 10 Jahren wird das Daten-getriebene große Modell weiterhin der Mainstream sein. Im Bereich der Inferenz, wie z. B. auf der Endgeräteseite, wird die Modellgröße etwas kleiner sein, aber es basiert immer noch auf großen Modellen. Wenn man kein großes Modell hat und versucht, ein Modell aus kleinen Daten und kleinen Parametern zu erstellen, ist es sehr schwierig, dass dieses Modell generalisierbar ist. Ein Algorithmus kann eine Aufgabe gut lösen, aber dies ist nicht der Mainstream der Entwicklung der Künstlichen Intelligenz.

Verbindung zwischen digitaler Welt und physischer Welt führt zur AGI

"China Entrepreneur": Ist die Entwicklung von der Bit-Welt zur Atom-Welt eine Evolution von beschreibender Intelligenz zu intervenierender Intelligenz?

Zhang Yaqin: Ich teile es in drei verschiedene Ebenen auf. Erstens die Informationsintelligenz, die vollständig in der digitalen Welt liegt, wie z. B. Sprache, Bilder, Vision, einschließlich unserer Proteine (Strukturen). Zweitens die physische Intelligenz, wie z. B. Roboter, Fahrerlose Automatisierung. Die physische Welt und physische Einrichtungen nutzen Künstliche Intelligenz. Dies erfordert die Interaktion, Handlung und Rückmeldung zwischen Agenten und der physischen Welt.

Drittens die biologische Intelligenz, wie z. B. das Brain-Computer-Interface. Die Anwendung von großen Modellen auf Lebewesen und Organismen beinhaltet auch physische Intelligenz und Informationsintelligenz.

Wenn wir die allgemeine Künstliche Intelligenz so definieren, dass sie 99 % der Menschen übertrifft und die meisten Aufgaben erfüllen kann, dann hängt dies unbedingt von der Interaktion zwischen physischer Intelligenz und biologischer Intelligenz ab. Wenn man z. B. schwimmen lernen will, muss man mit anderen interagieren und Rückmeldungen aus der realen Welt erhalten. Deshalb ist die Interaktion zwischen Agenten, einschließlich der Interaktion mit der Umwelt, sehr wichtig.

"China Entrepreneur": Ist dies der zukünftige Schwerpunkt der Entwicklung der Künstlichen Intelligenz?

Zhang Yaqin: Ja, die reale Welt hat viele Daten, aber es gibt auch einige Probleme. Die Aufgaben sind zu verteilt. Ein Roboter kann verschiedene Dinge tun, aber in jedem Bereich gibt es nicht genug Daten.

Außerdem ist die reale Welt nicht mit der digitalen Welt verbunden. In der Vergangenheit haben wir alle Dinge in der realen Welt getan, während in der virtuellen Welt es einen anderen Algorithmus gab. Die beiden Welten konnten nicht verbunden werden. Die Strategien, die in der virtuellen Welt trainiert wurden, funktionierten in der realen Welt nicht. Deshalb haben wir RSR (Real2Sim2Real) vorgeschlagen, um die Informationswelt und die Physik zu verbinden und einen geschlossenen Kreis zu bilden.

Foto: Deng Pan