StartseiteArtikel

Der AI-Wissenschaftler, der am liebsten Milchtee trinkt, will das "Intelligente Agens" sein, das dich am besten versteht.

富充2025-11-24 15:57
Von der Rückkehr nach China zur Lehre und Unternehmertätigkeit bis zur Zusammenarbeit an Projekten mit großen Unternehmen – jeder Schritt von Wu Yi ist sowohl eine gewissermaßen bahnbrechende persönliche Entscheidung als auch eine zeitgenössische Abbildung der chinesischen AI-Unternehmer.

Text | Fu Chong

Editor | Su Jianxun

Obwohl es sich um wissenschaftliche Forschung an der Universität oder um ein Kooperationsprojekt mit einem großen Unternehmen wie der Ant Group handelt, möchte Wu Yi, dass sein Team einen Startup-Mindset beibehält: Angst vor Fehlern zu verlieren und sich schnell weiterzuentwickeln.

Als Assistentprofessor an der Fakultät für Kreuzinformation der Tsinghua-Universität und Leiter des AReaL-Projekts konzentriert sich Wu Yi auf die Algorithmen des Stärkungslernens und die Innovation in der KI-Anwendung. Sein Team an der Tsinghua-Universität und das Forschungsinstitut der Ant Group haben im Mai 2025 das erste asynchrone Stärkungslern-Trainingsframework AReaL-lite open source gemacht, das die Effizienz des KI-Trainings erheblich verbessern und den Verbrauch von GPUs reduzieren kann.

Als Technologieleiter aus der Generation der Neunzigern fordert Wu Yi sein Team auf, "im Fehlerlernen zu wachsen". Seine derzeit unliebsamste Entschuldigung ist "Es gibt keine Ressourcen, also kann die Arbeit nicht erledigt werden", denn das Wesen des Aufbaus von Null besteht gerade darin, Ressourcen zu schaffen.

Während der Bundeshauskonferenz im September dieses Jahres hat Wu Yis Produktphilosophie dies ebenfalls gezeigt: Bringt das Produkt so bald wie möglich auf den Markt. Selbst wenn die Marktreaktion nicht gut ist, soll man wissen, wo das Problem liegt und entsprechende Verbesserungen vornehmen. Warte nicht auf einen perfekten Start.

Dieses Verständnis für Innovation stammt aus Wu Yis früheren Startup-Erfahrungen. Im Jahr 2023 gründete sein Team das auf Stärkungslernen basierende KI-Agenten-Unternehmen Frontier Technology, das auch der Vorläufer von AReaL ist.

Aufgrund ihrer ähnlichen Hintergründe und Forschungsleistungen im Bereich KI werden Wu Yi zusammen mit Chen Jianyu, dem Gründer von Xingdong Jiyuan, Gao Yang, dem Mitbegründer von Qianxun Intelligence, und Xu Huazhe, dem Chefwissenschaftler von Xinghaitu, als "Die Vier aus Berkeley" bezeichnet, da alle vier US-amerikanische KI-Wissenschaftler sind.

Wenige wissen, dass Wu Yi der erste war, der beschloss, nach China zurückzukehren, und es war auch sein Rat und sein Antrieb, der dazu führte, dass die anderen drei ebenfalls zurückkehrten.

Wu Yi mag es, bahnbrechende Dinge zu tun. An der Tsinghua-Universität mahnt er seine Studenten oft: "Innovation bedeutet, in die unentdeckten Gebiete zu gehen". Er ist überzeugt, dass KI-Innovation nicht auf der Basis von "Wetten" auf mehrere Fronten beruhen kann, sondern auf tiefgründigem Denken und langfristigem Durchhaltevermögen beruhen muss.

Er hat eine einzigartige Einschätzung für die Zukunft der KI: Intelligente Agenten werden schließlich in der Lage sein, die unscharfen Absichten von Menschen zu verstehen, langfristige Aufgaben zu erledigen und schließlich aus der digitalen Welt in die physische Welt zu gelangen, um das "Gehirn" der eingebetteten KI zu werden.

Während seines Vortrags auf der WAIC in diesem Jahr beschrieb er beispielsweise, dass man in Zukunft einem Roboter einfach sagen kann: "Ordne das Zimmer auf", und der Roboter wird dann mehrere Stunden brauchen, um die Aufgabe ordnungsgemäß zu erledigen.

Für dieses Ziel glaubt Wu Yi, dass die Stärkungslern-Trainingsmethoden, an denen er arbeitet, der Schlüssel für die erhebliche Verbesserung des Intelligenzniveaus der KI sein werden.

Der Grund dafür ist, dass das Stärkungslernen die KI in der Praxis autonom lernen lässt und die Fähigkeit zur Exploration entwickelt. Beim vorherigen überwachten Lernen musste die KI ständig von Menschen gelehrt werden, wie sie arbeiten soll. Diese Methode eignet sich jedoch nicht für langfristige Aufgaben.

△Nach der Teilnahme an der Robotik-Konferenz IROS in Hangzhou hat Wu Yi einen Beitrag auf Xiaohongshu gepostet. Auf dem Foto lächelt er fröhlich, während er eine Milchtee in der Hand hält. Foto: Bereitgestellt vom Interviewer 

Wu Yi, der in seiner Fachrichtung äußerst streng ist, zeigt auf den sozialen Medien eine andere Seite.

Dieser sich selbst als "Hochleistungs-I-Typ-Professor" bezeichnende Mann teilt regelmäßig Fortschritte in der Forschung auf Xiaohongshu und beantwortet gerne Fragen zu Bewerbungen und Karrierechancen in der KI-Branche.

Da er gerne Milchtee trinkt, bewertet Wu Yi nicht nur sorgfältig die Top 5 Milchtee-Geschmacksrichtungen, sondern macht auch Fotos von seinen Lieblings-Milchtee-Brandstores.

△Wu Yi liebt Milchtee. Das Stellenangebot, das er auf Xiaohongshu gepostet hat, ist auch mit einem Bild eines Milchtees illustriert. Foto: Netzwerk-Screenshot 

Kürzlich hat Wu Yi ein Interview für "Intelligente Entstehung" gegeben und viele Gedanken über die Zukunft der KI und das Gründen von Startups geteilt, darunter auch Methoden, wie er schnell Entscheidungen trifft und die Effizienz seines Teams verbessert. Der Inhalt wurde vom Autor bearbeitet:

Die Zukunft der KI liegt in intelligenten Agenten

Intelligente Entstehung: Derzeit gibt es noch keine weit verbreiteten Anwendungen der KI. Wo sehen Sie die zukünftigen Chancen für KI-Produkte? Wie wird die KI das Leben der Menschen verbessern?

Wu Yi: Ich denke, dass es ein irreversibler Trend ist, dass die KI in der Lage sein wird, langfristige Aufgaben zu erledigen. Darüber hinaus werden die Befehle, die Menschen an die KI geben, immer einfacher und vager werden.

Es ist noch schwer vorhersagbar, wie das endgültige Produkt aussehen wird, aber es wird sicherlich einen Wandel geben, von der Situation, dass die Benutzer die KI aktiv steuern müssen, zu einer Situation, in der die KI vorhersagt, was der Benutzer will und es automatisch erledigt.

Dieser Wandel hat bereits in der mobilen Internetbranche stattgefunden. Im Zeitalter der Suchmaschinen mussten die Menschen aktiv nach Informationen suchen. Dann kam Zhihu, und später die Produkte von ByteDance. Die Algorithmen können nun die Inhalte, die die Benutzer suchen, direkt an sie senden, so dass die Benutzer die Informationen passiv empfangen.

Ich denke also, dass die Menschen schließlich vergessen werden, die Suchleiste zu benutzen. Intelligente KI-Systeme können immer mehr die Bedürfnisse von "faulen" Menschen befriedigen.

Schließlich wird es ein neues Produkt geben, das eine große Chancen für eine neue Ära darstellt.

Intelligente Entstehung: Sie haben auf Veranstaltungen wie der WAIC erwähnt, dass ein intelligenter Agent, wenn er einen Körper bekommt, ein eingebetteter intelligenter Agent wird und mit der physischen Welt interagieren kann. Kurz gesagt, dies ist ein KI-Roboter. Welche Aufgaben können eingebettete intelligente Agenten erledigen?

Wu Yi: Ein intelligenter eingebetteter Agent kann aus vagen Anweisungen die Absichten des Benutzers ableiten und die Aufgaben mit hoher Qualität erledigen. Er kann sogar die Bedürfnisse des Benutzers vorhersehen, die der Benutzer selbst noch nicht erkannt hat.

Wenn Sie beispielsweise zu Hause mit einem Roboter sagen, dass Sie Ihren Powerbank nicht finden können, wird der Roboter selbständig denken und handeln, um ihn anhand Ihrer Nutzungshabits und des Ortes, an dem Sie ihn das letzte Mal benutzt haben, zu finden.

Intelligente Entstehung: Können intelligente eingebettete Agenten auch zusammenarbeiten? Wie kooperieren sie?

Wu Yi: Ein eingebetteter intelligenter Agent kann zusammenarbeiten, um komplexere Aufgaben zu erledigen.

Zum Beispiel in einer Roboterfußballmannschaft können die Roboter wie menschliche Spieler zusammenarbeiten. Wenn sie eine bekannte Situation erkennen, können sie einfach mit einem Blick aufeinander verstehen, welche Formation sie bilden sollen.

Wenn es mehrere intelligente Agenten gibt, muss man auch definieren, wie sie miteinander kommunizieren.

In der digitalen Welt können die Agenten kommunizieren, indem ein Master-Agent mehrere kleine Agenten steuert. Man kann verschiedene Modelle verwenden oder auch ein einziges Modell, aber die Struktur ist ähnlich wie bei einem Menschen, der die Planung vornimmt, und vielen Menschen, die die Pläne ausführen. Dies wird als Multi-Agent-System bezeichnet.

Ein Beispiel, das ich gerne verwende, ist die Zusammenarbeit zwischen Claude Code und Gemini.

Claude Code hat eine starke Fähigkeit in der Programmierung, aber eine kurze Kontextlänge und hohe Kosten. Gemini ist zwar weniger intelligent, aber es kann eine große Menge an Inhalten verarbeiten. Daher kann man Gemini zunächst den gesamten Code-Base lesen lassen, die wichtigsten Inhalte auswählen und dann an Claude Code weitergeben, um den Code zu schreiben.

Es ist wie die Zusammenarbeit zwischen einem intelligenten Menschen mit schlechter Gesundheit und einem Menschen mit unbegrenzter körperlicher Stärke, aber geringer Intelligenz. Zusammen können sie ein effizientes Multi-Agent-System bilden.

Im Fall von eingebetteten intelligenten Agenten, die eine Aufgabe zusammen erledigen müssen, wie zum Beispiel das Reinigen eines Raumes, können sie zunächst eine Aufgabe planen, wer den Boden fegen soll, wer ihn wischen soll, und dann zusammenarbeiten, um die Aufgabe zu erledigen.

Intelligente Entstehung: Wie kann man von digitalen Agenten zu eingebetteten intelligenten Agenten übergehen?

Wu Yi: Der Übergang von der digitalen Welt zur physischen Welt erfordert multimodale Daten und eine Trainingsumgebung, die sich von der Computerwelt in die reale Welt verlagert.

In der digitalen Welt verwendet man hauptsächlich Bits, die eine hohe Ausführungsrate haben. Wenn man also einen Code schreibt, kann man die entsprechende Funktion ausführen. Die Wahrscheinlichkeit, dass der Code funktioniert, ist relativ hoch. Natürlich ist es nicht einfach, den Code zu schreiben.

In der physischen Welt ist es jedoch schwieriger. Wenn ein Roboter beispielsweise einen Koffer aufnimmt und eine Tür öffnet, ist die Fehlerrate noch relativ hoch. Daher wird die Entwicklung der eingebetteten KI komplexer und langsamer sein.

Aber im Großen und Ganzen denke ich, dass wenn die physische Welt eines Tages digitalisiert ist, die technologischen Herausforderungen für alle Arten von Agenten ähnlich sein werden.

Wenn wir beispielsweise einen Roboter haben, der in der Lage ist, die meisten physischen Werkzeuge zu 100 % erfolgreich zu nutzen, dann ist es technisch gesehen nicht viel unterschiedlich, einen eingebetteten intelligenten Agenten zu entwickeln, der den ganzen Tag autonom arbeiten kann, als einen digitalen Agenten.

△Foto von Wu Yi und seinem früheren Professor Stuart Russell aus der Zeit an der Universität Berkeley, das auf der WAIC in diesem Jahr aufgenommen wurde. Foto: Bereitgestellt vom Interviewer

KI-Innovation kann nicht auf "Wetten" basieren

Intelligente Entstehung: Sie haben selbst in ByteDance praktiziert, Ihr Team hat das Unternehmen Frontier Technology gegründet und Sie haben sich dann entschieden, mit großen Unternehmen zusammenzuarbeiten, um die Stärkungslern-Technologie voranzubringen. Was denken Sie, wenn Sie auf diese Erfahrungen zurückblicken?

Wu Yi: Das frühe Team von Frontier Technology hat einige Fehler bei der Personalauswahl gemacht. Viele Mitarbeiter waren eher in einem "Arbeitsmodus", als dass sie verstanden haben, was es bedeutet, an einem Startup zu arbeiten. Betrachtet man die Situation objektiv, war das gesamte Team tatsächlich nicht gut vorbereitet und entsprach nicht wirklich dem Startup-Geist der AI-Zeit. Natürlich war dies für alle das erste Mal, und es war unvermeidlich, dass Fehler gemacht wurden.

Eine Aussage, die ich jetzt wirklich nicht mag, ist: "Ohne Ressourcen kann ich diese Aufgabe nicht erledigen." Ein Startup-Team hat keine reichen Ressourcen, aber die Menschen müssen die Ressourcen schaffen, um ihre Ziele zu erreichen.

Deshalb braucht ein Startup-Team vor allem Menschen, die einen innovativen Geist haben und die entsprechenden Überzeugungen teilen.

Innovation ist keine Frage des "Wettens". Beim Gründen eines Unternehmens muss man an das, was man tut, glauben. Wir haben nicht genug Ressourcen, um auf verschiedene Gebiete zu setzen und zu hoffen, dass eines von ihnen erfolgreich wird. Dies würde zu vielen mäßigen Lösungen führen.

Das Startup-Gedankengut bedeutet, dass man an gewisse Dinge glaubt, auch wenn man es nicht schafft, sie zu verwirklichen. Man ist überzeugt, dass es eines Tages möglich sein wird, auch wenn es nicht von ihm selbst erreicht wird.

Intelligente Entstehung: Sie waren der erste von den "Vier aus Berkeley" (Wu Yi, Gao Yang, Xu Huazhe und Chen Jianyu, alle sind Absolventen der Universität Berkeley und sind derzeit in der KI- und eingebetteten KI-Branche aktiv), der beschlossen hat, an der Tsinghua-Universität zu lehren. Dann haben Sie die anderen dazu gebracht, nach China zurückzukehren. Warum?

Wu Yi: Im August 2018 habe ich mein Praktikum bei ByteDance in Peking beendet. Obwohl ich meinen Doktorandenstudien an der Universität Berkeley absolvierte, war ich stark von ByteDance beeinflusst.

Seit 2016 habe ich intermittierend in verschiedenen Teams von ByteDance in Peking praktiziert und war einer der ersten Mitglieder des ByteDance AI Lab. Ich habe also den Abschied der mobilen Internetära in China miterlebt. Nach meinem letzten Praktikum bei ByteDance im August 2018 habe ich beschlossen, nach China zurückzukehren.

Einerseits sah ich die großen Chancen in China, andererseits spürte ich deutlich die Grenzen, die Chinesen in den USA haben. Wenn man nicht amerikanisch werden will, dann stellt sich die Frage: Will man als Chinese oder als Amerikaner etwas bedeutendes erreichen? Ich habe gemerkt, dass ich nicht bereit war, mich zu kompromittieren und Amerikaner zu werden.

Viele Menschen sagen, wenn es um Entscheidungen geht: "Ich bin noch nicht bereit, ich werde warten, bis ich es bin." Wenn es um das Zurückkehren nach China geht, sagen einige: "Ich werde noch eine Zeit in den USA bleiben und dann später zurückkehren."

Aber ich habe eine Theorie: Wenn man sich sicher ist, dass man