StartseiteArtikel

Yao Shunyu verlässt OpenAI und startet die zweite Hälfte.

量子位2025-09-12 11:13
Er/Sie ist erst 29 Jahre alt und hat erst vor zwei Jahren abgeschlossen.

Derjenige, der die „zweite Halbzeit“ für große Modelle eröffnet hat, Yao Shunyu, hat auch die zweite Halbzeit seiner persönlichen KI-Reise begonnen.

Gerade in letzter Zeit sind die Aktivitäten dieses berühmten chinesischen Forschers bei OpenAI stark im Fokus der Öffentlichkeit.

Früher hieß es, dass er auf der Wunschliste von Mark Zuckerberg stünde. Kürzlich wurde auch berichtet, dass er bald einem anderen Tech-Riesen, und zwar einem chinesischen Tech-Riesen, beitreten werde – und es gab auch spektakuläre Gerüchte über seine „Transfergebühr“. Eine andere Version besagt, dass Yao Shunyu sich für eine eigene Unternehmensgründung entschieden hat …

Wohin Yao Shunyu geht, ist noch unklar.

Doch Yao Shunyus Austritt aus OpenAI wurde aus verschiedenen Quellen bestätigt, es fehlt nur noch seine persönliche Bekanntmachung.

Es scheint, dass er damit die zweite Halbzeit seiner persönlichen KI-Reise beginnt.

Dieser junge Mann, der erst 29 Jahre alt ist, hatte sein Abitur an der No. 1 High School in Hefei, gewann eine Silbermedaille beim Nationalen Informatik-Olympiade (NOI), absolvierte die Hochschulaufnahmeprüfung mit 704 Punkten und rangierte damit als dritter in Anhui, um schließlich in die Yao-Klasse an der Tsinghua-Universität einzustechen. Schließlich absolvierte er seinen Doktor in Informatik an der Princeton University (Fokus auf Sprache und Verstärkungslearning) und trat direkt nach seinem Abschluss OpenAI bei …

Und schon viel früher hatte Yao Shunyu bemerkenswerte und bekannte Forschungsergebnisse, wie beispielsweise:

Tree of Thoughts: Lässt große Sprachmodelle wiederholt nachdenken und verbessert dadurch erheblich die logische Schlussfolgerungsfähigkeit.

SWE-bench: Ein Datensatz zur Bewertung der Fähigkeiten von großen Modellen.

SWE-agent: Ein quelloffener KI-Programmierer.

ReAct …

Er hat sogar über seine Jahre hinausgehende philosophische Gedanken. Ein Blogbeitrag über die „zweite Halbzeit der KI“ war in der KI-Szene und darüber hinaus heiß begehrt.

Also, wer ist Yao Shunyu eigentlich?

Yao Shunyus Weg des Wachstums

Kurz nach seinem Eintritt bei OpenAI im Jahr 2024 empfahl Yao Shunyu in einem Interview ein Buch – „Gödel, Escher, Bach: An Eternal Golden Braid“.

Dieses klassische Werk, geschrieben vom KI-Pionier Douglas Hofstadter, verschmilzt kunstvoll Gödel's Unvollständigkeitssatz, Escher's optische Täuschungen und Bach's kanonische Polyphonie, und zeigt, wie diese scheinbar unabhängigen Elemente in einem allgemeinen rekursiven Computersystem aufeinander einwirken. Am Ende bleibt eine tiefsinnige Aussage: Suche, und du wirst finden.

Genau wie dieses Buch es suggeriert, scheint Yao Shunyus gesamter Bildungsweg von einem interdisziplinären Blickwinkel und einer offenen Haltung gegenüber komplexen Informationen geprägt zu sein, was allmählich zu einem persönlichen Stilmerkmal geworden ist.

Wie alle Exzellenzschüler besuchte Yao Shunyu die Mittelschule an einer der besten Schulen in Hefei – der No. 45 Middle School in Hefei (2009–2012). Nach dem Abschluss der Mittelschule wechselte er zur No. 1 High School in Hefei.

Im Jahr 2014 gewann er mit 495 Punkten eine Silbermedaille beim Nationalen Informatik-Olympiade (NOI). Im nächsten Jahr absolvierte er die Hochschulaufnahmeprüfung mit 704 Punkten im Naturwissenschaftlichen Bereich und rangierte damit als dritter in Anhui, um schließlich in die Cross-Information Institute an der Tsinghua-Universität (Yao-Klasse) einzustechen und Informatik zu studieren.

Hinter diesem scheinbar „typischen Exzellenzschüler“-Start verbirgt sich tatsächlich ein etwas anderer, sogar ein bisschen rebellischer Charakter.

△ Aus Qing Xiaohua

Yao Shunyu gab in einem Interview bekannt, dass er im Vergleich zu anderen Schülern in der Yao-Klasse an der Tsinghua-Universität, die sich auf einen bestimmten Bereich konzentrieren und immer tiefer eindringen, lieber viel Mathematik, Geschichte und sogar allerlei andere Dinge liest.

Seine Liebe zur Hip-Hop-Musik ist auch kein Geheimnis mehr.

Rapper wie Eminem, Danbao, Hot Dog und J. Cole begleiteten ihn während seiner Mittelschul- und High School-Zeit, und an der Tsinghua-Universität war er sogar Mitbegründer des Studenten-Rap-Clubs.

Es ist erwähnenswert, dass Yao Shunyu auf der Eröffnungsfeier der verschiedenen Selektionswiederholungsprüfungen für die Tsinghua-Universität im Jahr 2019 seinen zukünftigen Schülern eine Art „Freestyle“-Begründung für seine Wahl der Tsinghua-Universität gab:

Aber für mich war die Wahl zwischen Tsinghua und Peking-Universität kein Problem, weil an der Peking-Universität es keine Klasse gibt, die nach meinem Nachnamen benannt ist.

Außer als Mitbegründer des Rap-Clubs fungierte Yao Shunyu auch als ehrenamtlicher Rekrutierer für die Tsinghua-Universität und Vorsitzender des Yao-Klassen-Vorstands. Bei der Besprechung der Auswirkungen der Yao-Klasse auf ihn sagte er:

Die Yao-Klasse legt großen Wert auf das Studium theoretischer Grundlagenkurse, wie Betriebssysteme oder Schaltungsentwurf. Auf den ersten Blick scheint es, als hätten diese Kurse nichts mit der Forschung zu tun, aber im Nachhinein hat es doch einige Vorteile. Es gibt dir ein grundlegendes Verständnis von der gesamten Informatik.

△ (Gruppenfoto der Yao-Klasse, Offizielles WeChat-Konto der Tsinghua-Rekrutierung)

Dieser interdisziplinäre Charakter, der verschiedene Informationen aufnimmt, sich in verschiedenen Disziplinen bewegt und Spaß daran hat, zeigt sich besonders deutlich bei Yao Shunyu. Mit den Worten von Isaiah Berlin ist er eher ein „Fuchs“ als ein „Igel“, und das spiegelt sich auch in seinen späteren Forschungen wider.

(Anmerkung: Berlins „Igel“ ist ein Metapher für Menschen, die sich auf ein einziges zentrales Konzept konzentrieren und alle Erfahrungen auf dieses zentrale Konzept beziehen; der „Fuchs“ hingegen bezieht sich auf Menschen, die sich in vielen Bereichen auskennen und flexibel auf verschiedene Probleme reagieren, indem sie sich auf vielfältige Strategien und Perspektiven verlassen)

Es ist ziemlich überraschend, dass Yao Shunyu bis zum Ende des dritten Semesters weder mit KI in Kontakt gekommen noch überhaupt Forschung betrieben hatte.

Eine Austauschmöglichkeit brachte ihn an das MIT, und erst danach begann er, zusammen mit Wu Jiajun an einigen Forschungen in Informatik, Computer Vision und Kognitionswissenschaft zu arbeiten.

Yao Shunyu sagte, dass er während seines Studiums bei Wu Jiajun und seinem Senior Jun-Yan Zhu nicht nur die Grundlagen der Forschung, wie Experimente und Präsentationen, erlernte, sondern auch von einer tiefgreifenden geistigen Beeinflussung betroffen war. Dadurch erkannte er die Schnittstelle zwischen Psychologie und Künstlicher Intelligenz und lernte, von einer höheren Ebene und einem ganzheitlichen Rahmen aus zu denken.

Nach vier Jahren Studium in der Yao-Klasse reiste er 2019 offiziell an die Princeton University, um seinen Doktor zu machen. Sein interdisziplinärer Charakter zeigte sich erneut.

Während seines Bachelorstudiums konzentrierte er sich hauptsächlich auf Computer Vision. Im Doktoratsstudium, obwohl er ursprünglich für den Bereich Computer Vision angenommen wurde, wandte er sich aufgrund seines Interesses an einen Professor im Bereich Natural Language Processing (NLP). Schließlich trat er zufällig dem Team von Karthik Narasimhan bei und begann mit der Forschung in Natural Language Processing und Verstärkungslearning.

Dies war eine Überleitung von der Vision zur Sprache, aber „Suche, und du wirst finden“. Yao Shunyu dachte später zurück, dass diese interdisziplinäre Überleitung auch sein Glück war, denn damals war gerade GPT-2 auf dem Vormarsch. Daher dachte er bereits im ersten Jahr seines Doktoratsstudiums darüber nach, wie man ein Sprachmodell in einen Agenten verwandeln könnte.

Und die Aufmerksamkeit auf (generische) Agenten durchzog seine gesamte Forschung.

Yao Shunyus erstes Werk während seines Doktoratsstudiums war CALM (2020), das untersucht, wie man ein Sprachmodell als Agenten nutzen kann, um Sprachspiele zu spielen.

In CALM fungiert Sprache wie ein Mittel: Sie wandelt menschliche Erfahrungen und semantische Muster in handlungsfähige Aktionen um und trägt gleichzeitig Kontextinformationen, sodass der Agent in einem riesigen Handlungsraum effizient Entscheidungen treffen kann.

Yao Shunyu sagte, dass dieses Werk zwar nicht so berühmt wie swebench, ReAct oder Tree of Thoughts ist, aber für ihn von großer Bedeutung ist.

In einem Gespräch mit Zhang Xiaojun fanden wir heraus, dass Yao Shunyus Interesse an Sprache bereits in diesem vor fünf Jahren veröffentlichten Paper seinen Anfang nahm.

Sprache ist ein Werkzeug, das der Mensch erfunden hat, um Generalisierung zu erreichen. Dies ist etwas Wesentlicheres als andere Dinge.

Mit anderen Worten, das Spielen von Spielen mit Sprache ist unbegrenzt. Ein Agent kann mit Sprache schließen und kombinieren und in verschiedenen Kontexten passende Aktionen finden. So entsteht Generalisierung.

Mit anderen Worten, ein Agent muss auch über „interdisziplinäre“ Fähigkeiten verfügen, und Sprache ist das ideale Mittel dazu.

Allerdings erkannte Yao Shunyu auch, dass es ohne eine gute Aufgabe oder Umgebung keinen Sinn macht, auch wenn man das „Spiel“ mit einer hohen Punktzahl gewinnt.

Auf Grundlage dieser Überlegung baute sein zweites Werk WebShop eine große simulierte E-Commerce-Umgebung auf, die es dem Agenten ermöglicht, komplexe Textanweisungen zu verstehen und in der Webseite zu navigieren und zu handeln, um so die Anwendbarkeit und Validierung von Sprachverständnis und Entscheidungsfähigkeit in realen Weltaufgaben voranzutreiben.

Genauso wurden die späteren klassischen Werke SWE-Bench und SWE-agent auch für eine sinnvolle Aufgabe (reales Programmieren) entwickelt, um die Fähigkeiten eines Agenten zu validieren.

Als 2022 GPT-3.5 erschien, wechselte alles.

Es ist bekannt, dass die Effizienz eines blanken Blattes, das ständig Fehlversuche macht, äußerst gering ist. In der traditionellen Verstärkungslearning ist diese ineffiziente Probe- und Fehler-Methode allzu häufig: Ein Agent wird normalerweise entweder auf eine einzige Aufgabe beschränkt, wie Schachspielen, oder sucht blind in einem riesigen Handlungsraum.

GPT-3.5 ließ die Menschen erkennen, dass was fehlte, Vorwissen war: Durch eine starke Sprachvorausbildung und das Einbinden von Allgemeinwissen und Sprachwissen in das Modell und dann durch Feinabstimmung kann es ein Agent mit interdisziplinärem Charakter und Generalisierungsfähigkeit werden.

Wie Yao Shunyu sagte: Wenn deine Pre-Training (Vorausbildung) bereits alles enthält, dann ist RL (Verstärkungslearning) nur die Fähigkeit, diese Fähigkeiten zu aktivieren.

Nach der Inspiration durch GPT-3.5 entwickelte Yao Shunyu ReAct (ReAct: Synergizing Reasoning and Acting in Language Models), das es großen Sprachmodellen ermöglicht, beim Interagieren mit der externen Umgebung gleichzeitig zu „schließen“ und zu „handeln“.