StartseiteArtikel

Song Yang von OpenAI wurde von Meta abgeworben. Er ist eine Schlüsselperson für den Aufstieg von Diffusionsmodellen. Er tritt der MSL bei und trifft sich dort wieder mit seinem ehemaligen Kommilitonen von Tsinghua-Universität, Zhao Shengjia.

量子位2025-09-26 11:15
All the colleagues were extremely shocked when they heard the news.

Neueste Nachricht: Mark Zuckerberg hat erneut einen chinesischen Forscher von OpenAI geholt.

Diesmal ist es – Yang Song!

Wer ist Yang Song?

Ein genialer Teenager, der mit vollem Punktestand in die Tsinghua-Universität eingestiegen ist als 16-Jähriger, einer der Schlüsselbeiträge zur Eruption der Diffusionsmodelle und zur Überwindung ihrer Schwächen, Leiter des Strategischen Explorations-Teams von OpenAI.

Jetzt muss ich wirklich das Wort „schockiert“ benutzen, um meine innere Gefühlslage auszudrücken (staunendes Gesicht.jpg) …

Wenn man seinen neuesten Tweet auf 𝕏 liest, war er noch letzten Monat wegen GPT-OSS aufgeregt.

Jetzt, wenn man seine Nachricht hört, hat Yang Song am Anfang dieses Monats zu Meta's MSL gewechselt und berichtet an Zhao Shengjia, dem Chefwissenschaftler von MSL.

Dass er gewechselt ist, lässt uns spontan das Wort „schockiert“ ausstoßen, und das ist keine Übertreibung. Ich glaube, die meisten Menschen haben diesen ersten Reaktion, wenn sie diese Nachricht hören.

Branchenmitglieder sagen, er ist einer der intelligentesten Köpfe, die Meta von OpenAI geholt hat. Sie sagen auch: „Viele Freunde von OpenAI waren schockiert, als sie hörten, dass er gegangen ist.“

Was sehen Meta in all diesen talentierten Leuten, die es immer wieder von anderen Firmen geholt hat?

Ein Netizen kommentierte: Sie sind nicht nur für finanzielle Interessen da. „Sobald man ein gewisses Reichtumsniveau erreicht hat, treibt Geld nicht mehr die Entscheidungen“ – besonders für die Mitarbeiter, die mehr als 3 Jahre bei OpenAI gearbeitet haben.

Fortlaufende Überwindung der Schwächen von Diffusionsmodellen

Yang Song ist 2022 nach Abschluss seines Promotionsstudiums bei OpenAI als Forschungsingenieur eingestellt worden und hat bis heute 3 Jahre und 2 Monate gearbeitet.

Sein Kernforschungsschwerpunkt liegt in der Verbesserung der Fähigkeit von Modellen, große, komplexe und multimodale Datensätze zu verarbeiten und in der Erforschung, wie Modelle effizienter und intelligenter zwischen verschiedenen Modalitäten (Bilder, Texte, Code usw.) interagieren können.

Vor seinem Wechsel von OpenAI war Yang Song Leiter des Strategischen Explorations-Teams von OpenAI.

Dieses Team hat kein konkretes Gründungsdatum. Es hat sich als Teil der gesamten OpenAI-Organisation seit der Gründung der Firma allmählich entwickelt und ist hauptsächlich für die Erforschung von vorausschauenden Forschungsrichtungen zuständig, insbesondere für die Erweiterung der Modellfähigkeiten und die Verarbeitung von multimodalen Daten.

Während seiner Zeit bei OpenAI war Yang Songs berühmtestes Ergebnis das Konsistenzmodell.

Im April 2023 haben Yang Song, sein Tsinghua-Alumnus Lu Cheng und Ilya u.a. die Konsistenzmodelle (Consistency Models) open-sourced, die schneller und leistungsfähiger als Diffusionsmodelle sind. Es dauert nur etwa 3,5 Sekunden, um etwa 64 Bilder im Format 256×256 zu generieren.

Im Oktober letzten Jahres haben Yang Song und Lu Cheng das Konsistenzmodell erneut vereinfacht und eine verbesserte Version der Kontinuierlichen Zeit-Konsistenzmodelle (Continuous-Time Consistency Models) vorgeschlagen, die die Probleme der frühen Konsistenzmodelle in Bezug auf Stabilität und Skalierbarkeit gelöst haben.

Mit nur zwei Samplingschritten kann die Generierungsqualität mit der von Diffusionsmodellen verglichen werden, und die Bildgenerierungsgeschwindigkeit ist 50 Mal höher als die von Diffusionsmodellen.

Sie haben es geschafft, die Trainingsgröße der Kontinuierlichen Zeit-Konsistenzmodelle auf beispiellose 1,5 Milliarden Parameter auszuweiten und das Training auf dem ImageNet-Datensatz mit einer Auflösung von 512×512 durchzuführen.

Basierend auf dieser Forschung kann ein Modell mit 1,5 Milliarden Parametern auf einer einzelnen A100-GPU in 0,11 Sekunden eine Stichprobe generieren, ohne dass irgendeine Inferenzoptimierung erforderlich ist.

Diese beiden Papers und der open-source Code wurden häufig zitiert und sind in den letzten zwei Jahren zu Star-Ergebnissen im Bereich der Generativmodelle geworden.

Es wird in der Branche diskutiert, dass dieser Forschungsrichtung möglicherweise eine neue Richtung sein könnte, die die Diffusionsmodelle „beenden“ könnte.

Aber man muss wissen, dass auch zuvor durch die Arbeit von Yang Song die Eruption der Diffusionsmodelle wie DALL - E 2, Stable Diffusion und Imagen möglich wurde.

Einer der Schlüsselpersonen bei der Eruption der Diffusionsmodelle

Vor seinem Wechsel zu OpenAI hatte Yang Song einen Doktorandenplatz in Informatik an der Stanford University inne und war Schüler des Dozenten Stefano Ermon der Stanford - Fakultät für Informatik.

Das Team seines Lehrers hat zwei Jahre lang den ICLR Outstanding Paper Award gewonnen.

Bei einer dieser Auszeichnungen war Yang Song der erste Autor.

Was als früherer Beitrag zu den Diffusionsmodellen angesehen wird, ist die Arbeit „Generative Modeling by Estimating Gradients of the Data Distribution“, die von NeurIPS 2019 akzeptiert und als Vortrag vorgestellt wurde.

Damals dominierte die GAN - Technologie noch die Welt mit ihrer realistischen Generationsfähigkeit, aber viele Wissenschaftler hatten Schwierigkeiten, die Modelle zu trainieren und vollständige Stichproben zu sammeln.

Der Postdoktorand Sohl - Dickstein von der Stanford University hat sich von der Physik inspiriert und mit Hilfe des Diffusionsprinzips einen Algorithmus für generative Modellierung entwickelt

Ähnlich wie ein Tropfen Tinte in Wasser sich zu einem diffusen blauen Wasser löst, werden zunächst die komplexen Bilder im Trainingsdatensatz in einfaches Rauschen umgewandelt, und dann lernt das System, diesen Prozess umzukehren und das Rauschen in Bilder umzuwandeln.

So kann eine Stichprobe aus der gesamten Verteilung genommen werden.

Damals war der Trainingsvorgang jedoch zu langsam, und die Leistung war weit hinter der von GAN zurück.

Dann kamen Yang Song und sein Lehrer Stefano Ermon hinzu.

Sie haben eine neue Methode vorgeschlagen, die nicht die Wahrscheinlichkeitsverteilung der Daten schätzt, sondern den Gradienten der Verteilung. Das Ergebnis hat die Leistung von GAN übertroffen.

Später hat Yang Song jedoch eingeräumt:

Damals wusste ich überhaupt nicht, was Diffusionsmodelle sind.

Er hat erst nach Veröffentlichung des Papers per E - Mail von Sohl - Dickstein erfahren, dass seine Forschung eng mit den Diffusionsmodellen verbunden ist.

Bevor das wusste Yang Song nicht, dass diese von der Physik inspirierte Diffusionsmodell - Bewegung etwas mit ihm zu tun haben und zu einer populären Theorie werden würde.

Ein genialer Teenager, der mit vollem Punktestand in die Tsinghua-Universität eingestiegen ist als 16-Jähriger

Interessanterweise hat Yang Song bereits in der High School seine Begabung in Physik und Informatik gezeigt.

Yang Song besuchte die Jiangsu Xinhai High School und gewann den ersten Preis bei den nationalen Physik - und Informatik - Olympiaden.

Als 14 - Jähriger hat er sich bei einem Interview für eine Empfehlung zur Tsinghua - Universität mit einem klassischen Parallelismus vorgestellt:

Ich bin Yang Song von den Olympiaden. Ich habe den nationalen ersten Preis in Physik und Informatik gewonnen. Ich bin Yang Song, der Vorbild ist. Mein Ziel ist es, Physiker zu werden. Ich habe bereits Höhere Mathematik und Allgemeine Physik an der Universität selbst gelernt. Ich bin auch Yang Song, der Künstlerin ist. Ich habe die Klavierprüfung der Zehnten Stufe bestanden und bin auch im Badmintonwettkampf meiner Klasse aktiv.

Schließlich wurde er mit einstimmiger Zustimmung der 17 Prüfer in das „New Century Leadership Program“ der Tsinghua - Universität aufgenommen.

Im nächsten Jahr, als er die Abiturprüfung absolvierte, hatte er 425 Punkte ohne Zusatzpunkte und wurde als bester Naturwissenschaftler in Lianyungang in das Fachgebiet Mathematik und Physik der Tsinghua - Universität aufgenommen.

Diese Punktzahl war höher als seine eigene Einschätzung. Er sagte: „Ich dachte, ich würde etwa 400 Punkte bekommen. Das war völlig überraschend.“

Während seines Bachelorstudiums hat Yang Song bei Jun Zhu, Professor der Fakultät für Informatik und Technologie der Tsinghua - Universität, studiert.

Er hat auch mit akademischen Großnamen wie Raquel Urtasun (Professorin für Informatik an der Universität von Toronto) und Richard Zemel (der an der Universität von Toronto und an der Columbia University gelehrt hat) zusammengearbeitet.

Im Jahr 2016 hat Yang Song sein Bachelorstudium an der Tsinghua - Universität abgeschlossen und hatte einen Bachelor - Abschluss in Mathematik und Physik. Danach hat er an der Stanford - Universität weiter studiert.

Während seines Doktoratsstudiums hat er Praktika bei Microsoft, Uber und Google gemacht.

Nach Abschluss seines Doktoratsstudiums wurde er von OpenAI aufgenommen.

Zum Zeitpunkt der Veröffentlichung dieses Artikels steht auf Yang Songs LinkedIn - und 𝕏 - Profilen immer noch, dass er bei OpenAI arbeitet.

One More Thing

Jetzt hat Yang Song bei Meta MSL Zhao Shengjia als Vorgesetzten.

In den letzten zehn Jahren hatten sie wirklich viel Glück:

Beide sind Alumnen der Tsinghua - Universität, beide haben bei Stefano Ermon an der Stanford - Universität studiert und beide haben bei OpenAI gearbeitet.

Jetzt haben beide nacheinander gewechselt und sind zu Vertrauten von Zuckerberg geworden.

Das ist wunderbar!

Referenzlinks:

[1]https://mp.weixin.qq.com/s/3h_mxCij5_owicnfsHhp_Q

[2]https://www.wired.com/story/meta-poaches-openai-researcher-yang-song/

[3]https://x.com/Yuchenj_UW/status/1971088866095603858

[4]https://www.linkedin.com/in/yang-song-machine-learning/details/experience/

[5]https://openreview.net/pdf/ef0eadbe07115b0853e964f17aa09d811cd490f1.pdf?ref=news-tutorials-ai-research

Dieser Artikel stammt aus dem WeChat - Account