StartseiteArtikel

Was derzeit am teuersten in den Vereinigten Staaten ist, sind chinesische KI - Talente: Die Elitestudenten aus Tsinghua - Universität, Peking - Universität und der chinesischen Akademie der Wissenschaften "herrschen" derzeit in der KI - Szene in Silicon Valley.

爱范儿2025-07-02 20:16
Chinesische AI-Wissenschaftler treten kollektiv aus ihrem Nischenbereich hervor.

In den letzten zwei Wochen war es in der KI-Branche nicht ein bestimmtes Produkt, sondern die Menschen, die am meisten in die Öffentlichkeit getreten sind. Oftmals wacht man auf und findet, dass die Zeitachse in den sozialen Medien voller wiederholender Nachrichten ist: Noch ein weiterer namhafter KI-Experte wurde abgeworben.

Spitzenkrafte in der KI-Branche werden zu den knappsten und markantesten Vermögenswerten im KI-Sektor.

Im Zentrum dieses Sturms des Personalmobilitäts finden wir ein besonders auffälliges Detail: Unter den Kernmitgliedern, die an der Entwicklung von großen Modellen wie ChatGPT, Gemini und Claude beteiligt waren, ist der Anteil chinesischer Wissenschaftler erstaunlich hoch.

Diese Veränderung ist nicht plötzlich aufgetaucht. In der in den letzten Jahren anhaltenden KI-Welle hat der Anteil chinesischer Spitzenkrafte in den amerikanischen Spitzenpositionen der KI-Branche stetig zugenommen. Laut der "Globalen KI-Talentverfolgungs-Umfrage 2.0" von MacroPolo stieg der Anteil chinesischer Spitzenforscher in der KI-Branche zwischen 2019 und 2022 von 29% auf 47%.

In dem früher veröffentlichten "Hintergrundstudienbericht über das ChatGPT-Team" von Zhipu Research wurde festgestellt, dass in dem Kernteam von 87 Personen von ChatGPT neun Personen chinesischer Herkunft sind, was einen Anteil von über 10% ausmacht.

Daher haben wir erneut die Profile der chinesischen KI-Forscher in den führenden Silicon Valley-Unternehmen in den letzten Zeiträumen zusammengefasst und versucht, einige Merkmale daraus abzuleiten:

1️⃣ Absolventen von Spitzenuniversitäten mit starken akademischen Fähigkeiten

Die meisten von ihnen haben ihr Bachelorstudium an Spitzenuniversitäten wie Tsinghua-Universität, Peking-Universität, Universität für Wissenschaft und Technologie Chinas und Zhejiang-Universität absolviert, meist mit einem Hintergrund in Informatik oder Mathematik. In der Master- und Doktorphase haben sie sich an renommierten Universitäten wie MIT, Stanford, Berkeley, Princeton und UIUC weitergebildet. Fast jeder von ihnen hat hochzitierte Publikationen in Top-Konferenzen (wie NeurIPS, ICLR, SIGGRAPH usw.).

2️⃣ Jung und produktiv, mit einem Aktivitätspeak nach 2020

Die meisten von ihnen sind zwischen 30 und 35 Jahre alt. Ihre Master- und Doktorphase fiel mit der globalen Explosion der Deep Learning-Technologie zusammen, weshalb sie ein solides akademisches Fundament haben und mit Engineering-Systemen und Teamarbeit vertraut sind. Viele von ihnen begannen ihre Karriere direkt in großen Unternehmen oder an Projekten, die auf eine breite Öffentlichkeit zugeschnitten sind, was ihnen einen höheren Startpunkt und einen schnelleren Arbeitsrhythmus verschafft.

3️⃣ Starker Hintergrund in Multimodalität und Fokus auf das Post-Training von Modellen

Ihre Forschungsrichtungen konzentrieren sich allgemein auf einheitliche Inferenzsysteme für die Übergänge zwischen verschiedenen Modalitäten (Text, Sprache, Bild, Video, Bewegung), einschließlich RLHF, Distillation, Alignment, Modellierung menschlicher Präferenzen und Bewertung von Sprachintonationen.

4️⃣ Trotz häufiger Mobilität bleiben sie grundsätzlich im Ökosystem

Google, Meta, Microsoft, NVIDIA, Anthropic, OpenAI... Ihr Mobilitätsbereich erstreckt sich über KI-Start-ups und große Konzerne, aber ihre Forschungsgegenstände und technologischen Erfahrungen bleiben in der Regel kohärent, und sie wechseln grundsätzlich nicht den Sektor.

OpenAI → Meta

Shuchao Bi

Shuchao Bi absolvierte sein Bachelorstudium an der Mathematikfakultät der Zhejiang-Universität und absolvierte anschließend ein Masterstudium in Statistik und ein Doktorat in Mathematik an der Universität von Kalifornien, Berkeley.

Von 2013 bis 2019 war er als Technologieverantwortlicher bei Google tätig. Seine Hauptbeiträge umfassten die Entwicklung eines mehrstufigen Deep Learning-Rechnungssystems, das die Anzeigenumsätze von Google (im Milliarden-Dollar-Bereich) erheblich steigerte.

Von 2019 bis 2024 war er als Leiter der Exploration bei YouTube Shorts tätig. In dieser Zeit gründete er gemeinsam mit anderen und leitete das Videoempfehlungs- und Entdeckungssystem von Shorts und gründete und expandierte ein großes Machine Learning-Team, das sich auf Empfehlungssysteme, Bewertungsmodelle, Interaktionsentdeckung, Vertrauen und Sicherheit konzentrierte.

Nach seinem Eintritt bei OpenAI im Jahr 2024 leitete er hauptsächlich das Multimodal-Post-Training-Team und war Mitbegründer der Sprachfunktion von GPT-4o und des o4-mini-Modells.

In dieser Zeit förderte er vor allem RLHF, Bild/Sprache/Video/Text-Inferenz, Multimodal-Agenten, Multimodal-Sprache-zu-Sprache (VS2S), VLA, Übergangsmodalitäts-Bewertungssysteme usw. Er beschäftigte sich auch mit Multimodal-Ketteninferenz, Sprachintonation/Natürlichkeit-Bewertung, Multimodal-Distillation und selbstüberwachtem Optimierung. Sein Kernziel war es, durch Post-Training ein universelleres Multimodal-KI-Agenten-System zu entwickeln.

Huiwen Chang

Im Jahr 2013 absolvierte Huiwen Chang ihr Bachelorstudium an der Informatikfakultät der Tsinghua-Universität (Yao-Class) und absolvierte anschließend ein Doktorat in Informatik an der Princeton University in den Vereinigten Staaten. Ihre Forschungsrichtung konzentrierte sich auf Bildstilübertragung, Generative Modelle und Bildverarbeitung. Sie erhielt das Stipendium des Microsoft Research Institutes.

Vor ihrem Eintritt bei OpenAI war sie als Senior-Forscherin bei Google tätig und arbeitete dort über sechs Jahre lang. Sie beschäftigte sich langfristig mit Generativen Modellen und Computer Vision und war Mitbegründerin der MaskGIT- und Muse-Architekturen für die Text-zu-Bild-Generierung bei Google Research.

Frühere Text-zu-Bild-Generierungsmodelle basierten hauptsächlich auf Diffusionsmodellen (wie DALL·E 2, Imagen). Obwohl diese Modelle eine hohe Qualität der Generierung aufweisen, sind sie in der Inferenz langsam und erfordern hohe Trainingskosten. MaskGIT und Muse hingegen verwenden die Methode der "Diskretisierung + parallele Generierung", was die Effizienz erheblich verbessert.

MaskGIT ist der neue Ausgangspunkt für die nicht-autoregressive Bildgenerierung, und Muse ist das repräsentative Werk, das diese Methode auf die Text-Bild-Generierung ausweitet. Sie sind zwar nicht so bekannt wie Stable Diffusion, aber in der akademischen und technologischen Welt sind sie sehr wichtige technologische Bausteine.

Außerdem ist sie Mitautorin des führenden Papers über Diffusionsmodelle "Palette: Image-to-image diffusion models".

Dieses Paper wurde 2022 in SIGGRAPH veröffentlicht und schlägt ein einheitliches Framework für die Bild-zu-Bild-Übersetzung vor. Es übertrifft GAN und Regressionsbaselines in mehreren Aufgaben wie Bildreparatur, Färbung und Vervollständigung und wurde bisher über 1700 Mal zitiert, was es zu einem repräsentativen Ergebnis in diesem Bereich macht.

Seit Juni 2023 ist sie Mitglied des Multimodal-Teams bei OpenAI und hat gemeinsam an der Entwicklung der Bildgenerierungsfunktion von GPT-4o gearbeitet. Sie setzt weiterhin die Forschung und Umsetzung in den Spitzenbereichen wie Bildgenerierung und Multimodal-Modellierung voran.

Ji Lin

Ji Lin beschäftigt sich hauptsächlich mit Multimodal-Lernen, Inferenzsystemen und synthetischen Daten. Er ist Mitwirkender an mehreren Kernmodellen, einschließlich GPT-4o, GPT-4.1, GPT-4.5, o3/o4-mini, Operator und dem 4o-Bildgenerierungsmodell.

Er absolvierte sein Bachelorstudium in Elektrotechnik an der Tsinghua-Universität (2014–2018) und sein Doktorat in Elektrotechnik und Informatik an der Massachusetts Institute of Technology (MIT). Sein Doktorvater war der bekannte Wissenschaftler Prof. Song Han.

In seiner Doktorphase konzentrierte sich seine Forschung auf Schlüsselbereiche wie Modellkompression, Quantisierung, Visuelle Sprachmodelle und Sparse-Inferenz.

Vor seinem Eintritt bei OpenAI im Jahr 2023 war er als Praktikant bei NVIDIA, Adobe und Google tätig und arbeitete an der MIT langfristig an der Kompression von neuronalen Netzen und der Beschleunigung der Inferenz, wodurch er ein solides theoretisches Fundament und praktische Erfahrungen in der Technik sammelte.

In akademischer Hinsicht hat er mehrere hochrangige Publikationen in den Bereichen Modellkompression, Quantisierung und Multimodal-Pretraining. Seine Gesamtzahl der Zitationen in Google Scholar beträgt über 17.800. Seine repräsentativen Ergebnisse umfassen das Video-Verständnis-Modell TSM, die Hardware-sensible Quantisierungsmethode AWQ, SmoothQuant und das visuelle Sprachmodell VILA.

Er ist auch einer der Kernautoren der technischen Dokumentation des GPT-4o-Systems (z. B. der GPT-4o-Systemkarte) und gewann mit seiner AWQ-Publikation den Best Paper Award der MLSys 2024.

Hongyu Ren

Hongyu Ren absolvierte sein Bachelorstudium in Informatik an der Peking-Universität (2014–2018) und sein Doktorat in Informatik an der Stanford University (2018–2023).

Er erhielt mehrere Stipendien, darunter das PhD Fellowship von Apple, Baidu und der SoftBank Masason Foundation. Seine Forschungsrichtung konzentriert sich auf große Sprachmodelle, Wissensgraph-Inferenz, Multimodal-Intelligenz und die Bewertung von Basismodellen.

Vor seinem Eintritt bei OpenAI war er bei Google, Microsoft und NVIDIA in mehreren Praktika tätig. Beispielsweise war er 2021 als Praktikant bei Apple tätig und beteiligte sich an der Entwicklung des Siri-Fragen-Antwort-Systems.

Nach seinem Eintritt bei OpenAI im Juli 2023 beteiligte sich Hongyu Ren an der Entwicklung mehrerer Kernmodelle wie GPT-4o, 4o-mini, o1-mini, o3-mini, o3 und o4-mini und leitete das Post-Training-Team.

Mit seinen eigenen Worten: "I teach models to think faster, harder and sharper." (Ich lehre Modelle, schneller, intensiver und schärfer