StartseiteArtikel

Ein genialer Doktor aus dem MIT wurde direkt nach seinem Abschluss von der ehemaligen CTO von OpenAI abgeworben. Sein Jahresgehalt könnte bei 3 Millionen Yuan anfangen.

新智元2026-01-09 16:08
Durchschnittliches Jahresgehalt von 3,5 Millionen US-Dollar, übertrumpft OpenAI

MIT-Genie-Phd und Tsinghua-Exzellenzstudent Guangxuan Xiao hat offiziell angekündigt, dass er Thinking Machines betritt und künftig auf die Vorhersage von Large Language Models (LLMs) konzentrieren wird.

Ein MIT-Genie-Phd hat direkt nach Abschluss seines Studiums OpenAI's Ex-CTO's Startup beigetreten!

Kürzlich hat Guangxuan Xiao (Guangxuan Xiao) über soziale Medien bekannt gegeben, dass er gerade seinen Doktortitel an der MIT abgeschlossen hat.

Als nächstes wird er Thinking Machines betreten und sich auf die Vorhersage von Large Language Models (LLMs) konzentrieren.

Im Kommentarbereich haben Wissenschaftler von NVIDIA, Forscher von xAI und Prominente aus der UCSD ihm ihre Glückwünsche ausgesprochen.

Exzellenzstudent mit Doppelabschluss von Tsinghua, Doktor an der MIT mit außergewöhnlichem Leben

Wenn man seine persönliche Homepage öffnet, wird man von seinen vielfältigen und reichen Erfahrungen beeindruckt.

Guangxuan Xiao hat seinen Bachelorabschluss an der Tsinghua-Universität mit einem Doppelabschluss abgeschlossen, wobei er Informatik als Hauptfach und Finanzwissenschaft als Nebenfach absolvierte.

Während dieser Zeit hat er zahlreiche Preise gewonnen, darunter den Integralen Exzellenzstipendium der Tsinghua-Universität (2019), den ersten Preis im Nationalen Mathematischen Modellierungswettbewerb für Studenten (CUMCM) (2020), das Nationalstipendium (2020) und das "Future Scholar"-Stipendium der Tsinghua-Universität (2021).

Von 2020 bis 2021 war er als Gaststudent (Visiting Student) am Fachbereich Informatik der Stanford University tätig.

Im Jahr 2022 hat Guangxuan Xiao die MIT betreten, um seinen Doktortitel zu erwerben. Sein Doktorvater ist Professor Song Han.

Seine Forschungsrichtung konzentriert sich auf effiziente Algorithmen und Systeme für Deep Learning, insbesondere auf Large Language Models (LLMs).

Von September 2022 bis Januar 2026 war er als Vollzeit-Forschungsassistent (Research Assistant) am MIT EECS tätig.

Während seines Doktoratsstudiums hat Guangxuan Xiao mehrmals in weltweit führenden Technologieunternehmen Praktika absolviert und somit reiche Erfahrungen in der industriellen Forschung und Entwicklung gesammelt.

Im Jahr 2023 hat er ein Praktikum bei Meta absolviert, wobei er sich auf "Effiziente Attention-Mechanismen für Streaming Language Models" konzentriert hat. Die Ergebnisse seiner Forschung wurden auf arxiv veröffentlicht.

Link zur Publikation: https://arxiv.org/pdf/2309.17453

 

Von Februar bis Mai 2024 war er als Praktikant bei NVIDIA tätig und hat sich auf die Beschleunigung der Inferenz von Large Language Models mit langer Kontextlänge konzentriert.

Er und sein Team haben DuoAttention vorgeschlagen, das die Suche und den Streaming Attention-Head kombiniert, um eine effiziente Inferenz zu ermöglichen.

Link zur Publikation: https://research.nvidia.com/labs/eai/publication/duoattention/

 

Anschließend hat er an mehreren Kernforschungsprojekten teilgenommen, darunter:

XAttention: Block-sparzer Attention-Mechanismus basierend auf anti-diagonalen Bewertungen

StreamingVLM: Echtzeit-Verständnis-Modell für unendliche Videoströme

FlashMoBA: Effiziente Optimierung von Mixture of Block Attention (MoBA)

Es ist erwähnenswert, dass Guangxuan Xiao neben seiner Forschung auch viele Hobbys hat, wie Fußball, Tischtennis, Go und Klavier.

Er war Captain und Stürmer der Fußballmannschaft seiner Fakultät und liebt die Werke von Beethoven am liebsten.

Eine Doktorarbeit löst drei Probleme von LLMs

Im Vergleich zu seinem beeindruckenden Lebenslauf ist Guangxuan Xiaos Doktorarbeit selbst noch interessanter und lohnt sich für eine eingehende Analyse.

Es muss zugegeben werden, dass Large Language Models (LLMs) heutzutage nahezu alles können, aber sie sind immer noch sehr teuer.

Explosion des Grafikspeichers, langsame Inferenz und OOM (Out of Memory) bei langer Kontextlänge sind die Realität, der fast alle Engineering-Teams von LLMs tagtäglich gegenüberstehen.

Die Arbeit "Efficient Algorithms and Systems for Large Language Models" gibt eine seltene und vollständige Antwort von der Ingenieurwissenschaft bis zur Theorie, von den Algorithmen bis zur Architektur.

In der Arbeit haben sie SmoothQuant vorgeschlagen, das ein seit langem bestehendes Problem in der Industrie löst - die Aktivierungsausreißer (activation outliers).

SmoothQuant verschiebt das Quantisierungsproblem von den "Aktivierungen" auf die "Gewichte" durch eine geschickte mathematische Äquivalenzumformung.

Als Ergebnis hat es die erste verlustfreie W8A8-Quantisierung auf Modellen mit Milliarden von Parametern ermöglicht, ohne erneutes Training, mit weniger Grafikspeicherbedarf und schneller Inferenz.

Beim Umgang mit extrem langen Sequenzen haben die Autoren in StreamingLLM das Phänomen des "Attention Sinks" entdeckt -

Selbst ohne jegliche Semantik werden die initialen Token von den nachfolgenden Token kontinuierlich beachtet. Die Funktion dieser Token besteht nicht darin, etwas "zu verstehen", sondern darin, die numerische Stabilität zu gewährleisten.

Als Ergebnis wurde eine Streaming-Inferenz mit konstantem Speicherbedarf ermöglicht, und die Kontextlänge des Modells wurde von Tausenden von Token auf Millionen erweitert.

Darüber hinaus haben sie diese Idee auf die Multimodalität erweitert. StreamingVLM kann Videos mit einer Länge von mehreren Stunden verarbeiten, während die zeitliche Konsistenz aufrechterhalten wird.

Für Szenarien mit langer Kontextlänge hat das Team ein komplementäres Verfahren vorgeschlagen, das auf verschiedene Leistungseinschränkungen abzielt.

Der KVCache ist zu groß, verwende DuoAttention

Die Attention-Heads haben selbst eine Aufteilung der Aufgaben: Nur wenige sind für die "globale Suche" zuständig, während die meisten nur den "aktuellen Kontext" betrachten.

DuoAttention verringert den Grafikspeicherbedarf erheblich mit einer Mischstrategie, ohne dass die Leistung nennenswert leidet.

Die Vorauffüllung (Prefill) ist zu langsam, verwende XAttention

Durch die Nutzung des anti-diagonalen Bewertungsmechanismus werden nur die notwendigen Attention-Blöcke identifiziert und berechnet, wodurch eine signifikante Beschleunigung erzielt wird.

Am Ende der Arbeit gehen die Autoren nicht nur auf die "Optimierung bestehender Modelle" ein, sondern beweisen durch eine Signal-Rausch-Analyse von MoBA (Mixture of Block Attention), dass:

Theoretisch ist ein kleinerer Block besser.

Aber in der Realität stimmen die GPUs nicht zu. Deshalb gibt es FlashMoBA, einen maßgeschneiderten CUDA-Kern, der die Nutzung kleiner Blöcke in der Praxis ermöglicht und eine bis zu 9-fache Geschwindigkeitssteigerung erzielt.

Der Wert dieser Arbeit liegt darin, dass sie einen umfassenden Rahmen für effiziente Large Language Models aufbaut, der sowohl die gegenwärtigen Herausforderungen adressiert als auch die Grundlage für die nächste Generation von rechenintensiven, zugänglichen AGI legt.

Durchschnittliches Jahresgehalt von 3,5 Millionen Yuan, OpenAI übertrumpft

Abschließend kommen wir zu einem interessanten Thema - dem Gehalt.

Im vergangenen Jahr war der Wettlauf um Talente in Silicon Valley heftig. Eine exklusive Recherche von BI hat das Gehalt aufgedeckt, das Thinking Machines (TML) seinen Mitarbeitern zahlt -

Das Basisjahresgehalt beträgt bis zu 500.000 US-Dollar (etwa 3,5 Millionen Yuan).

Laut den von BI erhobenen Einstellungsdaten hat TML zwei Technikern ein Basisjahresgehalt von 450.000 US-Dollar und einem anderen Mitarbeiter sogar 500.000 US-Dollar gezahlt.

Der vierte Mitarbeiter ist als "Mitbegründer/Machine Learning-Experte" geführt und hat ebenfalls ein Jahresgehalt von 450.000 US-Dollar.

Diese Gehaltsdaten stammen aus dem ersten Quartal 2025, bevor Murati mit einem Unternehmenswert von 10 Milliarden US-Dollar eine 2-Milliarden-US-Dollar-Saatfinanzierung erfolgreich abgeschlossen hat.

Insgesamt hat TML diesen vier Technikern ein durchschnittliches Jahresgehalt von 462.500 US-Dollar gezahlt.

Im Vergleich dazu liegt TML deutlich über etablierten LLM-Unternehmen in der Branche -

OpenAI hat in den entsprechenden Antragsunterlagen 29 Technikern ein durchschnittliches Jahresgehalt von 292.115 US-Dollar angegeben.

Das höchste Gehalt beträgt 530.000 US-Dollar, das niedrigste 200.000 US-Dollar.

Anthropic hat 14 Technikern ein durchschnittliches Jahresgehalt von 387.500 US-Dollar gezahlt, wobei das Gehalt zwischen 300.000 und 690.000 US-Dollar liegt.

Obwohl dies noch weit hinter Metas verrückten Gehältern von über einer Billion US-Dollar zurückbleibt, ist dieser Gehaltslevel in Silicon Valley dennoch beachtlich.

Es stimmt wirklich, dass das teuerste Gut im 21. Jahrhundert die Talente sind.

Quellenangaben:

https://x.com/Guangxuan_Xiao/status/2008779396497502337  

https://guangxuanx.com/  

https://scholar.google.com/citations?user=sRGO-EcAAAAJ  

https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/

https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6 

Dieser Artikel stammt aus dem WeChat-Account "New Intelligence Yuan", Autor: New Intelligence Yuan, veröffentlicht von 36Kr mit Genehmigung.