OpenAI-Insider enthüllt: Bachelor-Student schleicht sich ohne Doktorat und veröffentlichte Studien mit Blogbeitrag in OpenAI ein

Diese Menschen haben alle erfolgreich gegen große Unternehmen aufgestiegen.

Ohne Promotionsgrad und ohne veröffentlichte Artikel hat er es dennoch geschafft, durch die öffentliche Verbesserung von Artikeln und das Ausführen von Benchmark-Tests direkt die Fachleute zu beeindrucken und bei OpenAI eingestellt zu werden! Noam Brown bestätigt: Handlungsstärke und Open-Source-Projekte sind die wirklichen Schlüsselelemente für den Aufstieg in ein erstklassiges KI-Labor.

In letzter Zeit hat ein Artikel von Noam Brown, dem legendären Forscher von OpenAI und dem Vater der Texas Hold'em-KI, die sozialen Medien in Schach gehalten.

Ist es möglich, ohne Promotionsgrad und ohne Forschungsumfeld einen Job in einem Spitzen-KI-Labor zu bekommen?

Dies klingt wie eine Utopie, aber in dieser Welt gibt es tatsächlich viele solche Beispiele.

Zum Beispiel hat ein junger Mann namens Keller Jordan es dank eines Open-Source-Blogs geschafft, bei OpenAI als Machine-Learning-Forscher eingestellt zu werden!

Ja, er hat keine Artikel geschrieben, sondern den gesamten Forschungsprozess, den Code und die Experimentergebnisse auf GitHub vollständig Open-Source gemacht.

Schließlich hat Noam Brown zusammengefasst: Obwohl der Raum für offene Forschung heute kleiner ist als früher, ist die Verbesserung bestehender Artikel dennoch eine hervorragende Möglichkeit, seinen Fähigkeiten als Laborforschern zu beweisen!

Diese Vorgehensweise gibt dem anderen die Möglichkeit, mehr Vertrauen zu haben und kann Ihnen ein Vorstellungsgespräch verschaffen.

Von der KI-Prüfung zum Gipfel des Lebens

Im Jahr 2020 hat Keller an der UCSD ein Doppelstudium in Mathematik und Informatik abgeschlossen.

Zum Zeitpunkt seines Abschlusses hatte er noch keine Artikel veröffentlicht.

Seine erste Stelle war in einem Start-up für KI-basierte Inhaltsüberprüfung.

Eines Tages hat er einen Artikel von Behnam, einem Google-Forscher, gelesen und eine Verbesserungsidee gehabt. Also hat er Behnam eine E-Mail geschrieben.

Nachdem Behnam die E-Mail gelesen hatte, hat er sich bereit erklärt, den jungen Mann zu betreuen. Ohne Netzwerk und Hintergrund hat der junge Mann so Kontakt zu einem Fachmann aufgenommen.

Was noch erstaunlicher ist, hat diese Zusammenarbeit schließlich zu einem Artikel in der ICLR geführt.

Später hat Keller mit seiner beeindruckenden Arbeit "NanoGPT speed run" ein neues Forschungsmodell etabliert, das nicht nur von Karpathy, dem Leiter der Tesla KI, gelobt wurde, sondern auch die Aufmerksamkeit von OpenAI erregte.

Dies war kein herkömmlicher Artikel, aber er war der Wendepunkt in Kellers Leben.

Da alle seine Arbeiten vollständig dokumentiert waren und die Ergebnisse quantifizierbar und der Fortschritt klar war, hat OpenAI ihm ohne zu zögern die Hand gereicht.

Karpathy lässt sich "Toll gemacht!" ausrufen

NanoGPT ist ein Open-Source-Projekt von Karpathy, ein minimalistischer und leichtgewichtiger Rahmen für das Training und das Feintuning von GPT.

Was Keller gerne macht, ist es, die Trainingsgeschwindigkeit von NanoGPT ständig zu verbessern. Dazu hat er ständig neue Methoden ausprobiert.

Im Oktober 2024 hat er ein Ergebnis erzielt, das die Token-Effizienz beim Training des Transformer-Modells um das 3,8-fache erhöht hat!

Dafür hat er die volle Zustimmung von Karpathy erhalten.

Das Ziel des NanoGPT speedrun klingt sehr einfach: Unter der Voraussetzung einer festen Modellgröße (124M Transformer) und eines festen Validierungsverlustziels (3,28 val loss) soll das Training mit möglichst wenigen Tokens und in möglichst kurzer Zeit abgeschlossen werden.

Was Keller getan hat, ist es, den PyTorch-Trainingscode von Karpathys nanoGPT/llm.c in einen reproduzierbaren, quantifizierbaren und vergleichbaren Benchmark umzuwandeln.

Schließlich hat er die Token-Effizienz um das 3,8-fache erhöht und es geschafft, das Zielverlust bei nur 2,7M Tokens zu erreichen, anstatt wie zuvor ca. 10M Tokens.

Dies bedeutet, dass diese Verbesserung streng validiert werden kann und ein harter Indikator ist.

Experimente so günstig gestalten, dass "jeder teilnehmen kann"

Außerdem ist Keller sehr kreativ.

Im Gegensatz zu vielen Trainings, die Hunderttausende oder sogar Millionen an Rechenleistungskosten verursachen, hat er bei der Gestaltung dieses Speedruns ein sehr klares Prinzip: Die Kosten für das Ausprobieren neuer Ideen sollen so niedrig wie möglich sein.

Dazu hat er einige Dinge getan, wie zum Beispiel den Code auf 537 Zeilen zu reduzieren; in einer neuen Umgebung mit 8×H100 die Installation und das Ausführen des Codes auf nur 20 Minuten zu beschränken; und sogar die Kosten für einen einzelnen Versuch auf nur 8 Dollar zu senken.

Selbst in der heutigen KI-Forschung ist dies eine extrem seltene Gestaltungsentscheidung.

Dies bedeutet, dass nicht nur große Labore teilnehmen können, sondern auch alle individuellen Forscher, Studenten und unabhängigen Ingenieure schnell ihre Ideen validieren können. Innovation wird nicht mehr durch die Rechenleistungsschwelle blockiert.

Von OpenAI bemerkt werden

So wurde der NanoGPT speedrun zu einem Schlüsselstück auf Kellers Aufstiegsweg.

Alles deutet darauf hin, dass dieses Ergebnis sehr solide ist: Der Code, die Protokolle und die Experimente sind vollständig reproduzierbar; bei den Indikatoren ist es unmöglich zu manipulieren; und es gibt sogar die echte Beteiligung der Entwicklergemeinschaft.

Sogar die Validierungsmethode ist äußerst streng gestaltet: In jeder Log-Datei eines Speedruns ist eine vollständige Kopie des Codes enthalten.

Jeder, der einen neuen Rekord reproduzieren möchte, muss nur die Log-Datei aufrufen.

Muon taucht auf

Und nun hat sich die Geschichte in den Höhepunkt entwickelt.

Ende 2024 ist der Optimierer Muon für die versteckten Schichten von neuronalen Netzen, den er entwickelt hat, aufgetaucht und hat mit seiner hervorragenden Leistung die Weltrekorde für die Trainingsgeschwindigkeit von NanoGPT und CIFAR-10 aufgebrochen!

Muon ist ein Optimierer, der für die 2D-Parameter versteckter Schichten von neuronalen Netzen entwickelt wurde. Sein Kerngedanke ist, dass die von der SGD-Momentum-Methode erzeugte Aktualisierungsmatrix durch die Newton-Schulz-Iteration orthogonalisiert wird, um eine Aktualisierung zu erzeugen, die einer halborthogonalen Matrix nahekommt, wodurch die TrainingsEffizienz erhöht wird.

Seine Implementierung ist einfach und effizient, unterstützt einen stabilen Betrieb in bf16-Präzision und reduziert die Rechenkosten erheblich.

Verglichen mit dem AdamW-Optimierer hat Muon in mehreren Aufgaben eine sehr beeindruckende Leistung gezeigt.

Obwohl AdamW es GPT, LLaMA und Qwen ermöglicht, sich stabil und schnell zu lernen, werden die Einschränkungen von AdamW sichtbar, wenn die Modellparameter von Hunderten von Millionen auf Tausende von Milliarden ansteigen und die Trainingszeit von Tagen auf Wochen oder sogar Monate ansteigt.

Obwohl Muon noch nicht der Standardoptimierer geworden ist, zeigt sein Auftauchen, dass es sich wahrscheinlich um eine bedeutende Grundinnovation in der KI-Modell-Trainingsbranche handelt.

Einstieg bei OpenAI

Muon hat immer mehr Einfluss in der Entwicklergemeinschaft gewonnen, und gleichzeitig hat Keller im Dezember 2024 offiziell bei OpenAI begonnen.

Interessanterweise hat Keller im Februar erklärt, dass er, obwohl Muon populär geworden ist und ihm den Einstieg bei OpenAI ermöglicht hat, keinen Artikel über Muon schreiben wird.

In seiner Meinung ist es besser, weiterhin an seinem Optimierer zu arbeiten, anstatt einen Artikel auf arXiv zu veröffentlichen, der wahrscheinlich untergehen wird.

Schließlich sind in seiner Ansicht die meisten Artikel über Optimierer gefälschte und schwache Texte.

Diese Menschen haben es geschafft, in große Unternehmen aufzusteigen

Darüber hinaus hat Noam Brown weitere erfolgreiche Fälle aufgeführt.

Zum Beispiel Sholto Douglas, der von Google DeepMind entdeckt wurde.

Er ist auf X sehr zurückhaltend und hat nie als Erstautor einen auffälligen Artikel veröffentlicht. Er hat erst seit anderthalb Jahren in der Branche gearbeitet, aber er ist der Schlüsselmann hinter dem Erfolg von Gemini.

Noch während er bei McKinsey arbeitete, war Sholto überzeugt, dass die KI explodieren würde. Also hat er in seiner Freizeit an eigenen Projekten gearbeitet und auf GitHub von Jax viele einsichtreiche Fragen gestellt.

Diese Leistungen haben James Bradbury beeindruckt, und schließlich wurde er von Google DeepMind zu einem Vorstellungsgespräch eingeladen.

Andy Jones ist ein halb pensionierter Quant. Bevor die Testzeitberechnung populär wurde, hat er einen Artikel geschrieben, in dem er den Einfluss der Erweiterung des Pre-Trainingsumfangs und der Erhöhung der Testzeitberechnung verglichen hat.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。