Tian Yuandongs Startup: Erste Erfolge mit GPU - Kernoptimierung, die SOTA auf NVIDIA

Lassen Sie KI-Systeme KI-Systeme selbst verbessern

Gerade jetzt hat das Startup von Tian Yuandong sein erstes Forschungsergebnis vorgelegt.

Tian Yuandong hat auf X angekündigt, dass sein gegründetes Unternehmen Recursive auf der offiziellen NVIDIA GPU-Kernel-Optimierungsliste SOL-ExecBench sowohl den Gesamtrang als auch in vier Unterkategorien den SOTA (State-of-the-Art) erreicht hat.

Dieser Erfolg übertrifft nicht nur die von menschlichen GPU-Experten handgeschriebenen Lösungen, sondern auch "andere von GPU-Experten entwickelte KI-Systeme".

Darüber hinaus hat Recursive auch auf zwei anderen anspruchsvollen Benchmarks SOTA-Ergebnisse erzielt.

Dazu gehört NanoGPT Speedrun, ein extrem optimierter Wettlauf, an dem die globale Programmierergemeinschaft seit zwei Jahren arbeitete und der fast als "ausgereizt" galt.

Nachdem das KI-System von Recursive eingesetzt wurde, wurde der Rekord noch einmal verbessert.

Von der Ideenfindung, dem Codieren, dem Ausführen von Experimenten, der Beurteilung der Ergebnisse bis zur Entscheidung über den nächsten Schritt... Dieser gesamte Forschungsablauf wird von der KI selbst durchgeführt.

Die Vision von "KI-forscht-KI" hat sich nun in die Realität verwandelt.

SOTA auf allen drei Benchmarks

Recursive hat kürzlich die ersten Ergebnisse seines automatisierten KI-Forschungssystems veröffentlicht.

Auf drei verschiedenen Benchmarks hat dieses System SOTA-Ergebnisse erzielt, die sich auf das Training von Sprachmodellen bei festem Budget, die Trainingsgeschwindigkeit kleiner Modelle und die Optimierung von GPU-Kernen beziehen.

Das System arbeitet so, dass der gesamte Forschungszyklus von der KI selbst durchgeführt wird.

Das System formuliert eigenständig Verbesserungsgedanken für ein Ziel, implementiert diese Gedanken in Code, führt Experimente durch, um die Effektivität zu überprüfen, und entscheidet dann basierend auf den Experimentergebnissen über den nächsten Schritt.

Das System kann mehrere Forschungsstränge gleichzeitig ausführen, die in früheren Experimenten gesammelten wirksamen Erfahrungen speichern und vielversprechende Verbesserungsrichtungen aus verschiedenen Strängen zusammenführen.

Außerdem überprüft das System, bevor es eine Verbesserung als echten Fortschritt ansieht, speziell, ob diese Verbesserung auf einem Reward-Hack oder zufälligen Faktoren beruht.

Recursive hat diese drei Benchmarks ausgewählt, weil sie drei Kernfaktoren für den Fortschritt der KI repräsentieren - bessere Trainingsalgorithmen, schnellere Trainingsgeschwindigkeit und effizientere Hardwareausnutzung.

Bei diesen drei Aufgaben gibt es klare Bewertungsmaße, die Ergebnisse weisen eine geringe Varianz auf, und die Bewertungsweise kann ständig verbessert werden, um zu verhindern, dass das System Schwachstellen ausnutzt. Daher eignen sie sich gut für das Ausführen des Forschungszyklus durch die KI selbst.

Der erste Benchmark ist NanoChat Autoresearch. Die Aufgabe besteht darin, ein kleines Sprachmodell auf einer einzelnen GPU innerhalb eines festen Zeitbudgets von fünf Minuten auf möglichst geringen Validierungsverlust (gemessen in BPB) zu trainieren.

Für diese Aufgabe gibt es bereits ein öffentliches kollaboratives Projekt namens autoresearch@home, an dem mehrere Dutzend Menschen und Hunderte von Agenten gemeinsam an der Optimierung der Lösung arbeiten.

Das System von Recursive sucht ausgehend von demselben Ausgangspunkt. Nachdem es einige Reward-Hacks aus der bisher besten Lösung der Gemeinschaft ausgeschlossen hat, beträgt die durchschnittliche Leistung der Gemeinschaftslösung 0,9372 BPB, während die Lösung, die das Recursive-System gefunden hat, 0,9109 BPB erreicht.

In Bezug auf die Trainingszeit erreicht die Lösung von Recursive die Leistung der ursprünglichen Version von Karpathy in nur etwa 77 % der Zeit im Vergleich zur besten Lösung der Gemeinschaft.

Das System hat auch ein weiteres Experiment durchgeführt. Beginnend mit einem einfachen Vanilla-Transformer und AdamW hat es den Validierungsverlust von 1,059 BPB auf 0,9344 BPB optimiert, was ebenfalls die bisher beste Leistung der Gemeinschaft übertrifft.

Der zweite Benchmark ist NanoGPT Speedrun. Die Aufgabe besteht darin, die Zeit, die benötigt wird, um ein kleines GPT-Modell auf einem einzelnen 8-Karten-H100-Node auf einen festen Validierungsverlust (3,28) zu trainieren, so kurz wie möglich zu halten.

Dieses Projekt hat bereits eine zweijährige Geschichte. Die Gemeinschaft hat insgesamt 83 Mal die Rekordlösung verbessert und die Trainingszeit von ursprünglich etwa 45 Minuten auf 79,7 Sekunden verkürzt. Es bleibt nur noch wenig Raum für weitere deutliche Verbesserungen.

Das System von Recursive optimiert die beste bestehende Lösung weiter und verkürzt die Trainingszeit von 79,7 Sekunden auf 77,5 Sekunden, wobei es weiterhin die Anforderungen der Rangliste an die Signifikanz des Validierungsverlusts erfüllt.

Das Ausmaß dieser Verbesserung ist mit den jüngsten Verbesserungen, die von menschlichen Beitragenden erzielt wurden, vergleichbar oder sogar größer.

Das System hat auch getestet, was es von einer schwächeren Lösung mit einer Trainingszeit von etwa 15 Minuten aus erreichen kann. Innerhalb weniger Tage hat es die Trainingszeit auf etwa 185 Sekunden verkürzt, was nahe an die Leistung der menschlichen Rangliste von etwa 180 Sekunden im Mai 2025 herankommt.

Der dritte Benchmark ist der NVIDIA SOL-ExecBench. Die Aufgabe besteht darin, für 235 GPU-Kerne aus realen Workloads korrekte und schnelle Implementierungen zu schreiben.

Genauer gesagt betreffen diese Implementierungen Typen wie Matrixmultiplikation, Reduktion, Normalisierung, Attention-Komponenten, Quantisierung und Fusionierungsoperatoren. Die Bewertung erfolgt schließlich auf einer B200-GPU.

Dieser Benchmark misst die Ergebnisse anhand des Speed-of-Light-Scores. Ein Score von 0,5 entspricht einer bereits optimierten PyTorch-Baseline, ein Score von 1,0 entspricht der theoretisch optimalen Leistung.

Recursive lässt das System auf allen 235 Kernen gleichzeitig laufen, so dass es die in einer Aufgabe gefundenen Techniken auf andere verwandte Aufgaben übertragen kann. Dadurch hat es den durchschnittlichen SOL-Score von bisher 0,699 auf 0,754 verbessert.

Bei diesen drei Benchmarks war das Problem des Reward-Hackings ein Thema, mit dem das Recursive-Team sich auseinandersetzen musste.

Dieses Problem war besonders auf dem SOL-ExecBench ausgeprägt. Einige Kandidatenlösungen haben versucht, indem sie die Ausgabenergebnisse zwischenspeichern, einen dauerhaften Zustand nutzen oder die Bewertungszeitmessung ausnutzen, den Score zu manipulieren.

Dafür hat das Team die Korrektheitsprüfung als Teil des Forschungszyklus eingeführt. Kandidatenverbesserungen müssen eine zunehmend strengere automatisierte Prüfung bestehen, bevor sie als echte Leistungssteigerung anerkannt werden können.

Recursive hat angekündigt, die bei diesen Experimenten erzeugten relevanten Daten öffentlich zugänglich zu machen, damit sie von außen überprüft und wiederverwendet werden können. Das Team wartet derzeit auf die offizielle Hardwarezugangsberechtigung, um die Ergebnisse offiziell an die NanoGPT Speedrun-Rangliste zu übermitteln.

KI trainiert sich selbst

Recursive Superintelligence (RSI) hat im vergangenen Monat seine Geheimhaltung beendet und sich der Öffentlichkeit vorgestellt.

Dieses Unternehmen hat derzeit ein Team von weniger als 30 Personen. Es hat eine Finanzierung von 650 Millionen US-Dollar abgeschlossen und hat einen Marktwert von 4,65 Milliarden US-Dollar, was etwa 31,6 Milliarden Yuan entspricht.

Diese Finanzierungsrunde wurde von GV, einer Tochtergesellschaft von Google, und Greycroft gemeinsam geleitet. NVIDIA und AMD haben ebenfalls an der Investition teilgenommen.

Die Kernaussage von RSI ist, dass zwar das Skalierungsgesetz in der Vorhersagephase immer noch wichtig ist, aber die Grenznutzen, die allein durch mehr Daten, mehr Rechenleistung und mehr Parameter erzielt werden, abnehmen.

RSI setzt auf die Richtung der rekursiven Selbstverbesserung.

Einfacher ausgedrückt, bedeutet dies, dass das KI-System ständig das KI-System selbst verbessert und diese Fähigkeit dann nutzt, um breitere wissenschaftliche Entdeckungen zu treiben.

Nach dem von RSI vorgelegten Fahrplan soll zunächst ein System trainiert werden, das die Fähigkeiten von "50.000 Doktoren" hat, um die KI-Forschung selbst zu automatisieren. Im zweiten Schritt soll dieses System in Bereichen wie der Arzneimittelentwicklung, der Batteriematerialforschung und der Kernfusionsphysik eingesetzt werden.

RSI wurde von acht Mitgründern gegründet. Sie haben zuvor in Institutionen wie OpenAI, Google DeepMind, Meta AI, Salesforce und Uber als Forschungsleiter gearbeitet und die meisten von ihnen haben bereits erfolgreiche Startup-Erfahrungen.

Der CEO Richard Socher war ein Doktorand von Andrew Ng an der Stanford University und ist auch einer der Autoren von ImageNet und Glove. Sein früher gegründetes Unternehmen MetaMind wurde von Salesforce übernommen, und er gründete später auch die KI-Suchmaschine You.com mit einem Marktwert von 1,5 Milliarden US-Dollar.

Tian Yuandong war zuvor Leiter der Forschungsforschung bei Meta FAIR. Er hat lange Zeit an der Forschung zu Reinforcement Learning, Effizienz von Basis-Modellen und neuronalen Netzen gearbeitet und ist auch einer der Autoren von ELF OpenGo.

Shi Tianlin absolvierte sein Studium an der Tsinghua University in der Yao-Class. Er ist einer der Mitgründer von Cresta, das aus dem Stanford AI Laboratory hervorgegangen ist und bereits 2019 Transformer-Modelle in Echtzeit-Kundensupport-Szenarien eingesetzt hat.

Alexey Dosovitskiy ist einer der Autoren des Vision Transformers. Im Jahr 2020 hat er vorgeschlagen, dass Transformer direkt auf Bildpatch-Sequenzen angewendet werden können.

Tim Rocktäschel war zuvor bei Google DeepMind für die offene Forschungsrichtung verantwortlich und ist derzeit Professor für Künstliche Intelligenz an der UCL. Die von ihm und seinen Mitarbeitern entwickelte Rainbow Teaming-Methode wird bereits häufig in Roten-Team-Tests von KI-Sicherheitsteams eingesetzt.

Josh Tobin war ein früherer Mitarbeiter von OpenAI und verantwortlich für das Agents Research Team von OpenAI.

Caiming Xiong war zuvor bei Salesforce für die KI-Forschung und die angewandte KI verantwortlich

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Tian Yuandongs Startup erzielt erstes Ergebnis: GPU-Kernoptimierung erreicht SOTA auf der offiziellen NVIDIA-Bestenliste

SOTA auf allen drei Benchmarks

KI trainiert sich selbst