Künstliche Intelligenz (KI) bricht in zwei Tagen 20 Jahre Arbeitsgewohnheiten um. Karpathy's Open-Source-Projekt mit hundert Zeilen Code wird zum "Mythos". Die KI arbeitet für Sie ganze Nacht lang an Forschungen, und die Ergebnisse sind nachvollziehbar.
„Während Menschen schlafen, hat die KI bereits 100 Experimentierrunden abgeschlossen.“
In letzter Zeit hat Andrej Karpathy, der ehemalige Leiter der KI bei Tesla und Gründungsmitglied von OpenAI, ein Projekt namens autoresearch opensourcen lassen. Die Logik ist einfach: Man stellt einem KI-Agenten eine kleine, aber tatsächlich nutzbare LLM-Trainingsumgebung zur Verfügung und lässt ihn die ganze Nacht hindurch eigenständig Deep-Learning-Forschung betreiben. Die Ergebnisse sind erstaunlich: Innerhalb von zwei Tagen hat der Agent 276 Experimente eigenständig durchgeführt, 29 effektive Verbesserungen herausgefiltert und die TrainingsEffizienz eines Sprachmodells um etwa 11 % erhöht, ganz ohne menschliche Intervention.
Bis jetzt hat das Projekt 36.9k Stars erhalten. Karpathy erklärte auf X: „Unser Ziel ist es, einen solchen Agenten zu schaffen, der die Forschung so schnell wie möglich vorantreibt, ohne dass Sie irgendeine manuelle Eingabe vornehmen müssen.“
Link zum Open-Source-Projekt: https://github.com/karpathy/autoresearch
In der README Datei hat Karpathy einen erstaunlichen Absatz geschrieben:
Es war einmal, als musste die führende KI-Forschung noch von kohlenstoffbasierten Gehirnen durchgeführt werden: Leute aßen, schliefen, machten sich Zeit und synchronisierten gelegentlich ihren Fortschritt in einer sogenannten „Gruppenbesprechung“. Diese Zeit ist lange vorbei.
Heute ist die Forschung vollständig in der Hand autonomer KI-Agenten, die auf riesigen Rechenleistungskluster in der Cloud laufen und behaupten, dass die aktuelle Codebasis bereits in die 10205. Generation iteriert wurde. Auf jeden Fall kann niemand beurteilen, ob diese Zahl richtig oder falsch ist, denn der „Code“ ist bereits zu einem sich selbst modifizierenden Binärprogramm geworden, das weit über das Verständnis von Menschen hinausgeht.
Dieses Repository dokumentiert den Anfang all dessen.
– Karpathy, März 2026
Erstaunlich einfach: Mit hundert Zeilen Code lässt man die KI die ganze Nacht lang forschen
Dem Bericht zufolge besteht das autoresearch-Projekt insgesamt aus 630 Zeilen Python-Code. Der darin enthaltene KI-Agent ändert automatisch den Code, trainiert fünf Minuten lang, überprüft, ob die Ergebnisse verbessert wurden, behält oder verwirft die Ergebnisse und wiederholt diesen Prozess dann ständig. Wenn Sie morgens aufwachen, können Sie das gesamte Experimentierprotokoll der Nacht und ein besseres Modell sehen. Der Kernpunkt ist, dass Sie nicht mehr wie ein normaler Forscher manuell Python-Dateien ändern müssen, sondern Markdown-Dateien schreiben können, um dem KI-Agenten Kontext zu geben und Ihre eigene Forschungsorganisation aufzubauen.
Der Trainingscode in diesem Repository ist eine vereinfachte, auf einer einzigen GPU implementierte Version von nanoChat. Die Standardkonfiguration ist bewusst auf ein Minimum reduziert, so dass Sie darauf aufbauen können, um den „Forschungsorganisationscode“ zu finden, der den schnellsten Forschungsfortschritt ermöglicht, oder weitere Agenten hinzuzufügen.
Das gesamte Projekt ist bewusst leichtgewichtig gestaltet und besteht nur aus drei Kern Dateien:
prepare.py enthält feste Konstanten, einmalige Datenvorverarbeitung (Download der Trainingsdaten, Training des BPE-Tokenizers) sowie Laufzeit-Hilfsfunktionen (Datenladeprogramm, Bewertungsfunktion). Diese Datei wird niemals geändert.
train.py ist die einzige Datei, die der Agent bearbeiten kann. Sie enthält das vollständige GPT-Modell, den Optimierer (Muon + AdamW) und die Trainingsschleife. Alles kann angepasst werden: Modellarchitektur, Hyperparameter, Optimierer, Batch-Größe usw. Diese Datei wird vom Agenten eigenständig geändert und weiterentwickelt.
program.md ist die Basisanweisungsdatei für einen einzelnen Agenten. Indem Sie den Agenten auf diese Datei verweisen, können Sie die autonomen Experimente starten. Diese Datei wird von Menschen bearbeitet und weiterentwickelt.
Konzeptionell dauert jedes Training unabhängig von der Rechenleistungskonfiguration immer genau fünf Minuten (die tatsächliche Uhrzeit, ohne Start- / Kompilierungszeit). Der Kernbewertungsindikator ist val_bpb (Bits pro Byte im Validierungsset). Je niedriger der Wert, desto besser. Dieser Indikator ist unabhängig von der Größe des Vokabulars und ermöglicht einen fairen Vergleich der Effekte unterschiedlicher Architekturänderungen.
Das bedeutet, dass der KI-Agent etwa 12 Experimente pro Stunde durchführen kann und in einer Nacht (angenommen 8 Stunden) etwa 100 Experimente abschließen kann. Dieser Entwurf hat zwei große Vorteile: Unabhängig davon, was der Agent ändert (Modellgröße, Batch-Größe, Architektur usw.), sind alle Experimente direkt vergleichbar; autoresearch kann innerhalb dieses Zeitbudgets das optimale Modell für die Hardwareplattform finden. Der Nachteil ist jedoch, dass die Experimentierergebnisse nicht mit den Ergebnissen von Experimenten auf anderen Hardwareplattformen verglichen werden können.
Darüber hinaus hat Karpathy darauf hingewiesen, dass der aktuelle Code derzeit nur auf einer einzelnen NVIDIA-GPU unterstützt wird. Theoretisch könnte er auch mit CPU, MPS und anderen Plattformen kompatibel sein, aber das würde den Code unübersichtlich machen.
Großes Ziel: „Graduiertenstudenten entlasten und eine Doktorengruppe simulieren“
Das autoresearch-Projekt hat in der Community eine beachtliche Aufmerksamkeit erregt, mit 10,6 Millionen Besuchen. Ein Netizen kommentierte: „Das ist toll. Endlich können sich die Graduiertenstudenten auf die echte Wissenschaftliche Forschung konzentrieren, anstatt wie ein Kindermädchen über die Maschinen zu wachen!“
Karpathy hat schnell auf X seine weitergehenden Vorstellungen für das autoresearch-Projekt bekannt gegeben: Der nächste Schritt von autoresearch muss die asynchrone Massenkollaboration zwischen Agenten sein. „Unser Ziel ist nicht, einen Doktoranden zu simulieren, sondern eine ganze wissenschaftliche Gemeinschaft aus unzähligen Doktoranden.“
Er meint, dass der aktuelle Code derzeit nur in einer bestimmten Forschungsrichtung in synchroner Weise eine einzelne Commit-Kette generieren kann. Aber dieses anfängliche Repository ist eher wie ein Samen: Von ihm aus können verschiedene Agenten für verschiedene Forschungsrichtungen und verschiedene Rechenleistungskonfigurationen ihre eigenen Commits beisteuern, und schließlich wird es reichlich bewachsen. GitHub scheint diese Art von Modell zu unterstützen, aber das stimmt nicht: Es setzt implizit voraus, dass es einen „Hauptzweig“ gibt, und andere Zweige sind nur temporäre Abzweigungen (Pull Requests), die am Ende wieder in den Hauptzweig zusammengeführt werden müssen.
Dafür hat Karpathy einen ultraleichtgewichtigen Prototypen erstellt, um dieses Kollaborationsmodell zu erkunden. Beispielsweise lässt er den Agenten die Ergebnisse der übernachteten Experimente in einem Discussion-Post zusammenfassen. Eine andere Möglichkeit ist die Verwendung von Pull Requests. Der Vorteil ist, dass die genauen Commit-Historie beibehalten wird, aber man möchte diese Pull Requests nicht wirklich zusammenführen, sondern nur die Commits „übernehmen“ und akkumulieren. Selbst mit dieser leichtgewichtigen Methode kann der Agent zunächst über die GitHub CLI alle Discussion-Posts / Pull Requests lesen, um Inspiration zu erhalten. Nach Abschluss seiner eigenen Forschung kann er dann seine Entdeckungen in einem kleinen „Forschungsbericht“ zusammenfassen und zurückgeben.
Karpathy gestand, dass er sich derzeit noch nicht sicher ist, wie die endgültige Form aussehen wird, aber dies ist eine grandiose Vorstellung, die weit über das autoresearch-Repository hinausgeht. Theoretisch kann der Agent problemlos Tausende von Commits in beliebigen Zweigstrukturen verarbeiten und zusammenarbeiten. Wenn „Intelligenz, Aufmerksamkeit und Ausdauer“ kein Engpass mehr sind, wird das bestehende (Code-Kollaborations-)Abstraktionssystem großen Druck ausgesetzt sein.
Zwei Tage Erfahrungen: Wird das 20-jährige Arbeitsmuster umgeworfen?
Einige Tage nach der Veröffentlichung des autoresearch-Projekts hat Karpathy erneut über die Fortschritte seiner Experimente berichtet: Er ließ autoresearch etwa zwei Tage lang das nanochat-Modell mit einer Tiefe von 12 eigenständig optimieren. Es hat etwa 20 Änderungen gefunden und den Validierungsverlust des Modells erfolgreich verringert. Darüber hinaus hat er festgestellt, dass alle Optimierungseffekte additiv sind und direkt auf ein größeres Modell mit einer Tiefe von 24 übertragen werden können. Nachdem er alle diese Änderungen integriert hatte, hat er in der praktischen Messung festgestellt, dass die Zeit, die benötigt wird, um das Modell auf das Niveau von GPT-2 zu trainieren, von 2,02 Stunden auf 1,80 Stunden verkürzt wurde, was einer Leistungssteigerung von etwa 11 % entspricht.
„Daraus geht hervor, dass diese Optimierungen wirklich sind und eine echte Leistungssteigerung bringen. Ich dachte, nanochat sei bereits ein Projekt, das ich manuell feinjustiert hatte. Ich hätte nicht gedacht, dass ich mit dieser einfachen und direkten Methode der autonomen Optimierung so beeindruckende Ergebnisse erzielen könnte. Das hat mich etwas überrascht.“ sagte Karpathy begeistert. „Dies war für mich eine völlig neue Erfahrung. In den letzten 20 Jahren bin ich so gewöhnt, die Iterationsoptimierung des neuronalen Netzwerk-Trainings manuell durchzuführen: Ich stelle mir Ideen aus, implementiere sie, überprüfe, ob die Ergebnisse besser geworden sind, entwickle auf der Grundlage der Ergebnisse neue Ideen und suche in Forschungspapieren nach Inspiration. Dies ist der Kern meines täglichen Arbeitsalltags seit 20 Jahren. Jetzt ist es erstaunlich zu sehen, dass der Agent den gesamten Prozess von Anfang bis Ende eigenständig durchführen kann und etwa 700 Änderungsversuche unabhängig vorgenommen hat.“
Außerdem meint Karpathy, dass in Zukunft alle Spitzenlaboratorien im Bereich der großen Modelle diese Methode anwenden werden. Dies ist die ultimative Herausforderung im Bereich der Optimierung von großen Modellen. Natürlich wird die Komplexität dieses Ansatzes bei der Massenanwendung stark zunehmen, denn in der realen Welt müssen weit mehr als nur eine train.py-Datei optimiert werden. Aber letztendlich ist dies nur ein Problem auf der Ebene der technischen Umsetzung, und die technische Umsetzung ist nur eine Frage der Zeit.
Ein konkretes Umsetzungsansatz könnte sein: Man startet eine Agenten-Cluster, lässt sie zusammenarbeiten, um kleine Modelle zu optimieren, und überträgt dann die vielversprechendsten Optimierungslösungen schrittweise auf die Training von größeren Modellen. Die menschlichen Forscher können dann je nach Bedarf in den Prozess eingreifen. Schließlich hat Karpathy vorgeschlagen, dass alle Aufgaben, die effizient bewertet werden können oder über effiziente Proxy-Indikatoren verfügen (z. B. die Validierung der Effekte durch das Training kleiner Modelle), durch eine Agenten-Cluster für die autonome Optimierungsforschung durchgeführt werden können. Man kann sich auch überlegen, ob die von Ihnen untersuchten Probleme ebenfalls für diese Methode geeignet sind.
Es ist erwähnenswert, dass das autoresearch-Projekt jetzt von der globalen Entwicklergemeinschaft übernommen und gemeinsam weiterentwickelt wird. Sie haben eine verteilte Kollaborationsschicht aufgebaut, so dass mehrere Agenten ihre Ergebnisse teilen und die Arbeit aufteilen können. Bis jetzt wurden fast 3000 Experimente durchgeführt und 82 Verbesserungen vorgenommen.
Referenzlinks:
https://x.com/karpathy/status/2030371219518931079?s=20
https://x.com/karpathy/status/2031135152349524125
Dieser Artikel stammt aus dem WeChat-Account „AI Frontline“, bearbeitet von Hua Wei, veröffentlicht von 36Kr mit Genehmigung.