StartseiteArtikel

Der AI-Experte Andrej Karpathy hat seine Jahresbilanz für 2025 veröffentlicht: Die Large Language Models (LLMs) treten in ein neues Zeitalter der "Geisterintelligenz" und des "Atmosphärischen Programmierens" ein.

36氪的朋友们2025-12-22 16:50
Kapaxi: Im Jahr 2025 wendet sich die LLM auf logisches Schließen, und RLVR wird das neue Triebwerk.

Am 21. Dezember (China-Zeit) veröffentlichte Andrej Karpathy, einer der Gründer von OpenAI und ein renommierter Künstliche-Intelligenz-Experte, einen tiefgehenden Jahresüberblick mit dem Titel „2025 LLM Year in Review“.

In diesem Überblick analysierte Karpathy ausführlich die zugrunde liegenden Paradigmenwechsel, die im Bereich der Large Language Models (LLMs) im vergangenen Jahr stattfanden. Er stellte fest, dass das Jahr 2025 einen entscheidenden Sprung in der KI-Trainingsphilosophie markiert hat, von einer reinen „probabilistischen Nachahmung“ hin zu „logischem Schließen“.

Der Kernmotor dieser Veränderung ist die Reifung des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Durch objektive Rückmeldungssysteme wie Mathematik und Code zwingt es das Modell, spontan „Denkspuren“ zu generieren, die dem menschlichen Denken ähneln. Karpathy ist der Meinung, dass dieses langfristige Reinforcement Learning bereits an den traditionellen Pretraining-Anteilen nst, und es ist zum neuen Motor zur Verbesserung der Modellfähigkeiten geworden.

Außer den Veränderungen in den technischen Ansätzen brachte Karpathy auch tiefgründige Einsichten in die Natur der Intelligenz. Er verglich das Wachstumsmuster der gegenwärtigen KI mit dem „Herbeirufen von Geistern“ (Summoning Ghosts) anstatt mit dem „Entwickeln von Tieren“ (Evolving/growing Animals), um zu erklären, warum die gegenwärtigen LLMs ein „gezacktes“ Leistungsbild zeigen – sie können in Spitzenbereichen wie Genies agieren, aber in grundlegenden Dingen wie Kinder aussehen.

Darüber hinaus behandelte Karpathy ausführlich den Aufstieg des „Vibe Coding“, die Praktikabilitätstendenz von lokalisierten Agenten und die Entwicklung der Large Language Model Graphical User Interfaces (LLM GUI). Er betonte, dass, obwohl die Branche rasch voranschreitet, die Menschheit derzeit noch weniger als 10 % des Potenzials dieses neuen Rechenparadigmas ausgeschöpft hat, und es noch riesige Entwicklungsmöglichkeiten gibt.

Karpathy enthüllte eine harte, aber hoffnungsvolle Realität: Wir stehen am Scheideweg zwischen der „Simulation menschlicher Intelligenz“ und der „reinen maschinellen Intelligenz“. Mit der Verbreitung von Technologien wie RLVR wird der KI-Wettbewerb im Jahr 2026 nicht länger nur auf der Rechenleistung basieren, sondern sich auf die Tieferlegung des Kernlogikparadigmas von „wie kann die KI effizient denken“ konzentrieren.

Im Folgenden der vollständige Text von Karpathys Jahresüberblick:

„2025 LLM Year in Review“

Das Jahr 2025 war ein Jahr voller großer Sprünge und Ungewissheiten im Bereich der Large Language Models. Hier ist eine Liste von 'Paradigmenwechseln' (Paradigm Shifts), die ich für besonders bemerkenswert und in gewisser Weise überraschend halte. Sie haben die Branche tiefgreifend verändert und auch in der Denkweise einen großen Einschlag hinterlassen.

01 Reinforcement Learning mit verifizierbaren Belohnungen (RLVR)

Anfang 2025 sah der Produktionsstack für LLMs in allen Labors grob wie folgt aus:

  • Pretraining (2020, GPT-2/3)
  • Supervised Fine-Tuning (SFT, 2022, InstructGPT)
  • Reinforcement Learning mit menschlicher Rückmeldung (RLHF, 2022)

Lange Zeit war dies das stabile und bewährte Verfahren zur Training von produktionsreifen LLMs. Doch im Jahr 2025 trat das Reinforcement Learning mit verifizierbaren Belohnungen in den Vordergrund und wurde zur Kernphase in dieser Technologiekombination.

Durch das Training von LLMs in Umgebungen wie Mathematik und Code-Rätseln, in denen die Belohnungen automatisch verifiziert werden können, entwickeln die Modelle spontan Strategien, die aus menschlicher Sicht wie „Schließen“ wirken. Sie lernen, komplexe Probleme in Zwischenschritte zu zerlegen und verschiedene Techniken zu meistern, um die Lösung zu finden (siehe die Beispiele in der DeepSeek R1 -Studie).

Solche Strategien waren in den früheren Technologieparadigmen schwer zu erreichen. Der Kerngrund ist, dass das Modell nicht im Voraus weiß, wie der optimale Denkpfad (Reasoning Traces) oder der Problembehebungsprozess ist. Es muss die effektive Lösung durch die Optimierung der Belohnungsziele selbst entdecken.

Im Gegensatz zu den relativ rechenintensiven Fine-Tuning-Phasen wie Supervised Fine-Tuning und Reinforcement Learning mit menschlicher Rückmeldung trainiert das Reinforcement Learning mit verifizierbaren Belohnungen anhand von objektiven (unmanipulierbaren) Belohnungsfunktionen. Dies ermöglicht einen längeren Optimierungsprozess.

Die Praxis hat gezeigt, dass das Reinforcement Learning mit verifizierbaren Belohnungen ein sehr hohes Verhältnis von „Leistung zu Kosten“ hat und sogar viel Rechenkapazität, die ursprünglich für das Pretraining reserviert war, in Anspruch nimmt. Daher ist die Verbesserung der LLM-Leistung im Jahr 2025 hauptsächlich auf die Ausnutzung des 'Latentpotenzials' dieser neuen Phase in den Labors zurückzuführen.

Insgesamt hat sich die Größe der Modellparameter in diesem Jahr nicht wesentlich verändert, aber die Dauer des Reinforcement Learning-Trainings hat sich erheblich verlängert. Darüber hinaus bringt das Reinforcement Learning mit verifizierbaren Belohnungen eine neue Regulierungsdimension (und die dazugehörigen Erweiterungsgesetze): Durch die Generierung längerer Denkpfade und die Erhöhung der 'Denkzeit' des Modells kann die Rechenleistung in der Testphase flexibel reguliert und damit die Leistung verbessert werden.

Das o1 -Modell, das OpenAI Ende 2024 veröffentlichte, war die erste öffentliche Präsentation der Technologie des Reinforcement Learning mit verifizierbaren Belohnungen. Die Veröffentlichung des o3 -Modells Anfang 2025 war der deutliche Wendepunkt, als man erstmals den qualitativen Sprung in der Leistung der LLMs spüren konnte.

02 Die Debatte über 'Geister' und 'Tiere' / Gezackte Intelligenz

Im Jahr 2025 begann ich (und ich denke, die gesamte Branche) intuitiv die 'Wesenform' (the 'shape') der LLM-Intelligenz zu verstehen. Wir stehen nicht vor 'allmählich sich entwickelnden Tieren', sondern vor 'herbeigerufenen Geistern'.

Alle Bestandteile des LLM-Technologiestapels: das neuronale Netzwerk, die Trainingsdaten, die Trainingsalgorithmen, insbesondere die Optimierungsziele, unterscheiden sich grundlegend von der Evolutionslogik der biologischen Intelligenz. Daher sind die LLMs eine neue Art von Entität im Intelligenzraum. Wenn man sie aus der Perspektive der Biologie betrachtet, kommt es leicht zu kognitiven Verzerrungen.

Betrachtet man die Natur des Überwachungssignals, so wurde das neuronale Netzwerk des menschlichen Gehirns für das Überleben in Stammesgemeinschaften und die Bewältigung von Dschungelumgebungen optimiert, während das neuronale Netzwerk der LLMs darauf abzielt, menschlichen Text zu imitieren, Belohnungen in mathematischen Problemen zu erhalten und Lob von Menschen in der LM -Arena -Rankingliste zu bekommen.

Menschliche Intelligenz in blau, KI -Intelligenz in rot

Mit der Verbreitung des Reinforcement Learning mit verifizierbaren Belohnungen in verifizierbaren Bereichen kommt es zu einem 'explosiven Wachstum' der Fähigkeiten der LLMs in diesen bestimmten Bereichen. Insgesamt zeigt sich ein interessantes 'gezacktes Leistungsbild': Sie können sowohl Genies in vielen Bereichen sein als auch verwirrte 'Schüler' mit kognitiven Defiziten, und sie können sogar durch eine 'Jailbreak -Anweisung' dazu gebracht werden, Benutzerdaten preiszugeben.

Daraus resultierend habe ich im Jahr 2025 jegliches Interesse und Vertrauen in die verschiedenen Benchmarks verloren. Das Kernproblem ist, dass die meisten Benchmarks auf der Basis von 'verifizierbaren Umgebungen' aufgebaut sind und daher leicht von Techniken wie Reinforcement Learning mit verifizierbaren Belohnungen oder generierten synthetischen Daten 'angegriffen' werden können.

Beim typischen 'Ranking -Optimierungs -Vorgang' werden die Labore zwangsläufig kleine Trainingsumgebungen in der Nähe des Merkmalsraums der Benchmarks aufbauen, um 'Intelligenzzacken' zu züchten, die die Testpunkte präzise abdecken. Heute ist das 'gerichtete Training anhand des Testsets' zu einer neuen Technologiepraxis geworden.

03 Cursor und die neue Ebene der LLM -Anwendungen

Das bemerkenswerteste an Cursor (abgesehen von seinem explosiven Wachstum im Jahr 2025) ist, dass es eine neue Ebene der LLM -Anwendungen aufzeigt, und es wird allgemein über das 'Cursor -Muster' in bestimmten Bereichen diskutiert.

Wie ich in meinem Vortrag bei Y Combinator dieses Jahres betonte, liegt der Kernwert von LLM -Anwendungen wie Cursor darin, die Logik der LLM -Aufrufe für bestimmte vertikale Bereiche zu integrieren und zu organisieren. Dies zeigt sich in folgenden Punkten:

- Die Verwaltung des 'Kontext -Engineerings', die Optimierung der Prompt -Gestaltung und die Kontextverwaltung;

- Die Organisation mehrerer LLM -Aufrufe im Hintergrund zu immer komplexeren gerichteten azyklischen Graphen (DAGs), um Leistung und Kosten präzise auszugleichen;

- Die Bereitstellung einer grafischen Benutzeroberfläche für die 'Mensch -in -der -Schleife' (Human -in -the -loop) -Interaktion, die auf bestimmte Szenarien zugeschnitten ist;

- Die Bereitstellung eines einstellbaren 'Autonomie -Schiebers', um den Bereich der autonomen Entscheidungsfindung der KI flexibel zu steuern.

Im Jahr 2025 gab es in der Branche viele Diskussionen über die 'Dicke' dieser neuen Anwendungs -Ebene: Werden die LLM -Labore alle Anwendungsszenarien übernehmen? Oder gibt es immer noch ein breites Feld für LLM -Anwendungen in vertikalen Bereichen?

Meine persönliche Meinung ist, dass die LLM -Labore eher dazu neigen, Modelle zu entwickeln, die wie 'Studenten mit starken Allgemeinkundekenntnissen' sind. Die LLM -Anwendungen hingegen integrieren private Daten, Sensoren, Aktoren und Rückkopplungsschleifen, um diese 'Studenten' zielgerichtet zu organisieren und zu justieren, um sie schließlich zu 'Fachteams' in bestimmten vertikalen Bereichen zu machen.

04 Claude Code / KI, die auf dem Computer residiert

Die Veröffentlichung von Claude Code (CC) hat erstmals überzeugend die Kernfähigkeiten eines LLM -Agents gezeigt. Es kann die Verwendung von Tools und den Denkprozess in einer Schleife verbinden, um langfristige Problemlösungen zu erzielen. Darüber hinaus fällt mir vor allem die lokale Betriebsmöglichkeit von CC auf: Es kann direkt auf dem Computer des Benutzers installiert werden und hat Zugang zu der lokalen privaten Umgebung, den Daten und dem Kontext.

Meiner Meinung nach war die frühe Exploration von Code/Agenten von OpenAI fehlgeleitet. Sie konzentrierten sich darauf, Cloud -Container über ChatGPT zu organisieren, anstatt direkt die lokale Umgebung (localhost) zu nutzen. Obwohl die Cloud -basierte Agenten -Cluster -Infrastruktur scheinbar der 'Endform der allgemeinen Künstlichen Intelligenz (AGI)' nahe kommt, ist es in der gegenwärtigen Realität, in der die KI -Fähigkeiten uneinheitlich sind und die Technologie schrittweise entwickelt wird, viel praktikabler, dass die Agenten direkt auf dem Computer des Entwicklers laufen.

Es muss klar sein, dass der Kernunterschied nicht in der 'Ausführungsstelle der KI -Berechnungen' (Cloud oder lokal) liegt, sondern in anderen Schlüsselfaktoren: dem laufenden Computergerät, seiner voreingestellten Umgebung, dem lokalen Kontext, den privaten Daten, den Schlüsselinformationen, der Systemkonfiguration und der reibungslosen Mensch -Maschine -Interaktion.

Anthropic hat diese Priorität richtig erkannt und CC in Form einer minimalistischen und eleganten Kommandozeilenoberfläche (CLI) verpackt. Dadurch hat es die Benutzerwahrnehmung der KI komplett neu definiert – sie ist nicht mehr eine Website, die man aktiv besuchen muss (wie der Google -Suchdienst), sondern eine intelligente Entität, die 'im Computer des Benutzers wohnt'. Dies markiert den Beginn eines neuen und einzigartigen KI -Interaktionsparadigmas.

05 Vibe Coding

Im Jahr 2025 hat die KI eine kritische Fähigkeitsgrenze überschritten, sodass Menschen einfach mit natürlicher englischer Sprache leistungsstarke Programme erstellen können, ohne einmal an den Code zu denken. Interessanterweise hatte ich überhaupt nicht erwartet, dass das Konzept des 'Vibe Coding', das ich ursprünglich in einem Twitter -Beitrag geschaffen hatte, so weit verbreitet werden würde.

In der Zeit des Vibe Coding ist Programmieren nicht mehr eine exklusive Fähigkeit von hochqualifizierten Fachleuten, sondern eine allgemeine Fähigkeit, die jeder erlernen kann. Dies bestätigt meine früheren Ansichten in "Power to the people": Die LLMs kehren die traditionelle Logik der Technologiediffusion um.

Im Gegensatz zu allen früheren Technologien profitieren die normalen Menschen von den LLMs viel mehr als die Fachleute, die Unternehmen und die Regierung. Das Vibe Coding gibt nicht nur den normalen Menschen das Recht, Technologien zu erschaffen, sondern auch den professionellen Entwicklern die Möglichkeit, Softwareprojekte effizient umzusetzen, die sie aufgrund von technischen Barrieren oder Kostengründen sonst nie versucht hätten.

Am Beispiel des Nanochat -Projekts, an dem ich beteiligt war, habe ich mit Rust -Vibe Coding einen effizienten BPE -Tokenizer erstellt, ohne die tiefgreifenden technischen Details von Rust kennen zu müssen.

Im Jahr 2025 habe ich auch mehrere Demonstrationsprojekte (wie menugen, llm -council usw.) mit Vibe Coding umgesetzt und sogar einmal ein komplettes temporäres Programm schnell geschrieben, um einen Bug zu finden. Denn im Vibe -Coding -Modus ist der Code billig, sofort einsetzbar, formbar und eignet sich auch für 'einswegige' Anwendungen. In Zukunft wird das Vibe Coding die Softwareentwicklungszene vollständig verändern und die Kernwerte der dazugehörigen Berufe neu definieren.

06 Nano Banana / Large Language Model Graphical User Interface

Das Google Gemini Nano Banana ist eines der aufregendsten und paradig