Das Jahr 2025 der Großen Modelle: 6 Schlüssel-Einsichten

Wir befinden uns an der kritischen Schwelle des Übergangs von der "simulierten menschlichen Intelligenz" zur "reinen Maschinenintelligenz".

Am 21. Dezember, chinesischer Zeit, hat Andrej Karpathy, einer der Gründer von OpenAI und ein renommierter Künstliche-Intelligenz-Experte, einen tiefgehenden Jahresüberblick mit dem Titel „2025 LLM Year in Review“ veröffentlicht.

In dieser Zusammenfassung hat Karpathy ausführlich die zugrunde liegenden Paradigmenwechsel im Bereich der Large Language Models (LLMs) im vergangenen Jahr analysiert. Er hat festgestellt, dass das Jahr 2025 den entscheidenden Sprung der KI-Trainingsphilosophie von der bloßen „probabilistischen Nachahmung“ zur „logischen Schlussfolgerung“ markiert.

Der Kernmotor für diese Veränderung ist die Reifung des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Durch objektive Rückmeldungsumgebungen wie Mathematik und Code zwingt es das Modell, spontan „Schlussfolgerungsspuren“ zu generieren, die der menschlichen Denkweise ähneln. Karpathy ist der Meinung, dass dieses langfristige Reinforcement Learning bereits an den traditionellen Pretraining-Anteilen nst und sich als neues Motor für die Verbesserung der Modellfähigkeiten etabliert hat.

Außer den Veränderungen in den technischen Ansätzen hat Karpathy auch tiefgreifende Einsichten in die Natur der Intelligenz vorgestellt.

Er verwendet das Bild des „Herbeirufens von Geistern“ (Summoning Ghosts) anstelle des „Entwickelns von Tieren“ (Evolving/growing Animals), um das gegenwärtige Wachstumsmuster der KI zu beschreiben. Dadurch erklärt er, warum die gegenwärtigen Large Language Models ein „gezacktes“ Leistungsverhalten zeigen – sie können in Spitzenbereichen wie Genies agieren, aber bei grundlegenden Allgemeinwissen so unschlüssig sein wie Kinder.

Darüber hinaus hat Karpathy ausführlich über den Aufstieg des „Vibe Coding“, die Tendenz zur Praktikabilität lokaler Agenten und die Entwicklung der Graphical User Interfaces (GUIs) für Large Language Models gesprochen. Er betont, dass, obwohl der Sektor rasant voranschreitet, der Mensch derzeit noch weniger als 10 % des Potenzials dieses neuen Rechenparadigmas ausgeschöpft hat und dass es noch riesige Entwicklungsmöglichkeiten gibt.

Karpathy hat eine harte, aber hoffnungsvolle Realität aufgedeckt: Wir befinden uns am Scheideweg zwischen der „Nachahmung menschlicher Intelligenz“ und der „reinen Maschinenintelligenz“. Mit der Verbreitung von Technologien wie RLVR wird der Wettbewerb in der KI-Industrie im Jahr 2026 nicht mehr nur auf der Rechenleistung basieren, sondern sich auf die Tiefenanalyse des Kernlogikparadigmas von „wie kann man die KI effizient denken lassen“ konzentrieren.

Hier folgt der vollständige Text von Karpathys Jahresüberblick:

„2025 LLM Year in Review“

Das Jahr 2025 war ein Jahr voller großer Sprünge und Ungewissheiten im Bereich der Large Language Models. Hier ist eine Liste von 'Paradigmenwechseln' (Paradigm Shifts), die ich für besonders bemerkenswert und in gewisser Weise überraschend halte. Sie haben das Industrielandschaft tiefgreifend verändert und auch im Denken große Wellen geschlagen.

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR)

Zu Beginn des Jahres 2025 sah der Produktionsstack für Large Language Models in allen Labors in etwa so aus:

Pretraining (2020: GPT-2/3)
Supervised Fine-Tuning (SFT, 2022: InstructGPT)
Reinforcement Learning mit menschlicher Rückmeldung (RLHF, 2022)

Lange Zeit war dies das stabile und bewährte Verfahren für das Training von Large Language Models auf Produktionsniveau. Im Jahr 2025 hat sich jedoch das Reinforcement Learning mit verifizierbaren Belohnungen als die zentrale neue Phase in dieser Technologiekombination hervorgetan.

Indem man Large Language Models in Umgebungen trainiert, in denen Belohnungen wie in Mathematik oder Code-Rätseln automatisch verifiziert werden können, entwickeln die Modelle spontan Strategien, die aus menschlicher Sicht einer „Schlussfolgerung“ ähneln. Sie lernen, komplexe Probleme in Zwischenschritte zu zerlegen und verschiedene Techniken zum Herleiten von Lösungen zu beherrschen (siehe die Beispiele in der DeepSeek R1-Studie).

Derartige Strategien waren in den früheren Technologieparadigmen schwer zu realisieren, hauptsächlich weil das Modell nicht vorab die besten Schlussfolgerungsspuren (Reasoning Traces) oder Problembehebungsprozesse kennen konnte und daher durch die Optimierung auf Belohnungsziele effektive Lösungen selbst entdecken musste.

Im Gegensatz zu den relativ rechenintensiven Fine-Tuning-Phasen wie Supervised Fine-Tuning und Reinforcement Learning mit menschlicher Rückmeldung trainiert das Reinforcement Learning mit verifizierbaren Belohnungen anhand objektiver (unmanipulierbarer) Belohnungsfunktionen. Dies ermöglicht längere Optimierungsprozesse.

Es hat sich gezeigt, dass das Reinforcement Learning mit verifizierbaren Belohnungen ein außerordentlich hohes Verhältnis von „Leistung zu Kosten“ hat und sogar viele Rechenressourcen, die ursprünglich für das Pretraining reserviert waren, in Anspruch nimmt. Daher ist die Verbesserung der Fähigkeiten von Large Language Models im Jahr 2025 hauptsächlich auf die Entdeckung und Freisetzung des „latenten Potenzials“ dieser neuen Phase in den Labors zurückzuführen.

Insgesamt hat sich im Jahr 2025 die Größe der Modellparameter nicht wesentlich geändert, aber die Dauer des Reinforcement Learning-Trainings hat stark zugenommen. Darüber hinaus hat das Reinforcement Learning mit verifizierbaren Belohnungen neue Regulierungsdimensionen (und zugehörige Erweiterungsgesetze) eingeführt: Durch die Erzeugung längerer Schlussfolgerungsspuren und die Verlängerung der „Denkzeit“ des Modells kann die Rechenleistung in der Testphase flexibel angepasst und somit die Leistung verbessert werden.

Das o1-Modell von OpenAI, das Ende 2024 vorgestellt wurde, war die erste öffentliche Präsentation der Technologie des Reinforcement Learning mit verifizierbaren Belohnungen. Die offizielle Wende war jedoch die Veröffentlichung des o3-Modells Anfang 2025. Erst dann konnte man die qualitative Verbesserung der Fähigkeiten von Large Language Models spüren.

Die Debatte um „Geister“ und „Tiere“

Im Jahr 2025 begann ich (und ich glaube, die gesamte Branche) intuitiv die „Wesensform“ der Intelligenz von Large Language Models zu verstehen. Wir stehen nicht vor „langsam sich entwickelnden Tieren“, sondern vor „herbeigerufenen Geistern“.

Alle Bestandteile des Technologiestacks von Large Language Models – die neuronale Netzwerkarchitektur, die Trainingsdaten, die Trainingsalgorithmen und insbesondere die Optimierungsziele – unterscheiden sich grundlegend von der Evolutionslogik biologischer Intelligenz. Daher sind Large Language Models eine völlig neue Art von Entität im Intelligenzraum. Wenn man sie aus der Sicht biologischer Wesen interpretiert, kommt es leicht zu kognitiven Verzerrungen.

Was die Natur des Überwachungssignals betrifft, ist das neuronale Netzwerk des menschlichen Gehirns auf die Anpassung an das Stammesüberleben und die Bewältigung der Dschungelumgebung optimiert, während das neuronale Netzwerk von Large Language Models darauf ausgelegt ist, menschlichen Text zu imitieren, Belohnungen in mathematischen Problemen zu erhalten und Lob von Menschen in der LM Arena-Rangliste zu bekommen.

Menschliche Intelligenz in Blau, Künstliche Intelligenz in Rot

Mit der Verbreitung des Reinforcement Learning mit verifizierbaren Belohnungen in verifizierbaren Bereichen kommt es zu einem „explosiven Wachstum“ der Fähigkeiten von Large Language Models in diesen speziellen Bereichen. Insgesamt zeigt sich ein interessantes „gezacktes“ Leistungsverhalten: Sie können sowohl als Genies in vielen Bereichen agieren als auch wie verwirrte „Schulkinder“ mit kognitiven Defiziten auftreten und können sogar durch einen „Jailbreak-Befehl“ veranlasst werden, Benutzerdaten preiszugeben.

Dementsprechend habe ich im Jahr 2025 jegliches Interesse und Vertrauen in verschiedene Benchmarks verloren. Das Kernproblem ist, dass die meisten Benchmarks auf der Grundlage von „verifizierbaren Umgebungen“ aufgebaut sind und daher leicht durch das Training mit verifizierbaren Belohnungen oder die Generierung synthetischer Daten „angegriffen“ werden können.

Bei einem typischen „Ranglisten-Manipulation“-Prozess werden die Labors zwangsläufig kleine Trainingsumgebungen in der Nähe des Merkmalsraums der Benchmarks aufbauen, um „intelligente Zacken“ zu züchten, die die Testpunkte präzise abdecken. Heute ist das „gerichtete Training auf Testsets“ eine neue technische Operation geworden.

Cursor und die neue Ebene von Large Language Model-Anwendungen

Das bemerkenswerteste an Cursor (außer seinem explosiven Wachstum im Jahr 2025) ist, dass es eine neue Ebene von Large Language Model-Anwendungen aufzeigt, und es wird allgemein über das „Cursor-Modell“ in bestimmten Bereichen diskutiert.

Wie ich in meinem Vortrag bei Y Combinator dieses Jahres betont habe, liegt der Kernwert von Large Language Model-Anwendungen wie Cursor darin, die Logik des Aufrufs von Large Language Models für bestimmte vertikale Bereiche zu integrieren und zu organisieren, was sich in folgenden Aspekten zeigt:

- Die Bearbeitung von „Kontext-Engineering“ und die Optimierung der Prompt-Entwurf und Kontextverwaltung;

- Die Organisation der Aufrufe mehrerer Large Language Models im Hintergrund in immer komplexere gerichtete azyklische Graphen (DAGs), um Leistung und Kosten präzise auszugleichen;

- Die Bereitstellung einer Graphical User Interface, die für die spezifischen Szenarien des „Human-in-the-loop“ geeignet ist;

- Die Bereitstellung eines einstellbaren „Autonomie-Schiebers“ zur flexiblen Steuerung des Entscheidungsspielraums der KI.

Im Jahr 2025 hat es in der Branche viele Diskussionen über die „Dicke“ dieser neuen Anwendungs Ebene gegeben: Werden die Large Language Model-Labore alle Anwendungsfälle dominieren? Oder gibt es immer noch viel Potenzial für vertikale Large Language Model-Anwendungen?

Meiner Meinung nach neigen die Large Language Model-Labore eher dazu, Modelle zu entwickeln, die wie „Studenten mit starken Allgemeinkenntnissen“ sind. Die Large Language Model-Anwendungen organisieren und optimieren diese „Studenten“ dann durch die Integration privater Daten, Sensoren, Aktoren und Rückkopplungsschleifen, um sie schließlich zu „Fachteams“ in bestimmten vertikalen Bereichen zu machen.

Die „bewohnenden“ Intelligenz-Agenten auf den Benutzersystemen

Mit der Veröffentlichung von Claude Code (CC) wurde erstmals überzeugend die Kernfähigkeit von Large Language Model-Agenten demonstriert. Es kann Werkzeuge und Schlussfolgerungsprozesse in einer Schleife verbinden, um langfristige Probleme zu lösen. Darüber hinaus ist mir besonders die lokale Betriebsart von CC aufgefallen: Es kann direkt auf dem Benutzercomputer installiert werden und hat Zugang zu lokalen privaten Umgebungen, Daten und Kontexten.

Meiner Ansicht nach war die frühe Exploration von Code/Agenten bei OpenAI fehlgeleitet. Sie haben sich darauf konzentriert, Cloud-Container über ChatGPT zu organisieren, anstatt direkt die lokale Umgebung (localhost) zu nutzen. Obwohl die Cloud-basierten Agenten-Clustern wie die „Endform der allgemeinen Künstlichen Intelligenz (AGI)“ aussehen mögen, ist es in der gegenwärtigen Realität der ungleichmäßigen KI-Fähigkeiten und des schrittweisen technologischen Fortschritts viel praktikabler, die Agenten direkt auf den Entwicklercomputern laufen zu lassen.

Es ist wichtig zu verstehen, dass der Kernunterschied nicht in der „Ausführungsstelle der KI-Berechnungen“ (Cloud oder lokal) liegt, sondern in anderen Schlüsselfaktoren: dem laufenden Computer, seiner voreingestellten Umgebung, dem lokalen Kontext, privaten Daten, Schlüsselinformationen, Systemkonfigurationen und der reibungslosen Mensch-Maschine-Interaktion.

Anthropic hat diese Priorität richtig erkannt und CC als eine minimalistisch elegante Command Line Interface (CLI) verpackt, was die Benutzerwahrnehmung der KI grundlegend verändert hat – sie ist nicht mehr eine Website, die man aktiv besuchen muss (wie der Google-Suchmaschine), sondern eine intellige Entität, die auf dem Benutzercomputer „wohnt“. Dies markiert den Beginn eines neuen und einzigartigen KI-Interaktionsparadigmas.

Das Vibe Coding revolutioniert die Softwareentwicklung

Im Jahr 2025 hat die KI eine kritische Leistungsgrenze überschritten, sodass Menschen mit einfachem Englisch leistungsstarke Programme erstellen können, ohne einmal an den Code zu denken. Interessanterweise habe ich nie gedacht, dass das von mir auf Twitter erfundene Konzept des „Vibe Coding“ so weitreichende Auswirkungen haben würde.

In der Ära des Vibe Codings ist Programmieren nicht mehr eine exklusive Fähigkeit von hochqualifizierten Fachleuten, sondern eine allgemeine Fähigkeit, die jeder erlernen kann. Dies bestätigt meine früheren Ansichten in „Power to the people“: Large Language Models kehren die traditionelle Logik der Technologieverbreitung um.

Im Gegensatz zu allen früheren Technologien profitieren normale Menschen von Large Language Models viel mehr als Fachleute, Unternehmen und Regierungen. Das Vibe Coding gibt nicht nur den normalen Menschen das Recht, Technologien zu erschaffen, sondern auch den professionellen Entwicklern die Möglichkeit, Softwareprojekte effizient umzusetzen, die sie sonst aufgrund von technischen Schwierigkeiten oder Kosten nicht in Angriff genommen hätten.

Am Beispiel des von mir beteilgten Nanochat-Projekts: Ich habe mit Rust-Vibe Coding einen effizienten BPE-Tokenizer erstellt, ohne die tiefen technischen Details von Rust kennen zu müssen.

Im Jahr 2025 habe ich auch mehrere Demonstrationsprojekte (wie menugen, llm-council usw.) mit Vibe Coding abgeschlossen und sogar einmal schnell eine ganze temporäre Anwendung geschrieben, um einen Bug zu finden. Im Vibe Coding-Modus ist Code billig, sofort einsetzbar, formbar und eignet sich auch für kurzfristige Anwendungen. In Zukunft wird das Vibe Coding die Softwareentwicklungsekosystem grundlegend verändern und die Kernwerte der damit verbundenen Berufe neu definieren.

Der Anfang der Interaktion mit Large Language Models

Das Google Gemini Nano Banana ist eines der bahnbrechendsten und paradigmenwechselnden Modelle im Jahr 2025. In meinem Verständnis ist die Large Language Model-Technologie eine weitere große Revolution im Rechenparadigma seit den Personalcomputern in den 70er und 80er Jahren des letzten Jahrhunderts.

Deshalb werden wir Innovationen auf Basis ähnlicher zugrunde liegender Logiken sehen: Die Large Language Model-Entsprechungen von Personalcomputing, Mikrocontrollern (kognitiver Kern) und dem Internet (Netzwerk von Intelligenz-Agenten) werden allmählich auftauchen.

Insbesondere im

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。