StartseiteArtikel

Das Jahr 2025 der Großen Modelle: 6 Schlüssel-Einsichten vom Gründer von OpenAI, dem AI-Guru "AK"

36氪的朋友们2025-12-22 12:17
Die Entfaltung des Potenzials liegt noch unter 10%.

Am 21. Dezember, chinesischer Standardzeit, hat Andrej Karpathy, einer der Gründer von OpenAI und ein renommierter Künstliche-Intelligenz-Experte, einen tiefgehenden Jahresbericht mit dem Titel „2025 LLM Year in Review“ veröffentlicht.

In dieser Übersicht hat Karpathy ausführlich die zugrunde liegenden Paradigmenwechsel im Bereich der Large Language Models (LLM) im vergangenen Jahr analysiert. Er hat festgestellt, dass das Jahr 2025 den entscheidenden Sprung der KI-Trainingsphilosophie von der reinen „Wahrscheinlichkeitsnachahmung“ zur „Logikschlussfolgerung“ markiert.

Der Kernmotor dieses Wandels liegt in der Reifung des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Durch objektive Rückmeldungsumgebungen wie Mathematik und Code zwingt es das Modell, spontan „Schlussfolgerungsspuren“ zu generieren, die dem menschlichen Denken ähneln. Karpathy ist der Meinung, dass dieses langfristige Reinforcement Learning bereits an den traditionellen Vortrainingsanteilen zerbricht und zum neuen Motor zur Verbesserung der Modellfähigkeiten geworden ist.

Außer der Änderung des technologischen Pfads hat Karpathy auch tiefgreifende Einsichten in die Natur der Künstlichen Intelligenz vorgestellt.

Er beschreibt das aktuelle Wachstumsmuster der KI mit dem Vergleich „Summoning Ghosts“ (Geister beschwören) anstelle von „Evolving/growing Animals“ (Tiere entwickeln/züchten), um zu erklären, warum die aktuellen Large Language Models „zackige“ Leistungscharakteristiken aufweisen – sie können in Spitzenbereichen wie Genies agieren, aber in Grundlagenkenntnissen so anfällig wie Kinder sein.

Darüber hinaus hat Karpathy auch ausführlich über den Aufstieg des „Vibe Coding“, die Praxistauglichkeitstendenz lokalisierter Agenten und die Entwicklung der Benutzeroberfläche von Large Language Models (LLM GUI) gesprochen. Er betont, dass, obwohl die Branche rasant voranschreitet, die Menschheit derzeit noch weniger als 10 % des Potenzials dieses neuen Rechenparadigmas ausgeschöpft hat und der zukünftige Entwicklungsraum noch äußerst groß ist.

Karpathy hat eine harte, aber hoffnungsvolle Realität aufgedeckt: Wir befinden uns am kritischen Punkt des Übergangs von der „Simulation menschlicher Intelligenz“ zur „reinen Maschinenintelligenz“. Mit der Verbreitung von Technologien wie RLVR wird der KI-Wettbewerb im Jahr 2026 nicht länger auf den Wettrüsten um Rechenleistung beschränkt sein, sondern sich auf die tiefe Erforschung des Kernlogikparadigmas von „wie man die KI effizient denken lässt“ konzentrieren.

Im Folgenden der vollständige Text von Karpathys Jahresrückblick:

„2025 LLM Year in Review“

Das Jahr 2025 war ein Jahr voller großer Sprünge und Ungewissheiten im Bereich der Large Language Models. Im Folgenden ist eine Liste der von mir als besonders bemerkenswert und in gewisser Weise überraschend angesehenen „Paradigmenwechsel“ (Paradigm Shifts). Sie haben die Branchenlandschaft tiefgreifend verändert und auch im Denken einen großen Einschlag hinterlassen.

01

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR)

Anfang 2025 sah der Produktionsstack für Large Language Models in allen Labors grob wie folgt aus:

Vortraining (Pretraining, GPT - 2/3 aus dem Jahr 2020)

Supervised Fine - Tuning (SFT, InstructGPT aus dem Jahr 2022)

Reinforcement Learning mit menschlicher Rückmeldung (RLHF, seit 2022)

Lange Zeit war dies das stabile und praktisch bewährte Verfahren zur Ausbildung produktionsreifer Large Language Models. Im Jahr 2025 hat sich jedoch das Reinforcement Learning mit verifizierbaren Belohnungen als die neue Kernphase in diesem Technologiepaket hervorgetan.

Durch das Training von Large Language Models in Umgebungen wie Mathematik und Code - Rätseln, in denen die Belohnungen automatisch verifiziert werden können, bilden die Modelle spontan Strategien, die aus menschlicher Sicht wie „Schlussfolgerungen“ aussehen. Sie lernen, komplexe Probleme in Zwischenschritte zu zerlegen und verschiedene Techniken zur Herleitung von Lösungen zu meistern (siehe die entsprechenden Beispiele in der DeepSeek R1 - Studie).

Derartige Strategien waren in früheren Technologien schwer zu realisieren. Der Kerngrund liegt darin, dass das Modell die optimalen Schlussfolgerungsspuren (Reasoning Traces) oder die Problembehebungsprozesse nicht im Voraus kennen kann und die effektiven Lösungen durch die Optimierung der Belohnungsziele selbstständig erfinden muss.

Im Gegensatz zu den relativ rechenintensiven Feintuning - Phasen wie Supervised Fine - Tuning und Reinforcement Learning mit menschlicher Rückmeldung trainiert das Reinforcement Learning mit verifizierbaren Belohnungen anhand objektiver (nicht manipulierbarer) Belohnungsfunktionen. Dies ermöglicht einen längerfristigen Optimierungsprozess.

Die Praxis hat gezeigt, dass das Reinforcement Learning mit verifizierbaren Belohnungen ein äußerst hohes Verhältnis von „Leistung zu Kosten“ aufweist und sogar viel Rechenleistung aus dem Vortraining in Anspruch nimmt. Daher ist die Verbesserung der Fähigkeiten von Large Language Models im Jahr 2025 hauptsächlich auf die Erschließung des Potenzials dieser neuen Phase in den Labors zurückzuführen.

Insgesamt hat sich die Anzahl der Modellparameter in diesem Jahr nicht wesentlich geändert, aber die Dauer des Reinforcement - Learning - Trainings hat sich stark verlängert. Darüber hinaus bringt das Reinforcement Learning mit verifizierbaren Belohnungen eine neue Anpassungsmöglichkeit (und zugehörige Erweiterungsgesetze) mit sich: Durch die Erzeugung längerer Schlussfolgerungsspuren und die Verlängerung der „Denkzeit“ des Modells kann die Rechenleistung in der Testphase flexibel angepasst und somit die Leistung verbessert werden.

Das o1 - Modell von OpenAI, das Ende 2024 vorgestellt wurde, war die erste öffentliche Präsentation der Technologie des Reinforcement Learning mit verifizierbaren Belohnungen. Die Veröffentlichung des o3 - Modells Anfang 2025 war der deutliche Wendepunkt. Erst dann konnte man die qualitative Verbesserung der Fähigkeiten von Large Language Models spüren.

02

Die Debatte über „Geister“ und „Tiere“

Im Jahr 2025 begann ich (und ich denke, die gesamte Branche) intuitiv die „Wesenform“ der Intelligenz von Large Language Models zu verstehen. Wir befassen uns nicht mit „allmählich sich entwickelnden Tieren“, sondern mit „beschworenen Geistern“.

Alle Bestandteile des Technologiestapels von Large Language Models: die neuronale Netzarchitektur, die Trainingsdaten, die Trainingsalgorithmen, insbesondere die Optimierungsziele, unterscheiden sich grundlegend von der Evolutionslogik biologischer Intelligenz. Daher sind Large Language Models eine neue Art von Entität im Intelligenzraum, und es ist unvermeidlich, dass es zu kognitiven Verzerrungen kommt, wenn man sie mit dem Blickwinkel auf Biologie interpretiert.

Betrachtet man die Natur des Überwachungssignals, so wurde das neuronale Netz des menschlichen Gehirns für das Überleben in Stämmen und die Bewältigung von Dschungelumgebungen optimiert; das neuronale Netz von Large Language Models hingegen hat als Optimierungsziel die Nachahmung menschlicher Texte, die Erzielung von Belohnungen in mathematischen Problemen und die Erlangung von Lob von Menschen in der LM Arena - Rangliste.

Menschliche Intelligenz ist blau, KI - Intelligenz ist rot

Mit der Verbreitung des Reinforcement Learning mit verifizierbaren Belohnungen in verifizierbaren Bereichen wird es zu einem „explosiven Wachstum“ der Fähigkeiten von Large Language Models in diesen spezifischen Bereichen kommen, und insgesamt zeigt sich eine interessante „zackige Leistungscharakteristik“: Sie sind sowohl Genies, die in vielen Bereichen bewandert sind, als auch möglicherweise verwirrte „Schüler“ mit kognitiven Mängeln und können sogar durch einen „Jailbreak - Befehl“ dazu gebracht werden, Benutzerdaten preiszugeben.

Daraus folgend habe ich im Jahr 2025 jegliches Interesse und Vertrauen in verschiedene Benchmarks verloren. Das Kernproblem besteht darin, dass die Konstruktionslogik der Benchmarks fast ausschließlich auf der Basis von „verifizierbaren Umgebungen“ beruht und somit leicht durch Verfahren wie das Training mit Reinforcement Learning mit verifizierbaren Belohnungen oder die Generierung synthetischer Daten „angegriffen“ werden kann.

Bei einem typischen „Ranglisten - Manipulation“ - Prozess werden die Labors zwangsläufig in der Nähe des Merkmalsraums der Benchmarks Mikrotrainingsumgebungen aufbauen und so „intelligente Zacken“ schaffen, die die Testpunkte genau abdecken. Heute ist das „zielgerichtete Training auf Testsets“ zu einer neuen technologischen Praxis geworden.

03

Cursor und die neue Ebene von Large Language Model - Anwendungen

Das bemerkenswerteste an Cursor (abgesehen von seinem explosiven Wachstum im Jahr 2025) ist, dass es eine neue Ebene von Large Language Model - Anwendungen aufzeigt, und es wird allgemein über das „Cursor - Modell“ in bestimmten Bereichen gesprochen.

Wie ich in meinem Vortrag bei Y Combinator dieses Jahres betont habe, liegt der Kernwert von Large Language Model - Anwendungen wie Cursor darin, die Aufruflogik von Large Language Models für bestimmte vertikale Bereiche zu integrieren und zu organisieren. Dies zeigt sich insbesondere in folgenden Aspekten:

- Die Bearbeitung von „Kontext - Engineering“ und die Optimierung der Prompte - Gestaltung und des Kontextmanagements;

- Die Organisation mehrerer Large Language Model - Aufrufe im Hintergrund zu immer komplexeren gerichteten azyklischen Graphen (DAG), um Leistung und Kosten präzise auszugleichen;

- Die Bereitstellung einer anwendungsspezifischen grafischen Benutzeroberfläche für den „Human - in - the - loop“;

- Die Bereitstellung eines einstellbaren „Autonomie - Schiebers“ zur flexiblen Steuerung des Entscheidungsspielraums der KI.

Im Jahr 2025 hat es in der Branche viele Diskussionen über die „Dicke“ dieser neuen Anwendungs Ebene gegeben: Werden die Large Language Model - Labors alle Anwendungsfälle übernehmen? Oder gibt es immer noch ein breites Potenzial für vertikale Large Language Model - Anwendungen?

Meine persönliche Meinung ist, dass die Large Language Model - Labors eher dazu neigen, Modelle wie „Studenten mit sehr starken Allgemeinwissen“ zu entwickeln, während die Large Language Model - Anwendungen diese „Studenten“ durch die Integration privater Daten, Sensoren, Aktoren und Rückkopplungsschleifen gezielt organisieren und feintunen, um sie schließlich zu „Fachteams“ in bestimmten vertikalen Bereichen zu machen.

04

Die „Intelligenz - Agenten“ in den Benutzersystemen

Die Einführung von Claude Code (CC) hat erstmals überzeugend die Kernfähigkeiten von Large Language Model - Agenten gezeigt. Es kann die Werkzeugnutzung und den Schlussfolgerungsprozess in einer Schleife verbinden, um Probleme über einen langen Zeitraum zu lösen. Darüber hinaus fällt mir an CC besonders auf, dass es lokal auf dem Benutzercomputer läuft und auf die lokale private Umgebung, die Daten und den Kontext zugreifen kann.

Meiner Meinung nach war die frühe Exploration von Code/Agenten bei OpenAI fehlgeleitet. Sie konzentrierten sich darauf, Cloud - Container über ChatGPT zu organisieren, anstatt direkt die lokale Umgebung (localhost) zu nutzen. Obwohl die Cloud - basierten Agenten - Cluster scheinbar der „Endform der allgemeinen Künstlichen Intelligenz (AGI)“ nahekommen, ist es in der gegenwärtigen Realität, in der die Fähigkeiten der KI uneinheitlich sind und die Technologie schrittweise entwickelt wird, offensichtlich praktikabler, dass die Agenten direkt auf dem Entwicklercomputer laufen.

Es ist wichtig zu verstehen, dass der Kernunterschied nicht in der „Ausführungsort der KI - Berechnungen“ (Cloud oder lokal) liegt, sondern in anderen Schlüsselmerkmalen: dem eingeschalteten Computer, seiner voreingestellten Umgebung, dem lokalen Kontext, den privaten Daten, den Schlüsselinformationen, der Systemkonfiguration und der geringe Latenzzeit der Mensch - Maschine - Interaktion.

Anthropic hat diese Priorität richtig erkannt und CC in Form einer minimalistischen und eleganten Kommandozeilenoberfläche (CLI) verpackt, was die Benutzerwahrnehmung der KI grundlegend verändert hat – sie ist nicht länger eine Website, die man aktiv besuchen muss (wie der Google - Suchdienst), sondern eine „Intelligenz - Entität“, die in den Benutzercomputern „wohnt“. Dies markiert die Geburt eines neuen und einzigartigen KI - Interaktionsparadigmas.

05

Das „Vibe Coding“ und die Umgestaltung der Softwareentwicklung

Im Jahr 2025 hat die KI einen kritischen Leistungsgrenzwert überschritten, sodass Menschen mit einfachem Englisch leistungsstarke Programme erstellen können und sogar die Existenz des Codes selbst vergessen. Interessanterweise hatte ich überhaupt nicht erwartet, dass das von mir auf Twitter geschaffene Konzept des „Vibe Coding“ so weitreichende Auswirkungen haben würde.

In der Ära des Vibe Coding ist Programmieren nicht länger eine exklusive Fähigkeit von hoch ausgebildeten Fachleuten, sondern eine allgemeine Fähigkeit, die auch normale Menschen erlernen können. Dies bestätigt meine frühere Ansicht in „Power to the people“: Die Large Language Models kehren die traditionelle Logik der Technologiediffusion um.

Im Gegensatz zu allen früheren Technologien profitieren normale Menschen von den Large Language Models weit mehr als Fachleute, Unternehmen und Regierungen. Das Vibe Coding gibt nicht nur den normalen Menschen das Recht auf technologische Kreativität, sondern ermöglicht es auch den professionellen Entwicklern, Softwareprojekte effizient umzusetzen, die sie aufgrund von technologischen Schwierigkeiten oder Kostengründen sonst nicht versucht hätten.

Am Beispiel des von mir beteilgierten Nanochat - Projekts: Ich habe mit Vibe Coding in Rust einen effizienten BPE - Tokenizer erstellt, ohne die tiefen technischen Details von Rust systematisch zu lernen.

Im Jahr 2025 habe ich auch mehrere Demonstrationsprojekte (wie menugen, llm - council usw.) mit Vibe Coding abgeschlossen und sogar einmal schnell eine ganze temporäre Anwendung geschrieben, um einen