StartseiteArtikel

DeepSeek erscheint auf der Titelseite von Nature. Liang Wenfeng führt das Team, um die Zweifel zu beantworten. Die R1-Trainingskosten betragen tatsächlich 294.000 US-Dollar.

新智元2025-09-18 09:27
DeepSeek hat es auf die Titelseite von Nature geschafft, was vollkommen berechtigt ist! Im Januar dieses Jahres führte Liang Wenfeng das neue Werk R1 an, das einen neuen Paradigma für KI-Schlussfolgerungen geschaffen hat – reines Reinforcement Learning (RL) kann die unendlichen Schlussfolgerungsfähigkeiten von Large Language Models (LLMs) auslösen. Nature hat sogar einen Kommentarartikel veröffentlicht, in dem es es hoch lobt.

Gerade jetzt hat DeepSeek - R1 die Titelseite von Nature errungen!

Im Januar dieses Jahres wurde die Studie "DeepSeek - R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" veröffentlicht, und jetzt hat sie erfolgreich die Titelseite einer weltweit renommierten Fachzeitschrift errungen.

Unter der Leitung des Korrespondenzautors Liang Wenfeng hat das Team mit RL einen völlig neuen Weg für die Inferenzfähigkeit von Large Language Models geebnet.

Link zur Studie: https://www.nature.com/articles/s41586 - 025 - 09422 - z

In der Titelseitenempfehlung hat Nature die Errungenschaften von DeepSeek - R1 reichlich gelobt.

Nach der Open - Source - Veröffentlichung ist R1 auf Hugging Face das am beliebtesten Modell geworden, mit über 10,9 Millionen Downloads. Das Wichtigste ist, dass es das weltweit erste mainstream - Large Language Model ist, das einem Peer - Review - Prozess unterzogen wurde.

Interessanterweise wurde in den Supplementary Materials erstmals die Trainingskosten von R1 offen gelegt - 294.000 US - Dollar, eine erstaunlich niedrige Zahl.

Selbst wenn man die Kosten für das Basismodell von etwa 6 Millionen US - Dollar hinzufügt, liegen die Kosten immer noch weit unter denen von OpenAI und Google für die AI - Entwicklung.

Von einer arXiv - Studie bis zur Titelseite von Nature hat das DeepSeek - Team erneut mit seiner Stärke den Weg für die Zukunft der AI - Inferenz bereitet.

R1 gilt als das erste mainstream - LLM, das einem Peer - Review - Prozess unterzogen wurde.

Der Gutachter Lewis Tunstall sagte:

Dies ist ein sehr willkommener Präzedenzfall. Ohne die offene Veröffentlichung des größten Teils des Entwicklungsprozesses wird es uns schwerfallen, das Risiko dieser Systeme einzuschätzen.

Angesichts der Peer - Review - Kommentare hat DeepSeek die anthropomorphen Beschreibungen reduziert und die technischen Details, einschließlich der Art der Trainingsdaten und der Sicherheitseigenschaften des Modells, erweitert.

Der Gutachter Huan Sun sagte:

Der strenge Peer - Review - Prozess hilft, die Wirksamkeit und Nützlichkeit des Modells zu validieren. Andere Unternehmen sollten diesem Beispiel folgen.

Die Entstehung von DeepSeek - R1 - Zero

Der Ausgangspunkt des Forschungsteams war mutig und rein: die völlige Abkehr von der Abhängigkeit von menschlichen Inferenzmustern.

Die vom Menschen definierten Inferenzmuster könnten tatsächlich eher eine Einschränkung sein.

Sie haben sich für ein starkes Basismodell, DeepSeek - V3 Base, entschieden und die traditionelle SFT - Phase übersprungen.

Stattdessen haben sie ein äußerst einfaches Reinforcement - Learning - Framework eingesetzt und dem Modell nur zwei Dinge mitgeteilt:

1. Aufgabenformat: Die Antwort muss aus zwei Teilen bestehen: einem "Denkprozess", der von den <think> - Tags umschlossen wird, und einer "Endantwort", die von den <answer> - Tags umschlossen wird.

2. Belohnungssignal: Belohnung wird basierend auf der Richtigkeit der Endantwort vergeben, unabhängig von der Art des Denkverfahrens.

Ohne die Bewertung der Richtigkeit der Lösungswege und ohne die Führung des Denkstils hat DeepSeek - R1 - Zero seinen "Wildwuchs" begonnen.

Während des gesamten Trainingsverfahrens hat sich die Inferenzfähigkeit von R1 - Zero qualitativ verbessert.

Nehmen wir das AIME 2024 als Beispiel. Seine durchschnittliche Lösungstrefferquote (pass@1) ist von anfänglich 15,6 % auf 77,9 % gestiegen.

In Kombination mit der "Self - Consistency - Decoding" - Technologie liegt die Trefferquote sogar bei 86,7 % - ein Ergebnis, das die durchschnittliche Leistung aller menschlichen Teilnehmer im AIME - Wettbewerb bei weitem übertrifft.

Der "Aha - Moment" der KI

Noch faszinierender ist das Selbstentwicklungverhalten, das es während des Fähigkeitssteigerungsprozesses gezeigt hat.

Automatische Verlängerung der "Denkzeit"

Im Laufe des Trainings hat die Länge des von dem Modell innerhalb der <think> - Tags generierten Textes stetig zugenommen.

Es hat sich selbständig das Lernen von längeren "Denkketten" angenommen, um die Lösungsstrategien zu erkunden und zu optimieren. Manchmal generiert es sogar Hunderte oder Tausende von Tokens, um eine Frage gründlich zu überdenken.

Entstehung von fortschrittlichen Inferenzstrategien

Das Modell löst die Aufgaben nicht mehr linear Schritt für Schritt, sondern beginnt, fortschrittliche Strategien wie "Selbstreflexion" und "systematisches Erkunden alternativer Lösungen" anzuwenden.

Es überprüft seine Zwischenschritte und erkundet sogar aktiv, "Was wäre, wenn ich eine andere Methode anwende?"

Ein interessanter "Aha - Moment"

In einem bestimmten Stadium des Trainings haben die Forscher einen deutlichen "Aha - Moment" beobachtet.

Das heißt, die Häufigkeit, mit der das Modell das Wort "wait" (warten) während des Reflexionsprozesses verwendet, hat plötzlich stark zugenommen.

Dieser Moment markiert eine deutliche Veränderung in der Inferenzstrategie von DeepSeek - R1 - Zero und zeigt deutlich seinen Selbstentwicklungsprozess auf.

Und diese Entwicklung erklärt perfekt die Faszination von Reinforcement Learning:

Man muss es nicht lehren, wie man Aufgaben löst. Man muss nur die richtigen Anreize geben, und es kann sich selbständig Strategien entwickeln, die noch fortschrittlicher sind als die, die der Mensch lehrt.

Der Weg von DeepSeek - R1

Obwohl DeepSeek - R1 - Zero eine göttliche Inferenzfähigkeit gezeigt hat, hat es aufgrund seiner rein auf Inferenz ausgerichteten Trainingsweise Probleme mit der Lesbarkeit, wechselt manchmal zwischen Chinesisch und Englisch und zeigt nur durchschnittliche Leistungen in allgemeinen Fähigkeiten wie Schreiben und offenen Fragen.

Um die Probleme von R1 - Zero zu lösen und seine starke Inferenzfähigkeit breiter anwendbar zu machen, hat das Forschungsteam einen sorgfältig geplanten mehrstufigen Trainingsablauf entwickelt und den zweiten "Verfeinerungs" - Plan gestartet:

1. Cold Start: Zunächst wird das Modell mit Tausenden von hochwertigen Daten, die den menschlichen Gesprächsgewohnheiten entsprechen, vorab feinjustiert, um es zu "sinnvoll sprechen" zu lehren.

2. Erste Reinforcement - Learning - Phase (RL): Wieder wird Reinforcement Learning angewendet, aber dieses Mal ist das Ziel nicht nur die Verbesserung der Inferenz, sondern auch die Wahrung der Sprachkonsistenz und der Gesprächsflüssigkeit.

3. Massive Supervised Fine - Tuning - Phase (SFT): Das Team mischt Inferenzdaten mit einer großen Menge an Nicht - Inferenzdaten (z. B. Schreiben, allgemeine Fragen, Code - Engineering) und führt eine massive Supervised Fine - Tuning - Phase durch. Dies erweitert erheblich das Wissensgebiet und die allgemeinen Fähigkeiten des Modells.

4. Zweite Reinforcement - Learning - Phase (RL): Schließlich wird eine umfassende Reinforcement - Learning - Phase durchgeführt, bei der ein komplexeres Belohnungsmodell verwendet wird, um die Nützlichkeit und Harmlosigkeit des Modells weiter zu verbessern und sein Verhalten den menschlichen Präferenzen anzupassen.

Nach mehreren Runden des Trainings hat DeepSeek - R1 nicht nur seine Leistung auf Benchmarks wie AlpacaEval 2.0 und Arena - Hard, die die allgemeine Befolgung von Anweisungen und die Benutzerpräferenzen messen, um 17 % - 25 % verbessert, sondern auch auf schwierigen Inferenztasks wie Mathematik und Programmierung Spitzenleistungen erbracht.

Enthüllung des "Kochtopfs" von DeepSeek - R1

Jetzt lassen Sie uns in den "Kochtopf" hineinschauen und ihn genauer untersuchen.

Der GRPO - Algorithmus

Im Bereich des AI - Trainings ist der Reinforcement - Learning - Algorithmus PPO (Proximal Policy Optimization) seit langem das "Standardfahrzeug" für die Trainings von Large Language Models. Obwohl er stark ist, ist er auch bekannt für seinen hohen Ressourcenverbrauch und seine komplizierte Implementierung.

Das DeepSeek - Team hat sich für einen klügeren Weg entschieden und den GRPO (Group Relative Policy Optimization) - Algorithmus als Kernantrieb eingesetzt.

PPO ist wie ein äußerst vorsichtiger Trainer. Bei jeder Trainingsaktualisierung beschränkt er streng die Abweichung der neuen Strategie von der alten, um zu verhindern, dass das Modell "aus dem Ruder läuft" und der Trainingsprozess zusammenbricht.

Diese Vorsicht hat ihren Preis. Es wird eine große Menge an Rechenleistung benötigt, um die Stabilität aufrechtzuerhalten.

GRPO hingegen ist wie ein effizienterer Trainer, der mehr an die "Weisheit der Masse" glaubt. Sein Kerngedanke ist:

Bei jedem Training lässt er das Modell für dieselbe Frage eine Gruppe (z. B. 16) unterschiedliche Antworten generieren.

Anstatt einfach nur die beste Antwort zu belohnen, optimiert er das Modell insgesamt basierend auf der "relativen Güte" dieser Gruppe von Antworten.

Genauer gesagt, berechnet er den "Vorteil" (Advantage) jeder Antwort im Vergleich zum Durchschnittswert dieser Gruppe von Antworten. Antworten mit einem großen Vorteil (d. h. bessere Leistung) erhalten ein größeres Belohnungsgewicht, während schlechtere Antworten gedämpft werden.

Dieser Mechanismus des "Wettbewerbs innerhalb der Gruppe und des Lernens aus den besten" vereinfacht den komplizierten Beschränkungsprozess von PPO, reduziert nicht nur erheblich den Ressourcenverbrauch, sondern hat sich in der Praxis auch als gleichermaßen stabil und effizient erwiesen.

Belohnungsdesign

Das Wesen des Reinforcement Learnings besteht darin, das Verhalten des Modells durch Belohnungen (Reward) zu formen. Es bestimmt, in welche Richtung