StartseiteArtikel

Die Studie DeepSeek-R1 ist auf der Titelseite von Nature erschienen. Der Korrespondenzautor ist Liang Wenfeng.

机器之心2025-09-18 08:43
So überraschend! Und doch völlig berechtigt! Auf der Titelseite der neuesten Ausgabe von Nature befindet sich tatsächlich die Studie von DeepSeek-R1.

So überraschend!

Und dennoch durchaus verdient!

Die neueste Ausgabe der Nature hat tatsächlich die Forschung von DeepSeek-R1.

Das ist die im Januar dieses Jahres von DeepSeek auf arXiv veröffentlichte Studie "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning". Der Korrespondenzautor dieser Nature-Studie ist genau Liang Wenfeng.

Link zur Studie: https://www.nature.com/articles/s41586-025-09422-z

In der Empfehlung auf der Titelseite schreibt die Nature:

Wenn große Modelle in der Lage sind, die Schritte zu planen, die zur Lösung eines Problems erforderlich sind, können sie das Problem in der Regel besser lösen. Diese Art von "Schließen" ähnelt der Vorgehensweise des Menschen bei der Lösung komplexerer Probleme, stellt jedoch eine enorme Herausforderung für die Künstliche Intelligenz dar und erfordert manuelle Eingriffe zur Hinzufügung von Labels und Anmerkungen. In dieser Wochenausgabe enthüllen die Forscher von DeepSeek, wie sie ein Modell mit minimalem manuellen Input trainieren können, um es zum Schließen zu bringen.

Das DeepSeek-R1-Modell wird mit Hilfe von Reinforcement Learning trainiert. Bei diesem Lernverfahren erhält das Modell für eine korrekte Lösung von mathematischen Problemen eine hohe Punktzahl und wird für falsche Antworten bestraft. Infolgedessen lernt es, zu schließen - Schritt für Schritt ein Problem zu lösen und diese Schritte aufzuzeigen - und ist damit wahrscheinlicher in der Lage, die richtige Antwort zu finden. Dies ermöglicht es DeepSeek-R1, sich selbst zu validieren und zu reflektieren, indem es seine Leistung vor der Antwort auf ein neues Problem prüft, und verbessert somit seine Leistung bei Programmieraufgaben und wissenschaftlichen Problemen auf Graduierten-Niveau.

Darüber hinaus lobt die Nature in dieser Ausgabe das offene Modell von DeepSeek-R1 ausdrücklich.

Es ist bemerkenswert, dass R1 als das erste große Sprachmodell gilt, das die Peer-Review-Prozedur einer renommierten wissenschaftlichen Zeitschrift bestanden hat.

Lewis Tunstall, ein Machine-Learning-Ingenieur von Hugging Face und einer der Gutachter dieser Studie, sagt dazu: "Dies ist ein willkommener Präzedenzfall. Ohne eine Branchennorm, die die öffentliche Teilung des Großteils des Entwicklungsprozesses vorsieht, wird es schwierig sein, die potenziellen Risiken dieser Systeme einzuschätzen."

Um auf die Gutachterkommentare zu reagieren, haben das DeepSeek-Team nicht nur in der Studie die anthropomorphe Beschreibung des Modells vermieden, sondern auch technische Details zur Art der Trainingsdaten und zur Sicherheit hinzugefügt. Huan Sun, ein AI-Forscher an der Ohio State University, kommentiert: "Eine strenge Peer-Review-Prozedur kann zweifellos die Zuverlässigkeit und den praktischen Nutzen eines Modells wirksam validieren. Andere Unternehmen sollten diesem Beispiel folgen."

Es ist offensichtlich, dass die aktuelle AI-Branche voller beeindruckender Demos auf Pressesprechern und ständig neuer Rekordwerte in den Rankings ist.

Aber wie in der Studie erwähnt, können Benchmark-Tests "manipuliert" werden. Die Überprüfung des Designs, der Methodik und der Einschränkungen eines Modells durch unabhängige externe Experten kann die "Wasserfüllung" daraus effektiv entfernen.

Die Peer-Review-Prozedur fungiert als ein unparteiischer "Torhüter", der AI-Unternehmen fordert, von der Selbstbehauptung hin zu einer Begründung ihrer Ansprüche mit soliden Beweisen und reproduzierbaren Verfahren überzugehen.

Daher hat die Studie zu DeepSeek-R1 zwar an sich einen wissenschaftlichen Wert, aber als das erste große Sprachmodell, das die Peer-Review-Prozedur einer etablierten Fachzeitschrift bestanden hat, könnte ihr "Verfahrenswert" noch weitreichender sein.

Es ist vorhersehbar, dass die Einbeziehung von großen Sprachmodellen in ein unabhängiges Peer-Review-System ein entscheidender Schritt vom "Technikwettlauf" hin zur "wissenschaftlichen Disziplin" ist und für die Bekämpfung von Branchenmissständen und den Aufbau von Vertrauen bei der Öffentlichkeit von entscheidender Bedeutung ist.

Als nächstes lassen Sie uns diese sensationelle Studie noch einmal zusammenfassen. Aber ich empfehle auch, die in der Nature veröffentlichte Studie genauer zu lesen, da dort noch weitere Details enthalten sind:

Das mehrstufige Pipeline von DeepSeek-R1

Bisherige Studien haben sich hauptsächlich auf eine große Menge an überwachten Daten gestützt, um die Leistung der Modelle zu verbessern. Das Entwicklungsteam von DeepSeek hat dagegen einen völlig neuen Ansatz verfolgt: Selbst ohne supervised fine-tuning (SFT) als Cold-Start kann durch umfangreiches Reinforcement Learning die Schließfähigkeit eines Modells erheblich verbessert werden. Wenn man noch eine kleine Menge an Cold-Start-Daten hinzufügt, wird das Ergebnis noch besser.

Um dies zu erreichen, haben sie DeepSeek-R1-Zero entwickelt. Genauer gesagt, hat DeepSeek-R1-Zero hauptsächlich drei einzigartige Entwürfe:

Erstens wird Grouped Relative Policy Optimization (GRPO) eingesetzt, um die Trainingskosten zu senken. GRPO erfordert keine Bewertungsmodell in der gleichen Größe wie das Strategiemodell, sondern schätzt die Basislinie direkt aus den Gruppenpunkten.

Zweitens ist die Belohnungsgestaltung. Die Art und Weise, wie die Belohnung gestaltet wird, bestimmt die Richtung der RL-Optimierung. Die Lösung von DeepSeek besteht darin, zwei komplementäre Belohnungsmechanismen, nämlich Genauigkeit und Format, zu verwenden.

Drittens ist das Trainings-Template. Auf der Grundlage von GRPO und der Belohnungsgestaltung hat das Entwicklungsteam ein einfaches Template wie in Tabelle 1 gezeigt entwickelt, um das Basismodell zu leiten. Dieses Template verlangt, dass DeepSeek-R1-Zero zuerst den Schließprozess angibt und dann die endgültige Antwort liefert. Diese Gestaltung regelt nur die grundlegende Struktur und übt keine Beschränkungen oder Vorurteile auf den Inhalt aus, z. B. wird nicht erzwungen, dass reflektierendes Schließen oder eine bestimmte Problemlösungsmethode verwendet wird. Diese minimale Intervention ermöglicht es, den Fortschritt des Modells bei der RL klar zu beobachten.

Während des Trainings hat DeepSeek-R1-Zero eine bemerkenswerte Fähigkeit zur Selbstentwicklung gezeigt. Es lernt, Hunderte bis Tausende von Schließ-Tokens zu generieren und kann so tiefer in den Denkprozess eintauchen und ihn verbessern.

Mit fortschreitendem Training entwickelt das Modell auch einige fortschrittliche Verhaltensweisen, wie z. B. die Fähigkeit zur Reflexion und die Exploration verschiedener Problemlösungsmethoden. Diese sind nicht voreingestellt, sondern entstehen natürlich im Rahmen des Reinforcement-Learning-Umfelds.

Besonders erwähnenswert ist, dass das Entwicklungsteam einen interessanten "Aha-Moment" beobachtet hat. In der mittleren Phase des Trainings hat DeepSeek-R1-Zero gelernt, die Denkzeit durch die Neubewertung der ursprünglichen Methode sinnvoller zu verteilen. Dies könnte die Magie des Reinforcement Learnings sein: Wenn man das richtige Belohnungssystem bereitstellt, kann das Modell selbständig fortschrittliche Problemlösestrategien entwickeln.

Aber DeepSeek-R1-Zero hat dennoch einige Einschränkungen, wie z. B. die schlechte Lesbarkeit der Antworten und die Vermischung von Sprachen.

Reinforcement Learning mit Cold-Start

Im Gegensatz zu DeepSeek-R1-Zero hat das Entwicklungsteam für R1 eine kleine Menge an langfristigen Chain-of-Thought (CoT)-Daten erstellt und gesammelt, um das Basismodell in der anfänglichen Phase des RL-Trainings zu stabilisieren. Um diese Daten zu sammeln, hat das Team verschiedene Methoden ausprobiert: Beispielsweise die Verwendung von wenigen Beispielen mit langem CoT als Hinweis, die direkte Aufforderung des Modells, detaillierte Antworten durch Reflexion und Validierung zu generieren, die Sammlung der Ausgabe von DeepSeek-R1-Zero in einem lesbaren Format und die Verfeinerung der Ergebnisse durch manuelle Annotatoren.

DeepSeek hat Tausende von Cold-Start-Daten gesammelt, um DeepSeek-V3-Base als Ausgangspunkt für das RL zu finetunen. Im Vergleich zu DeepSeek-R1-Zero haben die Cold-Start-Daten die folgenden Vorteile:

Lesbarkeit: Eine der Hauptbeschränkungen von DeepSeek-R1-Zero ist, dass der Inhalt in der Regel nicht lesbar ist. Die Antworten können verschiedene Sprachen mischen oder fehlen an Markdown-Formatierungen, um die Antwort für den Benutzer hervorzuheben. Im Gegensatz dazu hat das Entwicklungsteam beim Erstellen der Cold-Start-Daten für R1 ein lesbares Format entworfen, das am Ende jeder Antwort eine Zusammenfassung enthält und unleserliche Antworten herausfiltert.

Potenzial: Durch die sorgfältige Gestaltung eines Cold-Start-Datenmusters mit menschlichen Vorwissen hat das Team eine bessere Leistung im Vergleich zu DeepSeek-R1-Zero beobachtet. Das Team glaubt, dass iteratives Training eine bessere Methode für Schließmodelle ist.

Schlussfolgerungsorientiertes Reinforcement Learning

Nach dem Finetuning von DeepSeek-V3-Base mit Cold-Start-Daten hat das Team den gleichen umfangreichen Reinforcement-Learning-Trainingsablauf wie bei DeepSeek-R1-Zero angewandt. Dieser Schritt zielt darauf ab, die Schließfähigkeit des Modells, insbesondere bei auf Schlussfolgerungen ausgerichteten Aufgaben wie Programmierung, Mathematik, Wissenschaft und logischem Schließen, zu verbessern.

Um das Problem der Sprachenmischung zu lindern, hat das Team im RL-Training eine Belohnung für sprachliche Konsistenz eingeführt, die als Anteil der Wörter in der Zielsprache im CoT berechnet wird. Obwohl Ablationsversuche gezeigt haben, dass diese Ausrichtung zu einer leichten Verschlechterung der Modellleistung führt, entspricht diese Belohnung den menschlichen Vorlieben und ist besser lesbar.

Schließlich hat das Team die Genauigkeit bei Schlussfolgerungsaufgaben und die Belohnung für sprachliche Konsistenz direkt addiert, um die endgültige Belohnung zu bilden. Anschließend wird das finetunierte Modell mit Reinforcement Learning (RL) trainiert, bis es bei den Schlussfolgerungsaufgaben konvergiert.

Rejection Sampling und Supervised Fine-Tuning

Wenn das schlussfolgerungsorientierte Reinforcement Learning konvergiert ist, nutzt das Team die generierten Checkpoints, um für die folgenden Runden SFT (Supervised Fine-Tuning)-Daten zu sammeln. Dieser Schritt kombiniert Daten aus anderen Bereichen, um die Fähigkeit des Modells bei Schreibaufgaben, Rollenspielen und anderen allgemeinen Aufgaben zu verbessern.

Das Team hat die Schlussfolgerungshinweise und -trajektorien durch das Durchführen von Rejection Sampling aus den Checkpoints des obigen Reinforcement-Learning-Trainings zusammengestellt. In diesem Schritt wird der Datensatz durch die Einbeziehung anderer Daten erweitert, wobei einige Daten ein generiertes Belohnungsmodell verwenden, das die Grundwahrheiten und die Modellvorhersagen in DeepSeek-V3 eingibt, um eine Beurteilung vorzunehmen.

Darüber hinaus hat das Team Gedankenketten mit gemischten Sprachen, langen Absätzen und Codeblöcken herausgefiltert. Für jeden Hinweis ziehen sie mehrere Antworten und behalten nur die richtigen. Am Ende hat das Team etwa 600.000 trainingsrelevante Schlussfolgerungsbeispiele gesammelt.

Reinforcement Learning für alle Szenarien

Um das Modell noch besser an die menschlichen Vorlieben anzupassen, wird hier eine zweite Phase des Reinforcement Learnings durchgeführt, die darauf abzielt, die Nützlichkeit und Harmlosigkeit des Modells zu verbessern und gleichzeitig seine Schließfähigkeit zu verfeinern.

Genauer gesagt, nutzen die Forscher eine Kombination aus Belohnungssignalen und verschiedenen Hinweisdistributionen, um das Modell zu trainieren. Für Schlussfolgerungsdaten folgt man der Methode, die in DeepSeek-R1-Zero beschrieben ist, die auf regelbasierten Belohnungen basiert, um das Lernverfahren in den Bereichen Mathematik, Programmierung und logischem Schließen zu leiten; für allgemeine Daten wird ein Belohnungsmodell verwendet, um die menschlichen Vorlieben in komplexen und feinen Szenarien einzufangen.

Schließlich ermöglicht die Integration von Belohnungssignalen und diversen Datendistributionen die Ausbildung eines Modells, das sich in der Schließung hervorragend bewährt und gleichzeitig die Nützlichkeit und Harmlosigkeit priorisiert.

Distillation: Kleine Modelle mit Schließfähigkeit ausstatten

Um kleinere Modelle mit der gleichen Schließfähigkeit wie DeepSeek-R1 auszustatten, hat das Team auch direkt 800.000 Beispiele aus DeepSeek-R1 verwendet, um Open-Source-Modelle wie Qwen und Llama zu finetunen. Die Forschungsergebnisse zeigen, dass diese einfache Distillationsmethode die Schließfähigkeit kleiner Modelle erheblich verbessert.

Dank dieser zahlreichen technologischen Innovationen zeigen umfangreiche Benchmark-Tests des Teams, dass DeepSeek-R1 eine Leistung erreicht, die mit der der besten Schließmodelle in der Branche vergleichbar ist. Die genauen Ergebnisse können Sie hier sehen: