Gerade hat Liang Wenfeng in der "Nature" veröffentlicht.
Letzte Nacht hat DeepSeek erneut Geschichte geschrieben!
Laut einer Meldung von Zhidx am 18. September veröffentlichte am 17. September das DeepSeek-Team unter der Leitung von Liang Wenfeng als Korrespondenzautor eine Forschungsarbeit über das DeepSeek-R1-Inferenzmodell auf der Titelseite der internationalen renommierten Zeitschrift "Nature".
Die Arbeit über DeepSeek-R1 hat erstmals die wichtigen Forschungsergebnisse veröffentlicht, dass rein durch Reinforcement Learning die Inferenzfähigkeit von Large Language Models (LLMs) stimuliert werden kann, was die globalen AI-Forscher inspiriert. Darüber hinaus ist dieses Modell das weltweit beliebteste Open-Source-Inferenzmodell, mit über 10,9 Millionen Downloads auf Hugging Face. Die Anerkennung durch "Nature" ist somit durchaus verdient.
Zugleich ist DeepSeek-R1 auch das erste weltweit von Fachkollegen begutachtete Mainstream-LLM. In einer Editorial hat "Nature" hochgelobt: Fast alle Mainstream-LLMs sind bisher noch nicht unabhängig von Fachkollegen begutachtet worden, und diese Lücke "wurde endlich von DeepSeek geschlossen".
"Nature" meint, dass in der AI-Branche unbewiesene Behauptungen und Hype "alltägliche Praxis" sind, und alles, was DeepSeek tut, ist "ein willkommener Schritt in Richtung Transparenz und Reproduzierbarkeit".
Titel der Titelseite der Zeitschrift "Nature": Selbsthilfe - Reinforcement Learning lehrt LLMs, sich selbst zu verbessern
Die neue Version der DeepSeek-R1-Arbeit in "Nature" unterscheidet sich erheblich von der unveröffentlichten ersten Version im Januar dieses Jahres. Sie enthüllt detailliertere Informationen über das Modelltraining und beantwortet direkt die Zweifel an der "Distillation" beim ersten Release des Modells.
Die DeepSeek-R1-Arbeit in der Zeitschrift "Nature"
In der 64-seitigen Begutachtungsdokumentation hat DeepSeek erklärt, dass alle Daten, die für DeepSeek-V3 Base (das Basismodell von DeepSeek-R1) verwendet wurden, aus dem Internet stammen. Obwohl diese Daten möglicherweise Ergebnisse von GPT-4 enthalten, war dies nicht beabsichtigt, und es gab keine spezielle "Distillation"-Phase.
DeepSeek hat auch in den Ergänzungsdokumenten einen detaillierten Prozess zur Verringerung der Datenkontamination während des Trainings vorgestellt, um zu beweisen, dass das Modell nicht absichtlich Benchmark-Tests in die Trainingsdaten aufnahm, um die Leistung des Modells zu verbessern.
Darüber hinaus hat DeepSeek eine umfassende Sicherheitsbewertung von DeepSeek-R1 durchgeführt und bewiesen, dass es in Bezug auf die Sicherheit den führenden Modellen, die zur gleichen Zeit veröffentlicht wurden, voraus ist.
Die Zeitschrift "Nature" meint, dass mit der zunehmenden Verbreitung der AI-Technologie die nicht verifizierbaren Ankündigungen von LLM-Herstellern potenziell reale Risiken für die Gesellschaft darstellen können. Die Begutachtung durch unabhängige Forscher ist eine wirksame Methode, um den Überhype in der AI-Branche einzudämmen.
Link zur Arbeit:
https://www.nature.com/articles/s41586-025-09422-z#code-availability
Begutachtungsbericht:
https://www.nature.com/articles/s41586-025-09422-z#MOESM2
Ergänzungsdokumente:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf
01.
Die neue Version der Arbeit enthüllt mehrere wichtige Informationen
Umfassende Sicherheitsbewertung von R1
Bevor wir uns mit den Änderungen in der neuen Version der Arbeit befassen, ist es notwendig, uns zunächst mit dem Kerninhalt der DeepSeek-R1-Arbeit vertraut zu machen.
Der Ausgangspunkt der Forschung an DeepSeek-R1 war ein großes Problem, das die AI-Branche damals plagte. Es ist bekannt, dass Inferenz die Fähigkeit von LLMs verbessern kann. Allerdings hängt das Lernen von Chain-of-Thought-Trajektorien durch Daten in der Post-Training-Phase stark von manuellen Annotationen ab, was die Skalierbarkeit einschränkt.
DeepSeek hat versucht, durch Reinforcement Learning die Inferenzfähigkeit des Modells selbst zu entwickeln. Auf der Grundlage von DeepSeek-V3 Base hat DeepSeek GRPO als Reinforcement-Learning-Framework verwendet. Nur die Richtigkeit der endgültigen Vorhersage im Vergleich zur echten Antwort wurde als Belohnungssignal verwendet, ohne dass die Inferenzprozesse eingeschränkt wurden. Schließlich wurde DeepSeek-R1-Zero entwickelt.
DeepSeek-R1-Zero hat durch Reinforcement Learning erfolgreich verbesserte Inferenzstrategien erlernt und tendiert dazu, längere Antworten zu generieren, die in jeder Antwort Überprüfungen, Reflexionen und die Erkundung alternativer Lösungen enthalten.
Die Richtigkeit der Antworten von DeepSeek-R1-Zero steigt mit der Länge der Inferenz, und die durchschnittliche Länge der Antworten steigt auch während des Trainings kontinuierlich
Auf der Grundlage von DeepSeek-R1-Zero hat DeepSeek DeepSeek-R1 entwickelt, indem es mehrstufiges Training mit Reinforcement Learning, Rejection Sampling und Supervised Fine-Tuning kombiniert hat, so dass das Modell sowohl starke Inferenzfähigkeiten als auch eine bessere Anpassung an menschliche Präferenzen aufweist. Darüber hinaus hat das Team ein kleineres Modell durch "Distillation" erstellt und es öffentlich gemacht, um der Forschungsgemeinschaft nutzbare Ressourcen bereitzustellen und die Entwicklung und Anwendung von Chain-of-Thought-Inferenzmodellen voranzutreiben.
Abgesehen von den oben genannten wichtigen Forschungsergebnissen hat DeepSeek in der neuesten Version der Arbeit und anderen Dokumenten eine Reihe von ergänzenden Informationen hinzugefügt, um die Öffentlichkeit tiefer in die Details des Modelltrainings und -betriebs einzuführen.
Die Kontamination von Benchmark-Testdaten ist ein äußerst sensibles Thema - Wenn Hersteller bei der Modellbildung absichtlich oder unabsichtlich Benchmark-Tests und die dazugehörigen Antworten in die Trainingsdaten aufnehmen, besteht die Gefahr, dass das Modell in diesen Tests abnorm hohe Punktzahlen erzielt, was die Fairness der Benchmark-Bewertung beeinträchtigt.
DeepSeek hat angegeben, dass es umfassende Entkontaminierungsmaßnahmen sowohl für die Pre-Training- als auch für die Post-Training-Daten von DeepSeek-R1 ergriffen hat, um die Kontamination von Benchmark-Testdaten zu vermeiden. Am Beispiel der Mathematik: Nur in den Pre-Training-Daten hat der Entkontaminierungsprozess von DeepSeek etwa sechs Millionen potenzielle Texte erkannt und gelöscht.
In der Post-Training-Phase stammen alle mathematikbezogenen Daten aus Wettbewerben vor 2023, und es wurde die gleiche Filterstrategie wie beim Pre-Training angewendet, um sicherzustellen, dass die Trainingsdaten und die Evaluierungsdaten nicht übereinstimmen. Diese Maßnahmen gewährleisten, dass die Evaluierungsergebnisse des Modells seine tatsächliche Fähigkeit zur Problemlösung widerspiegeln und nicht die Erinnerung an die Testdaten.
Dennoch hat DeepSeek zugegeben, dass diese Entkontaminierungsmethode nicht vollständig verhindern kann, dass die Testsets manipuliert werden. Daher kann es weiterhin Kontaminationsprobleme bei einigen Benchmark-Tests geben, die vor 2024 veröffentlicht wurden.
DeepSeek hat auch einen umfassenden Sicherheitsbericht für DeepSeek-R1 hinzugefügt. Im Bericht wird erwähnt, dass DeepSeek-R1 ein externes Risikomanagementsystem bei der Servicebereitstellung eingeführt hat. Dieses System kann nicht nur unsichere Gespräche anhand von Schlüsselwörtern identifizieren, sondern auch direkt mit DeepSeek-V3 eine Risikoprüfung durchführen, um zu entscheiden, ob auf eine Anfrage geantwortet werden soll. DeepSeek empfiehlt den Entwicklern, ein ähnliches Risikomanagementsystem bei der Verwendung von DeepSeek-R1 einzusetzen.
In öffentlichen Sicherheitsbenchmark-Tests und internen Sicherheitsstudien hat DeepSeek-R1 auf den meisten Benchmarks führende Modelle wie Claude-3.7-Sonnet und GPT-4o übertroffen. Die Sicherheitsstufe der Open-Source-Version ist zwar nicht so hoch wie die der Version mit dem externen Risikomanagementsystem, bietet aber dennoch ein mittleres Sicherheitsniveau.
Zu Beginn der Veröffentlichung von DeepSeek-R1 gab es Gerüchte, dass das Modell von OpenAI-Modellen durch "Distillation" abgeleitet wurde. Dies wurde auch von den Gutachtern erwähnt.
DeepSeek hat darauf direkt geantwortet, dass alle Pre-Training-Daten von DeepSeek-V3 Base aus dem Internet stammen und die natürliche Datenverteilung widerspiegeln. "Es ist möglich, dass diese Daten Inhalte enthalten, die von fortschrittlichen Modellen (wie GPT-4) generiert wurden", aber DeepSeek-V3 Base hat keine "Cooling"-Phase mit massiver Supervised Distillation auf synthetischen Datensätzen eingeführt.
Die Daten von DeepSeek-V3 Base reichen bis Juli 2024. Zu diesem Zeitpunkt waren noch keine öffentlichen fortschrittlichen Inferenzmodelle veröffentlicht, was die Wahrscheinlichkeit einer unbeabsichtigten "Distillation" von bestehenden Inferenzmodellen weiter verringert.
Wichtiger noch: Der Kernbeitrag der DeepSeek-R1-Arbeit, nämlich R1-Zero, beinhaltet keine "Distillation" von fortschrittlichen Modellen. Die Reinforcement-Learning-Komponente wurde unabhängig trainiert und ist nicht von der Ausgabe oder Anleitung von GPT-4 oder anderen Modellen mit ähnlichen Fähigkeiten abhängig.
02.
Die DeepSeek-R1-Arbeit schafft ein neues Paradigma für die Forschung an LLMs
"Nature" lobt es für die Schließung der Lücke
In einer Editorial hat "Nature" detailliert die Bedeutung analysiert, dass DeepSeek-R1 den gesamten Peer-Review-Prozess durchlaufen und in der Zeitschrift veröffentlicht wurde.
LLMs verändern schnell die Art und Weise, wie Menschen Wissen erwerben. Dennoch haben die derzeitigen Mainstream-LLMs noch keine unabhängige Peer-Review in wissenschaftlichen Zeitschriften durchlaufen, was eine gravierende Lücke darstellt.
Peer-Review-Publikationen helfen, das Funktionsprinzip von LLMs zu klären und auch die Branche, die Leistung von LLMs mit den Ankündigungen der Hersteller zu vergleichen.
DeepSeek hat diese Situation geändert. DeepSeek hat die DeepSeek-R1-Arbeit am 14. Februar dieses Jahres an "Nature" eingereicht, wurde erst am 17. Juli akzeptiert und am 17. September offiziell veröffentlicht.
In diesem Prozess haben acht externe Experten an der Peer-Review teilgenommen und die Originalität, die Methodik und die Robustheit dieser Arbeit bewertet. In der endgültigen Veröffentlichung wurden sowohl der Gutachterbericht als auch die Antworten der Autoren veröffentlicht.
Zhidx hat auch die Gutachtermeinungen und die Antworten der Autoren zur DeepSeek-R1-Arbeit gründlich gelesen. Dieses Dokument umfasst 64 Seiten, fast das Dreifache der Länge der Arbeit selbst.
Titelseite der Peer-Review-Dokumente von DeepSeek
Die acht Gutachter haben insgesamt über hundert konkrete Vorschläge gemacht, von Details wie Singular und Plural von Wörtern bis hin zur Warnung vor der "Personifizierung" von AI in der Arbeit und der Aufmerksamkeit auf Datenkontamination und Modellsicherheit.
Beispielsweise hat ein Gutachter in den folgenden Änderungsvorschlägen die Unklarheit der Formulierung "DeepSeek-R1-Zero Open-Source machen" schnell erkannt und DeepSeek darauf hingewiesen, dass die Definition des Begriffs "Open-Source" noch umstritten ist und bei der Verwendung entsprechender Formulierungen besondere Vorsicht walten lassen muss.
Dieser Gutachter hat auch DeepSeek aufgefordert, in der Arbeit die Links zu den SFT- und RL-Daten beizufügen, anstatt nur Datenbeispiele bereitzustellen.
Einige Änderungsvorschläge eines Gutachters
DeepSeek hat auf jede Frage der Gutachter sorgfältig geantwortet. Die zuvor erwähnten mehreren Kapitel und Ergänzungsinformationen wurden genau auf Vorschlag der Gutachter hinzugefügt.
Obwohl DeepSeek im Januar dieses Jahres auch einen technischen Bericht über DeepSeek-R1 veröffentlicht hat, meint "Nature", dass der Abstand zwischen solchen technischen Dokumenten und der Realität möglicherweise sehr groß ist.
Im Gegensatz dazu können externe Experten im Peer-Review-Prozess nicht nur passiv Informationen empfangen,