DeepSeek erscheint erstmals auf der Titelseite von "Nature": Ein chinesisches Large Language Model schafft neue Geschichte und tut, was OpenAI nicht gewagt hat.
Heute haben die Forschungsergebnisse des Large Language Models DeepSeek - R1 von DeepSeek als Cover - Artikel in der international renommierten wissenschaftlichen Zeitschrift „Nature“ erschienen.
Im Gegensatz zu den Modellen von OpenAI, die oft Millionen von Dollar an Investitionen erfordern, ist dieses in - house AI - Modell mit nur 300.000 US - Dollar trainiert worden. Es hat nicht nur die US - Aktienmärkte in Schieflage gebracht, sondern auch jetzt die neueste Cover - Seite von Nature errungen.
Bewertung auf der Nature - Coverseite
Der Artikel auf der Nature - Coverseite ist die am Anfang des Jahres von DeepSeek auf arXiv veröffentlichte Studie „DeepSeek - R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning“, also die technische Studie zu R1.
Liste der Autoren der Studie. Liang Wenfeng ist der Korrespondenzautor.
Obwohl es im Großen und Ganzen ähnlich der Studie vom Anfang des Jahres ist, wurden viele Details ergänzt.
Der Haupttext umfasst nur 11 Seiten in zweispaltiger Formatierung, während die Ergänzungsdokumente 83 Seiten umfassen. Die Begutachtung, also die Aufzeichnungen der Diskussionen zwischen den Gutachtern und dem DeepSeek - Team zu bestimmten Fragen der Studie (gewöhnlich als „rebuttal“ bezeichnet), umfasst ebenfalls 64 Seiten.
Diese neu veröffentlichten Informationen lassen uns den detaillierten Trainingsablauf von DeepSeek R1 erkennen. Außerdem hat das Team erstmals die Schlüsselkosten für das Training der Inferenzfähigkeit von R1 offen gelegt, die nur 294.000 US - Dollar betragen.
In den Dokumenten der Begutachtung hat DeepSeek auch Fragen beantwortet, wie etwa, ob der Erfolg von R1 auf „Distillation“ oder sogar „Kopieren“ der Ausgaben stärkerer Modelle wie denen von OpenAI beruht.
Wir haben bewusst keine von OpenAI generierten Inhalte hinzugefügt. Alle Trainingsdaten wurden durch Web - Crawling erfasst.
Warum hat DeepSeek die Nature - Coverseite errungen?
Vielleicht fragen Sie sich auch, warum DeepSeek R1 nicht das stärkste Large Language Model weltweit ist, aber dennoch die Nature - Coverseite errungen hat.
Die Zeitschrift „Nature“ ist die weltweit einflussreichste Fachzeitschrift. Das in den naturwissenschaftlichen Disziplinen oft genannte CNS bezieht sich auf Cell, Nature und Science in der obigen Abbildung. Die Bedeutung der Coverseite ist darüber hinaus noch einmal auf dem höchsten Niveau.
In der AI - Branche hat die Nature - Coverseite im Gegensatz zu der Spitzenkonferenz für Computervision und Mustererkennung CVPR (zweite Stelle in der obigen Abbildung) eine besondere symbolische Bedeutung. Sie ist nicht nur eine Anerkennung für wissenschaftliche Forschungsergebnisse, sondern auch eine Art höchste Anerkennung in der Welt der Wissenschaft.
In den letzten Jahren haben OpenAI, Anthropic und Google verschiedene technische Berichte veröffentlicht, aber keines von ihnen hat sein eigenes Large Language Model der Begutachtung durch Kollegen unterzogen. Der Grund ist einfach:
Einerseits bedeutet die Begutachtung durch Kollegen, dass mehr Details offen gelegt werden müssen, was möglicherweise Geschäftsgeheimnisse preisgeben könnte.
Andererseits werden viele Behauptungen über Large Language Models oft in Zweifel gezogen. Die Begutachtung durch Kollegen erfordert, dass Sie Beweise liefern und externen Fragen standhalten müssen.
Diesmal hat DeepSeek das R1 - Modell in das akademische System eingebracht, damit es von 8 unabhängigen Experten Punkt für Punkt geprüft wurde, und die Gutachtermeinungen und die Antworten der Autoren veröffentlicht.
Dadurch wurde nicht nur der wissenschaftliche Wert von R1 anerkannt, sondern es wurde auch ein neuer Maßstab für die gesamte Branche gesetzt. Large Language Models sind nicht nur die schwarzen Kästen von Unternehmen, sondern können auch der professionellen wissenschaftlichen Prüfung standhalten.
Dies ist ein historischer Moment für die Professionalisierung der Künstlichen Intelligenz und ein wichtiger Grund, warum DeepSeek die Nature - Coverseite errungen hat.
Lewis Tunstall, ein Machine - Learning - Ingenieur auf der Open - Source - AI - Plattform HuggingFace, hat während der Begutachtung gesagt:
Dies ist ein sehr willkommener Präzedenzfall. Wenn wir nicht öffentlich teilen, wie der Großteil dieses Prozesses geregelt ist, ist es schwierig, einzuschätzen, ob diese Systeme Risiken bergen.
Die Redaktion von Nature hat auch einen speziellen Artikel veröffentlicht, in dem sie andere Unternehmen aufruft, ihre Large Language Models ebenfalls der Begutachtung durch Kollegen zu unterziehen.
In diesem Empfehlungsartikel hat die Redaktion von Nature speziell auf die Vorteile der Begutachtung durch Kollegen hingewiesen.
Die Begutachtung durch unabhängige Forscher ist eine Möglichkeit, die Hype in der Künstlichen - Intelligenz - Branche zu beruhigen.
Im Gegensatz zu den technischen Berichten und Blogs, die wir oft lesen (in der Branche als Modellkarten/Systemkarten bezeichnet), akzeptiert die Begutachtung durch Kollegen nicht einfach Informationen in einer Richtung, sondern stellt sicher, dass die Autoren ihre Behauptungen untermauern. Wenn wir beispielsweise auf die Präsentationen von Large Language Models schauen, behaupten die Unternehmen oft, dass ihre Modelle in bestimmten Benchmarks den ersten Platz belegt haben.
Aber die Begutachtung durch Kollegen kann die AI - Entwickler in Schach halten und verhindern, dass sie die Benchmarks wählen, die am besten die Leistung ihres Modells zeigen, um sich selbst „die Hausaufgaben zu korrigieren“. Den Benchmarks kann nämlich manipuliert werden, um die Leistung eines Modells zu überschätzen.
Wir haben einige der Schlüssel - Fragen und Antworten aus den Begutachtungsdokumenten hier ausgewählt.
Frage: Das Basis - Modell (DeepSeek - V3 - Base) könnte während der Vorhersagephase auf eine große Menge an Inferenzdaten zugreifen, die von anderen Modellen (z. B. Modellen von OpenAI) generiert wurden, was die Wirkung des RL - Verfahrens überschätzen lässt.
Antwort: Wir haben als Basis - Modell das Modell Qwen2 - 7B gewählt, das vor der Veröffentlichung irgendeines fortschrittlichen Inferenzmodells veröffentlicht wurde. Die Experimentergebnisse zeigen, dass die Inferenzfähigkeit von Qwen2 - 7B - Zero nach dem Training mit unserer reinen Verstärkungslernmethode weit über die des ursprünglichen Modells und des GPT - 4o - Modells zur gleichen Zeit hinausgeht.
Dieses Experiment beweist eindrucksvoll, dass unser RL - Framework in der Lage ist, auf einem unverseuchten Basis - Modell eigenständig fortschrittliche Inferenzfähigkeiten zu entwickeln, anstatt einfach die Muster in den Vorhersagedaten zu reproduzieren.
Frage: In Bezug auf die Bewertung der Kontamination, aber von unterschiedlicher Natur, möchten wir wissen, ob es Beispiele gibt, bei denen die Möglichkeit besteht, dass sie von Modellen anderer Unternehmen generiert wurden, wie die Medien andeuten.
Beispielsweise könnten Daten, die direkt oder indirekt aus Benchmark - Daten oder aus dem Internet stammen und möglicherweise für das Training oder das Verstärkungslernen verwendet werden, Inhalte enthalten, die von Modellen von OpenAI oder anderen Anbietern generiert wurden.
Dies würde das DeepSeek - Modell zu einem Teil der „Distillation“ von OpenAI - Modellen machen.
Antwort: Wir wissen, dass die Modell - Distillation ein weit verbreitetes Thema in der Entwicklung von DeepSeek - Modellen ist.
Während der Vorhersagephase geben wir zu, dass die gesammelten Internetdaten möglicherweise Inhalte enthalten, die von fortschrittlichen Modellen (z. B. GPT - 4) generiert wurden. Angesichts der breiten Verbreitung von synthetischen Inhalten im Internet ist dies bei der aktuellen Training von Large Language Models jedoch unvermeidlich.
Aber der Kernbeitrag dieser Studie, R1 - Zero, beinhaltet keine Distillation von fortschrittlichen Modellen. Die Komponente des Verstärkungslernens wird unabhängig trainiert und hängt nicht von den Ausgaben oder Anweisungen von Modellen wie GPT - 4 ab.
Link zum vollständigen Begutachtungsdokument 🔗: https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf
Es kann der Begutachtung standhalten, weil die Technologie stark genug ist
Abgesehen davon, dass es das erste Large Language Model ist, das einer unabhängigen Begutachtung durch Kollegen unterzogen wurde, zeichnet sich DeepSeek R1 auch durch bemerkenswerte technologische Durchbrüche aus.
Der wichtigste Beitrag von DeepSeek - R1 besteht darin, zu beweisen, dass reines Verstärkungslernen (pure reinforcement learning, RL) effektiv die Inferenzfähigkeit eines LLM stimulieren kann, ohne auf menschliche annotierte Denkpfade angewiesen zu sein. Das Modell lernt selbstständig zu schließen.
Verstärkungslernframework
Um die Inferenzfähigkeit traditioneller Large Language Models zu verbessern, mussten in der Regel Menschen eine große Anzahl von Denkpfaden (chain - of - thought) manuell angeben, damit das Modell diese imitieren kann. Das Problem dabei ist, dass dies manuelle Annotation erfordert, was teuer und nicht nachhaltig ist. Zweitens ist das Modell auf das menschliche Denken beschränkt und kann nur die Muster des Menschen lernen, was die Exploration neuer Inferenzpfade erschwert.
Die Methode von R1 ist völlig anders. Es gibt dem Modell nur ein Belohnungssignal: „Wenn die Antwort richtig ist, gibt es Punkte; wenn sie falsch ist, werden Punkte abgezogen.“ Es gibt keine Vorgaben für die Zwischenschritte der Inferenz, und das Modell kann selbstständig explorieren.
Das Ergebnis ist, dass während des Trainings von R1 Verhaltensweisen wie „Selbstreflexion, Überprüfung und dynamische Anpassung“ auftreten. Beispielsweise sagt es während der Antwort: „Warte mal, ich muss diesen Schritt nochmal überprüfen.“ Solche Reflexionsabschnitte sind die sogenannten auftauchende Inferenzfähigkeiten.
Die Benchmark - Leistung von DeepSeek - R1 und DeepSeekR1 - Zero wurde mit den menschlichen Ergebnissen auf verschiedenen Datensätzen verglichen.
Bei den öffentlichen Tests erreichte R1 eine Genauigkeit von 77,9% bei der Mathematikolympiade AIME 2024, weit über dem menschlichen Durchschnitt. In einigen Codierungs - und naturwissenschaftlichen Inferenztasks übertraf es sogar GPT - 4.
In den detaillierteren Ergänzungsdokumenten hat DeepSeek die Trainingsdetails von R1, den genauen Weg, wie R1 - Zero zu R1 entwickelt wurde, sowie die umfassende Evaluierung von R1, einschließlich Mehrsprachigkeit, Sicherheit und Risikomanagement, Stabilität usw., veröffentlicht.