Ohne Vorwarnung hat DeepSeek R1 plötzlich 86 Seiten an neuen Papieren veröffentlicht. Das ist das wahre Open.
Die R1 -Studie ist auf 86 Seiten angewachsen! DeepSeek beweist der Welt: Open - Source kann nicht nur die Closed - Source - Lösungen einholen, sondern sie sogar unterrichten!
Die ganze Welt ist schockiert!
Vor zwei Tagen hat DeepSeek still und leise die R1 - Studie aktualisiert, von ursprünglich 22 Seiten auf 86 Seiten "geplatzt".
Die neue Studie beweist, dass man die Inferenzfähigkeit von KI einfach durch Reinforcement Learning verbessern kann!
DeepSeek scheint etwas Großes im Schneid zu haben. Einige Internetnutzer spekulieren sogar, dass die Methode des reinen Reinforcement Learnings möglicherweise in der R2 - Version auftauchen könnte.
Durch diese Aktualisierung wurde die ursprüngliche Studie direkt zu einem technischen Bericht, der von der Open - Source - Community vollständig reproduziert werden kann.
Link zur Studie: https://arxiv.org/abs/2501.12948
In der Studie ist der neue Inhalt von DeepSeek - R1 extrem informativ und reich an Wissen -
- Präzises Datenrezept: Es werden klar die Datengrößen (26.000 mathematische Aufgaben, 17.000 Code - Zeilen) sowie der genaue Erstellungsprozess angegeben.
- Erläuterung der Infrastruktur: Schematische Darstellung der vLLM/DualPipe - Einstellungen.
- Aufschlüsselung der Trainingskosten: Insgesamt ca. 294.000 US - Dollar (R1 - Zero hat 198 Stunden H800 - GPU genutzt).
- Nachbesprechung der "fehlgeschlagenen Versuche": Es wird ausführlich erklärt, warum PRM nicht erfolgreich war.
- Modellvergleich: Systematischer Vergleich mit DS - V3, Claude, GPT - 4o (zuvor war nur o1 enthalten).
- 10 - Seiten - Sicherheitsbericht: Detaillierte Erläuterung der Sicherheitsbewertung und Risikoanalyse.
Die Ergebnisse zeigen, dass DeepSeek R1 in vielen Aspekten mit OpenAI o1 gleichwertig ist und sogar o1 - mini, GPT - 4o und Claude 3.5 übertrifft.
Darüber hinaus sind in der Liste der Kernmitwirkenden am Ende dieser Studie die jeweiligen konkreten Beiträge aufgeführt.
Einige Internetnutzer sagen, dass diese Aktualisierung wie ein Lehrbuch ist! Vor allem die Details über die Selbstentwicklung von DeepSeek - R1 - Zero sind wirklich hervorragend.
Übrigens hat die DeepSeek - App vor ein paar Tagen neue Funktionen erhalten - Sprachinput wird jetzt unterstützt. Einige Internetnutzer vermuten, dass sie möglicherweise in die Multimodalität einsteigen wollen.
Im Folgenden werden wir die Kernpunkte der neuesten Studie analysieren.
Die R1 - Version von DeepSeek hat eine riesige Aktualisierung bekommen und ist mit o1 gleichwertig
Zuerst schauen wir uns die genauen Evaluationsergebnisse von DeepSeek - R1 an.
Die neueste Bewertung deckt immer noch umfassende Vergleiche von Aufgaben wie mathematische Inferenz, Codierung, allgemeines Wissen & Verständnis, Tatsachenbezug & Befolgung von Anweisungen ab.
Bei den Bildungswissens - Benchmarks, einschließlich MMLU, MMLU - Pro und GPQA Diamond, übertrifft DeepSeek - R1 insgesamt DS - V3.
Insbesondere bei STEM - relevanten Fragen ist die Genauigkeit deutlich verbessert - Das verdanken wir hauptsächlich dem Reinforcement Learning (RL).
Außerdem zeigt DeepSeek - R1 in der Frage - Antwort - Aufgabe mit langem Kontext (FRAMES) hervorragende Leistung und hat ausgezeichnete Fähigkeiten in der Dokumentenverstehung und - analyse.
In mathematischen und Codierungsaufgaben ist DeepSeek - R1 im Wesentlichen gleichwertig mit OpenAI - o1 - 1217 und liegt deutlich vor anderen Modellen.
In praktischeren Programmieraufgaben ist OpenAI - o1 - 1217 auf Aider besser als DeepSeek - R1, aber auf SWE Verified sind beide Modelle auf gleicher Stufe.
Nach Ansicht von DeepSeek liegt der Grund darin, dass es noch nicht genug RL - Trainingsdaten aus dem Ingenieurwesen gibt, daher kann DeepSeek - R1 seine Fähigkeiten in diesem Bereich noch nicht vollständig entfalten.
Bei der nächsten Version wird man möglicherweise eine deutliche Verbesserung in diesem Bereich beobachten können.
Die folgende Abbildung zeigt den Leistungsvergleich von DeepSeek - R1 und DeepSeek - R1 - Zero mit menschlichen Experten in mehreren Benchmark - Wettbewerben.
- AIME - Mathematikwettbewerb: DeepSeek - R1 hat bereits die durchschnittliche Leistung von Menschen übertroffen.
- Codeforces - Programmierwettbewerb: DeepSeek - R1 hat 93,6 % der Teilnehmer übertroffen und hat eine super Problemlösungsfähigkeit.
- GPQA - Wissenschaftliche Fragestellungen: Menschen haben insgesamt eine stärkere Leistung und übertreffen DeepSeek - R1.
DeepSeek meint, dass DeepSeek - R1 möglicherweise die Leistung von Menschen einholen oder sogar übertreffen könnte, wenn es auch Zugang zum Internet hätte.
Während der manuellen Bewertungsphase wurde die ChatbotArena - Plattform verwendet, und die Leistung von DeepSeek - R1 aus menschlicher Sicht wurde durch die ELO - Punktzahl dargestellt.
Offensichtlich hat R1 hervorragende Ergebnisse erzielt. Insbesondere in der "Stilsteuerung" hat es sich mit OpenAI - o1 und Gemini - Exp - 1206 gleichgesetzt und ist auf Platz 1.
Das Design der "Stilsteuerung" beantwortet direkt eine zentrale Frage: Kann ein Modell die menschlichen Prüfer "beeindrucken", indem es längere, raffiniertere oder ansehnlichere Antworten gibt, auch wenn der Inhalt selbst nicht unbedingt stärker ist?
DeepSeek betont, dass es ein wichtiger Meilenstein ist, dass ein Open - Source - Modell basierend auf der MIT - Lizenz insgesamt gleichwertig mit mehreren Closed - Source - KI - Modellen ist.
Insbesondere wenn man bedenkt, dass die Nutzungskosten von DeepSeek - R1 geringer sind.
Die folgende Abbildung 12 zeigt die Rangfolge in verschiedenen Bewertungsdimensionen und veranschaulicht die starke Leistung von R1 in vielen Bereichen wie Mathematik und Programmierung.
Dies zeigt, dass R1 nicht nur starke Inferenzfähigkeiten hat, sondern auch in verschiedenen praktischen Anwendungsfällen insgesamt sehr gut abschneidet.
Was die Daten betrifft, hat DeepSeek die genauen Größen der RL - Daten und der Fine - Tuning - Daten preisgegeben.
Während der Reinforcement - Learning - Phase ist die Datenverteilung wie folgt: Mathematik (26.000), Code (17.000), STEM (22.000), Logik (15.000), Allgemeinwissen (66.000).
Während der Fine - Tuning - Phase beträgt die Datengröße etwa 800.000, die Inferenz, allgemeine Befehlsaufgaben und Proben zur Format - /Sprachkonsistenz abdecken.
Das Distillieren lässt die Inferenzfähigkeit einfach übertragen
In der Distillationsphase beantwortet DeepSeek die folgende Frage -
Kann die "Inferenzfähigkeit", die DeepSeek - R1 gelernt hat, effektiv und stabil auf kleinere Modelle übertragen werden?
Hier erzeugt DeepSeek als "Lehrermodell" hochwertige Daten mit expliziten Inferenzpfaden und "destilliert" die Inferenzfähigkeit durch SFT auf kleinere "Schülermodelle", anstatt dass die kleinen Modelle erneut RL durchlaufen müssen.
Durch das Distillieren lernt das kleine Modell direkt die von R1 bereits bewährten Inferenzmuster und muss nicht erneut den Reward - Raum erkunden.
In der Studie hat DeepSeek Experimente mit der Distillation von Modellen verschiedener Größen durchgeführt, einschließlich 1,5B, 7B, 8B, 14B, 32B, 70B, und hat dadurch die "Effektivität über verschiedene Größen hinweg" systematisch bestätigt.
Im Vergleich zu Modellen gleicher Größe hat das distillierte Modell in allen Aspekten verbesserte Leistung.
Wir können beobachten, dass die Inferenzfähigkeit nicht auf das große Modell beschränkt ist, sondern durch Daten auf kleinere Modelle übertragen werden kann.