StartseiteArtikel

DeepSeek Appears on the Cover of "Nature". Led by LIANG Wenfeng, It Responds to Controversies for the First Time

凤凰网科技2025-09-18 15:49
Das Kostensensation von 290.000 US-Dollar

Zusammenfassung: DeepSeek gibt erstmals Antwort auf die Kontroverse um die "Destillation".

Am 17. September 2025 erreichte ein weiterer Höhepunkt für die chinesische Künstliche Intelligenz. Das DeepSeek-AI-Team um Liang Wenfeng und seine Kollegen veröffentlichte in der Zeitschrift "Nature" die Forschungsergebnisse über das Open-Source-Modell DeepSeek-R1 und belegte damit die Titelseite der jeweiligen Ausgabe.

Abbildung | Quelle: Internet

Die Studie zeigt, dass die Inferenzfähigkeit von Large Language Models (LLM) durch reines Reinforcement Learning erheblich verbessert werden kann, wodurch die Abhängigkeit von manuellen Annotationen verringert wird. Im Vergleich zu herkömmlichen Trainingsmethoden zeigt das so trainierte Modell in mathematischen Problemlösungen, Programmierwettbewerben und bei Problemen auf Graduiertenebene im STEM-Bereich eine bessere Leistung.

Hier gibt DeepSeek erstmals Antwort auf die Kontroverse um die "Destillation". In der Kommunikation mit den Gutachtern machte DeepSeek klar, dass R1 nicht durch die Kopie von Inferenzbeispielen, die von OpenAI-Modellen generiert wurden, lernt. Genau wie die meisten anderen Large Language Models wird das Basis-Modell von R1 im Internet trainiert, sodass es bereits vorhandenen AI-generierten Inhalten im Internet ausgesetzt ist.

"Wunder mit niedrigen Kosten": Von 290.000 US-Dollar auf die Weltbühne

Im Bereich der Künstlichen Intelligenz besteht ein hartnäckiges Konsens: Die Schwelle für Spitzen-Large Models liegt nie in der Algorithmenentwicklung, sondern in den Kosten. Beim Training von GPT-4 durch OpenAI schätzt die Außenwelt die Kosten auf über 100 Millionen US-Dollar. Google, Anthropic und Meta konkurrieren ebenfalls mit Budgets im Bereich von mehreren Millionen US-Dollar. Kapital und Rechenleistung sind die entscheidenden Faktoren für die Machtposition.

DeepSeek hat jedoch diese "Stillgelegte Regel" gebrochen. Laut den Details, die das Forschungsteam in den ergänzenden Materialien der Studie offenlegte, betragen die Inferenzkosten von DeepSeek-R1 nur 294.000 US-Dollar, was erstaunlich niedrig ist. Selbst wenn man die Trainingskosten für das Basis-Modell von etwa 6 Millionen US-Dollar hinzufügt, bleiben die Gesamtkosten weit hinter denen ausländischer Konzerne zurück.

Der echte Durchbruch von DeepSeek-R1 liegt nicht nur in den Kosten, sondern auch in der methodischen Innovation.

Das Forschungsteam schrieb in der Studie in "Nature", dass sie einen reinen Reinforcement Learning (RL)-Rahmenwerk anwendeten und den Group Relative Policy Optimization (GRPO)-Algorithmus einführen. Sie belohnen das Modell nur basierend auf der Richtigkeit der endgültigen Antwort, anstatt es dazu zu bringen, den menschlichen Inferenzpfad zu imitieren.

Überraschenderweise führt diese scheinbar "grobe" Trainingsmethode dazu, dass das Modell in der Praxis natürlicherweise hochwertige Verhaltensweisen wie Selbstreflexion, Selbstverifikation und die Generierung längerer Inferenzketten aufweist. Manchmal generiert es sogar Hunderte oder Tausende von Tokens, um ein Problem gründlich zu überdenken.

Dies ist besonders in mathematischen Tests offensichtlich. Die Daten in der Studie zeigen, dass die Genauigkeit von DeepSeek-R1-Zero bei der American Invitational Mathematics Examination (AIME 2024) von 15,6 % auf 77,9 % gestiegen ist und nach der Anwendung der Selbstkonsistenz-Dekodierung sogar 86,7 % erreicht hat, was die durchschnittliche Leistung von Menschen übertrifft.

"Nature" kommentiert, dass dies zeigt, dass das Modell in der Lage ist, komplexe Denkmuster durch Reinforcement Learning selbst zu entwickeln, ohne menschliche Inferenzbeispiele.

Bei der anschließenden mehrstufigen Optimierung (einschließlich RL, Rejection Sampling, supervised fine-tuning und zweitem RL) zeigte die endgültige Version von DeepSeek-R1 nicht nur in mathematischen und Programmieraufgaben hervorragende Leistung, sondern auch in allgemeinen Aufgaben wie Schreiben und Fragen-Antworten Flüssigkeit und Konsistenz. Dies bedeutet, dass DeepSeek nicht "das AI denken lehrt", sondern "das AI lernt, selbst zu denken".

Liang Wenfengs zehnjährige Laufstrecke

Außer dem technologischen Durchbruch verbirgt sich hinter dem Erfolg von DeepSeek-R1 eine weniger bekannte Kampfgeschichte. Liang Wenfeng wurde 1985 in einer gewöhnlichen Familie in Zhanjiang, Guangdong, geboren. Sein Vater war ein Primarschullehrer. Seine Entwicklungspfade sind zwar nicht allzu bekannt, aber in den Details zeigt sich seine frühe Neugier und Hartnäckigkeit.

Im Jahr 2002 studierte Liang Wenfeng mit 17 Jahren Elektrotechnik und Informationstechnik an der Zhejiang-Universität. Fünf Jahre später absolvierte er seinen Master in Informationstechnik und Kommunikationstechnik unter der Leitung von Xiang Zhiyu und konzentrierte sich auf die Forschung in der Maschinellen Vision. Schon in der Masterphase versuchten er und seine Kommilitonen, maschinelles Lernen auf den Finanzmarkt anzuwenden und automatische quantitative Handelsstrategien zu entwickeln - in dem Jahr wütete die globale Finanzkrise. Obwohl es viele Chancen gab, etwa als Wang Tao, der Gründer von DJI, ihn einlud, gemeinsam zu gründen, entschied Liang Wenfeng sich für einen weniger befahrenen Weg: Überzeugt davon, dass die Künstliche Intelligenz die Welt verändern würde, gründete er unabhängig ein Unternehmen.

Nach Abschluss seines Masterstudiums kombinierte Liang Wenfeng zunächst Künstliche Intelligenz-Technologie mit quantitativen Handelsstrategien und gründete Jacobi Investment und Magic Square Technology. Über mehr als zehn Jahre entwickelte sich das Unternehmen stetig. Im Jahr 2023 richtete er seinen Blick auf die allgemeine Künstliche Intelligenz und gründete DeepSeek, um die Entwicklung von Large Language Models zu beginnen. Mit einem Doppelfokus auf Algorithmen und Kosteneffizienz veröffentlichte DeepSeek innerhalb von nur zwei Jahren nacheinander die Modelle V2 und V3. Dies senkte nicht nur die Inferenzkosten von chinesischen Large Language Models, sondern schockierte auch den globalen Markt mit der erstaunlichen Kosteneffizienz.

Liang Wenfengs Philosophie bei der Teamaufbau ist ebenfalls außergewöhnlich. Er setzt auf "Kompetenz vorrangig". Die Kernpositionen werden meist von frisch abgeschlossenen Studenten und jungen Leuten mit nur ein bis zwei Jahren Berufserfahrung besetzt. "Wir finden vielleicht nicht die besten 50 Talente in China, aber wir können sie selbst ausbilden." Diese Überzeugung ist auch der Schlüssel dafür, dass DeepSeek bei niedrigen Kosten eine hohe Inferenzleistung erreichen kann.

Betrachtet man es jetzt, ist der Wert dieser Studie von DeepSeek weit mehr als nur ein leistungsstarkes Modell. Es ist eher eine "methodische Erklärung", die der Welt einen Weg zeigt, wie die Künstliche Intelligenz sich auf eine nachhaltigere Weise entwickeln kann, ohne auf riesige Mengen an annotierten Daten angewiesen zu sein. Es bricht den Zauber der "Kapitalbarriere" und gibt die Initiative für die Entwicklung der Künstlichen Intelligenz wieder in die Hände der wissenschaftlichen Innovation.

Dies ist nicht nur ein Höhepunkt für die chinesische Künstliche Intelligenz, sondern auch ein wichtiger Meilenstein für die globale Künstliche Intelligenz auf dem Weg zur "Inferenzrevolution". Lewis Tunstall, Gutachter von "Nature" und Machine Learning-Engineer bei Hugging Face, meint: "R1 hat eine Revolution eingeleitet." Immer mehr Anwender verbessern ihre bestehenden Large Language Models mit der Methodik von R1.

Der zukünftige Wettbewerb in der Künstlichen Intelligenz wird wahrscheinlich von einem "Rüstungswettlauf um Daten und Rechenleistung" zu einem "Innovationwettlauf um Algorithmen und Weisheit" wechseln. Und DeepSeek-R1 hat den Startschuss für diesen neuen Wettlauf gegeben.

Dieser Artikel stammt aus dem WeChat-Account "Phoenix Tech", Autor: Jiang Fan. Veröffentlicht von 36Kr mit Genehmigung.