Wie viele "Guo Daya" gibt es noch bei DeepSeek? Nachdem wir 27 Artikel durchforstet haben, haben wir eine Gruppe "Mehrkantkrieger" entdeckt.
In den letzten 12 Monaten hat es keine Unterbrechung bei den Nachrichten über die Personalmobilität um DeepSeek gegeben. Von der frühen Abmeldung von Luo Fuli bis hin zu den Autoren des ersten großen Modells, Wang Bingxuan, den Multimodalkern Ruan Chong und den Kernautoren von R1, Guo Daya, die nacheinander in andere Unternehmen gewechselt sind.
Wird die technologische Barriere von DeepSeek locker, wenn die Kernautoren nacheinander weggeschleust werden?
Wir beschließen, dieses Problem aus einer anderen Perspektive zu betrachten.
Wir haben mit Codex und Python 27 Kernpublikationen und technische Berichte von DeepSeek aus den letzten zwei Jahren gesichtet und die signierten Autoren stückweise zerlegt. Bei den großen technischen Berichten wie DeepSeek V2, V3, V3.2 und V4, bei denen die Rollen aufgeteilt werden können, behalten wir nur die Liste von "Forschung & Engineering"; bei den anderen Publikationen verwenden wir die ursprüngliche Signaturliste. Schließlich haben wir eine Gruppe von 328 Autoren für die Forschung und Entwicklung erhalten.
Jiazi Guangnian hat festgestellt, dass das Forschungs- und Entwicklungsteam und die interne Struktur von DeepSeek die folgenden Merkmale aufweisen:
Keine Abteilungsgrenzen. 168 der 328 Autoren für Forschung und Entwicklung haben eine stabile und wiederholte Partnerschaft gebildet, was insgesamt 319 Partnerschaftsverbindungen ergibt.
Effiziente Durchbrüche durch "Großverband + Kleingruppe". Ein Großverband für das Basismodell arbeitet effizient mit sechs Elite-Sonderkommandos in den Bereichen Systemeffizienz, Mathematik und Inferenz, Multimodalität, Cache und System, Vertikale Mathematik und OCR-Vision zusammen.
Versammlung von Forschern mit Hintergrund aus Spitzenschulen. Fast 40 % der Top 25 Autoren für Forschung und Entwicklung von DeepSeek stammen von Peking University.
Keine Beschränkungen bei der Forschung und Entwicklung. Über die Hälfte der Autoren für Forschung und Entwicklung von DeepSeek arbeiten in verschiedenen Bereichen, und 79 von ihnen arbeiten in drei oder mehr Bereichen. Forscher bilden sich dynamisch nach Interesse und Problem zusammen.
Die Publikationen befassen sich eher mit grundlegenden Problemen. Wie kann die Rechenleistung besser genutzt werden, wie kann die Cache-Kosten beim Verarbeiten von langen Kontexten reduziert werden und wie kann das Training stabiler werden, wenn das Modell größer wird?
Das Netzwerk der gemeinsamen Autoren von DeepSeek-Kernpublikationen. Jeder Knoten im Bild repräsentiert einen Forschungsautor, und die Linien repräsentieren die gemeinsame Signaturbeziehung. Grafik von Jiazi Guangnian.
Nach dem Sichten der 27 Publikationen von DeepSeek glaubt Jiazi Guangnian, dass die Herangehensweise von DeepSeek wie folgt zusammengefasst werden kann: Kein Sammeln von Grafikkarten, kein Ranglistenplatzieren; zuerst Validierung, dann Integration; konzentriert sich auf die Systemeffizienz und bricht die Rechenleistungseinschränkungen durch. Bemerkenswerterweise gibt es in diesen 27 Publikationen fast keine Arbeiten, die auf das Sammeln von Punkten in Benchmarks abzielen. Alle befassen sich mit konkreten technischen Engpässen.
1. Welche Plätze haben die Weggeschleusten tatsächlich erreicht?
Die 27 Publikationen von DeepSeek decken hauptsächlich sieben technische Bereiche ab: Basis-Modell, System/Effizienz, Mathematik/Beweis, Multimodalität, Code, OCR, Inferenz/Verstärkungslernen.
Wir betrachten zwei Dimensionen: Die Anzahl der beteiligenen Publikationen und die Breite der abgedeckten technischen Bereiche. Es muss erwähnt werden, dass beide Indikatoren aus der Signaturstatistik der Publikationen stammen und nicht die Größe des Beitrags oder die Organisationshierarchie darstellen. Wir nennen die Autoren für Forschung und Entwicklung, die drei oder mehr technische Bereiche abdecken, "Mehrseitige Krieger".
Wie viele sind das? 79 Personen.
Schauen wir uns nun an, wo die Namen, die in den Gerüchten mit hohen Gehältern umworben werden, im Netzwerk stehen.
Ruan Chong ist tatsächlich der Top 1 - er ist in 18 Publikationen und sechs Bereichen vertreten, von der MoE-Architektur bis hin zu mathematischen Beweisen und Multimodalität, fast überall präsent.
Er hat sowohl sein Bachelor- als auch sein Masterstudium an der Peking Universität abgeschlossen. Früher arbeitete er an der NLP-Forschung und Entwicklung und trat 2023 DeepSeek bei. Er hat an Projekten wie DeepSeek-VL, V3 und R1 teilgenommen und ist der Korrespondenzautor von VL2. Im Januar dieses Jahres trat er Yuanrong Qihang bei und wird als Chefwissenschaftler eingesetzt.
Guo Daya hat an 11 Publikationen in vier Bereichen teilgenommen und steht auf Platz 12 unter den Autoren mit hoher Publikationshäufigkeit. Wang Bingxuan hat an 10 Publikationen in fünf Bereichen teilgenommen und steht auf Platz 17.
Sie sind tatsächlich Kernmitglieder, und ihr Verlassen ist natürlich ein Verlust. Aber die entscheidende Frage ist: Wie viele "Guo Dayas" und "Wang Bingxuans" hat DeepSeek noch?
Es gibt 24 Autoren für Forschung und Entwicklung, die an mehr als 10 Publikationen beteiligt sind. Selbst wenn drei von ihnen gegangen sind, gibt es noch 21 Personen mit einer ähnlichen Beteiligungsintensität.
Wenn man DeepSeek als ein Fußballteam ansieht, wurden zwar einige Kernspieler weggeschleust. Aber die Personaldichte dieses Teams ist dicker als erwartet.
Top 25 Autoren mit hoher Publikationshäufigkeit. Die statistische Grundlage ist die Gruppe der Autoren für Forschung und Entwicklung. Die Anzahl der beteiligenen Publikationen und die Anzahl der abgedeckten Bereiche stellen keine Beitragsreihenfolge dar. Grafik von Jiazi Guangnian.
Was noch interessanter ist, ist die "Interdisziplinarität". Von den 328 Autoren für Forschung und Entwicklung waren 158 nur in einem Bereich tätig. Die verbleibenden 170 Personen haben mindestens zwei Bereiche überschritten. Darunter sind 79 Personen, die drei oder mehr Bereiche überschreiten.
Nehmen wir ein extremes Beispiel: Li Yukun hat an 14 Publikationen teilgenommen und alle sieben technischen Bereiche überschritten, vom ersten DeepSeek LLM bis hin zum neuesten V4. Seine Zitationszahl in Google Scholar beträgt über 20.000. Er war der "erste Mitarbeiter" von DeepSeek und trat 2023 nach seinem Ausscheiden aus dem Suchteam von ByteDance bei, wo er sich mit der Vorabtraining-Datenverarbeitung befasste.
Dies bestätigt eine Tatsache, die von außen oft übersehen wird: Im Bereich KI ist das Personal immer in mehreren Richtungen mobil, und DeepSeek holt auch Personal aus anderen Stellen.
Die Verteilung der Anzahl der von den Autoren für Forschung und Entwicklung von DeepSeek abgedeckten technischen Bereiche. Die Anzahl der abgedeckten Bereiche wird auf der Grundlage von sieben technischen Bereichen berechnet. Grafik von Jiazi Guangnian.
2. Wie entstehen die "Mehrseitigen Krieger"?
Außenstehende diskutieren immer wieder, ob DeepSeek noch Genies hat.
Jedes KI-Unternehmen hat seine Prominente. Das Besondere an DeepSeek ist, dass es einer Gruppe junger Menschen ermöglicht, schnell in mehreren technischen Bereichen Teams zu bilden, zu erkunden und Ressourcen zu erhalten, mit weniger Beschränkungen.
Xin Huajian hat während seiner Praktikumszeit bei DeepSeek die Entwicklung der DeepSeek-Prover-Serienmodelle, die sich auf mathematische Beweise konzentrieren, geleitet. Er ist auch der erste Autor des Papers "DeepSeek-Prover-V1.5". Er hat Jiazi Guangnian einmal gesagt, dass Prover ursprünglich nur ein unabhängiges Erkundungsprojekt war, dessen Ziel es war zu überprüfen, ob strengere Inferenzdaten durch ein formales System konstruiert werden könnten.
Die meisten großen Unternehmen richten zuerst Abteilungen ein, legen KPIs fest, verteilen Budgets und starten dann Projekte. DeepSeek macht es umgekehrt: Zuerst denkt jemand, dass ein Problem lohnenswert ist, und dann sucht er nach Menschen und Ressourcen, um es zu lösen.
Im Netzwerk der Publikationskooperation sind die Spuren dieser "Teambildung" deutlich zu sehen. Wenn man die Signaturbeziehungen clustert, kann man vier relativ konzentrierte Gruppen sehen: der Großverband für das Basismodell, die Systemeffizienz, die Mathematik und die Inferenz, die Multimodalität, sowie drei kleinere Kooperationscluster. Es muss erwähnt werden, dass diese "Gruppen" nicht den echten Abteilungen von DeepSeek entsprechen, sondern nur anzeigen, wer öfter mit wem zusammenarbeitet.
Die Verteilung des Kooperationsnetzwerks der Autoren für Forschung und Entwicklung von DeepSeek. Die Kooperationsgruppen werden anhand stabiler gemeinsamer Signaturbeziehungen identifiziert. Grafik von Jiazi Guangnian.
Interessanterweise stimmt diese Struktur stark mit der von Liang Wenfeng beschriebenen Organisationsweise überein.
Liang Wenfeng hat gesagt: "Wir legen normalerweise keine voreiligen Aufteilungen fest, sondern eine natürliche Aufteilung. Jeder hat seine eigene einzigartige Entwicklungserfahrung und eigene Ideen, also muss man ihn nicht zwängen. Wenn eine Idee Potential zeigt, stellen wir auch von oben nach unten Ressourcen zur Verfügung."
LatePost hat berichtet, dass die Organisationshierarchie von DeepSeek sehr flach ist. Das Forschungsteam besteht im Wesentlichen nur aus Liang Wenfeng und den Forschern. "Manchmal beginnt man einen neuen Bereich, weil drei oder fünf Leute eine Idee gut finden und dann zusammenarbeiten." Liang Wenfeng ist eher wie ein Mentor: Er organisiert die Forschung und Entwicklung, koordiniert die Ressourcen und unterzeichnet als Korrespondenzautor die gemeinsamen Ergebnisse.
Diese Organisationsweise hat auch ein in der KI-Branche extrem seltenes Merkmal: Keine Überstunden. Die meisten Mitglieder gehen tagsüber zwischen 18 und 19 Uhr nach Hause. Es gibt keine Arbeitszeitkontrolle und keine klaren Leistungsbewertungen. Liang Wenfengs Logik ist: "Es ist für eine Person schwierig, mehr als sechs bis acht Stunden pro Tag mit hoher Qualität zu arbeiten. Trägheit und schlechte Entscheidungen aufgrund von Überstunden verschwenden nur wertvolle Rechenleistung, was nicht lohnt."
Jiazi Guangnian hat festgestellt, dass die Autoren der DeepSeek-Publikationen hauptsächlich Bachelor-, Master- und Doktoranden von Universitäten wie Tsinghua, Peking und der Universität für Wissenschaft und Technologie Chinas sind, die um 2023 herum abgeschlossen haben. Fast 40 % der Top 25 Autoren mit hoher Publikationshäufigkeit sind von Peking Universität abgestorben.
Dies sollte jedoch nicht einfach als "Massenangriff von Eliteuniversitäten" interpretiert werden. Jiazi Guangnian hat erfahren, dass die Einstellungsrichtlinien vieler KI-Labs sich ändern, und Promovierende werden lieber als Experten aus großen Unternehmen eingestellt.
Der Vorsitzende eines KI-Unternehmens hat Jiazi Guangnian einmal gesagt, dass er seit der Entstehung von ChatGPT seine Mittagspause nutzt, um potenzielle Promovierende zu interviewen. Selbst bei kleinen Projekten spricht er mindestens eine Stunde mit ihnen, von der Ableitung von Grundformeln bis hin zur Kontrolle von technischen Details, um echte Innovatoren auszusieben. Er hat erwähnt, dass die meisten Menschen erst 2023 mit der Forschung zu GPT-ähnlichen Architekturen begonnen haben, was bedeutet, dass sie alle auf der gleichen Startlinie stehen. "Promovierende, die nach diesem Zeitpunkt diplomiert sind, sind noch nicht von der Branchengewöhnung gebunden und bringen oft unerwartete Durchbrüche."
Selbst Liang Wenfeng hat gesagt: "Diejenigen, die DeepSeek V2 entwickelt haben, sind 'einige frisch diplomierte Absolventen von Spitzenschulen, Praktikanten in ihrem vierten oder fünften Promotionsjahr, die noch nicht abgeschlossen haben, und einige junge Leute, die erst seit ein paar Jahren diplomiert sind'."
Wie ist die Stabilität des DeepSeek-Teams? Wir haben die Signaturen der Publikationen verglichen: Von den 86 Autoren der Publikationen des ersten Modells (Januar 2024) waren 75 noch in den Signaturen von V4 (April 2026) vertreten. Nach zweieinhalb Jahren sind fast 90 % des ersten Teams noch da.
Auf der "Forschung & Engineering"-Liste von V4 sind von 269 Autoren für Forschung und Entwicklung 10 als "abgemeldet" markiert, was einem Anteil von etwa 3,7 % entspricht. Laut Z Finance sind bis April dieses Jahres etwa 60 - 70 Mitarbeiter des ByteDance Seed in verschiedene Modellunternehmen gewechselt.
Diese Zahlen entsprechen nicht der echten Abwanderungsrate von DeepSeek, aber sie zeigen, dass das Kernforschungssystem nicht auseinandergerissen ist, weil einige Prominente gegangen sind.
3. 27 Publikationen in zwei Jahren, konzentriert sich auf die Systemeffizienz
Wenn man nur den Ruf nach außen betrachtet, sind die Berichte über die Basis-Modelle wie V3 und V4 am auffälligsten.
Aber die Verteilung der Publikationsthemen liefert ein etwas gegenintuitives Ergebnis: Die meisten der 27 Publikationen sind nicht die über das Basis-Modell, sondern die über System/Effizienz (7 Publikationen), was die Anzahl der Publikationen über das Basis-Modell (5 Publik