StartseiteArtikel

DeepSeeks Einstellung zur Personalpolitik: Akademische Talente, junge Menschen, keine Konkurrenzkämpfe|Fokusanalyse

周鑫雨2025-01-09 09:30
"Neue Dinge sollten den Neulingen überlassen werden."

Text | Zhou Xinyu

Bearbeitung | Su Jianxun

Luo Fuli, das "geniale Mädchen der Nach-95-Generation", das von Lei Jun persönlich zu Xiaomi gebracht wurde und ehemalige DeepSeek-Modelltrainerin, hat einen kleinen Einblick in die DeepSeek-Talentprofile gegeben: junge, exzellente Absolventen.

Diese "rätselhaften Genies" (bewertet von Jack Clark, ehemaliger Politikchef von OpenAI) haben mit nur 6 Millionen Dollar das Modell DeepSeek-V3 trainiert, das GPT-4o und Claude 3.5 Sonnet leistungsmäßig übertrifft.

DeepSeek-Gründer Liang Wenfeng gab in einem Interview mit 36Kr ein grobes Profil dieser Mitarbeitenden: "Es sind alles Absolventen von Top-Universitäten, Doktoranden im vierten oder fünften Jahr und einige junge Leute, die erst seit ein paar Jahren abgeschlossen haben."

Aber nur ein Team von Genies aufzubauen, reicht nicht aus, um DeepSeeks Ideal von Artificial General Intelligence (AGI) zu verwirklichen.

Durch Interviews mit verschiedenen Beteiligten hat "Intelligente Emergenz" festgestellt, dass DeepSeek, um diese jungen Genies gut nutzen zu können, auf die Teammanagement-Methoden nicht verzichten kann.

In der heutigen Zeit, mit der rasanten Vergrößerung der Teamgrößen, sind viele KI-Unternehmen gezwungen, effizientere vertikale Managementmodelle anzunehmen.

Aber seit der Gründung im Mai 2023 hat DeepSeek das Team in einer Größe von etwa 150 Personen gehalten und verwendet eine Kultur mit flachen Hierarchien, um Forschungsthemen festzulegen und Ressourcen zu mobilisieren.

Und Innovation passiert genau in einem Team dieser unerprobten jungen Genies und in einem Unternehmen, das keine traditionelle Internet-Organisationsform verwendet.

Hundert junge Genies, kein Wettbewerb, keine Teams

Die Anwerbung von Veteranen mit KI-Technik-Erfahrung ist die Auswahlstrategie der meisten KI-Unternehmen.

Zum Beispiel hat Wang Xiaochuan für Baichuan Intelligent das alte Sogou-Team von vor 20 Jahren geholt; Jiang Daxin von Microsoft hat zu Beginn der Gründung von Jiexue Xingchen ebenfalls seine alten Kollegen aus dem Microsoft Asia Research Institute angezogen. Die Liste der Mitgründer von Zero One All Things war anfangs noch beeindruckender und umfasste:

Huang Wenhao aus dem Microsoft Asia Research Institute, Pan Xin, ehemals erster Forschungssoftwareingenieur bei Google Brain und ehemaliger Leiter der AI-Plattform bei ByteDance, sowie Li Xiangang, ehemaliger Leiter des strategischen Algorithmus-Zentrums der Beike-Gruppe.

Aber DeepSeek bevorzugt junge Menschen ohne Berufserfahrung.

Ein Headhunter, der mit DeepSeek zusammengearbeitet hat, sagte "Intelligente Emergenz", dass DeepSeek keine erfahrenen Techniker will: "Berufserfahrung von 3-5 Jahren ist schon das Maximum, über 8 Jahre wird grundsätzlich abgelehnt."

Zum Beispiel haben drei der Hauptautoren von DeepSeekMath, Zhu Qihao, Shao Zhihong und Peiyi Wang, die Forschung während ihres Doktorandenpraktikums abgeschlossen. Ein weiteres Beispiel: Das V3-Forschungsteammitglied Dai Damai erwarb 2024 seinen Doktortitel an der Peking-Universität.

Dai Damai. Bildquelle: Internet

Ohne Berufserfahrung misst DeepSeek die "Exzellenz" junger Absolventen nicht nur an der Hochschule, sondern auch an ihren Wettbewerbsergebnissen. Mehrere DeepSeek-Partner bestätigen, dass Wettbewerbsleistungen sehr wichtig für DeepSeek sind, "alles unterhalb einer Goldmedaille ist nicht willkommen".

Ein Mitglied von DeepSeek hat im Internet seinen Lebenslauf offengelegt: Absolvent der Peking-Universität, dreimal Goldmedaillengewinner in ACM/ICPC-Wettbewerben, 6 veröffentlichte Arbeiten während des Bachelorstudiums, darunter zwei als Koautor bei Top-Konferenzen.

Der "Intelligente Emergenz" zufolge begann Phantom Quantitative im Jahr 2022, ein KI-Team für DeepSeek aufzubauen. Bis Mai 2023, als DeepSeek offiziell gegründet wurde, hatte das Team fast hundert Ingenieure.

Derzeit umfasst das Team in Peking ohne das Infrastrukturteam in Hangzhou ebenfalls etwa hundert Ingenieure. Aus der Danksagung in den technischen Berichten geht hervor, dass bereits 139 Ingenieure an der DeepSeek V3-Forschung beteiligt sind.

Ein Team von Hundert im Vergleich zu anderen Modellen von ByteDance oder Baidu mit tausenden von Mitarbeitern scheint in Bezug auf die Größe knapp. Doch im Bereich der KI-Innovation, wo "Talentdichte" weit über "Personalgröße" zählt, beschreiben viele "Intelligente Emergenz"-Befragte, dass DeepSeek ein hochqualifiziertes Team ist.

Wie verwaltet und hält man diese jungen Genies? Einerseits, durch großzügige finanzielle Anreize und Karten.

Laut informierten Insidern hat DeepSeek ein Gehaltsniveau, das dem von ByteDance in Forschung und Entwicklung entspricht, "abhängig von dem Angebot, das das Talent von ByteDance erhalten könnte, mit noch höherem Zusatzbetrag".

Gleichzeitig, solange Liang Wenfeng das technische Potenzial eines Vorschlags erkennt, ist die Rechenleistung, die DeepSeek den Talenten zur Verfügung stellt, "unbegrenzt".

Andererseits verfolgt DeepSeek ein äußerst flaches und "akademisches" Managementmodell.

Der oben erwähnte Headhunter sagt, dass bei DeepSeek jedes Mitglied kein Team führt, sondern je nach spezifischen Zielen in verschiedene Forschungsgruppen aufgeteilt wird. Zwischen den Mitgliedern in einer Gruppe gibt es keine festen Rollen oder Hierarchien: "Jeder ist für den Teil verantwortlich, den er am besten lösen kann. Bei Schwierigkeiten wird zusammen diskutiert oder Experten aus anderen Gruppen um Rat gefragt."

Liang Wenfeng beschrieb diese Organisationsform in einem Interview mit 36Kr als "bottom-up" und "natürliche Arbeitsteilung": "Jeder hat seine eigene einzigartige Wachstumsgeschichte, bringt eigene Ideen mit und muss nicht gedrängt werden... Wenn eine Idee Potenzial zeigt, koordinieren wir die Ressourcen auch von oben nach unten."

Innerhalb der Branche sehen viele Unternehmer "Flachheit" ebenfalls als ein geeignetes Organisationsmodell für innovative Geschäfte an. "Gleichberechtigte Kommunikation ist wichtig für den Aufbau einer lernenden Organisation, das Aufweichen der Stellenidentitäten ermutigt die Mitarbeiter, frei zu sprechen," sagte Wang Huiwen bei der Gründung seines KI-Unternehmens Lightyear.

Greg Brockman, Mitbegründer von OpenAI, erwähnte ebenfalls, dass es bei OpenAI keine Unterscheidung zwischen Forschern und Ingenieuren gibt, sie werden alle als "Mitglieder des Technischen Personals" bezeichnet. Das bedeutet, dass auch "Junior-Ingenieure" in einem Forschungsprojekt führende Rollen übernehmen können.

Ein typisches Ergebnis dieser "natürlichen Arbeitsteilung" ist die MLA, die kritische Trainingsarchitektur, die die V3-Trainingskosten drastisch gesenkt hat. Liang Wenfeng erwähnte, dass MLA ursprünglich aus dem persönlichen Interesse eines jungen Forschers stammte: "Wir haben ein Team gebildet und Monate gebraucht, um es umzusetzen."

Gleichzeitig bestehen bei DeepSeek intern keine Wettbewerbe—laut einem AI-Praktiker, der Kontakt mit dem Team hatte, verhinderten Wettbewerbe die Verschwendung von Arbeitskraft und Ressourcen und seien "nicht förderlich für den Erhalt von Talenten und die Bildung von Teamkonsens, der durch den Wettbewerb verursachte interne Verschleiß sei zu ernst".

"Um Innovation zu erreichen, muss das Team die Trägheit überwinden"

Im Jahr 2023 markieren einige Schlagworte das Bild der Spitzentalente im Bereich der Künstlichen Intelligenz in China — akademische Koryphäen, Führungskräfte großer Unternehmen, erfahrene Unternehmer — alle deuten auf denselben Einstellungsstandard hin: Diese Talente müssen durch berufliche Standards wie Ranglistungen und Produktwirkung bestätigt werden.

Aber es ist deutlich zu erkennen, dass seit 2024 im Bereich der KI die Auswahlkriterien für Personal sich ändern. Mehr junge Menschen, die noch nicht ihre beruflichen Erfahrungen unter Beweis gestellt haben und erst kürzlich ihr Studium beendet haben, treten auf die Bühne.

Einer der Verantwortlichen von Sora, Aditya Ramesh, sagte auf der Zhiyuan-Konferenz 2024, dass die Rekrutierungsstrategie von OpenAI sich von anderen Organisationen deutlich unterscheide: "Wir achten mehr auf Personen, die ein hohes Potenzial haben, aber möglicherweise noch keine Möglichkeit hatten, formelle akademische Erfolge zu erzielen."

Ebenso erwähnte Xie Saining, Autor von DiT (der grundlegenden Architektur von Sora), dass viele sehr erfolgreiche Forscher nie eine sogenannte formale Forschung oder Forschungsausbildung durchlaufen haben.

Gespräch zwischen Xie Saining und Aditya Ramesh auf der Zhiyuan-Konferenz. Bildquelle: Zhiyuan

Ähnliche Einstellungskonzepte spiegeln sich auch in DeepSeeks Auswahlstrategie wider. Viele der jungen Menschen, die zu DeepSeek kommen, haben keine Erfahrung im Modelltraining und kommen nicht einmal aus dem IT-Bereich.

Ein Mitglied von DeepSeek, Absolvent im Fach Physik, erwähnte einmal öffentlich, dass er durch eine zufällige Gelegenheit begann, sich selbst Informatik beizubringen: "Da die Arbeit so fortschrittlich ist, gibt es kaum Referenzmaterial, alle Probleme müssen selbst entworfen und praktisch gelöst werden." Ein weiterer Operationsmitarbeiter von DeepSeek erwähnte, dass er vor dem Eintritt in das Unternehmen keine Erfahrung hatte und ein "Anfänger" war.

Ein AI-Praktiker sagte "Intelligente Emergenz", dass, wenn man Innovation wolle, das Team die Trägheit überwinden müsse. "Heute sind die meisten chinesischen KI-Unternehmen in eingefahrenem Vorgehen, OpenAI oberflächlich nachzuahmen, gefangen. Für Algorithmen wird der Transformer gewählt, für das Training wird das Scaling-Law befolgt, 'dem bereits bestätigten Weg zu folgen, bedeutet, das Risiko des Scheiterns zu minimieren.'

Aber man ignoriert oft, dass Transformer und Scaling-Law vor der Bestätigung durch GPT-3 auch als "verrückt" galten.'

'DeepSeek setzt den Mitgliedern weder feste KPIs noch hat es einen kommerziellen Druck, und da die Mitglieder wenig Erfahrung im Modelltraining haben, werden sie nicht die "Standardantwort" von OpenAI kopieren.'

Laut dem oben genannten Branchenkenner sagte ein Mitarbeiter von DeepSeek zu ihm: 'Heutzutage gibt es kaum noch Unternehmen, die bei Transformermodellierungen einsteigen, aber DeepSeeks Reflexion über die Algorithmusarchitektur begann am ersten Tag. MLA (die Eigenentwicklung von DeepSeek) könnte von anderen Unternehmen entwickelt werden, aber sie würden nicht die bestehenden, richtigen Antworten infrage stellen.'

Er räumte jedoch auch ein, dass DeepSeeks Rückhalt immer noch von ausreichender Rechenleistung und finanziellem Polster herrührt: "Alle Ressourcen fließen in die Modellierung, sie haben keine anderen Geschäfte und verschwenden kein Geld für Werbung, sie sparen eine Menge."

"DeepSeek rekrutiert keine bekannten Größen, sie haben selten den Antrieb, innovativ zu sein." Ein Headhunter, der mit DeepSeek zusammengearbeitet hat, fasste gegenüber "Intelligente Emergenz" zusammen: "Frühere Erfolgsträger haben bereits Erfolg gehabt und tragen die Last, nicht scheitern zu dürfen. Die Innovation überlässt man den Neulingen."

Willkommen zum Austausch!

Folgen Sie gerne!