StartseiteArtikel

Die zwei Männer mit dem stärksten AGI-Traum in Zhichun Road

白鲸实验室2026-04-30 11:20
Es ist nicht einfach nur ein "Unfall".

DeepSeek (Beijing Filiale) und Kimi befinden sich beide in der Nähe der Zhichun Road im Haidian Distrikt und sind nur 1,4 Kilometer voneinander entfernt. Es dauert nur etwa zehn Minuten zu Fuß. Steht man in der Konferenzraum einer der beiden Firmen, kann man das Bürogebäude der anderen Firma über die Gebäude hinweg sehen. Vielleicht blicken die Forscher der beiden Firmen manchmal über die Gebäude hinweg aufeinander und haben Ideen für das AGI - Konzept im Kopf.

Die Nähe im physischen Raum lässt die Mitarbeiter beider Firmen ähnlich wirken: bescheiden, pur und auf AGI fokussiert. Auf sozialen Medien kann man beobachten, dass fast jeder Forscher von DeepSeek Kimi - Forscher in seiner Follower - Liste hat, und auch in der Follower - Liste der Kimi - Forscher befinden sich viele DeepSeek - Forscher.

Im vergangenen Jahr hat der Kimi - Forscher DeepSeek fast uneingeschränkt gelobt. Im Juli letzten Jahres hatten wir eine kurze Unterhaltung mit einer Person von Kimi, und damals sagte er direkt: "Danke an DeepSeek". Anfang dieses Monats berichtete die Zeitschrift "Renwu" ausführlich über die Firma Kimi und stellte ebenfalls fest: "Man kann das Respektgefühl gegenüber DeepSeek in der Firma spüren."

Es war die Entstehung von DeepSeek R1, die den Markt belehrte. Harte Stärke ist die beste Werbung. Letztes Jahr hat Kimi auch die von DeepSeek eingeschlagene Inferenzroute gewählt und sich in Bezug auf die Agent - Fähigkeiten stetig verbessert.

Dieses gegenseitige Verständnis zeigt sich auch bei den Forschern von DeepSeek. Ein DeepSeek - Forscher hat uns ganz direkt gesagt, dass er persönlich Kimi eher gut findet. Beide Firmen haben ähnliche technische Ziele und sind reiner, aber es gibt geringfügige Unterschiede in der Unternehmensführung. DeepSeek arbeitet langsamer, aber gründlicher. "Wenn der Chef von Kimi die richtige Richtung sieht, könnte Kimi schneller als DeepSeek AGI erreichen."

Die ähnlichen technischen Eigenschaften lassen beide Firmen bereit sein, in Richtungen zu investieren, die teuer, langwierig und mit hoher Unsicherheit verbunden sind. Dadurch haben sie auch bessere Chancen, einen paradigmatischen Sprung in den Fähigkeiten zu erzielen.

Sie sind auch beliebte Ziele für Kapitalgeber. Ein Mitarbeiter eines führenden chinesischen Investmentinstituts, der im vergangenen Jahr an der Finanzierung von Anthropic beteiligt war, sagte uns, dass, wenn man in chinesischen Modellfirmen blindlings zwei Firmen auswählen und Geld investieren würde, eine davon DeepSeek und die andere Kimi wäre.

Von Investoren, Wissenschaftlern im Bereich der Large Language Models bis hin zu Brancheninsidern betrachten beide Firmen in einem gemeinsamen Rahmen. Beim Betrachten der Firmen betrachtet man auch die beiden Gründer, Liang Wenfeng und Yang Zhilin. Beide glauben an die grundlegende Macht des Scaling Laws und halten an der minimalistischen Logik "Modell ist Produkt". Sie haben in der Flut der Internetriesen den C - End - Benutzerbestand bewahrt und auch in den ausländischen Märkten einen Platz für chinesische Large Language Models erobert.

Die Zhichun Road im Haidian Distrikt gilt seit jeher als Glücksort für Unternehmer. Zhang Yiming gründete 2012 in einer Privathaus am Zhichun Road die ByteDance und startete so seine Unternehmensgründung. In der heutigen AI - Ära sind diese beiden auf die Zhichun Road gegründeten AI - Start - Ups in Bezug auf technische Iteration, strategische Wahl und sogar in einigen Gefühlen immer stärker aufeinander abgestimmt.

01

Eine Stimmung verstehen

In der vorletzten Woche von April kamen die neuen Modelle von Qwen, Kimi, DeepSeek, Xiaomi und Tencent in Massen heraus. Am 20. April veröffentlichte Kimi das Kimi2.6 und öffnete es für die Öffentlichkeit. Dieses Modell hat in mehreren Codierungs - Benchmark - Tests Modelle wie GPT - 5.4 und Claude Opus 4.6 übertroffen, die Agent - Automatisierungs - Ausführungsfähigkeit stark verbessert und auch die Langzeit - Codierungsfähigkeit deutlich gesteigert.

Nur vier Tage später erschien endlich DeepSeek V4 unter der Aufmerksamkeit der Öffentlichkeit. DeepSeek behauptet ebenfalls, dass die Agent - Fähigkeit des DeepSeek - V4 - Pro im Vergleich zu den Vorgängermodellen deutlich verbessert ist. Im Agentic Coding - Test hat das V4 - Pro das beste Niveau unter den derzeitigen Open - Source - Modellen erreicht und auch in anderen Agent - bezogenen Tests hervorragend abgeschnitten.

Seit der Veröffentlichung des Vorgängermodells V3 sind 484 Tage vergangen. In dieser Zeit ist DeepSeek von einem Ruhmekomet zu einem fast unsichtbaren Unternehmen geworden, die Anzahl der Benutzer ist stark gesunken, und es wurde sogar vorgeworfen, nur ein Flitterwochenschach zu sein. Das Team um Liang Wenfeng hat großen Druck erlebt. In einem Artikel auf der offiziellen WeChat - Seite über das neue V4 - Modell zitierte Liang Wenfeng ein Zitat von Xunzi: "Nicht von Lobungen verführt werden, nicht vor Kritik Angst haben, dem Weg folgen und sich selbst korrekt verhalten." Dies ist seine Selbstermahnung und die beste Antwort auf das vergangene Jahr.

Keiner versteht das Gefühl der Vernachlässigung durch die Welt besser als Yang Zhilin. Letztes Jahr, als DeepSeek plötzlich berühmt wurde, hat Yang Zhilin, als Startup - Star, stillschweigend Druck ertragen. Die Außenwelt hat immer wieder kritisiert, dass Kimi in eine Pfadfalle der Traffic - Abhängigkeit geraten sei und die Entwicklung des Basis - Modells zu langsam sei. In der Konkurrenz um Billionen - Parameter, der Durchbrechung der Inferenzfähigkeit und der Layoutung der Open - Source - Ökosystem war Kimi hinter dem plötzlich auftauchenden DeepSeek zurückgeblieben.

Yang Zhilin hat sich nie zu diesen Kritikpunkten geäußert, sondern hat einfach das Team geführt, um an neuen Modellen zu arbeiten. Am 11. Juli 2025 wurde das Kimi K2 veröffentlicht, das einen Gesamtparameter von einer Billion hat und mit dem Muon - Optimierer der zweiten Ordnung trainiert wurde. Dies war auch die erste Massenverwendung eines Optimierers der zweiten Ordnung in einem chinesischen Large Language Model.

Plötzlich hat das Kimi K2 die Welt erschüttert. Die Zeitschrift "Nature" sagte: "Ein weiterer DeepSeek - Moment." Yang Zhilin hat mit dem neuen Modell auf alles in der Vergangenheit geantwortet.

Im August letzten Jahres sagte Yang Zhilin in einem Interview mit einem Medienmann: "Das ist auch, was Kimi mir gesagt hat - jeder Zwischenzustand kann zum Gegenstand der Kritik werden. Man hat immer die Beschränkungen dieser Zeit." Dieser großzügige Wertvorstellung entspricht fast der, die Liang Wenfeng mit dem Zitat von Xunzi ausdrückt.

Die Ähnlichkeit zwischen Liang Wenfeng und Yang Zhilin gründet sich auf den gemeinsamen Glauben an AGI. Beide sind überzeugt, dass die Obergrenze der Fähigkeiten eines Large Language Models durch die kontinuierliche Durchbrechung der Basisarchitektur und der Parametergröße definiert wird. Alle Produkt - Erfahrungen und kommerziellen Werte müssen auf der Basis der führenden Fähigkeiten des Basis - Modells aufgebaut werden. Dieser Glaube hat dazu geführt, dass beide Firmen eine seltene kooperative Evolution in der technischen Route genommen haben.

Seit letztem Jahr stimmen die Berichte über DeepSeek und Kimi immer wieder überein, einschließlich der Architektur und der Parameteranzahl von neuen Papieren und Modellen. Beispielsweise verwendet DeepSeek V4 die MoE - Architektur (Mixture of Experts), der Gesamtparameter beträgt 1,6 Billionen, und der aktive Parameter beträgt etwa 37 Milliarden. Das Kimi K2 - Series verwendet ebenfalls die Billionen - Parameter - MoE - Architektur, der Gesamtparameter ist 1 Billion, und der aktive Parameter ist 32 Milliarden.

Es gibt zu viele ähnliche Übereinstimmungen. Tatsächlich ist es nicht nur so einfach wie "Übereinstimmungen", sondern es hat sich bereits eine Stimmung verstehen gebildet, in der beide Firmen sich gegenseitig bestätigen und sogar voneinander lernen.

Anfang 2025 hat DeepSeek in seinem V3 - Modell den MLA - Mechanismus (Multi - Head Latent Attention) eingeführt, der durch die Komprimierung des KV - Caches die Inferenzkosten eines Large Language Models stark reduziert und somit eine zentrale Architekturinnovation für die Implementierung von Billionen - Parameter - Modellen geworden ist. Kimi hat in seinen nachfolgenden K2 - Modellen direkt diese Architektur übernommen, was die technischen Hindernisse für die Implementierung der Langzeit - Kontext - und Agent - Fähigkeiten beseitigt hat.

Im Juli 2025 hat Kimi in seinem Billionen - Parameter - MoE - Modell K2 erstmals die Skalierung des selbst entwickelten Muon - Optimierers der zweiten Ordnung validiert. Die offizielle Studie und der technische Bericht bestätigen, dass die Token - Effizienz des Muon - Optimierers doppelt so hoch wie die von AdamW ist und die Trainingskosten um mehr als 50 % reduziert werden. Dies ist das weltweit erste zweite - Ordnungs - Optimierungssystem, das in einem Billionen - Parameter - Modell implementiert wurde.

Der technische Bericht von DeepSeek V4 zeigt, dass auch hier der Muon - Optimierer übernommen wurde und als zentrale Grundlage für das Training des 1,6 - Billionen - Parameter - Modells dient.

Die Stimmung verstehen zwischen den beiden Firmen beruht auf der geistigen Resonanz der beiden Gründer. Liang Wenfeng hat seine Karriere mit quantitativen Investitionen begonnen und hat die Idee, "durch extreme technische Fähigkeiten eine Revolution in der Modell - Effizienz zu erzielen". Seit seiner Gründung hat DeepSeek immer versucht, die Grundlagenforschung mit eigenen Mitteln zu finanzieren, um nicht von kurzfristigen kommerziellen Zielen abgelenkt zu werden.

Yang Zhilin ist ein Spitzenwissenschaftler im Bereich NLP, der von Tsinghua Universität und der Carnegie Mellon Universität absolviert hat. Seit der Gründung von Kimi hat er die Kernroute "die AGI - Grenze durch die Langzeit - Kontext - Fähigkeit zu durchbrechen" festgelegt. Selbst in der Phase der heftigsten Traffic - Konkurrenz in der Branche hat er immer die Kernressourcen in die Forschung und Entwicklung des Basis - Modells investiert.

Diese beiden Männer, die nur 1,4 Kilometer voneinander entfernt sind und sich vielleicht selten treffen können, kennen sich aber vielleicht schon seit langem und verstehen sich am besten.

02

Overseas - Einfluss

Ein weiterer Gemeinsamkeitspunkt zwischen DeepSeek und Kimi ist ihr Ruf im Ausland, was auch einer der wichtigen Gründe für die Attraktivität für Investitionen ist. Ein führendes Investmentinstitut hat bei einem Unternehmenswert von 6 Milliarden US - Dollar in Kimi investiert und in den folgenden zwei Runden ebenfalls investiert.

"Das Modell ist gut, das Produkt ist gut, die Kognition ist gut, die Globalisierung ist gut gemacht, und das Team reagiert schnell." Ein Mitarbeiter dieses Instituts, der an der Investition beteiligt ist, nannte als Beispiel die globale Zusammenarbeit: Im März dieses Jahres hat die ausländische Software Cursor Kimi als internen Modell verwendet.

Am 20. März hat Cursor das neue Programmier - Modell Composer 2 veröffentlicht. Im offiziellen Blog wurde betont, dass es ein eigenes Modell sei, das durch kontinuierliches Pre - Training und Massen - Reinforcement - Learning trainiert wurde, und dass es Claude Opus 4.6 übertreffe, wobei der Preis nur ein Zehntel dessen betrage.

Einige Stunden später hat ein Entwickler bei der Einstellung der Cursor - API die interne Modell - ID "kimi - k2p5 - rl - 0317 - s515 - fast" entdeckt, was übersetzt heißt: Kimi K2.5 + Reinforcement - Learning (RL) + Version 3.17 + Schnelle Inferenz. Elon Musk hat in den Kommentaren unter dem Beitrag geantwortet: "Yes, Kimi 2.5!" und damit die Weltöffentlichkeit in Aufruhr versetzt.

"Man kann aus der Tatsache, dass Cursor das Modell von Kimi trainiert hat, sehen, dass Kimi weltweit sehr gut bekannt ist." Der oben genannte Investor sagte.

Seit der Veröffentlichung des Kimi K2 im vergangenen Jahr hat Kimi fast alle zwei Monate eine wichtige Veröffentlichung gemacht. Im November des gleichen Jahres hat Kimi das Billionen - Parameter - K2 Thinking - Modell veröffentlicht, das in einem Test der Fähigkeit zur Nutzung von Agent - Tools mit 93 % den ersten Platz weltweit belegte und OpenAI, Anthropic und andere ausländische Closed - Source - Flaggschiff - Modelle übertrumpfte. Es war damals das "größte und beste Open - Source - Modell".

Das im Januar dieses Jahres veröffentlichte Kimi K2.5 hat sich in Bezug auf die Multi - Modalität, die Langzeit - Gedächtnis - Fähigkeit und die Agent - Fähigkeit umfassend verbessert und hat sich dann dank der Popularität der "Xiaolongxia" in der technischen Community bekannt gemacht. Im Februar hat es die ausländische Modell - Aggregationsplattform OpenRouter besetzt und den ersten Platz in der wöchentlichen Rangliste der Aufrufe erreicht.

Im März hat Kimi einen wichtigen technischen Bericht veröffentlicht, der als Herausforderung an den seit 11 Jahren verwendeten Residual - Connection - Mechanismus des Transformers angesehen wird. Jerry Tworek, der ehemalige stellvertretende Forschungschef von OpenAI, hat es als den Anfang von "Deep Learning 2.0" bewertet. Elon Musk hat den Bericht geteilt und kommentiert: "Impressive work from Kimi" (Die Arbeit von Kimi ist beeindruckend).

Der Auslandseinfluss von DeepSeek muss nicht besonders erwähnt werden. Anfang des vergangenen Jahres war DeepSeek R1 zuerst im Ausland bekannt geworden. In den Augen einiger ausländischer Entwickler und Unternehmer gilt DeepSeek als der Gott des Open - Source - Modells.

Nach der Veröffentlichung von DeepSeek V4 diesen Monat hat es erneut in der Welt große Diskussionen ausgelöst. Dank seiner extremen Kosteneffizienz hat die Bloomberg DeepSeek V4 als eine starke Herausforderung an OpenAI und Anthropic beschrieben. Obwohl auch viele Stimmen sagen, dass die Aufmerksamkeit für V4 weit hinter der von V3 zurückbleibt.

"Für Entwickler haben die chinesischen Open - Source - Modelle DeepSeek, Kimi und Zhipu zwar immer noch einen Zeitvorsprung von einigen Monaten gegenüber ausländischen Closed - Source - Modellen, aber diese Modelle sind dennoch die stärksten dank ihrer Kosteneffizienz." Der oben genannte Investor sagte.

Das Interesse des Kapitalmarktes an DeepSeek hat ein nie dagewesenes Niveau erreicht. Es gibt viele Berichte über die Finanzierung von DeepSeek, aber die Firma hat sich bisher nicht geäußert.

Wir haben aus exklusiven Quellen erfahren, dass der Unternehmenswert von DeepSeek vor der Finanzierung 300 Milliarden Yuan, etwa 44 Milliarden US - Dollar, beträgt. DeepSeek plant, 50 Milliarden Yuan zu erhöhen, wobei 20 Milliarden Yuan intern und 30 Milliarden Yuan von außen gesammelt werden sollen. Diese Investition ist sehr geheim und nur an ausgewählte Parteien gerichtet, und die Anforderungen sind sehr hoch. Ein führendes Investmentinstitut wurde abgelehnt, weil viele private Investoren in seinem Investmentfonds die Kriterien nicht erfüllten.

Die Finanzierung dient in