StartseiteArtikel

Er hat gerade 2,7 Milliarden Yuan eingesammelt, und Li Feifei hat ebenfalls investiert.

36氪的朋友们2026-06-20 14:00
Etikettieren Sie mein Unternehmen nicht mit dem Label „Weltmodell“.

In der gegenwärtigen Startup- und Investitionsmarktwelt ist das "Weltmodell" zweifellos ein Super-Hitbegriff. Fast täglich hören wir von neuen "Weltmodell"-Unternehmen, die Finanzierungen abschließen, deren Unternehmenswerte rapide steigen und deren Aktionärslisten beeindruckend sind. In den Presseerklärungen dieser Finanzierungsnachrichten wird wiederholt betont, dass ein qualifizierter Super-Intelligent-Agent nicht nur von Datenfütterung abhängen sollte, sondern wie ein Mensch die physische Welt aktiv verstehen muss.

Allerdings schrieb Pete Florence nach Gründung seines Unternehmens einen langen öffentlichen Brief, in dem er am Anfang schrieb: "Nicht mein Unternehmen mit dem Label 'Weltmodell' versehen."

Dies ist wirklich eine Umkehrung der Norm. Denn Pete Florence ist nicht einfach nur ein "Unternehmer". Vor seiner Unternehmensgründung arbeitete er in Google DeepMind, wo er sich von einem normalen Forscher zu einem leitenden Forschungsingenieur befördert hat. Er war einer der Kernentwickler des Roboterkontrollmodells Gemini Robotics, das DeepMind 2025 veröffentlichte. Seine einflussreichste Leistung war jedoch die Präsentation eines neuen Robotermodell-Frameworks, "Vision-Language-Action Models", zusammen mit seinen Kollegen im Jahr 2023.

(Pete Florence, Quelle: Soziale Medien)

Ja, genau. Wenn das "Weltmodell" oder "VLA" die neuesten und am meisten akzeptierten Richtungen sind, dann ist Pete Florence zweifellos ein Pionier auf diesem Weg. Dass eine Person wie er das "Weltmodell"-Label ablehnt, ist wirklich schockierend.

Und jetzt wird die Schockwirkung noch größer. Kürzlich hat Pete Florences Unternehmen für Embodied Intelligence, Generalist AI, eine neue Finanzierungsrunde von 400 Millionen US-Dollar (etwa 2,7 Milliarden Yuan) abgeschlossen, mit einem Unternehmenswert von 2 Milliarden US-Dollar (etwa 13,55 Milliarden Yuan). Die Investoren dieser Runde umfassen NVentures von Nvidia, NFDG, gemeinsam verwaltet von den renommierten Angel-Investoren Nat Friedman und Daniel Gross, Bezos Expeditions, die Familienverwaltung von Jeff Bezos, Lin Bin, Mitbegründer von Xiaomi, Yuan Zheng, Gründer von Zoom, sowie Fei-Fei Li, die repräsentativste Wissenschaftlerin im Bereich Weltmodelle.

"Ziele" sind wichtiger als "Labels"

Warum wehrt sich Pete Florence, einer der Hauptgründer des Weltmodells, so vehement gegen das "Weltmodell"-Label? Und warum unterstützt Fei-Fei Li, die repräsentativste Wissenschaftlerin im Bereich Weltmodelle, mit echten Geldern einen so offenkundig "abweichenden" Heterodoxen? Die Geschichte beginnt vielleicht im Jahr 2019.

Damals studierte Pete Florence an der Massachusetts Institute of Technology (MIT) für einen Doktor in Informatik, mit Fokus auf Robotik, Computervision und natürliche Sprachverarbeitung. Angesichts seiner akademischen Herkunft ist Pete Florence ein "orthodoxer" Forscher, weder jemand, der auf "Außenseiterverhalten" angewiesen ist, um Ressourcen zu erhalten. Das Problem war jedoch, dass ihm an der MIT ein Professor namens Russ Tedrake als Betreuer zugewiesen wurde.

Wer ist Russ Tedrake? Er ist zweifellos ein akademischer Star. Im Jahr 2019 war er Professor für Elektrotechnik und Informatik an der MIT und Direktor des Robotikzentrums am Computer Science and Artificial Intelligence Laboratory (CSAIL). Jedes Jahr führte er auch das MIT-Team bei der renommierten DARPA Robotics Challenge an. Außerhalb der Universität war er auch Vizepräsident des Robotikforschungszentrums am Toyota Research Institute. Man kann sagen, dass Russ Tedrake einer der Spitzenwissenschaftler im Bereich Robotik ist, mit ausreichenden Ressourcen, um Pete Florence bei der Verwirklichung seiner akademischen Träume zu unterstützen.

Allerdings war es für Russ Tedrake nicht die Programmierung, sondern die "Physik", die ihn fasziniert. In einer Selbstvorstellung erinnerte sich Russ Tedrake, dass sein Weg in die Informatik begann, als er bei der Forschung an "zweibeinigen Roboter" die "reichhaltigen dynamischen Eigenschaften" sah, was ihn für die "Kontrolle komplexer Strömungsdynamik" begeisterte. Im Gegensatz zu anderen Forschern, die zuerst versuchen, Roboter dazu zu bringen, Äpfel zu greifen oder Bettwäsche zu falten, forschte er zuerst über die Kontrolle von "sturzbereiten Flugzeugen oder Flügelflugzeugen" und das "Hochgeschwindigkeitsdurchqueren dichter Hindernisse".

Angesichts seiner akademischen Hintergründe legt Russ Tedrake großen Wert auf das "Verständnis der physischen Welt". Die offizielle MIT-Website beschreibt Tedrakes akademische Schwerpunkte wie folgt: "Der Professor konzentriert sich auf die Suche nach eleganten Lösungen für die Kontrolle interessanter (unteraktuierter, stochastischer und/oder schwierig zu modellierender) dynamischer Systeme und der Aufbau dieser Systeme für experimentelle Validierung. Er legt insbesondere Wert auf die Verbindung zwischen Mechanik (insbesondere nicht-glatter Mechanik) und maschinellem Lernen/Optimierungstheorie, um eine robuste Steuerungsgestaltung für komplexe mechanische Systeme zu ermöglichen."

Unter Tedrakes Einfluss wurde Pete Florence ein "Physikler" in der Informatik. Ein repräsentatives akademisches Werk aus seiner Doktorarbeit war die Publikation "Self-Supervised Correspondence for Vision-Based Motion Strategy Learning". In dieser Arbeit wurde ein Verfahren vorgeschlagen, das es Roboter ermöglicht, anhand von 50 Demonstrationen herausfordernde Aufgaben zu bewältigen und auf verschiedene Objekte zu generalisieren, auch auf verformbare Objekte. Diese Publikation erhielt den Best-Paper-Award 2020 im Bereich Robotik und Automatisierung der IEEE (Institute of Electrical and Electronics Engineers).

Natürlich ist es nicht wichtig, welcher "Schule" man angehört. Wichtig ist, dass Pete Florence unter Tedrakes Einfluss eine andere Denkweise entwickelt hat. Viele Forscher akzeptieren zuerst die existierenden Technologien, experimentieren, um die Potenziale dieser Technologien zu ermitteln, und bestimmen dann die Anwendungsgebiete. Pete Florence hingegen glaubt, dass die richtige Reihenfolge "Zuerst die Ziele festlegen" und dann die technischen Lösungen entwickeln ist.

Nach seinem Eintritt in Google DeepMind arbeitete Pete Florence in dieser Richtung. Sein erstes repräsentatives Werk war das Transporter Network, ein Robotermodell, das Google 2021 veröffentlichte. In der Veröffentlichung des Modells schrieb Pete Florence, dass das Sortieren von Gegenständen eigentlich eine einfache Aufgabe ist, aber für Roboter "hohe und niedrige Ebenen von Wahrnehmung und Inferenz" erfordert. Ein Roboter muss überlegen, wo Bücher platziert werden sollen, in welcher Reihenfolge sie gestapelt werden sollen, und sicherstellen, dass die Kanten der Bücher übereinstimmen, um einen ordentlichen Bücherstapel zu bilden.

Das Transporter Network ist ein Modell, das darauf abzielt, "einfache Aktionen einfach zu machen". Es ermöglicht es Robotern, auf der Grundlage von Vision verschiedene Aufgaben zu bewältigen, ist schnell zu trainieren und weniger abhängig von spezifischen Trainingsumgebungen.

Die Veröffentlichung des VLA-Frameworks 2023 zusammen mit dem DeepMind-Team war eine logische Weiterentwicklung dieses Ansatzes. In der Publikation, die die Welt der Weltmodelle revolutionierte, erklärten die Autoren, dass sie wünschten, dass das VLA-Framework "die Generalisierungsfähigkeit auf neue Objekte verbessert, Anweisungen interpretieren kann, die in den Trainingsdaten des Roboters nicht vorkommen (z. B. das Platzieren von Objekten auf bestimmten Zahlen oder Symbolen), und grundlegende Inferenz auf der Grundlage von Benutzeranweisungen durchführen kann (z. B. das Greifen des kleinsten oder größten Objekts oder des Objekts, das am nächsten zu anderen Objekten liegt)".

Zurück zum Anfang der Frage: Warum wehrt sich Pete Florence, einer der Hauptgründer des Weltmodells, so vehement gegen das "Weltmodell"-Label? Die Antwort ist: Pete Florence glaubt, dass "Ziele" wichtiger sind als "Labels".

In seiner Ansicht ist die gegenwärtige Begeisterung für Weltmodelle "ideengeleitet". Ein Großteil dieser Begeisterung kann auf die Begeisterung des Kapitalmarktes zurückgeführt werden, wenn er in einer beliebten Richtung etwas Nicht-Konsensuelles entdeckt. Wenn wir Roboter wirklich in unser Arbeits- und Privatleben integrieren und Produktivität schaffen möchten, dann ist das Aufbauen eines "Weltmodells" kein Ziel. Das echte Ziel sollte sein, dass Roboter mit hoher Erfolgsrate und Geschwindigkeit verschiedene Aufgaben bewältigen können, die sie noch nie gesehen haben, ohne spezifische Daten für diese Aufgaben.

Das war auch der Grund, warum Pete Florence Google DeepMind verließ und unabhängig gründete. An der Nvidia GTC-Konferenz 2025 trat Pete Florence erstmals als Mitbegründer und CEO von Generalist AI auf. Er sagte: "Wir sind entschlossen, Roboter zu bauen, die alles können... Stellen Sie sich vor, was passieren würde, wenn die Grenzkosten körperlicher Arbeit auf Null fielen."

99%-ige Erfolgsrate

Abgesehen von seiner "abweichenden" technologischen Philosophie verläuft Pete Florences Unternehmensgründungsprozess auch unkonventionell.

Theoretisch sollte ein Unternehmer mit seiner Karriere von Venture Capitalisten heiß begehrt sein. Beispiele sind Yann LeCun, Ilya Sutskever und Mira Murati, deren Unternehmen schon bei der Gründung (oder sogar noch vor der Gründung) eine Seed-Finanzierung von über 1 Milliarde US-Dollar erhalten haben. Aber Generalist AI von Pete Florence akzeptierte in der Anfangsphase nur Investitionen von wenigen Institutionen wie Nvidia, Bezos Expeditions und NFDG. Wenn nicht die Venture Capital-Abteilung von Nvidia, NVentures, auf der GTC-Konferenz 2025 eine Runde mit investierten Unternehmen organisiert hätte, hätten viele nicht gewusst, dass er schon seit geraumer Zeit unabhängig ist.

Warum ist das so? Die wahrscheinlichste Antwort ist, dass es Pete Florences aktive Wahl war. Wie oben erwähnt, arbeitete Pete Florence direkt nach seinem Abschluss von 2019 bis 2025 in Google DeepMind, ohne andere Arbeitserfahrungen. Das bedeutet, dass die Gründung von Generalist AI seine erste Unternehmensgründungserfahrung war, und er musste daher äußerst vorsichtig sein.

Tatsächlich zeigte Pete Florence auf der Nvidia GTC-Konferenz 2025, als er erstmals als Unternehmer auftrat, seine "Vorsicht". Abgesehen davon, dass er sagte, dass er "Roboter" baut, gab er keine detaillierten Informationen über seine Geschäftsideen preis und erklärte einfach: "Wir befinden uns derzeit noch in der Geheimphase."

Erst im November 2025 wurde die Geschäftsidee von Generalist AI bekannt. Im November 2025 veröffentlichte Generalist AI sein erstes Embodied Intelligence-Modell, GEN-0. In der offiziellen Präsentation erklärte Generalist AI, dass GEN-0 die Stärken von Vision- und Sprachmodellen kombiniert und darüber hinausgeht: Gen-0 kann menschliche Reflexe und physikalisches Wissen aufnehmen.

Einfach ausgedrückt, verbessert sich seine Leistung mit zunehmender Modellgröße und Trainingsdatenmenge, überwindet die Grenzen kleiner Modelle, kann wie ein Mensch denken und handeln, reagiert schnell und natürlich in physischen Umgebungen, ist kompatibel mit verschiedenen Robotertypen ohne zusätzliche Anpassungen. Wichtig ist auch, dass es auf einer großen Menge echter Daten basiert, nicht mehr an Datenmangel leidet und die Trainingsdaten flexibel anpassen kann. Viele technische Medien haben darauf hingewiesen, dass GEN-0 beweist, dass die mathematischen "Skalierungsgesetze", die ChatGPT und andere große Sprachmodelle antreiben, auch auf physikalische Bewegungen angewendet werden können.

Allerdings ist GEN-0 nicht perfekt. Beispielsweise hat es das Problem der Datensätze, das das Feld der Embodied Intelligence plagt, nicht gelöst. Deshalb hat Generalist AI im April 2026 schnell auf die neue Version GEN-1 aktualisiert.

("Roboterhand", Quelle: Generalist AI Soziale Medien)

Um das Datensatzproblem zu lösen, hat Generalist AI ein tragbares Gerät entwickelt, um die winzigen Bewegungen und visuellen Informationen aufzuzeichnen, die Menschen bei der Ausführung von Handaufgaben erzeugen. Generalist AI erklärte, dass sie während der Entwicklung von GEN-1 über 500.000 Stunden "PB-Größenordnung an physischen Interaktionsdaten" mit diesen Roboterhänden gesammelt haben, um ihr physikalisches Modell zu trainieren. Nach ausreichender Training hat Generalist AI erklärt, dass GEN-1 bei wiederholten, aber feinen mechanischen Aufgaben wie dem Falten von Kartons, dem Verpacken von Mobiltelefonen und der Wartung von Staubsaugerrobotern eine Erfolgsrate von 99% erreicht, etwa dreimal so schnell wie die vorherige Version GEN-0 ist, und dass diese Leistung in etwa einer Stunde erreicht werden kann.

Deshalb hat Generalist AI stolz angekündigt, dass das physikalische Modell von GEN-1 nahe an einem Wendepunkt wie GPT-3 ist, die Leistung bei einigen Aufgaben beginnt "das Niveau zu erreichen, das für die Implementierung in kommerziellen Anwendungen erforderlich ist", und "wir können erwarten, dass jede neue Modellgeneration eine Reihe immer komplexerer neuer Aufgaben mit sich bringt, die alle beherrscht werden können".

In einem offiziellen Blogbeitrag hat Pete Florence erklärt, dass die Entwicklung von GEN-1 die beste Umsetzung seiner technologischen Philosophie ist: Zuerst hat er ein rationales Ziel festgelegt, dass Roboter mit hoher Erfolgsrate und Geschwindigkeit verschiedene Aufgaben bewältigen können, die sie noch nie gesehen haben, ohne spezifische Daten für diese Aufgaben. Dann hat er einen Lösungsansatz entwickelt, der die Verwendung einer geringen Menge an Roboterdaten (X) für spezifische Aufgaben erlaubt und eine hohe Leistung bei diesen Aufgaben erzielt, und dann X kontinuierlich verringert, während die Leistung verbessert wird.

Hier ist die Antwort auf die Frage, die wir am Anfang gestellt haben. Es spielt keine Rolle, ob das von Generalist AI entwickelte Produkt ein "Weltmodell" genannt wird oder nicht. Wenn Sie sich für die Branche der Embodied Intelligence interessieren und glauben, dass Roboter in großem Maßstab in die Produktion integriert werden können, dann ist Generalist AI sicherlich eine gute Investitionsoption. Die Finanzierungsrunde von Generalist AI wurde tatsächlich zwei Monate nach der Veröffentlichung von GEN-1 schnell abgeschlossen.

Laut Berichten haben die alten Investoren Nvidia, Bezos Expeditions und NDFG alle erneut investiert, und zwar in erhöhtem Umfang. Darüber hinaus haben neue Investoren wie Lin Bin, Mitbegründer von Xiaomi, Yuan Zheng, Gründer von Zoom, die chinesische Wissenschaftlerin Fei-Fei Li, sowie institutionelle Investoren wie Radical Ventures, 8VC, Union Square Ventures, Hanabi Capital und Norwest an der Finanzierungsrunde teilgenommen.

Mit anderen Worten, im Juni 2026 musste Pete Florence sich nicht mehr beweisen. Die "Großaussagen", die er in den letzten Jahren gemacht hat - wie beispielsweise, dass er 2025, als er gerade sein Unternehmen gründete, in einem