Trifft man sich mit Generalist auf der Spitze und sammelt 3 Milliarden Yuan binnen 30 Tagen? Was hat Qianxun Intelligence richtig gemacht?

Der gleiche Wendepunkt spielt sich derzeit auf dem Gebiet der Robotik erneut ab.

Der Blitzangriff des Kapitals beginnt: Lei Jun und Ma Yun führen ungewöhnlicherweise gemeinsam die Investitionen an

Qianxun Intelligence hat erneut den Tempo der Finanzierung hochgeschraubt.

Am 7. April 2026 gab Qianxun Intelligence bekannt, dass es eine neue Runde von 1 Milliarde Yuan an Finanzierungen abgeschlossen hat. Diese Runde von Finanzierungen wurde gemeinsam von Shunwei Capital und Yunfeng Fund angeführt, und es gab auch die Unterstützung von Dachen Venture Capital, einem führenden Yuan-Fonds, Yinheyuanhui, Turing Fund, Xinding Capital, Gengxin Capital und anderen wichtigen Investoren.

Dies ist bereits die zweite große Finanzierung binnen 30 Tagen. Kurz zuvor, im Februar, hat das Unternehmen gerade eine Finanzierung von fast 2 Milliarden Yuan abgeschlossen. Zusammen betragen die kumulierten Finanzierungen direkt 3 Milliarden Yuan.

Was noch interessanter ist, ist dass in dieser Runde eine äußerst aufregende Kombination aufgetaucht ist: Lei Jun (Shunwei) + Ma Yun (Yunfeng) führen erstmals gemeinsam die Investitionen im Bereich der Embodied Intelligence an.

In der Vergangenheit haben sie jeweils in Schlüsselphasen wie Mobile Internet, E-Commerce, intelligente Hardware und Cloud Computing erfolgreich investiert. Diesmal setzen sie gemeinsam in den Bereich der Robotik, insbesondere in die noch in der Frühphase befindliche Embodied Intelligence, ein. Dies zeigt, dass diese Richtung von einer technologischen Vorstellung zu einem Kapitalkonsens wird und beginnt, in ein Wettbewerbssystem einzutreten, in dem es von Großkonzernen unterstützt wird und das Kapital stark konzentriert ist.

Qianxun Intelligence wurde im Januar 2024 von Han Fengtao, einem kontinuierlichen Unternehmer im Bereich der Robotik, Gao Yang, einem Spitzen-AI-Wissenschaftler, und Zheng Lingyin, einem Pionier bei der Expansion von Robotikunternehmen ins Ausland, gemeinsam gegründet.

Han Fengtao, der Gründer und CEO, war früher Mitgründer und CTO von Luoshi Robotics. Er hat die Lieferung von fast hundert Robotermodellen geleitet und verfügt über umfangreiche Fähigkeiten in der Engineering- und Serienproduktion. Gao Yang, der Mitgründer, hat an der University of California, Berkeley studiert und ist Schüler des Computervisionsmeisters Trevor Darrell. Er ist derzeit Assistentprofessor am Cross-Information Institute der Tsinghua-Universität. Das von seinem Team veröffentlichte Open-Source-Modell Spirit v1.5 hat im RoboChallenge-Ranking das führende amerikanische Modell Pi0.5 übertroffen und ist das erste chinesische Open-Source-Embodied-Modell, das die Spitze erreicht hat. Zheng Lingyin, die Mitgründerin, ist eine Pionierin bei der Expansion von Industrierobotern ins Ausland. Sie hat von Grund auf eine Auslandsabteilung aufgebaut und ihr Team in mehreren ausländischen Märkten etabliert und schnell die Umsetzung von kommerziellen Ergebnissen erreicht.

Die drei Gründer decken jeweils die drei Kernfähigkeiten AI, Robotik und Kommerzialisierung ab und bilden gemeinsam ein in der Branche seltenes "Sechseck-Team". Dies ist auch die Grundlage für das Vertrauen, das es ihnen ermöglicht, binnen 30 Tagen 3 Milliarden Yuan an Finanzierungen zu erhalten und von Shunwei Capital und Yunfeng Fund massiv investiert zu werden. Diese Kombination verleiht Qianxun Intelligence von Anfang an sowohl weltweite technologische Voraussicht als auch das Potenzial für die Kommerzialisierung.

Han Fengtao hat einmal angegeben, dass im Jahr 2026 es um die Datenmenge und die Modellleistung geht. Das wichtigste Ereignis in diesem Jahr ist nicht die Erweiterung der Anwendungsbereiche, sondern die Platzierung des Embodied-Modells unter den Top 3 weltweit. Um dies zu erreichen, muss man genug Geld auf der Bank haben.

Deshalb ist die Blitzstrategie der kontinuierlichen Finanzierung im Wesentlichen die Verwendung von Kapitalintensität, um Zeitvorteile zu gewinnen, um schnell Ressourcen zu sammeln, die Leistungslücke zu vergrößern und die Spitzenposition frühzeitig zu sichern. Gleichzeitig zeigen die wiederholten Investitionen der alten Aktionäre in dieser Runde, dass die Investoren von der Beobachtung und Validierung zu einer beschleunigten Investition übergegangen sind.

Was ist es also, was Qianxun Intelligence befähigt, diese Beschleunigungs-Eingangskarte zu erhalten? Wie tief ist seine Schutzmauer bereits gegraben?

Die zugrunde liegende Logik der Kapitalinvestition: Ein Weg, der stärker wie ein Large Language Model aussieht, wird validiert

Warum sind die Investoren bereit, kontinuierlich zu investieren? Die Antwort liegt im Modell, das bereits eine vorläufige Antwort gegeben hat.

Im Januar dieses Jahres hat Qianxun Intelligence das Embodied-Modell Spirit v1.5 Open-Source veröffentlicht. In öffentlichen Tests hat dieses Modell das damals stärkste Open-Source-Modell Pi0.5 direkt übertroffen.

Was die Investoren am meisten beeindruckt, ist jedoch der Wendepunkt der Leistungsentwicklung.

Spirit v1.5 hat bereits eine relativ stabile Zero-Shot-Generalisierungskapazität gezeigt - es kann eine Reihe von komplexen Operationen wie Wischen, Öffnen und Schließen von Scharnieren und die Handhabung von flexiblen Objekten ohne zusätzliche Trainingseinheiten durchführen.

Mit anderen Worten, die Roboter beginnen nicht nur, eine Aufgabe zu lernen, sondern verfügen auch über die Fähigkeit, Aufgaben zu übertragen, was die Möglichkeit zeigt, dass die Embodied Intelligence die menschliche Produktivität befreien kann.

Hinter diesem Phänomen verbirgt sich ein technologischer Weg, der stark mit dem Large Language Model (LLM) übereinstimmt: Das Modell vergrößern, genügend Daten zuführen, kontinuierlich iterieren und dann an die "Entstehung" von Fähigkeiten glauben.

Genauer gesagt ist Spirit v1.5 ein End-to-End-VLA (Vision-Language-Action)-Einheitsmodell. Es bemüht sich nicht darum, alle Details der Welt zu reproduzieren und legt auch keinen Schwerpunkt auf die explizite Weltmodellierung in der Mitte, sondern lernt direkt die Abbildungsbeziehung von der Wahrnehmung zur Aktion.

Die Trainingsmethode ist auch sehr LLM-ähnlich. Der einzige Unterschied ist, dass die Textdaten durch Roboterdaten ersetzt werden. Zuerst wird mit einer riesigen Menge an Internetvideos ein Vor-training durchgeführt, um ein grundlegendes Verständnis der Welt aufzubauen, und dann werden die Daten mit echten Interaktionsdaten abgestimmt - zuerst die Generalisierungskapazität erlangen, dann die spezifischen Aufgaben ansteuern.

Das Ergebnis ist, dass unter niedrigerer Rechenleistung und kleinerer Parameteranzahl eine stärkere Generalisierungsleistung erzielt wird.

Vor ein paar Tagen hat auch die Branche in Silicon Valley diesen Weg bestätigt.

Am 3. April hat das siliconvalleyanische Embodied-Intelligence-Unternehmen Generallist AI das Basis-Modell GEN-1 veröffentlicht und mit 500.000 Stunden echten physikalischen Interaktionsdaten das Skalierungsgesetz im Bereich der Embodied Intelligence validiert. Wie stark ist der Effekt?

Diese Roboter haben die durchschnittliche Erfolgsrate bei einer Reihe von physikalischen Aufgaben von 64 % auf 99 % stark erhöht; die Ausführungsgeschwindigkeit ist fast so schnell wie die eines Menschen und erreicht etwa das Dreifache des derzeit besten Systems, und sie können auch improvisieren. Noch erstaunlicher ist, dass die Erlangung jeder Fähigkeit nur etwa eine Stunde an Roboterdaten erfordert.

Der CEO des Unternehmens, Pete Florence, hat angegeben, dass was derzeit im Bereich der Robotik passiert, ähnlich ist wie wenn man GPT-3 öffnet und es auffordert, ein neues Limerick zu schreiben.

Ähnliche Beobachtungen wurden auch vom Qianxun-Team validiert. "Unser Team hat auch das Skalierungsgesetz im Bereich der Embodied Intelligence entdeckt. Wenn die Datenmenge um das Zehnfache erhöht wird, gibt es in den Ergebnissen eine weitere 9." Gao Yang hat einmal so die Steilheit dieser Kurve beschrieben. Wir befinden uns derzeit im Moment des Skalierungsgesetzes der Embodied Intelligence. Da es schwieriger ist, Roboterdaten zu sammeln, denke ich, dass es noch 4 - 5 Jahre dauern wird, bis es einen "GPT-4" für Roboter gibt.

Man kann sagen, dass die Kapitalgeber in eine technologische Route investieren, die bereits vorläufig validiert wurde und zugleich ein höheres Preis-Leistungs-Verhältnis und ein größeres Potenzial für die Erweiterung aufweist.

Der Datenmotor: Der Schlüssel für den Erfolg des Weges

Im Bereich der Embodied Intelligence besteht fast ein Konsens: Die Datenerfassung ist ein grundlegender Engpass.

Large Language Modelle können eine riesige Menge an Internettexten verarbeiten, aber Roboter können dies nicht - in der Welt der körperlichen Arbeit gibt es keine Wikipedia. Auf den ersten Blick scheint es, dass alle um das Modell kämpfen, aber die tiefere Konkurrenz ist eigentlich der Datenmotor. "Wir werden alles tun, um die Skalierung zu erreichen." Pete Florence hat es direkt gesagt.

Wenn man an das Skalierungsgesetz glaubt, welche Art von Datensystem kann dann kostengünstig erworben, kontinuierlich erweitert und ausreichend vielfältig sein?

Bisher haben Roboter-Allgemeinmodelle mit einer Erfolgsrate von über 90 % von extrem teuren und schwer skalierbaren großen Fernbedienungsdatensätzen (z. B. Physical Intelligence) abhängig gemacht. Aber Generallist AI hat eine eigene "Datenhand" (data hands) entwickelt - ein auf der Handgelenk getragenes Zwei-Finger-Gerät, das die menschlichen Hände in eine Art Roboter-Klemme verwandelt, um visuelle und sensorische Daten zu sammeln.

Das Ergebnis ist, dass die Fortschritte von GEN-0 und GEN-1 gezeigt haben, dass dieser Datenmotor auch ein hohes Niveau an Kompetenz erreichen kann - sie haben keine Roboterdaten verwendet, sondern nur Daten, die von Menschen, die billige tragbare Geräte tragen, bei Millionen von Aktivitäten generiert wurden.

Qianxun Intelligence setzt auch auf eine Skalierungsroute, die auf Vielfalt basiert.

Bei der Hardwarelösung hat Qianxun ebenfalls eine tragbare Lösung gewählt, aber es geht noch weiter. Um dem Modell die Möglichkeit zu geben, feine menschliche Handlungen zu lernen, haben sie ein Design mit drei Fingern gewählt - das intelligente Gerät hat 26 Freiheitsgrade, jeder Gelenk ist mit einem Kraftsensor ausgestattet und es ist mit einer dreifingerigen Hand ausgestattet. Aber die technologischen Herausforderungen sind auch deutlich höher. Die dreifingerige Struktur hat in der tragbaren Datenerfassung höhere Freiheitsgrade, feinere Kraftsteuerungsanforderungen und komplexere Bewegungsabbildungen.

Derzeit hat Qianxuns tragbares Gerät bereits auf die fünfte Generation verbessert, die Datenverfügbarkeit ist von 30 % auf 95 % gestiegen, und gleichzeitig wurde die Kosten auf etwa ein Zehntel der Fernbedienung reduziert.

Es ist zu beachten, dass im Gegensatz zu Generallist AI, das vollständig auf tragbare Daten setzt, Qianxun einen Datenmotor mit mehreren Quellen aufgebaut hat.

Im Vor-trainingsphase fügt Qianxun Intelligence neben einer großen Menge an tragbaren Daten auch Internetvideos ein, um allgemeines Wissen und grundlegende Fähigkeiten zu erwerben. Anschließend werden die Fernbedienungsdaten von echten Maschinen eingeführt, um eine feine SFT (Supervised Fine-Tuning) durchzuführen und die Leistung des Modells in realen Aufgaben zu verbessern. Schließlich wird die Leistung durch Reinforcement Learning weiter optimiert: Das Modell wird in der realen Umgebung kontinuierlich "roll-out", um ständig neue Daten zu generieren und das Modell zu verbessern.

Bis jetzt hat Qianxun bereits über 200.000 Stunden echte Interaktionsdaten gesammelt, die aus verschiedenen Quellen wie Internetvideos, Fernbedienung und tragbarer Datenerfassung stammen, und diese Zahl wächst schnell. Es wird erwartet, dass sie im Jahr 2026 die 1 Million Stunden überschreiten wird. Bis April 2026 wird das Datenerfassungsteam von Qianxun Intelligence auch auf Tausende Mitarbeiter anwachsen.

Es ist erwähnenswert, dass Qianxuns Verständnis der Daten auch eine wesentliche Veränderung erfahren hat.

Sie verlassen sich nicht mehr auf die in der Branche vorherrschende Methode der sorgfältig gestalteten skriptierten Daten, sondern wenden sich einer offeneren und vielfältigeren Datenerfassungsmethode zu: Statt die Bewegungswege streng festzulegen, lassen sie den Ausführungsvorgang natürlich ablaufen: Sie erlauben Fehlschläge, Umkippen und Unterbrechungen und setzen dann fort.

Dies bringt eine grundlegende Veränderung: Das Modell lernt nicht mehr, wie man eine bestimmte Aufgabe ausführt, sondern wie man in ähnlichen Situationen vorgehen soll. Bei der gleichen Datenmenge verbessert diese Datenverteilung die Übertragungseffizienz des Modells erheblich und verringert gleichzeitig die Abhängigkeit von Rechenleistung.

"Eier auf dem Weg legen": Reale Szenariodaten verbessern das Modell

Im Datenmotor von Qianxun ist es nicht nur die Datenquelle, sondern die Fähigkeit, kontinuierlich in der realen Umgebung "roll-out" zu sein, die entscheidet, ob der Kreislauf funktionieren kann.

Han Fengtao hat einmal zusammengefasst, dass der Schritt in die reale Welt getan wird, um die Brennstoffe (Daten) für die Weiterentwicklung des Modells zu erhalten. Die Kommerzialisierung macht diesen Prozess nachhaltig und skalierbar.

Hinter diesem Phänomen verbirgt sich auch ein deutlicher Unterschied zwischen den chinesischen und amerikanischen Ansätzen. In den USA können einige Unternehmen lange Zeit in die Entwicklung von Basis-Modellen investieren und Zeit für die maximale Leistung eintauschen; aber in China ist es schwierig, kontinuierlich Finanzierungen zu erhalten, wenn es keine Demo oder keine Anzeichen für die Umsetzung gibt. Die meisten Unternehmen, die überleben können und sogar gut abschneiden, wählen einen kompromissvolleren Weg.

Der Weg zur allgemeinen Künstlichen Intelligenz ist ein langer und anspruchsvoller Weg. Man kann nicht warten, bis das Modell reif ist, um Anwendungen zu finden. Nur wenn die Roboter in die reale Produktionsumgebung eintreten und an realen Geschäften teilnehmen, können die riesigen Daten, die aus der realen Geschäfte generiert werden, das Modell verbessern und es kontinuierlich weiterentwickeln.

Als das erste chinesische Unternehmen, das die vielfältige Datenerfassungsroute von der Theorie zur Engineering und Skalierung gebracht und in realen kommerziellen Szenarien doppelt validiert hat, setzt Qianxun Robotics auf die Strategie "Eier auf dem Weg legen". Sie beginnen mit kontrollierten Szenarien und gehen zuerst in die Industri

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Trifft man sich mit Generalist auf der Spitze und sammelt binnen 30 Tagen 3 Milliarden Yuan an? Was hat Qianxun Intelligence richtig gemacht?

Der Blitzangriff des Kapitals beginnt: Lei Jun und Ma Yun führen ungewöhnlicherweise gemeinsam die Investitionen an

Die zugrunde liegende Logik der Kapitalinvestition: Ein Weg, der stärker wie ein Large Language Model aussieht, wird validiert

Der Datenmotor: Der Schlüssel für den Erfolg des Weges

"Eier auf dem Weg legen": Reale Szenariodaten verbessern das Modell