Milliardenfinanzierung abgeschlossen: "Variable Roboter" realisieren das weltweit größte "verkörperte intelligente Operationsbasis-Modell" | 36Kr exklusiv
Text|Zhou Xinyu
Bearbeitung|Su Jianxun
Kürzlich erfuhr 36Kr, dass das Start-up-Unternehmen für embodied intelligence "X Square" erfolgreich die Finanzierung in den Runden Pre-A und Pre-A+ abgeschlossen hat, mit einem Gesamtbetrag in Millionenhöhe. Die Investoren umfassen DL Capital, CSC Venture Capital, QF Capital, Nanshan Zhanxin Funds, und Bestone Capital agierte als alleiniger Finanzberater.
Es wird berichtet, dass die Finanzierung für das Training und die Implementierung des nächsten einheitlichen Modells für embodied intelligence verwendet werden wird.
Das Unternehmen X Square wurde im Dezember 2023 gegründet. Es ist bestrebt, durch die Entwicklung eines allgemeinen Modells für embodied intelligence einen allgemeinen Roboter zu verwirklichen. Anfang April 2024 berichtete 36Kr, dass das Unternehmen eine Angel-Runde und eine Angel+-Runde mit mehreren Millionen abschlossen hatte.
Das Gründungsteam von X Square vereint Hintergründe in Robotics Learning und großen Modellen.
Gründer und CEO Wang Qian absolvierte die Tsinghua-Universität und ist einer der frühesten Forscher, die den Aufmerksamkeitsmechanismus in neuronale Netze integriert haben. Während seiner Doktorarbeit nahm Wang Qian an verschiedenen Projekten im Bereich Robotics Learning in einem der führenden Robotiklaboratorien in den USA teil, wobei seine Forschung mehrere fortschrittliche Bereiche der Robotik abdeckte.
Mitgründer und CTO Wang Hao ist Doktor der Physik von der Peking-Universität, arbeitete am Digital Economy Institute (IDEA Institut) in der Greater Bay Area und leitete das Algorithmusteam des Fengshenbang-Großmodells. Er veröffentlichte das erste offene Multimodell-Großmodell "Taiyi" in China, die ersten Großmodelle "Rangdeng" mit Zehn-Milliarden-Parametern und "Jiang Ziya" mit Hundert-Milliarden-Parametern.
Derzeit wird das Thema "Gehirn" (egal ob Groß- oder Kleinhirn) in der Embodied-Intelligence-Branche immer populärer.
Im Ausland hat Skild AI, gegründet von zwei ehemaligen Professoren der Carnegie Mellon University, im Juli 2024 eine Finanzierung von 300 Millionen USD abgeschlossen und erreichte innerhalb eines Jahres eine Bewertung von 1,5 Milliarden USD; Physical Intelligence (PI), gegründet von ehemaligen Google-Forschern und Professoren aus Stanford und Berkeley, hat eine Bewertung von 2 Milliarden USD erreicht.
„X Square hat sich seit seiner Gründung entschieden, den technischen Weg des 'Unified Big Model' zu verfolgen, was mit den nachträglichen Ankündigungen dieser beiden Unternehmen übereinstimmt.“ sagte Wang Qian.
Gegenwärtig gibt es jedoch noch viele unerschlossene Bereiche im Bereich der big models für embodied intelligence. In China ist die Integration von Großmodellen mit Hunderten von Milliarden Parametern und Robotern noch nicht sehr tiefgehend, oft auf einfache Sprachinteraktionen und Wahrnehmungsplanung beschränkt.
Gleichzeitig gibt es weltweit noch kein allgemeines Modell, das die komplexen Probleme der physischen Welt wirklich lösen kann. Traditionelle Roboter basieren normalerweise auf spezifischen Szenarien und Aufgaben und können ihre Strategien nur schwer selbstständig anpassen, wenn sich Umgebung und Aufgaben ändern. Langfristig betrachtet könnte auch das unzureichende Generalisierungsvermögen der Modelle als "Gehirn" ein Hindernis für die Skalierung der embodied intelligence darstellen.
Wang Qian sagte gegenüber 36Kr, „Das Training eines allgemeinen Modells für embodied intelligence, also eines einheitlichen Großmodells, ist die echte Lösung.“
Die Integration eines allgemeinen Basismodells in die embodied intelligence bedeutet, dass der Roboter ein Gehirn erhält, das eine allgemeine Struktur zwischen allen Aufgaben erlernt hat, wie z.B. die Gesetze der physischen Welt, die Eigenschaften von Objekten, die Steuerkraft von Roboterarmen usw.
Im Vergleich zu vertikalen Modellen, die für spezifische Aufgaben oder Szenarien geeignet sind, hat das allgemeine Modell für embodied intelligence den Vorteil der Aufgabe-Generalisierung, was den Entwicklern ermöglicht, das Modell nicht für jede neue Aufgabe von 0-1 zu trainieren. Dies reduziert die Menge an Trainingsdaten, die für die Feinabstimmung des Modells erforderlich sind, und gleichzeitig kann das Modell selbstständig seine Strategien entsprechend Aufgaben- und Umweltveränderungen anpassen.
Seit seiner Gründung hat X Square schnelle Iterationen in der Entwicklung des allgemeinen Operationsmodells für embodied intelligence durchgeführt. Schon zwei Monate nach der Gründung hat X Square die erste Version des Operationsmodells für embodied intelligence trainiert, das in der Lage ist, Schritte und komplexe Operationen wie das Schneiden von Gemüse und das Gießen von Wasser durchzuführen. Mitte 2024 zeigte das Modell bei spezifischen Aufgaben bereits die Fähigkeit zum Lernen mit wenigen Beispielen und zur spontanen Aufgabenübertragung.
Kürzlich hat X Square das weltweit größte Gegenwartsmodell für allgemeine Operations-Modelle für embodied intelligence realisiert: den WALL-A des Great Wall-Series-Modells (GW), der die "Unified Embodied Intelligence Large Model" technische Route verwendet. Wang Qian erklärte, dass dieses Modell in mehreren Dimensionen den SOTA-Level erreicht oder überschritten hat.
Laut Wang Qian liegen die Merkmale des WALL-A-Modells in seiner zweidimensionalen „Einheitlichkeit“:
Erstens erreicht es eine vollständige vertikale Einheitlichkeit „End-to-End“ aller Schritte. Vom ursprünglichsten Video-, Sprach- und Sensorsignal bis zur finalen Ausgabe der Geschwindigkeit, der Position und des Drehmoments des Roboters wird alles von einem Modell gelöst, ohne dass Zwischenschritte unterteilt werden.
Zweitens wird eine horizontale Einheit der verschiedenen Aufgaben erreicht. Alle Aufgaben werden in einem Modell trainiert, und die Inferenz erfolgt ebenfalls in einem Modell. Mit anderen Worten: Alle Operationen werden mit diesem einen Modell gelöst.
Wang Qian sagte gegenüber 36Kr, dass die vertikale End-to-End-Einheitlichkeit das Einbringen von Geräuschen und Informationsverlusten durch menschliche Eingriffe vermeiden kann, während die horizontale Einheitlichkeit es ermöglicht, dass der Roboter wie ein Mensch aus verschiedenen Aufgaben sich gegenseitig Erfahrungswerte abschaut.
„Der Durchbruch der neuen Generation von embodied intelligence Technologien liegt in der Generalisierungsfähigkeit, der Universalität, dem selbständigen Lernen und der Fähigkeit zur Bewältigung komplexer Aufgaben, was sich alles im einheitlichen Großmodell widerspiegelt.“ sagte Wang Qian.
Er enthüllte, dass X Square bereits eine Reihe von Innovationen realisiert hat, einschließlich der Innovation in der zugrundeliegenden Algorithmen, der Rahmenbedingungen und der gesamten Systemebene der Daten- und Trainingsprojekte.
Die folgenden Aussagen stammen von den Investoren:
DL Capital:
DL Capital unterstützt seit langem frühzeitige Innovationen im Bereich der Robotik. Der Transfer von embodied intelligence durch große Modelle wird die Generalisierbarkeit der Roboter grundlegend verbessern und die Anwendung in der Praxis beschleunigen. X Square, als Grundlagenmodell-Unternehmen für embodied intelligence, hat innovativ die einheitliche End-to-End-Verschmelzung von "groß und klein" Gehirnen im Grundlagenmodell vorgeschlagen und das Potenzial des Skalierungsgesetzes im Bereich der embodied intelligence aufgezeigt. Das X Square Team besitzt die seltene Fähigkeit, Robotics Learning und Multimodale Modelle zu fusionieren, indem das Modellarchitektur, Trainingsmethoden und Datenpipelines eng verknüpft werden und sich durch signifikante Differenzierung und Wettbewerbsvorteile auszeichnet. DL Capital erkennt X Square als führendes Unternehmen im Bereich der embodied intelligence Modelle an und unterstützt sie weiterhin.
CSC Venture Capital:
Die tiefe Kenntnis und technische Kompetenz von X Square im Bereich der Großmodelle für embodied intelligence ist beeindruckend, und es handelt sich um eines der wenigen Teams in China, das nicht nur umfassende multimodale Modelle entwickelt hat, sondern auch das Verständnis für komplexe Robotik-Aufgaben besitzt. Schon bei der Gründung entschied sich das Unternehmen für das End-to-End-Trainingsparadigma, und die Roboter, die mit ihrem Modell ausgestattet sind, zeigen in der Raumverhältnisverarbeitung, der Komplexität längerfolgender Aufgaben und der Szenengeneralisierung Fähigkeiten auf vorderster nationaler und internationaler Ebene. Wir sehen X Square als ein Team mit führendem Fachwissen, einer Geek-Mentalität, enthusiastischen Träumen und dem Willen, alles zu geben. Wir heißen sie herzlich in der CSC-Familie willkommen und werden weiterhin fest das Wachstum des Unternehmens unterstützen, um die langfristigen Ziele zu erreichen.
QF Capital:
X Square ist momentan das einzige Unternehmen in China, das sich dem einheitlichen, modellübergreifenden Großmodell mit End-to-End Ansatz verschrieben hat. Ebenso selten ist das ursprüngliche Team, das die gesamte Erfahrung in der Sprach- sowie multimodalen Modellentwicklung und das Lernen von Robotik kombiniert hat. Diese Generation der embodied intelligence Technologien erfordert sowohl Durchbrüche in neuen technologischen Stapeln als auch große Innovationen bei der Implementierung des gesamten Systems. Das Unternehmen zeigt große Vorteile in den Bereichen technologische Originalinnovationen, Ingenieurinnovationen und deren Implementierung. Es ist ein Team mit der Mentalität eines Entdeckers, dem Geist eines Wissenschaftlers und der Praxis eines Ingenieurs. Wir sind überzeugt, dass mit der sich entwickelnden Arbeit von X Square im Bereich Modell, Daten und Engineering, weltweit führende Modellleistungen und kommerzielles Potenzial in der verbreiteten Anwendung allgemeiner Roboter erscheinen wird.
Nanshan Zhanxin Investment:
X Square verfolgt eine fortschrittliche End-to-End technologische Route, die bestrebt ist, ein umfassendes Modell für embodied intelligence aufzubauen, das von der Wahrnehmung direkt zur Aktion reicht. Dank seines effizienten Datenerfassungssystems kann das Unternehmen schnelle Iterationen zwischen Daten und Modell erreichen und so seine technologische Führungsposition sichern. Innerhalb von nur sechs Monaten konnte das Unternehmen ein Grundmodell entwickeln, das in der Lage ist, Roboter eine Reihe komplexer physikalischer Operationen ausführen zu lassen. Das Team besteht aus Experten für Robotics Learning und großen Modellen und zeigt im Vergleich zu anderen Firmen für embodied intelligence in China signifikante Differenzierungsmerkmale. Die Technologie des Unternehmens steht im Einklang mit der KI-Strategie des Nanshan-Bezirks und hat das Potenzial, die wesentliche Barriere der embodied intelligence Industrie zu überwinden, und stellt die Möglichkeit dar, die Zukunft der embodied Big-Model-Entwicklung zu leiten.
Bestone Capital:
X Square hat sich seit dem ersten Tag für die technische Route des einheitlichen Großmodells entschieden und engagiert sich weiterhin intensiv auf dem Gebiet der embodied intelligence Grundlagenmodelle, wobei bereits phasenweise Ergebnisse erzielt wurden. Die aktuelle Leistung des Modells vor Ort, seine Fähigkeit zur Bearbeitung komplexer Aufgaben und das Generalisierungsvermögen sind führend. Bestone hat das Engagement in das X Square Team kontinuierlich verstärkt und erwartet, dass das Team auf der Grundlage von LLM-Theorien und praktischen Erfahrungen weiter voranschreitet, die Experten-Richtlinie für embodied intelligence Big Models weiterentwickelt und der Route neue Veränderungen bringt.