Tsuaa-Gründerteam: Entwicklung eines verteilten prädiktiven Weltmodells, Serie-A-Finanzierung von mehreren 100 Millionen Yuan und 100.000 Endgerätebereitstellung

Ein entkoppeltes Design kann die Migrationskosten effektiv senken und den Kreislauf des Daten-Flywheels beschleunigen.

Autor | Huang Nan

Redakteur | Yuan Silai

Hard Krueger hat erfahren, dass das Unternehmen für Weltmodelle der Embodied Intelligence, "Qianjue Technology", kürzlich eine Serie - A - Finanzierung im Wert von Hunderten von Millionen Yuan abgeschlossen hat. Diese Runde wurde von Jingming Capital angeführt, und Institutionen wie Shandong New Kinetic Energy, Shandong Financial Capital, Yuanhe Hope, Xinneng Venture Capital, Nanchuang Venture Capital, Inno Angel Fund, Shangshi Capital, Ren'ai Group und Xuansu Investment haben gemeinsam investiert. Die Investoren umfassen Staatsfonds, Industriepartners, marktorientierte Fonds und Familienbüros. Maple Pledge Capital hat sich seit langem als Berater für Private - Equity - Finanzierungen engagiert.

Das Kapital wird hauptsächlich für den Aufbau der Architektur des selbst entwickelten Weltmodells, die Iteration der Algorithmen und die Umsetzung in Szenarien verwendet. Gleichzeitig wird das Kernforschungsteam und das Projektabwicklungsteam erweitert, und die Fähigkeiten für die kommerzielle Umsetzung werden verbessert.

Qianjue Technology wurde im Juni 2023 gegründet. Das Kernteam stammt aus dem Zentrum für Hirnforschung der Tsinghua-Universität und hat sich seit langem auf die Forschung und Umsetzung von großen Modellen für Entscheidungen und Planungen in der Embodied Intelligence konzentriert. Es hat die Beschränkungen traditioneller Gerätetasks überwunden, um Roboter zu helfen, eine dynamische Anpassung an die Umgebung und vollständige Autonomie bei der Arbeit zu erreichen.

Die Welle der Weltmodelle rollt schnell in den Bereich der Embodied Intelligence. Weltmodelle werden zum zentralen Durchbruch für die Umsetzung von allgemeiner Künstlicher Intelligenz in der physischen Welt. Yann LeCun, der Vater des Convolutional Neural Networks, hat zuerst die Kerntheorie der Weltmodelle vorgeschlagen. Das von ihm gegründete AMI - Team hat sich kontinuierlich auf die Modellierung des abstrakten Repräsentationsraums und die Vorhersage der Gesetze der physischen Welt konzentriert und so die Kerntheoriebasis für die Branche gelegt.

Von kausaler Inferenz bis hin zu räumlicher Intelligenz, von physikalischer Simulation bis hin zu generativer Vorhersage - Forschungen auf der Grundlage unterschiedlicher technischer Paradigmen und theoretischer Grundlagen laufen in der Branche gleichzeitig ab. Dies ist ein noch nicht abgeschlossener, aber sehr vielseitiger Bereich. Alle Forscher versuchen, dieselbe Frage zu beantworten: Wie kann man Maschinen wirklich verstehen lassen, wie sich die physische Welt verändert und diese Veränderungen vorhersagen?

In der Mainstream - generativen Route ist es üblich, das nächste Bild durch Pixel - Level - Rekonstruktion vorherzusagen. Aber Zhang Tianren, der CTO von Qianjue Technology, hat Hard Krueger darauf hingewiesen, dass diese Methode ein leicht zu übersehendes Problem hat - Merkmalskontamination.

"Die Bildinformationen aus der realen physischen Welt sind enorm und enthalten viel Rauschen, das mit der Aufgabe nichts zu tun hat, wie z. B. Licht und Textur", erklärt Zhang Tianren. Um eine Pixel - Level - Rekonstruktion ohne Informationsverlust zu erreichen, muss das Modell die effektiven Merkmale und die ineffektiven Informationen zwangsläufig zusammenfassen. Dies kann dazu führen, dass die interne Repräsentation des Modells nicht mehr "rein" ist. "Es kann zwar generalisierbare Merkmale aus den realen Daten extrahieren, aber in diesen Merkmalen befinden sich Störungen."

Diese Kontamination beeinträchtigt direkt die Fähigkeit des Modells, die physische Welt zu verstehen. Das Ziel des Weltmodells ist es, dass das Modell Vorhersagen gemäß den physikalischen Gesetzen lernt, anstatt einfach Bilder anzupassen. Sobald die Merkmale kontaminiert sind, ist es für das Modell schwierig, die echten kausalen Beziehungen und die physikalischen Invarianzen zu extrahieren, und die Generalisierungsfähigkeit ist natürlich eingeschränkt.

"Wenn ein Mensch ein Bild betrachtet, verteilt er seine Aufmerksamkeit nicht gleichmäßig auf jedes Pixel, sondern fokussiert schnell auf die mit der Aufgabe verbundenen Bereiche", sagt Zhang Tianren. "Aber das generative Modell ist eher dazu neigt, die Oberfläche zu kopieren, als die Welt zu verstehen."

Angesichts der Einschränkung der Merkmalsextraktion in der generativen Route bietet das prädiktive Weltmodell einen anderen Ansatz. Der Kerngedanke ist, dass Roboter die physische Welt nicht durch die Wiederherstellung jedes Pixels verstehen, sondern durch die Vorhersage der niedrigdimensionalen Evolutionsbahn des physikalischen Zustands.

Gao Haichuan, der CEO von Qianjue Technology, hat mit einem Beispiel den wesentlichen Unterschied zwischen den beiden erklärt: Wenn ein Mensch spielt, denkt er nicht an klare Bilder, sondern schwingt einfach den Schläger. Er stützt sich auf die niedrigdimensionale Vorhersage der Ballbahn. Diese Vorhersage enthält keine Pixelinformationen, sondern nur die Zustandsentwicklung gemäß den physikalischen Gesetzen. "Wenn Menschen im physischen Raum Ballspiele spielen, können sie sich keine klaren und vollständigen Pixelbilder vorstellen. Es ist zu zeitintensiv, und diese Informationen sind instabil", sagt Gao Haichuan.

Derselbe Logik gilt für die Embodied Intelligence. Wenn ein Roboter eine Aufgabe ausführt, braucht er keine Vorstellung von "wie die Zukunft aussehen wird", sondern eine Vorhersage von "wohin der nächste Zustand gehen soll". Die Kernausgabe des prädiktiven Modells sind nicht Videoframes, sondern niedrigdimensionale abstrakte Merkmale, die direkt in Bewegungsbahnen oder Planungsanweisungen decodiert werden können, um so die Rechenlast und die Merkmalskontamination, die durch die Pixel - Rekonstruktion verursacht werden, zu umgehen.

Basierend auf der prädiktiven Route hat Qianjue Technology weiter eine verteilte Prädiktionsarchitektur vorgeschlagen. Diese Architektur nutzt eine Art von Hirnregionenverbindung, ähnlich wie im menschlichen Gehirn. Verschiedene Regionen im Gehirn haben ihre eigenen Aufgaben, die eng verbundenen Regionen arbeiten intern zusammen, während die Regionen untereinander relativ unabhängig sind.

Im Vergleich zur traditionellen Methode, die alle Informationen zusammenfasst und komprimiert, teilt die verteilte Prädiktionsarchitektur die Informationen zuerst in verschiedene Regionen auf und komprimiert und prädiziert sie dann getrennt. Dadurch wird die Effizienz der Stichprobe erhöht und die Infrarotschnelligkeit beschleunigt. "Für dieselbe Aufgabe kann es von Grund auf 1000 'Zustand - Aktion' - Paare brauchen. Mit einer guten Repräsentation reichen 100 aus, was die Datenmenge für die Anpassung von Robotern an neue Szenarien effektiv reduziert", sagt Zhang Tianren.

Durch diese verteilte Architektur kann das Modell die Evolutionsgesetze des physikalischen Zustands im abstrakten Repräsentationsraum lernen, anstatt nur die zeitliche Korrelation der Pixel zu berücksichtigen. Dies ist für die nachgelagerten Planungs - und Steuerungsaufgaben besser geeignet. Wenn ein Roboter einer neuen Umgebung gegenübersteht, kann er schneller verstehen, "was was bewirkt", was besonders wichtig für die Umsetzung in realen Szenarien ist.

Ein Roboter mit Qianjue - Weltmodell arbeitet in einem Restaurant (Quelle/Unternehmen)

Spezifisch auf der Anwendungsseite hat Qianjue Technology das Embodied - Brain und das Cerebellum entkoppelt. Das Weltmodell ist für die Wahrnehmung, Vorhersage und Planung verantwortlich und ist nicht an einen bestimmten Ausführungsaktionsraum gebunden. Solange die gleiche Modalität geteilt wird, kann das Modell die beobachteten Umweltveränderungen als einheitliche Datenquelle für das Training nutzen. Dies bedeutet, dass dasselbe "Gehirn" schnell auf verschiedene Roboter übertragen werden kann. Die entkoppelte Design reduziert effektiv die Übertragungskosten und beschleunigt den Datenkreislauf in realen Szenarien.

Nach Informationen von Hard Krueger hat Qianjue Technology sein selbst entwickeltes Embodied - Brain bereits für verschiedene Hardwaretypen wie Radfahrer, Vierbeiner, zweibeinige Humanoidroboter, Drohnen und Staubsaugerroboter angepasst und in realen Projekten wie Hotelreinigung, kommerzieller Dienstleistung und präziser Innenarbeit eingesetzt. Derzeit sind bis zu 100.000 Endgeräte angeschlossen. Auf der Grundlage der kontinuierlich von den massenhaften Endgeräten generierten realen Interaktionsdaten wird das Weltmodell in Zukunft weiter optimiert.

Ein Roboter mit Qianjue - Weltmodell liefert autonom in einer Kaffeebar (Quelle/Unternehmen)

Im Folgenden ist ein Auszug aus dem Interview von Hard Krueger mit Gao Haichuan, CEO von Qianjue Technology, und Zhang Tianren, CTO von Qianjue Technology (leicht bearbeitet):

Hard Krueger: Im Szenario der offenen Schleifenvorhersage akkumuliert der Fehler der Langzeitinferenz des Weltmodells mit der Anzahl der Schritte. Wie löst Qianjue's prädiktive Architektur dieses Problem? Inwiefern kann der geschlossene Rückkopplungsmechanismus der Embodied - Aufgabe die Fehlermagnifikation unterdrücken?

Zhang Tianren: Dieses Problem hat mehrere Ebenen. Erstens hängt die Größe des akkumulierten Fehlers davon ab, ob das Anwendungsgebiet einen geschlossenen Rückkopplungsmechanismus hat. Das Videogenerierungsmodell ist rein offen, es prognostiziert viele Frames in Zukunft auf einmal, ohne jegliche externe Information zur Korrektur. Daher akkumulieren sich die Fehler leicht. Aber bei der Embodied Intelligence gibt es einen geschlossenen Rückkopplungsmechanismus. Wir lassen den Roboter nicht 1000 Schritte auf einmal prognostizieren und die gesamte Aufgabe planen, bevor er ausführt. Stattdessen prognostizieren wir zuerst 50 Schritte, wählen die Aktion aus und führen sie aus. Nach der Ausführung gibt die Umgebung einen neuen Zustand als Rückkopplung, auf der Grundlage derer die nachfolgende Vorhersage korrigiert wird.

Dieser Zyklus von "Ausführung - Beobachtung - Korrektur" ist der wesentliche Unterschied zwischen der Embodied - Aufgabe und der Videogenerierung und kann die Fehlermagnifikation effektiv unterdrücken.

Zweitens geht es um das Memory - Modul. Qianjue hat bereits versucht, ein Memory - System auf einigen Plattformen aufzubauen, aber es ist noch nicht direkt mit dem visuellen Zentrum integriert. Der Grund ist, dass da es bereits einen geschlossenen Rückkopplungsmechanismus gibt, in vielen Szenarien keine explizite Langzeitmemory benötigt wird.

Drittens unterstützt Qianjue's Modell die Mehrschrittvorhersage. Ein "Schritt" der Modellvorhersage entspricht nicht unbedingt einem unteren Steuerbefehl, sondern kann einer vollständigen semantischen Aktion entsprechen, wie z. B. 50 unteren Schritten. Je weniger Schritte prognostiziert werden, desto geringer ist die Wahrscheinlichkeit und der Umfang des akkumulierten Fehlers.

Insgesamt glauben wir, dass die obere Grenze der Fähigkeit des Weltmodells die vollkommen offene Langzeitplanung ist, z. B. dass ein Roboter alle Details für die nächsten hundert Schritte auf einmal planen muss, bevor er beginnt. Aber solche Anwendungsfälle sind in realen Embodied - Aufgaben selten. Der natürlichere und realistischere Ansatz ist es, "während der Arbeit zu beobachten" und Probleme sofort zu korrigieren.

Hard Krueger: Qianjue hat bereits eine Massenimplementierung im Bereich von 100.000 Geräten erreicht. Welche überraschenden Erkenntnisse haben Sie aus den Kundenrückmeldungen während der tatsächlichen Umsetzung gewonnen? Wie hat dies die Weiterentwicklung Ihres Produkts beeinflusst?

Gao Haichuan: Qianjue hat derzeit 100.000 Geräte in realen Szenarien in Betrieb. Die Benutzer nutzen die Roboter als echte Produkte und geben echte Rückmeldungen. Daher gibt es keine "real - to - real gap" zwischen dem trainierten Modell und den realen Szenarien.

Ein Roboter mit Qianjue - Weltmodell reinigt autonom einen Tisch (Quelle/Unternehmen)

Es gab zwei Punkte in den Marktfeedback, die uns überrascht haben.

Der eine ist die Sensitivität gegenüber der Reaktionsgeschwindigkeit. Die Toleranz gegenüber Verzögerungen variiert stark in verschiedenen Szenarien. Die 4 - Sekunden - Reaktionszeit des generativen Modells ist in Roboterszenarien praktisch nicht verwendbar. Unser prädiktives Modell hat eine schnelle Infrarotschnelligkeit und kann das Ergebnis in 0,5 Sekunden liefern. Aber einige Roboter benötigen eine Verzögerung der Cloudübertragung von etwa 1 Sekunde, und die Kunden melden immer noch "Stockungen". Wenn wir die Verzögerung auf 0,5 Sekunden reduzieren, verbessert sich die Benutzererfahrung qualitativ. Diese Millisekunden - Verzögerungsoptimierung kann oft direkter in die Benutzerzufriedenheit umgesetzt werden als die Verbesserung der Modellfähigkeiten.

Andererseits geht es um den Wert der Initiative. In den meisten Fällen möchten die Kunden nicht, dass der Roboter nur ein passives Werkzeug zur Ausführung von Befehlen ist, sondern dass er "aufmerksam" ist - er soll die Umgebung aktiv wahrnehmen und autonom Entscheidungen treffen, anstatt auf jeden Befehl des Menschen zu warten. Zum Beispiel in einem Hotel kann ein Roboter, der selbstständig einen Schmutz auf dem Boden entdeckt und die Reinigung startet, den Kunden stärker von der "Intelligenz" überzeugen als ein Roboter, der erst nach einem Befehl handelt. Dieser Übergang von einem "angetriebenen Gerät" zu einem "Intelligenzmitglied" wird zu einem Schlüsselfaktor für die Produktunterscheidung.

Dieser Artikel wurde ursprünglich von「黄楠」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Tsuaa-Gründerteam entwickelt verteiltes prädiktives Weltmodell, erhält mehrere 100 Millionen Yuan in Serie-A-Finanzierung und erreicht eine Bereitstellung von 100.000 Endgeräten｜Hardkex Exklusiv