41,8 Millionen US-Dollar in der Seed-Runde sind ein Riesenhit: Südkoreanische Physik-AI lüftet die reale Umsetzungslogik der Video-Prätraining
Im globalen Bereich des Embodied AI (eingebettete Künstliche Intelligenz) im Jahr 2026 hat die Debatte über den kommerziellen Wert der Video-Vorausbildung in der VLA-Technologie an Fahrt aufgenommen.
An der Marktseite herrscht ein hoher Investitionsdruck einerseits und andauernde Skepsis andererseits. Viele vertreten die Ansicht, dass die Trainierung von Robotern anhand von Internetvideos nur ein vorübergehender Hype ist und es schwierig ist, eine echte industrielle Umsetzung zu erreichen. Doch eine Finanzierung der südkoreanischen Startup-Firma RLWRLD bietet ein konkretes Beispiel für die technische Richtung und den kommerziellen Wert in diesem Bereich.
Kürzlich hat RLWRLD in der Samenfinanzierungsrunde insgesamt 60 Milliarden won (etwa 41,8 Millionen US-Dollar) gesammelt. Für ein Unternehmen, das sich noch in der frühen Phase der Technologieentwicklung befindet, ist dies eine bemerkenswerte Finanzierungsmenge. Bemerkenswerterweise stammen alle Mittel aus südkoreanischen und japanischen Industrieunternehmen. Unternehmen wie LG, SK, Lotte, CJ Logistics und ANA Airlines haben alle an der Finanzierung teilgenommen.
Die kontinuierliche Investition von Industriekapital zeigt die echte Einschätzung der industriellen Seite über den Wert der Technologieumsetzung. Durch die Entwicklungspfade dieser südkoreanischen Firma können wir die Anpassungsprinzipien der Video-Vorausbildung in verschiedenen Szenarien verstehen und den wahren Wert unterschiedlicher technischer Paradigmen in diesem Bereich neu bewerten.
Verstehen Sie die logische Schichtung der Video-Vorausbildung aus der praktischen Umsetzung
In der Vergangenheit waren die Diskussionen über die Video-Vorausbildung in der Branche meist auf eine einzige Dimension beschränkt, und die Technologie wurde einfach als nützlich oder als Hype eingestuft. Das Umsetzungsmodell von RLWRLD macht die Schichtungseigenschaften in diesem Bereich allmählich deutlicher.
Die gängigen Video-Trainingsmethoden auf dem Markt fallen in zwei völlig verschiedene Umsetzungsformen, die verschiedenen Entwicklungsphasen und kommerziellen Szenarien entsprechen.
Viele chinesische Startups im Bereich des Embodied AI wählen allgemein die Methode, öffentliche Kurzvideos aus dem gesamten Internet zu sammeln, um die Grundvorausbildung des Modells durchzuführen. Es gibt eine riesige Menge an Videos aus privaten, alltäglichen und industriellen Szenarien, die kostenlos abgerufen werden können. Mit diesen Daten kann das Modell schnell die grundlegende visuelle Wahrnehmung und die Bewegungslogik aufbauen.
Diese Methode eignet sich besonders für die frühe Phase der Unternehmensentwicklung. Startteams können das Modell schnell verbessern und Tests in verschiedenen Szenarien durchführen, ohne hohe Kosten für die Datenerfassung von echten Maschinen zu tragen. Dies ermöglicht die Anpassung an verschiedene Branchen und die technische Validierung.
Allerdings gibt es in den öffentlichen Internetvideos einige inhärente Mängel. Die Perspektive, die Beleuchtung und die bewusste Inszenierung der Videos können zu Datenrauschen führen. Darüber hinaus gibt es Abweichungen zwischen den menschlichen Bewegungen in den Videos und der mechanischen Struktur und der Kraftwirkungslogik von Robotern. In industriellen Szenarien mit hoher Genauigkeit und Stabilität ist die Leistung oft nicht stabil.
Nach Informationen von "Wall Street Tech Eye" hat RLWRLD eine andere, eher branchennahe Methode gewählt. Das Team verzichtet auf die öffentlichen Daten aus dem gesamten Internet und konzentriert sich stattdessen auf vertikale, reale Szenarien. Sie haben sich langfristig in Hotels, Logistiklagern, Lebensmittelgeschäften und Flughafenlogistikstationen eingebracht und die tatsächlichen Arbeitsabläufe der Mitarbeiter mit Tragegeräten aufgezeichnet.
Die Erfassung dieser Daten ist relativ aufwändig, aber die Vorteile der aufnahmen sind, dass es keine überflüssigen Bilder gibt und die Videos vollständig der realen Arbeitsumgebung und den standardisierten Arbeitsbewegungen entsprechen. Das Modell lernt nicht mehr aus fragmentierten Internetbildern, sondern aus den kompletten Arbeitsabläufen in etablierten Arbeitsstellen.
Diese Art von Daten eignet sich perfekt für die vielen wiederholenden und standardisierten Aufgaben in der Dienstleistungsbranche. Roboter können diese Aufgaben ohne Veränderung der Arbeitsumgebung und ohne wiederholte Neuprogrammierung übernehmen und schnell Sortier-, Ordnungs- und einfache Hilfsaufgaben erledigen.
Die beiden Video-Trainingsmodelle entsprechen zwei Arten von Marktbedürfnissen. Die Nutzung von Internetvideos eignet sich für den schnellen Aufbau der Modellwahrnehmung und die Erweiterung der Szenariengrenzen, während die Videos aus realen Arbeitsstellen besser für die Entwicklung einer stabilen, kommerziell umsetzbaren und massenproduzierbaren Lösung geeignet sind. Die Szenariendifferenzen bestimmen direkt die Umsetzungseffekte und den kommerziellen Wert der Technologie.
Die zugrunde liegenden Gründe, warum der Ansatz mit realen Videos funktioniert
Eine Samenfinanzierung von über 40 Millionen US-Dollar ist höchstwahrscheinlich kein reiner Kapitalhype. Genauer gesagt, passt dieses Umsetzungsmodell der gegenwärtigen industriellen Realität in Südkorea und Japan und hat eine konsistente Betriebslogik in Bezug auf Bedarf, Technologie, Ökosystem und Geschäftsmodell.
Die Alterung der Bevölkerung in Südkorea und Japan hat zu einem Arbeitskräftemangel in allen Segmenten der Dienstleistungsbranche geführt.
Betrachtet man die verschiedenen Szenarien, so gibt es in Basisstellen wie der Hotelzimmerwartung, der Lagerlogistik, der Regalbewirtschaftung in Supermärkten und der Flughafenlogistik ein hohes Personalaufkommen, steigende Arbeitskosten und eine hohe Wiederholungsrate bei niedrigem Mehrwert. Diese Stellen haben seit langem Schwierigkeiten, Arbeitskräfte zu rekrutieren.
Herkömmliche Automatisierungsgeräte sind sehr starr und können nur an feste Produktionslinien angepasst werden. Sie können nicht auf die flexiblen Arbeitsbedingungen in der Dienstleistungsbranche reagieren. Die Branche hat seit langem einen Mangel an kostengünstigen, flexiblen Automatisierungslösungen.
Das Trainingsmodell von RLWRLD mit realen Videos füllt genau diese Lücke auf dem Markt. Roboter, die anhand von Daten aus realen Arbeitsstellen trainiert werden, können sich an die reale Arbeitsumgebung anpassen. Die Implementierungskosten sind niedrig und die Umstellungskosten sind beherrschbar. Unternehmen können so die Automatisierung mit geringeren Personalersatzkosten vorantreiben, und die Zahlungsbereitschaft und der Bedarf an Umsetzung sind real.
Technisch gesehen vermeidet das Training mit realen Videos das Problem der Umsetzungsabweichungen, das in der Branche weit verbreitet ist. Modelle, die mit Internetvideos trainiert werden, haben oft das Problem, dass sie die Bilder verstehen, aber bei der praktischen Umsetzung fehlschlagen. Der Kerngrund dafür ist, dass die menschlichen Bewegungen und die physikalische Logik der mechanischen Hardware nicht übereinstimmen. Das Modell kann nur die visuelle Erscheinung nachahmen, aber es ist schwierig, es an die realen physikalischen Arbeitsregeln anzupassen.
Nach Informationen von "Wall Street Tech Eye" nutzt RLWRLD die originalen Arbeitsvideos von Mitarbeitern an der Frontlinie als Kern- und kombiniert diese Daten mit physikalischen Parametern wie Kraftempfindung und Bewegungsbahnen, um das Training zu optimieren. Das Modell lernt standardisierte und wiederverwendbare Arbeitsabläufe, was die Betriebsstabilität erheblich verbessert und die Notwendigkeit der manuellen Fernüberwachung verringert. Die Zuverlässigkeit der Technologieumsetzung entspricht somit den industriellen Anforderungen.
Das Ökosystem und das Geschäftsmodell verstärken die Vorteile der Umsetzung. Aus den früheren Investitionen kann man erkennen, dass die Investoren von RLWRLD hauptsächlich Industriekonzerne mit einer großen Anzahl von realen Arbeitsstellen sind. Sie öffnen ihre eigenen Geschäftsszenarien direkt bei der Investition und bieten Testplätze und reale Geschäftsaufträge. Das Unternehmen muss keine hohen Kosten für die Markterschließung aufwenden und hat von Anfang an eine stabile Datenquelle und Einnahmequellen. So kann es Projekte umsetzen und gleichzeitig das Modell verbessern, was zu einem kontinuierlichen positiven Kreislauf führt.
Zusätzlich konzentriert sich das Unternehmen auf die Entwicklung des Algorithmus und betritt nicht in die kapitalintensive Hardwareherstellung ein. Das Kapital und die Arbeitskräfte werden vollständig auf die Optimierung des Modells und den Aufbau des Datensystems konzentriert, was eine höhere Kapitalnutzungseffizienz und einen stabileren kommerziellen Fortschritt ermöglicht.
Die Kombination dieser Faktoren hat es möglich gemacht, dass der Ansatz mit realen Videos in vertikalen Szenarien in den Märkten von Südkorea und Japan einen vollständigen, umsetzbaren, monetarisierbaren und iterierbaren Geschäftsweg etabliert hat.
Neubesinnung über die technische Wahl und die Branchenkontroversen
RLWRLD hat mit einer Vielzahl von industriellen Umsetzungen bewiesen, dass die Video-Vorausbildung einen realen industriellen Wert hat. Die Marktperzeption dieser technischen Richtung wurde jedoch lange Zeit von einem anderen, leichteren und kostengünstigeren Trainingsansatz beeinflusst, was zu großen Branchenkontroversen geführt hat.
Im Gegensatz zur südkoreanischen Firma, die sich auf reale Videos konzentriert, hat sich in China ein anderer gängiger Ansatz im Bereich des physikalischen AI etabliert, der auf der Video-Vorausbildung mit öffentlichen Internetvideos basiert. Qianxun Intelligence ist das am schnellsten wachsende und am meisten beachtete Unternehmen auf diesem technischen Weg, aber es ist auch das am stärksten umstrittene.
Qianxun Intelligence wurde von Han Fengtao, dem ehemaligen CTO von Luoshi Robotics, und Gao Yang, einem Algorithmusexperten mit Hintergrund von der Universität von Kalifornien, Berkeley, gegründet. Innerhalb von zwei Jahren hat es sich schnell zu einem der beliebtesten Startups im Bereich des Embodied AI in China entwickelt. Die Kerntechnik von Qianxun Intelligence gehört ebenfalls zum video-gesteuerten physikalischen AI-System wie die von RLWRLD, aber die Entscheidungen sind völlig unterschiedlich.
Qianxun Intelligence nutzt die riesige Menge an öffentlichen Internetvideos, um die allgemeine Vorausbildung des Modells durchzuführen. Anschließend passt es das Modell anhand von Daten aus selbstentwickelten Tragegeräten und industriellen Fernsteuerungen an spezifische Szenarien an. Das Unternehmen verfolgt einen Full-Stack-Ansatz, bei dem es sowohl die Software als auch die Hardware selbst entwickelt, einschließlich der Herstellung von humanoiden Robotern. Sein Hauptaugenmerk liegt auf der Umsetzung in industriellen Szenarien wie der chinesischen Batterie- und Hochtechnologiefertigung.
Die beiden entgegengesetzten Wege - der südkoreanische Ansatz mit realen Videos und der chinesische Ansatz mit Internetvideos, der eine rein algorithmische und der andere ein Full-Stack-Hardware-Modell - bilden die beiden Hauptbeispiele auf dem Gebiet der Video-Vorausbildung. Angesichts der chinesischen industriellen Umgebung ist die Wahl des Wegs von Qianxun Intelligence aus lokalem Blickwinkel vollkommen sinnvoll.
Die chinesische Fertigungsindustrie ist sehr vielfältig und die Szenarien sind hochgradig fragmentiert. Die Anforderungen der Fabriken sind in der Regel kleinräumig, vielfältig und schnell wechselnd. Es gibt keine einheitlichen, standardisierten Arbeitsabläufe. Wenn man das Modell von RLWRLD, das auf der Erfassung von realen Videos in jedem Szenario und an jeder Arbeitsstelle basiert, kopieren würde, wären die Kosten zu hoch und die Expansion zu langsam, um der Größe und Komplexität des chinesischen Industriemarktes gerecht zu werden.
Die Vorausbildung des Modells mit öffentlichen Internetvideos ist die kostengünstigste und effizienteste Methode für chinesische Robotermarken, um einen erfolgreichen Start zu machen. So kann das Modell schnell ein allgemeines Weltverständnis aufbauen und sich an die vielfältigen industriellen Szenarien anpassen, um schnell erfolgreiche Umsetzungsprojekte zu erzielen.
Qianxun Intelligence verlässt sich nicht vollständig auf externe Daten. Durch den Aufbau eines eigenen Datensystems für reale Maschinen wird der Szenarienmangel ausgeglichen. Zusammen mit den Vorteilen der chinesischen Robotersupplychain bietet das Full-Stack-Modell auch Raum für die langfristige Massenproduktion von Hardware.
Im Vergleich zum reifen, stabilen und nachhaltig monetarisierbaren Geschäftsweg von RLWRLD sind die Schwächen des Ansatzes von Qianxun Intelligence jedoch sehr deutlich. Dies ist auch der Kerngrund für die anhaltenden Zweifel in der Branche.
Die Eigenschaften der Internetvideos machen es dem Modell möglich, sich in verschiedenen Bereichen zu orientieren, aber es ist schwierig, eine tiefe und standardisierte Arbeitsfähigkeit in einer einzigen Branche zu entwickeln. Dies führt zu einer Situation, in der es viele Pilotprojekte gibt, aber wenige massenhaft umgesetzte und bezahlte Projekte. Es fehlt langfristig an stabilen Cashflows, und die hohen Unternehmensbewertungen können zu Blasenbildung führen.
Die Probleme der Perspektivabweichung, des Bildrauschens und der Fehlanpassung zwischen Mensch und Maschine in den externen Videos können nie vollständig beseitigt werden. In komplexen industriellen Szenarien und bei hochpräzisen, flexiblen Arbeitsaufgaben müssen die Roboter immer noch von Menschen fernüberwacht werden. Die Eigenstabilität ist deutlich hinter dem Ansatz mit realen Videos zurück.
Zusätzlich muss das Full-Stack-Modell die hohen Kosten für die Entwicklung von Algorithmen, Hardware und großen Datenteams tragen. Die Kapitalverbrennungsrate ist höher. Die Massenproduktion von Geräten wird jedoch vorsichtig angegangen, und der Zeitraum bis zur kommerziellen Umsetzung ist länger. In einer Zeit, in der sich der Kapitalmarkt insgesamt rationaler verhält, müssen schnellere Umsetzungserfolge die technische Wertigkeit bestätigen.
Dieser Artikel stammt aus dem WeChat-Account "Wall Street Tech Eye". Autor: Park Jin-taek, Redakteur: cc Sun Congying. Veröffentlicht von 36Kr mit Genehmigung.