Auf der rasenden Embodied-Rennstrecke transportieren die Roboter von Reconova bereits Gepäck am Flughafen.
Während Roboter auf verschiedenen Laufbahnen eilen, hat ein Unternehmen für Embodied Intelligence (eingebettete Intelligenz) seinen eigenen Weg eingeschlagen und sich von der visuellen Intelligenz in den Bereich der Embodied Intelligence entwickelt.
Am 29. April hielt Raywin Technologies einen Themenvortrag über die Lösung der Probleme bei der Implementierung von Embodied Intelligence in Szenarien auf der Veranstaltungsfläche der dritten China-Konferenz für Embodied Intelligence und Humanoidrobotik.
Dieses Unternehmen, das sich seit 14 Jahren auf dem Gebiet der KI spezialisiert hat, hat offiziell ein Signal an die Außenwelt gesendet: Maschinen, die die Welt verstehen können, beginnen jetzt, praktische Arbeit zu verrichten. In einer Laufbahn, in der alle über Allgemeingültigkeit und Skalierbarkeit reden, will es ein Akteur sein, der sich auf die praktische Umsetzung konzentriert.
Von visueller KI zur Embodied Intelligence
Im Jahr 2012 wurde Raywin Technologies gegründet. Bis heute hat es zwei völlig verschiedene KI-Epochen miterlebt.
In der Ära der KI 1.0 war die zentrale Fragestellung der Technologie die Wahrnehmung: Wie kann man Maschinen dazu bringen, Bilder „zu verstehen“, Objekte zu erkennen und Szenarien zu verstehen? Dies war ein goldenes Zehn-Jahre-Zeitalter für die breite Umsetzung des Deep Learning und ein verrücktes Zehn-Jahre-Zeitalter für die visuellen KI-Unternehmen, in dem sie Marktbereiche eroberten.
Innerhalb dieser zehn Jahre hat der Markt der visuellen KI eine grausame Reinigungsphase durchlaufen. Zu seiner Spitzenzeit gab es in China Tausende von Unternehmen, die mit dem Label „visuelle KI“ operierten. Das Kapital strömte wild ein, und die Bewertungsblasen häuften sich schnell. Anschließend folgte eine lange Phase der Entschäumung: Die Finanzierungsbedingungen wurden strenger, die Kommerzialisierung funktionierte nicht, und der homogenisierte Wettbewerb drückte die Gewinne. Um das Jahr 2019 herum gerieten viele Akteure in Schwierigkeiten. Es war keine Seltenheit mehr, dass einstige Unicorn-Unternehmen zu Discountpreisen verkauft wurden oder gar stilllegten.
In der Vergangenheit waren die Sicherheits- und Finanzbranchen die beiden am dichtesten besiedelten Felder auf dem Gebiet der visuellen KI. Im Gegensatz dazu hat sich Raywin auf relativ unscheinbare Szenarien konzentriert: die Passagierdurchreise mit zivilen Flughäfen als Kern, das gewerbliche Immobilienwesen, insbesondere Einkaufszentren, sowie die assistierte sichere Fahrweise für Güterverkehrsfahrzeuge.
Aus einer externen Perspektive war dies eine eher zurückhaltende Entscheidung. Aber gerade deshalb ist Raywin eines der wenigen visuellen KI-Unternehmen, die von der Zeit der kleinen Modelle bis zur Zeit der großen Modelle überlebt haben und immer noch an der Spitze ihrer Branche stehen.
Der Nutzen dieser Konzentration ist, dass die Wettbewerbsbarrieren immer höher werden. Laut Daten von Frost & Sullivan belegte Raywin 2024 den ersten Platz auf dem chinesischen Markt für visuelle Intelligenzprodukte in der zivilen Luftfahrtbranche, mit einem Marktanteil von 8,9 %. Seine Produkte sind in einem Drittel der chinesischen zivilen Flughäfen vertreten, und in Flughäfen mit über einer Million Passagieren pro Jahr liegt die Abdeckung sogar bei zwei Dritteln. Hinter diesen Zahlen verbirgt sich eine Milliardenfaltige szenarienspezifische Schulung, ein tiefes Verständnis aller Geschäftsprozesse in der Luftfahrtbranche und eine langjährige Kundenbeziehung zu den Flughafthändlern.
In der Ära der KI 2.0 hat sich die Fragestellung der Technologie geändert. Die großen Modelle bringen nicht nur eine Verbesserung der Wahrnehmungsfähigkeit, sondern auch eine Erweiterung von der Verständnisphase zur Handlungsphase. Dieser technologische Wendepunkt ist für Raywin die Gelegenheit, einen Schritt vorwärts zu gehen.
Zhan Donghui, Gründer und Vorsitzender von Raywin Technologies, begrüßt diese Veränderung: „In den letzten 12 Jahren haben wir uns ausschließlich auf die Augen konzentriert – auf die Wahrnehmung und das Verständnis der physischen Welt durch das Sehen. Aber jetzt gehen wir einen Schritt weiter, in Richtung Gehirn und Hände. Auf der Grundlage des Verständnisses der Welt beginnen wir, Entscheidungen zu treffen und Aktionen auszuführen, um Menschen bei der Erledigung ihrer Aufgaben zu helfen.“
Dies bedeutet auch, dass Raywin nicht mehr nur ein Unternehmen für visuelle Intelligenz ist. Es verschiebt seinen technologischen Schwerpunkt von der Wahrnehmung und Erkennung hin zur Entscheidungsfindung und Umsetzung, um einen vollständigen Kreis von den „Augen“ über das „Gehirn“ bis zu den „Gliedmaßen“ zu schließen. In Bezug auf die Produktpositionierung wandert es hin zu einem Anbieter von Embodied Intelligence-Produkten für gewerbliche Szenarien, die komplexe Operationen ausführen können. Dies ist das neue Label von Raywin und auch die konkrete Laufbahn, die es in der beliebten Branche der Embodied Intelligence gewählt hat.
Die echten Wettbewerbsbarrieren in einem lärmenden Markt
Der derzeit vorherrschende Diskurs in der Embodied Intelligence bezieht sich auf die Allgemeingültigkeit. Je mehr Szenarien ein Roboter bewältigen kann, desto aufregender ist seine Geschichte und desto größer ist sein Bewertungsspielraum. Gemäß dieser Logik scheinen Unternehmen, die sich auf vertikale Szenarien konzentrieren, von Natur aus im Nachteil zu sein.
Zhan Donghui ist der Meinung, dass die Fähigkeit zur Allgemeingültigkeit die Bühne für Plattformunternehmen ist. Dies erfordert Skalierbarkeit, ein Ökosystem und den Effekt eines früh etablierten Datennetzwerks. Die Barrieren in vertikalen Szenarien werden jedoch nie durch die Anhäufung von Parametern errichtet. Sie stammen aus bestimmten Szenarien, aus dem tiefen Verständnis der Geschäftsprozesse der Kunden und aus dem Know-how, das sich nach unzähligen gemeinsamen Problemlösungen mit den Kunden angesammelt hat. Dies lässt sich nicht durch die bloße Anhäufung von Rechenleistung erreichen.
In technischer Hinsicht hat Raywin eine Wettbewerbsmatrix aufgebaut, die aus drei Ebenen besteht.
Die erste Ebene ist die Wahrnehmungsbasis. Dies ist die direkte Umsetzung der 14-jährigen Erfahrung in der Entwicklung von visuellen Algorithmen: Objekterkennung, Raumverständnis, Pose-Schätzung und Echtzeitwahrnehmung in unstrukturierten Umgebungen.
Die zweite Ebene ist die Entscheidungsfindungsebene, mit dem VLA (Visuelles-Sprache-Aktion)-Großmodell als eigenes Forschungsziel. Raywin entwickelt derzeit ein VLA-Modell für vertikale Szenarien, das die visuelle Wahrnehmung, das Verständnis der natürlichen Sprache und die Bewegungsplanung von Robotern in einem End-to-End-Framework vereinigt. Dadurch wird der Roboter zu einem intelligenten Agenten, der die semantischen Informationen eines Szenarios verstehen, anhand des Kontexts Urteile fällen und entsprechende Handlungssequenzen generieren kann. Im Vergleich zu allgemeinen VLA-Modellen hat Raywin zusätzlich Kraft- und Tastsinn eingeführt, so dass die Entscheidungsfindung des Roboters der mehrdimensionalen Informationsverarbeitung des Menschen ähnlicher ist. Raywin hat diese Innovation als VTFLA benannt.
Die dritte Ebene ist die Umsetzungsebene, d. h. die Ergänzung der Fähigkeiten der „Hände“ und des „Körpers“ durch eigenentwickelte Komponenten. So stark die Wahrnehmung und Entscheidungsfindung auch sein mögen, am Ende kommt es auf die Qualität der physischen Aktionen an. Die Eigenentwicklung von Raywin auf der Umsetzungsebene löst das Problem der zuverlässigen Bedienung von Robotern in unstrukturierten Umgebungen, d. h. die Greifstrategie, die Kraftkontrolle und die Anpassung des Endeffektors an verschiedene Objektformen. Dies ist eine äußerst hohe technische Hürde und die schwierigste Schwelle zwischen der Demonstration und der Massenproduktion.
Was den kommerziellen Erfolgspfad der Embodied Intelligence betrifft, ist Zhan Donghui der Meinung, dass komplexe, unstrukturierte, spezielle Szenarien vor den allgemeinen Szenarien kommerziell erfolgreich sein werden.
Allgemeiner Roboter sind sowohl technologisch als auch finanziell eingeschränkt. Sie müssen sowohl über eine ausreichende Generalisierungsfähigkeit verfügen als auch die Kosten pro Gerät unter die akzeptable Anschaffungsschwelle für Unternehmenskunden drücken. Beide Bedingungen gleichzeitig zu erfüllen, erfordert derzeit noch Zeit. Im Vergleich dazu können spezielle Roboter, die auf ein einzelnes Szenario abgestimmt sind, in technischer Hinsicht auf die bekannten Einschränkungen optimiert werden und sind in Bezug auf die Kostenstruktur kommerziell durchsetzbarer.
Das unterschätzte schwere Stück Arbeit
Die zivile Luftfahrt ist der erste Einstiegspunkt von Raywin in die Embodied Intelligence und zugleich die am tiefsten gegründete Basis. Das erste Umsetzungsszenario, das Raywin gefunden hat, ist der Gepäcktransport.
Der Gepäcktransport ist eines der am stärksten personalintensiven Bereiche in der Luftfahrtbranche. Die Schwierigkeiten bei der Einstellung von Arbeitskräften, die hohe Fluktuation und die starken Schwankungen der Effizienz aufgrund von Wetterbedingungen und Flugplänen sind seit Jahren Probleme, die Flughäfen plagieren.
Dieses Szenario tatsächlich gut umzusetzen, ist viel schwieriger als es auf den ersten Blick scheint. Zhan Donghui sagte, dass die Gepäcktransportecke eine hochgradig unstrukturierte Arbeitsumgebung ist, die fast alle ungünstigen Bedingungen für die Installation von Robotern bietet.
Zunächst gibt es die extreme Vielfalt der Objektformen: Die gepackten Gepäckstücke der Passagiere sind nicht standardisiert. Koffer, Weichkoffer, Kartons und überdimensionierte, ungewöhnliche Gegenstände kommen oft in derselben Charge vermischt vor. Jede Gepäckstück stellt für den Roboter eine neue Herausforderung beim Greifen dar: Wo soll er greifen, mit welcher Kraft, um das Gepäck sicher und unbeschädigt zu halten, und wo ist der beste Platz für das Stapeln?
Zweitens gibt es die Unregelmäßigkeit des Raums selbst: Die Transportbereiche unterhalb der Terminals wurden nicht für Roboter ausgelegt. Die Gänge haben unterschiedliche Breiten, die Spalten zwischen den Geräten sind eng, und die Bewegungswege der Roboter müssen in Echtzeit geplant werden.
Zuletzt, und dies ist der wichtigste Punkt, besteht die Notwendigkeit einer hochdichten Mensch-Roboter-Kooperation: Im Luftfahrtbetriebssystem hängen die Genauigkeit und die Pünktlichkeit des Gepäcktransports direkt von der Pünktlichkeit der Flüge und der Zufriedenheit der Passagiere ab. Um Gepäckstücke unterschiedlicher Größe und Form innerhalb kurzer Zeit vollständig zu transportieren, ist die gemeinsame Arbeit von Menschen und Robotern derzeit die beste Lösung. Die parallele Arbeit bedeutet jedoch, dass beide in enger Nähe und mit hoher Häufigkeit räumliche Überlappungen haben. Jede Verzögerung bei der Wahrnehmung oder Entscheidung kann ein Sicherheitsrisiko darstellen.
Dies ist der Grund, warum allgemeine Roboter derzeit nicht in diesem Bereich eingesetzt werden können. Die starke Generalisierungsfähigkeit von allgemeinen Robotern bedeutet, dass sie in verschiedenen Szenarien „funktionieren“ können. Aber „funktionieren“ und zuverlässig in einer strengen Produktionsumgebung funktionieren, sind zwei völlig unterschiedliche Standards. Gleichzeitig ist die derzeitige Kostenstruktur von allgemeinen Robotern auch der Grund, warum sie vorerst kein akzeptables ROI in solchen Arbeitsersatzszenarien erzielen können.
Raywins Lösung ist die Entwicklung eines intelligenten Roboters, der speziell für den Gepäcktransport an Flughäfen entwickelt wurde. Auf der Internationalen Flughafenmesse 2025 hat der Xiaoyi Gepäcktransportroboter in einer simulierten Terminaltransportecke Gepäckstücke unterschiedlicher Formen und Größen von der Endstation des Sortiersystems sicher zu den nachgeschalteten Gepäckanhängern transportiert und effizient gestapelt, wodurch einer der am wenigsten automatisierten Bereiche im Luftfahrtbetriebssystem automatisiert wurde.
Eines der Kernkonzepte ist das branchenerste Modell der Mensch-Roboter-Kooperation. Unter Berücksichtigung der Anliegen der Kunden wird durch technische Gestaltung eine nahtlose Zusammenarbeit zwischen Menschen und Robotern ermöglicht. Dadurch können die Mitarbeiter sicher und natürlich neben den Robotern arbeiten. Die Roboter übernehmen die hochfrequenten und körperlich anstrengenden Transport- und Stapelvorgänge, während die Menschen die Aufgaben übernehmen, die außerhalb der Fähigkeiten der Roboter liegen. Beide Seiten haben ihre jeweiligen Aufgaben, und die Gesamteffizienz ist weit höher als bei rein manueller Arbeit.
Zhan Donghui sagte, dass der Xiaoyi Gepäcktransportroboter in den Tests an Flughäfen die Abhängigkeit von Arbeitskräften deutlich verringert und die körperliche Belastung der Mitarbeiter vermindert. Gleichzeitig wird der Durchsatz des Systems um 30 % gesteigert, und die Beschädigungsrate des Gepäcks sinkt auf 0,12 %. Dies wird auch einer der Anreize für Flughafthändler sein, solche Roboter zu kaufen.
Derzeit führt Raywin Tests an mehreren Flughäfen durch und plant, diese im zweiten Halbjahr dieses Jahres kommerziell einzuführen. Während es sich auf dem chinesischen Markt ausdehnt, hat Raywin auch die Luftfahrtmärkte in Südostasien und im Nahen Osten mit ähnlichen Problemen beim Gepäckmanagement in den Blick genommen.
In diesem wilden Rennen der Embodied Intelligence hat Raywin sich für einen konkreteren Weg entschieden: Die schwierigen Aufgaben gut zu erledigen und den Kunden in der praktischen Geschäftssituation messbare Werte zu bieten.
Wenn man Raywin auf der gegenwärtigen Landkarte der Embodied Intelligence eine Position zuweisen möchte, ist es weder ein Unternehmen für allgemeine Roboter noch ein traditionelles Unternehmen für visuelle KI. Es ist vielmehr ein Anbieter von Embodied Intelligence-Produkten, der sich auf die Bewältigung komplexer Szenarien und komplexer Aktionen konzentriert.
Die Hype in der Roboterbranche wird irgendwann vorübergehen, aber die Produkte, die in strengen Szenarien getestet wurden, bleiben. In der Lärmerei ist es eine Entscheidung, die Entschlossenheit erfordert, sich auf eine enge und tiefe Nische zu konzentrieren. Aber gerade diese Entscheidung hat Raywin in der heftigsten Hype-Phase der Embodied Intelligence eine wirklich seltene Ökologische Nische verschafft und es zu einem vielversprechenden Unternehmen in diesem Bereich gemacht.