Der nächste Billionen-Dollar-Trend: Physical AI redifiniert die städtischen Dienstleistungen auf den Straßen
In den letzten beiden Jahren richtete sich die Weltöffentlichkeit auf generative KI und humanoide Roboter. Die erste hat die Interaktionsweise zwischen Menschen und Informationen neu gestaltet, während der zweite als der Schlüsselträger für allgemeine Intelligenz angesehen wird.
Aber jenseits der aufregenden technologischen Erzählungen bewegen sich Roboter, die tatsächlich in die Praxis umgesetzt werden können und reale Produktivität schaffen, schon still und leise auf den Straßen der Städte. Sie erscheinen an Bordsteinen, unter Autobahnkreuzungen und in den blindspotten Bereichen der Gehwege, an den Orten, die am leichtesten übersehen werden, aber voller Staub und Gefahren sind. Sie beginnen um fünf Uhr morgens mit der Arbeit und ersetzen tausende von anstrengenden, schwierigen und sogar gefahrvollen Jobs.
In China ist die Stadtreinigungsbranche ein riesiges Geschäftsfeld mit deutlichen Problemen: Arbeitsintensivität, Schwierigkeiten bei der Einstellung von Arbeitskräften, hohes Sicherheitsrisiko und strenge Arbeitsstandards. Aber genau deshalb kann die unauffällige Stadtreinigungsbranche auch den Wert der KI-Intelligenz messen.
Der Grund, warum Coolwalk Robotics sich für die Stadtreinigungsbranche entschieden hat, liegt auch in dieser Logik. "Der Weg, den Coolwalk gewählt hat, ist eher realistisch. Wir legen den Schwerpunkt auf städtische Dienstleistungen und beginnen mit der Stadtreinigung. Wir vertiefen uns in die 'schmutzigen' Jobs in der Stadt und setzen Arbeitskräfte durch Roboter frei", sagte Liao Wenlong, CTO von Coolwalk Robotics.
Im Oktober 2025 stellte Coolwalk Robotics den kleinen Roboter R0 mit zweiarmiger Bedienungskapazität vor. Er kann nicht nur städtische Arbeitsaufgaben übernehmen, sondern auch in komplexere Szenarien wie die Immobilienverwaltung eintreten. Gleichzeitig gewann Coolwalk den Titel "Unternehmen mit dem größten Durchbruch in der KI-Anwendungsszene im Jahr 2025" bei der 36Kr WISE 2025 und siegte bei der Shenzhen Internationalen KI-Stadtreinigungsroboter-Wettbewerbsmeisterschaft. Sowohl die Umsetzung der Anwendungsfälle als auch die technologische Innovation wurden doppelt bestätigt.
Eine Übersicht über die Preise, die Coolwalk Technology in den jüngsten internationalen Stadtreinigungsroboter-Wettbewerben gewonnen hat
Das heißt, dass Coolwalks Roboter heute nicht nur die Straßen sauber kehren können, sondern auch komplexere Aufgaben lösen können. Von der selbstfahrenden Stadtreinigungsmaschine bis zum städtischen Embodied AI-Roboter hat Coolwalk sich tief in dieses Feld eingearbeitet.
Vielleicht markiert dies den Beginn der Umsetzung von Embodied AI, die auf den Straßen der Städte beginnen wird.
Die aktuellen Anwendungsfälle mit produktivem Wert finden
In der Vorstellung vieler Menschen kann der Staubsaugerroboter zu Hause den Innenraum saugen, und wenn man ihn auf die Straße vergrößert, kann er auch die Straße saugen. Es scheint, dass die Essenz der Reinigung gleich ist, nur die Größe und die Leistung sind unterschiedlich.
Sie haben tatsächlich Ähnlichkeiten. Alle Roboter, die sich auf die physische Welt beziehen, benötigen im Wesentlichen zwei Arten von Fähigkeiten: Einerseits die Fähigkeit, sich autonom in der Umgebung zu bewegen (Navigation), andererseits die Fähigkeit, bestimmte Aufgaben auszuführen (Operation). "In dieser Hinsicht sind RoboTaxi, Stadtreinigungsfahrzeuge und Haushaltsstaubsauger alle Kombinationen unterschiedlicher Fähigkeiten in diesen beiden Dimensionen", erklärte Liao Wenlong weiter.
Wenn es jedoch um die reale Welt geht, sind die beiden grundsätzlich verschiedene technologische Spezies, von der Wahrnehmungssystem bis zur Entscheidungsfähigkeit, von den Aufgabenzielen bis zur Sicherheitsgrenze.
Die Haushaltsreinigung ist das Ergebnis der Faulenökonomie und ein zusätzlicher Bedarf; die Stadtreinigung hingegen gehört zur Grundlogik des städtischen Betriebs und ist eine Aufgabe, die unbedingt erfüllt werden muss. Im Vergleich zur Umstellung von Fließbändern durch Industrieroboter ist die Nachfrage nach Stadtreinigungsrobotern dringender und realistischer - die Arbeitsumgebung ist schwierig und riskant, daher gibt es seit langem Probleme bei der Einstellung von Arbeitskräften und einem hohen Personalabwanderungsrate. Aber die Grundhygiene der Stadt darf nicht fehlen.
Dies war auch der Ausgangspunkt für Coolwalk bei der Auswahl der Anwendungsfälle. Sie hoffen, dass Embodied AI die Produktivität wirklich verändern kann, wie Liao Wenlong sagte: "Wir entwickeln KI-Stadtreinigungsroboter, um das Ziel der zukünftigen generalisierten physischen KI zu erreichen und die KI-Stadtreinigungsroboter mit aktuellem produktivem Wert umzusetzen."
Die Stadtreinigungsbranche ist derzeit der Anwendungsfall mit dem größten Potenzial für einen geschlossenen Geschäftszyklus und gleichzeitig das Schlachtfeld mit der höchsten Schwelle. Einerseits hat sie die typischen Merkmale eines B2B-Geschäfts mit hoher Häufigkeit und unumgänglicher Bezahlung, was es ermöglicht, den Geschäftswert anhand des ROI zu erklären; andererseits beinhaltet sie auch die vier größten Herausforderungen, die diese Generation von Physical AI am schwersten zu umgehen hat, und nur wenige Unternehmen können diese Herausforderungen meistern, was eine natürliche technologische Barriere darstellt.
Die erste Herausforderung besteht darin, dass die Umgebung selbst unstrukturiert ist. An Bordsteinen, engen Gehwegen und Grünstreifenrändern gibt es keine streng definierte "Fahrzone". Für Menschen wird dies intuitiv erledigt, für Roboter erfordert es jedoch, dass sie wirklich die räumlichen Beziehungen und die Arbeitsziele verstehen. Dies zwingt das System, von der modularen Logik hin zu einem End-to-End-Weltmodell überzugehen und direkt die Arbeitsabsicht zu verstehen.
Die zweite Herausforderung ist die dynamische Sicherheitsentscheidung, die durch das Zusammenspiel an Kreuzungen und mit Hindernissen entsteht. Das Passieren von Kreuzungen und das Ausweichen vor Fußgängern und nicht-motorisierten Fahrzeugen bedeutet im Wesentlichen, die möglichen zukünftigen Folgen abzuschätzen, anstatt einfach die aktuelle Position und Geschwindigkeit zu berechnen. Dies stellt höhere Anforderungen an die "Weltverständnis"-Fähigkeit des Modells.
Die dritte Herausforderung ist die Genauigkeit bei der Arbeit in engen Räumen. Wenn der Roboter zu weit vom Bordstein entfernt saugt, bleibt eine Schmutzlinie; wenn er zu nah herankommt, kann er den Bordstein oder die Einrichtungen beschädigen. Hier kann man sich weder auf grobe Sicherheitsreserven verlassen noch kann man das Problem einfach durch einen Abstandsschwellenwert lösen. Der Roboter muss lernen, eine Art intuitive Urteilsfähigkeit wie beim "Blick in den Rückspiegel" zu entwickeln.
Die vierte Herausforderung ist die Schwierigkeit bei der Steuerung, die durch die enge Kopplung von Bewegung und Arbeit entsteht. Stadtreinigungsfahrzeuge fahren oft gleichzeitig, steuern die Rollbürsten und die Schieber und jagen die weggeblasenen Müllstücke. Jede Bewegungseinstellung wirkt sich auf die Gesamteffizienz der Arbeit und die Fahrzeughaltung aus.
Genau wegen dieser realen und konkreten Probleme gibt es in der Branche der Stadtreinigungsroboter seit langem nur wenige Akteure: Wenn man es zu einfach macht, kann man die Menschen nicht wirklich ersetzen; wenn man es intelligent genug macht, muss man mit hohen technologischen Schwierigkeiten und langen Investitionszyklen rechnen.
Für Coolwalk war die Entscheidung für die Stadtreinigungsbranche sowohl eine Einschätzung der Branchenprobleme als auch eine Antwort auf ihre eigene technologische Route - wenn Physical AI wirklich in die reale Welt eintreten will, wird dies der Ort sein, an dem es zuerst getestet und der Wert zuerst sichtbar wird.
Der "Einhorn"-Roboter von Coolwalk zeigt seine Arbeitsfähigkeiten
Der Aufbau der intelligenten Kette lässt die KI in die physische Welt eintreten
Im Gegensatz zum herkömmlichen autonomen Fahren, das nur das Problem "von A nach B" löst, besteht die größte Herausforderung in der Stadtreinigungsbranche darin, den Roboter dazu zu bringen, in der Stadt gleichzeitig zu fahren und zu arbeiten. Das heißt, der Roboter muss gleichzeitig den Raum, die Aufgabe und die sich verändernde Welt verstehen.
In den letzten zehn Jahren hat die Branche allgemein ein "Entkopplungs"-Technikframework verwendet: Die Wahrnehmung ist für die Erkennung von Hindernissen zuständig, die Vorhersage für die Berechnung der Fahrbahn, und die Entscheidungssteuerung passt den Wagenkörper und die Arbeitsvorrichtung gemäß einigen technischen Regeln an. Aber in der offenen und dynamischen Stadtreinigungsbranche gerät ein solches Techniksytem oft in Fragmentierung: Je komplexer die Situationen werden, desto dicker werden die Regeln, und das gesamte System wird anfällig und schwer zu verallgemeinern.
Das Coolwalk-Team hat sich ständig darum bemüht, die Technologiearchitektur der Stadtreinigungsroboter grundlegend zu optimieren. Liao Wenlong erklärte, dass sich in der Branche ein Fünf-Stufen-Evolutionssystem für die Intelligenzfähigkeit der Stadtreinigungsroboter entwickelt hat:
Erste Stufe: Der Roboter kann nur in einer geschlossenen Umgebung entlang einer festen Route Skripte ausführen;
Zweite Stufe: Der Roboter kann auf öffentlichen Straßen unter Verwendung von hochpräzisen Karten autonom eine feste Route fahren und die Arbeit ausführen;
Dritte Stufe: Der Roboter ist nicht strikt auf hochpräzise Karten angewiesen und kann die Route und die Strategie in Echtzeit an die Umgebung anpassen;
Vierte Stufe: Physischer Intelligenzagent: Der Roboter ist sofort einsatzbereit, kann die Route und das Arbeitsskript autonom planen und sich an jede Stadtumgebung anpassen, ohne dass seine Leistung bei sich ändernden Szenarien abnimmt;
Fünfte Stufe: End-to-Cloud-integrierte multi-physische Intelligenzagenten: Mehrere Roboter koordinieren sich autonom, um die städtischen Dienstleistungsanforderungen zu erfüllen und eine globale oder nahezu globale optimale Ressourcenallokation zu erreichen.
Derzeit hat Coolwalk im Vergleich zu anderen Unternehmen auf dem Markt bereits die Kernfähigkeiten der vierten Stufe stabil umgesetzt und befindet sich im wichtigen Prozess des stetigen Fortschritts in Richtung fünfter Stufe.
Jetzt, mit dem ständigen Fortschritt der einheitlichen Physical AI Model (Weltmodell)-Technologie, muss der Roboter nicht mehr in der Phase bleiben, in der er die von Menschen festgelegten Regeln lernt.
Die Philosophie des Coolwalk-Teams ist sehr direkt: "Wir glauben, dass sowohl in der Zukunft als auch jetzt ein einheitliches Physical AI Model alle Fähigkeiten gleichzeitig verwalten sollte, anstatt wie viele andere versuchen, die Probleme zu entkoppeln."
Diese Philosophie spiegelt sich in der TechnologieRoute von Coolwalk mit dem BEV World Model als Grundlage wider. Durch die Vorhersage mit einer riesigen Datenmenge kann es die unklare zukünftige Situation vorhersagen und direkt die Aktion (Action) dekodieren. Diese Fähigkeit ähnelt einer "Intuition": Wenn der Wind Müll wegblasst, weiß es, wohin der Müll wahrscheinlich weht; wenn es zu nahe an einer Wand kommt, versteht es, welche Folgen ein Zusammenstoß haben würde; wenn es an einer Kreuzung fährt, bewertet es die Absicht und das potenzielle Risiko des anderen Verkehrsteilnehmers. Dies befreit das System von den Beschränkungen der bisherigen technischen Logik, die auf der Kartenerstellung, der Planung und der Steuerung basiert.
Zusätzlich muss der Roboter auf der Straße nicht nur die physische Welt verstehen, sondern auch die Welt der menschlichen Zivilisation: Die Bedeutung von Ampeln, die Regeln von Halteverbotszonen, die Grenzen von Blindenwegen... Diese abstrakten Symbole können nicht vollständig aus den Pixeln abgeleitet werden. Deshalb hat Coolwalk auf der Grundlage des einheitlichen physischen Modells ein visuelles Sprachmodell (VLM) als Nebensystem für die Kognition hinzugefügt, um Regeln, Zeichen und Absichten zu analysieren und die Aktion durch Strategiehinweise zu leiten. Liao Wenlong gab eine anschauliche Metapher: "Das VLM ist wie das menschliche Gehirn, das bei Bedarf tief nachdenkt und dann das Bewegungszentrum steuert."
Nachdem der Roboter Intuition und ein Gehirn hat, macht das verstärkte Lernen diesen Roboter immer zuverlässiger und robuster. Durch das Ausprobieren in einer Simulationsumgebung werden nicht nur die seltenen Szenarien gelöst, die man noch nie gesehen hat, sondern auch die Strategiekonsistenz bei der Kopplung mehrerer Aktionen. Das Kehren, das Anfahren an den Bordstein und das Ausweichen vor Hindernissen werden im einheitlichen Modell gemeinsam gelernt, um Effizienz und Sicherheit zu gewährleisten.
Liao Wenlong fasste zusammen: "Einfach ausgedrückt, lässt sich unsere Architektur als Welt-Aktions-Modell (World Action Model) + VLM (visuelles Sprachmodell) beschreiben."
Um in der praktischen Umsetzung wirklich "sofort einsatzbereit" zu sein, hat Coolwalk zwei Schlüsselfähigkeiten in das Modellsystem integriert: Erstens ein Selbst-Gedächtnis (Self-Memory)-Mechanismus. Nachdem der Roboter in eine neue Umgebung gelangt ist, schreibt das System automatisch die erstmals und später gesehenen Straßenstrukturen und Schlüsselmerkmale in das Weltmodell, um "einmal lernen, langfristig anpassen" und "immer besser werden" zu ermöglichen. Zweitens die Anpassung von Strategiehinweisen (Prompt). Für unterschiedliche Verkehrsregeln in verschiedenen Regionen (z. B. Linksverkehr in Singapur, Rechtsverkehr in China) und Arbeitsanforderungen (z. B. Schwerpunktbereiche) kann man die Verhaltensstrategie einfach durch die Änderung der Hinweiswörter ändern, ohne das Modell neu zu trainieren. Dies ermöglicht es dem Roboter, schnell in den Produktionsbetrieb zu gehen und die technologischen Fähigkeiten in reale Betriebseffizienz umzuwandeln.
Schließlich entsteht eine kontinuierliche, vollständige und sich selbst verstärkende intelligente Kette: Die Welt verstehen, die Folgen vorhersagen, die Aktion beschließen, sich durch Ausprobieren verbessern, sich an die Stadtveränderungen anpassen und die menschlichen Regeln befolgen. Die KI tritt endlich wirklich in die physische Welt ein.
Und hinter der Tatsache, dass diese intelligente Kette tatsächlich funktioniert, steckt