StartseiteArtikel

Der ehemalige Technologieverantwortliche von Meituan Waimai gründet ein Unternehmen und entwickelt ein "Kulinarisches Weltmodell" für die Ära der Embodied Intelligence.

乔钰杰2026-06-02 09:57
Anfangen mit "Abholung und Weiterleitung von Lieferbestellungen"

Die Umsetzung von Embodied Intelligence (körpergebundener KI) geht von der Laborumgebung in die realste und am meisten bevölkerte physische Welt über.

Das Unternehmen AtomBite.AI hat sich für ein Szenario entschieden, das zwar nicht besonders aufsehenerregend, aber sehr realistisch ist: die Küche von Restaurants.

36Kr hat erfahren, dass AtomBite.AI, ein Unternehmen auf dem Gebiet der Embodied Intelligence, kürzlich eine Millionen-Runde Seed-Finanzierung abgeschlossen hat. Die Leitung übernahm der Inno Capital Investment Fund, und es folgten die Tsinghua Alumni Seed Fund sowie bekannte private Investoren. Die Mittel werden hauptsächlich für die Forschung und Entwicklung von Weltmodellen für Embodied Intelligence im Restaurantkontext sowie für die Umsetzung der Kernprodukte verwendet.

Das Kernteam von AtomBite.AI hat vor der Gründung des Unternehmens lange Zeit an dem Projekt gearbeitet. Diese Finanzierung markiert die erste Validierung der Machbarkeit des Projekts, und das Team hat bereits Kooperations- und Implementierungsabsichten von mehreren führenden Unternehmen in- und ausländisch erhalten.

Das Gründerteam von AtomBite.AI hat deutliche "Meituan-Eigenschaften".

Dr. Wang Dong, Gründer und CEO, war früher Technologieverantwortlicher der Lieferdienstabteilung von Meituan. Er leitete ein Team von tausenden Produkt- und Forschungsmitarbeitern und war maßgeblich an der Entwicklung von Algorithmen, Daten und Systemarchitekturen für den Lieferdienst beteiligt, die täglich Millionen von Bestellungen verarbeiten können. Der Mitbegründer Li Tao war früher für die Algorithmen und Datenarchitektur des Lieferdiensts von Meituan verantwortlich und ist einer der wenigen Technologieverantwortlichen, die einen "ganzheitlichen daten- und algorithmusgesteuerten Prozess" erfolgreich umgesetzt haben. Der Mitbegründer Li Haozhe ist ein erfahrener Unternehmer mit jahrelanger Erfahrung in der globalen Umsetzung von Geschäftsmodellen.

In den letzten Jahren wurde die Digitalisierung der Gastronomie immer wieder von SaaS, Bestell-Apps und Lieferplanungssystemen verändert. Doch mit dem stetigen Anstieg der globalen Lieferbestellungen wird ein seit langem vernachlässigtes Problem immer deutlicher: Zwischen der Fertigstellung der Bestellung im Restaurant und der Abholung durch den Lieferanten gibt es noch viele physische Handlungen, die stark von der menschlichen Arbeit abhängen.

Beispiele sind das Verpacken, Versiegeln, Sortieren, Übergaben und Liefern.

Obwohl diese Prozesse scheinbar trivial erscheinen, haben sie einen direkten Einfluss auf die Effizienz des gesamten Auftragsausführungsvorgangs. Verluste durch fehlerhafte, fehlende oder verschüttete Bestellungen wirken sich auf Kunden, Restaurants, Lieferanten und Plattformen aus. Gleichzeitig ist die Gastronomie weltweit mit strukturellen Beschäftigungsproblemen konfrontiert: In Nordamerika steigen die Stundenlöhne in der Fastfood-Branche stetig, und in China gibt es in Restaurants seit langem Probleme bei der Einstellung von Mitarbeitern und ein hoher Personalwechsel.

Nach seinem Ausscheiden aus Meituan hat Wang Dong mehrere Monate lang den Markt in Nordamerika und Singapur untersucht und zahlreiche Restaurants und Lieferplattformen besucht. Schließlich kam er zu der Überzeugung, dass die Küche von Restaurants ein sehr vielversprechender Anwendungsbereich für Embodied Intelligence sein könnte.

Dies liegt daran, dass dieses Szenario mehrere Schlüsselmerkmale aufweist.

Erstens ist es ein weltweit relevantes Problem. Unabhängig davon, ob in China, Nordamerika oder Südostasien, die Gastronomie muss mit steigenden Personalkosten und Problemen bei der Auftragsausführungskette umgehen.

Zweitens ist die Rendite klar. Wenn man die Fehlerquote verringern, die menschliche Arbeit reduzieren und die Effizienz der Bestellungsabwicklung verbessern kann, sind die Restaurants bereit, dafür zu bezahlen.

Wichtig ist auch, dass im Vergleich zu Szenarien wie der Pflege oder im privaten Haushalt, die auf emotionale Interaktionen setzen, die Gastronomie ein professioneller Dienstleistungsbereich ist. Die Entscheidungswege sind kürzer, und kleine und mittlere Restaurants sind eher bereit, zu kooperieren.

In einem Interview mit 36Kr sagte Wang Dong, dass der Dienstleistungssektor einen großen Anteil am globalen BIP hat. Wenn man in der Küche von Restaurants ein funktionierendes System für Embodied Intelligence aufbauen kann und einen geschlossenen Kreislauf von der Modellentwicklung bis zur Anwendung schaffen kann, ist dies von großem Wert und eröffnet auch die Möglichkeit, in komplexere Szenarien wie die private Küche zu expandieren.

(Quelle: Unternehmen)

Im Gegensatz zu vielen anderen Unternehmen, die zunächst an einem "allgemeinen Weltmodell für Embodied Intelligence" arbeiten, bevorzugt AtomBite.AI, das Modell durch kontinuierliches Lernen aus realen Szenarien zu entwickeln.

Wang Dong sagte: "Die Fortschritte in der Mobilitätstechnologie (Locomotion) haben sich in den letzten sieben oder acht Jahren so weit entwickelt, dass dieses Problem im Wesentlichen gelöst ist. Der Fokus der Branche verschiebt sich jetzt auf feinmotorische Fähigkeiten. Obwohl die Entwicklung von humanoide Händen noch nicht abgeschlossen ist, gibt es bereits viele bewährte Lösungen für Greifer mit zwei oder drei Fingern, die die Umsetzung von standardisierten Aufgaben ermöglichen."

Basierend auf dieser Einschätzung konzentriert sich AtomBite.AI nicht auf die Entwicklung neuer Roboterhardware, sondern auf die Erstellung eines "Weltaktionsmodells (World Action Model, WAM)" für die Gastronomie.

Nach Wang Dong setzt der VLA-Ansatz (Vision-Language-Action) zu stark auf die Sprachkomponente für die Planung auf hoher Ebene, aber die visuelle Repräsentation wird unterschätzt. In der realen Welt hängt die Bewegungskontrolle nicht unbedingt von der Sprache ab. "Der menschliche Bewegungskontrollprozess hängt nicht so stark von der Sprache ab. Die Kernfragen sind die visuelle und physikalische Wahrnehmung und die Abbildung von Bewegungen in die reale Welt."

Basierend auf dieser Einschätzung legt AtomBite.AI im Modell stärkeren Wert auf die Erforschung des "VT-WAM" (Vision-Touch World Action Model), das visuelle und taktile Informationen kombiniert. Wang Dong erklärte: "Das Sehen kann Objekte wahrnehmen, aber nicht die Berührung. Das Fühlen kann keine Gesamtansicht geben, aber es kann den Erfolg oder Misserfolg einer Bewegung erkennen. Das Sehen bezieht sich auf die geometrische Seite der Welt, das Fühlen auf die physikalische Seite. Das VT-WAM integriert diese beiden Arten von Informationen in ein 'Welt-Aktionsmodell', das die Folgen von Berührungen vorhersagen kann."

Ein Weltmodell benötigt nicht nur visuelle Wahrnehmungsfähigkeiten, sondern auch das Verständnis von Regeln und kausalen Beziehungen in der realen physischen Welt. Er gab als Beispiel an, dass der Füllstand, die Temperatur und der Inhalt eines Getränkeglases die Reibung, das Gewichtsentum und die Stabilität eines Greifvorgangs eines Roboters beeinflussen können.

AtomBite.AI möchte durch die kombinierte Wahrnehmung von Objekten mit visuellen und taktilen Sensoren und die Einbindung von kausalen Zusammenhängen wie Flüssigkeitsbewegungen und Gewichtsentum in das Modell sicherstellen, dass die Bewegungen der Roboter nicht nur auf Datenanpassungen basieren, sondern den physikalischen Gesetzen der realen Welt entsprechen. Dadurch soll die Stabilität und Präzision von Greif- und Handhabungsvorgängen verbessert werden.

Technisch gesehen besteht das System von AtomBite.AI aus drei Ebenen: Die oberste Ebene ist das Weltmodell für Embodied Intelligence, das die Umgebung in der Küche erkennt und Entscheidungen und Bewegungspläne trifft. Die mittlere Ebene ist der Task-Management- und Scheduling-Engine, die die Erkenntnisse in konkrete Handlungspläne umsetzt und die verschiedenen Geräte koordiniert. Die unterste Ebene ist die Integration von selbst entwickelten Kernkomponenten und allgemeiner Hardware, um die langfristige Stabilität des Systems in der realen Küche zu gewährleisten.

Die Kernidee hinter dieser Architektur ist, dass man nicht zuerst einen universellen Roboter entwickelt und dann nach Anwendungsgebieten sucht, sondern dass man in einem häufigen und problematischen Szenario kontinuierlich reale Interaktionsdaten sammelt, um das Weltmodell zu trainieren und es in der realen Welt immer "schlauer" zu machen.

In der Küche von Restaurants werden täglich viele hochfrequente Handlungen wiederholt - Verpacken, Sortieren, Transportieren, Kochen, Übergaben - diese Bewegungen generieren von Natur aus eine große Menge an vielfältigen Daten aus der realen Welt, die schwerlich in einer Simulationsumgebung erzeugt werden können.

(Quelle: Unternehmen)

Für die Umsetzung hat AtomBite.AI derzeit entschieden, mit dem "Verpacken und Übergaben von Lieferbestellungen" zu beginnen. Dies ist der Teil des Bestellungsausführungsvorgangs, der am fehleranfälligsten, relativ standardisiert und am leichtesten quantifizierbar ist.

"Das Verpacken hat einen klar definierten Aufgabenbereich und eine kontrollierbare Umgebung. Unser Ansatz ist, den Fokus auf die Verbesserung der Greifpräzision zu legen und ein zuverlässiges System zu entwickeln, das für die Praxis geeignet ist." Wang Dong sagte: "Aus geschäftlicher Perspektive interessieren die Restaurants nicht, ob der Roboter wie ein Mensch aussieht oder tanzen kann. Sie interessieren sich eher dafür, was der Roboter für sie tun kann."

Derzeit werden die hochfrequenten, standardisierten Handlungen von einem kleinen, auf dem Gerät laufenden Modell ausgeführt, wie z.B. das Einpacken von Menüs in Boxen und das Versiegeln. Dies reduziert die Latenz und die Abhängigkeit von einem Netzwerk. Das große Cloud-Modell wird hauptsächlich für die Behandlung von Ausnahmesituationen wie fehlenden Waren oder Fremdkörpern verwendet und kann über das KDS-System die menschliche Arbeit in der Küche unterstützen.

Das Modell für den Verpackungsprozess soll bis 2026 in den Küchen von realen Restaurants in großem Maßstab eingesetzt werden.

Das Team von AtomBite.AI plant, dass die Fähigkeiten des Modells von dem Verpackungsprozess ausgehend auf komplexere Küchenhandlungen wie Sortieren, Übergaben an Lieferanten, Kochen und schließlich auf andere Dienstleistungsbereiche erweitert werden.