Exklusives Interview mit IntBot: Von Silicon Valley in die Welt – Mit World Models der Sozialen Interaktion Seelen in Roboter hauchen
Soziale Intelligenz hat die Wertberechnungsmethode der Embodied Intelligence grundlegend umgestaltet. In der Vergangenheit war der kommerzielle Wert von Dienstleistungsrobotern immer an der Logik der "Kostensenkung" festgemacht, und die Umrechnungsformel drehte sich immer um die Arbeitskosten. Doch die soziale Intelligenz schafft Raum für "Einnahmezunahme" und "Prämie".
Die Evolution der Embodied Intelligence hat nur eine Hauptlinie: Dekonstruktion und anschließende Rekonstruktion.
Verwenden Sie KI, um die Handlungsabsichten und Arbeitsfähigkeiten des Menschen zu dekonstruieren, und rekonstruieren Sie dann die geschlossene Schleife von der Wahrnehmung bis zur Entscheidung der Embodied Intelligence. Auf dieser Hauptlinie sind die führenden Akteure eher interessiert an der Gestaltung der Arbeitsfähigkeit der Embodied Intelligence. Sie verwenden präzisere Hardware, fortschrittlichere Algorithmen und unterschiedlichere Szenarien, um die körperlichen Kräfte und Fertigkeiten des Menschen zu replizieren und eine neue Produktivität in der physischen Welt zu schaffen.
Aber es gibt viel mehr als die Arbeitsfähigkeit, die am Menschen dekonstruiert werden kann.
Dies ist auch ein Weg, den weniger Menschen gehen, aber er zeigt kommerzielle Vorstellungskraft: Die soziale Fähigkeit des Menschen zu dekonstruieren. Dies bedeutet nicht, ein Emotionsinteraktionsmodul an ein bestehendes Modell anzuhängen, noch ist es ein Plugin in der MOE - Architektur. Stattdessen wird von unten nach oben ein vollständiges soziales Fundament aufgebaut, um einem produktiven Arbeitsroboter eine "Seele" zu verleihen.
Dies ist eine neue Frage an die Definition der Grenzen der Embodied Intelligence.
Die Antwort darauf geht weit über das, dass ein Roboter "redselig" ist, oder dass er in einem bestimmten Szenario eine herzliche Unterhaltung mit Ihnen führen kann. Es geht darum, dass der Roboter von der passiven Reaktion auf Befehle zur aktiven Annäherung und vorzeitigen Ausführung übergeht. Darüber hinaus kann das soziale Fundamentmodell über verschiedene Körper und Szenarien hinweg verwendet werden. Diese Fähigkeit stammt aus der gleichen Quelle wie die soziale Intuition des Menschen und durchzieht alle Interaktionen und alle Aufgaben unterschiedlicher Menschen.
Um den wahren Wert dieser Hauptlinie zu verstehen, muss man den wahren Stellenwert der sozialen Intelligenz kennen. Sie ist keine Wertsteigerungsfunktion der Embodied Intelligence, sondern ein unabhängiger Geschäftsbereich mit hohem kommerziellem Potenzial.
IntBot CEO Yang Lei und CTO Sharon Yang haben in einem Gespräch mit der Embodied Intelligence Research Community die kommerzielle Vorstellungskraft der sozialen Intelligenz klar skizziert. Der Einflussbereich der sozialen Intelligenz umfasst, ist aber nicht beschränkt auf, Hersteller von Roboterkörpern, Anbieter von Endszenarien und Lösungsanbieter. Von Anfang an ist es keine Abhängigkeit von einer bestimmten Hardware oder einem bestimmten Szenario, sondern eine unabhängige, horizontal wiederverwendbare untere Infrastruktur außerhalb der Arbeitsfähigkeit. Dies ist genau die unterliegende Logik, der IntBot den Grundsatz "vollständig offen, nicht gebunden" folgt. Die Hardwareformen der Roboter werden vielfältig und die Anwendungsfälle werden schließlich fragmentiert. Ein soziales Fundament, das über verschiedene Körper und Branchen hinweg wiederverwendbar ist, kann die verschiedenen Schritte der Wertschöpfungskette durchdringen und ein neuer Wertanker werden.
Die Dekonstruktion von Sozialität, Emotionen und menschlichen Logiken bedeutet im Wesentlichen, der Embodied Intelligence "Wahrnehmung und Maß" zu verleihen. Dies ist keine Abkehr von der Hauptlinie der Produktivität, sondern eine notwendige Erweiterung der Replikation menschlicher Fähigkeiten durch KI. Menschen können komplexe Kooperationen durchführen, kommerzielle Vertrauensverhältnisse aufbauen und emotionale Verbindungen eingehen, nicht nur aufgrund präziser Bewegungen und klarer Befehle.
Heute konzentrieren sich die meisten Ressourcen und die Aufmerksamkeit bei der Embodied Intelligence immer noch auf das, "den Roboter leistungsfähiger zu machen". Diese harten Kriterien definieren die Zugangsschwelle der Branche und bilden auch die Grundlage der gegenwärtigen Kommerzialisierung. Aber wenn die Grenznutzen der Arbeitsfähigkeit beginnen zu sinken, ist es genau diese schwer zu quantifizierende Fähigkeit, "den Menschen zu verstehen", die den Produktpreisunterschied ausmacht, die Benutzerbindung aufbaut und den privaten und massenhaften Verbrauchermarkt eröffnet.
Vielleicht ist dies der Kernwert der sozialen Intelligenz auf diesem weniger befahrenen Weg: Sie verändert nicht die Hauptlinie der Evolution der Embodied Intelligence, sondern erweitert tatsächlich die Grenzen dieser Hauptlinie. Bisher haben wir bei der Diskussion über Embodied Intelligence immer gefragt, "wie viel Arbeitswert kann sie generieren". Danach müssen wir vielleicht eine noch grundlegendere Frage beantworten: Inwieweit kann sie den Menschen verstehen, verbinden und sich ihm nähern?
Weltmodell - Fundament: Know - how ist die tiefste Schutzmauer
"Würde ein Sprung in der Fähigkeit des allgemeinen Fundamentmodells das Basismodell der sozialen Intelligenz überflüssig machen?"
"Nein."
Sharon Yangs Antwort ist schlagfertig. Hinter dieser Zuversicht steckt ein klares Verständnis der technologischen Barrieren der sozialen Intelligenz. Sie ist keine einfache Erweiterung der Fähigkeiten des allgemeinen großen Modells auf soziale Szenarien, sondern ein vollständiges, eigenständiges technologisches System, das auf einem Weltmodell aufbaut.
IntBot baut die soziale Intelligenz zu einem sozialen Weltmodell für die reale menschliche Umwelt auf und realisiert durch drei Ebenen von Fähigkeiten eine vollständige geschlossene Schleife von der Verständnis des Menschen bis zur Ausführung von handlungsweisen, die den menschlichen Erwartungen entsprechen.
Die erste Ebene ist die soziale Wahrnehmungsebene: Das System nimmt die Sprache, Mikroausdrücke, Körperbewegungen des Menschen sowie Kontextinformationen wie Umgebung, Szenario und Personenbeziehungen auf und gibt eine Vorhersage über den momentanen Zustand und die potenziellen Ansprüche des Menschen aus. Der Kern ist die Frage, "was braucht der Mensch hier und jetzt?"
Die zweite Ebene ist die soziale Inferenzebene: Basierend auf der Beurteilung der Wahrnehmungsebene und in Kombination mit Szenarioregeln und sozialer Logik wird die Entscheidungsableitung durchgeführt. Beispielsweise "ein Kunde braucht im heißen Sommer Eiswasser". Dadurch wird die unklare Wahrnehmung in ein klares Handlungsziel umgewandelt.
Die dritte Ebene ist die Verhaltensnormebene: Das Inferenzergebnis wird in eine ausführbare multimodale Handlungsfolge zerlegt, um das Bewegungssystem, das Sprachsystem und das Gesichtsausdrucksystem des Roboters zu koordinieren. Schließlich wird eine vollständige Interaktionshandlung ausgegeben. Es ist nicht nur das Überreichen des benötigten Gegenstands, sondern auch ein passender Gruß und Körperbewegungen, um eine vollständige Rückmeldung zu geben, die den sozialen Maßstäben entspricht.
Einfach ausgedrückt, ist dies eine end - to - end soziale geschlossene Schleife: Von der multimodalen Wahrnehmungseingabe der Umwelt und des Menschen, um die soziale Umwelt zu verstehen, bis zur schrittweisen Inferenz der sozialen Logik und schließlich zur Ausgabe einer ganzheitlichen Interaktionshandlung, die Sprache, Bewegung und Gesichtsausdruck koordiniert, anstatt nur eine einfache Texts oder Sprachantwort, und auf dieser Grundlage werden Handlungen ausgeführt, die den menschlichen Erwartungen entsprechen.
Die versteckteste und stärkste technologische Barriere dieser Architektur liegt in der vorausgehenden Vorhersagefähigkeit der Wahrnehmungsebene. Sie muss nicht warten, bis der Mensch einen Befehl mit der Sprache ausdrückt. Nur durch nicht - sprachliche Signale wie Mikroausdrücke und Körperhaltungen in Kombination mit dem Szenariokontext kann sie die Ansprüche des Menschen vorhersagen, die er noch nicht ausgesprochen hat. Ein typisches Szenario ist die Hotelhalle. An einem regnerischen Tag kommt ein nasser Kunde schnell herein. Unterstützt durch die Modellfähigkeit bringt der Roboter direkt ein trockenes Handtuch und warmes Wasser und reicht es dem Kunden. In der gesamten Interaktion gibt es keine Befehlstriggerung, aber es ist ein realeres Serviceerlebnis als jede Standardfrage - Antwort - Situation, wie ein vertrauter Freund oder eine Familie, die immer Ihre Bedürfnisse spüren, bevor Sie sie aussprechen.
Genau diese Fähigkeit ist es, die das allgemeine Fundamentmodell schwerlich natürlich entwickeln kann.
Bei der realen sozialen Interaktion sind die meisten Signale nicht - sprachlich und versteckt. Es gibt keine Standard - richtige Antwort, sondern nur den Unterschied zwischen "angemessen" und "unangemessen". Diese Fähigkeit kann nicht durch die Ansammlung von allgemeinen Sprachdaten gewonnen werden. Sie erfordert ein spezielles Interaktionsdatensatz, spezielle Trainingsziele, ein spezielles soziales Bewertungssystem und eine speziell für die physische Welt optimierte Weltmodellarchitektur.
Dies ist die Schutzmauer, die IntBot mit Know - how errichtet hat.
Yang Lei hat angegeben, dass es in IntBots Team viele Partner mit Hintergrund in der Kognitionswissenschaft gibt. Bei der Modelltraining wurden auch viele menschliche Verhaltenspsychologie hinzugefügt, um die Wahrnehmungsfähigkeit und die Verhaltenslogikinterpretation des Roboters zu stärken. Früher haben renommierte amerikanische Universitäten zusammen mit IntBot eine gemeinsame Forschung durchgeführt und mit den Forschungsergebnissen über IntBots sozialen Roboter Nylo den Best - Paper - Preis gewonnen. Interessanterweise beschränkt sich IntBots Zerlegung der menschlichen Emotionslogik nicht nur auf die äußere Reaktion des Roboters, sondern auch auf die Gestaltung des Gesichtsausdrucks und der Äußere des Roboters, um ihm Selbstwahrnehmungsfähigkeit zu verleihen.
Sharon Yang hat weiter ergänzt, dass die für die soziale Intelligenz benötigten Daten von den traditionellen Roboter - Trainingsdaten grundlegend unterschiedlich sind. Im Vergleich zu einer hochgradig standardisierten Datenerfassungumgebung interessiert IntBot sich eher für multi - source - Daten, die das reale menschliche Verhaltensmuster widerspiegeln, einschließlich Internetvideos, Simulationsumgebungen und echten Mensch - Roboter - Interaktionsdaten aus der realen Welt. Diese Daten helfen dem Modell, die Gesichtsausdrücke, Haltungen, Distanzempfindungen, Aufmerksamkeit und sozialen Interaktionsregeln des Menschen in der realen Umwelt zu lernen. Mit der kontinuierlichen Einrichtung von Robotern in realen Szenarien wie Hotels, Flughäfen und Messen sammelt das System kontinuierlich echte Mensch - Roboter - Interaktionsdaten und nutzt sie für die Modelltraining. So wird schrittweise ein positiver Zyklus "je mehr Einrichtungen - je mehr Interaktionen - das Modell versteht den Menschen besser - je mehr Einrichtungen" gebildet. Diese Akkumulation von echten Mensch - Roboter - Interaktionsdaten aus der realen Welt wird auch zu einer der wichtigsten langfristigen Barrieren von IntBots sozialem Intelligenzplattform.
Wenn man IntBots Weg der sozialen Intelligenz im größeren Rahmen der Umsetzung der Embodied Intelligence betrachtet, wird, wenn alle Roboter Befehle verstehen und Basisaufgaben erledigen können, die Marke des Produkterlebnisses von "kann es tun" auf "wird es angenehm, richtig und vertrauenswürdig gemacht" verschieben. Das Erste ist die untere Grenze der Branche, die von allgemeinen Fähigkeiten abgedeckt werden kann, das Zweite ist die obere Grenze des Erlebnisses, die von der sozialen Intelligenz definiert wird.
Über Körper und Szenarien hinweg, keine kommerzielle Beschränkung
Die Tatsache, dass ein Roboter soziale Fähigkeiten hat, wird in der heutigen Embodied - Intelligence - Branche leicht als "Zusatzfunktion" eingestuft. Der emotionale Interaktionswert ist schwer in ein strenges kommerzielles Modell zu integrieren.
Diesen Erkenntnisunterschied hat IntBot besonders auf dem Finanzierungsweg gespürt. Yang Lei hat eingeräumt, dass viele Anleger die soziale Intelligenz auf Emotionsbegleitung, Haustier - ähnliche Interaktion oder sogar nur eine ausdrucksstärkere Sprachsynthese reduzieren. In der Hauptmeinung ist es ein Wertsteigerungsmodul, das an die Hardware gebunden ist und nicht in der Lage ist, einen unabhängigen Geschäftsbereich zu bilden.
Aber dies ist genau der Kernfehlverstandnis der sozialen Intelligenz. Vor dem Interview hat Yang Lei auf dem Beyond Expo - Forum in Macau in einem Rundtischgespräch mit der Embodied Intelligence Research Community erklärt, dass die soziale Intelligenz keine eindimensionale Interaktionsfunktion ist und nicht auf eine Art von Szenario oder eine Hardwareform beschränkt ist, sondern eine horizontal wiederverwendbare untere Fundamentfähigkeit.
IntBots soziales Fundament kann parallel zu verschiedenen VLA - Modellen eingesetzt werden und bildet gemeinsam den kompletten Geist des Roboters. Wenn man sagt, dass das Arbeitsmodell dem Roboter den "Körper" für die "Arbeit" gibt und die Produktivitätsbasis in der physischen Welt aufbaut, dann ist das soziale Fundament die "Seele" des Körpers, die ihm das "Verständnis und Mitgefühl" für den Menschen verleiht, damit das kalte Industrieprodukt eine menschenähnliche Interaktionsweise hat und sich wirklich als Kooperationspartner in das menschliche Leben und Arbeitsumfeld einfügt.
An einem realen Beispiel: Ein Roboter mit IntBots Modell auf dem bevölkerten Times Square begrüßt und spricht mit Fremden. Selbst wenn es viele Menschen gibt, kann der Roboter durch visuelle und Sprachinformationen genau denjenigen identifizieren, mit dem er spricht, und eine natürliche eins - zu - eins - Unterhaltung führen, ohne von der Umgebung und dem Lärm gestört zu werden. Nach der kurzen Unterhaltung und Verabschiedung geht der Roboter noch ein wenig spazieren. Wenn er dann wieder den gleichen Fremden trifft, erinnert er sich noch an ihn und an das, was sie gesprochen haben. Die Bemerkung "see he remembers me" eines Fremden ist die beste Erklärung für die soziale Intelligenz.
Und diese Fähigkeit, kombiniert mit der Position als unteres Fundament, bestimmt von Anfang an die kommerzielle Obergrenze von IntBot.
Bei der Hardware setzen sie auf eine horizontal kompatible und offene Strategie. In IntBots Ansicht wird es schwierig sein, dass die Roboterbranche wie die Automobilbranche schließlich auf wenige standardisierte Formen reduziert wird. Die Bedürfnisse in der privaten, industriellen und Dienstleistungsbranche sind von Natur aus sehr unterschiedlich, was zwangsläufig eine Vielzahl von Hardwareprodukten hervorbringt. Das bedeutet, dass die beste Strategie auf der Geistesebene nicht darin besteht, sich auf einen Hersteller von Roboterkörpern zu