Rokid ist die erste im Bereich, die AIUI vorantreibt. Welchen Einfluss wird die nächste Generation von AI-Agent-Brillen haben?
Misa hat diesmal die Neugier aller Menschen aufrechterhalten.
Text | Shuyue
Redaktion | JeffHill
Beim letzten Besuch des CEOs von Rokid, Misa, habe ich überraschend erfahren, dass das Rokid-Team mit einem mysteriösen, in China sehr beachteten Unternehmen für große Basis-Deep-Learning-Modelle an einem großen Vorhaben arbeitet und die technische und produktive Machbarkeit wichtiger Funktionen erörtert.
Es scheint, dass die beiden Unternehmen möglicherweise an einer "geheimen gemeinsamen Entwicklung" arbeiten und vor kurzem möglicherweise Ergebnisse erzielt haben. Denn Misa hat kürzlich ein Vorschau-Bild gepostet:
Die Always-on- und Hands-free-Eigenschaften von Brillen: Der beste Träger für große Deep-Learning-Modelle
Bisher haben viele die Potenziale von AR-Brillen erkannt und glauben, dass sie schließlich die Stelle des Smartphones einnehmen und zur nächsten Generation von Konsumelektronik werden können.
Ein entscheidender Grund dafür ist, dass AR- und AI-Brillen eine Kern-Eigenschaft haben: Ununterbrochene Echtzeitverfügbarkeit (Always On) und ein sehr geringer Wahrnehmungsgrad. Sie werden häufig benötigt und sind daher von essentieller Bedeutung.
Wir können leicht feststellen, dass Brillen ein Endgerät sind, das täglich sehr lange getragen wird, kaum bemerkt wird und eine sehr hohe Komfortanforderung erfüllt. Sie sind in der Nähe der Stimme, haben eine gute Stabilität und erfordern keine Veränderung bestehender Gewohnheiten der Benutzer.
Im Vergleich zum Smartphone sind Brillen ständig "online" in unseren Sinneswahrnehmungen, während das Smartphone erst aktiv herausgenommen, entsperrt und geöffnet werden muss, um mit ihm interagieren zu können.
Brillen sind ein Teil unserer "Betrachtung" der Welt und verschmelzen von Natur aus mit unseren Seh- und Hörsinnen. Beim Tragen von Brillen, sei es Seh- oder Sonnenbrillen, ist es uns gewohnt, dass sie ständig am Rand oder in der Mitte unseres Sichtfeldes sind. Wenn AI-Fähigkeiten in sie integriert werden, werden sie zu einer "unmerklich"en, jederzeit einsatzbereiten Intelligenz.
Die verschiedenen Eigenschaften von Brillen machen sie zum besten Träger für große Deep-Learning-Modelle.
AI-Brillen bieten eine kürzere Interaktionskette. Beispielsweise möchten Sie die Bewertung und die speziellen Gerichte eines Restaurants vor Ihnen kennen. Mit einem Smartphone müssen Sie: das Smartphone herausnehmen - den Bildschirm entsperren - die Karte oder die Bewertungs-App finden und anklicken - die Suche eingeben oder per Sprache starten - auf das Ergebnis warten. Diese Serie von Aktionen dauert mindestens 7 - 8 Sekunden. Mit AI-Brillen brauchen Sie nur einen Satz zu sagen: "Hey, Brille, wie ist dieses Restaurant hier vorne?" Die Brille wird Ihnen die Informationen sofort per Sprache oder Mikroanzeige vor Augen stellen. Die Hands-free-Eigenschaft der Brille bedeutet eine schnellere Echtzeitreaktion.
Die Erstpersonenperspektive und die Fähigkeit zur multimodalen Datenerfassung von Brillen können die menschlichen Körperorgane erweitern. Das Smartphone ist ein externes Werkzeug, das aktiv verwendet werden muss, während AI-Brillen in Echtzeit und unmerklich Daten aus der realen dreidimensionalen Welt vor unseren Augen erfassen können - die Szenen, die wir sehen, die Geräusche, die wir hören, die Sprache, die wir sprechen, die Richtung der Augenbewegung und die Haltung des Kopfes. Diese rund um die Uhr gesammelten individuellen Daten sind von großer Bedeutung für das Training eines persönlichen AI-Agents. Ein echter AI, der Sie versteht, weiß nicht nur Ihren Tagesplan und Ihre Vorlieben, sondern kann auch sehen, was Sie sehen, und hören, was Sie hören, und kann somit präzisere, zeitnahere und vorausschauendere Dienste bieten. Diese Fähigkeit birgt ein enormes kommerzielles Potenzial.
AI und Brillen sind einerseits eine revolutionäre Intelligenz und andererseits die Hardwareform, die am nächsten an den menschlichen Sinnen liegt, und sie sind stark miteinander verbunden. Durch die AI beginnen die Brillen zu "denken" und verwandeln sich von einem passiven optischen Werkzeug zu einem aktiven intelligenten Assistenten; die Brillen bieten der AI auch ein "Fenster" zur "Wahrnehmung" der Welt, sodass sie über virtuelle Texte und Online-Daten hinaus in der Lage ist, den dreidimensionalen physischen Raum in Echtzeit zu verstehen.
Heutzutage überschreitet die Anzahl, die Häufigkeit und die Dauer der Interaktionen von normalen Menschen mit AI einen Schwellenwert. Wenn das Gespräch mit AI so natürlich wie das "Einschalten des Stroms" wird, werden die Eigenschaften von Brillen als AI-Endgeräte unendlich vergrößert.
Das alte Schema der Mensch-Maschine-Interaktion und die UI lassen keine Zukunft erkennen
Bisher wurde AR-Brillen als die nächste Generation von Konsumelektronik angesehen, aber es war bisher schwierig, ihr Potenzial auszuschöpfen. Ein entscheidender Engpass ist, dass normale Benutzer die Interaktion nicht akzeptieren können. Insbesondere ist die Positionierung, Auswahl und Bedienung in dreidimensionalem Raum sehr ineffizient und anstrengend.
AR-Brillen müssen unter der Voraussetzung von Leichtigkeit, Komfort und geringem Stromverbrauch eine effiziente, natürliche und präzise Mensch-Maschine-Interaktion ermöglichen. Vor der Entstehung großer Deep-Learning-Modelle, insbesondere bevor es keine wesentlichen Durchbrüche bei multimodalen Modellen gab, war dies fast ein unlösbares Problem.
Die Berührungsinteraktion ist derzeit vorerst der Standard. Vom Smartphone bis zum Smartwatch ist die Berührungsbedienung überall vorhanden. Die aktuellen AI-Brillen integrieren die Touchpad auf den Bügeln, was schnell zu erlernen ist, aber sie verlieren vollständig die "Hands-free"-Eigenschaft. Wenn der Benutzer eine Berührungsaktion ausführt, muss er die Hand heben und die Brille berühren, was den natürlichen Aktivitätszustand unterbricht. Außerdem ist die Berührungsfläche auf den Bügeln sehr klein, die Bedienpräzision ist eingeschränkt, und die Bedienungserfahrung bei komplexen Aktionen (wie Texteingabe, feine Auswahl) ist nicht gut, und es kommt leicht zu Fehlbedienungen.
Die Sprachsteuerung ist ebenfalls ein von vielen AI-Brillen bevorzugtes Verfahren. Sie realisiert tatsächlich die "Hands-free"-Funktion. Der Benutzer muss nur das Aktivierungswort und den Befehl aussprechen, um Aktionen wie Fotografieren, Anrufen und Informationsabfragen auszuführen. Das Kernproblem der Sprachsteuerung ist die Privatsphäre. In öffentlichen Orten wie Aufzügen, Konferenzräumen und Bibliotheken ist es sehr peinlich, laut Befehle an die Luft zu rufen, und die Benutzer befürchten auch, dass ihre Befehle und die Antworten der Brille von anderen gehört werden. Auf lauten Straßen, in Restaurants oder draußen bei starkem Wind fällt die Genauigkeit der Spracherkennung stark ab, die Verzögerung ist hoch, oder die Interaktion scheitert, was zu zunehmender Frustration führt.
Die Augenverfolgung war ebenfalls ein Schwerpunkt bei der Erforschung von AR-Brillen. Da "der Cursor dem Blick folgt", entspricht dies vollständig der menschlichen Intuition. Indem der Fixierpunkt des Benutzers verfolgt wird, kann das System das Objekt oder die Region, auf die der Benutzer gerade achtet, präzise lokalisieren und auf dieser Grundlage die nächste Interaktion durchführen. Das Problem ist, dass eine genaue Augenverfolgung eine Kamera mit hoher Bildrate, eine Infrarotlichtquelle und komplexe Bildverarbeitungsalgorithmen erfordert, was unvermeidlich das Gewicht, das Volumen und den Stromverbrauch der Brille erhöht. Bei Brillen, die auf maximale Leichtigkeit und lange Akkulaufzeit ausgelegt sind, ist die Integration eines hochpräzisen Augenverfolgungssystems eine enorme technische Herausforderung. Darüber hinaus ist es schwierig, zwischen "Schauen" und "Auswählen", d. h. zwischen "Blicken" und "Bestätigen", zu unterscheiden.
Es gibt auch die Gestenerkennung, die es den Benutzern ermöglicht, durch Handbewegungen wie Winken und Kniffen mit der virtuellen Welt zu interagieren. Aber die Gestenerkennung hat in der praktischen Anwendung ähnliche Herausforderungen wie die Augenverfolgung: Sie erfordert hochwertige Sensoren, normalerweise Kameras oder Tiefensensoren, sowie eine leistungsstarke lokale Rechenleistung, um die Knochen und Bewegungen der Hand in Echtzeit zu analysieren. Dies ist bei Brillen, insbesondere AI-Brillen, wo der Platz sehr begrenzt ist, nicht realistisch. Außerdem kann die Gestenerkennung ohne visuelle Rückmeldung leicht zu peinlichen Situationen und Ermüdung führen, und die Bedienungseffizienz ist weit geringer als bei physischen Tasten.
Das Elektromyogramm (EMG) ist sehr modern und cool und vermeidet viele Nachteile. Das EMG-Armband erfasst über Sensoren am Arm die elektrischen Signale, die durch Muskelbewegungen erzeugt werden, und erkennt so die feinen Bewegungen der Finger. Meta hat dies in den Orion-Brillen demonstriert. Die Benutzer müssen nicht die Hand heben, sondern können die Brille einfach durch leichte Fingerbewegungen in der Tasche oder unter dem Tisch steuern, was das Problem der Privatsphäre und der "socialen Peinlichkeit" perfekt löst und auch sehr natürlich und "unmerklich" ist. Die EMG-Interaktion ist gut, aber sie hat ebenfalls Probleme mit der technischen Reife und den Kosten. Derzeit erfordert die hochpräzise Erfassung und Verarbeitung von EMG-Signalen nicht nur spezielle Hardware, sondern auch die Allgemeingültigkeit der Algorithmen und die Anpassung an individuelle Unterschiede sind Probleme, und die Massenkommerzialisierung ist auch kostspielig.
Im Grunde bedeutet eine effizientere, natürlichere und fortschrittlichere Interaktionsweise in der Regel höhere Hardwarekosten, ein größeres Volumen und Gewicht der Komponenten sowie einen höheren Stromverbrauch.
Die Verfolgung einer extrem natürlichen Interaktion (z. B. Augen- und Gestenerkennung) kann dazu führen, dass die Brille schwerfällig wird und die Akkulaufzeit drastisch sinkt, was die Trägerbereitschaft der Benutzer verringert und dem Kernwert von AI-Brillen "leicht, Always On" widerspricht.
Wie kann dieses Problem gelöst werden?
Der mögliche Schlüssel hierfür ist AI User Interface (AIUI). Und dahinter steht ein von einem multimodalen großen Deep-Learning-Modell angetriebener AI-Agent.
Die revolutionäre AI-native UI ist aufregend
Was ist AIUI? Es ist keinesfalls einfach eine neue Haut oder ein neuer Name für einen Sprachassistenten, sondern ein auf einem großen AI-Modell basierender, multimodaler, aktiver Mensch-Maschine-Interaktionsparadigma. Es lässt die AI den Benutzern angepasst werden, anstatt die Benutzer an die Maschine anzupassen. Wenn AIUI es schafft, die Interaktionsschwierigkeit mit sehr geringen Hardwarekosten und Stromverbrauch deutlich zu senken, können AI-Brillen weit verbreitet akzeptiert werden. Dies wäre ein großer Schub für die Branche.
Das Wesen von AIUI liegt in seiner Fähigkeit zur "multimodalen Fusion" und "Kontextwahrnehmung". Das traditionelle Interaktionsmuster ist ein einfacher "Befehl - Ausführung"-Pfad. Der Benutzer gibt einen klaren Befehl, das Gerät führt ihn aus und wartet dann auf den nächsten Befehl. Theoretisch integriert AIUI Sprach-, visuell- und sogar Umweltsensordaten, um die "Absicht" des Benutzers zu verstehen, nicht nur den "Befehl".
Beispielsweise betrachten Sie mit AI-Brillen ein fremdes Gebäude und sagen unbewusst: "Dieses Gebäude ist so schön." Ein traditioneller Sprachassistent würde möglicherweise ratlos sein oder diese Aussage einfach aufzeichnen. Im Rahmen von AIUI würde der AI-Agent der Brille jedoch Informationen aus mehreren Dimensionen gleichzeitig verarbeiten:
Visuelle Informationen: Über die Kamera der Brille "sieht" die AI das Gebäude, auf das Sie gerade schauen, und erkennt seine Form, Stil und möglicherweise seinen Namen.
Sprachinformationen: Die AI hört, dass Sie sagen: "Dieses Gebäude ist so schön." Dies ist eine emotionale Bewertung, kein klarer Befehl.
Kontextinformationen: Die AI weiß Ihre aktuelle Position (über GPS), die aktuelle Zeit und möglicherweise auch, ob Sie zuvor nach Informationen über Gebäude gesucht haben.
Auf der Grundlage dieser fusionierten multimodalen Daten kann AIUI eine intelligente und aktive Reaktion geben.
Aber die Umsetzung von AI-native UI ist nicht einfach. Es muss die unterliegende Architektur vollständig neu gestaltet werden, um eine Benutzeroberfläche zu entwickeln, die von einem AI-Modell (anstatt von traditionellem deterministischem Logik) angetrieben wird. Sie unterscheidet sich grundlegend von der traditionellen grafischen Benutzeroberfläche (GUI) oder der "alten Oberfläche mit AI-Buttons". Ihre Kernmerkmale können wie folgt zusammengefasst werden:
Dynamische Generierung statt statischer Voreinstellung
Die Steuerelemente (Schaltflächen, Menüs, Fenster) der traditionellen UI werden von Designern im Voraus gezeichnet, und die Interaktionspfade sind festgelegt. Die Benutzeroberflächenelemente von AI-native UI werden in der Regel in Echtzeit generiert - dynamisch in Abhängigkeit von der Benutzerabsicht, dem Kontext und der Modellausgabe.
Dialog ist die Oberfläche, die Grenze zwischen "Interaktion" und "Ergebnis" wird verschwommen
In der traditionellen UI muss der Benutzer zuerst die Steuerelemente bedienen und dann auf die Rückmeldung warten. AI-native