Zhejiang University Alumnus: AI Glasses Enable "Snatching Objects from Afar", Select Real

Wir sind einem Schritt näher an Jarvis.

Es ist tatsächlich etwas unpraktisch, nur durch Sprechen mit den AI-Brillen zu interagieren.

Jetzt gibt es eine neue Möglichkeit! Der digitale Doppelgänger hilft Ihnen, Gegenstände aus der Ferne zu greifen. Mixed Reality wählt sofort Objekte aus der realen Welt als Kontext aus.

Buchsuche? Ein Kinderspiel.

Architekture Navigation? Ein Leichtes.

Koordination mehrerer Drohnen? Auch hier ist es nichts auszusetzen.

Diese Technologie wird Reality Proxy genannt - eine Schnittstelle für die direkte Steuerung, mit der Sie sofort Objekte aus der realen Welt auswählen können.

Der Forscher Xiaoan Liu sagte sogar, dass dies uns einen Schritt näher an Jarvis bringt.

Reality Proxy bricht die Beschränkungen der physikalischen Bedingungen

Mixed Reality (XR) verändert die Grenzen der Mensch-Maschine-Interaktion. Mit Hilfe von Kopfhörern hat es das Potenzial, die physische Welt mit der digitalen Welt zu verbinden und es den Benutzern zu ermöglichen, gleichzeitig Objekte in der Realität und in der virtuellen Welt zu steuern.

Allerdings wählen herkömmliche XR-Geräte normalerweise Objekte durch Lichtstrahlen aus. Aufgrund der kleinen Größe der Ziele im Sichtfeld, instabiler Blickrichtung und Zittern der Hände ist dieser Prozess oft fehleranfällig.

Deshalb hat das Forschungsteam Reality Proxy (Realer Proxy) vorgeschlagen - eine abstrakte digitale Darstellung von realen Objekten.

Sie übertragen das Interaktionsziel nahtlos von den Objekten auf deren Proxy. Der Auswahl des Proxy entspricht der Auswahl des eigentlichen Objekts, was es den Benutzern erleichtert, sich von Beschränkungen wie Entfernung oder Größe zu befreien und Objekte bequem auszuwählen.

Wie oben gezeigt, umfasst der Reality Proxy-Prozess drei Hauptschritte:

Aktivierung des Proxys: Erfassung der hierarchischen und semantischen Szenenstruktur

Wenn der Benutzer die Auswahl durch Drücken bestätigt, erkennt es automatisch reale Weltobjekte im Sichtfeld des Benutzers und abstrahiert sie zu einem Interaktionsproxy für die Hand.

Wenn der Benutzer das Zielobjekt erfolgreich auswählt (das Objekt, auf das der Blick des Benutzers standardmäßig gerichtet ist), kann er die gewünschte Aktion fortsetzen. Andernfalls kann er den zur Hand befindlichen Proxy verwenden, um die Auswahl zu optimieren.

Generierung des Proxys: Beibehaltung der räumlichen Beziehungen

In diesem Schritt kann das System die hierarchische und semantische Darstellung der Szene aus dem vorherigen Schritt in einen Proxy umwandeln - ein Objekt, mit dem der Benutzer interagieren kann.

Standardmäßig generiert das System Proxys nur für Objekte der ersten Ebene im Sichtfeld des Benutzers. Diese Proxys behalten ihre relativen räumlichen Beziehungen zueinander bei.

Jeder Proxy kann durch Standardgesten wie Langdrücken und Zoomen mit beiden Händen bedient werden und bleibt auch nach dem Loslassen der Druckbewegung an seiner Stelle.

Da der Proxy nur eine abstrakte Darstellung der Interaktion ist, spielt seine physikalische Größe keine Rolle. Deshalb wird jeder Proxy bei der Implementierung als rechteckiges 3D-Objekt mit fester Größe dargestellt.

Interaktion mit dem Proxy: Beibehaltung der Aufmerksamkeit auf die reale Welt

Um es den Benutzern zu ermöglichen, sich hauptsächlich auf reale Objekte zu konzentrieren, zeigt Reality Proxy bei der Interaktion mit dem Proxy die wichtigsten visuellen Rückmeldungen direkt auf den physischen Objekten an.

Beispielsweise wird ein Objekt, wenn es ausgewählt wird, in heller Farbe hervorgehoben, und der entsprechende Proxy wird ebenfalls hervorgehoben, um eine doppelte Rückmeldung zu geben.

Um sicherzustellen, dass der Proxy leicht zugänglich ist und keine dauernde visuelle Aufmerksamkeit erfordert, wendet die Forschung einen "Verzögerungsfolgesteuerungs"-Mechanismus an und platziert den Proxy in der Nähe der Hand des Benutzers.

Wenn die Hand innerhalb eines bestimmten Schwellenwerts bleibt, bleibt der Proxy stehen. Bewegt sich die Hand außerhalb dieses Bereichs, folgt der Proxy sanft - so dass er immer innerhalb der Reichweite bleibt und nicht auf leichte Zittern der Hand reagiert.

Dieses Design reduziert die Notwendigkeit, den Benutzer den Kopf herunterzubeugen, um den Proxy zu suchen, und ermöglicht einen reibungslosen Wechsel zwischen der Beobachtung der realen Welt und der schnellen Prüfung der Proxy-Informationen.

Darüber hinaus unterstützt Reality Proxy auch mehrere Interaktionsfunktionen, die die Interaktion des Benutzers mit realen Objekten flexibler machen.

1. Anzeige und Vorschau von Objekten: Wenn der Benutzer seinen Finger über mehrere Proxys streicht, kann er schnell die Informationen der Objekte anzeigen, z. B. den Inhalt mehrerer Bücher schnell durchsehen.

2. Auswahl mehrerer Objekte: Mit der Geste des Zukneifens beider Hände kann ein Bereich festgelegt werden, um die realen Objekte auszuwählen, die mehreren Proxys entsprechen.

3. Filterung von Objekten nach Eigenschaften: Wenn Sie einen Proxy eines Objekts lange drücken, wird ein Eigenschaftenpanel angezeigt. Bewegen Sie Ihren Finger auf den Proxy einer bestimmten Eigenschaft, um alle Objekte mit derselben Eigenschaft auszuwählen, z. B. alle roten Tassen zu filtern.

4. Interaktion mit Hilfe von physikalischen Eigenschaften: Der Proxy kann die physikalischen Funktionen der realen Welt nutzen, um eine intuitive Interaktion zu ermöglichen.

Beispielsweise kann ein Proxy, der auf einer physikalischen Oberfläche (z. B. einem Tisch) platziert wird, diese Oberfläche in ein natürliches Touchpad umwandeln.

Der Benutzer kann vertraute Gesten für Touchgeräte verwenden, um mit Objekten aus der realen Welt zu interagieren, wie z. B. das Ziehen des Fingers auf der Oberfläche, um mehrere Objekte auszuwählen, das Auseinanderziehen der Finger, um den Auswahlbereich zu erweitern, oder das Zurückverfolgen des Pfads, um die Auswahl anzupassen.

5. Semantische Gruppierung: Doppelklicken Sie auf einen Proxy, um Objekte mit denselben Eigenschaften in einer Gruppe zusammenzufassen.

6. Räumliche Zoomgruppen: Mit der Zoomgeste mit beiden Händen können Sie in der hierarchischen Struktur navigieren, z. B. von der Ansicht eines ganzen Gebäudes auf die Ansicht eines Raums einer bestimmten Etage zu zoomen.

7. Benutzerdefinierte Gruppierung: Zeichnen Sie mit der Auswahlgeste in der Luft einen Würfelbehälter und legen Sie die ausgewählten Proxys hinein, um eine benutzerdefinierte Gruppe zu erstellen. Dies erleichtert die Gesamtbearbeitung, z. B. die Berechnung des Gesamtpreises einer Gruppe von Büchern.

Darüber hinaus haben die Forscher die Praktikabilität dieser Technologie in einigen Szenarien gezeigt.

Alltägliche Informationssuche

In der Schule kann ein Lehrer damit schnell ein bestimmtes Buch finden und den Gesamtpreis der Bücher berechnen.

Auch in der Küche kann man mit Objekten unterschiedlicher Granularität interagieren, z. B. verschiedene Teile der Mikrowelle auswählen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Once again, it's an alumnus of Zhejiang University. With the AI glasses, you can perform the "snatch objects from afar" feat. Just put them on, and you can freely select any object in the real world.

Reality Proxy bricht die Beschränkungen der physikalischen Bedingungen