Danke für Einladung: An Kreuzung, Google Gemini sagt "Geh zum roten Haus, du Blödmann"

Gemini übernimmt die Navigation für Fußgänger und Radfahrer, spricht menschliche Sprache und versteht die physische Welt

【Einführung】Google Maps Nuklearer Update: Gemini übernimmt die Fuß- und Radnavigation! Frag nach Toiletten und Cafés! Frag, wie viele Ladeplätze für Elektromobile frei sind! Frag nach der Atmosphäre in der Gegend! Gemini versteht sofort menschliche Sprache und die physische Welt. Alle Richtungsunfähigen aufstehen, kein Aufwenden von Zeit mehr damit, das Handy im Kreis zu drehen und sich zu verzweifeln!

Der schlimmste Fluch der Welt ist jene leichthin ausgesprochene Anweisung in der Navigation: „Gehen Sie 500 Meter östlich.“

Selbst wenn Sie Ihr Handy wie ein Zauberer in den Himmel halten und es im Acht-Zeichen bewegen, dreht sich der verdammte Pfeil immer noch am selben Ort herum.

Bei der Schwierigkeit, Norden, Süden, Osten und Westen zu unterscheiden, wurde die Würde der Menschheit von GPS seit 20 Jahren beschämt.

Aber heute endet diese Empfindung der Intelligenzminderung endgültig.

Google Maps hat gerade eine Wucht geboten: Gemini übernimmt offiziell die Fuß- und Radnavigation.

Von nun an wiederholt Ihr Handy nicht mehr Längen- und Breitengrade, sondern flüstert Ihnen ins Ohr: „Biegen Sie rechts an der Starbucks-Ecke ab, ja, genau das rote Haus mit den Plakaten.“

Alle Richtungsunfähigen aufstehen!

Belästigen Sie mich nicht mit Koordinaten, reden Sie „Menschensprache“!

Die herkömmliche Navigation basiert auf GPS-Koordinaten, einer Maschinensprache, die nicht versteht, was 500 Meter für einen Menschen bedeuten.

Nach dem Eingreifen von Gemini werden diese Maschinenbefehle in Semantisches Verständnis umgewandelt.

Um eine so einfache Anweisung wie „Biegen Sie rechts hinter der Tankstelle ab“ zu realisieren, verknüpft Gemini im Hintergrund Informationen über 250 Millionen Orte weltweit mit einer riesigen Anzahl von Street View-Bildern.

Es muss genau erkennen, welches Gebäude „auffällig“ und welches Wahrzeichen „berühmt“ ist, und sicherstellen, dass diese Informationen in der Realität visuell eindeutig sind.

Bis heute versucht Google, durch Gemini den Karten ein „Kontextbewusstsein“ zu verleihen.

Bei der frühen Aktualisierung im November 2025 war diese Fähigkeit noch auf Fahr-Szenarien beschränkt; jetzt hat sie sich auch auf das Gehen und Radfahren ausgeweitet.

Sie können es jederzeit unterbrechen: „Sagen Sie mir, was es in der Gegend, in der ich mich gerade befinde, Interessantes zu tun gibt?“ Oder „Gibt es in der Nähe ein Café mit Toilette?“

Sie müssen nicht mehr ständig den unscharfen Pfeil überprüfen, sondern können sich an dem markanten „blauen Standbild“ an der Kreuzung orientieren.

Google wandelt Maps von einer statischen Richtungsanzeige in eine Echtzeit- und dialogorientierte Navigationserfahrung um.

„Hands-free“-Agentur, Sie sind hier, um zu gehen, nicht um auf dem Bildschirm zu tippen

Das Problem des Gehirnverständnisses ist gelöst, aber wie erreicht man die „sensorische Koordination“?

Am 29. Januar stieg Gemini offiziell vom Autoarmaturenbrett ab und betrat Szenarien wie Gehen und Radfahren, bei denen die Interaktionstoleranz sehr gering ist.

Wenn Sie Fahrrad fahren oder zwei Pfund frisch gekaufter Rippchen in der Hand halten, ist die „Agenturberechtigung“ von Gemini wie ein Rettungsanker.

Kein Anhalten, kein Abnehmen der Handschuhe, kein Tippen auf dem Bildschirm auf der Straße. Fragen Sie einfach:

Was ist das Gebäude, das wie ein UFO aussieht? Und suchen Sie bitte nach einem Café mit Toilette in der Nähe.

Diese tiefe App-Verknüpfung macht die Karte zu einem dynamischen Aufgabenzentrum.

Wenn Sie in einer unbekannten Straße spazieren, kann Gemini auch eine Echtzeit-Enzyklopädie sein.

Sie können auch beliebig fragen: „In welchem Stadtteil befinde ich mich?“ Oder „Welche Sehenswürdigkeiten gibt es in der Nähe?“

Sie können auch komplexe lange Abfragen nach spezifischen Lebensbedürfnissen stellen, wie: „Gibt es auf dieser Route ein preiswertes Café mit Toilette?“

Diese mehrdimensionale Filterung, die Details zu physischen Einrichtungen (Toilette, Parkplätze, Preiskategorie) betrifft, ist eine Tiefe der physischen Daten, die normale KI-Suchergebnisse schwer erreichen können.

Außerdem unterstützt Gemini kontinuierliche Gespräche innerhalb des Navigationsbildschirms.

Sie können zuerst fragen: „Gibt es innerhalb von 2 Meilen eine vegetarische Speisekarte?“ Und nach dem Ergebnis fragen Sie weiter: „Wie ist die Parkplatzsituation dort?“

Achtung, dies ist keine einfache Spracherkennung. Dies ist eine feste Verbindung zwischen Maps, Gemini, WeChat und dem Kalender.

Diese mehrdimensionale Filterung nach „physischen Lebensbedürfnissen“ ist die wahre Stärke der KI.

Der dreidimensionale Sprung des „Allwissenden Auges“ Google Lens

Wenn die Wahrzeichennavigation das Problem „wie man dorthin kommt“ löst, löst die Kombination von Gemini + Google Lens die Informationslücken bei der Frage „wohin“ und „was man nach der Ankunft macht“.

Die Karte entwickelt sich von einer zweidimensionalen Koordinatenebene zu einem dreidimensionalen Decoder der physischen Welt.

Wenn Sie in der Suchleiste von Maps auf das Kamerasymbol tippen und es auf das Gebäude vor Ihnen richten, beginnt Gemini, die Semantik der physischen Entität in Echtzeit zu decodieren.

Sie können es fragen: „Wo bin ich? Warum ist es berühmt?“ Oder „Wie ist die Atmosphäre hier?“

Die KI ruft sofort die Archive von 250 Millionen Orten ab und kombiniert sie mit einer riesigen Anzahl von Benutzerbewertungen, um Ihnen eine herzliche Antwort zu geben, anstatt eine kalte Bewertung.

Google kann sogar „verstecktes Wissen“ aufdecken.

Durch das neue Gemini Tips-Modul können Sie sogar vor der Reise über die „Geheimkarte“ einiger Restaurants, die klügste Reservierungsmethode und sogar den schwer zu findenden bestimmten Eingang eines Einkaufszentrums erfahren.

Diese winzigen Details sind mit herkömmlichen Suchmethoden durch Stichwortfilterung fast unmöglich zu finden.

Besitzer von Elektromobilen müssen sich auch keine Mühe mehr mit der Suche nach Ladesäulen machen. Es sagt Ihnen nicht nur, wo es Ladesäulen gibt, sondern kann auch anhand von historischen Daten und dem Echtzeitnetzwerk vorhersagen, wie viele Plätze noch frei sein werden, wenn Sie ankommen.

Dieser Informationsvorsprung lässt herkömmliche Suchmethoden wie ein Produkt des vergangenen Jahrhunderts aussehen.

Dimensionskrieg: Warum kann SearchGPT vorerst nicht gewinnen?

In Silicon Valley wird ständig gerufen, dass SearchGPT oder Perplexity Google ersetzen werden.

Aber in der „physischen Welt“ hat es keine Chance.

SearchGPT ist ein allwissender „digitaler Geist“. Es versteht Webseiten und Logik, aber es ist auf der Straße „blind“.

Es verfügt nicht über 20 Jahre globale Straßenansichten und auch nicht über die Echtzeitkontrolle über 250 Millionen Geschäfte.

Wenn Sie wissen möchten, „ob das Wappen des Restaurants schön ist“ oder „ob es an der Kreuzung Treppen gibt“, kann die KI dies nicht logisch ableiten. Sie muss es „selbst gesehen“ haben.

Google hat diese schlafenden visuellen Ressourcen durch Gemini aktiviert und der KI eine physische Semantik verliehen. Dies ist eine Kluft, die derzeit kein reiner Texttrainierter Large Language Model überwinden kann.

Nach dem Bericht über den lokalen Sichtbarkeitsindex von SOCi hat ChatGPT bei der Verarbeitung von spezifischen Informationen über lokale Geschäfte (Adresse, Öffnungszeiten, aktuelle Neuigkeiten) nur eine Informationsgenauigkeit von 68%, während Deep Gemini eine 100%-ige Abdeckung und genaue Übereinstimmung erreicht hat¹.

In einem Szenario wie der Navigation, bei dem die Fehlerquote sehr gering sein muss, reicht eine 32%ige Fehlerquote aus, um die Benutzer zu Google zu bringen.

Googles Ambition reicht weit über die Karten hinaus. Man vermutet, dass Google einen ganzheitlichen Agenten-Closed-Loop aufbaut: Chrome kümmert sich um komplexe Aufgaben in der digitalen Welt (Buchung von Tickets, Preisvergleich), während Maps komplexe Aufgaben in der physischen Welt (Wegleitung, Besichtigung von Lokalen, Vermittlung von Kommunikation) erledigt.

Die Essenz dieses Wettbewerbs ist der Wettbewerb zwischen „Kognition“ und „Existenz“.

OpenAI hat ein schlankeres Gehirn, aber Google hat die stärkste physische Präsenz.

In der Ära der KI-Agenten kann nur die KI, die wirklich die physische Welt sehen und in ihr handeln kann, als echter Vertreter bezeichnet werden.

In Zukunft werden Sie möglicherweise nicht mehr Karten verwenden, sondern mit der Stadt „sprechen“.

Google schließt mit Gemini die letzte Kluft zwischen der digitalen und der physischen Welt.

Von der automatischen Agentur von Chrome bis zur ganzheitlichen „blinden Bedienung“ von Maps übernimmt die KI unsere Sinne.

Stehen Sie das nächste Mal an einer unbekannten Kreuzung, starren Sie nicht mehr wie ein Blödmann auf den drehenden Pfeil. Ziehen Sie sich die Kopfhörer an und fragen Sie einfach den Silizium-Sonderführer:

„Brin

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Danke für die Einladung. Ich bin an der Kreuzung und male Achter. Plötzlich sagt mir Google Gemini ins Ohr: Geh zum roten Haus, du Blödmann.

Belästigen Sie mich nicht mit Koordinaten, reden Sie „Menschensprache“!

„Hands-free“-Agentur, Sie sind hier, um zu gehen, nicht um auf dem Bildschirm zu tippen

Der dreidimensionale Sprung des „Allwissenden Auges“ Google Lens

Dimensionskrieg: Warum kann SearchGPT vorerst nicht gewinnen?