Qianwen startet "AI-Fahrzeugbuchungsdienst": Wie schwierig ist es?

Die Fähigkeit von Qianwen AI, Aufgaben zu erledigen, entwickelt sich von "in der Lage, etwas zu tun" hin zu "zuverlässig etwas tun können".

Haben Sie schon mal das Problem beim Taxifahren gehabt?

Vor Erreichen des Ziels müssen Sie einen Zwischenstopp hinzufügen und können dies erst im Taxi dem Fahrer mitteilen. Wenn eine Familie mit sechs Personen ein Taxi nimmt, muss man sorgfältig das passende Fahrzeug auswählen und manchmal auch die Größe des Kofferraums berücksichtigen. Wenn ältere Menschen Kinder abholen oder bringen, aber keine Taxiapp benutzen können, müssen Familienmitglieder für sie ein Taxi bestellen und kurz vor Ankunft des Taxis anrufen, um sie herunterzukommen zu erinnern...

Diese alltäglichen, aber realen Probleme offenbaren eine Tatsache: Die heutigen digitalen Dienstleistungen verlangen immer noch, dass Menschen sich an Maschinen anpassen, und nicht umgekehrt.

Da fragen Sie sich vielleicht: Wann kann uns die KI endlich beim Taxifahren helfen?

In diesem Jahr wurde das Konzept "KI hilft Menschen bei der Arbeit" zu einem beliebten Thema in der Branche. KI kann Wochenberichte schreiben, Präsentationen erstellen und Marketingtexte automatisch generieren. Aber wenn Sie es bitten, Ihnen ein Taxi zu bestellen, bleibt es stumm.

Es liegt nicht an der Technik, sondern daran, dass es schwierig ist, die Verantwortlichkeit der KI zu gewährleisten.

In der digitalen Welt ist die Kosten für KI-Fehler fast null. Falsche Informationen oder Texte können jederzeit korrigiert werden. Aber in der realen Welt können KI-Illusionen zu irreversiblen Zeit- und Geldverlusten oder sogar zu Sicherheitsrisiken für normale Menschen führen.

Deshalb bleiben die meisten KIs in der sicheren Zone von "Empfehlungen", "Unterstützung" und "Generierung" und wagen es nicht, in reale Dienstleistungsszenarien mit hoher Verpflichtung einzusteigen.

Hinter diesem Phänomen verbirgt sich die größte Schwäche der gegenwärtigen großen Modelle und Agenten: Sie sind gut darin, Aufgaben zu erledigen, aber sie haben keine "Verpflichtungsbewusstsein" - wie ein normaler Mensch, der die Konsequenzen versteht, die Verantwortung übernimmt und die Aufgabe abgeschlossen liefert.

01. Warum ist "KI-Taxifahrt" ein Meilenstein?

Am 23. März hat Qianwen die Fähigkeit zur KI-Taxifahrt eingeführt. Benutzer müssen nur ihre Anforderungen natürlich aussprechen: "Taxi zum Chaoyang-Park, unter 20 Yuan, kein Mitfahrgelegenheit, neues Auto", und der Rest wird von der KI übernommen - ohne Bildschirmwechsel, ohne Auswahl und ohne wiederholte Bestätigung.

Dies scheint nur eine Vereinfachung der Interaktion zu sein, aber es ist tatsächlich ein Sprung von der "Informationsschicht" zur "Aktionsschicht": Die KI hört nicht nur, was Sie sagen, sondern stellt sicher, dass die Sache tatsächlich erledigt wird.

Das Taxifahren ist genau das ideale Testfeld, um zu prüfen, ob die KI in die reale Welt eintreten kann: Hochfrequent, geringe Fehlertoleranz, starke Verpflichtung und starkes Bewusstsein für Verluste. Benutzer sind während der gesamten Fahrt hochgradig wachsam - Wird jemand annehmen? Ist die Route sinnvoll? Kommt der Fahrer zu spät? Jeder Fehler wird direkt in eine negative Erfahrung umgewandelt.

Am wichtigsten ist, dass der Erfolg solcher Dienstleistungen nicht von der Genauigkeit eines einzelnen Moduls abhängt, sondern von der Zuverlässigkeit der Kette mehrerer Schritte.

Um die Schwierigkeit der Implementierung dieser Dienstleistung zu verstehen, können wir von der Ingenieurperspektive betrachten: Bei der Entwicklung digitaler Anwendungen ist die Hinzufügung von Prozessen oft eine Addition, aber in der realen Verpflichtung in der physischen Welt hängt das Ergebnis von der Abhängigkeit aller Schritte ab.

Nehmen wir an, eine KI-Taxi-Anweisung umfasst fünf Schlüssel-Schritte: Spracherkennung, Intentionseinschätzung, räumliche Inferenz, Routenplanung und Kapazitätssteuerung. Selbst wenn die Erfolgsrate jedes Schritts 95 % beträgt, was weit über der Benutzerzufriedenheit der Hauptstrom-KI-Generierungsdienstleistungen liegt, kann die endgültige Erfolgsrate nur 77 % betragen, da diese Schritte nacheinander abgeschlossen werden müssen und jeder Fehler zu einem Gesamtversagen führt.

Wenn wir auch reale Verkehrssituationen, Kapazitätsschwankungen und andere Faktoren hinzufügen, kann der gesamte Prozess mehr als zehn stark abhängige Schritte umfassen, und die Erfolgsrate kann sogar unter 60 % fallen. Am wichtigsten ist, dass die vorherigen Schritte eine "Veto-Recht" haben: Sobald die Semantikverständnis eine Illusion erzeugt, bricht der gesamte Dienst sofort zusammen, unabhängig von der Rechenleistung der hinteren Steuerung.

In einer solchen Dienstleistung mit hoher Verpflichtung und Echtzeit-Erfüllung versteht der enttäuschte Fahrgast nicht das Problem der Wahrscheinlichkeit, sondern denkt: "Diese KI ist so dumm und verschwendet meine Zeit", und beschwert sich dann wütend.

Tatsächlich hat Qianwen seine Erkundungen im Bereich "KI-Dienstleistungen" nicht erst mit dem Taxifahren begonnen.

Während des diesjährigen Frühlingsfestes hat Qianwen mit dem "Frühlingsfest-Gastgeber-Plan" erstmals das große Modell aus dem Dialogfenster herausgebracht - Benutzer können mit einem Satz von Wörtern Aktionen in der realen Welt wie Lieferbestellung, Hotelbuchung und Kinokartenkauf erledigen. Dies war das erste Mal, dass die KI systematisch in offline-Verpflichtungsszenarien eingegriffen hat und die Möglichkeit von "Sprache als Dienstleistung" überprüft hat.

Die im März eingeführte "KI-Taxifahrt" ist eine weitere Vertiefung dieses Ansatzes. Wenn die Versuche während des Frühlingsfestes noch auf der Ebene des "Bestellens" blieben, bedeutet das Taxifahren, dass die KI in Echtzeit auf die dynamische Umgebung reagieren muss: Fahrzeugtyp-Anpassung, Preisbeschränkung, Routenänderung, Kapazitätsschwankungen... Jede Variable ist nicht vorhersehbar, und jede Entscheidung beeinflusst die sofortige Erfahrung.

Dies markiert, dass die KI-Dienstleistungsfähigkeit von Qianwen von "kann es tun" zu "zuverlässig tun" und von der "digitalen Schleife" zur "physischen Schleife" übergeht. Die KI ist nicht mehr nur ein intelligenter Assistent auf dem Bildschirm, sondern ein aktiver Vertreter, der auf den Straßen, in den Restaurants und in den Kinos umhergeht.

Besonders wichtig ist, dass Qianwen nicht nur einfache Funktionen integriert, sondern ein komplettes "Taxi-Skill" - es kann komplexe Anweisungen wie "Sechs Personen brauchen ein Business-Fahrzeug" oder "Zwischenstopp hinzufügen" präzise verstehen, unterstützt Standort-Speicherung und Zeitbuchung und wird schrittweise aktive Dienstleistungen einführen, wie z. B. die Voroptimierung der Route basierend auf dem Wetter oder der Verkehrssituation.

Dies ist nicht nur eine Funktionsverbesserung, sondern auch eine Neukonstruktion des Interaktionsparadigmas für die Mobilität und eine tiefe Herausforderung an traditionelle Taxiapps. In der Vergangenheit mussten Benutzer in den Menüs den Fahrzeugtyp auswählen, die Adresse eingeben und Zwischenstopps manuell hinzufügen. Sie konnten keine unscharfen Anforderungen wie "zum beliebten Tulpen-Spot in der Stadt" ausdrücken, und ältere Menschen und Sehbehinderte wurden von den digitalen Dienstleistungen ausgeschlossen.

Das Modell von KI-Assistent + Skill ermöglicht es Benutzern, ihre Anforderungen in natürlicher Sprache auszusprechen. Die KI versteht, zerlegt und führt sie automatisch aus. Dies löst nicht nur die unterdrückten potenziellen Anforderungen aus, sondern lässt auch die von der digitalen Kluft getrennten Menschen wieder zu Dienstleistungsempfängern werden.

Sobald die Kern-Mobilitätsszenarien von der KI-Assistent übernommen werden, ist das Öffnen einer Taxiapp nicht mehr unbedingt erforderlich. Wie die starken Kursrückgänge von Adobe und Figma nach der Einführung des Design-Skills von Claude gezeigt haben: Wenn die generische KI direkt vertikale Aufgaben erledigen kann, wird der Wert einzelner toolbasierter Apps grundlegend verdünnt.

Noch wichtiger ist, dass die Skills von Qianwen über Domänen hinweg kooperieren können. Das Taxi-Skill kann mit der Hotelbuchung, Lieferbestellung, Kartenkauf und anderen Funktionen zusammenarbeiten. Ein Satz "Bitte planen Sie mir ein Wochenende in Hangzhou" kann automatisch eine Reihe von Aktionen wie Hotelbuchung, Taxifahrt, Empfehlung von lokalen Gerichten und Bootstour buchen - mehrere Agenten arbeiten im Hintergrund zusammen und realisieren wirklich "Sprache als Handlung, Anforderung als Schleife".

Dies markiert, dass die KI-Dienstleistungsfähigkeit von Qianwen von "kann es tun" zu "zuverlässig tun" und von der digitalen Welt in das reale Leben übergeht. Die KI ist nicht mehr nur ein intelligenter Assistent auf dem Bildschirm, sondern ein aktiver Vertreter, der auf den Straßen, in den Restaurants und in den Kinos umhergeht.

02. Warum kann Silicon Valley nicht "mit einem Satz ein Taxi bestellen"?

Scheinbar ist die KI-Taxifahrt nur die Verbindung von Sprachbefehlen zu der API einer Mobilitätsplattform - mit dem technologischen Know-how von Silicon Valley sollte dies kein Problem sein. Aber die Realität ist komplexer: Die echten Hindernisse liegen nicht in der Schnittstelle, sondern in der Zuständigkeit und der Systemschleife.

Unternehmen wie OpenAI, Anthropic und Google DeepMind verfügen über weltweit führende Fähigkeiten in großen Modellen und haben sogar Prototypen von Agenten mit Funktionsaufruf und Gedächtnismechanismus entwickelt. Aber wenn diese KIs versuchen, in physische Dienstleistungen wie das Taxifahren einzugreifen, stoßen sie sofort auf drei "Glaswände":

Erste Glaswand: Die Verpflichtungskette ist zu lang und die Fehlertoleranz zu gering

Das Taxifahren ist nicht das Senden einer Nachricht oder das Generieren eines Bildes. Es umfasst die gesamte Kette von der Analyse der Benutzerintention, dem Verständnis der geografischen Position, der Fahrzeugtyp-Anpassung, der Preisvorhersage, der Fahrersteuerung, der Fahrverfolgung bis zur Fehlerbehandlung. Jeder Fehler in einem Schritt - z. B. das Missverstehen von "kein Taxi" als "Taxi" oder die Fehlidentifizierung von "Chaoyang Joy City" als "Chaoyang Park" - kann den gesamten Dienst zusammenbrechen lassen.

Die Designlogik der Hauptstrom-KI-Produkte in Silicon Valley basiert immer noch auf dem Paradigma von "Wahrscheinlichkeitsausgabe + manuelle Abdeckung": ChatGPT kann sagen: "Ich könnte falsch liegen, bitte überprüfen Sie". Aber die KI-Taxifahrt kann nicht sagen: "Ich könnte das falsche Fahrzeug zuweisen, bitte entschuldigen Sie".

Zweite Glaswand: Es gibt einen natürlichen Vertrauensbruch zwischen der Plattform und der KI

Selbst wenn OpenAI mit Uber zusammenarbeiten möchte, wird es schwierig sein, eine tiefe Kopplung zu erreichen. Das Kernvermögen von Uber ist das Kapazitätsnetzwerk und der Steuerungsalgorithmus. Jede externe KI, die direkt in die Bestelllogik eingreifen möchte, muss über hohe Berechtigungen verfügen - dies entspricht der Überlassung des Kernbetriebs an ein "Black-Box-Modell".

Für Uber bedeutet dies: Wenn die KI fehlerhaft urteilt und zu einer großen Anzahl von ungültigen Bestellungen, leeren Fahrten der Fahrer oder Benutzerbeschwerden führt, wer trägt die Kosten? Die KI-Firma zahlt? Oder nimmt die Plattform die Schuld in Kauf? Derzeit gibt es keine reife Geschäftsmechanik, um dieses Problem der "Verantwortungsaufteilung" zu lösen.

Im Vergleich dazu ist in der traditionellen App-Interaktion die Verantwortung klar, wenn der Benutzer den falschen Fahrzeugtyp auswählt oder die falsche Adresse eingibt. Aber wenn man die KI-Agenten einführt, wird die Verantwortungsgrenze unklar - und dies ist genau der graue Bereich, den die Plattform am wenigsten berühren möchte.

Dritte Glaswand: Fehlende "End-to-End-kontrollierbare" Infrastruktur

Die KI-Unternehmen in Silicon Valley sind gut darin, generische Modelle zu entwickeln, aber sie haben im Allgemeinen keine Kontrolle über das offline-Dienstleistungsnetzwerk. Google aggregiert dritte Parteien-Mobilitätsdienstleistungen um die Karte herum und testet das eigenbetriebene Fahrerlosen Taxifahren mit Waymo. Apple hat ein starkes Ökosystem, aber es hat nie einen Eingang für lokale Lebensdienstleistungen aufgebaut. Meta konzentriert sich stärker auf soziale Medien und Online-E-Commerce und ist von der lokalen Lebensgeschäftsschleife fern.

Dies bedeutet, dass selbst wenn sie ein "scheinbar funktionierendes" Taxifahr-Demo erstellen können, sie nicht garantieren können, dass sie in ganz China, in der Rush-Hour und bei Regen oder Schnee eine konsistente Erfahrung liefern können. Die KI-Taxifahrt ist keine Funktionsdemonstration, sondern eine Infrastruktur-Dienstleistung - sie erfordert die Echtzeit-Erfassung der Kapazität, die dynamische Anpassung der Strategie und die schnelle Reaktion auf Ausnahmen. Hinter ihr steht ein ganzes System von Erfassung, Entscheidung und Ausführung.

Und ein solches System kann nicht einfach durch die temporäre Nutzung einiger APIs zusammengebaut werden.

Qianwen hat sich entschieden, in das Taxifahren einzusteigen, nicht weil es einfacher ist, sondern gerade weil es schwierig genug ist - schwierig genug, um die echten Grenzen der KI-Fähigkeiten herauszufinden: Nicht "kann es reden", sondern "kann es die Sache erledigen".

Das Zögern von Silicon Valley zeigt in gewissem Maße auch eine grausame Realität: Wenn die KI von der Informationswelt in die Handlungswelt übergeht, reicht es nicht aus, einfach intelligent zu sein. Es braucht auch Mut, Geduld und Respekt vor der Komplexität des realen Lebens.

03. Es ist schwieriger, der KI "Verantwortung" beizubringen als Intelligenz

In den letzten Jahren hatten wir nur ein einfaches Kriterium, um zu beurteilen, ob eine KI gut ist: Kann sie flüssige Texte schreiben? Kann sie beeindruckende Bilder zeichnen? Kann sie in Prüfungen besser abschneiden als Menschen?

Diese Fähigkeiten sind zwar wichtig, aber sie spielen alle in einem reversiblen, kostengünstigen und folgenlosen digitalen Raum ab. Man kann es wiederholen, wenn es falsch geht, und löschen, wenn es nicht gut ist - die KI zeigt immer nur ihre Intelligenz in einer sicheren Zone.

Aber wenn die KI beginnt, in reale Welt-Dienstleistungen wie Taxifahren, Essen bestellen und Lieferbestellung einzugreifen, ändern sich die Regeln des Spiels.

Hier ist ein Fehler nicht nur ein "schlechtes Ergebnis", sondern ein "wirkliches Verluste": Der Benutzer kann den Flug verpassen, das Kind kann nicht abgeholt werden, und ältere Menschen können im Regen an der Straße stehen. In diesem Fall möchte der Benutzer nicht einen "hochintelligenten Assistenten", sondern einen "zuverlässigen Helfer".

Dies ist die Kluft zwischen den gegenwärtigen großen Modellen und den wirklich einsetzbaren KI-Agenten: Die ersteren sind gut darin, zu generieren, die letzteren müssen Verpflichtungen erfüllen.

Was bedeutet Verpflichtung?

Dieser Artikel wurde ursprünglich von「晓曦」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Qianwen hat den "AI-Fahrzeugbuchungsdienst" gestartet. Wie schwierig ist das?

01. Warum ist "KI-Taxifahrt" ein Meilenstein?

02. Warum kann Silicon Valley nicht "mit einem Satz ein Taxi bestellen"?

03. Es ist schwieriger, der KI "Verantwortung" beizubringen als Intelligenz