Hören Sie nicht nur auf die "Hummer". Der beste Anwendungscontainer für AI-Agenten derzeit ist das Auto.
6:45 Uhr morgens. In Ihrem Kalender ist eine Besprechung um 9:00 Uhr im Messezentrum eingetragen.
Sie sind noch nicht aufgestanden, aber der Agent hat bereits mehrere Runden von Bewertungen im Hintergrund abgeschlossen.
Heute hat die Temperatur um ein paar Grade gestiegen, es ist etwas heiß; es gibt an diesem Tag große Veranstaltungen in der Umgebung des Veranstaltungsorts, die normalerweise befahrene Route wird vermutlich stark congestioniert sein; der Akkustand des Fahrzeugs beträgt noch 62%, was für eine Hin - und Rückfahrt ausreicht.
Daher verschiebt das System die Abfahrterinnerung automatisch von der ursprünglichen Weckzeit auf 7:20 Uhr vor, setzt gleichzeitig die Innentemperatur des Fahrzeugs auf 22 Grad vor und startet das von Ihnen gewöhnlich genossene Morgen - Podcast.
Wenn Sie die Treppe hinuntergehen, den Fahrstuhl verlassen und die Fahrzeugtür öffnen, ist das Auto bereits wie neu hergerichtet, die Temperatur ist angemessen, die Route ist gut geplant und der Inhalt ist bereit.
Sie haben keine Taste gedrückt und auch kein Wort gesagt, aber es weiß bereits, was es tun soll. Dies ist wahrscheinlich die konkreteste und zugleich faszinierendste Vorstellung, die die Menschen heute von einem AI - Agenten haben.
Jarvis aus "Iron Man" ist die ultimative Expression dieser Fantasie.
Es ist nicht mehr nur ein Dialogfenster auf einer Webseite, nicht mehr nur ein Roboter, der auf Ihre Eingabe mit einer Antwort reagiert.
Es beginnt, den Bildschirm zu verlassen und in die physische Welt einzutreten, um die kleinen Dinge für Sie zu erledigen, die normalerweise die gleichzeitige Beteiligung von Händen, Augen und Ohren erfordern.
Der clevere Agent stößt auf eine "Mauer"
In den letzten über einem Monat ist diese wissenschaftsfiktive Vorstellung plötzlich greifbar geworden. Selbst Menschen, die normalerweise nicht besonders auf AI achten, haben wahrscheinlich das immer wieder in die Öffentlichkeit tretende "Lobster OpenClaw" gesehen.
Im Gegensatz zu den früheren AI - Systemen, die nur chatten konnten, sieht ein Tool wie OpenClaw eher der Vorstellung des "echten Agenten" in den Köpfen der Menschen entsprechen. Es kann Tastatur und Maus übernehmen, im Hintergrund des Terminals laufen und direkt die System - APIs nutzen, um Aufgaben zu erledigen.
Manche lassen es Code schreiben, andere lassen es E - Mails regelmäßig sortieren und To - Do - Listen planen, und wieder andere überlassen es einfach die gesamte Arbeit wie Flugsuche, Sitzplatzwahl und Check - in. Es ist wie ein unermüdlicher Super - Praktikant, schnell und leistungsstark, und theoretisch kann es jede Aufgabe übernehmen.
Aber die Euphorie kam schnell und ging auch schnell. Die teure Rechenleistungskonfiguration, die hohen Aufrufkosten und die anfälligen Sicherheitsstandardeinstellungen bilden noch viele Hindernisse, bevor es in eine stabile Produktivität umgewandelt werden kann.
Deshalb hat sich die Meinung in kurzer Zeit umgedreht. Zuerst war es "Die ersten Leute, die mit Lobster Geld verdienen", dann wurde es "Die ersten Opfer von Lobster", und später haben einige sogar Geld bezahlt, damit jemand vor Ort das Programm deinstalliert.
Ähnlich verhält es sich mit den Agenten auf Mobilgeräten. Der Doubao - Handy, der automatisch Preise vergleichen, Bestellungen aufgeben und sogar WeChat - Nachrichten senden kann, wurde so bald es auftauchte, von verschiedenen Plattformen gemeinsam eingeschränkt.
Der Agent auf dem Bildschirm ist zwar sehr clever, stößt aber immer am letzten Schritt auf Probleme. Diese "Mauer" ist manchmal die Systemberechtigung, manchmal ein geschlossenes Ökosystem und manchmal die kommerziellen Interessen von Konzernen.
Diese Schwierigkeit hebt gerade das enorme Potenzial eines anderen Hardware - Terminals hervor - das Auto, das stattdessen der am wahrscheinlichsten erste Anwendungsfall für den Agenten wird.
Dies ist eine ironische Angelegenheit in der Geschichte.
Als die Elektromobile aufkamen, war die Meinung in der Branche beinahe einhellig, dass das intelligente Auto der nächste Super - Hardware - Zugang nach dem Smartphone sein würde.
In den letzten Jahren hatten die Automobilhersteller die gleichen Propagandagänge wie die Mobilgerätehersteller: Eigenes Betriebssystem, geschlossenes Ökosystem, App - Store, Entwicklerplattform, Wettbewerb um die Nutzungszeit der Benutzer.
Alle haben das Auto zu einem "großen Smartphone mit Rädern" gemacht. Mercedes, BMW und Volkswagen haben über ihre On - Board - Systeme gesprochen, Geely und Volvo haben Ecarx gegründet, und BYD hat frühzeitig sein On - Board - SDK geöffnet.
Damals hatten alle eine vertraute Optimismus, als ob man nur das Smartphone - Konzept kopieren müsse, und der Mittelkonsole - Bildschirm würde zu einem neuen lukrativen Gebiet werden, und Anzeigen, Einnahmeanteile und Wertleistungen würden davon fließen.
Verschiedene On - Board - Anwendungen
Aber ein Auto ist schließlich kein Smartphone.
Die Automobilhersteller haben später festgestellt, dass außer der Navigation und Online - Musik die Aktivitätsdaten der meisten On - Board - Apps erbärmlich sind. Niemand möchte wirklich im Auto spielen, Einkaufen im Fahrzeugcomputer fühlt sich immer unangenehm an, Kurzfilme werden sofort von der Sicherheitsaufsicht beobachtet, und selbst die "On - Board - KTV", die viel Potential verspricht, wird in der Praxis viel weniger genutzt, als es in der Propaganda dargestellt wird.
Schließlich fährt man mit dem Auto, um zu reisen, nicht um einen Bildschirm zu bedienen.
Ein Smartphone ist ein Gerät, das die volle Aufmerksamkeit des Benutzers beanspruchen kann. Sie schauen auf den Bildschirm und bewegen Ihren Finger, und können sich ganz darin vertiefen. Aber ein Auto kann das nicht, insbesondere während der Fahrt muss der Fahrer die Straße im Auge behalten und die Hände am Lenkrad halten.
Bei einer Geschwindigkeit von 120 km/h auf der Autobahn hat das Fahrzeug bereits 67 Meter vorwärts gefahren, wenn der Blick nur 2 Sekunden von der Straße abgewandt ist. In diesen 67 Metern können alle möglichen Unfälle passieren.
Die Fahrzeugbesitzer haben auch schnell gemerkt, dass es ärgerlich ist, um die Sitzventilation einzuschalten, im Bildschirm nach einem zweiten Menü zu suchen. Diese scheinbar "fortschrittliche" Gestaltung bringt nur Frustration auf der Straße.
Deshalb hat die Entwicklung des intelligenten Cockpits nicht auf dem Weg des "blühenden App - Ökosystems" fortgesetzt, sondern fast direkt zu einer anderen Revolution gesprungen: Die Interaktionsrevolution, die von großen Modellen angetrieben wird. Die einst vielversprechenden On - Board - Apps wurden marginalisiert, bevor sie richtig gedeihen konnten.
Die Automobilhersteller haben allmählich die physikalischen Tasten wieder eingeführt.
Was das Smartphone nicht kann, kann das Auto von Natur aus
Der neue Star auf der Bühne ist der Agent. Er betont nicht mehr "Wie viele Zugänge kann ich Ihnen bieten", sondern "Ich kann Ihre Dinge erledigen".
2019 hat der XPeng P7 die "All - Szenario - Sprachsteuerung" als ein sehr auffälliges Verkaufsargument eingesetzt. Die damaligen Tests demonstrierten oft ein Szenario: Der Fahrzeugbesitzer sagt "Mir ist ein bisschen kalt", und die Klimaanlage erhöht automatisch die Temperatur um 2 Grad. Das war damals zweifellos ein großer Fortschritt, bequemer als das manuelle Betätigen des Bildschirms und zukunftsträchtiger.
Aber in der technischen Logik basiert es immer noch auf einer vordefinierten "Satz - Befehl" - Zuordnungstabelle. Wenn das System "Mir ist ein bisschen kalt" hört, sucht es in der Code - Tabelle nach der entsprechenden Option und führt den Befehl "Klimaanlage um 2 Grad erhöhen" aus. Es ist eher wie ein dickes Wörterbuch, das schnell durchsucht werden kann, aber keine Denkfähigkeit hat. Wenn Sie das richtige Triggerwort sagen, reagiert es; wenn Sie es ein wenig anders ausdrücken, sagt es "Ich kann das noch nicht".
Hallo, kleiner P
Wir werden jedoch bald einen Agenten mit aktiver Wahrnehmungsfähigkeit bekommen, der die Absicht verstehen, die aktive Wahrnehmungsfähigkeit haben und komplexe Aktionen über Systeme hinweg orchestrieren kann.
Er wartet nicht dumm auf Ihre Befehle, sondern ist wie ein erfahrener Haushaltshofmeister, der stumm beobachtet, zuhört und aufzeichnet. Wenn Sie sagen "Ich bin heute nicht in Stimmung", versagt das alte System oft höflich oder gibt Ihnen nur ein bisschen Gemütlichkeit.
Weil dieser Satz keinem bestimmten Knopf entspricht. Aber der Agent kann die Beziehung zwischen Stimmung, Umgebung und Präferenzen in Betracht ziehen, die Lautstärke verringern, die Atmosphärenbeleuchtung abdunkeln und ein ruhigeres Lied abspielen. Er wird nicht immer vollständig richtig raten, aber er macht nicht nur den Befehl aus.
Tencent hat zuvor ein Szenario - Wahrnehmungs - Agenten gezeigt, der Zeit, Ort und Benutzergewohnheiten kombinieren kann, um Vorschläge zu geben, und auch Dienste wie Bestellung und Parkgebührenzahlung integrieren kann.
Einige Vorstudienrichtungen für Cockpit - Agenten können bereits erkennen, ob die Rücksitzpassagiere eingeschlafen sind, und dann automatisch die Lautstärke im Rücksitz verringern, die Temperatur feineinstellen und sogar die Luftausströmung ändern.
Stellen Sie sich vor, eine Familie fährt am Wochenende aus, das Auto fährt auf der Autobahn, und das Kind im Rücksitz schläft ein. Das traditionelle Sprachsystem erfordert, dass Sie sagen "Drossel die Klimaanlage im Rücksitz etwas".
Der echte Agent kann jedoch selbst feststellen, dass es in diesem Moment nicht nur eine Aktion, sondern eine Reihe von zusammenhängenden Aktionen zu tun ist: Die Lautstärke der Rücksitzlautsprecher verringern, die Luftrichtung der Klimaanlage einstellen, die Lichtdurchlässigkeit der Rücksitzfenster etwas verringern, damit es im Rücksitz nicht so hell ist; das Fahrwerk auf einen weicheren Modus umstellen, um die kleinen Erschütterungen zu filtern; wenn die intelligente Fahrassistenz aktiviert ist, die Fahrstrategie etwas konservativer einstellen, damit das Beschleunigen und Bremsen sanfter ist. Die Erwachsenen im Vordersitz bemerken gar nicht, dass sie einen Befehl gegeben haben, und die Kabine hat die Umgebung schon stillschweigend verbessert.
Das ist nicht mehr eine Funktion, die arbeitet, sondern das gesamte Auto als Ganzes hat einen geschlossenen Kreis von Wahrnehmung bis Reaktion abgeschlossen.
Was das Auto wirklich von anderen Terminals unterscheidet, ist die Fähigkeit zur Cross - Domain - Kooperation.
Die elektronische und elektrische Architektur des Autos war in der Vergangenheit wie ein großes Haus, das in Zimmern vermietet wurde. Die Cockpit - Domäne ist für Unterhaltung, Klimaanlage und Sitze zuständig; die Fahrwerk - Domäne für Federung, Bremsen und Lenkung; die intelligente Fahr - Domäne für ADAS und Autonomes Fahren. Jede Ebene hat ihre eigene Grenze, und sie sind nicht so natürlich miteinander verbunden wie die Zimmer in einem Haus.
Das alte Sprachsystem kann normalerweise nur einzelne Aktionen in einer Domäne ausführen, es ist sozusagen wie das Rufen durch eine Tür. Aber der Agent ist anders. Er erhält oft unklare Absichten, kann aber mehrere Türen hinweg mehrere Systeme zusammen steuern.
Deshalb ist das Auto möglicherweise der am besten geeignete Behälter für den Agenten unter allen Terminals heute. Der Grund liegt darin, dass es einheitlich, geschlossen und kontrollierbar genug ist.