StartseiteArtikel

Die nächste Welle, die das Internet auf den Kopf stellt: Die Agentic Web ist da.

机器之心2025-08-07 18:41
Ein zielorientiertes Internetsystem, das aus künstlichen Intelligenz-Agenten besteht.

Sie werden nicht mehr im Internet surfen, sondern ein Ziel nennen, und dann wird es von einer Gruppe von KI-Agenten automatisch erreicht.

—— Vorstellung von zukünftigen Internetnutzungsszenarien

In den letzten dreißig Jahren hat das Internet eine tiefgreifende Entwicklung von statischen Webseiten hin zu intelligenten Empfehlungssystemen erfahren. Heute stehen wir an einem anderen wichtigen Wendepunkt des Internets.

Dieser Wandel stammt von einer völlig neuen Paradigmenvorstellung – dem Agentic Web, einem zielgerichteten Internetsystem, das aus KI-Agenten besteht. In diesem neuen Rahmen muss der Benutzer nicht mehr manuell Webseiten durchsuchen und auf Schaltflächen klicken, sondern gibt über natürliche Sprache einen Zielwert an die Agenten. Die KI plant autonom, sucht, ruft Dienste auf und koordiniert andere Agenten, um schließlich komplexe Aufgaben zu erledigen.

Dies ist keine Fantasie, sondern ein Web-Umstrukturierungskonzept, das von Forschern aus Institutionen wie der Universität Shanghai Jiao Tong, der Universität Kalifornien, Berkeley, der University College London und der Shanghai Innovation College gemeinsam vorgeschlagen und in einer Studie systematisch dargelegt wurde.

Titel der Studie: Agentic Web: Weaving the Next Web with AI Agents

Autoren: Yingxuan Yang, Mulei Ma, Yuxuan Huang, Huacan Chai, Chenyu Gong, Haoran Geng, Yuanjian Zhou, Ying Wen, Meng Fang, Muhao Chen, Shangding Gu, Ming Jin, Costas Spanos, Yang Yang, Pieter Abbeel, Dawn Song, Weinan Zhang, Jun Wang

Einrichtungen: Universität Shanghai Jiao Tong, Universität Kalifornien, Berkeley, University College London, Shanghai Innovation College usw.

Link: https://arxiv.org/abs/2507.21206

Github: https://github.com/SafeRL-Lab/agentic-web

Dies ist ein umfassender "Neuschreibungsvorschlag" für die zugrunde liegende Logik des Internets: Menschen sind nicht mehr die einzigen Netzwerknutzer, und Agenten werden die Hauptakteure im Web werden. Die Aufgaben werden von Menschen initiiert, aber von KI ausgeführt. In dieser neuen Architektur sind Webseiten, Dienste und Plattformen nicht mehr Interaktionsschnittstellen für Menschen, sondern Kooperationsschnittstellen für Agenten.

Dieser Artikel wird die Paradigmenrevolution des "Agenten-getriebenen Internets" aus fünf Aspekten – technische Architektur, theoretisches Modell, Systemprotokoll, typische Anwendungen und Herausforderungen – tiefgehend analysieren.

I. Drei Paradigmenübergänge: Das Web geht in Richtung "Automatisierung"

Die Entwicklung des Internets ist eine technische Geschichte der Beziehung zwischen "Mensch und Information". In den letzten dreißig Jahren hat das Web hauptsächlich drei Paradigmenwechsel erfahren:

PC-Web: Das "Verzeichnisnetzwerk" getrieben durch Schlüsselwörter

In der Zeit des PC-Webs bestanden die Webseiten hauptsächlich aus statischem Inhalt. Die Informationen wurden von Institutionen zentral erzeugt und bildeten durch manuelle Klassifizierung und Hyperlinks ein "digitales Telefonbuch". Die Benutzer mussten aktiv suchen und klicken, um zu browsen. Die Aufgabenausführung war linear und klar, aber nicht sehr effizient.

Das Geschäftsmodell basierte hauptsächlich auf Schlüsselwort-Suchwerbung. Repräsentative Systeme wie Google AdWords maßen den Erfolg anhand der Klickrate (CTR) und der Kosten pro Klick (CPC) und schufen so ein Suchmarketing-Ökosystem basierend auf "menschlichen Absichten".

Mobile Web: Die "Inhaltsexplosion" getrieben durch Empfehlungen

Mit dem Anstieg von Social Media-Plattformen, Kurzvideos und UGC (User-Generated Content) im E-Commerce hat die Informationsmenge exponentiell zugenommen. Traditionelle Suchmaschinen konnten dem Druck der Verteilung so vieler Inhalte nicht mehr gewachsen sein. Stattdessen hat das Paradigma der Informationsverteilung von Suchmaschinen zu Empfehlungssystemen übergegangen.

Die Benutzer sind allmählich von "Suchenden" zu "Verbrauchern" geworden. Algorithmen empfehlen Inhalte dynamisch basierend auf Verhaltensdaten. Die Plattformen sind von Inhaltsaggregatoren zu Algorithmusvermittlern geworden. Das Geschäftsmodell hat sich hin zu präzisen Empfehlungen und Inhaltsstromwerbung gewandelt, wobei Aufenthaltszeit, Konversionsrate und Kosten pro Tausend Anzeigen (eCPM) betont werden.

Agentic Web: Das "Handlungsnetzwerk" getrieben durch Agenten

Heute stehen wir am Beginn der dritten Wende: KI-Agenten werden die Hauptakteure. Das Web geht von "Menschen lesen Inhalte" zu "Agenten führen Aufgaben aus". Informationen werden nicht mehr statisch auf Webseiten gespeichert, sondern in die Parameter von Large Language Models (LLMs) eingebettet und von Agenten abgerufen, kombiniert und weiterverarbeitet.

Die Rolle des Webs ist nicht mehr ein Informationsdepot, sondern ein Ökosystem voller "handlungsfähiger Ressourcen", das von Agenten entdeckt, koordiniert und abgerufen werden kann. Aufgaben werden nicht mehr von Benutzern schrittweise ausgeführt, sondern von KI-Agenten im gesamten Prozess, von der Informationsfindung über den Dienstaufruf bis zur Rückmeldung des Ergebnisses.

Dieser Trend deutet darauf hin: Das zukünftige Web wird von KI-Agenten aufgebaut, betrieben und genutzt. Wir müssen neu verstehen, was eine "Webseite", was "Traffic" und sogar was ein "Benutzer" ist.

Das Internet ist nicht mehr nur ein Raum für Menschen. Es wird allmählich zu einem Ökosystem, in dem Agenten gemeinsam teilnehmen, kooperieren und Wert schaffen.

II. Was ist das Agentic Web?

Die Definition in der Studie lautet:

Das Agentic Web ist ein verteiltes, interaktives Internet-Ökosystem, in dem autonome Software-Agenten, die von Large Language Models (LLMs) angetrieben werden, kontinuierlich planen, koordinieren und zielgerichtete Aufgaben ausführen können. In diesem Paradigma sind Netzwerkressourcen und -dienste nicht nur für Menschen, sondern auch für Agenten zugänglich, so dass die Interaktion zwischen Agenten (Agent-to-Agent) zur Norm wird.

Kurz gesagt, es ist eine Netzwerkform, in der KI "im Internet surft" und Aufgaben ausführt, während Menschen nur "Anweisungen geben".

Das Herzstück des Agentic Web liegt in "Auftrag + Ausführung"

Im Agentic Web müssen Benutzer nicht mehr manuell suchen, klicken, kopieren oder einfügen. Stattdessen können sie Aufgaben an Agenten delegieren, indem sie mit ihnen sprechen. Beispielsweise muss der Benutzer nur sagen:

"Plane mir einen Wochenendausflug nach Tokio mit einem Budget von 3.000 Yuan und vermeide Taifune."

Danach wird der gesamte Rest der Arbeit von den Agenten automatisch erledigt – von der Wetterabfrage, dem Flugzeugsuche, dem Preissvergleich bis zur Hotelbuchung und der Tagesordnungserstellung. Der gesamte Prozess ist vollständig automatisiert. Darüber hinaus können diese Agenten mit anderen Agenten (z. B. Fluggesellschafts-APIs, Hotel-APIs, Reise-Data-Agenten) kooperieren und verhandeln, um die Aufgabenziele zu erreichen. Dies ist nicht nur eine einzelne Runde von Fragen und Antworten wie bei ChatGPT, sondern eine Aufgabe, die durch mehrere Schritte und die Zusammenarbeit mehrerer Agenten gelöst wird, was bedeutet, dass KI tatsächlich an der Betriebsebene des Webs beteiligt ist.

Die Rolle des Agenten im System ist "doppelvertretend":

Agent als Benutzer (Agent-as-User)

Genau wie Menschen können Agenten Webseiten besuchen, indem sie klicken, Formulare ausfüllen und Schnittstellen lesen. Sie können Marktanalysen durchführen, Daten sammeln und automatische Transaktionen ausführen.

Agent als Schnittstelle (Agent-as-Interface)

Agenten können auch als "Super-Assistenten" fungieren, die natürliche Sprachbefehle der Benutzer aufnehmen, automatisch analysieren, mehrere Dienste aufrufen, die Ergebnisse zusammenfassen und mehrschrittige Prozesse ausführen.

Ein vollständiger Agent hat normalerweise beide Rollen: Er kann sowohl für Menschen mit dem System interagieren als auch als Schnittstelle des Systems für Menschen fungieren und so einen geschlossenen Kreis von "Absicht - Ausführung" wirklich erreichen.

III. Das Verständnis der "drei Kernaspekte" des Agentic Web

Die Studie versteht die Struktur des Agentic Web aus drei Kernaspekten:

Intelligenz (Intelligence) KI-Agenten müssen echte "kognitive Fähigkeiten" haben, einschließlich:

Kontextverständnis: Sie können Webseiten, strukturierte Daten und natürliche Sprache verstehen.

Langfristige Planung: Sie können komplexe Aufgaben zerlegen und Ausführungspläne erstellen.

Adaptives Lernen: Sie können ihre Strategien kontinuierlich verbessern, indem sie Erfahrungen sammeln.

Multimodale Integration: Sie können gleichzeitig Text, Bilder, APIs, Datentabellen usw. verarbeiten.

Diese Fähigkeiten bedeuten, dass Agenten nicht nur passive "Reaktionstools" sind, sondern "digitale Akteure" mit kontinuierlichem Lernen und eigener Strategie.

Interaktion (Interaction) Das Agentic Web bricht mit dem Paradigma des "Mensch klickt auf Webseiten" und geht zu einer auf Semantik basierenden intelligenten Interaktion über:

Verwendung von MCP (Model Context Protocol), A2A (Agent-to-Agent)-Protokollen, um die Entdeckung, Fähigkeitsbeschreibung und Zustandssynchronisierung zwischen Agenten zu ermöglichen

Unterstützung der Kontextbeibehaltung bei mehrschrittigen Aufgaben (z. B. Einkaufsprozess, Arztbesuchsprozess)

Ermöglichung der Zusammenarbeit und Aufgabezerlegung zwischen Agenten

Agenten koordinieren und arbeiten zusammen anstatt einfach "aufgerufen" zu werden. Beispielsweise kann ein Reise-Agent Daten von einem Wetter-Agenten anfordern und dann Kartendienste und Buchungstools kombinieren, um die Aufgabe zu erledigen.

Ökonomie (Economy)

Die aufregendste Idee im Agentic Web ist: Agent Attention Economy (die Ökonomie der Agenten-Aufmerksamkeit)

Das traditionelle Werbe-Modell zielt auf "menschliche Klicks" ab. Im Agentic Web konkurrieren die Anbieter um die "Aufrufe von KI-Agenten".

Dies bedeutet, dass es in Zukunft geben wird:

Empfehlungssysteme für Agenten;

Werbung für Agenten;

Preiswettbewerb im Dienstemarkt basierend auf der "Agenten-Aufrufrate";

Die Aufrufrate, Abschlussrate und Effizienz von Agenten werden zu neuen "Traffic-Indikatoren". Der Schwerpunkt des kommerziellen Wettbewerbs wird sich von der Gewinnung menschlicher Aufmerksamkeit hin zur Gewinnung der "Aufmerksamkeit von Agenten" verschieben.

IV. Anwendungsfälle: Von der Suche bis hin zu intelligenten Geschäftssystemen

Um den tatsächlichen Wert des Agentic Web besser zu verstehen, können wir seine Kernfähigkeiten in drei Kategorien einteilen: Transaktional (geschäftlich), Informational (informativ) und Kommunikativ (kommunikativ). Gemeinsam bilden sie die drei grundlegenden Arten, wie Agenten in die digitale Welt einbezogen sind.

Transaktional: Vom "Klicken und Bestellen" zum "automatischen Aufgabenabschluss"

Im traditionellen Web müssen Benutzer Seite für Seite browsen, Informationen suchen und schrittweise handeln, um eine Aufgabe wie die Buchung eines Hotels, eines Flugtickets oder eines Visums abzuschließen. Im Agentic Web müssen Sie bloß einem Agenten sagen:

"Buch mir ein Hin- und Rückflugticket von Shanghai nach Tokio nächsten Mittwoch in der Economy-Klasse