Intelligentes Netzwerk: Der nächste Stopp des Mobilinternets - AI-Agenten ändern die Spielregeln der digitalen Welt

Dies ist nicht die nächste Trendwelle, sondern die nächste Ära.

Eine neue Spezies dringt auf

Im März 2025 hat Manus als weltweit erster universeller AI-Agent die Tech-Szene in Aufruhr versetzt. Nur ein Jahr später hat Open Claw die Welt erobert. Bevor man sich die Ökosysteme der zahlreichen Agenten einmal richtig anschauen konnte, ist Hermes mit seiner Fähigkeit zur Selbstentwicklung aufgetaucht. Wie schnell geht das Ganze? Bevor man sich von einem erfolgreichen Produkt erholt hat, klopft schon das nächste an die Tür.

Das ist keine gewöhnliche Produktiteration. In der Vergangenheit waren wir daran gewöhnt, dass es einmal im Jahr ein neues Smartphone und alle sechs Monate eine große Versionsoberholung gab. Aber die Entstehungsgeschwindigkeit der AI-Agenten gleicht eher einem kambrischen Explosionsevent für eine neue Spezies.

In den letzten zehn Jahren hat das Mobile Internet die Art und Weise verändert, wie wir Informationen erhalten, uns unterhalten und einkaufen. Aber eines hat sich nie geändert: Wir müssen schließlich alles selbst tun. Selbst wenn eine App sehr praktisch ist, müssen wir sie öffnen, lernen, wie man sie bedient und Schritt für Schritt klicken. Die Entstehung dieser Agenten ändert nun diese Grundannahme. In Zukunft müssen wir möglicherweise gar nichts mehr bedienen, sondern nur noch sagen, was wir wollen.

Die sich neu formende Netzwerkform ist das Agentische Internet (Agentic Internet). Es ist eine neue Generation digitaler Infrastruktur, die AI-Agenten als Kernknotenpunkte, natürliche Sprache als Interaktionsweise und die Aufgabeerfüllung als Wertmaßstab hat. Es ist keine Verbesserung des Mobile Internets, kein besseres Suchwerkzeug und keine intelligenteren Apps. Es ist eine Neuschreibung der zugrunde liegenden Logik. Die Transaktionsketten, die Kernassets, die Abrechnungsarten ändern sich, und sogar der Begriff des Nutzers wird neu definiert.

Akt 1: Der kritische Punkt – Warum genau jetzt?

Jeder technologische Aufschwung ist keine einzelne technologische Revolution, sondern die Resonanz nach dem Überschreiten kritischer Punkte mehrerer Fähigkeiten. Der Ausbruch des Mobile Internets war nicht nur auf das iPhone zurückzuführen, sondern auch auf die 3G/4G-Netzwerke, die kapazitiven Touchscreens, die ARM-Chips und das Geschäftsmodell des App Stores, die alle zur gleichen Zeit reif waren.

Das gleiche gilt für das Agentische Internet. Zwischen 2025 und 2026 haben wir beobachtet, dass mindestens drei Schlüsselfähigkeiten fast gleichzeitig reif wurden und so die Entstehung der AI-Agenten auslösten.

I. Die Dreistufige Rakete der Großen Modelle

Wenn man die Entwicklung der Fähigkeiten der Großen Modelle mit einem Raketenstart vergleicht, haben wir in den letzten drei Jahren drei klare Stufen erlebt.

Erste Stufe: Sprachverständnis und -generierung. Mit der Veröffentlichung von ChatGPT Ende 2022 hat die Welt erstmals erlebt, dass Maschinen wie Menschen sprechen können. Diese erste Raketenstufe löst das Kommunikationsproblem zwischen AI und Menschen. Die Maschine versteht endlich, was wir sagen, und kann mit flüssiger natürlicher Sprache antworten. Aber in dieser Phase ist die AI im Wesentlichen nur ein Redner, der viel sagen kann, aber nicht viel tun kann.

Zweite Stufe: Programmierung und Werkzeuggebrauch. Zwischen 2023 und 2024 haben die Großen Modelle zwei Schlüsselfertigkeiten erlernt: Programmieren und die Verwendung externer Werkzeuge. Claude 3.5 und GPT-4 haben beeindruckende Programmierfähigkeiten gezeigt. Der Function Calling-Mechanismus ermöglicht es den Modellen, APIs aufzurufen, Datenbanken zu manipulieren und Dateien zu lesen und zu schreiben. Das bedeutet, dass die AI nicht mehr nur ein Gesprächspartner ist, sondern auch handlungsfähig wird. Sie kann uns helfen, ein Python-Skript zum Datenverarbeiten zu schreiben, die Wetter-API aufrufen, um die Temperaturen in der kommenden Woche zu erfragen, und den Browser bedienen, um Formulare auszufüllen.

Dritte Stufe: Tiefe Inferenz und eigenständige Planung. Ende 2024 bis 2025 haben die Inferenzmodelle wie OpenAIs o1/o3-Serie und DeepSeek-R1 das letzte Puzzlestück ergänzt. Diese Modelle können nicht nur einfache Gespräche führen, sondern auch lange logische Schlussfolgerungen ziehen, komplexe Aufgaben zerlegen, Ausführungspläne erstellen und schrittweise überprüfen, d.h. langfristige Aufgaben erledigen. Dies ist eine qualitative Veränderung von der Fähigkeit, zu handeln, zur Fähigkeit, eigenständig zu arbeiten. Es ist wie ein Praktikant, der früher nur Befehle ausführen konnte, aber jetzt, wenn man ihm ein Ziel gibt, selbständig herausfinden kann, wie er es erreicht.

Erst die Kombination dieser drei Stufen hat die AI-Agenten hervorgebracht, die wir heute kennen. Sie können verstehen, was man sagt (Sprachverständnis), Werkzeuge einsetzen, um Aufgaben zu erledigen (Programmierung und Werkzeuggebrauch) und selbst herausfinden, wie man vorgeht (tiefe Inferenz). Das erklärt, warum AI-Chatbots schon 2022 populär wurden, aber die Agenten, die tatsächlich arbeiten können, erst 2025 auftraten. Die ersten beiden Raketenstufen waren zwar beeindruckend, aber erst wenn die dritte Stufe gezündet wurde, hatte die AI endlich die Fähigkeit, komplexe Aufgaben eigenständig zu erledigen.

II. 3 Agenten, 3 bestätigte Hypothesen

Nach Erreichen des technologischen kritischen Punktes sind die Agentenprodukte, die zwischen 2025 und 2026 in großer Zahl aufgetaucht sind, nicht mehr nur Experimente. Drei repräsentative Beispiele beantworten jeweils eine Schlüsselfrage.

Die Agenten wie Manus und Genspark beantworten die Frage: Können Agenten Geld verdienen? Manus wurde im März 2025 gestartet, und acht Monate später erreichte der ARR (Annual Recurring Revenue) 100 Millionen US-Dollar. Genspark erreichte 45 Tage nach seiner Gründung einen ARR von 36 Millionen US-Dollar und überstieg nach neun Monaten den Marke von 100 Millionen US-Dollar. Ein neues Geschäftsfeld für Agenten wurde eröffnet, und viele Start-ups haben sich darin engagiert und so den Weg für das Agentische Internet geebnet.

OpenClaw beantwortet die Frage: Wem gehören die Agenten? Dieser Open-Source-AI-Agent unter der MIT-Lizenz vertritt die Idee, dass jeder seinen eigenen Agenten haben sollte. Bis April 2026 hatte er über 360.000 Sterne auf GitHub, aber diese Zahl ist nicht das Wichtigste. Was wirklich interessant ist, ist die Vielzahl von Varianten, die von Unternehmen wie Tencent, Zhipu, MiniMax, Kimi und Byte in kurzer Zeit entwickelt wurden. Das bedeutet, dass OpenClaw die Möglichkeit hat, als Eingangspunkt für die nächste Generation der Interaktion zu dienen.

Hermes beantwortet die Frage: Können Agenten sich selbst verbessern? Die ersten beiden Agenten sind im Wesentlichen Werkzeuge, die Befehle ausführen und dann fertig sind. Hermes versucht, diese Grenze zu überschreiten. Er hat nicht nur wie OpenClaw ein permanentes Gedächtnis, das die Präferenzen, Gewohnheiten und den Kontext des Nutzers speichert, sondern kann auch automatisch Fertigkeiten erstellen. Bei jeder neuen Aufgabe wird ein wiederverwendbares Fertigkeitsdokument erstellt, das bei ähnlichen Aufgaben später abgerufen werden kann. Er kann sogar Unter-Agenten erstellen, um Aufgaben parallel zu bearbeiten. Das klingt wie eine Ansammlung technischer Merkmale, aber dahinter steckt eine tiefe Bedeutung. Hermes entwickelt sich nicht nur, indem er Aufgaben erledigt, sondern lernt auch aus diesen Aufgaben. Dies ist ein wichtiger Schritt für die Transformation eines Agenten von einem Werkzeug zu einem digitalen Mitarbeiter. Ein echter Mitarbeiter lernt nicht nur, was der Chef ihm sagt, sondern lernt auch autonom, sammelt Erfahrungen und wird immer besser.

Drei Produkte, drei bestätigte Hypothesen: Agenten können Geld verdienen (Manus und Genspark), Agenten gehören jedem (OpenClaw), Agenten können sich selbst verbessern (Hermes). Wenn diese drei Fähigkeiten gleichzeitig vorhanden sind, handelt es sich nicht mehr um die Möglichkeit einer neuen Technologie, sondern um die Notwendigkeit einer neuen Ära.

III. Die Agenten haben ihre "Muttersprache" gefunden

Es reicht nicht aus, dass die Agenten ein schlaues Gehirn und fähige Hände haben. Um sich in die digitale Welt zu integrieren, brauchen sie eine Schlüsselbedingung: die richtige Art, mit dieser Welt zu interagieren.

Das ist die derzeit sehr beliebte CLI (Befehlszeileninteraktion) . Die CLI ist für Agenten was das HTTP für Webseiten ist.

Zu Beginn des Internets sah der Nutzer farbenfrohe Oberflächen, aber was alles antrieb, waren die unsichtbaren Protokolle und Anfragen. Das HTTP-Protokoll arbeitet im Hintergrund und ist nicht für Menschen gedacht, aber es lässt die gesamte Webwelt funktionieren.

Die Welt der Agenten erfährt eine ähnliche Entwicklung. In den letzten Jahrzehnten sind wir an die Interaktionsweise mit grafischen Benutzeroberflächen (GUI) gewöhnt. Symbole, Buttons, Scrollen und Klicken sind auf die Augen und Finger der Menschen optimiert. Aber Agenten brauchen keine schöne Oberfläche. Sie brauchen nur, effizient zu arbeiten. Die Befehlszeile, die für normale Nutzer altmodisch und unverständlich erscheint, ist genau die effizienteste Sprache für die Kommunikation zwischen Agenten und Systemen.

Dies wurde in der Welt der Entwickler bestätigt. Zwischen 2025 und 2026 haben sich CLI-basierte AI-Programmierwerkzeuge wie Claude Code, Codex CLI und Gemini CLI hervorgetan und stehen im krassen Kontrast zu den herkömmlichen grafischen IDEs. Entwickler haben festgestellt, dass die Effizienz, wenn AI direkt in der Befehlszeile Dateien lesen und schreiben, Skripte ausführen und Versionskontrollen durchführen kann, weit höher ist als beim Klicken in einer grafischen Oberfläche. Die GUI ist für die Augen der Menschen, die CLI für die Fähigkeiten der Agenten ausgelegt.

Über der Befehlszeile können Protokolle wie MCP und A2A die Verbindung zwischen Agenten und externen Diensten herstellen, sodass Agenten nicht nur im lokalen Betriebssystem agieren können, sondern auch über Systeme und Plattformen hinweg verschiedene Fähigkeiten nutzen können. Somit ist die "Autobahn" für die Agentenoperationen gebaut.

Die Stärke der dreistufigen Rakete, das Auftauchen markanter Produkte und die Verfügbarkeit der Interaktionsprotokolle haben alle zwischen 2025 und 2026 fast gleichzeitig stattgefunden. Die Technologie ist kein Hindernis mehr.

Man kann sagen, dass die AI-Agenten sich am Wendepunkt von technischen Demos zu Infrastruktur befinden. Ähnlich wie um 2010 beim Mobile Internet, als die 3G/4G-Netzwerke bereits aufgebaut waren und das iPhone den Weg gezeigt hatte, brauchte es noch ein bis zwei Jahre, bis die echten Anwendungen (WeChat, Didi, Meituan, Douyin) explodierten. Die heutigen Agentenprodukte sind zwar beeindruckend, aber es ist wahrscheinlich, dass sie noch nicht die endgültige Form haben. Das wahre Killerprodukt, das alle sagen lässt "So ist es also", ist vielleicht noch auf dem Weg.

Eine weitere Frage, die sich aufdrängt, ist, wie sich die Arbeitsweise der digitalen Welt ändern wird, wenn die Agenten Aufgaben erledigen können.

Akt 2: Paradigmenwechsel – Das Agentische Internet aus fünf Perspektiven

Wenn der erste Akt von der technischen Bereitschaft handelt, geht es im zweiten Akt um tiefere Fragen. Wenn die AI-Agenten zu Kernakteuren in der digitalen Welt werden, welche Regeln, die wir als selbstverständlich ansehen, werden neu geschrieben?

Bevor wir uns der Details zuwenden, schauen wir uns eine Übersicht an. Diese Tabelle zeigt die wichtigsten strukturellen Unterschiede zwischen dem Mobile Internet und dem Agentischen Internet. Dies ist keine einfache technische Parametervergleichung, sondern eine Verschiebung der wirtschaftlichen Logik.

Alles im Mobile Internet basiert auf der Aufmerksamkeit, während alles im Agentischen Internet um Fähigkeiten herum aufgebaut wird. Dies ist kein gradueller Fortschritt, sondern ein Wechsel der grundlegenden Rechnungseinheit. Es ist wie der Übergang vom Goldstandard zum Kreditgeld: Alle wirtschaftlichen Beziehungen auf höherer Ebene ändern sich. Wir betrachten dies aus fünf Perspektiven.

I. Vom GUI zum CLI: Der Generationenübergang des Interaktionsparadigmas

Zunächst eine überraschende Tendenz.

In der Vorstellung vieler Menschen bedeutet technologischer Fortschritt immer schönere Oberflächen und einfachere Bedienung. Vom DOS-Befehlszeileninterface zum Windows-Desktop, vom Desktop zum Touchscreen hat jede Generation der Interaktion die Nutzungsschwelle für die Nutzer gesenkt. Nach dieser Logik sollte die nächste Generation der Interaktion noch aufwendigere AR/VR, natürlichere Gestenerkennung oder intelligentere Sprachassistenten sein.

Aber was tatsächlich passiert ist überraschend: Die Befehlszeile kehrt zurück.

Dies ist keine Rückschritt, sondern ein grundlegender Perspektivenwechsel. Denn diesmal hat sich das Subjekt der Interaktion geändert. Im Zeitalter des Agentischen Internets werden viele Operationen von Agenten durchgeführt. Agenten müssen nicht einen roten "Sofort kaufen"-Button sehen, um zu wissen, dass sie bestellen sollen. Sie brauchen nur eine klare API-Schnittstelle oder einen Befehlszeilenbefehl. Agenten müssen nicht in einer sorgfältig gestalteten Hotel-Listenansicht hin- und herscrollen, um zu vergleichen. Sie brauchen nur strukturierte Daten und klare Filterkriterien.

Mit anderen Worten, das GUI ist ein Interaktionsparadigma für Menschen, während das CLI und die API für Maschinen und automatische Ausführung ausgelegt sind. Wenn das Subjekt der Operation von Menschen zu Agenten wechselt, muss sich die zugrunde liegende Logik des Interaktionsparadigmas ändern.

Für normale Nutzer zeigt sich diese Veränderung in einer anderen Form: Nutzer müssen nicht mehr lernen, wie man eine komplexe Softwareoberfläche bedient, sondern nur noch klar sagen, was sie als Ergebnis möchten.

Nutzer müssen nicht die Ctrip-App öffnen, den Abfahrtsort eingeben, das Ziel auswählen, das Datum filtern, die Preise vergleichen, den Sitzplatz wählen, die Passagierinformationen eingeben und bezahlen. Sie müssen nur sagen: "Buch mir den billigsten Hochgeschwindigkeitszug nach Shanghai morgen", und dann erhalten sie eine Bestätigungsnachricht. Sie müssen auch nicht vor den Feiertagen im Mai die Kandidatenfahrten und Sitzplätze auf 12306 einzeln auswählen. Sie müssen nur sagen: "Buch mir eine Bahnkarte für den Abend vom 30. April oder den Vormittag vom 1. Mai".

Sie müssen nicht in Excel Formeln eingeben, Pivot-Tabellen erstellen und Diagrammformate einstellen. Sie müssen nur sagen: "Mach eine Vergleichsanalyse der Verkaufsdaten des vergangenen Quartals nach Regionen", und dann erhalten sie einen bildreichen Bericht.

Das ist was wir Ergebnisorientierte Interaktion nennen. Nutzer interessieren sich nur für das Ergebnis, nicht für den Prozess. Und

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。