Der bittere Aufbruch des Agenten: Wie die Künstliche Intelligenz von Sprache zu Erfahrung übergeht

Gehen Sie in die Praxis.

Im Jahr 2019 schrieb Richard Sutton, der sogenannte "Vater des verstärkten Lernens" in der Künstlichen Intelligenz (KI), einen sechsseitigen Artikel, der die gesamte KI - Gemeinschaft nachhaltig beeinflusste.

Der Artikel mit dem Titel "Die bittere Lehre" hat im Kern nur einen Satz:

Die Menschen haben Jahrzehnte lang versucht, Domänenwissen in die KI zu stopfen, und jedes Mal hat die Methode "Lassen Sie die Maschine sich selbst in die Fehler begeben" gewonnen.

Dies trifft auf Schach, Go, Spracherkennung und Computervision zu. Alle sorgfältig entworfenen a priori - Kenntnisse, künstlichen Merkmale und Expertenregeln wurden schließlich von der Massenberechnung und dem Selbstspiel unterlaufen.

Sutton ist ein anerkannter Gründervater des verstärkten Lernens. Er hat ein halbes Leben damit verbracht, sich mit einer Sache zu beschäftigen:

Intelligenz wird nicht entworfen, sondern von der Umwelt herausgefordert. Die kontinuierliche Interaktion zwischen dem Agenten und der Umwelt ist der einzige zuverlässige Weg zu einem höheren Intelligenzlimit.

Nach der Veröffentlichung des Artikels war die Reaktion der akademischen Gemeinschaft fast polarisiert. Eine Gruppe von Forschern, die jahrelang in der Merkmalsentwicklung und in Expertensystemen gearbeitet hatten, war gezwungen, die langfristige Bedeutung ihrer Arbeit neu zu bewerten. Die Kontroverse ist bis heute nicht ausgetragen, aber Suttons Einschätzung wurde in den folgenden sieben Jahren immer wieder bestätigt.

Wenn man im Frühjahr 2026 im Rückblick auf die Agent - Welle die letzten sieben Jahre betrachtet, wird diese Einschätzung in der KI - Branche auf eine überraschende Weise bestätigt - nur haben es die meisten Menschen noch nicht bemerkt.

I. Die Diskussion über Agenten berührt nur die Hälfte der Geschichte

Von der Skill - Welle, die von Claude initiiert wurde, über die Cowork - Zusammenarbeit bis hin zur heutigen "Shrimp - Farming - Welle" ist Agent heute das heißeste Thema in der KI - Welt.

Aber heiß wie es auch sein mag, angesichts der stetig wachsenden Fähigkeiten der Agenten fokussiert sich die Branche nicht mehr auf die Frage "Was können sie tun", sondern auf die Fragen, wie weit ihre Anwendungsbereiche reichen können und wie sie die Produktionsverhältnisse neu gestalten und die Wirtschaftsstruktur verändern werden, angesichts der zunehmenden Öffnung von Rechten und der immer reichhaltigeren Plug - in - Ökosysteme.

Von jeder Pressekonferenz, jedem Produkttest bis hin zu jedem Branchen - Tweet wird immer mehr die Kernfrage gestellt: Welche riesigen geschäftlichen Umbrüche werden Agenten mit stärkerer Autonomie und erweiterten Systemrechten in der Anwendungsebene bewirken, und welche Branchen und Bereiche werden von der Agent - Welle zerstört?

In der Branche gibt es sogar schärfere Warnungen und Vorhersagen: Mit der zunehmenden Substitutionsbreite und - tiefe der Agenten akkumulieren sich Risiken wie ein Massenverlust von Arbeitsplätzen, eine verstärkte Einkommensungleichheit und ein Abschwächen der effektiven Nachfrage, was strukturelle Beschäftigungsprobleme und Kettenreaktionen in der Wirtschaft auslösen könnte.

Diese Erzählungen sind wertvoll, denn sie stellen alle die gleiche Art von Fragen: Wohin wird die Umgestaltung der menschlichen Gesellschaft in der Anwendungsebene durch Agenten als Werkzeuge führen?

Aber es scheint, dass wenige Menschen die andere Frage stellen:

Welche qualitativen Veränderungen wird die rasante Verbreitung von Agenten umgekehrt in der Modellschicht der KI selbst bewirken?

Diese Frage ist aus Suttons Perspektive die wirklich wichtige.

II. Die Sackgasse der Chatbots

Bevor man den tiefgreifenden Wert von Agenten verstehen kann, ist es notwendig, zu verstehen, in welche Sackgasse ihr Vorgänger, der Chatbot, geraten ist.

Anfang 2023 überstieg die Anzahl der ChatGPT - Nutzer eine Milliarde und setzte damit einen Rekord als die am schnellsten wachsende Plattform in der Konsum - Internet - Geschichte. Produktmanager auf der ganzen Welt wachen auf und füllen wild ihre Produkte mit Dialogfeldern. Kundenservice - Roboter, Wissensfragen, Schreibassistenten, Code - Vervollständigung - alles wurde zu einer "Chat - Oberfläche".

Aber Ende 2024 tauchte ein peinliches Problem auf: Nach dem Verschwinden des anfänglichen Neugierde - Effekts sank die Nutzungsfrequenz vieler Nutzer deutlich. Viele Medien und Analyseinstitute berichteten über die Verlangsamung des Wachstums der ChatGPT - Nutzungsaktivität.

Die Nutzer wussten nicht, was sie mit dem Dialogfeld anfangen sollten. Sie benutzten es gelegentlich, um eine E - Mail zu schreiben, die Formulierung zu ändern oder eine Frage zu stellen, aber es entwickelte sich keine stabile Nutzungshabit.

Der Grund ist einfach: Das Interaktionsmuster des Chatbots ist eine Frage - Antwort - Sequenz, während der reale menschliche Arbeitsablauf aus mehreren Schritten, mehreren Werkzeugen und mehreren Urteilen besteht.

Lassen Sie den Chatbot eine Marktstudie durchführen, er wird Ihnen einen scheinbar guten Artikel geben. Aber Sie wissen nicht, ob die Datenquellen zuverlässig sind, ob er wichtige Wettbewerber ausgelassen hat und ob die Argumentationskette hinter der Schlussfolgerung haltbar ist. Sie erhalten zwar ein Ergebnis, aber Sie verlieren den gesamten Prozess.

Was noch fataler ist, ist, dass jedes Gespräch des Chatbots isoliert ist. Er erinnert sich nicht an die Vorlieben der letzten Woche, kennt den Kontext des Projekts nicht und versteht die Geschäftslogik der Organisation nicht. Jedes Mal, wenn Sie das Dialogfeld öffnen, stellen Sie sich einem höflichen Amnesie - Patienten neu vor.

Deshalb hat sich die gesamte Branche seit der zweiten Hälfte 2024 auf Agenten konzentriert, denn die Grenzen des Chatbots sind deutlich sichtbar.

Aber hier gibt es eine Dimension, die fast alle Menschen übersehen: Die Grenzen des Chatbots sind nicht nur die Grenzen der Produktform, sondern auch die Grenzen der Modellentwicklung.

III. Praktische Interaktion ist der Schlüssel

Das Kernkonzept von Suttons Philosophie des verstärkten Lernens ist sehr klar: Die Grenze der statischen Daten ist die Grenze der bekannten Welt.

Unabhängig von der Größe des Korpus und der Anzahl der Parameter ist die Fähigkeitsgrenze eines auf einer festen Datensatzmenge trainierten Modells die Grenze der Welt, die von diesen Daten beschrieben wird.

Im Zeitraum von 2024 bis 2025 war diese Grenze mit bloßem Auge sichtbar.

Das Epoch AI - Team hat eine weit verbreitete Analyse veröffentlicht, in der vorausgesagt wird, dass die hochwertigen Internet - Textdaten in den nächsten Jahren fast aufgebraucht sein werden. Die gesamte Branche spricht jetzt von einer "Datenmauer", einer Mauer, die von der physikalischen Grenze der Informationsmenge errichtet wurde.

Die Lösung, die der Chatbot bietet, ist: Von den Nutzerdialogen. Aber die Informationsdichte der Dialoge zwischen Nutzern und Chatbot ist äußerst niedrig.

"Bitte ändern Sie diese E - Mail so, dass sie formeller klingt", "Schreiben Sie eine schnelle Sortierung in Python", "Wie hoch ist das BIP Chinas?" Diese Interaktionen enthalten nur eine oberflächliche Abbildung menschlicher Bedürfnisse.

Was das Modell aus diesen Dialogen lernen kann, unterscheidet sich im Wesentlichen nicht von dem, was es aus einem neuen Satz von Internettexten lernt. Es sind alle statistische Muster der Sprache, und es fehlt immer etwas: die kausale Struktur.

Der Unterschied des Agenten besteht darin: Während der Ausführung einer Aufgabe entsteht etwas, das statische Korpora niemals liefern können: Entscheidungsbahnen mit markierter kausaler Struktur.

Beispielsweise: Was ist das Ziel, welche Aktionen wurden durchgeführt, welche Rückmeldung hat die Umwelt gegeben, wo ist ein Fehler aufgetreten und wie wurde er korrigiert.

Ein konkretes Beispiel verdeutlicht den Unterschied. Ein Nutzer sagt zu einem Chatbot: "Bitte planen Sie meine Geschäftsreise von Peking nach Shanghai nächsten Mittwoch." Der Chatbot gibt direkt ein Reiseplanungsschema aus, und die Interaktion endet. Das Modell lernt daraus nur sehr wenig. Es weiß nicht, ob diese Planung sinnvoll ist, ob der Nutzer zufrieden ist, und es kann nicht überprüfen, ob seine Antwort das Problem tatsächlich gelöst hat.

Wenn ein Agent die gleiche Aufgabe ausführt, wird er einen vollständigen, autonomen Arbeitsablauf durchlaufen: Zunächst versteht er die Geschäftsreisepräferenzen des Nutzers, sucht nach den früheren Vorlieben des Nutzers, stellt fest, dass der Morgenflug aufgrund des Wetters storniert wurde, wechselt automatisch zu einem alternativen Flug, wählt dann ein passendes Hotel gemäß den Firmenreisekriterien aus und erstellt einen ersten Entwurf des Reiseplans. Wenn der Nutzer meldet, dass das Hotel zu weit vom Veranstaltungsort entfernt ist, wählt der Agent erneut ein Hotel aus, das zu Fuß erreichbar ist, und gibt nach der Korrektur das endgültige Schema aus.

Jeder Schritt trägt eindeutige kausale Signale. Ein fehlgeschlagener Schnittstellenaufruf sagt dem Modell: "Bereiten Sie ein alternatives Planungsschema vor", die Vorlieben des Nutzers sagen dem Modell: "Merken Sie sich die Nutzungsgewohnheiten", und die Korrektur - Rückmeldung des Nutzers sagt dem Modell: "Optimieren Sie basierend auf den Anforderungen."

Der Chatbot gibt nur Antworten aus, während der Agent tatsächlich autonom Aufgaben ausführt und wächst kontinuierlich durch ständiges Ausprobieren und Korrigieren.

Die Informationsdichte dieser Art von Daten ist weit höher als die von einfachen Webseitenabrufen. Es ist keine Abbildung menschlicher Sprachausdrücke, sondern eine Aufzeichnung des Spiels zwischen dem Agenten und der realen Welt.

Ein Modell, das mit dieser Art von Daten trainiert wird, gewinnt nicht mehr Wissen, sondern eine stärkere Inferenzfähigkeit und Selbstkorrekturfähigkeit, und dies ist der Schlüsselparameter, der die Fähigkeitsgrenze des großen Modells bestimmt.

Mit anderen Worten: Der Agent ist die Schnittstelle, über die das große Modell Brennstoff für die Evolution aus der Außenwelt bezieht.

Ohne diese Schnittstelle ist die Fähigkeitsgrenze des Modells fest an die Grenzen der statischen Daten gebunden.

IV. Nach der Grenze streben oder Schnittstellen anhäufen?

Zwischen Ende 2024 und 2025 hat sich die strategische Wahl der führenden großen Modell - Anbieter auf eine interessante Weise geteilt.

Top - Modelle wie OpenAI und Google setzen maximalen Druck auf die gleiche Mauer: Sie streben die Fähigkeitsgrenze des Modells an.

Ende 2024 veröffentlichte OpenAI o3. In der ARC - AGI - Benchmark - Testung, die von François Chollet entworfen wurde und als eine anspruchsvolle Testung für die abstrakte Inferenzfähigkeit gilt, erzielte o3 ein Ergebnis, das die gesamte Branche beeindruckte. Die Designphilosophie der ARC - AGI ist gerade gegen die brute - Force - Methode gerichtet: Chollet hat immer darauf bestanden, dass der Kern der Intelligenz die abstrakte Inferenz und die Generalisierung mit kleinen Stichproben ist, nicht die brute - Force - Suche. Aber o3 hat durch eine Massenberechnung der Inferenzzeit ein weit höheres Ergebnis in diesem Test erzielt als alle vorherigen Systeme.

Chollet hat in seiner öffentlichen Antwort eine vorsichtige Haltung eingenommen. Er hat das Ergebnis von o3 nicht bestritten, aber er hat ein Schlüsselfaktum festgestellt: Dieses System verbraucht bei der Lösung von Problemen weit mehr Rechenleistung als der Mensch. Ein hohes Ergebnis bedeutet nicht unbedingt einen Durchbruch in der allgemeinen Intelligenz.

Google DeepMind hat bei der Gemini 2.0 - Serie die multimodale Inferenzfähigkeit weiterentwickelt.

Anthropic hat jedoch einen anderen Weg gewählt. Im Oktober 2024 hat Anthropic für Claude eine damals nicht so aufsehenerregende Funktion eingeführt: Computer Use, die Claude direkt den Computerbildschirm bedienen lässt. Er kann den Inhalt auf dem Bildschirm sehen, die Maus bewegen, Buttons anklicken und Text eingeben.

Die frühe Benutzererfahrung war nicht besonders beeindruckend. Claude bediente den Computer sehr langsam, brauchte oft viel Zeit, um einen Button zu finden und klickte manchmal an die falsche Stelle. Die Kommentare in den Tech - Medien und auf den sozialen Plattformen waren mit gutem Willen ironisch: "Das AI - System bedient den Computer wie ein älterer Mann, der zum ersten Mal mit einem Computer in Kontakt kommt."

Aber der CEO von Anthropic, Dario Amodei, hat in mehreren Interviews wiederholt eine Einschätzung betont:

Der nächste Durchbruch in den großen Modellen liegt nicht nur in der Anzahl der Parameter, sondern auch in der Art der Interaktion des Modells mit der Welt.

Amodei war fast fünf Jahre lang als Forschungs - Vizepräsident bei OpenAI tätig und erlebte die Entwicklung von GPT - 2 bis GPT - 3. Nach seiner Abreise im Jahr 2021 gründete er Anthropic mit genau diesem Glauben.

Ende 2024 hat Anthropic das Model Context Protocol (MCP) - Open - Protokoll eingeführt, das es KI - Modellen ermöglicht, auf standardisierte Weise externe Werkzeuge und Datenquellen anzuschließen.

Wenn Computer Use Claude Hände und Füße gibt, dann ist MCP eine Art universelles Nervensystem, das die Oberfläche der realen Welt, die er erreichen kann, vervielfacht.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der bittere Aufbruch des Agenten: Die Künstliche Intelligenz geht von Sprache zu Erfahrung.

I.

Die Diskussion über Agenten berührt nur die Hälfte der Geschichte

II.

Die Sackgasse der Chatbots

III.

Praktische Interaktion ist der Schlüssel

IV.

Nach der Grenze streben oder Schnittstellen anhäufen?