StartseiteArtikel

Warum versteht man die KI-Intelligenzagenten nicht?

《财经》新媒体2025-07-21 18:46
Die Fähigkeiten von KI - Agenten werden von den Fähigkeiten großer Modelle bestimmt. Der Grund für die vorübergehende Unreife liegt darin, dass die Genauigkeit und die logische Schlussfolgerungsfähigkeit der gegenwärtigen großen Modelle, insbesondere die Fähigkeit zum Verständnis und zur Planung komplexer Aufgaben, noch nicht hoch genug sind.

Vor einigen Monaten hat die internationale IT-Beratungsfirma Gartner die Zahlen für Agentic AI (vertretungsfähige Künstliche Intelligenz) aufgestellt. Laut Prognose wird bis 2028, also in drei Jahren, 33 % der Unternehmenssoftware weltweit Agenten (Vertreter) enthalten. Im Jahr 2024 lag dieser Anteil unter 1 %. Bis 2028 wird 15 % der alltäglichen Arbeit von Agenten autonom erledigt werden, während dieser Anteil im Jahr 2024 nahezu 0 % betrug.

Bei den neuen innovativen Anwendungen der Künstlichen Intelligenz auf der Grundlage von großen Sprachmodellen steht die Agentic AI kurz davor, die konkreten Denk- und Entwicklungsprozesse des Menschen in vielen Bereichen weitgehend zu ersetzen. Eine Ära der innovativen Anwendungen, in der Tausende von Agentic AI-Systemen auftauchen werden, rückt immer näher. Die damit verbundenen Umwälzungen und Herausforderungen sind unvermeidlich, und wir müssen uns ihnen mutig stellen.

Bei den jüngsten umfassenden Fachstudien von „Caixin“ haben wir eine Veränderung festgestellt: Künstliche Intelligenz ersetzt tatsächlich schnell die Arbeit von Programmierern. Mitarbeiter von großen Technologie- und Handelsunternehmen, die an der Umfrage teilnahmen, haben uns erzählt, dass in ihren Unternehmen 20 % oder sogar 80 % der Programme von professionellen KI-Tools geschrieben werden. Diese Veränderung hat sich erst in den letzten 12 Monaten ereignet.

Programmierer stehen am nächsten an der Künstlichen Intelligenz. Die Welle der KI-vermittelten Veränderungen trifft zuerst die Programmierer. Es ist vorhersehbar, dass die Geschichte nicht rückwärts geht. In Zukunft wird die KI immer mehr Berufsgruppen verändern, und die Agentic AI wird tief in das Arbeits- und Privatleben der Menschen eingreifen und den bestehenden gesellschaftlichen Ablauf verändern.

Aus der Perspektive der KI betrachtet rückt die menschliche Gesellschaft schnell in eine Ära der Agenten ein. Das in diesem Jahr in der amerikanischen Silicon Valley beliebte Konzept des „individuellen Unicorns“ basiert genau auf diesem Hintergrund. Die Investoren sind sich einig, dass die Agentic AI in der Tendenz der schnellen Iteration der KI-Technologie immer mehr die Rolle des Menschen in Startup-Unternehmen übernehmen wird. Ein einzelner Mensch könnte möglicherweise mit der Unterstützung mehrerer Agentic AI-Mitarbeiter ein Unicorn-Unternehmen gründen.

Für die Privatpersonen bedeutet die Ära der Agenten, dass sie vor dem Schlafengehen Aufgaben wie das Schreiben von Dokumenten, das Recherchieren von Informationen, das Erstellen von Präsentationen und das Buhen von Flugtickets an die Agenten zuweisen können und nach dem Aufwachen die Ergebnisse abholen können.

Was wird als Nächstes passieren? Es ist aufregend, aber auch beängstigend.

Der Weg, auf dem eine revolutionäre Technologie (wie die KI) das Geschäft und die Gesellschaft umwälzt, durchläuft normalerweise mehrere Phasen: Technologischer Ansatz - Technologische Reife - Entstehung und Verbreitung von Anwendungen und Produkten auf der Grundlage dieser Technologie - Umwälzung der Arbeits- und Lebensgewohnheiten, der Wirtschafts- und Gesellschaftsstruktur durch die Anwendungen und Produkte.

Angesichts der Veränderungen in den letzten 12 Monaten befindet sich die KI-Technologie nun zwischen der zweiten und der dritten Phase. Der Agentic AI ist das Schlüsselwort dieser Phase.

Es ist angebracht, hier näher zu erläutern, welche Fähigkeiten die Agentic AI hat. Wir können sie als eine intelligente Entität verstehen, die ihre Umgebung wahrnehmen, auf der Grundlage ihres Wissens und ihrer Algorithmen eigenständig Entscheidungen treffen und Handlungen unternehmen kann, um bestimmte Ziele zu erreichen. Einfach ausgedrückt, ist die Agentic AI wie ein digitales Lebewesen mit den Fähigkeiten „Wahrnehmen - Denken - Handeln“, das in einer komplexen und sich ständig ändernden Umgebung unabhängig agieren und verschiedene Aufgaben erledigen kann.

Das bedeutet, dass die Agentic AI ein „menschenähnlicher Assistent“ oder ein „menschenähnlicher Mitarbeiter“ sein wird. Natürlich befindet sich die Agentic AI derzeit in beiden globalen Polen der KI-Technologie - den USA und China - nach den umfassenden Studien und Beobachtungen von „Caixin“ noch in der Anfangsphase.

Aber mit der Unterstützung von Investmenten und Technologie entwickelt sich die Agentic AI schnell.

Am 10. Juli hat Elon Musk, der Gründer von Tesla, Grok 4 vorgestellt. Im Gegensatz zu den bisherigen großen Sprachmodellen (LLM) ist Grok 4 ein neues KI-System, das auf die Zusammenarbeit mehrerer Agenten, die multimodale Interaktion und die Echtzeit-Internetverbindung setzt. Musk hat in seiner ausführlichen Präsentation dieses große Sprachmodell wie folgt charakterisiert: „Es ist fast klüger als die meisten Postgraduate Studenten in allen Fachbereichen.“

Sechs Tage später, am 16. Juli, hat Masayoshi Son, der Gründer der SoftBank Group, mit Sam Altman, dem CEO von OpenAI, auf der SoftBank World 2025-Veranstaltung gesprochen. In diesem Gespräch hat Son angekündigt, dass SoftBank in diesem Jahr 1 Milliarde Agentic AI-Systeme in seinem Unternehmen einsetzen und ein Betriebssystem entwickeln wird.

Angesichts der schnellen technologischen Entwicklung ist es vorhersehbar, dass die Menschheit bald eine neue Ära - die Ära der Agenten - begrüßen wird. Ein positiver Entwicklungstrend in der Ära der Agenten ist, dass die KI den Menschen nicht ersetzt, sondern ihm Superkräfte verleiht.

Die Überlebensregeln in der Ära der Agenten sind eigentlich einfach. Für Unternehmen wird die Wettbewerbsfähigkeit in Zukunft von der „Penetrationsrate der Agenten x der Tiefe der Datenassets“ abhängen. Derzeit müssen Unternehmen ihre Strategie für die neuesten KI-Technologien von der „punktuellen Anwendung“ auf die „ganzheitliche intelligente Neugestaltung“ umstellen.

Für Privatpersonen bedeutet es, dass wenn die KI für die „Effizienz des Systems“ sorgt, müssen die Menschen sich stärker auf die „Definition des Sinns“ konzentrieren. Es ist wichtig, sich an das beschleunigte Überlebensrhythmus anzupassen, die Fähigkeiten zur Nutzung der Agenten zu verbessern und die Gefahr der Ersetzung durch die KI zu vermeiden.

Staaten und politische Entscheidungsträger müssen über das traditionelle Regulierungsrahmen hinausgehen und ein dreistufiges Governance-System aus „Technologie - Institution - Zivilisation“ aufbauen. Sie müssen die Handlungsgrenzen der Agenten vorhersagen (z. B. das Verbot, dass ein Gesundheitsassistent die Genmanipulation empfiehlt), ethische Schutzbarrieren errichten und neue rechtliche Paradigmen für die „Verantwortungsaufteilung zwischen Mensch und Maschine“ entwickeln.

Das Endergebnis dieser Veränderung wird die gemeinsame Entwicklung und Steigerung der menschlichen Kreativität und der Maschinenausführung im Rahmen der Agenten sein.

Was genau ist ein Agent? Einfach ausgedrückt, ist es die nächste Generation von KI-Anwendungen.

Es unterscheidet sich grundlegend von den derzeitigen Computer- und Mobiltelefonanwendungen, bei denen der Benutzer jeden Schritt manuell ausführen muss. Wie der Name „Agent“ (Vertreter) bereits sagt, ist es ein Software-System, das den Menschen hilft, Aufgaben mithilfe der KI zu planen und auszuführen.

Im März dieses Jahres hat Sheng Fu, der Vorsitzende und CEO von Cheetah Mobile sowie der Vorsitzende von OrionStar, in einem Interview mit „Caixin“ erwähnt, dass wenn man die Agenten anhand der Standards der automatisierten Fahrweise L1 - L5 bewertet, sich derzeit die meisten Agenten auf der Stufe L1 - L2 befinden. Wenn sie eines Tages die Stufe L5 erreichen, können die Menschen vor dem Schlafengehen Aufgaben wie das Schreiben von Dokumenten, das Recherchieren von Informationen, das Erstellen von Präsentationen und das Buhen von Flugtickets an die Agenten zuweisen und nach dem Aufwachen die Ergebnisse abholen.

Welche Anwendungen können als Agenten bezeichnet werden? Derzeit gibt es keine einheitliche Definition. Die Chat-Assistenten in den großen Sprachmodell-Apps und die mehrfach-taskfähigen KI-Anwendungen werden alle als Agenten bezeichnet. Aber die Funktionen der ersteren sind zu einfach, und die letzteren können komplexe Aufgaben oft nicht erfolgreich abschließen.

Viele Menschen sind verwirrt, wenn sie diese Produkte benutzen: Sind das wirklich die Agenten?

Im Jahr 2025 befindet sich der Agent in einer peinlichen Situation, in der die Leute ihn „nicht verstehen“ können. Einerseits wird er als die nächste revolutionäre Anwendung betrachtet, die alles umwälzen wird. Andererseits wissen die meisten Menschen überhaupt nicht, wie er genau aussieht, wie er alles umwälzen wird und wie stark seine Macht ist.

Dieser Widerspruch hindert die internationale IT-Beratungsfirma Gartner nicht daran, Agentic AI (vertretungsfähige Künstliche Intelligenz) zu den „zehn strategischen Technologietrends im Jahr 2025“ zu zählen.

Gartner prognostiziert, dass bis 2028 33 % der Unternehmenssoftware Agenten enthalten werden, während dieser Anteil im Jahr 2024 unter 1 % lag. Bis 2028 wird 15 % der alltäglichen Arbeit von Agenten autonom erledigt werden, während dieser Anteil im Jahr 2024 nahezu 0 % betrug.

Agenten bringen auch die Softwarebranche dazu, über die Preismodelle nachzudenken. Die traditionelle Abonnementgebühren-Methode scheint allmählich durch die Methode des Zahlens nach Ergebnissen ersetzt zu werden. Einige Unternehmer haben sich bereits entschieden, dieses neue Preismodell zu adoptieren. Andere in der Branche befürchten jedoch, dass dies die Softwareunternehmen möglicherweise ihre Preismacht völlig rauben könnte.

Die unklare Produktform und das unklare Preismodell hindern den Agenten nicht daran, eine Welle zu machen. Diese Verwirrungen sind eigentlich die besten Einblicke, um dieses neue Phänomen zu verstehen.

01 Unverständlich und unreif?

Die Unreife der Agenten kann anhand der beiden Produkttypen Single-Agent (Einzel-Agent) und Muti-Agent (Multi-Agent) erklärt werden.

Single-Agent-Anwendungen sind oft vergleichbar mit Chat-Bots oder KI-Assistenten. Beispielsweise werden in der Doubao-App von ByteDance der Englisch-Sprachathelfer und der Schreibassistent als Agenten bezeichnet. Die einfache Interaktionsweise, bei der der Benutzer eine Frage stellt und das Modell eine Antwort gibt, lässt es schwer erscheinen, dass dies ein Agent ist, der „eigenständig entscheiden“ kann.

Das bekannteste Beispiel für eine Muti-Agent-Anwendung ist Manus, das von dem KI-Startup Butterfly Effect im Februar 2025 vorgestellt wurde. Es wird als „der weltweit erste universelle Agent“ bezeichnet. In den Demo-Materialien kann Manus unabhängig denken, planen und komplexe Aufgaben ausführen. Einige Benutzer haben jedoch festgestellt, dass es viele komplexe Aufgaben nicht effektiv ausführen kann.

Aufgrund der Unreife des Produkts ist die Zugriffsrate auf die Manus-Website stetig gesunken. Laut den Daten der internationalen Traffic-Analyseplattform SimilarWeb betrug die Zugriffsrate auf Manus im März 2025 23,1 Millionen, sank im April auf 17,84 Millionen und im Mai auf 16,16 Millionen.

„Wenn ich versuche, ein Snake-Spiel mit Manus zu erstellen, stößt die Aufgabe immer wieder auf Probleme und ich kann den Code nicht manuell korrigieren. Es gibt bessere professionelle Code-Tools für diese Aufgabe“, sagte Sheng Fu im März dieses Jahres in einem Interview mit „Caixin“. Er ist der Meinung, dass die Agenten überbewertet sind und die Muti-Agent-Anwendungen noch nicht reif seien. Dennoch ist er überzeugt, dass die Agenten die Zukunft sind und die Apps der KI-Ära darstellen.

Yiran Chen, ein Professor für Elektronik und Informatik an der Duke University, meint, dass es üblich ist, dass Startups unreife Produkte auf den Markt bringen, um die Aufmerksamkeit des Marktes zu erregen und die nächste Runde an Finanzierungen zu erhalten. OpenAI hat beispielsweise nach der Finanzierung sein Produkt weiterentwickelt und es erfolgreich vermarktet.

Single-Agent-Anwendungen sind eher wie KI-Assistenten, während Muti-Agent-Anwendungen noch unreif sind. Dieses Problem beschäftigt auch viele Unternehmen.

Min-da Wu, ein leitender Technologieexperte für Daten und Künstliche Intelligenz bei IBM Großchina, hat in einem Interview mit der Medien erklärt, dass viele Unternehmenskunden verwirrt seien, da viele angebliche Agenten möglicherweise keine echten Agenten seien, sondern eher als KI-Assistenten zu betrachten seien. Er hat einen wesentlichen Unterschied zwischen den beiden aufgezeigt: Ein echter Agent kann „eigenständig entscheiden“ und kann APIs (Anwendungschnittstellen) oder andere Tools nutzen, um Aufgaben zu planen. Ein KI-Assistent hat zwar KI-Fähigkeiten, kann aber keine Aufgaben autonom ausführen.

Die meisten derzeit bekannten Chat-Anwendungen sind weit davon entfernt, „eigenständig zu entscheiden“. Min-da Wu erklärt, dass der Schlussfolgerungsprozess eines KI-Assistenten einfach ist, der Ablauf festgelegt ist, wenig Rechenleistung benötigt und sogar schneller und genauer ist als der eines Agenten. Ein Agent ruft jedoch aktiv mehr KI-Assistenten oder Tools auf und arbeitet mit ihnen zusammen, um Aufgaben zu erledigen. Dieser Prozess erfordert mehr Rechenleistung und setzt höhere Anforderungen an die Entwicklung eines Agenten.

Er ist auch der Meinung, dass die Definition von Agenten und KI-Assistenten nicht so wichtig ist. KI-Assistenten werden immer existieren, und ihre Rolle in der Unternehmenssoftware könnte in Zukunft sogar größer sein als die der Agenten. Das Wichtigste ist, dass die Unternehmensprobleme effektiv gelöst werden und die Genauigkeit der Aufgaben gewährleistet wird. Unternehmen müssen nicht unbedingt nach einem universellen Agenten streben, da es nicht sinnvoll ist, alle Unternehmensprobleme mit einem einzigen Agenten zu lösen.

Die Fähigkeiten eines Agenten werden von seinem „Gehirn“ - dem großen Sprachmodell - bestimmt. Die momentane Unreife der Muti-Agent-Anwendungen liegt grundsätzlich daran, dass die Genauigkeit, die logische Schlussfolgerungsfähigkeit und insbesondere die Fähigkeit zur Planung und Ausführung komplexer Aufgaben der derzeitigen großen Sprachmodelle noch nicht ausreichen. Es wird vermutet, dass sich diese Situation bis Ende 2025 erheblich verbessern wird.

Di Wu, der Leiter des intelligenten Algorithmus-Teams und des Huoshan Ark-Teams bei ByteDance, hat im Mai dieses Jahres in einem Interview mit „Caixin“ erklärt, dass die Fähigkeiten der großen Sprachmodelle in den nächsten 12 Monaten kontinuierlich verbessert werden werden und sich in drei Richtungen entwickeln werden.

Erstens wird das multimodale (Text + Bild + Audio + Video) Schlussfolgerungsmodell die Hauptrolle spielen. Dies ist eine aktuelle Entwicklungstrend. KI wird in der Lage sein, verschiedene Arten von Informationen wie Text, Bilder, Audio und Video zu integrieren und umfassende Schlussfolgerungen zu ziehen. Dies wird die Fähigkeit der Agenten, die komplexen Informationen der realen Welt zu verstehen, erheblich verbessern.

Zweitens wird das Videoerzeugungsmodell reif und einsatzbereit sein. Es wird erwartet, dass es Ende dieses Jahres einen Ausbruch geben wird. Dies bedeutet, dass die Agenten nicht nur die Welt verstehen, sondern auch Inhalte und Prozesse auf eine dynamischere und anschaulichere Weise generieren können.

Drittens wird die Fähigkeit zur Bearbeitung komplexer mehrschrittiger Aufgaben erheblich verbessert werden. Es wird erwartet, dass es Ende dieses Jahres einen großen Durchbruch geben wird. Dies ist ein entscheidender Schritt für die Reife der Agenten. Wenn