Was für Veränderungen und Chancen gibt es im Bereich der AI-Agenten im ersten Halbjahr 2025?
Im ersten Halbjahr 2025 hat sich der KI-Agent (Künstliche Intelligenz-Agent) rasant entwickelt und die Hype um das Konzept „Alles kann ein Agent sein“ entfacht.
Diese Hype zeigt sich zunächst auf der technischen Grundlage – in der heftigen „Rüstungswettlauf“ im Bereich der Modelle. Anfang des Jahres hat DeepSeek die Dominanz von OpenAI im Bereich der Inferenzmodelle gebrochen und die Branche geschockt. Anschließend haben Top-Unternehmen wie OpenAI, Anthropic und Google nacheinander wichtige Modelle wie o3 Pro, die Claude 4-Serie und Gemini 2.5 Pro vorgestellt.
Der Sprung in der Modellleistung hat direkt zu einem Ausbruch auf der Anwendungsseite geführt. Mit der Veröffentlichung von Operator (Durchführung von Aufgaben im Internet) und Deep Research (Tiefgehende Forschung) durch OpenAI hat die Konkurrenz im Bereich der KI-Agenten sprunghaft zugenommen, und neue Produkte tauchen ständig auf.
Große Unternehmen setzen alle auf den Agenten-Sektor: Google plant, dieses Jahr Project Mariner vorzustellen, das in der Lage sein wird, Browser und andere Software zu bedienen. Baidu hat die APP „Xinxiang“ vorgestellt, die als universeller Super-Agent konzipiert ist. Das Projekt „Xinliu“ von Alibaba untersucht die Effizienz der Mensch-Maschine-Kooperation von Agenten eingehend. Dennoch bleiben Schlüsselprobleme wie die PMF (Produkt-Markt-Passung), der Weg zur kommerziellen Umsetzung und die Kernbarrieren der Produkte noch zu klären und müssen von der Branche weiter erforscht werden.
Der KI-Agent ist nach den Prompts (Eingabefragen) und Workflows (Arbeitsabläufen) die dritte Stufe in der Entwicklung von KI-Anwendungen. Der Kernwert des KI-Agenten liegt in seiner Fähigkeit, die Umgebung zu verstehen, autonom zu entscheiden und Werkzeuge zu nutzen (Tool Use). Wir glauben, dass die kontinuierliche Iteration, die durch verstärkendes Lernen angetrieben wird, der Schlüsselweg für die Entwicklung von Agenten sein wird, um echte Durchbrüche zu erzielen und die zuvor genannten Herausforderungen zu lösen.
Am vergangenen Sonntag haben Liu Pengqi, stellvertretender Direktor von Fengrui Capital, und Yan Qianhang, Vizepräsident von Fengrui Capital, in einer Live-Übertragung eingehend über die Startup-Hype, die technischen Durchbrüche und die Entwicklungstrends des KI-Agenten im ersten Halbjahr 2025 diskutiert. Die von ihnen diskutierten Fragen umfassen u. a.:
Wie versteht man das Konzept des KI-Agenten? Welche Übereinstimmungen und Meinungsverschiedenheiten gibt es in der Branche auf diesem Sektor?
Welche technischen Durchbrüche haben in den KI-Anwendungen tatsächlich stattgefunden? Warum sieht die Branche das durch verstärkendes Lernen angetriebene Agenten-Konzept so positiv?
Welche Kernaussagen enthält das „KI-Bibel“ „The Bitter Lesson“? Welche Anregungen geben diese Aussagen für die Entwicklung des KI-Agenten?
Wie kann ein Agent umgesetzt werden? Welche Innovationschancen gibt es in diesem Prozess? Was wird die langfristige Barriere in Zukunft sein?
Wir haben Teile der Live-Übertragung editiert, um neue Denkanstöße zu geben.
/ 01 / Welche überraschenden Ereignisse gab es in den letzten sechs Monaten im Bereich der KI?
Yan Qianhang: Vom Aufstieg von DeepSeek Anfang des Jahres bis zum Aufkommen von Agenten-Anwendungen heute – welche überraschenden Ereignisse gab es in den letzten sechs Monaten im Bereich der KI?
Liu Pengqi: Im ersten Halbjahr dieses Jahres hat sich der gesamte KI-Sektor nach der Veröffentlichung von DeepSeek deutlich beschleunigt, und sowohl auf der Modellsseite als auch auf der Anwendungsseite sind wichtige Veränderungen eingetreten.
Erstens, auf der Modellsseite, haben Inferenzmodelle, repräsentiert durch DeepSeek, schnell den Markt erobert und die großen Unternehmen dazu gebracht, ihren Eintritt in den Sektor zu beschleunigen. Die Branche hat den „Rüstungswettlauf“ begonnen. Die tiefere Bedeutung von DeepSeek liegt darin, dass Inferenzmodelle auf der Grundlage von verstärkendem Lernen nun in die Öffentlichkeit getreten sind und einen neuen Bereich für große Modelle eröffnet haben.
Außer den Durchbrüchen auf der Produktenebene hat sich auch die Iterationsgeschwindigkeit der Modelle weit über die Erwartungen hinaus beschleunigt: OpenAI hat o3 Pro vorgestellt, Anthropic hat die Claude 4-Serie veröffentlicht und Google hat Gemini 2.5 Pro vorgestellt. Die Top-Unternehmen haben nacheinander neue Modelle vorgestellt und damit die vorherige Prognose über die Verlangsamung der Modelliteration gebrochen. Gleichzeitig richten einige Unternehmen ihre Kräfte neu ein. Beispielsweise hat Meta kürzlich angekündigt, 15 Milliarden US-Dollar in das Start-up Scale AI für Datenetikettierung zu investieren und seine KI-Abteilung neu zu organisieren.
Es ist bemerkenswert, dass DeepSeek gezeigt hat, dass es keinen signifikanten Unterschied zwischen der Technologie der großen Modelle in China und im Ausland gibt. Große Unternehmen beschleunigen auch ihre Platzierung auf der Modellsseite. Beispielsweise hat Alibaba Tongyi Qianwen 3.0 veröffentlicht, und ByteDance hat die Version 1.6 von Doubao vorgestellt. Obwohl einige der chinesischen „Sechs KI-Drachen“ (Zhipu, MiniMax, Yuezhi Anmian, Jieyue Xingchen, Baichuan Intelligence, Lingyi Wanwu) etwas zurückbleiben, ist die Iterationsgeschwindigkeit der Top-Produkte dennoch rasant.
Zweitens, das markante Ereignis auf der Anwendungsseite war die Veröffentlichung von Operator (Agent für einfache Aufgaben) und Deep Research (Agent für tiefgehende Forschung) durch OpenAI Anfang dieses Jahres. 2025 wird daher von der Branche als das „Jahr des KI-Agenten“ angesehen.
In der aktuellen Startup-Hype um KI-Agenten sind chinesische Teams häufig vertreten: Agentenprodukte wie Manus und Genspark haben breite Diskussionen und Aufmerksamkeit erregt. Große Modellunternehmen wie Minimax und Yuezhi Anmian haben auch in den Wettlauf eingestiegen und ihre eigenen Agentenprodukte veröffentlicht.
Drittens, der KI-Programmier-Sektor hat die PMF bestätigt, d. h. das Produkt entspricht den Bedürfnissen der Benutzer. Die beliebten Tools Cursor und Windsurf wurden von OpenAI übernommen, und die schnelle Entwicklung von Unternehmen wie Lovable, Replit und Bolt hat alle in der Branche diskutiert.
Aufgrund dieser Ereignisse kann man sehen, dass der gesamte Markt und der Sektor im Bereich der KI in einer Hype-Phase sind.
Yan Qianhang: Der Durchbruch in der Inferenzleistung der Modelle war ein weiteres Highlight des ersten Halbjahrs. Der Fokus der Branche verschiebt sich von dem Scaling Law (Effekt der Datengröße) der „Prä-Training“ zur Scaling Law der „Post-Training“.
Prä-Training bezieht sich auf die Verbesserung der Grundleistung eines Modells durch Parameter, Daten und Rechenleistung. Post-Training hingegen bezieht sich auf die Optimierung der Modellleistung durch Techniken wie verstärkendes Lernen und menschliche Rückmeldung. Früher bezog sich der Effekt des Scaling Law hauptsächlich auf die kontinuierliche Investition in Parameter, Daten und Rechenleistung, um immer stärkere Modelle zu erhalten.
Der Wendepunkt kam, als das DeepSeek-Team das R1-Modell vorgestellt hat und verstärkendes Lernen in großem Maßstab während der Post-Training-Phase des Modells anwendete. Selbst mit sehr wenig annotierten Daten konnte die Inferenzleistung des Modells verbessert werden, und so wurde das Scaling Law für die Inferenzleistung erreicht.
Im Bereich der Anwendungen gibt es ein interessantes Phänomen: Große Unternehmen wie OpenAI, Google und Microsoft haben alle in den Bereich der Agenten eingestiegen. Manche behaupten sogar, dass OpenAI im Wesentlichen als ein „KI-Agentenunternehmen, das von Sprachmodellen angetrieben wird“ betrachtet werden kann.
Früher dachten wir, dass KI-Anwendungen einen gewissen Abstand zu den Modellunternehmen halten sollten, sonst könnten die Anwendungen von der schnellen Iteration der Modelle überflutet werden, wenn die Grenzen der Modelle nicht klar definiert sind. Aber in der aktuellen Agenten-Hype haben einige Unternehmen, die hauptsächlich Modelle entwickeln, sich aufgrund ihrer guten Leistung bei der Bereitstellung des Benutzererlebnisses auch auf dem Anwendungsmarkt einen Platz erobert.
Derzeit gibt es eine Hype um das Konzept „Alles kann ein Agent sein“. Die Beteiligung der großen Unternehmen hat die Modellsseite in einen „Volks-Rüstungswettlauf“ getrieben. Gemini 2.5 hat das Konzept der AIOS (Betriebssystem für große KI-Agenten, bei dem ein großes Sprachmodell in das Betriebssystem OS als „Gehirn“ integriert wird) vorgestellt. Die Konkurrenz zwischen den chinesischen „Sechs Drachen“ und den großen Unternehmen hat sich intensiviert. Auf der Anwendungsseite werden Unternehmen wie Cursor als Beispiele für die Verbreitung und Validierung von Agenten in den bestehenden Szenarien gesehen.
Liu Pengqi: Dieser Krieg ist noch lange nicht vorbei. Die großen Modellunternehmen entwickeln ihre eigenen Anwendungen und Agentenprodukte, und es gibt auch viele Startup-Unternehmen, die sich auf diesem Gebiet engagieren. Die Grenzen zwischen Modellen und Anwendungen werden immer verschwommener, und es bleibt abzuwarten, wer in Zukunft am wahrscheinlichsten langfristig gewinnen wird.
Wenn wir auf das erste Halbjahr zurückblicken, passieren möglicherweise täglich neue Dinge, und viele Schlussfolgerungen werden schnell widerlegt. Viele unserer gegenwärtigen Ansichten mögen auch nicht richtig sein. Dies ist ein Prozess, in dem man offen bleiben und ständig lernen muss.
/ 02 / Die drei Evolutionen von KI-Anwendungen: Woher kommt das Agenten-Paradigma?
Yan Qianhang: Was ist die genaue Definition eines „KI-Agenten“? Was sind die wesentlichen Unterschiede zwischen verschiedenen Anwendungen?
Liu Pengqi: Seit der Veröffentlichung von ChatGPT durch OpenAI Ende 2022, die die KI-Anwendungen in einen neuen Bereich katapultiert hat, gibt es ungefähr drei Arten von Aufgabenbearbeitungsmethoden für KI-Anwendungen:
Die erste Stufe ist die Form des Prompts (Eingabefrage, d. h. Dialoginteraktion). Der Benutzer gibt einen Prompt ein und stellt eine Anforderung, und das große Modell gibt direkt die Antwort aus. Dies ist die grundlegendste und am weitesten verbreitete Form von KI-Anwendungen.
Die zweite Stufe ist die Form des KI Workflows (Arbeitsablauf). Das große Modell wird mit externen Datenquellen verbunden und kann Aufgaben in mehreren Schritten über vordefinierte Knoten und Pfade bearbeiten.
Im Vergleich zur ersten Stufe hat der Workflow einen zusätzlichen Schritt für das Lesen und Verarbeiten von Daten. Aber er hängt immer noch von festen, von Experten vordefinierten Abläufen ab. Obwohl der Prozess kontrollierbar ist, fehlt ihm Flexibilität und Universalität. Die meisten Anwendungen, die derzeit gut umgesetzt und kommerzialisiert sind, basieren auf dieser Form. Beispiele sind Dify (das eine Low-Code-Entwicklungsplattform bietet und die schnelle Erstellung von Marketingtexten und Benutzerprofilanalysen unterstützt), Coze (Intelligenter Kundendienst, Sprachassistent) und LangFlow (Low-Code, visuelles Werkzeug zur Erstellung von KI-Anwendungen).
Mit der Veröffentlichung von Operator und Deep Research durch OpenAI hat die KI-Anwendung die dritte Stufe – den KI-Agenten (Intelligenter Agent) – erreicht. Die allgemeine Definition lautet: „Ein intelligentes System, das in der Lage ist, die Umgebung autonom zu verstehen, autonom zu entscheiden, Aufgaben auszuführen und Ziele zu erreichen.“ Dies kann man verstehen, indem man die Schlüsselwörter einzeln zerlegt:
„Umgebung verstehen“ ermöglicht es der KI, die Anforderungen, Anweisungen und den Kontext des Benutzers umfassender zu verstehen, sogar langfristige Erinnerungen einzubeziehen. Gleichzeitig kann die KI die Umgebung auch verändern, indem sie die Fähigkeit zur „Werkzeugnutzung“ (Tool Use) während der „Aufgabenausführung“ verbessert.
„Autonomes Entscheiden und Planen“ unterscheidet sich vom Workflow, der auf festen, von Experten vordefinierten Abläufen basiert. Agenten können die Schritte der Aufgaben autonom entscheiden. Obwohl der Workflow in Bezug auf die Kontrollierbarkeit Vorteile hat, hat er Einschränkungen in Bezug auf Flexibilität, Universalität und Generalisierungsfähigkeit. Agenten mit autonomer Entscheidungsfähigkeit haben zwar derzeit noch Herausforderungen bei der Erfolgsrate der Aufgabenausführung, aber sie zeigen ein Potential, das weit über die Erwartungen hinausgeht. Diese Eigenschaften zusammen haben dazu geführt, dass die Agenten-Anwendungen der dritten Stufe in die Öffentlichkeit getreten sind.
/ 03 / Wie kann die Werkzeugnutzung und das verstärkende Lernen Agenten stärken?
Yan Qianhang: Gemäß Pengqi hat der Agent seine Kernmerkmale in der Fähigkeit, die Umgebung zu verstehen, autonom zu entscheiden und Werkzeuge zu nutzen. Im Vergleich zu KI-Anwendungen wie ChatGPT, worin liegen die Kernvorteile des Agenten? Welche speziellen Sektoren eignen sich derzeit am besten für die Umsetzung von Agenten, und welche Herausforderungen bestehen?
Liu Pengqi: Die Kernveränderung dieses Jahres bei den Agenten liegt in dem Durchbruch bei der Fähigkeit zur Werkzeugnutzung (Tool Use).
Konkret betrachtet, von der Programmierung über die Nutzung des Browsers (der Agent simuliert die Aktionen eines Benutzers im Browser) bis hin zur Nutzung des Computers (der Agent steuert das Computersystem), und mit der zunehmenden Verbreitung der MCP-Schnittstelle (Model Context Protocol, ein Protokoll für den Modellkontext, das die nahtlose Verbindung zwischen KI-Modellen und externen Ressourcen ermöglicht), hat die Fähigkeit der Agenten zur Werkzeugnutzung zugenommen, und sie können effizienter Informationen aus der Außenwelt abrufen.
Früher waren die großen Modelle in Bezug auf die Weltwissen auf die bis zu einem bestimmten Datum veröffentlichten öffentlichen Daten beschränkt. Es fehlten aktuelle Daten und Daten aus privaten Bereichen. Mit der Fähigkeit zur Werkzeugnutzung kann die KI nun Informationen autonom suchen und mit der Außenwelt interagieren. Die Fähigkeit zur Informationsbeschaffung hat im Vergleich zu früheren Versionen um Größenordnungen zugenommen.
Heute haben die Agenten die PMF im Bereich der Entwicklung und Programmierung bestätigt. Werkzeuge wie Cursor haben gezeigt, dass einige geschlossene Vorgänge im Bereich der Programmierung vollständig von Agenten übernommen werden können. Noch wichtiger ist, dass die großen Modelle durch die technologischen Durchbrüche beim verstärkenden Lernen diese Jahr ihre Inferenzleistung deutlich verbessert haben, was die Nützlichkeit der Agenten weiter erhöht hat.
Yan Qianhang: Ich möchte ergänzen, warum Agenten zuerst im Bereich der KI-Programmierung erfolgreich umgesetzt werden konnten. Programmierung ist im Wesentlichen eine Kombination aus „Text und Sprachdaten“, und die Trainingsdaten sind hochgradig strukturiert. Deshalb hat ChatGPT bereits bei seiner Veröffentlichung eine starke Fähigkeit zur Codeerstellung gezeigt. Aber die frühen Codes hatten oft Halluzinationsprobleme und konnten nicht direkt in den Compiler geladen werden, um sie zu testen.
Durch die Integration der in den letzten zwei oder drei Jahrzehnten entwickelten, reifen Softwareentwicklungswerkzeuge kann die KI-Programmierung einen vollständigen geschlossenen Systemkreislauf von der Codeerstellung über die Fehlersuche bis zur Kompilierung und Ausgabe bilden. Dies kann in einer virtuellen Computerenvironment unabhängig laufen und somit die effiziente Iteration und Experimentierung der Agenten unterstützen.
Im Vergleich dazu ist die Umsetzung von Agenten in der Bereich der körperlichen Intelligenz schwieriger. Der Kernschwierigkeit liegt darin, dass Roboter direkt mit der physischen Welt interagieren müssen. Es gibt eine beträchtliche Kluft zwischen den Codeanweisungen und der tats