Umarmen Sie die Mittelschichtkräfte der AGI-Zeit: Chancen und Herausforderungen von AI-Middleware

In den letzten Jahren ist der beeindruckendste Fortschritt im Bereich der künstlichen Intelligenz zweifellos die rasanten Entwicklung der großen Modelle.

Entwicklungstrends von Large Language Models (LLMs):

Von der Fähigkeitssteigerung zur Öffnung der Ökosysteme

In den letzten Jahren war die am stärksten auffällige Entwicklung im Bereich künstlicher Intelligenz zweifellos das rasante Wachstum von LLMs. Mit ihrer erstaunlichen Lern- und Verallgemeinerungsfähigkeit verändern diese Modelle tiefgreifend unser Verständnis von KI und bringen den Traum von AGI (Allgemeine Künstliche Intelligenz) von der Science-Fiction in die Realität. Die Entwicklung von LLMs zeigt zwei zentrale Trends: die kontinuierliche Steigerung der Modellfähigkeiten und die zunehmende Öffnung der Modellökosysteme.

1.1 Kontinuierliche Steigerung der Modellfähigkeiten

Die Verbesserung der Fähigkeiten von LLMs ist kein Einzelfall, sondern wird schrittweise durch kontinuierliche Iterationen und technologische Innovationen erreicht. Von der ursprünglichen Textgenerierung bis hin zur heutigen multimodalen Verständnis- und Inferenzfähigkeit zeigen LLMs ein immer stärkeres Niveau an Intelligenz, das der menschlichen Intelligenz immer näher kommt. Nehmen wir als Beispiel die ChatGPT-Serie von OpenAI. Der Evolutionspfad dieser Serie zeigt deutlich den Prozess der Fähigkeitssteigerung:

Deutliche Verbesserung der Sprachfähigkeiten: Von GPT 3.5 zu GPT 4 hat das Modell in Bezug auf Sprachverständnis, -generierung und logisches Schließen einen qualitativen Sprung gemacht. GPT-4 zeigt in der Bearbeitung komplexer Probleme, der Generierung hochwertiger Texte und der mehrsprachigen Übersetzung eine weitaus bessere Leistung als GPT 3.5. Dies ermöglicht es den LLMs, den Kontext tiefer zu verstehen und kohärenteres und genaueres Inhalt zu generieren.

Breakthrough in der multimodalen Fähigkeit: Mit der Veröffentlichung von GPT 4o sind LLMs nicht mehr auf Text beschränkt, sondern unterstützen von Grund auf die beliebige Kombination von Text, Audio, Bildern und Videos als Eingabe und Ausgabe. Dies bedeutet, dass das Modell mehrere Datentypen gleichzeitig verarbeiten und verstehen kann. Beispielsweise kann der Benutzer dem Modell Informationen über Textgespräche, hochgeladene Bilder oder Audio geben, und das Modell verarbeitet diese Informationen gleichzeitig, um ein natürlichereres und reichhaltigeres Interaktionserlebnis zu ermöglichen. Diese multimodale Fähigkeit erweitert die Anwendungsgrenzen der KI erheblich und ermöglicht es ihr, die reale Welt besser wahrzunehmen und zu verstehen.

Tieferes Verständnis der Inferenzfähigkeit: Das von OpenAI entwickelte o1-Modell legt weiteres Gewicht auf die Inferenzfähigkeit von LLMs. Durch das Training mit verstärktem Lernen kann das o1-Modell vor der Beantwortung einer Frage "nachdenken" und interne Denkketten generieren, um komplexere Inferenztasks auszuführen. Insbesondere im Bereich der Programmierung und mathematischen Inferenz zeigt es eine hervorragende Leistung. Dies markiert den Übergang von LLMs von einem "schnellen Denken" basierend auf Wissensgedächtnis zu einem "langsamen Denken" mit tiefer logischer Analyse, wodurch sie anspruchsvollere Probleme lösen können.

Erweiterung der Fähigkeit zur Werkzeugnutzung: Mit der Einführung des o3-Modells verfügen LLMs nun über die Fähigkeit, Werkzeuge autonom aufzurufen und zu integrieren. Dies bedeutet, dass das Modell nicht nur die Fragen verstehen kann, sondern auch externe Werkzeuge (z. B. Internet-Suche, Code-Executor, Datenanalysewerkzeuge usw.) autonom auswählen und nutzen kann, um Probleme zu lösen. Diese Fähigkeit ermöglicht es AI-Agenten, tiefergehende Interaktionen mit der Umgebung zu haben und somit komplexere Aufgaben zu automatisieren.

Neben der OpenAI-Serie zeigen auch andere führende LLMs in ihren jeweiligen Bereichen starke Fähigkeiten. Beispielsweise ist das Gemini-Modell von Google für seine starke multimodale Inferenzfähigkeit bekannt. Es kann gleichzeitig Text, Bilder, Sprache und andere Datentypen verstehen und verarbeiten und zeigt eine hervorragende Leistung bei der komplexen Codierung und Analyse großer Datenbanken. Claude Sonnet 4 von Anthropic zeichnet sich in der Programmierung und Inferenz aus und wird als einer der besten Programmierassistenten der heutigen Zeit angesehen. Das ständige Auftauchen und die Verbesserung dieser Modelle bringen den Traum von AGI nicht mehr so weit entfernt. Im Gegensatz zu Narrow AI (spezialisierte KI) wie IBM Watson, DeepBlue und Google AlphaGo, die sich auf bestimmte Bereiche konzentrieren, verfügen AI-Agenten mit der Unterstützung von LLMs über eine stärker verallgemeinerte Fähigkeit zum Verständnis, Schließen und Planen und können mehr allgemeine Probleme lösen. Sie haben das Potenzial, sich in Richtung Allgemeiner Künstlicher Intelligenz weiterzuentwickeln.

1.2 Zunehmende Öffnung der Modellökosysteme

Parallel zur Entwicklung von proprietären Modellen (z. B. den geschlossenen Modellen von OpenAI) erlebt die Entwicklung von Open-Source-LLMs einen Aufschwung.

Der Aufschwung der Open-Source-Bewegung: Seit der Veröffentlichung der Open-Source-LLMs der LLaMA-Serie von Meta und der nachfolgenden Veröffentlichung hochwertiger Open-Source-LLMs wie QWen, DeepSeek, Kimi und Mistral durch verschiedene Teams im In- und Ausland ist die Technologie von LLMs nicht mehr das Alleingangshandwerk einiger großer Technologieunternehmen. Diese Open-Source-Modelle bieten nicht nur starke Basisfunktionen, sondern ermöglichen es auch Entwicklern, sie frei zu nutzen, anzupassen und zu verbessern. Dies senkt die Einstiegshürde für die KI-Entwicklung erheblich.

Das Einholen und Überholen von proprietären Modellen durch Open-Source-Modelle: Es ist bemerkenswert, dass die Fähigkeiten einiger Open-Source-Modelle schnell auf die von proprietären Modellen zukommen und in einigen bestimmten Aufgaben sogar diese überholen. Beispielsweise zeigen Open-Source-Modelle wie DeepSeek R1 und Kimi K2 in der Inferenzfähigkeit und Codegenerierung eine beeindruckende Leistung. Dieser Trend macht die hochwertigen KI-Fähigkeiten nicht mehr das Alleingangshandwerk einiger großer Unternehmen. Unternehmen aus allen Branchen können kostengünstig starke Modellfähigkeiten nutzen.

Dieser Trend treibt die KI-Anwendungen in eine Phase des vollständigen Ausbruchs voran - ähnlich wie Linux die Innovationskraft freisetzte, nachdem es das Monopol im Betriebssystembereich gebrochen hatte. Die offenen Ökosysteme von LLMs prägen eine Vielzahl von intelligenten Anwendungen und geben der industriellen Digitalisierung einen starken Schub.

Die Entwicklung von KI-Anwendungen:

Von Chatbots zu organisatorischen Intelligenzagenten

2.1 Der Entwicklungspfad von KI-Anwendungen

Das rasante Wachstum der Fähigkeiten von LLMs hat direkt zu tiefgreifenden Veränderungen in der Form von KI-Anwendungen geführt. OpenAI hat in einer internen Sitzung einen Weg zu AGI aufgezeigt (wie in Abbildung 1 gezeigt), der uns einen tiefgreifenden Einblick in die Entwicklung von KI-Anwendungen bietet [1][2]:

Level 1: KI mit konversationalen Sprachfähigkeiten (KI mit der Fähigkeit, in Textgesprächen zu kommunizieren): In dieser Phase präsentiert sich KI hauptsächlich in Form von Chatbots, die flüssige Textgespräche führen und Benutzeranweisungen verstehen und beantworten können. Der frühe ChatGPT war ein typisches Beispiel für diese Phase.

Level 2: KI mit menschenähnlichen Problemlösungsfähigkeiten (KI mit der Fähigkeit, komplexe mathematische und logische Probleme zu lösen): In dieser Phase beginnt die KI, stärkere Inferenzfähigkeiten zu zeigen und komplexe mathematische und logische Probleme zu lösen. Sie ist nicht mehr nur ein Informationssuchwerkzeug, sondern ein "Denker", der tiefgreifend nachdenken und analysieren kann. DeepSeek R1 ist ein typisches Beispiel für diese Phase.

Level 3: Systeme, die im Namen des Benutzers handeln können (Systeme, die im Namen des Benutzers Aktionen ausführen können): In dieser Phase werden diese KIs als "Agenten" bezeichnet. Sie können nicht nur denken, sondern auch mit der externen Umgebung interagieren, indem sie Werkzeuge aufrufen und Aufgaben autonom ausführen. Beispielsweise können KIs über Code-Executoren, Browser und andere Werkzeuge eine breitere Palette von Aktionen ausführen. Kürzlich populäre Anwendungen wie Manus und Claude Code entsprechen dieser Phase.

Level 4: KI, die bei Erfindungen und Entdeckungen helfen kann (KI, die bei der Erfindung und Entdeckung von neuen Dingen helfen kann): KIs auf dieser Ebene können tiefgreifendere kreative Arbeiten leisten und Menschen bei der Durchführung von wissenschaftlichen Forschungen und der Entdeckung neuer Materialien unterstützen.

Level 5: KI, die die Arbeit einer gesamten Organisation ausführen kann (KI, die die Arbeit einer gesamten Organisation ausführen kann): Dies ist das ultimative Ziel von AGI. KIs können wie eine komplette Organisation funktionieren, alle Geschäftsprozesse autonom ausführen und somit eine umfassende Digitalisierung erreichen.

Bildquelle: https://www.linkedin.com/posts/gusmclennan\_openai-agi-aiprogress-activity-7238696300790038530-rmjk/

Derzeit entwickelt sich die Entwicklung von KI-Anwendungen entlang dieses Trends stetig voran. Vom ersten ChatGPT-Chatbot bis hin zur späteren Fähigkeit der Internet-Suche, von der tiefgreifenden Recherche durch "Denken + mehrfache Suche" bis hin zur derzeitigen Fülle von Agenten-Anwendungen belegt alles diesen Entwicklungspfad.

2.2 Der Ausbruch von AI-Agenten

In den letzten sechs Monaten hat der Bereich der AI-Agenten ein explosionsartiges Wachstum erlebt, und es sind eine Vielzahl von generischen und vertikalen Agenten aufgetaucht:

Generische Agenten: Beispiele sind Manus, Genspark und ChatGPT Agent. Sie zielen darauf ab, breitere generische Probleme zu lösen und bieten Benutzern durch die Integration von Terminals, Browsern, Computern und anderen Werkzeugen einen One-Stop-Service. Diese generischen Agenten zeichnen sich in der Bearbeitung alltäglicher Aufgaben, der Informationssuche und der Inhaltserstellung durch starkes Potenzial aus.

Spezialisierte Agenten: Im Hinblick auf bestimmte Branchen sind eine Vielzahl von hoch spezialisierten Agenten aufgetaucht, wie z. B. Coding-Agenten wie Claude Code, Gemini CLI und Qwen Code sowie AI-Coding-IDE wie Cursor, Trae und Kiro. Sie können die Programmierung, das Debugging und das Testen von Code unterstützen oder sogar autonom ausführen, was die Effizienz der Softwareentwicklung erheblich verbessert.

Der Kernunterschied zwischen diesen AI-Agenten und anderen KI-Anwendungen besteht darin, dass sie gelernt haben, Werkzeuge zu nutzen und Interaktionen mit der Umgebung (z. B. Terminal, Browser, Computer) zu haben. Dies basiert auf dem selbständigen Lernen, das durch Reinforcement Fine-Tuning (RFT) angetrieben wird, sodass das Modell lernt, wie es diese Werkzeuge effektiv nutzen kann, um Probleme zu lösen.

Es ist erwähnenswert, dass diese Agenten während der Ausführung weiterhin "Human in the Loop" (Mensch im Loop) beibehalten. Beispielsweise fordert ChatGPT Agent den Benutzer auf, vor der Ausführung möglicherweise wichtiger Aktionen (z. B. Bestellung und Kauf) die Aktion zu bestätigen. Claude Code hält auch an, wenn es risikoreiche Terminalbefehle ausführt, um den Benutzer zur Überprüfung einzubinden, um die Sicherheit und Kontrollierbarkeit zu gewährleisten.

2.3 Koexistenz und Komplementarität von generischen und vertikalen Agenten

Mit der Verbesserung der Fähigkeiten von LLMs stellt sich die Frage: Brauchen wir in Zukunft nur wenige generische Agenten, um alle Aufgaben zu bewältigen? Oder brauchen verschiedene Branchen weiterhin ihre eigenen vertikalen Agenten?

Derzeit gibt es in der Branche noch keine endgültige Meinung. Viele Praktiker neigen jedoch zur letzteren Ansicht, dass vertikale Agenten weiterhin einen unverzichtbaren Wert haben. Der Grund dafür ist, dass Geschäftsszenarien oft eine tiefe Integration von Branchenwissen, proprietären Daten und spezifischen Werkzeugen erfordern. Dies gehört zum externen Wissen und den Schnittstellen der Modelle und muss auf der Ebene der Agenten optimiert werden. Nehmen wir als Beispiel einen intelligenten Kundendienst-Agenten eines Unternehmens. Er benötigt:

Tiefes Branchenwissen (externes Wissen): Ein präzises Verständnis des Produktmanuels, der Servicebedingungen und der Geschäftsprozesse des Unternehmens.

Personalisierte Benutzererinnerungen (Gedächtnis): Die Kenntnis der Bestellhistorie, der Servicepräferenzen und der Kommunikationsgewohnheiten der Benutzer.

Proprietäre Geschäftswerkzeuge (Werkzeuge): Die Fähigkeit, interne APIs wie Bestellabfragen, Rückerstattungsprozesse und Logistikverfolgung aufzurufen.

Diese mit dem Geschäftsszenario eng verbundenen Kontextinformationen sind für generische Agenten schwer zu erreichen. Gleichzeitig dauert das Training von Basismodellen lange und ist kostspielig und kann nicht mit der schnellen Veränderung der Geschäftsprozesse Schritt halten. Daher wird die Erstellung einer Ebene von vertikalen Agenten, die tiefgreifend Branchenwissen, Daten und Werkzeuge integrieren können, auf der Grundlage starker Basismodelle die unvermeidliche Wahl für die Implementierung von Unternehmens-KI-Anwendungen in Zukunft sein. Daher kann man vorhersagen, dass generische und vertikale Agenten in einem relativ langen Zeitraum in Zukunft koexistieren und sich ergänzen werden: Die ersteren lösen allgemeine Probleme, während die letzteren sich auf die langfristigen Bedürfnisse der Branchen konzentrieren.

In weiter Ferne könnte es auch Agenten mit Embodied Intelligence geben, d. h. KI bekommt mehr sensorische und aktive Fähigkeiten in der physischen Welt. Neben Text, Sprache und Bildern versuchen Forscher, Agenten mit Geruchs-, Geschmacks- und Tastsensoren zu verbinden und die physische Welt über Roboterarme, Roboter und andere Werkzeuge zu beeinflussen.

Die Entwicklung von KI-Anwendungen ist im Wesentlichen ein Interaktionsprozess zwischen Modellen und der Umgebung (Browser, Code, APIs, physische Welt). Dieser Prozess hängt von der Verbesserung der Modellfähigkeiten ab, ist aber auch mit einer Reihe von engineeringmäßigen Herausforderungen wie der Entwicklung von Agenten, der Zusammenarbeit mehrerer Agenten, der Effektivität von RAG, Modellillusionen und der Nutzung von Werkzeugen verbunden. Die Lösung dieser Herausforderungen liegt in der KI-Middleware.

Chancen und Herausforderungen von KI-Middleware

In der Zeit verteilter Systeme und Cloud-Nativen Technologien hat Middleware die Effizienz der Softwareentwicklung erheblich verbessert, indem sie die Komplexität der unteren Schichten verdeckt und standardisierte Schnittstellen bereitstellt. Ebenso spielt die aufkommende KI-Middleware in der KI-Zeit eine ähnliche Rolle - als "mittlere Schicht", die die Basis-LLMs und die konkreten Anwendungen verbindet, bietet sie Entwicklern eine Reihe von grundlegenden Fähigkeiten und Rahmenwerken für die Entwicklung von intelligenten Anwendungen. In diesem Abschnitt werden wir die Chancen, die in der KI-Middleware stecken, sowie die Herausforderungen bei ihrer Implementierung untersuchen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。