Aufbau eines KI-Agentensystems: Überlegungen von den Kernteilen bis zur Praxis
1. Übersicht
Viele sagen, dass das Jahr 2025 das "Jahr der KI-Agenten" sei. Niemand kann sich auf eine Definition von "KI-Agenten" einigen, aber die meisten würden zustimmen, dass die Autonomie von KI-Agenten sich ständig ändert. Auf der einen Seite gibt es Arbeitsabläufe (bei denen jeder Schritt im Voraus geplant ist). Auf der anderen Seite gibt es KI-Agenten, die während der Ausführung entscheiden, was sie tun. Der Unterschied zwischen beiden lässt sich auf eine Frage zurückführen: Wer steuert - der Entwickler oder das Modell?
Dieser Artikel beschreibt die Details beider ausführlich und geht dann auf die chaotischen, über die Tutorials hinausgehenden Teile ein, auf die Sie stoßen, wenn Sie versuchen, eine Produktion zu liefern.
2. Arbeitsabläufe
1. Kernbestandteile eines Arbeitsablaufs
Sie können Arbeitsabläufe so implementieren, wie Sie möchten, aber konzeptionell halte ich es für intuitiv, ihn als einfaches Diagramm zu betrachten. Die Boxen und Pfeile im Diagramm improvisieren nie - jeder Schritt ist im Voraus geplant.
Nodes: Jeder Node ist eine Aufgabe, die eine LLM-Aufrufung sein kann, einige mathematische Berechnungen durchführen kann oder einfach nur "diese E-Mail senden" sein kann.
Kanten: Die Pfeile, die die Boxen zusammenhalten. Sie bedeuten "gehe hier als Nächstes hin", "überspringe diesen Block, wenn X zutrifft" oder "führe alle diese parallel aus und treffe dann hier wieder zusammen". Schleifen sind erlaubt. Die Pfeile zeigen auf frühere Boxen, bis eine Anweisung zum Stoppen gegeben wird.
Geteilter Zustand: Ein Node kann seine Ergebnisse stillschweigend an den nächsten Node in der Warteschlange senden oder sie auf einem öffentlichen Whiteboard ablegen, auf das das gesamte Diagramm zugreifen kann.
2. Grundlegende Arbeitsablaufmuster
Promptverknüpfung: Leiten Sie die Ausgabe des ersten LLMs direkt in das nächste und dann in das übernächste und so weiter, wie auf einem Fließband, wobei jede Station ein Aufkleber hinzufügt.
Routing: Lesen Sie die eingehenden Anfragen und leiten Sie sie auf den Pfad, der weiß, wie er antworten soll.
Parallelisierung - Aggregation: Starten Sie mehrere Zweige gleichzeitig und sammeln und kombinieren Sie dann die Ergebnisse.
Koordinator - Arbeiter: Ein zentrales Large Language Model (LLM) ist für die Bewertung der Arbeit verantwortlich, teilt sie in klare Teilaufgaben auf und verteilt sie an kleinere LLMs. Wenn alle Mitglieder fertig sind, fügt es die einzelnen Teile zusammen. (Das sieht schon ziemlich wie ein KI-Agent aus)
Bewertungs - Optimierung: Eine Person schreibt, eine andere bewertet, und die Schleife wird so lange fortgesetzt, bis die Punktzahl schließlich über dem Standard liegt.
3. KI-Agenten
1. Kernbestandteile eines KI-Agenten
Im Wesentlichen ist ein KI-Agent nur ein LLM mit einer Anweisung, die ihm sagt, wie er handeln soll, sowie einer Schachtel Werkzeuge, die er nutzen kann, wenn er auf externe Systeme oder Daten angewiesen ist. Einige andere wichtige Bestandteile halten das gesamte System am Laufen:
Ausführungsloop (KI-Agenten-Runner): Ein LLM kann nur "sprechen" oder auf andere Weise kommunizieren, z. B. per Bild; es kann keine Schaltflächen anklicken. Ein kontinuierlicher Loop liest den generierten Text, ermittelt das angeforderte Werkzeug, löst den Aufruf aus und gibt das Ergebnis an das LLM zurück. Dieser Loop wird wiederholt, bis der KI-Agent entscheidet, dass er fertig ist oder eine Stoppbedingung ausgelöst wird.
Kontext: Der Kontext ist der Informationsausschnitt, den das LLM beim Denken "sehen" kann. Er umfasst von trockenem, aber nützlichem Inhalt (z. B. dem heutigen Datum, dem Zugriffsebene des Benutzers) bis hin zu Smalltalk im Gespräch (z. B. früheren Nachrichten, früheren Werkzeugaufrufen). Obwohl viele LLMs jetzt lange Kontextfenster haben, häufen sich in mehrfachen Interaktionen irrelevant Informationen schnell an, daher ist die Reduzierung von entscheidender Bedeutung.
Gesprächsstatus (Kurzzeitgedächtnis): Ein Gespräch umfasst einen vollständigen Lauf - es können fünf Runden sein oder fünfzig. Alles, was der KI-Agent lernt, entscheidet oder generiert, bleibt hier gespeichert, bis das Gespräch endet.
Langzeitgedächtnis: Wenn etwas nach dem Ende des Gesprächs weiterhin bestehen soll - Benutzerpräferenzen, gelöste Probleme, halbfertiger Code - wird es in einer Datenbank, einem Vektor-Speicher oder einer reinen Textdatei gespeichert.
Übergabe: Wenn sich die Aufgabe ändert, z. B. von der Flugbuchung zur Einreichung eines Reisekostenberichts, kann der aktuelle Agent das Stäbchen an einen Kollegen übergeben, der in diesem Bereich bewandert ist. Die Übergabe umfasst nicht nur die ursprünglichen Daten, sondern auch den Aufgabenkontext, die Chatverläufe und den Leiter des aktuellen Gesprächs.
Lebenszyklusereignisse: Selbst autonomer Betrieb trifft auf vorhersehbare Checkpunkte: vor dem Werkzeugaufruf, nach der Rückgabe des LLMs, vor dem nächsten Prompt usw. Diese Momente sind für die Protokollierung, die Berechtigungsüberprüfung oder das vorzeitige Beenden des Laufs bei Problemen sehr nützlich.
2. Grundlegende Muster von KI-Agenten
Ein einzelner KI-Agent ist nur ein LLM, seine Anweisung und ein Loop. Wenn ein Benutzer oder ein anderes System eine Aufgabe auf seinen Schreibtisch legt, startet der KI-Agent. Innerhalb des Loops plant der KI-Agent den nächsten Schritt, ruft die erforderlichen Werkzeuge auf und führt fort, bis er meint, dass die Aufgabe abgeschlossen ist oder aufgrund von eingebauten Beschränkungen (z. B. einer maximalen Anzahl von Runden oder Tokens) beendet wird.
Ein einzelner Agent kann nur eine begrenzte Anzahl von Werkzeugen und Anweisungen verarbeiten, sonst wird er aufgrund seiner Umgebung fehlerhaft. Die Verteilung der Last auf mehrere Agenten - jeder Agent hat eine klarere Aufgabenbeschreibung und ein leichteres Werkzeugpaket - ist in der Regel am Ende eleganter und zuverlässiger. Hier sind einige Mehr-Agenten-Kollaborationsmuster:
Chef - Arbeiter: Ein zentraler KI-Agent spricht kontinuierlich mit dem Benutzer, während er die Teilaufgaben an spezialisierte Arbeiter verteilt. Die Arbeiter müssen nicht mit dem Benutzer sprechen. Der Chef hat das Gesamtbild im Blick und hat die endgültige Entscheidungsgewalt.
Klassifizierung: Hat die gleiche Form wie die Chef - Arbeiter-Setzung, aber nach der Klassifizierung der Anfragen übergibt der Klassifizierungs-KI-Agent den Anrufer an den richtigen Experten.
Hierarchie: Ein tieferer Stack, bei dem jeder Experte möglicherweise sein eigenes Subteam hat, sodass die Tiefe des Baumes mit den Anforderungen des Problems wächst.
Sequenz: KI-Agenten sind in einer Linie angeordnet, wobei jeder Agent die Übergabeaufgabe des vorherigen Agents übernimmt. Dies ähnelt dem Promptverknüpfungs-Arbeitsablauf, nur dass hier vollständige KI-Agenten anstelle einzelner LLM-Aufrufe verwendet werden.
Parallelisierung - Sammlung: Starten Sie mehrere KI-Agenten gleichzeitig, lassen Sie sie parallel arbeiten und kombinieren Sie dann ihre Ergebnisse, bevor Sie fortfahren.
Redundanz: Starten Sie mehrere KI-Agenten, die die gleiche Aufgabe mit unterschiedlichen Methoden ausführen, vergleichen Sie ihre Antworten, behalten Sie die beste Antwort oder synthetisieren Sie eine neue Antwort. Diese Methode verbraucht zusätzliche Ressourcen, erhöht aber die Zuverlässigkeit.
Prüfung - Kritik: Ein KI-Agent baut, ein anderer prüft, und so geht die Schleife weiter, bis der Kritiker zufrieden ist. Das gleiche wie der Bewertungs - Optimierungs-Arbeitsablauf, aber auf einen vollständigen KI-Agenten hochgestuft.
Escalation: Beginnen Sie mit einem kostengünstigen, leichten KI-Agenten. Wenn es Probleme gibt, heben Sie die Anfrage auf einen schwereren, leistungsfähigeren (und in der Regel teureren) KI-Agenten hoch. Dies ist eine klassifizierte Behandlungsmethode mit eingebetteter Kostenkontrolle.
Netzwerk: Jeder KI-Agent befindet sich auf einem offenen Kanal. Jeder dieser KI-Agenten kann die anderen KI-Agenten anpingen, entscheiden, wer als Nächstes ausführt, und dann die Aufgabe übergeben - ohne zentralen Scheduler.
4. Arbeitsabläufe und KI-Agenten
Ein Vergleich beider Methoden ist wie folgt:
Die meisten Menschen werden schließlich ein Gleichgewicht finden: Geben Sie den KI-Agenten genügend Freiheit, damit sie wirken können, aber setzen Sie gleichzeitig Schranken, um sicherzustellen, dass sie sicher, sichtbar und im Budget bleiben. Arbeitsablaufknoten können die unordentlichen Ecken an KI-Agenten abgeben, und KI-Agenten können in Arbeitsabläufe einbezogen werden, wenn stabile Teilaufgaben erforderlich sind.
5. Über den Grundlagen liegende Überlegungen
Verbinden Sie einige grundlegende Komponenten, wählen Sie ein Muster und Sie haben ein KI-Agentensystem. Mit den heutigen Open-Source-Frameworks erfordert dies tatsächlich nur zehn Zeilen Code. Die Tutorials scheinen mühelos, aber die reale Produktionsumgebung ist ganz anders. Hier sind die zusätzlichen Tools, die Sie benötigen, bevor echte Benutzer es nutzen.
1. Schutzschranken
LLMs machen immer noch Fehler, und Hacker nutzen immer noch Schwachstellen aus. Sie benötigen technische und politische Schutzschranken, um sicherzustellen, dass die Agenten im Rahmen von Sicherheit, Legalität, Kosten und Markenbild funktionieren. Diese Schutzschranken sind kein einzelnes Tor, sondern ein schichtweises Sicherheitssystem. Sie können die Ausrichtung in die Modellgewichte eingebettet sein, plus Eingabe- und Ausgabeüberprüfungen sowie Beschränkungen für die Agentenaktionen.
Die Modellausrichtung wird normalerweise vom Anbieter behandelt (Hass, Selbstverletzung, Toxizität usw.)
Eingabeschutzschranken stoppen unerwünschte Nachrichten, bevor sie den KI-Agenten erreichen: - Verstärkte Prüfung plus Jailbreak/SQL-Injektionsfilter - Themenschranken (keine irrelevanten Fragen, keine Kommentare über Wettbewerber, keine Politik oder Religion) - Geschäftsregeln (kein PII-Fischen, keine Insiderinformationen sondieren)
Laufzeit-Schutzschranken überwachen, was der KI-Agent ausführen wird: – Beschränkung der Werkzeuge nach Benutzerrolle – Hochrisikomaßnahmen erfordern manuelle Genehmigung – Stoppschalter, wenn die Ausgaben, die Tokenanzahl oder die Zeit die Grenze überschreiten
Ausgabeschutzschranken fangen Fehler während der Ausgabe ab: - Überprüfung des erwarteten Ausgabeformats - Halluzinationsprüfung (Quelldokumentüberprüfung in RAG-Settings) - Endgültige Inhaltsüberprüfung
Sie können eine Mischung aus LLM-basierten Prüfungen, heuristischen Regeln (Reguläre Ausdrücke, Zulassungslisten) und Drittanbieter-Prüf-APIs verwenden. Wählen Sie die Kombination, die zu Ihrem Budget und Ihrem Risikoprofil passt. Darüber hinaus gibt es einige fertige Tools, z. B. Guardrails.ai oder Nemo Guardrails.
2. Beobachtbarkeit
KI-Agentensysteme sind nichtdeterministisch, enthalten Schleifen und können aus schwer zu identifizierenden Gründen fehlschlagen. Wenn Sie ein Framework verwenden, kann manchmal ein kleiner Codeabschnitt (z. B. zwanzig Zeilen Code) Dutzende von zugrunde liegenden LLM-Aufrufen oder Werkzeugaufrufen auslösen. Die Beobachtbarkeit ist wie eine Taschenlampe, die es Ihnen ermöglicht, in diese versteckten Ebenen hineinzusehen, um das System zu verstehen, zu debuggen und stetig zu verbessern. Was müssen Sie also "beobachten"?
Anweisungen und Nachrichten, insbesondere vordefinierte Anweisungen und Nachrichten.
Die Eingabe und Ausgabe jedes Schritts, selbst die, die der Benutzer nie sieht.
Welchen Zweig der KI-Agent gewählt hat und warum.
Der Inferenzloop - gehen wir wirklich in Richtung Ziel voran?
Werkzeugaufrufe, übergebene Parameter und ursprüngliche Ergebnisse.
Für RAG-Settings die genauen Blöcke und Scores zurückgeben.
Klassische Anwendungsmetriken: Latenz, Fehlerrate, Kosten pro Lauf usw.
Glücklicherweise gibt es für viele von uns einige Open-Source-Beobachtbarkeitsbibliotheken, die KI-Agentensysteme unterstützen, sodass Sie diese Logs nicht von Hand erstellen müssen.
Pydantic Logfire: Minimale Beobachtbarkeit für LLM, Datenbanken, Web-Frameworks.
Mlflow, Arize Phoenix, Weights and Biases: Sie haben auch traditionelle Machine Learning-Operationen-Unterstützung.
Langsmith, Langtrace: Spezialisiert auf Gen