Das universelle Wörterbuch für KI-Agenten: Die ultimative Ressource

Zusammenfassung der grundlegenden Kernkenntnisse für die Entwicklung von AI-Agentensystemen

Sie benötigen keine technische Vorkenntnisse, um den folgenden Inhalt zu verstehen. Obwohl fast täglich neue KI - Tools oder - Frameworks auftauchen, lassen sich die meisten Grundlagen auf die unten behandelten Konzepte zurückführen. Dies ist genau das Referenzmaterial, das ich mir beim Aufbau eines Agentensystems gewünscht habe.

1. Prompting: Die Grundlagen

Alle produktionsreifen Künstliche - Intelligenz - Systeme beginnen mit einer Sache: einem sorgfältig formulierten Prompt. Wenn Sie ChatGPT oder Claude verwendet haben, wissen Sie sicher, was ein Prompt ist. Sie geben etwas ein, und das Modell gibt eine Antwort. So einfach ist das.

Aber es besteht eine große Kluft zwischen einem einfachen "Hey, fasse das mal zusammen" und einem Prompt, der tausendmal zuverlässig ohne menschliches Eingreifen funktioniert. Prompts in Produktionsumgebungen werden sorgfältig entworfen, nicht einfach manuell eingegeben.

Prompt - Strukturrahmen

Ein gut strukturiertes Prompt besteht aus fünf Bestandteilen. Je präziser Sie jeden Bestandteil definieren, desto vorhersagbarer ist das Ergebnis.

Prompt - Typen

Selbst wenn Sie ein perfekt strukturiertes Prompt haben, ist es von entscheidender Bedeutung, wie Sie es verwenden. Es gibt hauptsächlich drei Prompt - Strategien, wobei jede Strategie einen Kompromiss zwischen Kürze und Genauigkeit eingeht.

Zero - Shot - Lernen ist die einfachste Methode. Sie geben der KI eine Aufgabe ohne irgendein Beispiel und erwarten, dass sie diese alleine erledigt. "Übersetze diesen Satz ins Französische: Das Meeting ist um 15:00 Uhr." Diese Methode funktioniert gut, wenn die Aufgabe klar definiert ist und das Modell das Muster bereits beherrscht.

Few - Shot - Training geht einen Schritt weiter. Sie müssen einige Beispiele von Eingabe - Ausgabe - Paaren liefern, damit das Modell das genaue Muster oder Format versteht, das Sie möchten. Anstatt Ihre Anforderungen mit Worten zu beschreiben, zeigen Sie es einfach dem Modell: "Hier sind drei Beispiele für E - Mail - Zusammenfassungen. Bitte fasse jetzt diese E - Mail zusammen." Diese Methode ist erstaunlich effektiv, um die Einheitlichkeit des Formats und der Tonlage sicherzustellen.

Chain of Thought ist der Schlüssel. Anstatt direkt die Antwort zu geben, fordert es die KI auf, das Problem Schritt für Schritt zu analysieren und schließlich zu einem Schluss zu kommen. Dies ist der Antrieb hinter "Denkmodellen" wie OpenAIs o1 oder Claudes erweitertem Denkmodus. Es opfert Geschwindigkeit für Genauigkeit und ist ideal für komplexe Analysetasks, da eine schnelle Antwort Feinheiten übersehen würde.

2. Vom gelegentlichen Gebrauch zum Produktionssystem

Wenn Sie ChatGPT oder Claude verwendet haben, haben Sie vielleicht eine Methode entwickelt: Sie senden eine Nachricht, erhalten eine nicht ganz zufriedenstellende Antwort, passen Ihre Frage an und versuchen es erneut. Dies geht so viermal oder fünfmal, bis Sie mit dem Ergebnis zufrieden sind. Diese Methode funktioniert, wenn Sie als menschlicher Teilnehmer die Konversation manuell steuern.

Aber in einem Produktionssystem muss die Software diese Aktionen tausendmal am Tag zuverlässig und automatisch ausführen. Niemand sitzt da und klickt auf "Neu generieren" oder "Neue Anweisung in neuer Nachricht senden". Sie können sich die Wiederholung nicht leisten.

Die Lösung scheint einfach zu sein: Fordern Sie nicht ein Modell auf, alle Aufgaben auf einmal zu erledigen. Stattdessen müssen Sie zunächst den Arbeitsablauf der manuellen Bedienung verstehen, d. h. welche Schritte braucht ein Mensch, um diese Aufgabe zu erledigen? Dann teilen Sie diese Schritte in kleinere, unabhängigere Teile auf und weisen Sie jedem Teil einen spezialisierten KI - Agenten zu.

Dies ist der Kerngedanke eines Agenten - Künstliche - Intelligenz - Systems. Anstatt ein einziges Modell zu verwenden, das alles übernimmt und aufs Bestmögliche hofft, teilt es das Problem in mehrere fokussierte Schritte auf, wobei jeder Schritt von einem kleineren, kostengünstigeren und zuverlässigeren Agenten bearbeitet wird. Dieser Gesamteffekt macht das System schneller, vorhersagbarer und leichter zu debuggen, wenn es zu einem Fehler kommt.

3. Sub - Agenten und Modellparameter

Da Sie nun den "Grund" hinter der Zerlegung von Dingen kennen, schauen wir uns die Grundelemente an, aus denen die Dinge bestehen.

Sub - Agenten sind KI - Modelle, die für eine bestimmte, enge Aufgabe in einem großen Arbeitsablauf zuständig sind. Beispielsweise extrahiert ein Agent Daten aus einer PDF - Rechnung, ein anderer vergleicht die extrahierten Daten mit einer Datenbank und ein dritter formatiert und sendet eine Bestätigungs - E - Mail. Da jeder Sub - Agent sich auf eine bestimmte Aufgabe konzentriert, können Sie kleinere, schnellere und kostengünstigere Modelle verwenden, anstatt ein leistungsstarkes Modell für alle Aufgaben zu nutzen.

Aber es reicht nicht, einfach das passende Modell auszuwählen. Sie müssen auch die Art und Weise, wie das Modell arbeitet, anpassen. Der wichtigste Parameter hierbei ist die Temperatur.

Die Temperatur steuert die "Kreativität" oder "Zufälligkeit" der Modellausgabe. Sie können sich das wie ein Spektrum vorstellen. Am unteren Ende (nahe 0) wählt das Modell eine konservative Strategie und gibt immer die vorhersagbarste Antwort. Stellen Sie die gleiche Frage zweimal, und Sie erhalten die gleiche Antwort. Dies ist das Modell, das Sie für deterministische Aufgaben wie die Datenextraktion aus Dokumenten oder die Klassifizierung von Support - Tickets verwenden möchten.

Bei hohen Werten (nahe 1) geht das Modell mehr Risiken ein und erkundet eine breitere Palette von Möglichkeiten. Die Ausgabe variiert bei jedem Durchlauf. Dies ist sehr nützlich für kreative Aufgaben wie Brainstorming, Schreiben oder die Generierung von Ideen.

Die Faustregel ist einfach: Wenn die Aufgabe Einheitlichkeit erfordert, senken Sie die Temperatur; wenn die Aufgabe Kreativität erfordert, erhöhen Sie die Temperatur.

4. Agenten - Arbeitsablaufparadigmen

Sie haben nun Sub - Agenten. Jetzt benötigen Sie eine Methode, um sie zu verbinden. Es gibt hauptsächlich zwei Paradigmen, und das Verständnis des Unterschieds zwischen ihnen ist eine der wichtigsten architektonischen Entscheidungen.

Das erste ist der kettenbasierte Arbeitsablauf. Dies ist das einfachste Muster: Die Ausgabe von Agent 1 wird als Eingabe für Agent 2 verwendet, die Ausgabe von Agent 2 wird als Eingabe für Agent 3 usw. Linear, vorhersagbar und einfach zu debuggen. LangChain ist das beliebteste Framework für die Erstellung solcher Arbeitsabläufe. Sein Hauptvorteil liegt in der Abstraktion → Es spielt keine Rolle, ob es sich um Claude, GPT - 4 oder ein anderes Modell handelt. Der Wechsel des Modellanbieters erfordert nur minimale Codeänderungen. Es bietet auch fertige Komponenten für häufige Aufgaben wie die Verbindung zu Datenbanken, die Speicherverwaltung und die Ausgabeformatierung, sodass Sie viel weniger Boilerplate - Code schreiben müssen.

Das zweite ist der orchestrierte Arbeitsablauf. Hier liegt seine Stärke. Anstatt einen festen linearen Prozess zu verwenden, wird ein einzelner Orchestrator - Agent oben im System platziert. Sie müssen ihm mitteilen, welche Sub - Agenten verfügbar sind und was jeder Agent kann. Wenn eine Aufgabe eingeht, liest der Orchestrator die Aufgabeninformationen, erstellt einen Ausführungsplan und entscheidet, welche Sub - Agenten aufgerufen werden sollen, in welcher Reihenfolge und wie ihre Ausgabe verarbeitet werden soll.

Der entscheidende Unterschied besteht darin, dass die Orchestrierung zyklisch sein kann. Der Orchestrator kann Agent A aufrufen, seine Ausgabe an Agent B senden, das Rückergebnis erhalten und dann entscheiden, ob er Agent A mit neuen Informationen erneut aufrufen muss. Dies geht so weiter, bis eine bestimmte Bedingung erfüllt ist. Das LangGraph - Framework wurde speziell für diesen Zweck entwickelt. Es erweitert LangChain, und der Unterschied besteht darin: LangChain wird für lineare Ketten verwendet, während LangGraph für graphenbasierte Arbeitsabläufe eingesetzt wird, die dynamisch verzweigen, zyklisieren und routen können.

Denken Sie so: Wenn Ihre Aufgabe lautet "Tun Sie zuerst A, dann B, dann C und fertig" → Verwenden Sie einen kettenbasierten Prozess. Wenn Ihre Aufgabe lautet "Ermitteln Sie, was getan werden muss, und passen Sie dann entsprechend an" → Verwenden Sie einen Orchestrator.

5. Agenten - Betriebsmodi

Abgesehen von der Art und Weise, wie Agenten miteinander verbunden sind, folgen einzelne Agenten auch bestimmten Mustern, wenn sie Aufgaben ausführen. Zwei der wichtigsten Muster sind "Feedback" (ReAct) und "Planen und Ausführen" (Plan and Execute).

ReAct (Reasoning and Acting) ist ein Zyklus. Wenn ein Agent eine Aufgabe erhält, gibt er nicht sofort eine Antwort. Stattdessen führt er drei Schritte zyklisch aus: Nachdenken (Was weiß ich? Was brauche ich noch?), Handeln (Aufruf von Tools, Datenbeschaffung) und Beobachten (Ist diese Information ausreichend, um die Frage zu beantworten?). Wenn die Antwort nein ist, kehrt er zum Nachdenken zurück und versucht es erneut.

Dieses Muster ist stark, weil der Agent adaptiv ist. Er legt kein festes Plan vorab fest, sondern reagiert auf die tatsächlichen Gegebenheiten jedes Schrittes. Dies macht es ideal für Aufgaben, bei denen der Lösungsweg im Voraus nicht bekannt ist.

Das Plan - und - Execute - Muster verwendet die entgegengesetzte Methode. Anstatt Schritt für Schritt zu denken, erstellt es zuerst einen vollständigen Plan und führt dann erst irgendetwas aus. Der Plan - Agent erstellt eine vollständige Schritt - für - Schritt - Aufteilung, und der Ausführungs - Agent führt diesen Plan nacheinander aus. Der Vorteil liegt in der Vorhersagbarkeit und Effizienz, da Sie den gesamten Plan im Voraus kennen und so die Schritte leichter parallelisieren, die Kosten abschätzen und Fehler debuggen können. Der Nachteil ist, dass der Ausführungsvorgang eher starr ist: Wenn während der Ausführung etwas unerwartetes passiert, muss der Plan möglicherweise geändert werden.

Die Wahl hängt von der Art der Aufgabe ab. Wenn die Aufgabe explorativ oder unvorhersehbar ist und der Agent die Lösung anhand seiner Entdeckungen anpassen muss, sollten Sie ReAct verwenden. Wenn die Aufgabe klar definiert ist und Effizienz, parallele Verarbeitung und eine klare Verfolgung des Ausführungsvorgangs erfordert, sollten Sie Plan and Execute verwenden.

6. Kontext - Engineering

Nur wenn Ihr KI - Agent die richtigen Informationen hat, kann er die richtigen Entscheidungen treffen. Kontext - Engineering ist eine Disziplin, die untersucht, wie effizient welche Informationen in jeden Prompt eingebracht werden können.

Die einfachste Methode ist, alle Benutzerdaten in jeden Prompt zu packen. Das Problem ist: Der Prompt wird sehr groß, langsam und kostspielig. KI - Modelle werden nach Tokens (ungefähr nach der Anzahl der Wörter) abgerechnet. Wenn Sie also nur zwei Abschnitte benötigen, aber ein 50 - Seiten - Dokument senden, verschwenden Sie nur Geld.

Es ist klüger, die relevanten Informationen dynamisch zu beschaffen, bevor Sie den Prompt senden. Je nach Speicherort der Daten gibt es hauptsächlich zwei Techniken.

Wenn die relevanten Daten in einer strukturierten Datenbank (Zeilen und Spalten) gespeichert sind, können Sie ein Tool verwenden, um eine SQL - Abfrage auszuführen und nur die relevanten Zeilen zu extrahieren. Beispielsweise fragt ein Benutzer "Wie ist der Status meiner Bestellung?" → Das System fragt die Bestelldatenbank ab, findet die neuesten Bestellungen des Benutzers und fügt diese Zeilen in den Prompt ein. So kann der Kundendienstmitarbeiter genau antworten.

Wenn die relevanten Daten in unstrukturierter Form vorliegen (z. B. Dokumente, PDFs, Notizen, E - Mails), können Sie keine direkte SQL - Abfrage ausführen. Hier kommt RAG (Retrieval - Augmented Generation) ins Spiel. Sie müssen einen Prozess aufbauen, der alle Dokumente in kleine Teile aufteilt und diese Teile in numerische Vektoren umwandelt (eine mathematische Methode zur Darstellung von Bedeutung). Wenn eine Abfrage eingeht, findet der Prozess die kleinen Datenstücke, die der Bedeutung der Abfrage am nächsten kommen. So sieht die KI nur den relevantesten Teil des Wissensspeichers, nicht die gesamte Menge.

Der Schlüssel ist, dass das Kontext - Engineering auf Präzision und nicht auf Menge abzielt. Je weniger irrelevante Störinformationen im Prompt sind, desto besser funktioniert der Agent.

7. Fähigkeits - Engineering

Wenn das Kontext - Engineering darauf abzielt, welche Informationen der Agent erhält, richtet sich das Fähigkeits - Engineering auf die Fähigkeiten und Verhaltensweisen des Agenten. Es ist wie beim Angeln: Das richtige Köder bringt den richtigen Fang.

Im Agenten - Engineering ist das am häufigsten verwendete Tool Skills. Ein Skill ist eine Markdown - Datei (eine einfache

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。