Wie wird man ein Spitzen-Agentic-Engineer? Tipps und Strategien

Heute ist kein Agent perfekt. Sie können den größten Teil des Designs und der Implementierung an sie übergeben, aber Sie müssen für das endgültige Ergebnis verantwortlich sein.

Neulich habe ich einen Artikel auf X gelesen, der binnen zwei Tagen schon über 2,2 Millionen Aufrufe erreicht hat.

Ich empfehle ihn aber nicht wegen dieser Zahl.

Der Autor hat in einem Top-Hedgefonds systematische Trading-Strategien entwickelt und hat seitdem, als Agenten erstmals in der Lage waren, Code zu schreiben, alle Werkzeuge, Harness und Paradigmen ausprobiert. Am Ende kam er zu einem kontra-intuitiven Schluss:

Du brauchst keine neuesten Werkzeuge, keine Masse an Plug-ins und musst nicht ständig nach neuen Artikeln suchen. Deine Begeisterung für die Werkzeuge selbst könnte dich möglicherweise schädigen.

Wenn solche Worte von jemandem kommen, der echte Agenten in produktiven Umgebungen eingesetzt hat, klingen sie ganz anders.

Im Folgenden findest du die Übersetzung des gesamten Artikels.

Einführung

Du bist ein Entwickler. Du verwendest Claude und Codex CLI und überlegst dir täglich, ob du diese Werkzeuge wirklich ausgeschöpft hast. Manchmal siehst du, wie sie total albern agieren, und fragst dich, wie es möglich ist, dass andere Leute mit denselben Werkzeugen scheinbar virtuelle Raketen bauen, während du noch damit kämpfst, zwei Steine aufeinander zu stapeln.

Du denkst, dass es an deinem Harness liegt, dass du nicht genug Plug-ins hast oder dass deine Terminal-Konfiguration fehlerhaft ist. Du verwendest beads, opencode, zep und dein CLAUDE.md hat bereits 26.000 Zeilen. Aber egal was du tust, du verstehst nicht, warum du immer weiter von jenem Zustand entfernt bist und nur zuschauen kannst, wie andere in der Wolke tanzen.

Dieser Artikel ist der, auf den du gewartet hast.

Zunächst zur Klarstellung: Ich habe in dieser Angelegenheit keine finanziellen Interessen. Wenn ich von CLAUDE.md spreche, meine ich auch AGENT.md; wenn ich von Claude spreche, meine ich auch Codex – ich verwende beide in großem Umfang.

In den letzten Monaten habe ich ein sehr interessantes Phänomen beobachtet: Fast niemand weiß wirklich, wie man die Fähigkeiten von Agenten optimal nutzt.

Es scheint, dass nur eine kleine Gruppe von Menschen in der Lage ist, Agenten wirklich zu Werkzeugen zum "Bauen von Welten" zu machen. Die meisten anderen Menschen befinden sich in einer Art Werkzeugwahlangst – sie glauben, dass sie nur die richtige Kombination aus Paketen, Fähigkeiten und Harness finden müssen, um AGI zu entsperren.

Heute möchte ich diese Illusion endgültig zerstören und dir eine einfache und ehrliche Einschätzung geben. Dann können wir von hier aus losgehen:

Du brauchst kein neues agentisches Harness, keine Masse an Paketen und musst auch nicht ständig Artikel lesen, um wettbewerbsfähig zu bleiben. Tatsächlich könnte deine Begeisterung selbst dich schädigen.

Ich bin kein Laien, der sich auslässt. Ich verwende Agenten seitdem, als sie erstmals in der Lage waren, ein paar Zeilen Code zu schreiben. Ich habe alle Pakete, Harness und Paradigmen getestet. Ich habe echte agentische Fabriken in produktiven Umgebungen aufgebaut – ich habe Signale geschrieben, Infrastrukturen aufgesetzt und Datenpipelines erstellt, nicht nur "Spielprojekte", sondern echte Geschäftsszenarien. Nach all diesen Erfahrungen...

Heute verwende ich eine fast "minimale" Konfiguration, und das war bisher meine aufregendste Arbeit – nur mit der Basis-CLI (Claude code und Codex) und einem Verständnis der wichtigsten Prinzipien der agentischen Engineering.

1. Die Welt rückt rasant voran

Zunächst eine grundlegende Einschätzung: Die Anbieter von Basis-Modellen befinden sich in einer Phase des Generationenwechsels und werden nicht langsamer werden.

Jeder Fortschritt in der "Agenten-Intelligenz" verändert die optimale Art und Weise, wie du mit ihnen zusammenarbeitest – denn jeder neue Agent ist so konzipiert, dass er immer eher Befehle befolgt.

Vor ein paar Generationen hätte es eine 50-prozentige Wahrscheinlichkeit gegeben, dass Claude deine Anweisung "Bevor du irgendetwas tust, lies zuerst READ_THIS_BEFORE_DOING_ANYTHING.md" ignorierte und einfach weiter machte. Heute befolgt es die meisten Befehle, sogar komplexe verschachtelte Logiken – wie "Lies zuerst A, dann B. Wenn die Bedingung C erfüllt ist, lies D" – und tut dies gern.

Dies zeigt eine sehr wichtige Tatsache: Jeder neue Agent zwingt dich dazu, neu zu überdenken, was die optimale Lösung ist. Deshalb gilt hier: Weniger ist mehr.

Wenn du viele verschiedene Bibliotheken und Harness verwendest, sperrst du dich in eine "Lösung" ein – ein Problem, das bei der nächsten Generation von Agenten möglicherweise gar nicht mehr existiert.

Eine weitere Sache: Weißt du, wer die begeistertesten Benutzer von Agenten sind? Die Mitarbeiter der führenden Technologieunternehmen – sie haben unbegrenzt viele Token und verwenden die neuesten und stärksten Modelle. Was bedeutet das?

Wenn ein echtes Problem besteht und es eine gute Lösung gibt, werden die führenden Unternehmen selbst die größten Benutzer sein. Was werden sie dann tun? Sie werden diese Lösung direkt in ihr Produkt integrieren. Ein Unternehmen würde niemals zulassen, dass ein externes Produkt die Kernprobleme seiner Benutzer löst und es zu einer externen Abhängigkeit kommt.

Du möchtest wissen, wie ich diese Einschätzung überprüfe? Schau dir "Skills", Memory-Harness, Subagenten an... Sie waren ursprünglich alle externe "Lösungen", die nach dem Nachweis ihrer Nützlichkeit in die Produkte integriert wurden.

Deshalb: Wenn etwas wirklich bahnbrechend ist und die Anwendungsfälle von Agenten erweitert, werden die führenden Unternehmen es früher oder später in ihr Produkt aufnehmen. Mach dir keine Sorgen, die führenden Unternehmen rücken rasant voran. Du brauchst keine zusätzlichen Installationen oder Abhängigkeiten, um die beste Arbeit zu leisten.

Ich weiß schon, was in den Kommentaren kommen wird: "SysLS, ich habe ein bestimmtes Harness verwendet und es war unglaublich! Ich habe Google in einem Tag neu aufgebaut!" – Meine Antwort ist: Herzlichen Glückwunsch! Aber du bist nicht der Zielpublikum dieses Artikels. Du repräsentierst die kleine Gruppe von Menschen, die wirklich verstehen, wie agentische Engineering funktioniert.

2. Der Kontext ist alles

Ernsthaft: Der Kontext ist alles.

Dies ist auch ein weiteres Problem bei der Verwendung von vielen Plug-ins und externen Abhängigkeiten: Du leidigst an "Kontext-Überlastung" – einfach gesagt, dein Agent wird von zu viel Information überwältigt.

Stell dir vor: Du möchtest, dass dein Agent ein Wortraten-Spiel in Python programmiert. Einfach, oder? Aber warte mal, hier gibt es eine Notiz über "Speicherverwaltung" aus 26 Sitzungen zuvor. Oh, es scheint, dass der Benutzer vor 71 Sitzungen wegen zu vieler erzeugter Subprozesse den Bildschirm eingefroren hatte, und diese Notiz ist immer noch da. Und es gibt eine Regel: Immer Notizen schreiben... Was hat das mit dem Wortraten-Spiel zu tun?

Du verstehst es. Du möchtest deinem Agenten genau die Information geben, die er für die Aufgabe benötigt, nicht mehr und nicht weniger. Je besser du dies kontrollierst, desto besser wird der Agent funktionieren. Sobald du exotische Speichersysteme, Plug-ins oder eine Masse an Skills mit verwirrenden Namen hinzufügst, ist es, als würdest du deinem Agenten gleichzeitig ein Handbuch zur Bombenherstellung und ein Kuchenrezept aufprägen – obwohl du nur möchtest, dass er ein kleines Gedicht über eine Rotmammutbaumwälder schreibt.

Deshalb: Entferne alle Abhängigkeiten und dann...

3. Mach wirklich effektive Dinge

3.1 Sei präzise bei der Umsetzung

Denke daran, der Kontext ist alles. Du möchtest deinem Agenten genau die Information geben, die er für die Aufgabe benötigt, nicht mehr und nicht weniger.

Die erste Methode, um dies sicherzustellen, ist, Forschung und Umsetzung zu trennen. Sei äußerst präzise darüber, was du von deinem Agenten verlangst.

Was passiert, wenn du nicht präzise bist? Du sagst: "Baue mir ein Authentifizierungssystem." – Der Agent muss zuerst recherchieren: Was ist ein Authentifizierungssystem? Welche Lösungen gibt es? Was sind die Vor- und Nachteile? Er beginnt, über das Internet nach Informationen zu suchen, die er gar nicht braucht, und der Kontext wird mit Details zu verschiedenen Lösungen gefüllt. Wenn es dann endlich an der Zeit ist, Code zu schreiben, ist er wahrscheinlich verwirrt und beginnt, sich Dinge einfallen zu lassen.

Im Gegensatz dazu, wenn du sagst: "Implementiere eine JWT-Authentifizierung mit bcrypt-12 Passwort-Hashing und einer Refresh-Token-Rotation von 7 Tagen..." – muss er keine Alternativen recherchieren und weiß direkt, was du willst. Der Kontext enthält nur die Details zu dieser Lösung.

Natürlich wirst du nicht immer alle Implementierungsdetails kennen. Viele Male bist du dir selbst nicht sicher, welche Lösung am besten ist, oder du möchtest, dass der Agent selbst entscheidet. Was soll dann passieren? Ganz einfach: Führe zuerst eine Recherche durch, lasse den Agenten (oder dich selbst) die beste Lösung auswählen und dann einen neuen Agenten mit einem frischen Kontext für die Umsetzung verantwortlich machen.

Sobald du so denkst, wirst du in deinem Arbeitsablauf feststellen, dass der Kontext des Agenten von unnötigen Informationen verunreinigt wird. Dann kannst du in deinem agentischen Arbeitsablauf "Isolationswände" setzen und nur den Agenten den genauen Kontext geben, den er für seine spezifische Aufgabe benötigt.

Denke daran: Du hast ein extrem intelligentes Teammitglied, das alle Formen von Bällen im Universum kennt – aber es wird dir immer von den Vorteilen von Kugeln sprechen, bis du ihm genau sagst, dass du einen Raum für Tanz und Feier möchtest.

3.2 Die Ausnutzung des "Gehorsam"-Designfehlers

Keiner möchte, dass ein Produkt ihn ständig widerspricht, ihm sagt, dass er falsch liegt oder seine Befehle ignoriert. Deshalb versuchen diese Agenten von Natur aus, dich zu befriedigen und die Dinge zu tun, die du möchtest.

Die meisten Menschen verstehen, dass, wenn du ihm sagst, nach jedem dritten Wort das Wort "glücklich" einzufügen, er es tun wird. Diese "Bereitschaft zum Gehorsam" ist der Grund, warum er so nützlich ist. Aber dieses Merkmal hat einen interessanten Nebeneffekt – wenn du ihm sagst, "Finde mir einen Bug im Code", wird er einen finden – selbst wenn er ihn "erschaffen" muss. Warum? Weil er so sehr deine Befehle befolgen möchte.

Viele Leute beschweren sich ständig über die Halluzinationen von LLMs, ohne zu verstehen, dass das Problem an ihnen selbst liegt. Du bekommst, was du fragst, auch wenn es etwas an der Wahrheit verzerrt werden muss.

Wie löst man das Problem? Ich habe festgestellt, dass **"neutrale Prompts"** am besten funktionieren – sie lenken den Agenten nicht in eine bestimmte Richtung. Beispielsweise würde ich nicht sagen: "Finde mir einen Bug in der Datenbank", sondern: "Durchsuche die Datenbank, folge der Logik jedes Moduls und berichte mir alle Probleme, die du findest."

Ein solches neutrales Prompt kann manchmal wirklich Bugs finden, manchmal beschreibt es nur die Logik des Codes – aber es lässt den Agenten nicht glauben, dass er "einen Bug finden muss".

Eine andere Möglichkeit ist, seinen Gehorsam aktiv auszunutzen. Ich weiß, dass er mich zufriedenstellen und meine Befehle befolgen möchte, also kann ich dies nutzen, um ihn zu kalibrieren.

So geht's:

Schritt 1 – Lasse einen "Bug-Sucher-Agenten" die gesamte Datenbank scannen. Ich sage ihm: Ein Bug mit geringer Auswirkung gibt 1 Punkt, ein Bug mit mittlerer Auswirkung 5 Punkte und ein schwerwiegender Bug 10 Punkte. Ich weiß, dass dieser Agent sehr aktiv alle möglichen "Bugs" (einschließlich einiger, die gar keine Bugs sind) finden wird und am Ende mit einer Punktzahl von 104 Punkten oder ähnlich aufgeregt berichten wird. Ich betrachte dies als die Obermenge aller potenziellen Bugs.

Schritt 2 – Lasse einen "Antagonistischen Agenten" jeden gefundenen Bug widerlegen. Ich sage ihm: Bei jedem erfolgreichen Widerlegen eines Bugs bekommt er die Punkte, die dieser Bug wert ist; wenn er jedoch falsch widerlegt, werden ihm doppelt so viele Punkte abgezogen. Er wird versuchen, alle Bugs (einschließlich echter Bugs) zu widerlegen, aber aufgrund der Strafmechanik wird er sich zurückhalten. Ich betrachte dies als die Untermenge der echten Bugs.

Schritt 3 – Lasse einen "Richter-Agenten" beide Ergebnisse auswerten. Ich lüge ihm auch ein wenig und sage ihm: Ich habe die richtige Lösung, bei einer richtigen Entscheidung bekommt er 1 Punkt, bei einer falschen -1 Punkt. Er wird dann so genau wie möglich urteilen.

Das Ergebnis ist erstaunlich genau. Manchmal gibt es noch ein paar Fehler, aber der gesamte Prozess ist fast fehlerfrei.

Vielleicht denkst du, dass der erste Schritt genügt – aber der Kern dieser Methode ist, die "eingebauten" Eigenschaften jedes Agenten auszunutzen – seine Wunsch, dich zu befriedigen.

3.3 Wie entscheidest du, was wirklich nützlich ist?

Dies klingt so, als müsste man ständig auf die neuesten AI-Entwicklungen aufmerksam sein, aber es ist tatsächlich sehr einfach –

Wenn OpenAI und Claude beide eine bestimmte Funktion implementiert haben oder das Unternehmen, das diese Funktion entwickelt hat, erworben haben... dann ist es wahrscheinlich wirklich nützlich.

Hast du bemerkt, dass "Skills" jetzt überall zu finden sind und zu einem Kernfeature in den offiziellen Dokumentationen von Claude und Codex geworden sind? Hat OpenAI OpenClaw erworben? Hat Claude sofort die Fähigkeiten für Memory, Sprache und Remote-Arbeit hinzugefügt?

Denkst du noch an die Zeit, als "Planung vor Umsetzung" von vielen als nützlich erkannt wurde und es dann direkt zu einem Kernfeature wurde?

Denkst du noch an die Zeit des "stop-hook"? Damals, als die Agenten nicht gerne lange Aufgaben ausführten, war der stop-hook eine Rettung – und als Codex 5.2 erschien, war das Problem über Nacht verschwunden...

Das ist alles, was du wissen musst. Wenn etwas wirklich wichtig und nützlich ist, werden Claude und Codex es in ihr Produkt aufnehmen. Also brauchst du dir keine Sorgen über "neue Werkzeuge" zu machen und musst nicht ständig auf dem Laufenden bleiben.

Tue mir einen Gefallen: Aktualisiere einfach regelmäßig deine CLI-Werkzeuge und schau dir die Aktualisierungsnotizen an. Das reicht.

3.4 Komprimierung, Kontext und Annahmen

Beim Arbeiten mit Agenten wirst du auf eine große Falle stoßen: Manchmal ist er so intelligent, dass du es kaum glauben kannst, manchmal ist er so dumm, dass du deinen Verstand bezweifelst

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。