StartseiteArtikel

Beweis dafür, dass ein ehemaliger Codex-Experte gewechselt hat. Ich schwärme für Claude Code: Programmieren wird um das Fünffache beschleunigt, und es wird die Schwachstelle von OpenAI in Bezug auf den Kontext aufgedeckt.

AI前线2026-02-09 19:14
Sind die Kernentwickler von OpenAI Codex tatsächlich treue Benutzer von Claude Code geworden?

Calvin French-Owen ist Mitbegründer von Segment, ehemaliger Engineer bei OpenAI und einer der frühen Entwickler des Codex-Projekts. In einem kürzlich erschienenen Podcast hat er die momentan beliebtesten Code-Intelligenzagenten Codex, Claude Code und Cursor scharf beurteilt.

Die Ergebnisse waren überraschend. Der von ihm am häufigsten verwendete und am liebsten bevorzugte Agent ist Claude Code. Er meint, dass es in Kombination mit dem Opus-Modell noch besser funktioniert.

Calvin hat eine bildhafte Metapher verwendet, um die Erfahrung mit Claude Code zu beschreiben:

Es ist wie wenn ein behinderter Mensch ein künstliches Knie bekommt. Die Geschwindigkeit, mit der man Code schreiben kann, steigt um das Fünffache.

Nach seiner Meinung ist die wirkliche Stärke von Claude Code seine äußerst effektive Fähigkeit zur Aufteilung des Kontexts.

Bei komplexen Aufgaben erzeugt Claude Code automatisch mehrere explorative Sub-Intelligenzagenten, die unabhängig den Code-Repository durchsuchen, den Kontext abrufen und anschließend die wichtigen Informationen zusammenfassen und zurückmelden. Diese Designentscheidung reduziert die Störungen im Kontext erheblich und erklärt, warum es in der Lage ist, konsequent hochwertige Ergebnisse zu liefern.

Dennoch hat er auch sein eigenes Produkt gelobt und meint, dass Codex eine starke "Persönlichkeit" hat, ähnlich wie AlphaGo. Bei der Fehlersuche bei komplexen Problemen ist Codex übermenschlich gut. Viele Probleme, die das Opus-Modell nicht lösen kann, kann Codex bewältigen.

"Kontextverwaltung" ist das Schlüsselwort, das Calvin French-Owen in diesem gesamten Podcast immer wieder betont hat.

Er meint, dass der Kontext von Code eine sehr hohe Informationsdichte hat. Wenn man den Suchalgorithmus richtig wählt, versteht das Modell oft leichter als der Mensch die Systemstruktur. Gleichzeitig ist das Kontextfenster selbst auch der größte Engpass für die Entwicklung von Code-Intelligenzagenten.

Als der Moderator das Problem der Kontextverschmutzung erwähnte, sagte er, dass das LLM dümmer würde. Calvin nutzte diese Gelegenheit, um eine sehr praktische Erfahrung zu teilen: Wenn der Token-Gebrauch im Kontext 50 % überschreitet, räumt er ihn automatisch auf.

Er hat sogar eine Methode geteilt, die von Unternehmern häufig verwendet wird, die "Kanarienvogel-Testmethode": Man versteckt im Kontext einige unwichtige, aber überprüfbare Informationen. Sobald das Modell beginnt, diese Informationen zu vergessen, bedeutet das, dass der Kontext verschmutzt ist.

In Bezug auf das Produktkonzept meint Calvin, dass die Unterschiede zwischen Claude Code und Codex bereits in den Genen der beiden Unternehmen liegen:

Anthropic konzentriert sich stärker darauf, "ein AI-Produkt zu entwickeln, das für Menschen geeignet ist".

OpenAI konzentriert sich stärker darauf, "das stärkste AI-Produkt zu entwickeln".

Er meint, dass sich langfristig die Strategie von OpenAI möglicherweise als die notwendige Entwicklung erweisen wird. Aber im Hinblick auf die momentane Benutzererfahrung bevorzugt er Anthropic.

Wenn es um die Zukunft geht, hat Calvin eine klare Einschätzung abgegeben:

Unternehmen werden kleiner, aber es wird mehr von ihnen geben.

Jeder Mensch wird seine eigene Intelligenzagentengruppe haben.

Und zuerst werden die erfahrenen Ingenieure mit einer "Manager-Mentalität" in den Vordergrund gerückt. Sie sind besser darin, Probleme zu zerlegen, Entscheidungen zu treffen und an den richtigen Zeitpunkten Befehle an die Intelligenzagenten zu geben.

Unter diesen Umständen wird die Produktverteilungsmethode wichtiger als je zuvor.

Die Verteilungsmethode von unten nach oben verbreitet sich mit einer bisher nie dagewesenen Geschwindigkeit. Ingenieure warten nicht auf Genehmigungen oder Einkäufe, sondern treffen ihre Entscheidungen einfach über die Nutzung.

Im Gegensatz zu den großen Unternehmen, die Sicherheit, Compliance und Kontrolle sehr wichtig nehmen, kümmern sich die Entwickler immer noch am meisten um die einfachste Bewertung:

"Dieses Ding funktioniert wirklich gut."

Im Folgenden finden Sie die spannenden Details des Podcasts. Es gibt viele wertvolle Tipps für die AI-Programmierung. Wir laden Sie ein, es zu lesen:

Ich bin verrückt nach Claude Code. Es ist einfach unglaublich gut.

Moderator: Calvin French-Owen ist einer der ersten Entwickler des Codex-Codemodells von OpenAI. Vorher gründete er das Unternehmen Segment, das einen Marktwert von mehreren Milliarden Dollar hatte und schließlich von einem renommierten Unternehmen für einen hohen Preis übernommen wurde, wodurch er erfolgreich Kapital umsetzen konnte.

Calvin French-Owen: Ehrlich gesagt ist es für uns alle eine Zeit voller Unsicherheiten. Ich bin in letzter Zeit total in Claude Code verliebt. Um es mit einer Metapher zu beschreiben: Vor zehn Jahren war ich ein Marathonliebhaber und liebte es, zu laufen. Dann habe ich mir aber mein Knie schwer verletzt, und seitdem bin ich in der sogenannten "Manager-Modus". Ich habe seitdem nie wieder Code geschrieben. Das ist wirklich schade.

Aber in den letzten neun Tagen war es, als würde sich eine neue Welt öffnen. Ich habe wieder das Gefühl, wie ich früher Code geschrieben habe. Es ist, als hätte ich ein neues Knie bekommen, und zwar ein künstliches. Ich kann jetzt fünfmal schneller Code schreiben.

Moderator: Was halten Sie von diesem Tool? Sie stehen ja immer an der Spitze dieses Bereichs. Viele Konzepte, die Codex eingeführt hat, werden noch heute von vielen verwendet, und das Modell wird ständig weiterentwickelt.

Calvin French-Owen: Als ich bei OpenAI arbeitete, war ich für das Webprojekt von Codex zuständig. Damals war das Tool Cursor gerade auf den Markt gekommen. Sie hatten eine Anpassungsschicht auf Basis von GPT - 3.5 entwickelt, die man in der IDE verwenden konnte. Claude Code war auch gerade veröffentlicht worden. Es lief auf Basis der CLI. Damals hatten wir die Idee, dass die zukünftige Programmierung eher wie ein Gespräch mit einem Kollegen sein sollte - Sie stellen eine Frage, der andere bearbeitet sie und kommt schließlich mit einem Pull Request zurück. Unser Webprojekt basierte auf dieser Idee und war auch unsere damalige Entwicklungsrichtung.

Im Nachhinein betrachtet war diese Richtung eigentlich richtig. Aber offensichtlich programmieren die Leute jetzt alle mit der CLI. Sowohl Claude Code als auch Codex werden viel häufiger verwendet. Zumindest für mich ist das ein Indiz dafür, dass Sie in gewisser Weise recht haben. Vielleicht wird jeder Mensch in Zukunft ein "Manager" werden. Das ist meine persönliche Meinung. Aber um diesen Zustand zu erreichen, muss man Schritt für Schritt vorgehen. Man muss das Modell wirklich vertrauen und verstehen, wie es funktioniert.

Moderator: Sie haben in letzter Zeit immer Claude Code verwendet. Wie hat sich die Benutzererfahrung verändert, seit Sie es in Ihren Kern - Technologie - Stack aufgenommen haben?

Calvin French-Owen: Claude Code ist jetzt tatsächlich mein Hauptwerkzeug für die tägliche Programmierung. Ehrlich gesagt ändert sich mein Hauptwerkzeug alle paar Monate. Es war eine Zeit, in der ich Cursor besonders gerne verwendet habe. Das neue Modell war sehr schnell und funktionierte wirklich gut. Dann bin ich allmählich zu Claude Code gewechselt, insbesondere wenn ich es in Kombination mit dem Opus - Modell verwende, ist die Erfahrung noch besser.

Claude Code ist ein sehr interessantes Produkt. Ich denke, die Leute unterschätzen seine Fähigkeit, die Produktgestaltung und das Modell aufeinander abzustimmen. Wenn Sie sich näher damit beschäftigen, werden Sie feststellen, dass die stärkste Seite von Claude Code seine Fähigkeit zur Aufteilung des Kontexts ist.

Wenn Sie beispielsweise Funktionen aufrufen und Sub - Intelligenzagenten zusammenarbeiten lassen müssen, und Sie geben Claude Code einen bestimmten Auftrag, erzeugt es normalerweise einen oder mehrere explorative Sub - Intelligenzagenten. Diese Sub - Intelligenzagenten durchsuchen das gesamte Dateisystem mit dem ripgrep - Tool, um die relevanten Inhalte zu finden, und jeder Sub - Intelligenzagent hat ein eigenes Kontextfenster (context window).

Ich denke, dass Anthropic in dieser Hinsicht besonders gut abgeschnitten hat - Bei einem Auftrag kann das Modell genau feststellen, ob der Auftrag in einem einzelnen Kontextfenster (context window) erledigt werden kann oder ob er aufgeteilt werden muss. Die Leistung des Modells in dieser Hinsicht ist erstaunlich und der Schlüssel für die Qualität der Ergebnisse.

Noch interessanter ist, dass Claude Code, dank seiner Terminal - basierten Funktionsweise, die purest Form der kompatiblen atomaren Integration darstellt. Wenn Sie an der Entwicklung von IDEs gewöhnt sind, wie Cursor oder die frühe Version von Codex, werden Sie feststellen, dass diese flexiblere Kontextsuche nicht so einfach zu implementieren ist.

Moderator: Das ist wirklich einzigartig. Ich bin persönlich sehr überrascht. Ich weiß nicht, ob Sie das auch spüren, aber es gibt eine Art retro - zukünftiges Gefühl. Die CLI - Technologie aus vor zwanzig Jahren hat anscheinend alle erwarteten IDEs geschlagen.

Calvin French-Owen: Ich stimme völlig zu. Und es ist wichtig zu beachten, dass Claude Code keine IDE ist. Das erlaubt es Ihnen, einen gewissen Abstand zu dem Code zu halten, den Sie gerade schreiben. Die Kernfunktion einer IDE ist es, Dateien zu durchsuchen, richtig? Sie müssen alle Codezustände im Kopf behalten und die Logik verstehen. Aber die CLI ist völlig anders. Das gibt ihr viel mehr Spielraum bei der Gestaltung der Benutzererfahrung.

Ich weiß nicht, ob Sie das auch spüren, aber wenn ich mit Claude Code arbeite, habe ich das Gefühl, als würde ich im Code "fliegen". Alle Operationen sind so reibungslos. Auf der Oberfläche gibt es kleine Fortschrittsanzeigen, die mir ständig den Status melden, und der eigentliche Code steht nicht im Mittelpunkt des visuellen Fokus.

Die Entwicklungsumgebung ist sowieso sehr unübersichtlich. Ich mag die Konzeptionelle Einfachheit des Sandbox - Konzepts sehr gerne. Aber in der Praxis habe ich viele Probleme bekommen. Beispielsweise konnte ich selbst einfache Tests nicht ausführen: Der Sandbox musste auf die PostgreSQL - Datenbank zugreifen, aber die Verbindung schlug immer fehl. Meine codex.md - Datei hatte nur zwanzig Zeilen, aber ich konnte sie nicht ausführen.

Aber in der CLI kann das Tool direkt auf die Entwicklungsdatenbank zugreifen. Ich weiß nicht, ob das legal ist, aber ich habe es tatsächlich versucht, dass es auf die Produktionsdatenbank zugreift und einige Operationen ausführt, und es hat tatsächlich funktioniert. Beispielsweise hatte ich einmal ein Problem mit der Parallelverarbeitung und wollte es untersuchen. Ich war überrascht, dass das Tool in der Lage war, das Problem in einem fünfmal verschachtelten verzögerten Task zu finden und automatisch Testfälle zu schreiben. Danach ist das Problem nie wieder aufgetreten. Das ist einfach unglaublich.

Moderator: Ja, ich stimme zu. Und ich denke, dass die Verbreitung und die Zugänglichkeit des Produkts stark unterschätzt werden. Denken Sie an Cursor, Claude Code und die Befehlszeilenversion von Codex. Sie können einfach herunterladen und verwenden, ohne irgendeine Genehmigung von der Firma zu benötigen. Der Unterschied in der Benutzererfahrung ist enorm.

Die richtige Kontextverwaltung ist der Schlüssel zum erfolgreichen Einsatz von Spitzenmodellen

Moderator: Sie haben viel Erfahrung in der Entwicklung von Code - Intelligenzagenten. Welche Tipps können Sie für diejenigen geben, die solche Tools entwickeln möchten? Welche praktischen Erfahrungen können Sie teilen?

Calvin French-Owen: Ich denke, dass die wichtigste Sache die Kontextverwaltung ist.

Damals haben wir für ein Inferenzmodell Checkpoints erstellt und dann auf Basis von Reinforcement Learning (RL) eine Vielzahl von Feinabstimmungen vorgenommen: Wir haben dem Modell verschiedene programmierungstechnische Aufgaben zugewiesen, wie das Lösen von Programmierproblemen, das Reparieren von Testfällen und die Implementierung neuer Funktionen. Dann haben wir das Modell mit Reinforcement Learning trainiert, um es zu lehren, wie es diese Aufgaben präziser bewältigen kann. Natürlich können die meisten Menschen derzeit noch nicht so weit gehen, aber was jeder tun kann, ist, darüber nachzudenken, welche Kontextinformationen man dem Intelligenzagenten geben sollte, um die besten Ergebnisse zu erzielen.

Beispielsweise beobachten Sie, wie Claude Code arbeitet. Es erzeugt mehrere explorative Sub - Intelligenzagenten, die das Dateisystem nach verschiedenen codebezogenen Inhalten durchsuchen. Nachdem sie fertig sind, bringen sie die Kontextinformationen zurück und fassen sie für mich zusammen. So weiß ich, wie ich weiter vorgehen soll.

Es ist sehr interessant, die Art und Weise zu beobachten, wie verschiedene Intelligenzagenten den Kontext aufbauen. Beispielsweise verwendet Cursor die semantische Suche. Es wandelt alle Inhalte in Vektoren um und sucht dann nach den Inhalten, die am besten zu der Abfrage passen. Codex und Claude Code verwenden dagegen das ripgrep - Codesuchtool. Diese Methode funktioniert, weil der Code eine sehr hohe Informationsdichte im Kontext hat. Eine Codezeile hat normalerweise weniger als 80 Zeichen, und es gibt in einem Code - Repository nicht viele große Datenblöcke oder JSON - Dateien. Selbst wenn es welche gibt, sind es nur sehr wenige.

Sie können die Ignorierregeln von Git (Codeversionsverwaltungstool) verwenden, um irrelevante Inhalte oder gepackte Dateien zu filtern. Dann können Sie mit Git und ripgrep den Kontext des Codes suchen, um die tatsächliche Funktion des Codes zu verstehen. Gleichzeitig können diese Tools automatisch die gesamte Ordnerstruktur scannen, und die LLM (Large Language Model) sind besonders gut darin, komplexe Git - Befehle zu generieren. Es wäre für einen Menschen eine Qual, diese Befehle manuell zu schreiben. Und diese gesamte Operation ist eigentlich die Umsetzung von Reinforcement Learning (RL) in der Praxis.

Ich arbeite jetzt auch an einem Intelligenzagenten - Integrationssystem für nicht - programmierende Bereiche. Ich habe aus der Entwicklung von Code - Intelligenzagenten viel gelernt: Man muss die Daten in ein Format bringen, das dem Code ähnelt, damit das Modell schnell die relevanten Umgebungsinformationen abrufen und strukturierte, effektive Daten erhalten kann.

Moderator: Die Kernfähigkeit eines ausgezeichneten Code - Intelligenzagenten ist die Kontext - Engineering. Welche Tipps gibt es, um zu den besten 1 % der Benutzer solcher Tools zu gehören? Welches Technologie - Stack verwenden Sie? Wie verbessern Sie Ihre Effizienz mit diesen Tools?

Calvin French-Owen: Der erste Tipp ist, die Schreibarbeit für die untere Ebene des Codes und die Infrastruktur so gering wie möglich zu halten.

Ich deploye normalerweise meinen Technologie - Stack auf Plattformen wie Vercel, Next.js oder Cloudflare Workers. Diese Plattformen haben bereits eine Vielzahl von Vorlagen - Code, so dass man sich nicht um die Einrichtung von verschiedenen Diensten kümmern muss, auch nicht um die Service Discovery, die Registrierung von zentralen Endpunkten oder die