Chen Deli von DeepSeek hat gerade zusammen mit zwei KI ein Papier geschrieben

Eine 46-seitige Dissertation, 99% davon wurde von Agent geschrieben.

„Mit CodeAgent kann ich endlich viele Dinge wieder aufgreifen, die ich aufgrund mangelnder Energie früher aufgeschoben hatte. Das Schreiben von Blogs ist eines davon. Etwa 1 % dieses Blogs habe ich selbst geschrieben, 99 % hat der Agent geschrieben 😂.“

Kürzlich hat der DeepSeek-Forscher Deli Chen auf X einen Artikel geteilt, an dem ein AI-Agent intensiv beteiligt war: „From Copilots to Colleagues: A Survey of Autonomous Research Agents“.

Artikeladresse: https://victorchen96.github.io/auto_research_survey.pdf

Deli Chen hat auch besonders darauf hingewiesen, dass dieser Artikel eher ein aus Interesse getriebener Versuch war: Einerseits war es für Spaß, andererseits war es auch ein Test seiner selbst entwickelten Fähigkeit DeliAutoResearch. Daher ist es nicht streng genommen eine akademische Studie, und die Ansichten im Artikel repräsentieren nur die persönlichen Ansichten und keine Position einer Firma oder Organisation.

Diese Studie hat insgesamt 6 Iterationen durchlaufen (V1: 4 Iterationen, V2: 1 Iteration, V3: 1 Iteration). Der erste Entwurf von V1 hat 76 Minuten gedauert, und die gesamte Bearbeitungszeit betrug 6 Tage. Es gab ungefähr 108 Agent-Interaktionen, und es wurden etwa 648.000 Tokens verbraucht. Das LaTeX-Dokument umfasst 2234 Zeilen.

Es gibt 103 Referenzen, alle wurden überprüft. Die Seitenzahl ist von 45 auf 46 gestiegen. Es enthält 7 Abbildungen und 4 Tabellen. Jetzt hat die Studie insgesamt 46 Seiten, und die Dateigröße beträgt 538 KB. 😂

Nach Fertigstellung dieses Artikels hat Deli Chen eine ziemlich interessante Einschätzung abgegeben, die er als persönliche Übertreibung beschreibt: Code-Agenten lassen die Anzahl der Informatikstudien wahnsinnig ansteigen – früher hätte die gleiche Arbeit mindestens einen Monat gedauert.

Deli Chen hat angegeben, dass die echte geistige Arbeit („Gesamt-CPU-Zeit“) in diesem Prozess: weniger als 2 Stunden betrug.

Eine kurze Einführung: Der erste Autor, Deli Chen, kommt von DeepSeek und ist einer der Kernbeitragenden zu den Architekturen von V1, V2, V3, V4, R1, DeepSeek-Coder und DeepSeek-MoE. Er hat auch auf der Welt-Internet-Konferenz im Namen von DeepSeek gesprochen.

Blogadresse: https://victorchen96.github.io/

Die anderen beiden „Mitarbeiter“ sind DeepSeek-V4-Pro und GPT-Image2 – ersterer ist für den Text, letzterer für die Bilder zuständig.

Das heißt, diese Studie ist im Wesentlichen eine von Deli Chen mit KI geschriebene Übersicht über die Verwendung von KI in der Forschung. Diese Einstellung ist auch ein wichtiges Experiment: Deli Chen hat ein autonomes Forschungsskript genannt Deli AutoResearch SKILL entwickelt, und ein Teil dieses 45-seitigen Artikels wurde mit ihm erstellt. Darüber hinaus hat er in der Studie erklärt, dass diese Übersicht im Namen eines „persönlichen Forschungsprojekts“ veröffentlicht wurde und die Ansichten nicht die Position einer Firma repräsentieren.

Der Forscher selbst wird zum Forschungsgegenstand. Was bedeutet das? Der Rest der Studie wird das langsam klar machen.

Die Übersicht umfasst über 95 Studien und analysiert systematisch 17 führende Systeme. Sie versucht, zum ersten Mal eine klare Karte für ein chaotisch wachsendes Feld zu zeichnen. Dieses Feld heißt „Autonomous Research Agents“: Man gibt der KI ein Forschungsziel, und sie kann den gesamten Zyklus von der Hypothesenstellung über das Experimentdesign, die Codeausführung, die Ergebnisanalyse bis hin zur Studienverfassung unabhängig durchführen, ohne dass der Mensch bei jedem Schritt genehmigen muss.

Dies ist keine bloße Vorstellung. In den letzten 18 Monaten ist der Anteil, in dem KI echte GitHub-Probleme löst, auf der SWE-bench-Benchmark, die die Softwareentwicklungskompetenz misst, von weniger als 5 % auf über 70 % gestiegen; es gibt Systeme, die vollständige akademische Studien mit einem Kostenaufwand von 15 US-Dollar pro Studie produzieren und die menschliche Vorprüfung bestehen; es gibt auch Systeme, die ohne menschliche Führung neue mathematische Strukturen jenseits des bisher Bekannten entdecken.

KI wird von einem „Forschungsinstrument“ zum „Forscher“ selbst, und die Geschwindigkeit ist schneller als alle erwartet haben.

Hintergrund: „Copilot“ oder „Kollege“?

Um die Bedeutung dieser Veränderung zu verstehen, stellen Sie sich zunächst einen traditionellen Forschungsassistenten vor: Geben Sie ihm ein Thema, und er kann Ihnen helfen, Literatur zu recherchieren, Tabellen zu erstellen und Code auszuführen. Aber Sie müssen ihm sagen, wie er jeden Schritt ausführen soll, und wenn er auf ein Problem stößt, wartet er auf Ihre Anweisungen. Er denkt nicht aktiv darüber nach, „was als nächstes wertvoller zu forschen wäre“.

Dies war die Rolle, die KI in den letzten Jahren spielte – der Copilot. Das Lenkrad lag immer in menschlichen Händen.

Was jetzt passiert, ist ein „Experiment zur Machtübergabe“. Neue Generationen von Agentensystemen versuchen, den gesamten Forschungsprozess unabhängig durchzuführen: Hypothesen stellen, Experimente entwerfen, Code ausführen, Ergebnisse analysieren, Berichte verfassen und sogar selbst zu überprüfen und zu verbessern. Vom Anfang bis zum Ende muss der Mensch bei keinem Schritt genehmigen.

Wie schnell geschieht diese Veränderung? Die Forscher beschreiben sie als „schnell und entscheidend“: In nur 18 Monaten hat sich die KI von einem Werkzeug zu einem Kollegen entwickelt.

Aber die Bedeutung von „Kollegen“ variiert stark. Einige Systeme können nur einen Code ausführen, ohne dass es zu Fehlern kommt; andere können in einem Robotiklabor Verbindungen selbst synthetisieren. Um Ordnung in dieses chaotische Feld zu bringen, benötigt man eine einheitliche Sprache. Dies ist der Kernbeitrag dieser Übersicht.

Hauptergebnis 1: Ein Fünfstufen-System zur Klassifizierung des Autonomiegrads

Der wichtigste Beitrag dieser Übersicht ist die Einführung eines Autonomieklassifizierungssystems von L1 bis L5, das sich an den SAE-Standard für die Fahrerassistenz in Kraftfahrzeugen anlehnt:

L1 (Automatische Vervollständigung) ist der am häufigsten auftretende Zustand. GitHub Copilot und verschiedene Code-Vervollständigungs-Tools fallen in diese Kategorie. Die KI prognostiziert die nächste Codezeile, aber Sie bestimmen die Richtung. Die Produktivität steigt um etwa 30 % bis 55 %, aber es fehlt an Autonomie.

L2 (Aufgabenausführung) ist die Ebene, auf der die meisten Menschen täglich mit ChatGPT und Claude interagieren. Die KI kann Aufgaben aufteilen und Tools nutzen, aber Sie müssen bei jedem Schritt zustimmen. Sie sind der Strategieentscheider, und die KI ist der Ausführende.

L3 (Mehrschritt-Autonomie mit Kontrollpunkten) ist die Position der derzeitigen führenden „Agenten-Programmier-Tools“ – Claude Code und Cursor Agent gehören zu dieser Ebene. Die KI kann unabhängig mehrere Schritte ausführen, bis sie an einem festgelegten Kontrollpunkt ankommt. Erst dann sucht sie Sie auf, um Bestätigung zu erhalten. Der Mensch behält die strategische Überwachung bei, muss aber nicht jedes Detail überprüfen.

L4 (End-to-End-Vollautomatik) ist die aktuelle technologische Spitze. Devin, SWE-Agent und AI Scientist befinden sich hier. Geben Sie der KI ein Forschungsziel, und sie kann unabhängig mehrere Stunden oder sogar Tage lang arbeiten und ein vollständiges Ergebnis liefern. Sie müssen nur am Ende das Ergebnis bewerten. Von den 17 analysierten Hauptsystemen in der Übersicht erreichen die besten alle L4.

L5 (Autonomes Festlegen des Forschungsagendas) ist derzeit noch eine „Vision“. Ein System auf dieser Ebene kann nicht nur Forschung betreiben, sondern auch selbst entscheiden, welche Fragen zu forschen sind, Ressourcen zuweisen und über Wochen oder Monate hinweg kontinuierlich Wissen sammeln. Kein bestehendes System hat L5 vollständig erreicht, aber es gibt bereits erste Anzeichen: Googles Co-Scientist hat teilweise die Fähigkeit, Hypothesen autonom zu generieren, und DeepMinds FunSearch hat durch iteratives Programmieren echte mathematische Neuerungen entdeckt.

Dieses Klassifizierungssystem zeigt einen klaren Entwicklungspfad auf: Vom „Helfer“ zum „Denker“ und welche technologischen Hürden zwischen den einzelnen Stufen liegen.

Hauptergebnis 2: Stärken und Schwächen von vier Architekturmodellen

Es reicht nicht aus, zu wissen, „wie autonom ein System ist“. Man muss auch verstehen, „wie es das schafft“. Die Übersicht fasst die derzeitigen vier gängigen Agentenarchitekturen zusammen.

Einfacher Agentenzyklus ist die einfachste Form: Ein Modell wiederholt „Planen – Handeln – Beobachten – Reflektieren“. Es ist wie ein einzelner Forscher, der nach Überlegung loslegt und die Ergebnisse zur Anpassung nutzt. Der Vorteil ist die Einfachheit und Kontrollierbarkeit, der Nachteil ist, dass es bei komplexen Aufgaben schnell an seine Grenzen stößt. Es ist wie ein Mensch, der alle Aufgaben gleichzeitig erledigt, und seine Kraft und Aufmerksamkeit reichen nicht aus.

Mehrere Agenten in Zusammenarbeit entspricht der Gründung eines Teams. Verschiedene Agenten übernehmen verschiedene Rollen und überprüfen und ergänzen einander. MetaGPT geht noch einen Schritt weiter: Es codiert den Standardarbeitsablauf (SOP) in die Zusammenarbeit mehrerer Agenten, wie in einer Softwarefirma, wo Produktmanager, Architekten, Ingenieure und Tester ihre Aufgaben erfüllen und über standardisierte Dokumente kommunizieren, anstatt frei zu plaudern. Das Ergebnis ist, dass die Aufgabenabschließungsrate von 67 % auf 100 % gestiegen ist.

Ebenenordnung ist die technische Umsetzung des „Manager – Ausführender“-Modells. Ein oberer Agent teilt das Ziel auf und verteilt die Aufgaben, und mehrere spezialisierte Unteragenten sind für die Ausführung und die Berichterstattung über die Ergebnisse verantwortlich. Claude Code nutzt diese Architektur: Der Hauptagent behält den Gesamtzustand und die strategische Planung im Auge. Bei spezifischen Aufgaben wie Dateibearbeitung oder Web-Suche schickt er Unteragenten aus, um diese Aufgaben unabhängig zu erledigen, um die Hauptentscheidungen nicht

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade hat Chen Deli von DeepSeek zusammen mit zwei KI ein Papier geschrieben.

Hintergrund: „Copilot“ oder „Kollege“?

Hauptergebnis 1: Ein Fünfstufen-System zur Klassifizierung des Autonomiegrads

Hauptergebnis 2: Stärken und Schwächen von vier Architekturmodellen