AI gewinnt erstmals gegen menschliche Doktoren: Papers aus Top - Konferenzen in Code umgewandelt! 90er aus Hongkonger Uni holt 8.000 Stars auf GitHub mit Open - Source

Das von der Gruppe von Huang Chao der Universität Hongkong open - source veröffentlichte DeepCode hat im Bereich des "Codes zur Wiederholung von wissenschaftlichen Artikeln" erstmals im PaperBench - Test die Maschinenlern - Doktoranden von 8 Spitzenuniversitäten wie Cambridge und Berkeley übertroffen und auch fortschrittliche kommerzielle Code - Agenten wie Claude Code und Cursor hinter sich gelassen.

Im Bereich der Künstlichen Intelligenz tragen wissenschaftliche Artikel oft die neuesten Brüche in Algorithmen, Modellarchitekturen usw.

Aber es ist oft eine große Herausforderung, das Kernwissen eines Artikels wirklich zu verstehen und die darin enthaltenen Algorithmen und Experimentergebnisse erfolgreich zu reproduzieren.

Das Hauptproblem liegt in der fehlenden „Schlüsselimplementierungsdetails“!

In der Realität abstrahieren die Autoren von Artikeln normalerweise die komplexe Algorithmuslogik auf einige mathematische Formeln und lassen die Kern Details weg, die wirklich den Erfolg oder Misserfolg beeinflussen, wie:

Der konkrete Wertebereich von Hyperparametern, die geschickten Anpassungen während des Trainings, die detaillierten Schritte der Datenvorverarbeitung, die Netzwerkinitialisierungsstrategie usw.

Es ist jedoch die fehlenden Schlüsselimplementierungspunkte, die die große Kluft zwischen Theorie und Praxis verursachen.

Selbst erfahrene Forscher wissen oft nicht, was sie tun sollen.

Wie kann man das Problem lösen?

Neulich hat das Team von Professor Huang Chao der Universität Hongkong das DeepCode open - source gemacht, das ein starkes KI - Werkzeug für die Lösung dieses Problems bietet.

Es kann nicht nur den Inhalt des Artikels analysieren und die Algorithmuslogik verstehen, sondern auch automatisch ausführbaren Code generieren.

In den Benchmark - Tests hat DeepCode sich in Bezug auf die Reproduktionserfolgsrate und die Codequalität hervorragend bewährt und in mehreren Indikatoren die Maschinenlern - Doktoranden von Spitzuniversitäten übertroffen.

Seit der Veröffentlichung der ersten Version von DeepCode - DeepCode v1.0.0 im Juli dieses Jahres hat es viel Aufmerksamkeit erregt und die Spitze der GitHub - Trending - Liste erreicht, sowie fast 8.000 Sternchen erhalten (Stand 1. November).

Open - Source - Link: https://github.com/HKUDS/DeepCode

Überlegenheit in vier Benchmark - Tests

Die Forscher haben DeepCode in folgenden vier Benchmark - Tests verglichen:

Menschliche Experten;

Die neuesten kommerziellen Code - Intelligenzagenten;

Wissenschaftliche Code - Intelligenzagenten;

Intelligenzagenten auf Basis von großen Modellen.

Die Ergebnisse zeigen, dass DeepCode in allen Tests die höchsten Punktzahlen erzielt hat.

Erster Übertritt über menschliche Experten: 75,9 % vs 72,4 %

Im PaperBench - Benchmark - Test von OpenAI hat DeepCode eine Gesamtgenauigkeit von 75,9 % erreicht und damit die 72,4 % der beteiligten Gruppe von menschlichen Experten übertroffen.

Die Spezifikationen des PaperBench - Benchmark - Tests sind wie folgt:

Datenquellen: Standardisierte Bewertungsmaße, die von OpenAI offiziell veröffentlicht wurden;

Aufgabenumfang: Vollständige Reproduktion von 20 Artikeln der ICML2024 - Konferenz;

Bewertungsdimensionen: 8316 unabhängige bewertbare Komponenten;

Bewertungsmechanismus: Das SimpleJudge - hierarchische gewichtete Bewertungssystem;

Aufgabenkomplexität: End - to - End - Implementierung vom Artikeltext bis zum ausführbaren Code.

Um die wissenschaftliche Strenge des Experiments sicherzustellen, hat das Forschungs - Team auch eine hochwertige Basislinie für menschliche Experten erstellt.

Zunächst gibt es strenge Qualifikationskriterien für menschliche Experten.

Diese Experten sind alle Maschinenlern - Doktoranden (aktuelle Doktoranden oder bereits promovierte Personen) von 8 Spitzenforschungseinrichtungen.

Die 8 Universitäten sind UC Berkeley, Cambridge, CMU, Columbia, Cornell, Purdue, TU Wien, UMass Amherst.

Darüber hinaus hat das Forschungs - Team einen strengen Auswahlprozess für menschliche Experten angewandt:

Zunächst wird eine Vorselektion anhand des Lebenslaufs und eine Überprüfung des akademischen Hintergrunds durchgeführt;

Danach wird ein standardisierter Test auf theoretisches Wissen in der Maschinenlernen durchgeführt;

Dann wird die Fähigkeit in der Git - Versionskontrolle und der Softwareentwicklungspraxis bewertet;

Schließlich wird die vollständige Fähigkeitskette des Kandidaten in der Artikellreproduktionsaufgabe überprüft.

Der obige Auswahlprozess stellt sicher, dass alle Teilnehmer die Fähigkeit von der theoretischen Verständnis bis zur Codeimplementierung haben.

Die Konfiguration der Experimentumgebung ist wie folgt:

Rechenressourcen: Standardkonfiguration der NVIDIA A10 GPU, teilweise Verwendung von A100;

Entwicklungszeit: Elastische Entwicklungszeit von 4 Wochen;

Toolberechtigungen: Uneingeschränkte Nutzung kommerzieller KI - Helfer wie ChatGPT, GitHub Copilot;

Versuchsmechanismus: 3 unabhängige Reproduktionsversuche pro Artikel, die best@3 - Bewertungsstrategie wird angewandt.

Die obigen Experimentergebnisse beweisen ausführlich:

Bei komplexen Aufgaben, die tiefes Verständnis und langfristige Entwicklung erfordern, kann DeepCode auch dann, wenn menschliche Experten alle Arten von KI - Hilfsmitteln nutzen können, ein höheres Niveau in Bezug auf Codequalität und Genauigkeit erreichen.

Dies zeigt, dass DeepCode nicht nur die Fähigkeit von Experten in der Codewiederholung erreicht, sondern auch übertrifft, und es bedeutet auch einen wichtigen Meilenstein im Bereich der autonomen wissenschaftlichen Softwareentwicklung.

Überlegenheit gegenüber bestehenden AI - Coding - Lösungen: 84,8 % vs 58,7 %

An demselben Benchmark haben die Forscher 5 Artikel aus 20 Artikel zufällig ausgewählt und DeepCode mit den derzeitigen kommerziellen Code - Intelligenzagenten in einer systematischen Leistungskontrolle verglichen.

Bei der Bewertung hat DeepCode einen deutlichen Vorsprung gezeigt:

DeepCode hat 84,8 % erreicht und hat Claude Code (58,7 %) um etwa 26,1 Prozentsätze übertroffen.

Um die Fairness und Autorität des Tests sicherzustellen, sind alle kommerziellen Code - Intelligenzagenten in der Bewertung mit den derzeit neuesten Basismodellen ausgestattet: Claude 4.5 Sonnet - think und GPT 5 codex - high.

Die Ergebnisse deuten darauf hin, dass die Leistungsdifferenz hauptsächlich von der Architekturgestaltung von Multi - Agenten kommt, nicht von der bloßen Differenz der Basismodelle.

Darüber hinaus hat DeepCode auch in den beiden Bewertungen für wissenschaftliche Code - Intelligenzagenten und Intelligenzagenten auf Basis von großen Modellen die Spitze behalten:

Im Vergleich mit dem derzeit neuesten wissenschaftlichen Code - Reproduktionsframework PaperCoder (51,1 %) hat DeepCode eine Reproduktionsrate von 73,5 % erreicht, was eine Steigerung von 22,4 Prozentsätzen bedeutet.

Diese deutliche Steigerung bestätigt, dass die Multi - Modul - Architektur des Forschungs - Teams, die Planung, hierarchische Aufgabenzerlegung, Codegenerierung und iterative Fehlersuche kombiniert, besser ist als die einfacheren Methoden auf Basis von Pipelines.

Im Vergleich mit dem leistungsstärksten Intelligenzagenten auf Basis von großen Modellen (43,3 %) hat DeepCode (73,5 %) eine Steigerung von 30,2 Prozentsätzen erreicht.

Dies zeigt, dass für komplexe Code - Reproduktionsaufgaben ein komplexer Agentenrahmen (anstatt eine längere Inferenzzeit oder ein größeres Modell) von entscheidender Bedeutung ist.

Die drei Kernfähigkeiten von DeepCode

Paper2Code (Artikel → Code)

Eingabe: PDF - Dokument eines wissenschaftlichen Artikels;

Ausgabe: Produktionsreife Codeimplementierung + vollständige Testsuite + detaillierte technische Dokumentation.

Der Kernvorteil von DeepCode liegt darin, dass es automatisch komplexe mathematische Formeln analysieren, die Algorithmuslogik verstehen und ausführbaren hochwertigen Code generieren kann, was den Forschern helfen kann, SOTA - Algorithmen schnell zu reproduzieren, theoretische Innovationen zu validieren und die Forschungsfortschritte zu beschleunigen usw.

Text2Web: (Idee → Webseite)

Eingabe: Natürliche Sprachbeschreibung der Schnittstellenanforderungen und Funktionserwartungen;

Ausgabe: Reaktionsfähige Frontend - Seite + moderne UI - Gestaltung + vollständige Interaktionslogik.

DeepCode kann die Absicht des Benutzers intelligent verstehen, automatisch an Mobilgeräte anpassen und Schnittstellen generieren, die den Gestaltungsstandards entsprechen, und eignet sich für Szenarien wie schnelle Prototypenvalidierung, MVP - Produktentwicklung, Umsetzung von Geschäftsideen usw.

Text2Backend: (Anforderung → Dienst)

Eingabe: Beschreibung der Backend - Funktionsanforderungen und Geschäftslogik;

Ausgabe: Hochleistungs - API - Schnittstellen + optimierte Datenbankgestaltung + erweiterbare Systemarchitektur.

DeepCode kann automatisch den besten Technologiestack auswählen, Leistung und Sicherheit berücksichtigt werden und die Cloud - native Bereitstellung unterstützt, was sich für die schnelle Entwicklung von Microservices, die Umgestaltung von Legacy - Systemen, die digitale Transformation von Unternehmen usw. eignet.

Das Kern - Technologie - Framework von DeepCode

DeepCode verwendet ein systematisches Dreiphasen - Framework, das die komplexe Codegenerierungsaufgabe in drei Schritte aufteilt: Architekturplanung, Codeimplementierung und automatische Validierung, und erreicht die automatische Umwandlung von Dokumenten in ausführbaren Code durch die Zusammenarbeit von Multi - Agenten.

Phase 1: Architekturplanung

In dieser Phase werden die langwierigen Dokumentvorgaben in eine strukturierte Architekturpläne umgewandelt, und die Herausforderungen beim Verständnis von langen Dokumenten werden durch drei Schlüsselsschritte gelöst: Hierarchische Inhaltsaufteilung, tiefgreifende Analyse durch Multi - Agenten und Fusion der Architekturpläne.

Bei der tiefgreifenden Analyse durch Multi - Agenten werden zwei spezialisierte Agenten, der Konzept - Agent und der Algorithmus - Agent, parallel eingesetzt, um verschiedene Dimensionen des Dokuments tiefgreifend zu analysieren, um sowohl einen globalen Überblick als auch die detaillierten Implementierungsdetails sicherzustellen.

Der Codeplanungs - Agent fusioniert die tiefgreifenden Ausgaben der beiden Analyseagenten, koordiniert die hochrangige Architektur und die untergeordneten Vorgaben und löst potenzielle Inkonsistenzen.

Durch den intelligenten Fusionsprozess wird schließlich ein vollständiger Architekturplan generiert, der eine detaillierte Anleitung für die nachfolgende Codegenerierung bietet.

Phase 2: Automatisierte Codeerstellung

In dieser Phase wird auf der Grundlage des fertiggestellten Architekturplans ein systematisches Aufbau des Code - Repositories durchgeführt, und die Kernherausforderungen bei der Aufrechterhaltung der Konsistenz zwischen Dateien und dem Fehlen von Domänenwissen in großen Code - Bibliotheken werden durch ein doppelter Mechanismusentwurf gelöst.

Phase 3: Dynamische Validierung und Optimierung

In dieser Phase wird ein mehrstufiges Qualitätssicherungssystem aufgebaut, und durch einen doppelten Validierungsmechanismus aus statischer Analyse und dynamischer Ausführung wird die vollständige Sicherung des Codes von der strukturellen Vollständigkeit bis zur funktionalen Richtigkeit erreicht, und ein sich selbst verbessernder geschlossener Rückkopplungskreis wird gebildet.

Herausforderungen und Überlegungen bei AI - Coding

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

AI gewinnt erstmals gegen menschliche Doktoren, verwandelt Papers aus Top-Konferenzen in Code, und ein 90er aus der Universität Hongkong macht mit seinem Open-Source-Projekt 8.000 Stars auf GitHub.