StartseiteArtikel

Krebse können auch Krebse züchten. Die Universität von Kalifornien, San Diego (UCSD) hat den Agenten AIBuildAI veröffentlicht, der an erster Stelle in der MLE-Bench-Liste steht.

新智元2026-03-24 12:17
Die Universität Kalifornien, San Diego (UCSD) hat AIBuildAI vorgestellt, das mit natürlicher Sprache automatisch KI-Modelle erstellt, und hat bei MLE-Bench gewonnen.

Das Team der UCSD hat den Agenten AIBuildAI vorgestellt. Ohne Programmierung, sondern nur durch die Beschreibung der Aufgabe in natürlicher Sprache, kann er automatisch AI-Modelle entwerfen, codieren, trainieren, die Parameter einstellen und optimieren. Durch die Zusammenarbeit in verschiedenen Rollen kann er den gesamten AI-Entwicklungsprozess von Anfang bis Ende abwickeln. Im OpenAI MLE-Bench-Test belegte AIBuildAI mit einer Gewinnquote von 63,1% den ersten Platz. Seine Leistung ist mit der von menschlichen Experten vergleichbar und treibt die AI-Entwicklung in eine neue Ära der Vollautomatisierung voran.

In letzter Zeit hat das Forschungsunternehmen der Universität von Kalifornien, San Diego (UCSD), den Agenten AIBuildAI entwickelt, der AI-Modelle vollautomatisch erstellen kann (einschließlich Modellentwurf, Codeimplementierung, Modelltraining, Parametereinstellung, Leistungsbewertung und iterative Optimierung). Die Teammitglieder sind der Doktorand Ruiyi Zhang, Peijia Qin, Qi Cao, Li Zhang sowie der Dozent Pengtao Xie der Universität.

Die Entwicklung eines leistungsstarken AI-Modells ist sehr zeit- und arbeitsaufwändig. Ingenieure müssen wiederholt Modelle entwerfen, Code schreiben, um die Modelle umzusetzen, Trainingsabläufe aufbauen, Hyperparameter suchen und die Modelle basierend auf den Experimentergebnissen iterativ optimieren.

Dieser Prozess hängt stark von Fachwissen ab und verursacht hohe Personalkosten. Er ist auch sehr zeitintensiv.

Um dieses Problem zu lösen, hat das Forschungsunternehmen der UCSD den Agenten AIBuildAI entwickelt, der als virtueller AI-Ingenieur oder AI-Wissenschaftler fungiert und AI-Modelle vollautomatisch erstellt. Benutzer müssen nicht programmieren, sondern nur die Aufgabe in natürlicher Sprache beschreiben. AIBuildAI entwirft dann automatisch das Modell, schreibt den Code, um es umzusetzen, trainiert das Modell, passt die Hyperparameter an, bewertet die Modellleistung und optimiert das Modell iterativ basierend auf den Experimentergebnissen.

Projektadresse: https://github.com/aibuildai/AI-Build-AI

Publikationslink: https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

Ergebnisse des OpenAI MLE-Bench-Tests: https://github.com/openai/mle-bench/pull/126

AIBuildAI belegte auf 75 Aufgaben des OpenAI MLE-Bench-Benchmarks mit einer Gewinnquote von 63,1% den ersten Platz. Seine Leistung ist mit der von erfahrenen AI-Ingenieuren vergleichbar und ermöglicht die End-to-End-Automatisierung vom Aufgabenbeschrieb bis zum einsetzbaren Modell.

Die Idee hinter der Gestaltung von AIBuildAI stammt aus dem Arbeitsablauf echter AI-Forschungsunternehmen. In einem typischen AI-Projekt plant der Projektleiter mehrere parallele Forschungsrichtungen, die Forscher entwickeln Modellierungsstrategien, die Ingenieure implementieren die Trainingsabläufe, und der Projektleiter überprüft die Ergebnisse regelmäßig und verteilt die Ressourcen. AIBuildAI abstrahiert diesen Arbeitsablauf in einen Multi-Agenten-Suchprozess: Der gesamte Entwicklungsprozess wird in mehrere spezialisierte Agenten aufgeteilt, die zusammenarbeiten, und wird von einem zentralen Manager koordiniert.

Technischer Kern

Manager-Agent

Er spielt die Rolle des Projektleiters und schreibt während des gesamten Prozesses keine Code oder führt Trainingsaufgaben aus. Stattdessen trifft er seine Entscheidungen, indem er die Experimentiergebnisse auf der Festplatte liest. Er wechselt zwischen zwei Modi: Im Koordinierungsmodus entscheidet er, welcher Unter-Agent als nächstes aufgerufen werden soll; im Filtermodus behält er basierend auf den Trainingssignalen vielversprechende Kandidaten bei und beendet erfolglose Ansätze, um Zeit und Rechenleistung zu sparen. Wenn der Fortschritt stagniert, löst er eine Revision oder Beendigung des Projekts aus.

Designer-Agent

Er ist für zwei Kernaufgaben verantwortlich: das Entwerfen und das Verbessern von Lösungen. Im Entwurfsmodus untersucht er direkt die Merkmale des Datensatzes und entwickelt mehrere unterschiedliche und realisierbare Modellierungspläne. Im Revisionsmodus diagnostiziert er die Ursachen für das Scheitern (Überanpassung, Unteranpassung, Konvergenzprobleme oder Datenanomalien) und schlägt konkrete Verbesserungsvorschläge vor, die der Coder-Agent dann erneut implementieren kann.

Coder-Agent

Er wandelt die Entwürfe in ausführbare Trainings- und Inferenzabläufe um. Das Ziel des Coder-Agents ist es, sicherzustellen, dass der Code korrekt und vollständig ist, nicht aber die maximale Leistung zu erzielen. Er führt nach dem Schreiben des Codes einen kurzen Validierungslauf durch, um sicherzustellen, dass der Ablauf end-to-end funktioniert, und übergibt dann die vollständige Trainingsaufgabe an den Tuner-Agent.

Tuner-Agent

Er übernimmt den Trainingsablauf und konzentriert sich auf die Leistungssteigerung auf der Grundlage des bestehenden Codes. Er wendet eine Strategie an, die zunächst eine schnelle Kalibrierung vornimmt und dann entscheidet, ob weitere Ressourcen investiert werden sollen: Er führt zunächst einen kurzen Einwärmungslauf durch, um die Lernkurve zu beobachten, und entscheidet dann, ob er das aktuelle Verfahren verlängern oder die Hyperparameter anpassen soll. Der gesamte Prozess wird innerhalb eines festgelegten Rechenbudgets durchgeführt.

Systemdesign

AIBuildAI verfügt auf Systemebene über drei Schlüsselmerkmale:

Parallele Effizienz: Mehrere Lösungspfade laufen in unabhängigen Arbeitsräumen gleichzeitig ab, um gegenseitige Störungen zu vermeiden. Dies ermöglicht es dem System, mehrere Ansätze gleichzeitig zu explorieren und die Ressourcen auf vielversprechende Kandidaten zu konzentrieren.

Reproduzierbarkeit: Alle Agenten koordinieren sich über die auf der Festplatte gespeicherten Ergebnisse (Entwurfsdokumente, Konfigurationsdateien, Logs, Checkpoints), statt auf temporäre Informationen im Speicher zu vertrauen. Dies gewährleistet, dass jeder Schritt nachträglich überprüft und reproduziert werden kann.

Sicherheit: Die Agenten dürfen nur in ihren eigenen Pfadverzeichnissen schreiben. Die Datensätze werden im Nur-Lese-Modus eingebunden, und bei jedem Aufruf wird ein überprüfbarer Betriebsprotokoll erstellt.

Experimentiergebnisse

AIBuildAI wurde im OpenAI MLE-Bench-Benchmark evaluiert (https://github.com/openai/mle-bench/pull/126). Der MLE-Bench enthält reale Aufgaben aus Kaggle-Wettbewerben, die mehrere Kategorien wie Bildklassifizierung, Objekterkennung/Segmentierung, natürliche Sprachverarbeitung und -generierung, Zeitreihenmodellierung sowie Vorhersage strukturierten Tabellendaten umfassen. Insgesamt gibt es 75 Aufgaben, bei denen das System den gesamten Entwicklungsprozess von den Rohdaten bis zum einreichbaren Modell abwickeln muss. Derzeit belegt AIBuildAI mit einer Gesamtsiegerquote von 63,1% den ersten Platz in der Gesamtliste des MLE-Bench. Das obige Bild zeigt, dass die Gesamtleistung von AIBuildAI (orangene Balken) unter allen Vergleichsmethoden die beste ist.

Das obige Bild zeigt die detaillierten Ergebnisse von AIBuildAI bei Aufgaben der Sprachverarbeitung und -generierung. Im oberen Teil wird am Beispiel der Billion Word Imputation der Arbeitsablauf der verschiedenen Agenten von AIBuildAI vollständig dargestellt: Der Manager plant nacheinander Setup, Designer (stellt 6 Kandidatenlösungen vor), Coder (implementiert den Ablauf) und Tuner (passt die Parameter iterativ an). Schließlich erstellt der Aggregator auf der Grundlage von RoBERTa-large die Einreichungsdatei und erzielt eine optimale Punktzahl von 5,5060. Im unteren Teil wird die Leistung von AIBuildAI mit AIRA-dojo und MLEvolve bei 10 konkreten Sprachaufgaben verglichen.

AIBuildAI (lila) erzielte in mehreren Aufgaben wie chaii-hindi-and-tamil-question-answering, patent-matching, tweet-sentiment-extraction, text-normalization-challenge-english-language, random-acts-of-pizza die besten Ergebnisse. Dies bestätigt die Generalisierungsfähigkeit von AIBuildAI bei vielfältigen Sprachaufgaben.

Zusammenfassung

AIBuildAI erreicht die End-to-End-Automatisierung des AI-Engineering, indem es den AI-Entwicklungsprozess auf spezialisierte Agenten verteilt, die Aufgaben wie Entwurf, Codierung, Optimierung und Koordination übernehmen, und die Agenten über eine auf den Ergebnissen basierende Zustandsverwaltung eng zusammenarbeiten.

Im Gegensatz zu früheren Einzelsystemen, die die Codegenerierung als Kernparadigma hatten, modelliert AIBuildAI die Überwachung der Trainingsdynamik, die Früherkennungsmechanismen und die Hyperparameteranpassung explizit. Dies entspricht eher dem Arbeitsstil echter Ingenieurunternehmen.

AIBuildAI belegte auf 75 Aufgaben des MLE-Bench mit einer Gewinnquote von 63,1% den ersten Platz. Dies beweist die Machbarkeit der strukturierten Zusammenarbeit mehrerer Agenten bei der Automatisierung komplexer Ingenieuraufgaben und bietet einen klaren technischen Weg für die Entwicklung von automatischen AI-Systemen, die mit menschlichen Fachingenieuren konkurrieren können.

Referenzen

https://github.com/aibuildai/AI-Build-AI

Dieser Artikel stammt aus dem WeChat-Account "New Intelligence Yuan", Autor: LRST, veröffentlicht von 36Kr mit Genehmigung.