NVIDIA revolutioniert sich selbst: Intelligent Agent entwickelt sich 7 Tage lang selbständig und ersetzt Operator-Engineer und GPU-Experten

Verdammt, die menschliche Kognition ist der Engpass.

Dies sollte der neueste und aufregendste Artikel sein, der heute gerade fertig geworden ist.

In vielen WeChat-Gruppen für die Entwicklung von Operatoren hat es schon eine gewaltige Aufregung ausgelöst.

„Dies könnte die erste echte Demonstration von transhumaner Intelligenz im Bereich der Software sein.“ So hat Xu Bing von NVIDIA kürzlich auf X behauptet. Was er kommentiert hat, ist eine neue NVIDIA-Studie AVO, an der er gemeinsam mit Terry Chen und Zhifan Ye als Erstautoren gearbeitet hat.

In dieser Studie, die erst am Donnerstag auf arXiv eingereicht wurde, hat NVIDIA Agentic Variation Operator (AVO) entwickelt, eine neue Art von evolutionärem Variationsoperator. Dabei werden die festgelegten Mutationen, Kreuzungen und künstlich entworfenen Heuristiken in der klassischen evolutionären Suche durch selbständige codierende Agenten ersetzt, und es wurden beeindruckende praktische Ergebnisse erzielt.

Xu Bing sagte: „In einigen hochoptimierten Workloads für Aufmerksamkeitsmechanismen kann der Agent ohne menschliche Intervention sieben Tage lang kontinuierlich in der Optimierungsschleife suchen und damit fast alle menschlichen GPU-Experten übertreffen.“ – Solch eine Leistung von AVO könnte viele Kernel/DSL-Entwickler in Angst versetzen.

Xu Bing's Tweet auf X

Interessanterweise teilte Xu Bing in einem Tweet auf X auch mit, dass er und Terry Chen vor anderthalb Jahren, als sie bei NVIDIA mit der Forschung zur Agentenprogrammierung begannen, noch nicht mit GPU-Programmierung vertraut waren. „Deshalb haben wir uns von Anfang an darauf konzentriert, ein vollautomatisiertes System ohne menschliche Intervention zu entwickeln.“ Sie nannten es „Blind Coding“.

„In den letzten anderthalb Jahren haben wir beide in zwei Agentensystemen vier Generationen von Agenten entwickelt. Ab der zweiten Generation haben diese Agentenstapel sich selbständig weiterentwickelt. Jeder Agent hat jetzt etwa 100.000 Codezeilen (nicht-leere Codezeilen).“

Er betonte auch nochmals die große Bedeutung hinter AVO: „Ich wage zu wetten: Blind Coding ist die Zukunft der Softwareentwicklung. Die kognitive Fähigkeit des Menschen ist der Engpass.“

Jetzt schauen wir uns im Detail an, was dieser Artikel, der möglicherweise eine neue Ära des „Blind Codings“ einleitet, beigetragen hat.

Titel der Studie: AVO: Agentic Variation Operators for Autonomous Evolutionary Search

Link zur Studie: https://arxiv.org/abs/2603.24517v1

Große Sprachmodelle sind zu einer starken Komponente in der evolutionären Suche geworden. Sie ersetzen die manuell entworfenen Variationsoperatoren durch das Lernen der Codegenerierung. In diesen Systemen generiert das LLM Kandidatenlösungen basierend auf ausgewählten Elternteilen, während ein normalerweise auf Heuristiken basierendes Framework für die Elternteilauswahl, die Bewertung und die Populationsverwaltung zuständig ist. Diese Kombination hat in den Bereichen mathematische Optimierung und Algorithmenfindung bemerkenswerte Ergebnisse erzielt, darunter auch Flaggschiffssysteme wie FunSearch und AlphaEvolve.

Allerdings beschränkt die Einschränkung des LLMs auf die Funktion der Kandidatenlösungsgenerierung in einem vordefinierten Prozess seine Entdeckungskapazität grundlegend: Bei jedem Aufruf wird nur eine Ausgabe erzeugt, und es kann nicht aktiv nach Referenzen suchen, seine Änderungen testen, Feedback interpretieren oder die Lösung vor der Einreichung korrigieren. Diese Einschränkung ist besonders deutlich bei Implementierungen, die bereits durch intensive manuelle Optimierung auf das Äußerste hin optimiert sind und weitere Verbesserungen nur durch tiefgreifende iterative Ingenieurarbeit erreichen können.

Die Forscher haben sich diesem Problem im Kontext des Aufmerksamkeitsmechanismus gewidmet. Der Aufmerksamkeitsmechanismus ist der Kernoperator der Transformer-Architektur und einer der am stärksten optimierten GPU-Operatoren. Die FlashAttention-Serie und die NVIDIA cuDNN-Bibliothek haben den Aufmerksamkeitsthroughput auf allen Generationen von GPUs an die Hardwaregrenzen getrieben; auf der neuesten Blackwell-Architektur benötigen sowohl FlashAttention-4 (FA4) als auch cuDNN mehrere Monate manuelle Optimierung. Um diese Implementierungen zu übertreffen, ist eine kontinuierliche und iterative Interaktion mit der Entwicklungsumgebung erforderlich: Studium der Hardwaredokumentation, Analyse der Profilerausgaben, um Engpässe zu identifizieren, Implementierung und Test von Kandidatenoptimierungen, Diagnose von Korrektheitsfehlern und Anpassung der Strategie basierend auf der gesammelten Erfahrung.

Die neuesten Fortschritte bei Deep Agents zeigen, dass ein LLM, das mit Planungs-, Langzeitgedächtnis- und Werkzeugnutzungsfähigkeiten ausgestattet ist, solche mehrstufigen Ingenieurarbeitsabläufe autonom bewältigen kann, und zwar in einem breiten Anwendungsbereich, von der Lösung komplexer GitHub-Probleme bis zur Generierung von kritischer Deep-Learning-Software. Dies führt dazu, dass das LLM in der evolutionären Suche eine ganz andere Rolle spielt: Anstatt es in einer festen Pipeline einzuschränken, wird der Deep Agent zum Variationsoperator selbst.

Dafür hat NVIDIA Agentic Variation Operators (AVO) vorgeschlagen. In diesem Modell ersetzt ein selbstgesteuerter Code-Agent die bisherigen Mutations- und Kreuzungsprozesse in Systemen, die auf einem einzigen LLM-Run oder einem festen Arbeitsablauf basieren. Der AVO-Agent hat Zugang zu allen vorherigen Lösungen, zu einem domänenspezifischen Wissensspeicher und zu Bewertungstools. Er kann selbständig entscheiden, was er nachschlagen, was er ändern und wann er bewerten will, um so eine kontinuierliche Verbesserung über einen langen Zeitraum zu erreichen.

Um die Wirksamkeit zu überprüfen, hat NVIDIA AVO auf den Multi-Head Attention (MHA)-Kernel auf einer NVIDIA Blackwell B200 GPU angewendet und direkt mit den von Experten optimierten cuDNN- und FlashAttention-4-Kernen verglichen. In einer 7-tägigen kontinuierlichen und autonomen Evolution ohne menschliche Intervention hat der Agent über 500 Optimierungsrichtungen erkundet und 40 Kernelversionen entwickelt. Der schließlich generierte MHA-Kernel erreichte bei BF16-Präzision einen maximalen 1668 TFLOPS Throughput und übertraf in den Testkonfigurationen cuDNN um bis zu 3,5% und FlashAttention-4 um bis zu 10,5%.

Nach der Analyse der von den Agenten gefundenen Optimierungen hat NVIDIA festgestellt, dass diese Optimierungen mehrere Ebenen des Kernel-Designs umfassen, einschließlich Registerzuweisung, Befehlspipelinescheduling und Lastverteilung, was auf eine echte Hardware-Level-Inferenz hinweist. Die Experimente zeigen, dass die auf MHA gefundenen Optimierungstechniken effektiv auf Grouped Query Attention (GQA) übertragen werden können: Der Agent benötigt nur 30 Minuten zusätzliche autonome Anpassung, um den optimierten MHA-Kernel für GQA zu adaptieren, und seine Leistung ist im Vergleich zu cuDNN um bis zu 7,0% und im Vergleich zu FlashAttention-4 um 9,3% höher.

Die Hauptbeiträge dieser Studie sind wie folgt:

Vorstellung von Agentic Variation Operators (AVO): Dies ist eine neue Art von evolutionärem Variationsoperator, der den Agenten von einem einfachen Kandidaten-Generator zu einem Variationsoperator macht. Der Agent erforscht autonom das domänenspezifische Wissen, führt Änderungen durch und validiert die Ergebnisse durch iterative Interaktion mit der Umgebung.
Erreichung von SOTA-Leistung: Auf einer NVIDIA B200 GPU haben die Forscher in der Benchmark-Konfiguration den Spitzen-Throughput für MHA von 1668 TFLOPS erreicht, was die Leistung von cuDNN um bis zu 3,5% und die von FlashAttention-4 um bis zu 10,5% übertrifft. Darüber hinaus haben sie gezeigt, dass diese Optimierungen problemlos auf GQA übertragen werden können, und nur 30 Minuten autonomer Evolution sind erforderlich, um signifikante Leistungsgewinne zu erzielen.
Analyse der Mikroarchitektur-Optimierungen: Die Forscher haben eine detaillierte Analyse der von den Agenten in der Benchmark-Einstellung gefundenen Mikroarchitektur-Optimierungen durchgeführt und gezeigt, dass die Agenten eine echte Hardware-Level-Inferenz durchführen, nicht nur oberflächliche Code-Transformationen.

Abschied von der Pipeline: AI-Agenten werden zu echten „Evolutionäre Machern“

In traditionellen LLM-basierten evolutionären Suchframeworks ist das Modell oft in einer festen Pipeline gefangen und fungiert nur als Generator für Kandidaten-Code. Bei jedem Aufruf kann es nur ein Ergebnis ausgeben und kann nicht aktiv nach Referenzen suchen, den Code testen, Feedback verstehen oder die Strategie vor der endgültigen Einreichung korrigieren. Diese Einschränkung ist besonders fatal für hochwertige Hardware-Optimierungsaufgaben, die tiefe und wiederholte Iterationen erfordern.

AVO bricht diese Beschränkung und realisiert den „Variationsoperator“ als einen selbstgesteuerten Agenten-Zyklus. Dieser AI-Agent kann frei auf die vorherigen Codeversionen zugreifen, auf den domänenspezifischen Wissensspeicher (z. B. CUDA-Programmierhandbuch und PTX-Architekturdokumentation) zugreifen und basierend auf den Ausführungsfeedback aktiv Codeänderungen vorschlagen, reparieren, kritisieren und validieren.

Kurz gesagt, AVO hebt die AI von einem passiven „Code-Generator“ zu einem umfassenden „Evolutionären Machern“ auf.

7-tägiges autonomes Funktionieren: Übertreffen der Spitzen-Benchmarks auf der Blackwell-Architektur

Das Forschungsteam hat AVO in einer äußerst herausfordernden Aufgabe eingesetzt: die Optimierung des Multi-Head Attention (MHA)-Kernels auf einer NVIDIA Blackwell (B200) GPU. Der Aufmerksamkeitsmechanismus ist derzeit der Kern der Transformer-Architektur und einer der am stärksten optimierten Berechnungsziele auf AI-Chips.

Ohne jegliche menschliche Intervention hat der AVO-Agent 7 Tage lang kontinuierlich und autonom funktioniert.

In diesen 7 Tagen hat der Agent im Hintergrund über 500 Optimierungsrichtungen erkundet und schließlich 40 effektive Iterationsversionen eingereicht. Schließlich erreichte der von ihm generierte MHA-Kern bei BF16-Präzision einen Throughput von bis zu 1668 TFLOPS.

Bei den Benchmark-Tests hat AVO ein erstaunliches Ergebnis geliefert:

Im Vergleich zur proprietären cuDNN-Bibliothek von NVIDIA, die speziell für die Blackwell-Architektur entwickelt wurde, ist der Throughput um bis zu 3,5% höher.
Im Vergleich zum aktuell führenden Open-Source-Benchmark FlashAttention-4 ist der Throughput um bis zu 10,5% höher.

Starke Generalisierungsfähigkeit: 30-minütige Übertragung auf Grouped Query Attention

Noch beeindruckender ist, dass die von den Agenten gefundenen Mikroarchitektur-Optimierungen nicht auf einen bestimmten Anwendungsfall überangepasst sind. Als die Forscher AVO baten, den optimierten MHA-Kernel auf den heute in großen Modellen häufig verwendeten Grouped Query Attention (GQA) anzupassen, hat der Agent die Aufgabe in nur etwa 30 Minuten autonomer Anpassung erledigt.

Bei den GQA-Tests hat AVO weiterhin einen absoluten Vorsprung behalten. Seine Leistung ist im Vergleich zu cuDNN um bis zu 7,0% und im Vergleich zu FlashAttention-4 um bis zu 9,3% höher. Dies zeigt, dass die von den Agenten in der MHA-Evolution gefundenen Optimierungsmuster für Berechnung und Speicherzugriff effektiv auf GQA-Aufgaben mit unterschiedlichen Berechnungseigenschaften übertragen werden können.

Tiefgreifende Mikroarchitektur-Inferenz

Aus der Analyse der von AVO eingereichten Codeänderungen geht hervor, dass der AI-Agent nicht nur oberflächliche Arbeiten macht, sondern eine echte, tiefgreifende logische Inferenz auf Hardwareebene durchführt:

Verzweigungsfreie Akkumulator-Skalierung: Indem der Agent bedingte Verzweigungen eliminiert, hat er die Warp-Synchronisierungsaufwendungen beseitigt und leichtere Speicherbarrieren eingesetzt, was den Throughput bei nicht-kausaler Aufmerksamkeit um 8

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade hat NVIDIA sich selbst revolutioniert: Ein Intelligent Agent hat sich 7 Tage lang selbständig entwickelt und alle Operator-Engineer und GPU-Experten ersetzt.

Abschied von der Pipeline: AI-Agenten werden zu echten „Evolutionäre Machern“

7-tägiges autonomes Funktionieren: Übertreffen der Spitzen-Benchmarks auf der Blackwell-Architektur

Starke Generalisierungsfähigkeit: 30-minütige Übertragung auf Grouped Query Attention

Tiefgreifende Mikroarchitektur-Inferenz