Ist CUDA am Ende? Claude bricht NVIDIA's Schutzmauer in 30 Minuten ein

0 Code zerreißt CUDA, wird Huang Jiren nervös?

Wird Nvidias Schutzmauer unhaltbar? Claude Code hat in nur 30 Minuten das CUDA-Backend auf AMD ROCm portiert.

Wurde die CUDA-Schutzmauer von KI binnen einer Nacht beendet?

In den letzten Tagen hat ein Entwickler namens johnnytshi auf Reddit eine verblüffende Aktion geteilt:

Claude Code hat in nur 30 Minuten einen kompletten CUDA-Backend-Code erfolgreich auf AMD ROCm portiert.

Während des gesamten Prozesses wurde kein einziger Codezeile manuell geschrieben.

So scheint es, als würde man die Kluft zwischen diesen beiden Ökosystemen schließen.

Das Wichtigste ist, dass diese Portierung überhaupt nicht auf traditionelle “Zwischenkonvertierungstools” wie die Hipify-Übersetzungsschicht angewiesen war, sondern mit einem Klick über die CLI abgeschlossen wurde.

Selbst Anush E., der stellvertretende Softwarechef von AMD, war davon beeindruckt. Die Zukunft der GPU-Programmierung gehört den KI-Agenten.

Sobald die Nachricht heraus kam, war die gesamte Tech-Szene in Aufruhr. Viele riefen: Nvidias CUDA-Schutzmauer wird unhaltbar…

Was ist hier eigentlich los?

Claude zertrümmert CUDA in nur 30 Minuten

Claude Code läuft in einem Agentenframework, was bedeutet, dass es “selbst denken” kann.

Während der Ausführung konvertiert es nicht mechanisch Schlüsselwörter, sondern versteht wirklich den Code, d. h. die zugrunde liegende Logik bestimmter Kernfunktionen.

Der Entwickler johnnytshi erklärte, dass auch das schwierigste Problem der Datenlayout-Unterschiede bei dieser Portierung von der KI gelöst wurde, um sicherzustellen, dass die Kernrechenlogik der Kernel konsistent bleibt.

Erstaunlicherweise hat johnnytshi in nur 30 Minuten das gesamte CUDA-Backend auf AMD ROCm portiert, ohne irgendeine Übersetzungsschicht zu verwenden.

Ein weiterer Vorteil ist natürlich, dass man sich nicht mehr mit der Einrichtung eines komplizierten Übersetzungssystems wie Hipify abgeben muss; man kann direkt in der Kommandozeile (CLI) arbeiten.

Heute ist das Internet von Rufrufen erfüllt, dass die CUDA-Schutzmauer gebrochen wurde.

Nach alledem beruht Nvidias Dominanz in hohem Maße auf dem CUDA-Programmierökosystem, das fast zur Branchenstandard geworden ist.

Unzählige KI-Frameworks, Deep-Learning-Bibliotheken und wissenschaftliche Rechenwerkzeuge sind stark von ihm abhängig.

Obwohl AMDs ROCm leistungsstark ist, hat es immerhin Probleme mit der Ökosystemkompatibilität und hohen Migrationskosten für Entwickler.

Jetzt hat ein Claude in kürzester Zeit die Hürde niedergerissen. Vielleicht können in Zukunft noch mehr CUDA-Codes problemlos auf AMD-GPUs laufen.

Implementierungsdetails

Johnnytshi hat auch im GitHub seine Logs und Erklärungen aktualisiert.

Er hat ein komplettes ROCm-Backend für AMD-GPUs implementiert, um moderne Schachnetzwerke auf Basis der Attention-Mechanik auf RDNA 3.5 und anderen AMD-Architekturen zu unterstützen.

GitHub: https://github.com/LeelaChessZero/lc0/pull/2375

Es wurde ein komplettes ROCm-Backend in src/neural/backends/rocm/ hinzugefügt.

Die Attention-Netzwerkarchitektur (Multi-Head Self-Attention, FFN, Embedding Layer) wurde implementiert.

rocBLAS wird für GEMM-Berechnungen und MIOpen für Convolution-Berechnungen verwendet.

Das NCHW-Layout wurde für die FP16-Leistung auf RDNA 3.5 optimiert.

Drei Backend-Varianten werden angeboten: rocm (FP32), rocm-fp16 (FP16), rocm-auto (Automatische Erkennung)

MIOpen ist eine erforderliche Abhängigkeit (ähnlich wie cuDNN bei CUDA).

Die AMD-GPU-Architektur wird automatisch über rocm_agent_enumerator erkannt.

Kompilierungsoptionen: -Drocm=true -Damd_gfx=gfx1151 (oder Verwendung der automatischen Erkennung)

Leistungsangaben:

FP16-Leistung: >2000 nps auf einem Strix Halo (Radeon 8060S, gfx1151)

Automatische Batch-Size-Einstellung (min_batch=64 auf RDNA 3.5)

rocWMMA wurde getestet, aber rocBLAS hat bessere Leistung.

Validierungsstatus (Strix Halo - Radeon 8060S, gfx1151):

Getestete Modelle: 768x15x24h-t82-swa-7464000.pb.gz und maia-1900.pb.gz

Backend: rocm-fp16 funktioniert normal und kann korrekte Züge generieren.

Umgebung: ROCm 7.2.53150, MIOpen 3.5.1

Hinweis: Es wurden nur Tests auf RDNA 3.5 durchgeführt; andere AMD-Architekturen wurden noch nicht validiert.

Die Zukunft der GPU gehört den KI-Agenten

Natürlich hat auch diese Demo ihre Grenzen.

Für einfache oder mittelkomplexe Kernel funktioniert Claude Code ausgezeichnet. Noch wichtiger ist, dass der Kern der Kernfunktionsentwicklung darin besteht, “tiefgreifende Hardwareoptimierungen” zu meistern.

Einige sind der Meinung, dass Claude Code in dieser Hinsicht noch etwas fehlt —

Wenn es um komplexe Kernel geht, die für bestimmte Hardware-Cache-Ebenen und Speicherzugriffsmuster extrem optimiert wurden, kann die KI derzeit noch nicht vollständig die menschlichen Experten ersetzen.

Trotzdem ist das Signal, das dieses Ereignis sendet, stark genug.

In den letzten Monaten haben das ZLUDA-Projekt und interne Versuche von Microsoft versucht, die CUDA-Monopolstellung zu brechen.

Die meisten davon sind jedoch auf Regelmappings oder Zwischenschichten angewiesen und haben begrenzten Automatisierungsgrad und Intelligenzlevel.

Die Agenten-basierte Programmierung, die Claude Code repräsentiert, überspringt diese Schritte direkt und schließt die Ökosystemkluft mit “Verständnis + eigenständige Entscheidungen”.

Wie der stellvertretende Softwarechef von AMD sagte, gehört die Zukunft der GPU-Programmierung den KI-Agenten.

100 % KI-Programmierung

Claude Code hat inzwischen ganz Silicon Valley in seinen Bann gezogen (Claude-Pilled).

Vor zwei Tagen hat CEO Dario Amodei in Davos eine weitere provokante Äußerung gemacht: Softwareingenieure haben keine Zeit mehr. In den nächsten 6 - 12 Monaten kann die KI diese Menschen vollständig ersetzen!

Sogar die internen Ingenieure von Anthropic schreiben keine eigenen Codes mehr, sondern lassen alles von Claude erledigen.

Glauben Sie es nicht, es ist wahr.

In einem neuen Interview von Wired hat Boris Cherny, der Vater von Claude Code, zugegeben, dass “100 % seiner Codes von der KI geschrieben wurden”.

Vielleicht haben die Ingenieure von Anthropic nie gedacht, dass ein “Nebenprojekt” Silicon Valley so in Rausch versetzen würde.

Boris Cherny erinnerte sich: “Als wir vor einem Jahr Claude Code veröffentlicht haben, waren wir uns nicht einmal sicher, ob die “Agenten-Programmierung” funktionieren würde. Aber die Euphorie kam so schnell.”

Chernys persönliche Erfahrung ist das beste Beispiel:

Zu Beginn seiner Nutzung schrieb er nur 5 % seiner Codes mit Claude Code;

Im Mai letzten Jahres, nach der Veröffentlichung von Opus 4 und Sonnet 4, stieg dieser Anteil auf 30 %;

Und jetzt, mit Opus 4.5, wurden in den letzten zwei Monaten 100 % seiner Codes von Claude Code geschrieben.

Innerhalb von Anthropic hat sich diese KI-Transformation noch stärker entwickelt.

Fast 100 % der technischen Mitarbeiter verwenden Claude Code, und sogar 95 % der Codes des Claude Code-Teams selbst wurden von ihm selbst geschrieben.

Selbst Professoren für KI an der Stanford-University verwenden es

Es muss gesagt werden, dass die Evolutionsgeschwindigkeit der KI-Programmierung erstaunlich ist.

Von 2021 bis 2024 waren die meisten Tools nur erweiterte Versionen des “Autovervollständigens”, die den Entwicklern beim Tippen ein paar Codezeilen vorschlugen.

Aber Anfang 2025, als Cursor und Windsurf und andere Start-ups frühe Agenten-Program

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ist CUDA am Ende? Claude bricht in 30 Minuten NVIDIA's Schutzmauer ein, und AMD wird sich vor Lachen wälzen.

Claude zertrümmert CUDA in nur 30 Minuten

Implementierungsdetails

Die Zukunft der GPU gehört den KI-Agenten

100 % KI-Programmierung

Selbst Professoren für KI an der Stanford-University verwenden es