Die Huawei-Version von CUDA ist vollständig Open Source geworden.
Die Huawei-Version von CUDA wird vollständig quelloffen und frei zugänglich!
Neueste Meldung: Huawei hat angekündigt, sein CANN-Software-Toolkit für seine Ascend-AI-GPU quelloffen zu machen.
Xu Zhijun, der rotierende Vorsitzende von Huawei, hat in einem Themenvortrag betont, dass der Kern der Huawei-AI-Strategie die Rechenleistung ist und dass Huawei an der Monetarisierung seiner Ascend-Hardware festhält.
Vor diesem Hintergrund hat Xu Zhijun auf der Konferenz angekündigt, dass die Ascend-Hardware von Huawei das CANN vollständig quelloffen und frei zugänglich macht. Das Mind-Serie-Anwendungs-Enablement-Set und die Toolchain werden ebenfalls vollständig quelloffen gemacht, um Benutzern die unabhängige tiefe Erschließung und benutzerdefinierte Entwicklung zu ermöglichen und die Innovationsgeschwindigkeit der Entwickler zu beschleunigen. So wird Ascend noch nützlicher und einfacher zu bedienen.
CANN, ein neuronales Netzwerk-Rechenarchitektur, bietet mehrschichtige Programmierschnittstellen, um Benutzern zu helfen, AI-Anwendungen für Huaweis Ascend zu entwickeln.
Es ist ein Software-Ökosystem, das aus verschiedenen Skillsets und Operator-Beschleunigungsbibliotheken besteht. Mit anderen Worten, es ist wie die Huawei-Version von CUDA und bietet die gleichen Schnittstellen für GPUs.
Zufälligerweise hat am selben Tag ein legendäres Startup von GPU-Experten endlich die Öffentlichkeit erreicht. Sie entwickeln keine Consumer-GPUs, sondern ein ähnliches Software-Ökosystem wie CUDA.
Es scheint, dass es viele Spieler gibt, die Nvidia herausfordern wollen.
Die Huawei-Version von CUDA wird vollständig quelloffen
In der Vergangenheit hatten Entwickler lange Zeit mit dem geschlossenen Ökosystem von CUDA zu kämpfen.
Außer für Nvidias eigene Hardware unterstützt CUDA fast keine anderen Drittanbieter. Wenn Entwickler also CUDA verwenden möchten, um Software zu entwickeln, müssen sie Nvidias GPUs einsetzen. Dies bildet tatsächlich Nvidias Kernschutzmauer.
Wenn Entwickler auf ein anderes Produkt umsteigen möchten, müssen sie ihren Code neu schreiben, auf relativ unausgereifte Ersatzbibliotheken zurückgreifen und verlieren auch die Unterstützung der riesigen technischen Community, die Nvidia um CUDA aufgebaut hat.
Früher haben einige Projekte versucht, die CUDA-Funktionen (über eine Konvertierungsschicht) in andere GPU-Lieferanten einzubringen. Aufgrund von Nvidias Hindernissen waren die meisten dieser Projekte jedoch nicht erfolgreich. Seit der Version CUDA 11.6 im Jahr 2024 ist die Verwendung der Konvertierungsschicht verboten.
Heute hat Huawei auf der Ascend Computing Industry Development Summit angekündigt, die CANN-Architektur quelloffen zu machen. Auch das Mind-Serie-Anwendungs-Enablement-Set und die Toolchain werden quelloffen gemacht. Somit können Entwickler die Potenziale der Ascend-GPU unabhängig und tiefgehend erschließen.
Derzeit ist CANN auf Version 8.0 aktualisiert. Es gibt hauptsächlich zwei Versionen: die Community-Version, die eine frühe Erfahrung mit neuen Funktionen bietet, und die kommerzielle Version, die eine stabile Version speziell für Unternehmensbenutzer bietet. Beide Versionen sind auf Version 8.2.RC1 aktualisiert worden, und es wurden 12 Betriebssysteme hinzugefügt.
Zusätzlich zu CANN gibt es auch das von Huawei selbst entwickelte Deep-Learning-Framework MindSpore, das ähnlich wie PyTorch funktioniert. Diese Tools bilden gemeinsam Huaweis eigenes AI-Software- und Hardware-System.
Bis jetzt unterstützt CANN Deep-Learning-Frameworks und Drittanbieter-Bibliotheken wie PyTorch, MindSpore, TensorFlow, PaddlePaddle, ONNX, Jittor, OpenCV und OpenMMLab.
Auf der Konferenz haben die Teilnehmer und Huawei gemeinsam die "Initiative zur gemeinsamen Gründung des quelloffenen und offenen CANN-Ökosystems" gestartet.
Es scheint, dass Huawei jetzt stark daran arbeitet, ein quelloffenes und offenes Ascend-Ökosystem aufzubauen.
Ein legendärer GPU-Architekt gründet ein Startup und setzt sich mit Nvidias CUDA auseinander
Es gibt auch viele andere Spieler in der Branche, die Nvidias CUDA-Ökosystem herausfordern.
Zum Beispiel hat ein legendärer GPU-Architekt namens Raja Koduri angekündigt, ein GPU-Startup namens Oxmiq Labs zu gründen.
Er hat zuvor bei AMD, Apple und Intel gearbeitet und war bei Intel Vizepräsident der Geschäftsleitung für beschleunigte Rechensysteme und Grafik (AXG). Vor seinem Eintritt bei Intel war er Vizepräsident und Chefarchitekt der Grafikabteilung Radeon Technologies Group bei AMD.
Das von ihm gegründete Startup konzentriert sich auf die Entwicklung von GPU-Hardware und Software-IP und lizenziert diese an verschiedene Parteien. Er hat das Unternehmen als das erste GPU-Startup in Silicon Valley in den letzten 25 Jahren positioniert.
Sie entwickeln keine Consumer-GPUs und auch nicht alle erforderlichen IP-Module für GPUs. Stattdessen bieten sie eine vertikal integrierte Plattform, die GPU-Hardware-IP mit einem funktionsfähigen Software-Stack kombiniert, um die Anforderungen von AI-, Grafik- und multimodalen Workloads zu erfüllen, bei denen explizite parallele Verarbeitung von entscheidender Bedeutung ist.
Im Bereich der Hardware bietet Oxmiq einen GPU-IP-Kern namens OxCore, der auf der RISC-V-Befehlssatzarchitektur (ISA) basiert. Dieser Kern integriert Skalar-, Vektor- und Tensor-Rechenmodule in einer modularen Architektur und unterstützt nahezu Speicher- und Speicher-Rechenfunktionen.
Oxmiq bietet auch einen Chipset-basierten System-on-a-Chip (SoC)-Builder namens OxQuilt, der es Kunden ermöglicht, schnell und kostengünstig SoCs zu erstellen, die integrierte Compute-Cluster-Bridges (CCB, möglicherweise mit OxCores integriert), Memory-Cluster-Bridges (MCB) und Interconnect-Cluster-Bridges (ICB) enthalten, um spezifischen Workload-Anforderungen gerecht zu werden.
Beispielsweise kann ein Inference-AI-Akelerator für Edge-Anwendungen eine oder zwei CCBs und eine ICB enthalten. Ein Inference-SoC benötigt mehr CCBs, MCBs und ICBs, während ein großes SoC für AI-Training möglicherweise Dutzende von Chipsets enthalten kann.
Oxmiq hat noch nicht offen gelegt, ob OxQuilt nur für die Konstruktion von Multi-Chipset-System-in-Package (SiP) geeignet ist oder auch für die Montage von Ein-Chip-Prozessoren verwendet werden kann.
Ihre Softwaregeschäft scheint jedoch noch wichtiger zu sein. Das von ihnen angebotene Softwarepaket ist mit Drittanbieter-Hardware kompatibel und ermöglicht die Bereitstellung von AI- und Grafik-Workloads auf verschiedenen Hardwareplattformen.
Der Kern des Software-Stacks ist OXCapsule, eine einheitliche Laufzeit- und Scheduling-Schicht, die die Workload-Verteilung, die Ressourcenauslastung und die Hardwareabstraktion verwaltet.
Eine herausragende Komponente des Stacks ist OXPython, eine Kompatibilitätsschicht, die CUDA-zentrierte Workloads in Oxmiqs Laufzeitumgebung konvertiert und es ermöglicht, dass CUDA-Anwendungen, die auf Python basieren, ohne Änderungen und ohne Neukompilierung auf Nicht-Nvidia-Hardware laufen können.
OXPython wird zunächst nicht auf Oxmiqs IP veröffentlicht, sondern auf Tenstorrent's Wormhole und Blackhole AI-Akeleratoren.
Tatsächlich ist Oxmiqs Software-Stack grundsätzlich unabhängig von Oxmiqs Hardware konzipiert, was ein zentraler Teil ihrer Strategie ist.
Egal, wie es am Ende aussehen wird, der Wettbewerb hat begonnen, und am Ende profitieren die Entwickler davon.
Referenzlinks:
[1]https://x.com/RajaXg/status/1952633159818060164
[2]https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-is-making-its-ascend-ai-gpu-software-toolkit-open-source-to-better-compete-against-cuda
[3]https://www.tomshardware.com/tech-industry/artificial-intelligence/legendary-gpu-architect-raja-koduris-new-startup-leverages-risc-v-and-targets-cuda-workloads-oxmiq-labs-supports-running-python-based-cuda-applications-unmodified-on-non-nvidia-hardware
[4]https://mp.weixin.qq.com/s/cK7REZ9_ToHPEq4iyWoRqA
Dieser Artikel stammt aus dem WeChat-Account "QbitAI", geschrieben von Hong Jiao und wird von 36Kr mit Genehmigung veröffentlicht.