Tiefgehende Analyse der 800 V DC - Architektur von NVIDIA: Der Moment der massiven Expansion von Galliumnitrid ist gekommen.
Vor kurzem auf der globalen OCP-Spitztagung hat NVIDIA offiziell die Weißbuch "800VDC Architecture for Next-Generation AI Infrastructure" veröffentlicht, in der das Entwicklungskonzept für die nächste Phase der Stromversorgungsinfrastruktur von KI-Fabriken umfassend skizziert wird. Die 800VDC-Gleichstromversorgungsarchitektur ist plötzlich zum Schlüsseltechnikpfad für die nächste Phase der Entwicklung von Rechenzentren geworden. Was ist also 800VDC und wie wird es umgesetzt? Welche technologischen Bereiche werden hinter dieser Entwicklung neue Chancen für die Entwicklung erhalten?
I. Warum die 800VVDC-Architektur?
1. Megawatt-Schränke werden zum Standard in Rechenzentren
Mit dem exponentiellen Wachstum der Parametergröße von KI-Trainingsmodellen steigt die Leistungsdichte von GPU-Schränken rasant an. Die GPU-Roadmap von NVIDIA zeigt: Im Hopper-Zeitalter 2022 betrug die Leistung eines einzelnen Schranks etwa 40 kW, während sie im RubinUltra-Architekturzeitraum 2027 über 1 MW gestiegen ist, was einem fast 25-fachen Anstieg in fünf Jahren entspricht.
2. Das Schlüsselproblem bei Hochleistungs-Schränken: Zu wenig Platz, Hochleistungs-Stromversorgungen müssen miniaturisiert werden
In Megawatt-Hochdichteschränken findet ein "Platzkampf" zwischen der Stromversorgungssystem und den GPU-Berechnungseinheiten statt: Eine höhere Leistung bedeutet ein größeres Volumen der Stromversorgungsgeräte und eine geringere Anzahl von einsetzbaren GPUs. Um die Anzahl der GPUs zu gewährleisten, muss das Volumen der Stromversorgung verringert werden. Um die Leistung zu erhöhen und gleichzeitig das Volumen zu verringern, wird ein neues Stromversorgungstechnikkonzept benötigt.
3. Hochleistungs-Schränke müssen kostengünstiger sein
Das Problem der Kupferverluste bei herkömmlichen Lösungen ist die "Rote Linie" für die nachhaltige Entwicklung. Ein 1-MW-Schrank mit 54-V-Spannungsversorgung benötigt etwa 200 kg Kupferbusbars. Bei der Erweiterung zu einer GW-Klasse-KI-Fabrik würden 500.000 Tonnen Kupfer verbraucht werden, was enorme Ressourcen- und Kostendruck mit sich bringt.
4. Hochleistungs-Schränke müssen eine höhere Umwandlungseffizienz aufweisen
Die herkömmliche Architektur erfordert mehrfache AC/DC- und DC/DC-Umwandlungen, wobei jeder Schritt einen Verlust von 1 - 3 % verursacht. Die Gesamteffizienz liegt oft nur bei etwa 85 %. Dieser Wert muss in der Ära der Megawatt-Schränke erheblich verbessert werden.
Zusammenfassend ist 800V DC nicht nur eine Erhöhung der Rechenleistungsdichte, sondern auch ein Sprung in der Stromdichte. Hinter dieser Entwicklung liegt die Erfüllung der Anforderungen an die Rechenleistung durch eine höhere Umwandlungseffizienz, eine höhere Leistungsdichte und geringere Kosten.
II. Was ist die 800VDC-Architektur und welche Vorteile hat sie im Vergleich zur herkömmlichen Architektur?
Im Vergleich zum herkömmlichen 415-V-Wechselstromsystem hat die 800VDC-Architektur durch die Vereinfachung der Übertragungsstrecke eine revolutionäre Umgestaltung des Energiepfads erreicht. Der Strom wird von der Mittelspannungsverteilung von 13,8 - 35 kV über Hochspannungsgleichrichtung direkt in 800V-Gleichstrom umgewandelt und dann über Busbars in den Schrank verteilt, wo er schrittweise für die GPU-Versorgung umgewandelt wird. Dieser vereinfachte Energieübertragungspfad erhöht nicht nur die Effizienz und Zuverlässigkeit erheblich, sondern schafft auch wertvollen Platz für die Berechnungseinheiten. Gleichzeitig sinkt der Übertragungsstrom um etwa das 15-fache, die Kupferverluste um 90 % und die Systemeffizienz steigt um 10 - 13 %, da die Busspannung von 54 V auf 800 V erhöht wird.
Die Entwicklung der Verteilungsarchitektur von NVIDIA von 415-V-Wechselstrom (oben) zu 800-V-Gleichstrom (unten)
https://developer.nvidia.com/blog/building-the-800-vdc-ecosystem-for-efficient-scalable-ai-factories/
Neben dem Übergang zu 800-V-Schrankstromversorgungen erfordert die 800V-Gleichstromarchitektur auch, dass innerhalb der Rechenleistungsschränke bei der schrittweisen Spannungsumwandlung von der Busleitung bis zur GPU eine ultrahohe Leistungsdichte und eine ultrahohe Umwandlungseffizienz erreicht werden. Im von NVIDIA gezeigten Kyber-Prototyp enthält das NVL576-System in einem einzelnen Schrank 72 Rechenleistungstray, von denen jedes nur 0,5 U hoch ist, aber eine Leistung von über 12 kW liefern kann. Dies entspricht einer 50-prozentigen Steigerung der Leistungsdichte und einer vierfachen Verbesserung der Raumnutzung im Vergleich zum Vorgängersystem NVL72.
Das bedeutet, dass die Kerntechnik hinter der Umsetzung der 800VDC-Architektur zunächst die Realisierung einer Stromversorgungstechnik mit hoher Frequenz, hoher Effizienz und hoher Leistungsdichte ist.
III. Analyse der Stromversorgungstechnik zur Umsetzung der 800VDC-Architektur
Die Spannungsumwandlung von 800V auf GPU kann durch ein Dreistufen-Umwandlungskonzept erreicht werden. Das Schlüsselproblem bei der Dreistufen-Umwandlung besteht darin, die Effizienz und Leistungsdichte zu erhöhen und gleichzeitig das Volumen zu verringern. Diese Anforderung erfordert eine erhebliche Erhöhung der Stromfrequenz, was mit herkömmlichen Konzepten schwer zu erreichen ist. Daher wird in der NVIDIA-Weißbuch darauf hingewiesen, dass die 800VDC-Technologie die etablierte Technologie der dritten Generation von Halbleitern nutzen wird.
Erste Stufe: 800V → 54V galvanisch getrennte DC/DC-Umwandlung
Eine 16:1 galvanisch getrennte Umwandlung wird verwendet, um die Hochspannungsgleichstrom auf eine sichere Niederspannungsbusleitung zu reduzieren. Am Eingang werden Hochspannungshalbleiterbauelemente mit 650 V oder 1200 V verwendet, während am Ausgang Leistungshalbleiterbauelemente mit 100 V eingesetzt werden.
Die technische Herausforderung bei dieser Stufe liegt im begrenzten Platz: Es muss in einem sehr kleinen Raum eine Umwandlungseffizienz von über 98 % und die Sicherheitsanforderungen erfüllt werden. Daher muss die Schaltfrequenz des Wandlers etwa 1 MHz betragen, um das Volumen des Transformator-Kerns zu verringern. Gleichzeitig muss in dem begrenzten Raum auch eine Hilfsstromversorgung für die Ansteuerung und die Hauptsteuerung untergebracht werden.
Im Vergleich zu Siliziumbauelementen kann bei der Verwendung von Galliumnitrid-Bauelementen am Eingang der Abschaltverlust um 30 % und der Ansteuerungsverlust um 90 % reduziert werden. Die Fläche der Hilfsstromversorgung ist um mehr als 50 % kleiner. Derzeit verwenden die meisten gängigen Lösungen für diesen Teil Galliumnitrid-Bauelemente. Am Ausgang kann der Einschaltwiderstand von 100-V-Galliumnitrid-Bauelementen im Vergleich zu Siliziumbauelementen des gleichen Typs um mehr als die Hälfte reduziert werden. Die Effizienz hat deutliche Vorteile, daher werden diese Bauelemente auch bevorzugt eingesetzt.
Das 800V-auf-54V-Konzept von Innoscience und STMicroelectronics, OCP 2025
Es ist erwähnenswert, dass dies das einzige von NVIDIA auf der OCP-Konferenz gezeigte Anbieterkonzept war.
Zweite Stufe: 54V → 12V Board-Level DC/DC-Stromversorgung
Die Herausforderung bei dieser Stufe besteht darin, die Frequenz zu erhöhen und das Volumen der passiven Bauelemente zu verringern, um eine höhere Leistungsdichte zu erreichen. Aufgrund der begrenzten Schaltfrequenz von weniger als 200 kHz können Silizium-Leistungshalbleiterbauelemente die Anforderungen an die Leistungsdichte nicht erfüllen.
Der Autor hat erfahren, dass das derzeit gängige Konzept für diese Stufe der Umwandlung ein Buck-Konzept mit 100-V-GaN-Bauelementen ist. Die Effizienz ist um mehr als 1 % höher als bei Silizium-Konzepten, die Frequenz ist um das Dreifache erhöht und das Volumen der Induktivität ist um 30 % verringert.
Dritte Stufe: 12V → 0,8V GPU-Versorgung
Im Vergleich zur derzeitigen Stromstärke von etwa 2000 A bei GPUs wird die Stromstärke von GPUs im RubinUltra-Zeitalter über 6000 A betragen. Daher wird bei dieser Stufe eine sehr große Anzahl von Leistungshalbleiterbauelementen benötigt, und die Anforderungen an die Effizienz und die Fläche sind sehr hoch. Das herkömmliche Konzept verwendet DrMOS-Siliziumbauelemente, aber aufgrund der Frequenzbegrenzung können die zukünftigen Anforderungen nicht erfüllt werden. 30-V-Galliumnitrid kann bei über 2 MHz betrieben werden, was das Volumen der Induktivität erheblich verringert und die dynamische Reaktion verbessert. Gleichzeitig ist es auch für die Integration des Systems vorteilhaft und wird der Schlüssel für die zukünftige GPU-Versorgung sein.
Zusammenfassend gesehen steckt hinter der 800VDC-Architektur eine Revolution in der Stromversorgungstechnik hin zu höherer Frequenz und Effizienz. Das Halbleitermaterial der dritten Generation, Galliumnitrid (GaN), wird aufgrund seiner einzigartigen Vorteile bei hoher Frequenz und geringen Verlusten die wichtigste Technologieupgrades zur Umsetzung der 800VDC-Stromversorgungsrevolution sein.
IV. Wie groß ist der Marktplatz für GaN in der 800VDC-Architektur?
Im Kyber-Architektur hat ein NVL576-Schrank 72 Rechenleistungstrays (Compute Blade), auf denen jeweils 8 GPUs und 2 CPUs platziert werden können. Der Stromverbrauch beträgt etwa 12 kW. Anhand von 12 kW können wir die Menge an Galliumnitrid in einem einzelnen Rechenleistungstray berechnen:
Insgesamt sind in den 72 Rechenleistungstrays eines Schranks etwa 90.000 Bauelemente. Hinzu kommen die Server- und NVSwitch-Teile, so dass die Gesamtmenge nahezu 100.000 Bauelemente beträgt. Der Wert von GaN in einem einzelnen Schrank beträgt etwa 180.000 US-Dollar.
Das bedeutet, dass für die Errichtung eines Rechenzentrums mit 1000 Einzel-Schränken im Megawatt-Bereich (1 MW) GaN-Bauelemente im Wert von 180 Millionen US-Dollar gekauft werden müssen.
V. Niedervolt-GaN wird zum großen Sieger
Der Anteil von Leistungshalbleiterbauelementen unterschiedlicher Spannungsklassen in der 800VDC-Architektur
Wie in der obigen Abbildung gezeigt, machen in der 800VDC-Architektur die Niedervoltbauelemente mit 100 V und 30 V einen Anteil von 96,8 % aus und werden somit die absoluten Sieger.
Es ist erwähnenswert, dass derzeit nur Innoscience und EPC in der Lage sind, Niedervolt-GaN-Bauelemente in Serie zu produzieren. Hersteller wie Navits, die sich auf die Fertigung durch TSMC verlassen, werden von dieser Entwicklung ausgeschlossen sein, da TSMC keine etablierten Niedervoltproduktplattformen hat.
VI. Der GaN-Markt wird einem explosionsartigen Wachstum entgegengehen
Die 800V-Gleichstromarchitektur ist nicht nur ein Upgrade des Spannungsstandards, sondern auch eine Umgestaltung der Energieinfrastruktur. Galliumnitrid (GaN) wird zur Schlüsselbrücke zwischen Rechenleistung und Energieeffizienz und treibt die Rechenzentren in eine neue Phase von "Stromgetrieben" hin zu "Intelligenter Energiegetrieben" voran. In den nächsten zehn Jahren wird der globale GaN-Markt, mit der zunehmenden Verbreitung von KI-Fabriken, Robotern, Elektromobilen und Energiespeichersystemen, voraussichtlich 2030 auf über 1 Milliarde US-Dollar anwachsen. Unter diesen werden die Niedervolt-GaN-Bauelemente (≤ 100 V) den größten Anteil an der Liefermenge und am Marktanteil haben und zur Kernkraft des KI-Stromversorgungssystems werden.
Gall