Nvidia, AMD, Intel und Broadcom: Gemeinsame Arbeit zur Schließung der Lücke der verschwendeten GPU-Rechenleistung

Mit der Aktivierung des neuen Protokolls kann der primäre Kernschalter direkt neu gestartet werden, ohne die Modelltrainingsprozesse zu beeinträchtigen.

Nachrichten von Xin Dongxi vom 7. Mai. Gestern Abend hat OpenAI gemeinsam mit AMD, Broadcom, Intel, Microsoft und NVIDIA ein neues offenes Netzwerkprotokoll namens MRC (Multi-Path Reliable Connection) veröffentlicht, das es großen KI-Trainingsclustern ermöglicht, schneller und zuverlässiger zu funktionieren. OpenAI hat das MRC über das Open Compute Project (OCP) veröffentlicht.

Das MRC ist auf allen Supercomputern von OpenAI für die Schulung von Spitzenmodellen installiert, einschließlich des Oracle Cloud Infrastructure (OCI)-Standorts in Abilene, Texas, USA, sowie des Microsoft Fairwater-Supercomputers.

Das MRC ist ein neues Netzwerkprotokoll, das in die neuesten 800-Gb/s-Netzwerkschnittstellen integriert ist. Es kann die Datenübertragung auf Hunderten von Pfaden aufteilen, fehlerhafte Links im Mikrosekundenbereich umgehen und gleichzeitig die Architektur der Netzwerksteuerungsebene vereinfachen.

Im offiziellen Blog von OpenAI wird erwähnt, dass bei der Schulung eines Spitzenmodells für ChatGPT und Codex in letzter Zeit vier Kernschalter neu gestartet werden mussten. Früher musste das Betriebsteam äußerst vorsichtig vorgehen, wenn es Schalter neu starten musste. Seit der Einführung des MRC können sie sogar ohne vorherige Abstimmung mit dem Betriebsteam der Cluster-Trainingsaufgaben neu starten.

Bevor OpenAI das Infrastrukturprojekt Stargate entwickelt hat, hat es in den letzten Jahren gemeinsam mit Partnern die ersten drei Generationen von Supercomputern entwickelt und gewartet. Dies hat OpenAI dazu gebracht, zu erkennen, dass es zur effizienten Nutzung der Rechenleistung auf Supercomputern und zum erfolgreichen Abschließen von Aufgaben notwendig ist, die Komplexität jeder Ebene des Stacks erheblich zu verringern, einschließlich der Neugestaltung des Netzwerks.

In der Kommentarsektion des offiziellen OpenAI-Kontos auf X haben viele Nutzer die Veröffentlichung des MRC gelobt und es als echten Fortschritt in der Infrastruktur bezeichnet, der das Zeitalter des Wettbewerbs um die Effizienz der standardisierten Clusterkommunikation einläutet.

Link zur Studie: https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf

01 Lösung von Netzwerkproblemen: Drei Vorteile des MRC für die Erweiterung von Supercomputern

Beim Trainieren von großen Modellen kann ein Schritt Millionen von Datenübertragungen umfassen. Eine verzögerte Übertragung kann sich auf die gesamte Aufgabe auswirken und dazu führen, dass die GPUs inaktiv bleiben. Netzwerkstaus, Link- und Gerätefehler sind die häufigsten Gründe für Übertragungsverzögerungen und -schwankungen.

Mit der Zunahme der Größe der Rechenleistungsinfrastruktur treten diese Probleme häufiger auf und sind schwieriger zu lösen. Es gibt zwei Schlüsselnetzwerkherausforderungen: die Wahrscheinlichkeit von Netzwerkstaus so gering wie möglich zu halten und die Auswirkungen von Netzwerkfehlern auf die Trainingsaufgabe selbst so gering wie möglich zu halten.

Basierend auf diesen Erkenntnissen hat OpenAI gemeinsam mit mehreren Chipunternehmen das MRC entwickelt. Ziel ist es, ein Netzwerk zu schaffen, das auch bei Fehlern eine hochprädiktive Leistung bietet, um die Trainingsaufgaben fortzusetzen.

Das MRC ist eine Erweiterung des Aggregierten Ethernet RDMA (RoCE). RoCE ist ein Standard, der von der InfiniBand-Industry Association entwickelt wurde und eine hardwarebeschleunigte Remote Direct Memory Access zwischen GPUs und CPUs ermöglicht. Das MRC baut auf der Technologie auf, die von der Ultra Ethernet Consortium (UEC) entwickelt wurde, und erweitert diese Fähigkeiten auf der Grundlage des SRv6-Source Routing, um die Vernetzung von großen KI-Netzwerkarchitekturen zu unterstützen.

Diese Netzwerkarchitektur stützt sich auf die Hardware von NVIDIA und Broadcom und unterstützt die Schulung mehrerer OpenAI-Modelle.

AMD hat Technologien zur Staukontrolle beigetragen, um die tatsächliche Leistung des MRC zu verbessern. AMD hat bereits mit führenden Cloud-Dienstleistern zusammengearbeitet, um das MRC in Testclustern großmaßstäblich zu implementieren. Bevor die MRC-Spezifikation entwickelt wurde, hatte AMD bereits eine vorschlagsweise Implementierung des verbesserten RoCEv2-Übertragungsprotokolls, das sich heute zum MRC-Standard entwickelt hat. In der offiziellen Pressemitteilung von AMD wird erwähnt, dass es eine der ersten und einzigen Unternehmen ist, die das MRC auf 400-G-Netzwerkkarten implementiert haben. Sie können nahtlos auf die Anwendung der AMD Pensando "Vulcano" 800-G-AI-NIC umsteigen, die ebenfalls das MRC-Übertragungsprotokoll unterstützt.

Das MRC ist das erste neue Übertragungsprotokoll, das auf der NVIDIA Spectrum-X-Ethernet-Infrastruktur validiert und optimiert wurde. Seine Fehlersumme-Technologie kann Netzwerkpfadfehler in nur wenigen Mikrosekunden erkennen und den Datenverkehr automatisch in der Hardware umleiten. In einem offiziellen NVIDIA-Blog wird erwähnt, dass diese Fehlersumme-Technologie für KI-Trainingscluster besonders wichtig ist, da Tausende von GPUs synchron bleiben müssen. Selbst ein kurzer Netzwerkausfall kann die gesamte Trainingsaufgabe verlangsamen oder unterbrechen.

Das Broadcom Thor Ultra ist eine 800-Gb/s-Hochleistungs-Ethernet-Netzwerkkarte, die für KI-Lasten und mehrschichtige Netzwerkarchitekturen entwickelt wurde. Das Produkt baut auf mehreren Generationen von RoCE-Netzwerkkarten-Technologien auf und unterstützt zusätzlich das MRC und fortgeschrittene RoCE-Technologien. In einem offiziellen Broadcom-Blog wird erwähnt, dass das Unternehmen diese Technologien und Erfahrungen in die kooperative Entwicklung der MRC-Ekologie investiert hat. Das Thor Ultra integriert einen programmierbaren Datenpfad mit hoher Bandbreite, der mit der Netzwerk-Programmiersprache (NPL) implementiert wurde, um fortgeschrittene Staukontrolle (basierend auf Sender und Empfänger), Lastausgleich und zuverlässige Übertragung zu ermöglichen. Dies kann die Systemkosten und -komplexität verringern.

Intel hat in einem Beitrag auf seinem offiziellen X-Konto erwähnt, dass es mit Hilfe der MRC-Technologie eine mehrschichtige Ethernet-Vernetzungsarchitektur aufbaut, die die großmaßstäbliche Clusterbereitstellung ermöglicht, gleichzeitig die Anzahl der Schalterebenen verringert, den Energieverbrauch senkt und die Gesamtzuverlässigkeit verbessert.

Das MRC bringt drei Schlüsselvorteile für die Erweiterung von Supercomputern:

Erstens kann diese Technologie mit nur zwei Ebenen von Ethernet-Schaltern ein mehrschichtiges Hochgeschwindigkeitsnetzwerk aufbauen, das für Supercomputer mit einer Größe von 100.000 GPUs geeignet ist. Diese Architektur hat ausreichend Redundanzkapazität, um Netzwerkfehler zu überstehen, und verbraucht im Vergleich zu einlagigen Netzwerken mit drei oder vier Ebenen weniger Energie.

Zweitens hat die adaptive Paketstreuung des MRC eine hervorragende Lastausgleichsfähigkeit, so dass es im Netzwerkkern praktisch keine Staus gibt.

Dies verringert die Schwankungen der Durchsatzrate zwischen den einzelnen Datenströmen bei synchronen Trainingsaufgaben. Die Beseitigung von anomalen Verzögerungen ist der Schlüssel zur Optimierung der Leistung bei synchronen Trainingsaufgaben. Darüber hinaus stören sich die Aufgaben nicht gegenseitig, selbst wenn mehrere Aufgaben denselben Supercomputercluster teilen.

Drittens umgeht das MRC fehlerhafte Links schnell mit Hilfe des SRv6-Source Routing und leitet Pakete nur auf normal funktionierenden Pfaden weiter.

Dies ermöglicht die Verwendung einer einfachen statischen Netzwerksteuerungsebene und vermeidet von Grund auf eine ganze Klasse von Fehlern, die typisch für dynamische Routing sind.

02 Unterstützung von mehrschichtigen Netzwerken: Niedrigere Kosten und Energieverbrauch

Das MRC nutzt ein mehrschichtiges Netzwerk und betrachtet nicht jede Netzwerkschnittstelle als eine 800-Gb/s-Verbindung, sondern teilt sie in mehrere kleinere Teilverbindungen auf. Beispielsweise kann eine einzelne Netzwerkschnittstelle gleichzeitig mit acht verschiedenen Schaltern verbunden sein. Auf diese Weise kann ein achtfaches unabhängiges paralleles Netzwerk (Netzwerkebene) aufgebaut werden, wobei jede Ebene eine Bandbreite von 100 Gb/s hat, anstatt ein einzelnes 800-Gb/s-Netzwerk zu erstellen.

Der Vorteil davon ist, dass ein Schalter, der ursprünglich 64 800-Gb/s-Ports unterstützte, nach der Umstellung 512 100-Gb/s-Ports bieten kann. Dadurch kann mit nur zwei Schalterebenen ein Netzwerk aufgebaut werden, das etwa 131.000 GPUs vollständig miteinander verbinden kann. Im Gegensatz dazu erfordert die traditionelle 800-Gb/s-Vernetzung eine Architektur mit drei oder sogar vier Schalterebenen.

▲ Unterstützung von mehrschichtigen Netzwerken

Ein derartig konzipiertes Netzwerk hat niedrigere Kosten und einen geringeren Energieverbrauch. Es bietet mehr Pfadvariationen als traditionelle Netzwerke und ermöglicht es, dass mehr Datenverkehr auf der Ebene 0 des Schalters verbleibt, was die Leistung verbessert.

Allerdings ist es oft schwierig, diese Pfadvariationen voll auszunutzen. Traditionelle Netzwerkprotokolle für KI-Trainings erfordern normalerweise, dass jede Datenübertragung über einen festen Pfad erfolgt, um sicherzustellen, dass die Pakete in der richtigen Reihenfolge ankommen.

In einem großmaßstäblichen mehrschichtigen Netzwerk können dies zu zwei Problemen führen: Erstens können verschiedene Datenströme um denselben Link konkurrieren, was zu Netzwerkstaus führt. Zweitens kann ein einzelner Datenstrom nur einen der vielen Netzwerkebenen nutzen. Ohne gezielte Optimierung kann ein mehrschichtiges Netzwerk sogar starke Staus aufweisen, und die Gesamtleistung kann erheblich leiden.

▲ Staus durch Kollisionen von Paketströmen

03 Streuung und Weiterleitung von Paketen über Hunderte von Pfaden

Das MRC ändert diesen Ansatz grundlegend.

Anstatt eine Datenübertragung auf einen einzigen Pfad zu beschränken, verteilt es die Pakete einer einzelnen Übertragung auf Hunderte von Pfaden im Netzwerk und überträgt sie parallel über alle unabhängigen Netzwerkebenen.

Die Pakete können in beliebiger Reihenfolge ankommen, aber alle MRC-Pakete tragen die endgültige Speicheradresse. Daher muss der Empfänger nicht auf die Sortierung warten und kann die Pakete sofort in den Speicher schreiben.

Somit behält jede MRC-Verbindung für die vielen Pfade, die sie nutzt, eine kleine Menge an Statusinformationen bei. Sobald ein Stau auf einem Pfad erkannt wird, wird sofort auf einen anderen Pfad umgeschaltet, um die Last im gesamten Netzwerk auszugleichen.

Wenn ein Paket verloren geht, wählt das MRC eine sichere Strategie und setzt voraus, dass der Pfad möglicherweise fehlerhaft ist. Es deaktiviert dann sofort diesen Pfad und überträgt die möglicherweise verlorenen Pakete erneut.

Nachdem ein Pfad ausgeschaltet wurde, sendet das MRC Prüfpakete, um zu überprüfen, ob tatsächlich ein Fehler vorliegt. Wenn dies der Fall ist, wird überprüft, ob der Link wieder funktionstüchtig ist.

Ein weiterer Grund für Paketverluste ist die Stauung am Ziel. Das MRC kann diese Situation mit einem Pakettrunkierungsmechanismus behandeln: Wenn ein Schalter aufgrund von Stauungen im Begriff ist, ein Paket zu verwerfen, wird nicht das gesamte Paket verworfen, sondern nur die Nutzlast entfernt. Nur der Paketkopf wird an das Ziel weitergeleitet, um eine explizite Neuübertragungsanforderung auszulösen.

Darüber hinaus kann die Pakettrunkierung Fehlurteile effektiv reduzieren und verhindern, dass Paketverluste, die einfach durch Staus verursacht werden, fälschlicherweise als Pfadfehler eingestuft werden.

Durch die Kombination von mehrschichtiger Topologie, Paketstreuung und -weiterleitung, Lastausgleich und Pakettrunkierung kann die MRC-Verbindung Netzwerkfehler im Mikrosekundenbereich erkennen und umgehen, wodurch die Auswirkungen auf die synchrone Trainingsaufgabe verringert werden. Im Vergleich dazu benötigen traditionelle Netzwerk

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Nvidia, AMD, Intel und Broadcom arbeiten zusammen, um die Lücke der verschwendeten GPU-Rechenleistung zu schließen.

01 Lösung von Netzwerkproblemen: Drei Vorteile des MRC für die Erweiterung von Supercomputern

02 Unterstützung von mehrschichtigen Netzwerken: Niedrigere Kosten und Energieverbrauch

03 Streuung und Weiterleitung von Paketen über Hunderte von Pfaden