StartseiteArtikel

NVIDIA erklärt CPO ausführlich, optische Chips erstrahlen bei Hotchips

半导体行业观察2025-08-27 14:15
Hot Chips 2025: NVIDIA und andere präsentieren Optochip-Technologie, gemeinsam verpackte Optik verbessert die Leistung von KI.

Gestern haben wir die wichtigen Präsentationen des ersten Tages von Hot Chips 2025 geteilt. Details können Sie im Artikel "Einen Überblick über beliebte Chips in einem Artikel" nachlesen. Bis heute haben traditionelle Giganten und neue Akteure wie NVIDIA, Ayar Labs, Lightmatter und Celestial detaillierte Präsentationen über optische Chips gehalten. Wir haben diese Informationen zusammengefasst, um unseren Lesern einen Überblick zu geben.

NVIDIAs CPO-Optikkomponenten

Dies war ein aufregender Teil der Hot Chips 2025-Konferenz. Wir haben Gilads Vortrag über den Gigabit-Silikonphotonik-Switch mit gemeinsamer Verkapselung gehört.

Im Vortrag hat NVIDIA zunächst die Anforderungen an die gemeinsame Verkapselung von Photonik diskutiert und wie diese die Skalierbarkeit von KI-Fabriken erheblich verbessern kann. Das Unternehmen hat erwähnt, dass die optische Leistungsaufnahme einer KI-Fabrik etwa 17-mal höher ist als die eines herkömmlichen Cloud-Datenzentrums. Dies liegt hauptsächlich daran, dass die Zunahme von GPU-Clustern die Verwendung von Dutzenden optischen Transceivern zur Kommunikation mit anderen GPUs erfordert. Daher macht der Preis der Netzwerkphotonik allein etwa 10 % der gesamten Rechenleistung einer KI-Fabrik aus. NVIDIA plant, diese hohen Kosten durch die Spectrum-X-Ethernet-Photonik-Technologie zu senken.

NVIDIA betrachtet das Datenzentrum als Computer, nicht als einzelne GPU.

Der BlueField-3 DPU ist als Netzwerkschnittstelle (NIC) für den Netzwerkeingang konzipiert.

Künstliche Intelligenz erfordert kommunikation ohne Jitter, da sie groß, komplex und über weite Entfernungen verteilt ist.

Es gibt viele Arten von Ethernet-Architekturen. Obwohl sie alle Ethernet sind, haben sie unterschiedliche Anforderungen und Ziele.

Das NVIDIA Spectrum-X-Ethernet soll es großen GPU-Clustern ermöglichen, Ethernet zu verwenden.

Es wird berichtet, dass die Spectrum-X-Ethernet-Photonik eine einzigartige Implementierung ist und angeblich die erste Technologie ist, die 200 G/Channel-SerDes verwendet, was ein Spitzenstandard in der Übertragung elektrischer Signale ist. Im Vergleich zu steckbaren Transceivern bietet die Spectrum-X-Photonik eine bessere Signalintegrität und geringere DSP-Anforderungen, da in dieser Implementierung die Photonenmaschine (PIC) direkt neben dem Switch-ASIC platziert ist. Dies bedeutet, dass keine langen PCB-Leitungen erforderlich sind und die Anzahl der Laser erheblich reduziert wird. Beispielsweise wird die Anzahl der Laser für eine 1,6-Tb/s-Verbindung von 8 auf 2 reduziert, was weniger Stromverbrauch und höhere Übertragungszuverlässigkeit bedeutet.

Das Ziel von Spectrum-X ist es, eine Kommunikation mit geringem Jitter für KI-Workloads bereitzustellen. Jitter im KI-Netzwerk führt dazu, dass GPUs in großen GPU-Clustern inaktiv bleiben. Dies ist nicht nur unwirtschaftlich, sondern auch teuer, da die Inaktivität der GPUs Kosten verursacht. NVIDIA entwickelt diese Technologie end-to-end, damit alle Funktionen nicht nur auf dem Switch konzentriert sind.

Spectrum-X bietet eine höhere NCCL-Leistung. NVIDIA möchte sicherstellen, dass bei der gleichzeitigen Ausführung mehrerer Jobs auf einer großen Infrastruktur diese sich nicht gegenseitig beeinträchtigen. Beispielsweise möchten Sie nicht, dass ein Job auf einem Switch die Leistung anderer Jobs stört, wenn gleichzeitig andere Jobs ausgeführt werden.

Dies ist ein neues Produkt dieses Jahres, das zeigt, dass die Scheduling-Leistung von Spectrum-X für gemischte Expert-Modelle besser ist als die von Standard-Ethernet.

Im Folgenden wird der Einfluss von Spectrum-X auf mehrmieterfähige Datenzentren erläutert.

NVIDIAs Silikonphotonik-Lösung verwendet Silikonphotonik-CPO-Chips mit einer Übertragungsrate von bis zu 1,6 T. Diese Lösung integriert MRM (Mikroresonator-Modulatoren), die eine höhere Bandbreite bieten und gleichzeitig den Stromverbrauch und den Platzbedarf reduzieren. Noch wichtiger ist, dass NVIDIA Photonics erstmals die 3D-Stack-Technologie zwischen der Photonen- und der Elektronikschicht anwendet, wodurch die Verkabelungskomplexität verringert und die Bandbreitendichte erhöht wird. Das Green-Team arbeitet mit TSMC in der Silikonphotonik zusammen, da dieser taiwanesische Gigant die erste Wahl für die Erfüllung der Photonikanforderungen ist.

Es wird berichtet, dass die von NVIDIA verwendete Photoniktechnologie in Datenzentren im Vergleich zu optischen Standards eine 3,5-fach höhere Energieeffizienz, eine 10-fach höhere Elastizität und eine 1,3-fach höhere Betriebsdauer aufweist. Dies zeigt, dass KI-Berechnungen enorme Vorteile haben werden, sobald die Photoniktechnologie zum Hauptverbindungsmittel wird. Das Unternehmen hat auch seinen ersten vollständigen Switch mit integrierter Photoniktechnologie, den Spectrum-6 102T, vorgestellt, der das Flaggschiff von Team Green sein wird. Im Folgenden sind seine Hauptfunktionen aufgeführt:

  • 2-fache Durchsatzleistung
  • 63-fache Signalintegrität
  • 4-fache Reduzierung der Anzahl der Laser
  • 1,6-fache Bandbreitendichte
  • 13-fache Verbesserung der Laserzuverlässigkeit
  • Ersatz von 64 unabhängigen Transceivern

Im Folgenden ist eine Zusammenfassung der Unterschiede zwischen Spectrum-X-Ethernet und herkömmlichem (Broadcom-)Ethernet in einer Folie dargestellt.

Da die optischen Netzwerkelemente viel Strom verbrauchen, ist die Skalierung auch eine Herausforderung.

Dies ist die nächste Generation der Spectrum-X-Ethernet-Photoniktechnologie. Sie spart viel Strom, da keine Stromversorgung für die Steckverbindung der optischen Maschine erforderlich ist.

NVIDIA Photonics ist ein 1,6-T-CPO-Chip mit neuen Mikroresonator-Modulatoren. NVIDIA konzentriert sich auch auf abnehmbare optische Kabelverbinder. Wie Sie in den Bildern sehen können, unterscheidet sich die CPO-Verbindung von Spectrum-X und Quantum-X. Dies liegt an der Weiterentwicklung der Lösung.

Um diese Funktionen zu realisieren, müssen viele Komponenten zusammenarbeiten. Es ist wichtig zu beachten, dass in diesem Design ein steckbarer Laser verwendet wird.

NVIDIA hat seine Funktionen im Betrieb demonstriert.

NVIDIA hat einen 102-T-Switch, den Spectrum-6 102T-Switch mit integrierter Silikonphotonik.

So steigt die Zuverlässigkeit, während der Stromverbrauch sinkt.

NVIDIA verfügt über die Quantum-X- und Spectrum-X-Switches und wird bald CPO einführen. Ich werde in Zukunft versuchen, diese Switches ausführlicher zu untersuchen.

Zuerst Skalierung in der Höhe, dann in der Breite, und jetzt wieder in der Breite. Wenn Sie über die Grenzen eines Datenzentrums hinaus skalieren möchten, benötigen Sie nicht nur ein hochwertiges Netzwerk, sondern auch eine extreme Geschwindigkeit.