StartseiteArtikel

Ein Chip-Startup geht gegen Nvidia und Intel an.

半导体行业观察2025-10-23 11:29
NextSilicon hat den Maverick-2 Intelligenten Rechenbeschleuniger vorgestellt, der eine Nicht-von-Neumann-Architektur nutzt, um die Leistung von HPC-AI zu verbessern.

Ein einzigartiger Chip

Wie in der folgenden Abbildung gezeigt, hat der Maverick - 2 - Chip vier Rechenbereiche, und 32 RISC - V E - Kerne befinden sich an den äußeren Rändern links und rechts des Chips. Statistisch gesehen besteht das Rechenblock - Gitter aus sieben Spalten mit jeweils acht Rechenblöcken, insgesamt also 224 Rechenblöcke auf dem Chip. Jeder Rechenblock hat Hunderte von ALUs, sodass man leicht Tausende bis fast Hunderttausende von ALUs erhält. Für einen Chip wie den Maverick - 2, der mit der TSMC 5 - Nanometer - Technologie hergestellt wurde und 54 Milliarden Transistoren hat, scheint diese Anzahl nicht sinnvoll zu sein.

Aber wenn wir wie in der NextSilicon - Darstellung ein 14 x 14 - Gitter annehmen, hat jeder Rechenblock 196 ALUs. Wir wissen nicht, wie viele Floating - Point - Units in einem Rechenblock enthalten sind. Es wäre sinnvoll, wenn jede ALU eine FPU hätte.

Zum Vergleich: Nvidias „Ampere“ A100 GPU wurde mit der TSMC 7 - Nanometer - Technologie hergestellt und hat 54,2 Milliarden Transistoren und 6.912 FP32 CUDA - Kerne. Die „Hopper“ H100 und H200 GPUs wurden mit der 4 - Nanometer - Technologie hergestellt und haben 80 Milliarden Transistoren und 18.432 FP32 - Kerne. Der Blackwell B200 - Steckplatz hat zwei Chipgruppen, jede mit 104 Milliarden Transistoren, aber nur 16.896 CUDA - Kerne pro Chipgruppe und wurde ebenfalls mit der 4 - Nanometer - Technologie hergestellt. Wir vermuten, dass die ALUs kleiner als die CUDA - Kerne sind und dass es auf dem Maverick - 2 - Chip mehr ALUs gibt als CUDA - Kerne auf Nvidias GPUs.

Letztendlich ist die Anzahl der ALUs nicht so wichtig wie die Anzahl der Threads, die von einer Gruppe von Mill - Kernen unterstützt werden kann. Ilan Tayari, Mitbegründer und Architekturreferent von NextSilicon und ehemaliger Softwarechef von Mellanox (jetzt Nvidias Netzwerkabteilung), sagte, dass ein typischer CPU zwei Threads hat, eine GPU 32 bis 64 Threads, aber ein Mill - Kern mehrere hundert Threads gleichzeitig unterstützen kann. Natürlich variieren die Größe und Form der Mill - Kerne, aber jeder Rechenblock hat möglicherweise Dutzende von Mill - Kernen, und jeder Maverick - 2 hat 224 Rechenblöcke, sodass er leicht Tausende von Threads unterstützen kann. Alle Threads laufen mit einer Frequenz von 1,5 GHz – etwa so schnell wie ein langsamer CPU oder eine durchschnittliche GPU – und alle sind an einen HBM3E - Speicher angeschlossen, um eine schnelle Bandbreite zu erhalten.

Wie in der rechten Abbildung oben gezeigt, ist die Hauptlogikeinheit an einen Speicherbus angeschlossen, der eine Reservierungsstation enthält, um Daten vor der Anforderung durch die ALU temporär zu speichern. (NextSilicon hat ein Patent auf diese Kombination aus Reservierungsstation, Scheduler und Datenfluss - Rechenblock.) Wie bei einem herkömmlichen CPU verwendet auch der Maverick ICA eine Speicherverwaltungseinheit und einen Translation Lookaside Buffer, aber diese werden nur selten verwendet und nur, wenn die ALU bestimmte Daten anfordert. Er macht keine Vorhersagen oder Prognosen, sondern nur Datenextraktion.

Tayari sagte stolz: „Die Datenfluss - Architektur von NextSilicon ermöglicht es uns, die Kosten im Vergleich zu herkömmlichen CPUs und GPUs erheblich zu reduzieren. Wir haben die Verteilung der Siliziumressourcen angepasst. Wir verwenden die meisten Ressourcen für die eigentliche Berechnung und nicht für die Steuerungskosten. Unsere einzigartige Methode beseitigt die Befehlsverarbeitungskosten. Wir minimieren die unnötige Datenverschiebung, sodass die Recheneinheiten ständig ausgelastet sind. Wir versuchen nicht, die Latenz zu verstehen...