Fortsetzung des Angriffs auf Nvidia, AMD hat die Kugeln geladen丨Fokus-Analyse
Autor丨Qiu Xiaofen
Redakteur丨Su Jianxun
Am 10. Oktober hat der US-amerikanische Chiphersteller AMD auf der jährlichen Advancing AI-Konferenz eine Reihe von bedeutenden Chip-Updates vorgestellt, die Prozessoren für KI-PCs, EPYC-Prozessoren, DPUs usw. abdecken.
In der aktuellen Situation, da Nvidias neueste Blackwell-Chips auf Lieferprobleme stoßen, steht die Frage, wie AMDs neueste GPU-Produktserie (AMD Instinct MI325X) auftreten wird, direkt in Verbindung mit AMDs Zukunft und zieht folgerichtig das Augenmerk auf sich.
Das Verfolgen von Nvidias Parametern ist eine bewährte Strategie der AMD MI-Serie. Auch der AMD Instinct MI325X-Chip bildet hier keine Ausnahme und wählt eine enge Orientierung an Nvidias Produkt der vorherigen Generation, dem H200.
Die gute Nachricht ist jedoch, dass AMD mittlerweile eine Strategie zur differenzierten Konkurrenz gefunden zu haben scheint – diese Produktreihe konzentriert sich zunehmend darauf, den Schwerpunkt auf die Verbesserung von Speicher und Inferenzleistung zu legen.
Lisa Su, Vorstandsvorsitzende und CEO von AMD, stellt die AMD Instinct MI325X-Chipserie vor
Der AMD Instinct MI325X ist mit 256 GB HBM3E-Hochleistungsspeicher ausgestattet, der eine Speicherbandbreite von 6 TB/s bietet – erheblich höher als beim Nvidia H200 (141G, 4.8 TB/s).
Obwohl das Produkt von AMD in Bezug auf die FP16-Rechenleistung (16-Bit-Gleitkommazahlen) nicht so stark ist wie Nvidia, übertrifft seine Inferenzleistung die des Nvidia H200 um insgesamt 20%-40%.
Das starke Setzen auf Inferenz ist durchaus ein kluger Schachzug. Ein Brancheninsider sagte gegenüber 36Kr, dass ein großer Trend in Rechenzentren dieses Jahr darin besteht, dass einige große Modellentwickler das Pre-Training seltener verwenden und die Nachfrage nach Inferenz und Modellanpassungen steigt.
„Ein Kunde aus einem Rechenzentrum hatte im vergangenen Jahr ein Verhältnis von 7:3 bei Pre-Training und Inferenz, dieses Jahr hat es sich komplett umgekehrt.“ Der Wandel in den Anforderungen der Modell- und App-Entwickler bedeutet, dass auch Chip-Hersteller ihre Strategien rechtzeitig anpassen müssen.
Die alleinige Differenzierung durch einen einzelnen Chip reicht jedoch bei Weitem nicht aus. AMD geht diesmal auch systematisch vor und gleicht die Mängel im Bereich der Verbindung und Software-Ökosysteme aus. Genau hier liegt eine der größten Hürden für Nvidia.
Ein großer Vorteil von Nvidias Produkten ist die Unterstützung von NV-Link, wodurch mehrere einzelne Chips miteinander verbunden werden können, ohne dass die Rechenleistung durch den Austausch zwischen den Chips verringert wird. AMD setzt auf ihre Infinity Fabric-Verbindungstechnologie, um sicherzustellen, dass der kombinierte Einsatz mehrerer Karten wesentlich stärker ist als der Einsatz einzelner Chips.
Berichten zufolge, wenn acht AMD Instinct MI325X zusammen verwendet werden, beträgt die Speicherkapazität 1,8x, die Speicherbandbreite 1,3x und die Rechenleistung ebenfalls 1,3x im Vergleich zur gleichen Anzahl Nvidia HGX H200-Karten.
Im Software-Ökosystem gleicht AMD ebenfalls kontinuierlich Schwächen aus. Die ROCm-Softwareplattform von AMD verbessert nicht nur durch die Anpassung und enge Zusammenarbeit mit mehreren KI-Entwicklungsplattformen, sondern steigert auch die gesamte Effizienz.
Laut Tests von AMD übertrifft der Single-Card-Betrieb des AMD MI325X auf der ROCm-Plattform die Trainingseffizienz des Nvidia H200 bei der Verwendung des Meta Llama-2-Modells. Sogar mit einem AMD-8-Karten-Cluster bleibt die Trainingseffizienz auf dem Niveau des H200 HGX.
Bereits auf der Computex in Taipeh sagte Lisa Su, die Vorstandsvorsitzende und CEO von AMD, dass der Zeitplan für GPU-Produkte Nvidias Tempo angleichen soll, um „ein jährliches Update“ zu schaffen. Neben der Ankündigung der Instinct MI325X-Serie hat AMD auch Details zu zukünftigen Produkten bekanntgegeben –
Laut den Informationen wird die nächste Generation von AMD-Chips, die Instinct MI350-Serie, in der zweiten Hälfte des kommenden Jahres auf den Markt kommen und die Produktlogik dieser Generation fortsetzen, wobei die Inferenzleistung um das 35-fache steigt, der HBM3E-Speicher 288GB beträgt, und die Spitzenrechenleistung um das 1,8-fache erhöht wird, um mit der Rechenleistung von Nvidia B200 gleichzuziehen.
Nachdem die Produktstrategie und der Veröffentlichungsrhythmus nun zunehmend klar sind, stehen die Zeichen für AMD im Jahr 2024 im Datacenter-Bereich auf Sieg.
Lisa Su hat zuvor bekanntgegeben, dass AMD bereits Aufträge von Hunderten von KI-Kunden und OEMs gesichert hat. Der Marktanteil auf dem Servermarkt für Rechenzentren ist von einem lächerlich niedrigen einstelligen Prozentsatz auf nun etwa 30% angestiegen.
Der Quartalsbericht liefert den besten Beweis. Im Juli veröffentlichte AMD Informationen, dass der Umsatz im Datacenter-Geschäft im zweiten Quartal dieses Jahres 2,8 Milliarden US-Dollar erreichte, was zwar immer noch weit hinter Nvidia liegt (22,6 Milliarden US-Dollar), jedoch eine erhebliche Steigerung von 115% im Vergleich zum Vorjahr darstellt und somit der am schnellsten wachsende Bereich innerhalb von AMDs Geschäft ist.
Die Durchbruch von AMD im Bereich der Rechenzentren ist tatsächlich das Ergebnis einer Kombination mehrerer Faktoren - neben der Tatsache, dass die vorherige Produktskatze (MI300-Serie) die richtige Strategie fand und zu einem Hit wurde, kam auch die starke Expansion des gesamten Marktes für Rechenzentren und ein gewisser Spielraum von Konkurrenzfehlern hinzu.
Im vergangenen Jahr waren die GPU-Produkte von Nvidia durch Produktionskapazitätseinschränkungen betroffen, und die Lieferzeit betrug atemberaubende 8-11 Monate. Die Angebotsprobleme verbesserten sich erst im ersten Quartal 2024, doch die Kunden mussten immer noch lange 3 Monate warten.
Und als sich das Blatt zu wenden schien und Nvidias H-Serie dieses Jahr endlich in die Versandspitze eintrat, geriet die neueste Blackwell-Serie-Chip-Produktreihe in eine neue Runde von Lieferproblemen.
Mehrere Quellen deuten darauf hin, dass die ursprünglich für das dritte Quartal dieses Jahres geplante Produktion der neuen Blackwell-Serie-Chips aufgrund von Designfehlern, die zu unzureichender Stabilität führten, sowie durch niedrige Verpackungsquoten in der Lieferkette um ein weiteres Quartal verzögert wurde.
Da die Konkurrenz unter einem Produktions- und Design-Problem leidet, werden die Produkte von AMD selbstverständlich zur besten Option, um die Rechenleistungslücke zu schließen.
Nvidia ist jedoch bemüht, Marktchancen nicht zu verpassen und das Feld den anderen zu überlassen, und arbeitet daran, die Schatten der Verzögerung loszuwerden.
Im Rahmen des AMD-Kongresses hielt Morgan Stanley eine dreitägige Non-Deal-Roadshow für Nvidia ab. Während dieser wurde den Investoren insbesondere vermittelt, dass die Herausforderungen bei Blackwell gelöst sind und die Nachfrage hoch ist; Nvidia "hat alle Chips für das nächste Jahr bereits verkauft".
CEO Jensen Huang deuchte dies auch mehrfach in öffentlichen Äußerungen an und bemerkte, „dass dieser Chip das Produkt ist, das jeder Kunde am meisten haben möchte, und alle wollen der Erste sein, der es erhält“.
Für AMD ist dies möglicherweise keine gute Nachricht. Während das Kapazitätsproblem des Konkurrenten verblasst, findet AMD glücklicherweise nach und nach sein eigenes Tempo im Wettbewerb. Im Jahr 2025 werden die beiden Chipriesen im GPU-Bereich erneut das Schlachtfeld betreten, was dann wiederum ein Schlüsseljahr dafür sein wird, die wahre Gesamtkapazität der beiden zu prüfen.
Weiterführende Literatur:
Ende