StartseiteArtikel

Lao Huang antwortet mit 20 Milliarden Yuan an finanziellen Mitteln auf Google: Zusammenarbeit mit Groq, um die Schwächen bei der Inferenz auszugleichen

量子位2025-12-28 16:15
Die GPU kann die Anforderungen der KI-Inferenz nicht erfüllen.

Jay gesendet von Aofeisi Quantum Bit | Offizielles WeChat-Konto QbitAI

Huang ist präzise und aggressiv. Sobald die Bedrohung durch Googles TPU auftauchte, hat er mit finanziellen Mitteln geantwortet.

Er hat locker 20 Milliarden US-Dollar in eine heiß umkampfte „neue Schaufelfabrik“ - Groq - investiert.

Dies markiert zweifellos eine wichtige Strategie des Chipriesen für die neue Ära der Künstlichen Intelligenz. In gewissem Maße spiegel es auch Huang's Sorgen vor einer Reihe neuer Chip-Paradigmen, einschließlich der TPU, wider.

Also, was kann Groq für NVIDIA eigentlich bringen?

Für diese Frage hat der bekannte Tech-Investor Gavin Baker seine Meinung geäußert.

Seine Reihe von technischen Analysen weist alle auf das am schwächsten verteidigte Territorium des NVIDIA-Reiches - Inferenz - hin.

Bei der Inferenz ist die Geschwindigkeit des Groq LPU weit höher als die von GPU, TPU und allen bisher bekannten ASICs.

Gavin Baker

Diese Meinung hat viele Netizens gefallen:

Die GPU-Architektur kann die Nachfrage des Inferenzmarktes nach geringer Latenz überhaupt nicht befriedigen. Die Geschwindigkeit des externen HBM-Speichers ist einfach zu langsam.

Meinungen der Netizens

Einige Netizens haben jedoch darauf hingewiesen, dass das von LPU eingesetzte SRAM möglicherweise nicht für die Decodierung von langen Kontexten geeignet ist.

Hierzu ist Gavin der Meinung, dass NVIDIA dieses Problem durch eine „mischte“ Produktstrategie lösen kann.

Gavin Baker

Schauen wir uns das genauer an -

Groq: Ein Impfstoff, den NVIDIA für 20 Milliarden US-Dollar erworben hat

Gavin ist der Ansicht, dass der grundlegende Grund für die Unangepasstheit der GPU in der neuen Ära darin liegt, dass die beiden Phasen des Inferenzprozesses, Prefill und Decode, völlig unterschiedliche Anforderungen an die Chip-Leistung stellen.

Schauen wir uns zuerst Prefill an:

Einfach ausgedrückt, bedeutet dieser Schritt, dass das Modell die „Fragen“ liest und die vom Benutzer bereitgestellten Schlüsselinformationen im Kopf merkt, um sie später aufzurufen.

Während des Lesens der Fragen nimmt das Modell den vom Benutzer gegebenen Kontext auf einmal auf, und alle eingegebenen Token können gleichzeitig berechnet werden.

Dies ist genau die Bühne, auf der die GPU am besten ist. Sie wurde für die Grafikverarbeitung entwickelt und kann Tausende von Pixeln auf einmal berechnen. Sie eignet sich von Natur aus für die Verarbeitung paralleler Aufgaben.

In dieser Vorbereitungsphase muss das Modell nicht eilig sein, auf die Benutzerfragen zu reagieren. Selbst wenn es eine Verzögerung gibt, kann das Modell die Wartezeit vollständig durch die Anzeige von „Denke nach“ verdecken.

Daher benötigt Prefill im Vergleich zu „Geschwindigkeit“ einen Chip mit größerer Kontextkapazität.

Aber beim Decode gilt diese Logik nicht mehr.

Decode ist eine serielle Aufgabe und muss Token für Token berechnet werden. Noch wichtiger ist, dass der Benutzer den Prozess sehen wird, wie die Token nacheinander „ausgegeben“ werden. In diesem Fall ist die Latenz für die Benutzererfahrung tödlich.

Allerdings werden die Daten der GPU hauptsächlich im HBM gespeichert, nicht im auf dem Chip integrierten Speicher. Dies bedeutet, dass die GPU jedes Mal, wenn ein Token generiert wird, erneut Daten aus dem Speicher lesen muss.

Zu diesem Zeitpunkt wird das Problem der GPU offensichtlich - der größte Teil der Rechenleistung ist inaktiv, die FLOPs können überhaupt nicht voll ausgelastet werden, und die GPU wartet oft darauf, dass der Speicher die Daten herüberbringt. Die tatsächliche Rechenmenge ist weit geringer als bei Prefill.

Im Vergleich dazu hat Groq eine bessere Lösung - LPU.

Im Gegensatz zum HBM verwendet der LPU SRAM, das direkt in das Chip-Silizium integriert ist. Dieser auf dem Chip integrierte Speichermodus erfordert kein Lesen von Daten, was seine Geschwindigkeit 100 Mal höher macht als die der GPU. Selbst wenn es nur einen einzelnen Benutzer verarbeitet, kann es eine Geschwindigkeit von 300 - 500 Token pro Sekunde erreichen und stets voll ausgelastet bleiben.

Die Tatsachen zeigen, dass der LPU in Bezug auf die Geschwindigkeit fast unschlagbar ist - nicht nur die GPU, sondern auch die TPU und die meisten ASICs auf dem Markt können ihm kaum folgen.

Aber dies hat auch seinen Preis.

Im Vergleich zur GPU hat der LPU eine viel kleinere Speicherkapazität. Ein einzelner Groq LPU-Chip hat nur 230 MB SRAM auf dem Chip.

Zum Vergleich: Selbst der NVIDIA H200 GPU ist mit einem HBM3e-Speicher von bis zu 141 GB ausgestattet.

Das Ergebnis ist: Man muss Hunderte oder Tausende von LPU-Chips verbinden, um ein Modell laufen zu lassen.

Nehmen wir das Beispiel von Llama - 3 70B. Mit NVIDIA GPUs benötigt man nur zwei bis vier Karten, die man in eine kleine Serverbox stecken kann. Für dasselbe Modell werden jedoch Hunderte von LPU benötigt, und die belegte Fläche wird auch viel größer sein als in einem Rechenzentrum, das GPUs verwendet.

Das bedeutet, dass selbst wenn die Preise für einzelne LPU-Chips niedriger sind, die gesamte Hardwareinvestition dennoch sehr hoch sein wird.

Daher ist die wichtigste Frage, die AI-Unternehmen bei der Überlegung des LPU berücksichtigen müssen -

Wollen die Benutzer für „Geschwindigkeit“ bezahlen?

Vor einem Jahr konnte der Markt diese Frage noch nicht beantworten. Aber angesichts der aktuellen Geschäftsergebnisse von Groq ist es sehr klar: „Geschwindigkeit“ ist eine reale und enorme Nachfrage, die noch immer schnell wächst.

Für NVIDIA ist dies nicht nur ein neues Geschäftsfeld, sondern auch ein Hochrisikobereich, in dem sich Störer herumtummeln. Wenn NVIDIA diesen Trend verpasst, könnte seine Chance in der AI-Ära von neuen Spielern unterlaufen werden, ähnlich wie NVIDIA damals andere Wettbewerber durch das Spielegeschäft unterlaufen hat.

Um die Erosion seiner Schutzmauern durch diese Wettbewerber zu verhindern, hat NVIDIA sich entschieden, den Impfstoff namens Groq zu bekommen. NVIDIA hofft, durch die Akquisition von Talenten neues Blut einzubringen, um die Lücke in der Inferenz bei niedriger Latenz zu schließen und das NVIDIA-Ruderboot aus der Innovatorensackgasse zu helfen.

Die „Schaufel“ tritt in eine neue Ära ein

Der Aufstieg der TPU hat eine Lücke in NVIDIAs unbesieglichen Schutz aufgerissen.

Durch die Eigenentwicklung von Chips hat Google es geschafft, sich von den teuren NVIDIA-GPUs zu befreien. Dies hat Google in hohem Maße dabei geholfen, die Kosten für das Training und die Inferenz zu senken. Dadurch kann Google auch bei der Bedienung einer großen Anzahl von kostenlosen Benutzern immer noch ein recht gesundes Finanzkonto aufrechterhalten.

Googles Rückzug durch Gemini 3 Pro hat bewiesen, dass die GPU nicht die einzige Lösung in der AI-Ära ist. Angesichts der schnellen Iteration des technologischen Zyklus müssen die als „Herz“ der AI fungierenden Chips auch entsprechend den verschiedenen Entwicklungsphasen angepasst werden.

Mit der Verlangsamung des Fortschritts der Basis-Modelle beginnt der Schwerpunkt des AI-Wettbewerbs sich von der Trainingsschicht zur Anwendungsschicht zu verschieben. Und auf dem AI-Anwendungsmarkt ist die „Geschwindigkeit“ für die Benutzererfahrung von entscheidender Bedeutung.

Die Akquisition von Groq ist zwar auch eine indirekte Anerkennung der Schwächen des Unternehmens auf dem Inferenzmarkt, aber es markiert auch eine weitere Expansion des NVIDIA-Reiches.

NVIDIA, das die Vorabtrainingsphase dominiert, will diesmal mit dem Wind von Groq in das „Inferenzland“ eintreten, in dem sich die Wettbewerber wie Pilze nach dem Regen bilden.

Und auf diesem neuen Markt wird NVIDIA vielleicht nicht mehr so erfolgreich sein wie heute.

Wie der CEO von Groq sagte, ist der Inferenz-Chip eine Aufgabe mit hohem Umsatz, aber niedrigen Gewinnen. Dies unterscheidet sich völlig von der GPU, für die Kunden auch bei exorbitanten Preisen kämpfen und die eine Gewinnmarge von 70 - 80 % hat.

Referenzlinks: [1]https://x.com/gavinsbaker/status/2004562536918598000[2]https://www.uncoveralpha.com/p/the-20-billion-admission-why-nvidia

Dieser Artikel stammt vom WeChat-Account „Quantum Bit“. Verfasser: Fokus auf Spitzentechnologie. Veröffentlicht von 36Kr mit Genehmigung.