StartseiteArtikel

Hat Google mit seiner seit zehn Jahren im Gepäck befindlichen Superwaffe das Ende der guten Zeiten für NVIDIA herbeigebracht?

差评2025-12-06 10:40
Genug geredet. Wann wird der Preis von 5090 fallen?

Schematische Darstellung

Wenn man fragt, wer im vergangenen Monat der größte Sieger unter den Technologiekonzernen war, würde wohl niemand Einwände gegen die Nominierung von Google haben, oder?

Dank des extrem leistungsstarken Gemini 3 ist der Aktienkurs in nur zwei Wochen stark gestiegen. Darüber hinaus hat Google im Wettbewerb OpenAI geschlagen und außerhalb des Wettbewerbs NVIDIA in die Knie gezwungen.

Eine kleine Rückschau, kein großes Problem

Google-Aktienkurs

Warum Huang (CEO von NVIDIA) dabei mit hängen geblieben ist, ist einfach zu erklären. Google hat angegeben, dass das Gemini 3 Pro auf selbstentwickelten TPU (Tensor Processing Unit) trainierte. Zumindest in der Formulierung wurde NVIDIA nicht erwähnt.

Anschließend begannen Medien und Zuschauer zu spekulieren, dass Google diesmal möglicherweise tatsächlich die CUDA-Moat beenden könnte.

Medienbericht

Jetzt stellt sich die Frage: Was genau ist dieser TPU, der anscheinend das Ende der guten Zeiten für NVIDIA bedeutet?

Aus dem Namen kann man schon erkennen, dass es sich um eine Art Chip handelt, der mit dem GPU nahe verwandt ist, aber speziell für AI-Anwendungen entwickelt wurde.

Obwohl der TPU erst kürzlich die Aufmerksamkeit der Menschen erregt hat, ist es ein altes Projekt, das sich seit 2015 bis heute fortsetzt.

So sah der erste TPU aus

Erster TPU

Zu der Zeit durchlief Google die Schmerzen eines technologischen Umbaus und wollte seine traditionellen Such- und Empfehlungsalgorithmen durch Deep Learning ersetzen. Sie stellten fest, dass die GPU nicht nur unzureichend war, sondern auch extrem stromintensiv und somit unrentabel war.

Das Problem der GPU liegt darin, dass sie zu viel können will. Um alles zu können, musste sie eine komplexe Architektur mit Festplatte, Arbeitsspeicher, Grafikspeicher und Kernen aufbauen.

Dies bringt ein großes Problem mit sich. In der Welt der Chips ist die Kosten für die Datenübertragung viel höher als die Kosten für die eigentliche Berechnung. Obwohl die physikalische Entfernung zwischen Grafikspeicher und Kern nur ein paar Zentimeter beträgt, müssen die Elektronen eine weite Reise machen.

Arbeitsweise der GPU

GPU

Daher gehen die meisten Stromkosten nicht für die Berechnung, sondern für die Datenübertragung verloren. Am Ende wird die Energie in Wärme umgewandelt, die dann von einem Lüfter abgeführt werden muss.

Das ist bei der Grafikrendering kein Problem, da die Bilder sehr zufällig sind und man nicht vorhersagen kann, welche Ressourcen benötigt werden. Daher muss man immer wieder in den Grafikspeicher zurückgreifen.

Aber bei der Matrixberechnung in der AI ist alles vorgegeben: wie jedes Element berechnet wird, mit welchem Element es berechnet wird und wie oft es berechnet wird. Ich weiß genau, dass ich eine Zahl bald wieder brauchen werde, aber die GPU speichert sie trotzdem zurück und wartet, dass jemand sie wieder in die Recheneinheit lädt. Ist das nicht reine Verschwendung?

GPU

Deshalb wurde der TPU als ein spezielles Werkzeug für die AI entwickelt. Er entfernt und optimiert diejenigen Module der GPU, die für die AI nicht benötigt werden, wie Grafikmodule, Steuerflussmodule und Schedulingmodule.

Der Kerngedanke besteht darin, die Matrixmultiplikation, die in der AI am häufigsten verwendet wird, zu optimieren. Dazu wurde eine Methode namens "Systolic Array" entwickelt.

Mit dieser Methode wird jedes Element, sobald die Berechnung beginnt, zwischen den dicht gepackten Recheneinheiten weitergeleitet und darf erst zurück in den Speicher gelangen, wenn es vollständig verwendet wurde. So wird die häufige Lese- und Schreiboperation vermieden.

TPU

So erreicht der TPU pro Zyklus Hunderttausende von Rechenoperationen, fast zehnmal so viel wie die GPU. Der erste TPU v1 erreichte einen Energieeffizienzgrad, der 30-mal höher war als der des damaligen NVIDIA Tesla K80, was ihn zu einem sehr kostengünstigen Produkt machte.

Natürlich hat Google zunächst vorsichtig vorgegangen und nicht allzu viel riskiert. Der TPU wurde zunächst nur für die Inferenz verwendet und konnte nicht für das Training eingesetzt werden. Seine Funktionen waren einfach und konnten nicht mit denen der GPU konkurrieren.

Ab der zweiten Generation hat Google begonnen, den Arbeitsspeicher zu erweitern und die Datenübertragungsgeschwindigkeit zu erhöhen. Dadurch kann der TPU während der Berechnung große Mengen an Zwischenergebnissen (wie Gradienten und Gewichte) schnell aufzeichnen und ändern. Seitdem kann er auch für das Training eingesetzt werden.

Mit der Zunahme der Anzahl der TPUv3-Systeme steigt die Trainingsgeschwindigkeit des Modells

TPU

Aber warum bemühen sich die Technologiekonzerne dennoch darum, NVIDIA-Chips zu kaufen, obwohl der TPU für das Training und die Inferenz kostengünstiger ist und ähnliche Leistung wie die GPU erreicht?

Tatsächlich ist es nicht, dass die Unternehmen nicht interessiert sind, sondern dass Google strenge Kontrollen ausübt. Alle TPU werden nur vermietet und nicht verkauft und sind an Google Cloud gebunden. Große Unternehmen können die TPU nicht in ihre eigenen Rechenzentren bringen. Das ist wie, wenn man sein gesamtes Vermögen an Google Cloud abgibt, was natürlich unangenehm ist. Man fürchtet sich, dass der Hals, den NVIDIA nicht strangulieren konnte, von Google endgültig gedrosselt wird.

Trotzdem konnte Apple sich der Attraktivität der günstigen und leistungsstarken TPU nicht entziehen und hat einige TPU gemietet.

Die aktuelle Begeisterung für den TPU hat zwei Gründe. Einerseits hat das Gemini 3 die Erfolgsaussichten des TPU bewiesen, was die Qualität versichert. Andererseits hat Google endlich beschlossen, den siebten TPU, den Ironwood, zu verkaufen.

Siebter TPU Ironwood

Laut einem Bericht von The Information unterhält Meta derzeit Verhandlungen mit Google über einen Milliardenkontrakt. Meta plant, ab 2027 TPU in seinen Rechenzentren einzusetzen und schon im nächsten Jahr einige TPU von Google zu mieten.

Sobald diese Nachricht publik wurde, stieg der Google-Aktienkurs um 2,1%, während der NVIDIA-Aktienkurs um 1,8% sank.

Selbst ein Insider von Google hat behauptet, dass diese neue Strategie von Google möglicherweise Milliarden von NVIDIA wegnehmen könnte, was 10% des Jahresumsatzes von NVIDIA ausmachen würde.

Medienbericht

Die Wall Street ist auch von dem TPU begeistert und sieht ein großes Potenzial in ihm. Selbst Broadcom, das den TPU entwickelt und herstellt, hat seine Geschäftserwartungen verbessert.

Aber es ist unwahrscheinlich, dass der TPU die GPU ersetzen wird.

Der TPU ist ein ASIC (Application-Specific Integrated Circuit), auch bekannt als anwendungsspezifischer integrierter Schaltkreis. Einfach ausgedrückt, ist der TPU nur gut in der Matrixberechnung in der AI und kann sonst nicht viel.

Dies ist sowohl sein Vorteil als auch sein Nachteil.

Arbeitsweise des TPU

TPU

In der heutigen Zeit der großen Modelle besteht ein enormer Bedarf an Matrixberechnung, und der TPU hat damit einen großen Erfolg erzielt. Aber wenn es in Zukunft eine andere, beliebtere Technologie in der AI gibt, die nicht auf der Matrixberechnung basiert, wird der TPU schnell überflüssig.

Außerdem verliert der TPU, wenn er keine Leistungsvorteile in der Berechnung hat, vollständig seinen Wert. Der TPU v4 vor vier Jahren ist heute kaum noch zu sehen.

Im Gegensatz dazu ist die GPU viel flexibler. Nehmen wir die 3090 als Beispiel, die vor fünf Jahren, bevor die Welle der großen Modelle hereinbrach, entwickelt wurde. Dank ihres 24GB großen Grafikspeichers und der rückwärtskompatiblen CUDA-Oekosystem ist sie immer noch eine sehr kostengünstige Karte für die AI-Anwendung. Sie kann problemlos ein kleines Modell wie Llama 8B ausführen.

Selbst wenn die AI-Branche in Zukunft an Attraktivität verliert, kann die GPU immer noch für die Spieleentwicklung und die Grafikgestaltung eingesetzt werden und wird weiterhin erfolgreich sein.

Außerdem ist das CUDA-Oekosystem immer noch der größte Vorteil von NVIDIA.

Es ist wie, wenn man sich an iOS gewöhnt hat. Obwohl Android auch sehr gut ist, würde man wahrscheinlich zögern, seine zehn Jahre alten Fotos, gewohnten Bedienungsmuster und gekauften Apps auf Android zu übertragen. Man würde eher warten, bis es die nächste Gelegenheit gibt.

Das Gleiche gilt für die heutigen AI-Entwickler. Ihre Codes basieren auf CUDA, die verwendeten Bibliotheken wurden von NVIDIA optimiert, und sogar die Fehlerbehebungen werden hauptsächlich im Zusammenhang mit CUDA gesucht.

Will man auf den TPU umsteigen? Gut, aber man muss zunächst den Code neu schreiben und sich an die neue Entwicklungsumgebung gewöhnen.

Selbst wenn man PyTorch nutzt, müssen viele untere Ebenen der Optimierung und benutzerdefinierte Operatoren neu eingestellt werden, wenn man auf den TPU umsteigt. Die spezielle Programmiersprache JAX erhöht auch die Schwierigkeit bei der Personalrekrutierung.

Für die meisten kleinen und mittleren Unternehmen, die nur schnell ein Modell ausführen möchten, ist es einfacher, NVIDIA-Chips zu kaufen, anstatt sich mit der Anpassung an den TPU herumzuschlagen oder sogar gar keinen Zugang zu ihm zu haben.

Sozialmedien-Screenshot

Übrigens kauft Google selbst immer noch viele NVIDIA-GPU, auch wenn es sie nicht selbst verwendet, denn seine Kunden auf Google