StartseiteArtikel

In Bezug auf Rubin haben wir sechs Schlüsselfragen aufgelistet.

新眸2026-01-07 20:54
NVIDIA beginnt, eine Ähnlichkeit der Vorstellungskraft wie Apple zu haben.

NVIDIA hat auf der CES 2026 keine neuen Grafikkarten vorgestellt.

Stattdessen hat Jensen Huang in fast zwei Stunden ausführlich über eine brandneue AI-Supercomputer-Architektur namens Vera Rubin und eine Reihe von Zahlen, die die Branchenregeln ändern könnten, gesprochen:

Beim Ausführen von AI-Inferenz auf Rubin steigt die Durchsatzleistung um das Zehnfache. Die Anzahl der GPU-Karten, die für das Training von Modellen mit Billionen von Parametern benötigt wird, kann auf ein Viertel der Anzahl bei der Vorgängerarchitektur Blackwell reduziert werden, und die Kosten pro Token sinken auf ein Zehntel.

Dieser Vorfall könnte ein Signal in sich bergen.

Es könnte darauf hinweisen, dass bei der herkömmlichen Konsum-GPU die durch Prozessminiaturisierung und architektonische Mikroiterationen erzielten Leistungszuwächse an Effizienz verlieren oder zumindest nicht mehr ausreichen, um ein aufregendes Produktvorstellungsereignis zu ermöglichen.

Im Folgenden stellen wir einige Überlegungen zu diesem Thema vor.

Zum Fehlen neuer Grafikkarten und dem Geschäftsmodell von Rubin

Um Rubin zu verstehen, muss man die Perspektive ändern.

Es handelt sich nicht um eine schnellere GPU, sondern um ein hochgradig vertikal integriertes AI-Berechnungssystem. NVIDIA hat sechs spezialisierte Chips mit unterschiedlichen Funktionen, aber enger Kopplung, entwickelt und zu einem Paket zusammengefasst:

Vera CPU (verantwortlich für die Steuerung der AI-Datenströme), Rubin GPU (das zentrale Rechenleistungselement), NVLink 6 (eine interne Verbindung mit extrem hoher Bandbreite), ConnectX-9 SuperNIC (ein spezielles Netzwerk für AI), BlueField-4 DPU (zur Offloading von Speicher- und Sicherheitsaufgaben), Spectrum-6-Ethernet-Switch-Chip.

Diese sechs Chips arbeiten zusammen, um ein gesamtes Rechenzentrumsschrank in einen nahtlos funktionierenden "Riesen-AI-Computer" zu verwandeln.

Rubin löst das Problem der Skalierbarkeit des Systems, nicht die Leistungsschranken einzelner Chips. Die Stapelung von Rechenleistung wird von einem "handwerklichen Zusammenbau von Rennwagenmotoren" zu einem "standardisierten Automobilfabrikband". Die daraus resultierende Effizienzsteigerung und Kostensenkung sind die natürlichen Ergebnisse einer systemweiten Optimierung.

Dieses Modell ist tatsächlich vergleichbar mit Google's Ansatz, seine eigene AI-Infrastruktur mithilfe von TPU und deren Vernetzungstechnologien aufzubauen. NVIDIA's Rubin richtet sich an Kunden mit ähnlichen Bedürfnissen wie Google - nämlich an Superunternehmen der AI-Branche oder Cloud-Dienstleister, die eine riesige Anzahl von Tokens verarbeiten, Modelle mit Billionen von Parametern trainieren und ausführen müssen.

Im Vergleich zu NVIDIA's bisherigem Geschäftsmodell gibt es hier eine gewisse Wende von der "Verkauf von Schaufeln" hin zum "Verkauf von Produktionshallen". Die Leistungszuwächse (z. B. zehnmal höhere Inferenzdurchsatzleistung) und die Kostensenkungen (ein Zehntel der Token-Kosten) sind das Potenzial, das diese spezialisierte, systemweite Optimierung freisetzen kann.

Aber auch hier liegen die Grenzen.

Rubin kann seine volle Macht nur bei der Verarbeitung von vordefinierten, hochgradig parallelen AI-Berechnungsaufgaben entfalten. Für Szenarien wie Grafikrendering, allgemeine wissenschaftliche Berechnungen oder die Inferenz kleiner Modelle können die Komplexität und die Kosten unrentabel sein. Es zielt auf einen großen, aber speziellen "Hauptmarkt" ab.

Zum Einfluss auf die bestehende AI-Hardware-Ökosystem

Wird mit der Einführung von Rubin die Ära, in der die "Ansammlung von High-End-GPUs" als Kernkompetenz galt, ihrem Ende entgegengehen?

Wenn Rubin tatsächlich eine breite Marktdurchdringung erzielen kann, werden sich einige unangenehme Situationen ergeben:

Für die ersten Unternehmen, die von Kauf, Verkauf oder Leasing von Rechenleistung (z. B. H100-Clustern) profitieren, wird ihr Geschäftsmodell unter starkem Druck stehen. Wenn das neue System Inferenzdienste zu viel niedrigeren Kosten pro Einheit anbieten kann, wird der Kostenvorteil der alten Cluster schnell verloren gehen, es sei denn, sie können schnell auf die neue Architektur umsteigen.

Für die AI-Unternehmen, die in der Frühphase viel Geld in die Eigenbau von GPU-Clustern investiert haben, ist die Situation noch subtiler. Diese Hardwareanlagen werden kurzfristig nicht abgeschrieben und können weiterhin für die Forschung und die bestehenden Dienste genutzt werden.

Das Problem liegt jedoch in der zukünftigen Wettbewerbsdimension.

Wenn neue Marktteilnehmer dank der kostengünstigen Rechenleistung von Rubin leicht eine ähnliche Inferenzleistung erzielen können wie Sie, verliert die von Ihnen mit hohen Kapitalaufwendungen errichtete Rechenleistungsschranke schnell an strategischem Wert. Der Wettbewerb wird sich schneller und gründlicher auf die Überlegenheit der Modellalgorithmen, die Einzigartigkeit der Daten und die Datenkreisläufe sowie die Passung zwischen Produkt und Markt verlagern.

NVIDIA's eigene Rolle wird sich dadurch ebenfalls entwickeln. Es nähert sich dem Modell von "Qualcomm in der AI-Ära", d. h. es bietet zentrale, standardisierte Rechenmodule. Die Integrationsstufe von Rubin ist jedoch viel komplexer als die eines Mobiltelefon-SoC und nähert sich eher der Bereitstellung eines gesamten Referenzentwurfs und einer Systemlösung.

In Zukunft, wenn seine Supercomputer-Architektur (z. B. DGX SuperPOD) in Form von Cloud-Diensten in großem Maßstab bereitgestellt wird, wird es auch die Eigenschaft eines "Netzbetreibers" erhalten und direkt Endbenutzern AI-Rechenleistung anbieten.

Zur Frage der Dauer der "Token-Niedrigpreis-Ära"

Die Dauer der "Ära der kostengünstigen Inferenz", die Rubin verspricht, hängt von zwei Schlüsselvariablen ab: der Wachstumsgeschwindigkeit der Rubin-Verkäufe und der Iterationsgeschwindigkeit der Modellfähigkeiten der bestehenden Giganten.

Wenn Rubin im zweiten Halbjahr 2026 wie geplant in Serie kommt und schnell von den wichtigsten Cloud-Anbietern (z. B. AWS, Azure, GCP) eingesetzt wird, wird der Zugangspunkt für diese "kostengünstige Rechenleistung" schnell verbreitet.

Die Zeitspanne könnte nicht lang sein. In dieser Zeit müssen die bestehenden Unternehmen einen entscheidenden Wandel von der "Abhängigkeit von Hardwaregröße" hin zur "Abhängigkeit von Software- und Ökosystemvorteilen" vollziehen.

Konkret müssen sie möglicherweise: Die bestehende Rechenleistung nutzen, um Modelle mit generationalen Unterschieden schneller zu trainieren und so eine ausreichend hohe Algorithmusbarriere aufzubauen; Ihr Geschäft schnell eng mit konkreten Geschäftszenarien verbinden, um Datenkreisläufe und Kundenbindung zu schaffen, so dass die Rechenleistungskosten nicht mehr der entscheidende Faktor sind; Aktiv nach innovativen Anwendungen und Ökosystemen auf der Grundlage der bestehenden Modelle suchen, um vor der Welle der kostengünstigen Rechenleistung die Aufmerksamkeit der Benutzer zu erregen und Marktanteile zu erwerben.

Wenn die Kosten für den Zugang zu fortschrittlicher Rechenleistung für alle gleich werden, können die Unternehmen, die nur auf die Anhäufung von Rechenleistung setzen und keine einzigartigen Technologien oder Produktbarrieren haben, schnell ihren Vorteil verlieren.

Zum AI-Blase und den nächsten "Kandidaten"

Es ist zu beachten, dass die Masseneinführung von Rubin die größten Kosten- und Skalierungsbarrieren für die vollständige Umsetzung des kommerziellen Werts von AI beseitigt, aber selbst nicht automatisch Wert schafft.

Einfach ausgedrückt, es löst das Problem der "Kostenvorschussbarkeit", nicht das Problem der "Existenz der Nachfrage".

Die AI-Blase-Theorie stellt immer wieder die Frage, ob die astronomischen Trainingskosten einen angemessenen kommerziellen Wert generieren können. Rubin senkt die Kosten, was in der Tat die Schwelle für die Validierung des kommerziellen Werts erheblich senkt.

Mehr Startup-Teams können mit vertretbaren Kosten aggressivere und komplexere AI-Ideen testen. Daher ist die nächste Logik nicht der Zusammenbruch der Blase, sondern der Übergang der Branche von einer Phase, in der sie auf Kapitalanhäufung angewiesen war, zu einer gesünderen Phase, in der Innovation statt Kapital im Vordergrund steht.

Die ersten Unternehmer, die die Rechenleistung von Rubin effektiv nutzen können, sind möglicherweise nicht diejenigen mit den größten finanziellen Mitteln, sondern die Teams, die die tiefste Einsicht in AI-Eingeborenene Anwendungen haben und das Potenzial der kostengünstigen Inferenz am besten nutzen können. Sie könnten die "Kandidaten" für die nächste "Killer-App" sein.

Wenn man es von einer größeren Perspektive betrachtet, hat die bisher hohe Rechenleistungskosten dazu geführt, dass nur wenige Spieler am Markt teilnehmen konnten. Ihre Geschichten basieren auf der Tatsache, dass sie "seltene Rechenleistung" haben, und die Validierung des kommerziellen Werts wurde hinausgeschoben.

Die neue Logik nach Rubin ist, dass die Rechenleistungsschwelle rapide sinkt und die Anzahl der Marktteilnehmer sprunghaft zunimmt. Dies kann natürlich dazu führen, dass eine große Anzahl von homogenen Anwendungen auftaucht und der Markt Wettbewerb plötzlich extrem brutal wird. Denn viele Anwendungen, die nur auf der Basis von "ich habe eine AI-Funktion" funktionieren, werden schnell an Wert verlieren, da sie keine einzigartigen Vorteile bieten können, wenn die Kosten ähnlich sind.

Die echten Wertschöpfer (Teams mit einzigartigen Daten, raffinierten Algorithmen und tiefgreifender Branchenkenntnis) werden sich herauskristallisieren, während die "Schwimmer ohne Badehose" schneller aufgedeckt werden. Daher könnte der Eintritt von Rubin nicht das Ende der Blase bedeuten, sondern eher den Beginn einer noch heftigeren Eliminationsrunde.

Zu den tieferliegenden Gründen für die Nichtvorstellung neuer Grafikkarten

Es ist wirklich interessant, dass Jensen Huang, ein Genie auf dem Gebiet des Vertriebs, auf dieser globalen CES-Konferenz keine Grafikkarten vorgestellt hat. Wir können sogar vernünftigerweise vermuten, dass man unter den physikalischen Grenzen der Halbleiterindustrie der Innovationsgrenze nahe kommt?

Bei der traditionellen Miniaturisierung der Transistoren in GPUs wird es tatsächlich schwieriger, von einer Generation zur nächsten signifikante Leistungszuwächse zu erzielen. Gleichzeitig hat die Wachstumskurve und der Gewinnspielraum des AI-Rechenzentrenmarktes eine absolute strategische Anziehungskraft ausgeübt.

Angesichts der weiterhin knappen Kapazitäten in Bereichen wie fortschrittliche Verpackungstechniken und HBM-Speicher war es für NVIDIA fast unvermeidlich, seine Ressourcen (Forschung und Entwicklung, Produktionskapazität, Marktbotschaften) vorrangig in das Feld der AI-Infrastruktur zu investieren, das seine Zukunft bestimmt.

Andererseits hat NVIDIA in den letzten Jahren seine dominierende Position in der Branche in einigen Aspekten in Frage gestellt, insbesondere durch die Umwälzungen von Technologiekonzernen wie Google.

Ohne die Vorteile neuer Prozesstechnologien oder einer bahnbrechenden architektonischen Innovation könnte die hastige Vorstellung von nur geringfügig verbesserten Produkten den Marktrhythmus stören und die Verkäufe der bestehenden Produktlinien (z. B. die RTX 40-Serie) beeinträchtigen. NVIDIA hat das Kapital, um auf einen passenderen Zeitpunkt für die Produktvorstellung zu warten.

Präktischere Fragen

Abgesehen von den oben genannten Aspekten gibt es noch zwei sehr praktische Fragen: Erstens, ob die Kosten und die Erträge bei der Migration von der bestehenden Architektur zu Rubin übereinstimmen; zweitens, das Risiko der Stabilität und Robustheit des neuen Hardware-Architektur.

Für die Branchenmitglieder ist die Migration von der Blackwell-Architektur oder noch älteren Architekturen zu Rubin weit mehr als ein einfacher Hardwarekauf.

Das typischste Beispiel ist das Rubin-System, das sechs Spitzenchips integriert und eine vollständige Flüssigkeitskühlung aufweist. Der Preis eines einzigen Schrankes oder einer einzigen Palette wird unweigerlich extrem hoch sein und deutlich höher als der der aktuellen Generation von Systemen.

Auch in Bezug auf die Rechenlogik zahlen die Kunden nicht einfach nur für die aktuelle Rechenleistung, sondern kaufen sich einen Zugang zu einer neuen AI-Kostenstruktur. Der entscheidende Vergleichskriterium ist nicht die "Gesamtbetriebskosten (TCO)", sondern die "Kosten pro Intelligenz (Cost Per Intelligence)" - d. h. die Gesamtkosten für die Verarbeitung von Billionen von Tokens und das Training von Modellen mit Billionen von Parametern.

Ist es also lohnend? Für die Forschung und Entwicklung von Spitzenmodellen (z. B. Labore, die nach künstlicher allgemeiner Intelligenz streben) und für Super-Cloud-Dienstleister der AI-Branche, die in einem extrem competitivem und schnell wechselnden Umfeld operieren, ist die Antwort wahrscheinlich ja.

Selbst wenn der Hardwarepreis hoch ist, kann eine Investition in Rubin in kürzester Zeit durch die Marktführerschaft und niedrigere Betriebskosten amortisiert werden, wenn es gelingt, die Kosten für die Inferenz von Milliarden von Tokens um eine Größenordnung zu senken oder ein stärkeres Modell Monate vor den Konkurrenten auf den Markt zu bringen. Dies ist ein Kampf ums Überleben und die Führung.

Aber es gibt auch versteckte Kosten bei der Migration und Anpassung. Beispielsweise müssen die bestehenden Deep-Learning-Frameworks, die Modellarchitekturen und die Scheduler-Software für die NVFP4-Tensorkerne von Rubin, die neue Speicherhierarchie (z. B. die von BlueField-4 angetriebene Kontextspeicherplattform) und das CPU-GPU-Kooperationsmodell tiefgreifend optimiert oder sogar teilweise neu geschrieben werden. Dies erfordert einen großen Zeitaufwand für Ingenieure und Kosten für die Validierung.

Die Entscheidungsträger müssen auch berücksichtigen, wann die Investition amortisiert wird. Beispielsweise:

Wie stark wird das Geschäftsvolumen (Inferenzanfragen, Modelltrainingsprojekte) aufgrund der niedrigeren Token-Kosten von Rubin steigen? Wie viel Stromkosten können durch die Energieeffizienzsteigerung des neuen Architektur eingespart werden? Ist der Nettobarwert (NPV) einer Vorabinvestition in Rubin positiv im Vergleich zu der Option, das alte System aufrechtzuerhalten, aber mit höheren Grenzkosten und einem allmählichen Verlust der Wettbewerbsfähigkeit zu leben?

Für die meisten Unternehmen wird dieser Gleichgewichtspunkt möglicherweise nicht sofort erreicht werden.

Andererseits ist die Stabilität und Robustheit das natürliche Gegenstück einer solchen systemweiten Spitzeninnovation.

Bei jeder Hardwaretechnologie führt eine sprunghafte Zunahme der Komplexität zwangsläufig zu einer Verbreitung von Fehlerquellen. Bei traditionellen GPU-Clustern können die Aufgaben einfach auf