StartseiteArtikel

Neuester Podcast der Autorin/Autoren von Flash Attention: Die Herrschaft der NVIDIA-GPUs wird innerhalb von drei Jahren enden.

量子位2025-09-29 15:21
In den nächsten Jahren wird ein Teil der Workloads in die Ära der "Multi-Chip"-Architektur eintreten.

Wie lange kann NVIDIA noch so "ungebremst" agieren? - Höchstens drei Jahre!

Benötigt die Realisierung von AGI eine neue Architektur? - Nein, der Transformer reicht aus!

"In den letzten Jahren hat sich die Inferenzkosten um das 100-fache gesenkt, und es besteht die Hoffnung, dass sie in Zukunft noch um das 10-fache sinken werden!"

Diese "provokanten Äußerungen" stammen von Tri Dao, dem Autor von Flash Attention.

In der neuesten Podcast-Sendung "Unsupervised Learning" hat Tri Dao tiefgehende Einblicke in den GPU-Markt, die Inferenzkosten, die Modellarchitektur sowie die zukünftigen Trends in der KI geteilt und eine begründete Analyse zu den oben genannten "provokanten Äußerungen" durchgeführt:

  • Innerhalb der nächsten 2 - 3 Jahre wird sich das Landschaft der KI-Hardware von der derzeit etwa 90%-igen Dominanz von NVIDIA hin zu einem vielfältigeren Ökosystem wandeln, wenn spezielle Chips für verschiedene Workload-Kategorien - einschließlich Low-Latency-Agentensystemen, Hochdurchsatz-Batchverarbeitung und interaktiven Chatbots - auf den Markt kommen.
  • Technologien wie die MoE-Architektur, die Optimierung der Inferenz, die Modellquantisierung und die kooperative Gestaltung von Modellarchitektur und Hardware haben zur Senkung der Modellinferenzkosten beigetragen.
  • In Zukunft werden drei Arten von Workload-Mustern auftreten: traditionelle Chatbots, Szenarien mit extrem niedriger Latenz und Szenarien für Massenbatchverarbeitung/Hochdurchsatz. Hardwarehersteller können entsprechende Optimierungen für verschiedene Workloads vornehmen.

...

Tri Dao ist nicht nur der Autor von Flash Attention, sondern auch einer der Autoren von Mamba.

Zusätzlich ist er der Chefwissenschaftler von TogetherAI und Professor an der Princeton University.

"Semi Analysis" hat seine Beiträge im NVIDIA-Ökosystem hoch gelobt und ihn als einen wichtigen Bestandteil ihrer Wettbewerbsvorteile bezeichnet.

Man kann sagen, dass seine Einschätzungen über den Hardwaremarkt und die zukünftige Entwicklung von KI-Hardware sehr wertvoll als Referenz sind.

Jetzt schauen wir uns das gemeinsam an!

Die vollständige Transkription des Interviews lautet wie folgt:

(Hinweis: Einige Modalpartikel und Übergänge wurden zur besseren Lesbarkeit angepasst.)

Interviewinhalt

NVIDIAs Dominanz und ihre Konkurrenten

F: Werden wir in NVIDIAs Ökosystem, beispielsweise auf der Chip-Ebene oder bei der Integration von GPU-Systemen, neue Konkurrenten sehen?

Tri Dao: Ich habe tatsächlich viel Zeit damit verbracht, über Chips nachzudenken, und ich denke, dass sicherlich viele Konkurrenten in diesen Bereich eintreten werden.

AMD ist schon seit langem hier. NVIDIA hat die Dominanz, und es gibt mehrere Gründe dafür: Sie haben sehr gute Chips entworfen und auch sehr gutes Software entwickelt, was ein vollständiges Ökosystem bildet, auf dem andere Leute mehr Software entwickeln können. Aber ich denke, dass es einfacher wird, Chips für diese Workloads zu entwerfen, da sich die Workloads allmählich auf bestimmte Architekturen wie Transformer und MoE konzentrieren.

Bei der Inferenz hat AMD einige Vorteile, wie beispielsweise einen größeren Arbeitsspeicher. Wir sehen bereits einige Teams, die dies ausprobieren. Bei der Modelltraining ist es schwieriger, da die Netzwerkkommunikation der Hauptengpass ist, und NVIDIA ist in diesem Bereich immer noch führend.

Aber die Leute verstehen bereits, was die Herausforderungen bei der Entwicklung von guten Trainingschips und guten Inferenzchips sind. Am Ende geht es um die Umsetzung. Also würde ich sagen, dass dies ein sehr aufregender Bereich ist. Ich habe mit vielen Leuten gesprochen, die neue Chips entwurfs, sowohl für die Inferenz als auch für das Training.

Ich erwarte, dass in den nächsten Jahren ein Teil der Workloads in die "Multi-Chip"-Ära eintreten wird. Es wird nicht mehr so sein, dass 90% auf NVIDIA-Chips laufen, sondern sie werden auf verschiedenen Chips ausgeführt.

Jacob Effron: Glaubst du, dass die aktuelle Architektur bereits stabil genug ist, um eine langfristige Investition in die Inferenz- und Trainingsworkloads der nächsten zwei bis drei Jahre zu unterstützen, oder besteht weiterhin Unsicherheit, und verschiedene Start-ups und Unternehmen setzen jeweils auf unterschiedliche Ansätze, wobei möglicherweise nur eins oder zwei von ihnen erfolgreich werden?

Tri Dao: Ich denke, dass sich die Architektur auf hoher Ebene scheinbar auf dem Transformer stabilisiert hat.

Aber wenn man genauer hinsieht, wird man feststellen, dass sich noch viele Veränderungen ereignen.

Die auffälligsten Veränderungen in den letzten zwei Jahren sind das Mixture of Experts (MoE). Es macht die Modelle größer und die Parameteranzahl höher, aber die Berechnungen sind sparlich verteilt.

Dies bringt einige Abwägungen mit sich, wie beispielsweise die Notwendigkeit eines größeren Arbeitsspeichers, aber die Berechnungsmenge kann relativ geringer sein.

Für einige Chiphersteller wird dies schwieriger, da sie möglicherweise ursprünglich für dichte Modelle entworfen haben, bei denen die Berechnungen gleichmäßig verteilt sind, und jetzt müssen sie sich mit sparlichen Berechnungen befassen, was die Entwurfsarbeit komplizierter macht.

Zum Beispiel existiert die Attention bereits seit über einem Jahrzehnt, aber sie entwickelt sich ständig weiter, was einige Dinge schwierig macht.

DeepSeek hat beispielsweise eine multi-head latent attention vorgeschlagen, die sich von der traditionellen Attention etwas unterscheidet. Beispielsweise verwenden sie eine sehr große Head-Dimension.

Wenn Ihre Matrixmultiplikations-Engine in Ihrem System nur eine bestimmte Größe hat, kann es zu Unstimmigkeiten kommen.

Probleme wie diese treten auf, wenn man in die Details geht. Also ist dies eine Herausforderung auf der Architekturebene.

Bei den Workloads ändert sich auch die Art und Weise, wie die Leute diese Modelle nutzen, erheblich.

Die traditionelle Verwendung ist der Chatbot (obwohl "traditionell" auch nur in den letzten zwei bis drei Jahren gewesen ist), aber jetzt gibt es neue Workloads, wie beispielsweise Programmierworkloads - Tools wie Cursor und Windsurf.

Diese Workloads, die näher an Agenten liegen, erfordern nicht nur das Ausführen des Modells, sondern auch das Aufrufen von Tools, wie beispielsweise das Ausführen eines Python-Interpreters oder das Durchführen einer Websuche.

Dies bringt Herausforderungen bei der Chipentwicklung mit sich. Wenn ein Chip nur darauf konzentriert ist, das Modell selbst so schnell wie möglich auszuführen, kann er die Fähigkeit, mit dem Host zu verbinden und Aufgaben wie Webseiten-Suchen auszuführen, vernachlässigen.

Also würde ich sagen, dass sich die Architektur auf hoher Ebene scheinbar stabilisiert hat, aber auf der unteren Ebene gibt es noch viele Veränderungen. Und die Workloads selbst entwickeln sich auch weiter. Also ist es immer eine "Rennstrecke", um herauszufinden, wer am schnellsten auf neue Workloads reagieren kann.

Herausforderungen bei der Chipentwicklung

F: Wenn wir jetzt noch 90% der Workloads auf NVIDIA-Chips ausführen, wie sieht es in zwei bis drei Jahren aus?

Tri Dao: Ich denke, dass es bei der Inferenz zu einer Diversifizierung kommen wird. Wir sehen bereits Unternehmen wie Cerebras, Grok und SambaNova, die Herausforderungen stellen.

Sie betonen, dass sie eine Inferenz mit extrem niedriger Latenz durchführen können, was für bestimmte Szenarien sehr gut ist.

Als wir mit einigen Kunden sprachen, stellten wir fest, dass sie sehr an einer möglichst niedrigen Latenz interessiert sind und bereit sind, dafür höhere Kosten zu zahlen. Andererseits gibt es auch Kunden, die sich besonders auf die Massen-Inferenz mit hohem Durchsatz konzentrieren, wie beispielsweise die Verarbeitung von Massendaten, die Generierung von synthetischen Daten oder das schnelle Rollout und die Generierung einer großen Anzahl von Trajektorien bei der Training von Reinforcement Learning.

Also denke ich, dass der Markt sicherlich diversifiziert werden wird, da die Workloads selbst immer vielfältiger werden: niedrige Latenz, hoher Durchsatz und möglicherweise sogar die Videogenerierung, die alle unterschiedliche Anforderungen an die Rechenleistung und den Arbeitsspeicher stellen.

Jacob Effron: Wie setzen Start-ups auf verschiedene Arten von Optimierungen?

Tri Dao: Wenn Sie ein Start-up sind, müssen Sie wetten. Wenn Sie investieren, müssen Sie eine außergewöhnliche Wette machen.

Sie können wetten, dass die Chatbots schließlich verschwinden und dass die Leute sich tatsächlich um andere Dinge kümmern, wie beispielsweise Videomodelle, Videogenerierungsmodelle, Weltmodelle oder Roboter.

Dann werfen Sie einen Würfel und sagen: "Okay, das könnte 50% der Workloads ausmachen."

Dann müssen wir uns fragen, wie wir einen Chip für diese Workload entwerfen können. Sie können nur hoffen, dass Ihre Wette richtig ist. Ich denke, dass dies die Rolle von Start-ups ist.

Wenn Sie nicht wetten und nur sagen, dass Sie für allgemeine Workloads optimieren möchten, werden die großen Unternehmen Sie in der Umsetzung völlig übertrumpfen.

Jacob Effron: Warum versuchen Sie nicht, andere Unternehmen als NVIDIA zu nutzen? Wird es im Hardwarebereich sehr hohe Gehälter geben?

Tri Dao: Ich persönlich arbeite tatsächlich mit Ingenieuren von vielen verschiedenen Unternehmen zusammen, einschließlich NVIDIA, AMD, Google und Amazon.

Ich verbringe viel Zeit mit NVIDIA-Chips, einfach weil dies das am weitesten verbreitete Produkt ist, das wir derzeit nutzen können.

Sie haben sehr gute Chips entworfen und auch sehr gute Softwareunterstützung, was es mir ermöglicht, viele interessante Dinge zu tun, und das ist genau das, was ich suche: Ob ich interessante Dinge machen kann.

Beispielsweise haben wir früher mit AMD an einer Version von Flash Attention gearbeitet und es in ein öffentliches Repository integriert.

Also arbeiten wir tatsächlich mit ihnen zusammen. Was das beste Kooperationsmodell sein sollte, bin ich derzeit noch nicht sicher.

Neuerdings denke ich jedoch mehr darüber nach, welche Abstraktionen wir benötigen. Nicht nur für NVIDIA-Chips, sondern für GPUs und Acceleratoren im Allgemeinen.

Auf der untersten Ebene werde ich immer noch viel Energie darauf verwenden, die Leistung dieser Chips auszuschöpfen.

Aber mit der Expansion von Together AI müssen wir uns überlegen, wie wir es neuen Ingenieuren ermöglichen können, sich schneller einzuarbeiten. Ein Teil davon besteht darin, Abstraktionen zu erstellen, die auf NVIDIA-Chips funktionieren und möglicherweise auch auf anderen Chips kompatibel sind.

Eine andere aufregende Frage ist, ob wir Abstraktionen entwerfen können, die es der KI ermöglichen, einen Teil der Arbeit für uns zu erledigen.

Ich denke, dass die Antwort noch nicht vollständig klar ist. Aber als menschliche Technologieverantwortliche ist es unsere Aufgabe, passende Abstraktionen zu erstellen, damit andere Leute sich schnell einarbeiten können, damit die Dinge, die Sie tun, über Chips und Workloads hinweg funktionieren können.

Jacob Effron: Glaubst du, dass wir bereits Abstraktionen haben, die auf verschiedenen Chips funktionieren?

Tri Dao : Ich denke, dass wir einige haben, oder?

Aber dies ist die klassische Abwägung. Beispielsweise ist Triton sehr nützlich. Es unterstützt NVIDIA-Chips, AMD-GPUs und Intel-GPUs. Dazu müssen sie eine Frontend entwerfen, und für die Chips verschiedener Hersteller wird der Backend-Code von verschiedenen Unternehmen beigetragen.

Ich denke, dass Triton tatsächlich sehr gut ist, und viele Unternehmen setzen darauf. Beispielsweise generiert der PyTorch-Compiler von Meta direkt Triton-Code und übergibt ihn an Triton, um den untersten Code für NVIDIA oder AMD zu generieren.

Aber es ist immer noch eine Abwägung: Wenn Sie nicht die unterste Ebene kontrollieren, können Sie möglicherweise etwas an Leistung verlieren.

Der Schlüssel liegt darin, wie viel Leistung Sie verlieren. Wenn Sie nur 5% der Leistung verlieren, aber die Produktivität um das 3-fache erhöhen, ist es absolut lohnenswert.

Aber wenn der Verlust zu groß ist, werden die Leute möglicherweise wieder zu einer näher am Hardware liegenden Herangehensweise zurückkehren, insbesondere in einem wettbewerbsintensiven Inferenzmarkt.

Also würde ich sagen, dass die manuelle Entwurfsarbeit sehr schwierig ist. Ich würde sogar sagen, dass die Portabilität von Hardware etwas wie ein Mythos ist.

Selbst innerhalb von NVIDIA gibt es zwischen verschiedenen Generationen sehr große Unterschiede. Die Leistung von CPUs steigt möglicherweise nur um 5% - 10% pro Jahr, und alter Code kann weiterhin funktionieren, aber bei GPUs ist es völlig anders.

Innerhalb von NVIDIA muss fast jede Generation von Chips den gesamten untersten Code neu geschrieben werden, da die Art und Weise, wie die FLOPS erhöht werden, darin besteht, mehr spezielle Komponenten hinzuzufügen, eine niedrigere Genauigkeit zu unterstützen oder die Synchronisierungsmechanismen innerhalb des Chips zu ändern.

Also ist selbst innerhalb von NVIDIA die Code-Portabilität zwischen verschiedenen Generationen begrenzt.

F: Der Wert der Abstraktion besteht darin, dass es auch bei Chips der gleichen Firma aus verschiedenen Generationen hilft, oder?

Tri Dao: Ich denke, dass die Abstraktion von Triton sehr attraktiv ist. Sie haben sogar einige tiefere Erweiterungen, wie beispielsweise das neueste Gluon, das mehr Hardware-Details offenlegt, aber auf Kosten der Allgemeingültigkeit. Die Modular Company entwickelt auch die Mojo-Programmiersprache.

Jacob Effron: Was hältst du von den Dingen, die sie tun?

Tri Dao: Ich denke, dass es cool ist. Sie haben tatsächlich einige richtige Abstraktionen gefunden. Der Schlüssel liegt in der Umsetzung.

Weil alle Leute fragen werden: "Wie schnell ist es auf NVIDIA-Chips?" In gewisser Weise ist diese Frage nicht ganz fair, aber so ist es in der Realität.

Also müssen sie neben der Abstraktion einige Anpassungen vornehmen, damit der Code auf NVIDIA-Chips schnell genug läuft, und dann einige Anpassungen für AMD.

Das Problem ist, wie viel Anpassungen Sie machen möchten. Dies ist die Abwägung zwischen