GTC Gipfeltreffen Jeff Dean x Bill Dally: Das Pre-Training-Paradigma ist tot, die Latenz-Bottlenecks liegen nicht in der Berechnung, die nächsten fünf Jahre der KI werden gründlich besprochen
Sobald die Agenten in Betrieb sind, werden viele für Menschen konzipierte Tools zu neuen Engpässen.
Heute morgen endete auf der GTC 2026 ein wichtiges Gespräch: Die Teilnehmer waren der Chefwissenschaftler von NVIDIA, Bill Dally, und der Chefwissenschaftler von Google DeepMind und Google Research, Jeff Dean.
Es ist eine Tradition der jährlichen GTC, einen Renommiertein der Branche mit dem Chefwissenschaftler von NVIDIA zu einem Gespräch zu bringen. Vorherige Jahre waren es Fei-Fei Li und Yann LeCun. Diese Gespräche sind normalerweise sehr informationsreich. Bill Dally repräsentiert die Sicht von NVIDIA auf GPU, Inferenz, Netzwerke und Systemarchitekturen. Jeff Dean hingegen repräsentiert die Einschätzung von Google zu TPUs, dem Training von großen Modellen, Gemini und großem maschinellen Lernsystem.
Im Gegensatz zu unseren üblichen "Frage-Antwort"-Artikeln hatten beide Wissenschaftler eigene Fragen für den anderen vorbereitet. Deshalb ist dies vermutlich der spannendste Artikel, den ich in letzter Zeit zusammengetragen habe. Sie tauschten sich wie zwei Grandmaster über die besten Techniken aus, mit einem Hauch von Zen.
Die Fragen beider waren sehr konkret, und die Antworten waren selten um den heißen Brei herum. Was hat sich im letzten Jahr überhaupt verändert? Warum ist die Inferenz plötzlich wichtiger als das Training? Wo genau liegt der Engpass bei der geringen Latenz? Wird das Pretraining umgeschrieben? Kann die KI die nächste Generation von KI selbst entwerfen? Kann die KI auch umgekehrt beim Entwurf von Chips helfen?
Im Folgenden werden die Kernpunkte der Diskussion zwischen Jeff Dean und Bill Dally in der Reihenfolge des Gesprächs zusammengefasst.
Bill Dally:
Was war in der Maschinelles Lernen im letzten Jahr das aufregendste Veränderung?
Was wird im nächsten Jahr passieren?
Jeff Dean: Ich denke, jeder in diesem Bereich hat in den letzten Jahren die rapide Verbesserung der Modellfähigkeiten beobachtet und gesehen, wie Menschen diese Modelle tatsächlich einsetzen. Insgesamt ist das sehr interessant und aufregend.
Wenn ich auf das letzte Jahr zurückblicke, möchte ich besonders einige Dinge hervorheben.
Erstens: Ich denke, die Modelle sind bei Problemen mit verifizierbaren Belohnungen viel stärker geworden. Zum Beispiel bei Mathematik und Programmieren.
Vor drei oder vier Jahren hätten wir uns schon sehr gefreut, wenn unser Modell mit 40 % oder 50 % Wahrscheinlichkeit richtige Antworten auf Mathematikaufgaben der achten Klasse, wie "Fred hat vier Kaninchen und bekommt zwei weitere", geliefert hätte. Man hätte gesagt: "Das ist großartig."
Aber in den letzten Jahren, insbesondere im letzten Jahr, haben sich unsere Fähigkeiten bei komplexen mathematischen Problemen rasant verbessert. Zum Beispiel hat das Modell Gemini bei der Internationalen Mathematikolympiade (IMO) eine Goldmedaille gewonnen. Auch bei der Programmierwettbewerbs ICPC haben wir eine Goldmedaille gewonnen. Ich finde also, dass die Fortschritte in diesen beiden Bereichen sehr beeindruckend sind.
Eine weitere, möglicherweise neuere, aber ebenfalls wichtige Veränderung ist, dass wir nun sehen, wie agent-basierte Workflows bei Aufgaben mit längerer Zeitspanne tatsächlich effizient funktionieren.
Ehemals mussten Sie einem Modell, wenn Sie es etwas tun lassen wollten, nach wenigen Minuten sagen: "Okay, dieser Schritt ist abgeschlossen. Was ist der nächste Schritt?" Jetzt können Sie dem Modell Aufgaben übergeben, die eine Stunde oder sogar Tage dauern, und es wird selbstständig viele Dinge erledigen, sich selbst korrigieren und weitere Aufgaben erledigen.
Ich finde, das ist ein sehr aufregender Wandel, denn es bedeutet, dass diese Modelle nun über einen längeren Zeitraum relativ autonom funktionieren können. Früher mussten Sie zwar nicht ständig interagieren, aber im Wesentlichen mussten Sie es immer noch ziemlich eng überwachen.
Das ist eindeutig eine große Veränderung.
Und hierzu denke ich, dass es in Zukunft sehr wichtig sein wird, dass immer mehr Agenten im Hintergrund laufen.
Daraus ergibt sich eine sehr wichtige Frage: Wie können wir ultra-niedrige Latenz-Inferenz (ultra-low-latency inference) erreichen?
Wenn diese Systeme autonom arbeiten und schneller funktionieren sollen, dann bestimmt die Inferenzlatenz direkt ihre Effizienz bei der Problemlösung.
Jeff Dean:
Also möchte ich Sie, NVIDIA, umgekehrt fragen:
Wie planen Sie es, in Ihrer nächsten Architektur eine "deutliche Reduzierung der Latenz" wirklich umzusetzen?
Wie kommen wir von heute's wenigen hundert Token/s auf Tausende oder sogar Zehntausende Token/s?
Wie kommen wir von wenigen hundert Token/s auf Tausende oder Zehntausende?
Wie sollte die nächste Architektur für niedrige Latenz-Inferenz aussehen?
Bill Dally: Kurz gesagt, gibt es viele Ebenen in der Antwort.
Wenn Sie sich die Leistungskurve einer Inferenzaufgabe ansehen, stellen Sie fest, dass es im Wesentlichen eine Kompromisskurve zwischen Latenz und Durchsatz ist.
Am einen Ende der Kurve können Sie, wenn Sie die Latenz in Kauf nehmen, einen sehr hohen Durchsatz erzielen - das heißt, Sie können pro Euro oder pro Watt Leistung mehr Token pro Sekunde verarbeiten.
Wenn Sie die Kurve zum anderen Ende hin verfolgen und die Batchgröße verringern, wird das System eher auf Interaktionsszenarien ausgelegt und die Reaktionsgeschwindigkeit für einzelne Benutzer priorisiert.
Wenn Sie die Kurve bis zum Ende verfolgen und das System vollständig auf die Reduzierung der Latenz optimieren, stellen Sie fest, dass ein entscheidender Fakt ist: Der Großteil der Latenz stammt tatsächlich von der Kommunikation.
Ein typisches Large Language Model (LLM) besteht aus vielen Feedforward-Netzwerken und Attention-Modulen, und das gesamte Modell kann 50 oder sogar über 100 Schichten haben. Nach jeder Berechnung muss normalerweise eine On-Chip-Kommunikation erfolgen, um das Ergebnis an den nächsten Schritt zu übermitteln. Nach jeder Schichtberechnung ist oft eine Off-Chip-Kommunikation erforderlich. Manchmal ist auch zwischen verschiedenen Modulen innerhalb einer Schicht eine Cross-Chip-Kommunikation erforderlich, je nachdem, wie Sie die Aufgabe aufteilen.
Deshalb ist es derzeit eine wichtige Aufgabe für uns, die Architektur neu zu gestalten, um die Kommunikationslatenz tatsächlich auf das zu reduzieren, was wir bei NVIDIA oft als "Lichtgeschwindigkeit" bezeichnen.
Bei der On-Chip-Kommunikation verwenden wir einige Blockdesigns (tile design), um zusätzliche Kosten durch Routing, Warteschlangen und Arbitrierung zu vermeiden. Dadurch kann die Ausbreitungsgeschwindigkeit des Signals in den Chipleitungen nahe an die physikalische Grenze herankommen, was etwa 2 Millimeter pro Nanosekunde entspricht.
Die Kommunikationszeit von einer Ecke des Chips zur anderen kann von den derzeit üblichen einigen hundert Nanosekunden auf etwa 30 Nanosekunden reduziert werden. Bei der Off-Chip-Kommunikation stammt ein Großteil der Latenz aus der physikalischen Schnittstelle (PHY).
In den letzten Jahren haben wir die physikalische Schnittstelle immer auf maximale Bandbreite optimiert, nicht auf niedrige Latenz. Um Daten (Bits) aus einer rauschbehafteten Hochgeschwindigkeitsverbindung korrekt wiederherzustellen, mussten wir sehr komplexe digitale Signalverarbeitung und Forward Error Correction durchführen.
Aber wenn Sie bereit sind, etwas Bandbreite zu opfern, zum Beispiel indem Sie die Geschwindigkeit jeder Leitung von 400 Gbps auf 200 Gbps reduzieren, entfällt vielerlei komplexe Verarbeitung. Sie müssen nur die Leitungsspannung messen, um die Daten zu identifizieren. Der Rest ist hauptsächlich die Latenz bei der Serialisierung der Daten, und die Kommunikation zwischen den Chips dauert nur wenige Taktzyklen.
Deshalb sehe ich ganz klar einen Weg, wie wir einen Router mit niedriger Latenz neu entwickeln können, ähnlich wie ich es vor 20 Jahren bei der Cray - Firma im Rahmen des "Black Widow"-Projekts tat. Damals war die Latenz zwischen den Routeranschlüssen weniger als 50 Nanosekunden.
Ich denke, wir können diesen Wert erneut erreichen.
Wenn wir das erreichen, kann ich mir vorstellen, dass selbst relativ große Modelle für jeden Benutzer eine Verarbeitungsgeschwindigkeit von 10.000 bis 20.000 Token pro Sekunde erzielen können.
Jeff Dean: Das ist wirklich aufregend. Ich denke, ein sehr wichtiger Punkt ist, dass nicht nur kleine Modelle, sondern auch die größten Modelle bei einer so niedrigen Latenz funktionieren können.
Bill Dally: Ja, ich denke auch, dass das der Schlüssel ist.
Bill Dally:
Nächste Frage. Wie weit sind wir davon entfernt, dass Gemini die nächste Generation von Gemini entwirft?
Sie haben vorhin von diesen Agentensystemen gesprochen und erwähnt, dass sie nun in der Lage sind, Aufgaben über einen längeren Zeitraum zu bearbeiten.
Wie weit sind wir also von einem Zeitpunkt entfernt, an dem das aktuelle Gemini-Modell eine Aufgabe über einen Zeitraum von einem Monat bekommt, um selbstständig eine neue Modellstruktur zu experimentieren, eine Strategie zur Datenauswahl zu entwickeln, zu entscheiden, wie es mehr Daten bekommt, vielleicht sogar einige Verträge zu schließen, um diese Daten zu erhalten, und dann die nächste Generation von sich selbst zu trainieren.?
Das heißt, wie weit sind wir von dem Punkt entfernt, an dem ein Modell die nächste Generation von sich selbst entwickelt?
Jeff Dean: Ich denke, der beschriebene geschlossene Kreis ist noch nicht vollständig erreicht.
Aber ich denke wirklich, dass wir bereits die ersten Anzeichen davon sehen.
Zum Beispiel können Sie jetzt einem Modell auf höherer Ebene befohlen: "Bitte erkunden Sie in diese Richtung einige Ideen zur Leistungssteigerung."
Dann führt es automatisch 50 Experimente durch, verwirft 40 unperspektivische Richtungen, konzentriert sich auf die verbleibenden 10 vielversprechenden Richtungen und führt weitere detaillierte Validierungen durch.
Ich habe kürzlich die Ansicht vertreten, dass man diese Art von Arbeit als eine neue Form des "Meta-Learnings" betrachten kann.
Tatsächlich haben wir bereits vor vielen Jahren ähnliche Dinge versucht. Beispielsweise hat das Google Brain-Team 2017 an der Suche nach neuronalen Netzwerkarchitekturen (NAS) gearbeitet. Damals mussten Sie mit Code einen Suchraum definieren und dann viele kleine Experimente durchführen, um herauszufinden, welche Architektur am besten lernt. Später haben wir auch automatisierte Optimierer, automatisierte Aktivierungsfunktionen und so weiter versucht.
In dieser Phase musste der Forscher selbst Code schreiben, um den Forschungsbereich festzulegen. Aber jetzt ist die spannendste Veränderung, dass wir nun in der Lage sind, den Forschungsbereich mit natürlicher Sprache zu definieren.
Sie können jetzt direkt befohlen:
"Mache dich selbst stärker."
"Erkunde einige interessante Distillationsalgorithmen."
"Versuche, die Informationen zu nutzen, die wir derzeit noch nicht nutzen."
Dann wird es tatsächlich diese Experimente durchführen. Ich denke also, dass es sich hier eigentlich um eine äußerst mächtige, von natürlicher Sprache angetriebene automatische Suche handelt.
Bill Dally: Ja, im Wesentlichen wird dies ein sehr starker Multiplikator für die Forschungsleistung sein. Denn es ist normalerweise nicht so schwierig, Forschungsideen zu entwickeln, sondern es ist schwierig, die Experimente tatsächlich durchzuführen, die Ergebnisse zu verstehen und zu entscheiden, was als nächstes zu tun ist.
Wenn die Agenten diese Arbeit übernehmen können, entsteht eine sehr starke Kombination: Superforscher und Super-Agenten.
Jeff Dean:
Wenn Sie heute ein Hardwareprojekt starten, wird der Chip erst in zwei Jahren in die Rechenzentrale geliefert.
Wie prognostizieren Sie die KI in den nächsten zwei bis fünf Jahren?
Beim Bau von Hardware gibt es immer ein schwieriges Problem.
Insbesondere in einem Bereich wie dem maschinellen Lernen, der sich sehr schnell entwickelt, dauert es normalerweise zwei Jahre, bis ein neues Hardwareprojekt, das Sie heute starten, auch in einem Rechenzentrum eingesetzt wird, auch wenn alles gut läuft. Natürlich wünschen wir uns eine kürzere Zeitspanne, aber in der Realität ist das schwierig. Und dann muss das System noch viele Jahre funktionieren.
Das heißt, Sie müssen eigentlich vorhersagen, wohin sich das maschinelle Lernen und die KI in den nächsten zwei bis fünf Jahren entwickeln werden.
Das ist immer eine sehr schwierige Aufgabe gewesen.
Ich bin sehr neugierig, ob Sie bei NVIDIA einige gute Tools oder Methoden haben, um diese "Krystallkugelvorhersagen" zu machen?
Bill Dally: Wir geben unser Bestes.