In den nächsten fünf Jahren wird es bei KI wirklich um die Ressourcen gehen.
Bei der GTC-Konferenz hat ein Gespräch zwischen Bill Dally, dem Chefwissenschaftler von NVIDIA, und Jeff Dean, dem Chefwissenschaftler von Google, die beiden Spitzenvertretern in Hardware und Algorithmen, ein klares Signal an die Außenwelt gesendet.
Der Schwerpunkt des Wettbewerbs in der KI hat sich verändert.
Es reicht nicht mehr, nur auf Modellparameter und Algorithmusinnovationen zu achten. Hardware, Systeme, Energieverbrauch und Inferenzgeschwindigkeit, Dinge, die einst zur Infrastruktur gehörten, werden zu entscheidenden Faktoren.
Warum werden diese Faktoren so wichtig? In heutigen Rechenzentren fließt fast 90 % der elektrischen Energie in die Inferenz. Ein einzelner Rechenvorgang verbraucht nur wenige Femtojoule, aber das Verschieben von Daten aus dem Speicher verursacht einen tausendfachen Energieverbrauch.
Um die KI dauerhaft effizient laufen zu lassen, kommt es darauf an, wie solide die Full-Stack-Fähigkeiten sind und wie gut die Fähigkeit ist, Technologie in Produktivität umzusetzen.
Dieser Wettbewerb hat gerade erst begonnen.
Abschnitt 1 | Von der Frage-Antwort-Situation zum Handeln: Die Rolle der KI hat sich verändert
Vor einigen Jahren war es bereits erfreulich, wenn ein Large Language Model (LLM) Mathematikaufgaben der Mittelschule richtig lösen konnte. Heute hat es jedoch eine echte Schwelle überschritten.
Früher war die Arbeitsweise so, dass man eine Frage stellte und die KI eine Antwort gab, dann blieb alles stehen. Heute braucht man nur ein Ziel in natürlicher Sprache zu formulieren, und die KI zerlegt die Schritte selbst, versucht wiederholt, korrigiert Fehler und setzt das Vorankommen fort. Ihre Arbeitszeitspanne hat sich von einigen Sekunden auf Stunden oder sogar Tage verlängert.
Darüber hinaus kann die KI sogar ihre eigenen Systeme verbessern.
Jeff Dean sagte, man kann der KI eine Anweisung geben, zum Beispiel: "Erforschen Sie Ideen, die die Leistung in dieser Richtung verbessern können." Die KI führt dann 50 Experimente durch, streicht 40 erfolglose, fokussiert auf 10 vielversprechende und führt weitere Tests durch. Früher musste man lange Codezeilen schreiben, um ihr zu sagen, wo und wie sie suchen soll. Heute führt sie die Aufgabe selbst aus, wenn die Richtung festgelegt ist.
Tatsächlich handelt es sich hierbei um ständige Inferenzprozesse: Die KI nimmt Aufgaben an, liefert Ergebnisse und nimmt dann die nächste Aufgabe an. Bei 50 Experimenten muss es bei jedem Experiment eine Inferenz geben. Bei jeder Iteration muss es auch eine Inferenz geben. Die Inferenzgeschwindigkeit bestimmt, wie schnell diese Aufgaben durchgeführt werden können.
Der entscheidende Engpass bei der Inferenzgeschwindigkeit liegt in der Latenz.
Bill Dally hat darauf hingewiesen, dass je geringer die Latenz ist, desto kürzer die Wartezeit für jeden Schritt und desto schneller kann die Aufgabe vorangetrieben werden. Je höher die Latenz ist, desto eher bleibt die KI stehen, auch wenn das Modell sehr leistungsstark ist.
Die Trainingsstufe bestimmt, was das Modell "lernen kann", aber die Effizienz in der Inferenzstufe bestimmt tatsächlich, "wie viel Arbeit" es leisten kann. Daher hat sich auch der Kernkriterium für die Bewertung von KI verändert: Es geht nicht mehr darum, wie viel die Genauigkeit des Modells verbessert wurde, sondern wie viel Arbeit es tatsächlich pro Tag erledigen kann.
Die KI hat offiziell die Phase des "unterstützenden Entscheidungsfindens" verlassen und ist in die Phase des "direkten Handelns" eingetreten.
Die Einschränkungen für die KI liegen nicht mehr in der Intelligenz des Modells selbst, sondern in der Rechenleistung, der Latenz, dem Energieverbrauch und anderen Infrastrukturfaktoren, die ihren Betrieb unterstützen, sowie in der Fähigkeit, Technologie in Produktivität umzusetzen.
Abschnitt 2 | 90 % der elektrischen Energie fließt in die Arbeit der KI
Mit der Veränderung der Fähigkeiten der KI hat sich auch die Geldflussrichtung verändert. Es geht nicht mehr darum, "Basiswerke" kostengünstig zu legen, sondern darum, die "Betriebskosten" sorgfältig zu kalkulieren.
Bill Dally sagte, dass heute der Großteil der elektrischen Energie in Rechenzentren in die Inferenz fließt. Das eigentliche kontinuierliche Ressourcenverschwendung liegt darin, dass das Modell ständig arbeitet.
Dies hat auch die Logik des Geldausgebens für die KI grundlegend verändert. Das Training eines Modells ist eher eine "Infrastrukturinvestition", bei der man einmal große Summen ausgibt. Die Inferenz hingegen ist ein "täglicher Aufwand", der ständig anfällt. Solange die KI arbeitet, verbrennen Stromkosten, Rechenleistung und die Abnutzung der Hardware stumm.
Einerseits gibt es die "Kostenangst" auf der Inferenzseite, andererseits die "Datenangst" auf der Trainingsseite.
Bill Dally hat eine weit verbreitete Sorge in der Branche geäußert: Wird die hochwertige menschliche Daten bald aufgebraucht?
Jeff Dean ist in dieser Hinsicht eher optimistisch. Er hat darauf hingewiesen, dass es in der realen Welt noch unzählige Videos, Audiodaten und Roboter-Sensordaten gibt, die noch nicht erschlossen wurden. Gleichzeitig wird "synthetische Daten" der Schlüssel sein, um den Engpass zu brechen. Angesichts der Frage, ob synthetische Daten nur "Inzucht" darstellen und bereits vorhandene Informationen wiederholen, ist er der Meinung, dass synthetische Daten immer noch großes Potenzial haben, wenn das zugrunde liegende Modell zur Datengenerierung stark genug ist.
Dies bedeutet, dass der kommende Wettbewerb nicht mehr nur ein Algorithmuswettbewerb ist, sondern eine Konfrontation zwischen zwei Arten von Rechnungen:
Eine ist die "Datenrechnung" in der Trainingsstufe. Wer in der Lage ist, kontinuierlich hochwertige Daten zu erhalten (ob es sich um neue Modaldaten aus der realen Welt oder um hochwertige synthetische Daten handelt), wird in der intellektuellen Barriere vorne liegen.
Die andere ist die "Wirtschaftsrechnung" in der Inferenzstufe. Bei der gleichen Berechnung kann der Energieverbrauch exponentiell steigen, wenn die Daten zwischen verschiedenen Chips hin und her verschoben werden. Wenn die Daten lokal verarbeitet werden können, können die Kosten erheblich gesenkt werden. Beispielsweise ist die Leistung der KI pro Zeiteinheit umso höher, je geringer die Latenz ist.
Wenn die KI noch nur ein Chat-Tool war, waren die Unterschiede in diesen unteren Ebenen nicht so auffällig. Aber wenn sie beginnt, wie ein Mitarbeiter Tag und Nacht kontinuierliche Aufgaben auszuführen, werden diese Unterschiede unendlich vergrößert.
Deshalb fließt das Kapital nun in zwei Richtungen:
Einerseits in stabilere Inferenzfähigkeiten, effizientere Hardwarearchitekturen und energieärmere Betriebsweisen;
Andererseits in die Fähigkeit, kontinuierlich hochwertige Daten zu generieren.
Heutige Unternehmen müssen die KI von einem "Wunder" im Labor in eine "Produktivkraft" verwandeln, die auf der Fertigungsstraße langfristig und stabil arbeiten kann.
Der Sieg oder die Niederlage in der Zukunft hängt davon ab, wer die KI am besten in Gang halten und dabei möglichst kostengünstig arbeiten lassen kann.
Abschnitt 3 | Der Engpass liegt nicht im Modell, sondern in der Hardware
Wenn die Investitionen darauf konzentriert werden, die KI ständig arbeiten zu lassen, wird die Frage, ob die Hardware diese Intensität ertragen kann, unvermeidlich.
Viele Menschen verstehen die Entwicklung der KI einfach als "je mehr Rechenleistung, desto besser". Aber Bill Dally betont: Oft ist es die Bewegung von Daten zwischen verschiedenen Orten, die die Effizienz wirklich einschränkt.
Wie groß ist dieser Unterschied?
Bill Dally hat eine Rechnung gemacht: Ein einzelner Rechenvorgang verbraucht sehr wenig Energie. Aber das Verschieben von Daten aus dem Speicher verursacht einen tausendfachen Energieverbrauch im Vergleich zum Rechenvorgang selbst. Seine Kernregel ist einfach: Verschieben Sie keine Daten.
Solange die Daten nicht verschoben werden, kann der Energieverbrauch gesenkt und die Geschwindigkeit erhöht werden. Wenn die Daten in den internen Speicher des Chips verbleiben und dort verarbeitet werden, kann der Energieverbrauch auf das Niveau des Rechenvorgangs selbst reduziert werden. Dies ist wie eine Fertigungsstraße, bei der das Hin- und Herbewegen von Materialien zwischen den Werkshallen den gesamten Fortschritt stark verlangsamt.
Deshalb wendet sich die Hardwareentwicklung in eine neue Richtung: Von "schneller rechnen" hin zu "möglichst wenig verschieben".
Beispielsweise werden die Daten möglichst im Inneren des Chips verarbeitet, oder der Speicher und die Rechenkomponenten werden näher beieinander platziert. Sogar einige neue Ansätze sehen vor, den Speicher direkt über dem Rechenchip zu stapeln, so dass die Daten "wie herunterfallend" direkt in die Recheneinheit gelangen, anstatt umwegig zurückzukehren.
Während die Latenz gesenkt wird, steigt auch das Ziel für die Inferenzgeschwindigkeit rasant. Bill sieht voraus, dass in Zukunft jeder Benutzer 10.000 bis 20.000 Token pro Sekunde verarbeiten muss, was ein Vielfaches der heutigen Geschwindigkeit ist. Um dieses Ziel zu erreichen, muss die Latenz auf ein äußerst niedriges Niveau gesenkt werden: Die Kommunikation innerhalb des Chips sollte 30 Nanosekunden nicht überschreiten, und die Kommunikation zwischen den Chips sollte weniger als 50 Nanosekunden betragen.
Um diesen extrem strengen Anforderungen an Latenz und Energieverbrauch zu entsprechen, geht die Hardwarestruktur unvermeidlich in eine Differenzierung.
Nach Jeff Dean eignet sich ein einziges Design nicht mehr für das Training und die Inferenz. Das Training ähnelt eher der Massenverarbeitung von Daten, während die Inferenz, insbesondere die Phase der schrittweisen Inhaltsgenerierung, äußerst empfindlich auf Latenz und Speicherzugriff ist und schrittweise voranschreitet.
Wie fein wird diese Differenzierung sein?
Bill Dally meint, dass es in Zukunft möglicherweise mindestens drei Hardwareformen geben wird: Eine ist gut für das Training, eine für die Inhaltsgenerierung, und selbst die Inhaltsgenerierung wird möglicherweise weiter unterteilt.
Der Grund dafür liegt darin, dass die Ressourcenanforderungen in verschiedenen Phasen der Inferenz völlig unterschiedlich sind. In einigen Phasen können viele Eingaben parallel verarbeitet werden (Rechenleistung ist wichtig), während in anderen Phasen die Daten tokenweise verarbeitet werden müssen (die Geschwindigkeit des Speicherzugriffs ist entscheidend). Wenn man die passende Hardware für diese spezifischen Szenarien auswählt, kann man einen absoluten Vorteil in Bezug auf Kosten und Leistung erzielen.
Wenn Unternehmen diese extremen unteren Ebenenkompetenzen kombinieren, besteht die Möglichkeit, die KI in realen Aufgaben über Jahre hinweg zu betreiben.
Die Hardware wird zum entscheidenden Faktor für die obere Grenze der KI - Produktivität.
Abschnitt 4 | Die effektive Nutzung der KI ist schwieriger als der Kauf
Die Fähigkeiten der KI haben sich verändert, die Art des Geldausgebens hat sich verändert, und auch die Anforderungen an die untere Hardwareebene haben sich verändert. Was bedeutet dies für Unternehmen?
Wenn die KI nur für das Schreiben von Texten und das Zusammenfassen von Informationen verwendet wird, bleibt ihre Wirkung lokal. Aber wenn sie kontinuierlich arbeiten und vollständige Aufgaben übernehmen kann, wird sie in den Arbeitsablauf des Unternehmens integriert. Die Veränderung wird nicht auf eine einzelne Position beschränkt, sondern wird sich auf die gesamte Geschäftskette ausdehnen.
Die Großkonzerne haben dieses Modell bereits internal implementiert. Sowohl Jeff Dean als auch Bill Dally haben über die Verwendung von KI in NVIDIA gesprochen, und diese Beispiele sind sehr repräsentativ.
Beispielsweise hat NVIDIA mit Hilfe von Reinforcement Learning ein Programm namens NBL entwickelt, das speziell für die Migration von Standardzellbibliotheken auf neue Halbleitertechnologien eingesetzt wird. Früher musste ein Team von acht Personen zehn Monate lang (insgesamt 80 Personenmonate) arbeiten, um diese Aufgabe zu erledigen. Heute braucht man nur eine Nacht auf einer GPU, und das Ergebnis ist besser als das, das von Menschen entworfen wurde.
Ein anderes Programm namens Prefix RL optimiert die Chip-Designs mit Reinforcement Learning. Bill sagte: Es hat Designideen entwickelt, die ein Mensch niemals hätte finden können, aber in Bezug auf die Leistung um 20 % oder 30 % besser sind als die menschlichen Entwürfe. Es gibt auch Chip Nemo und Bug Nemo, Modelle, die mit NVIDIA-eigenen Design-Dokumenten trainiert wurden. Der größte Vorteil ist, dass junge Designer nicht mehr einfache Fragen an erfahrene Designer stellen müssen, sondern direkt an Chip Nemo.
Allerdings ist die Realität hart: Einige Unternehmen können mit der gleichen KI-Technologie die Produktivität um ein Vielfaches steigern, während andere Unternehmen kaum einen Effekt erzielen können. Wo liegt der Unterschied?
Der Kern liegt darin, ob das Unternehmen die Arbeitsweise aktiv neu strukturiert hat.
Der erste Schritt bei der Neustrukturierung besteht darin, die Art und Weise zu ändern, wie Aufgaben zerlegt und Schritte zugewiesen werden.
Früher wurde ein Projekt meist von Menschen geleitet, und es wurden Werkzeuge als Unterstützung eingesetzt. Heute wird die Methode allmählich so sein, dass Menschen das Ziel festlegen und die KI die meisten Schritte ausführt. Beispielsweise wird beim Schreiben von Code nicht mehr Zeile für Zeile vorgegangen, sondern die KI generiert zunächst ein Konzept, führt ein Ergebnis aus, und dann passt der Mensch die Richtung an. Beim Anfertigen einer Analyse wird nicht nur vorhandene Informationen zusammengefasst, sondern die KI sammelt, filtert und kombiniert die Daten und erstellt einen ersten Entwurf.
Anschließend muss auch der Prozess selbst neu strukturiert werden.
Wenn die mittleren Schritte automatisch ausgeführt werden, interessieren sich Unternehmen vor allem für zwei Dinge: Erstens, wie können Aufgaben klar zerlegt und abgegeben werden? Zweitens, wie können die Ergebnisse schnell überprüft und korrigiert werden?
Außer dem Prozess gibt es auch das Problem der fehlenden Anpassung der Werkzeuge.
Bill Dally hat scharf bemerkt, dass, wenn die Laufgeschwindigkeit von KI-Agenten bereits 50 Mal schneller ist als die von Menschen, die verschiedenen Softwarewerkzeuge, die sie aufrufen, immer noch auf die "Interaktionsgeschwindigkeit von Menschen" ausgelegt sind. Die Startzeit des Compilers, die Ladegeschwindigkeit von Tabellenkalkulationen... Diese Details, die früher unbedeutend waren, sind jetzt die größte Hürde für die KI.
Mit anderen Worten, die KI hat sich beschleunigt, aber die zugehörigen Werkzeuge und die Infrastruktur haben nicht mitgehalten. Unternehmen müssen nicht nur die Prozesse ändern, sondern sogar die Compiler und die Geschäftsanwendungen im System neu designen, damit sie der Verarbeitungsgeschwindigkeit der KI entsprechen.
Deshalb erzielen viele Unternehmen, die die KI folgen, keine erwarteten Ergebnisse. Wenn man an alten Prozessen, alten Werkzeugen und alten Organisationsstrukturen festhält und die KI nur unbeholfen hinzufügt, wird die Arbeit stattdessen komplizierter.
Im Gegenteil haben die Unternehmen, die schneller vorankommen, bereits begonnen, die Fertigungsstraße neu zu gestalten: Welche Schritte sollen der KI rund um die Uhr überlassen werden? Welche Schlüsselpunkte sollen