Alle reden von Rechenleistungsmangel – werden 90 % der KI - Chips tatsächlich „verschwendet“?

Die teuerste Verschwendung der Welt findet in den klügsten Unternehmen statt.

Wenn Sie sich in der Welt des Vibe Codings ganz und gar verlieren oder ein laufendes Projekt plötzlich abstürzt und Sie in der CLI-Toolchain die Meldung „Ihr Kontingent ist aufgebraucht“ lesen, wird es Ihnen kaum möglich sein, Ihre Ruhe zu bewahren.

Und wenn Sie fragen, wird die KI-Firma Ihnen nur sagen: „Es fehlt an Rechenleistung.“

Aber ist das wirklich der Fall?

Analysten von Epoch AI schätzen, dass OpenAI bis Ende 2025 eine Rechenleistung von etwa 1,7 Millionen H100-GPUs haben wird. Im Jahr 2023 betrug diese Zahl 100.000, im Jahr 2024 400.000 – ein Anstieg um das 17-fache in nur zwei Jahren. Der Marktwert von Nvidia hat die 3 Billionen US-Dollar-Marke überschritten, und globale Technologiekonzerne geben jedes Quartal Hunderte von Millionen Dollar für den Kauf von Chips aus. All dies deutet auf dasselbe Szenario hin: Rechenleistung ist wie das Öl für die KI, wer am meisten davon auf Lager hat, gewinnt.

Jede KI-Firma steckt riesige Summen in die Anschaffung von GPUs und Rechenleistung, wie kann es also sein, dass es an meinem kleinen Kontingent fehlt?

In einer Episode des Podcasts Latent Space sagte Anjney Midha, der Gründer der KI-Infrastrukturfirma AMP: „Bei Spitzenlabors wie xAI liegt die GPU-Nutzung möglicherweise unter 10 % – das ist nur die Spitze des Eisbergs des wirklichen Problems.“

Ich habe eine einfache Umrechnung vorgenommen. MFU (Model Flops Utilization, die Ausnutzung der Modell-Fließkommaoperationen) ist ein Maßstab für die tatsächliche Verwendung der GPU-Rechenleistung für die Modellberechnung. Wenn Sie 500 Millionen US-Dollar für eine GPU-Clusteranlage ausgeben und die MFU nur 10 % beträgt, bedeutet das, dass Sie tatsächlich nur eine effektive Rechenleistung erhalten, die Sie auch für 50 Millionen US-Dollar hätten bekommen können. Die restlichen 450 Millionen US-Dollar an Rechenleistung laufen leer.

Es ergibt keinen Sinn, dass es sich um die klügsten Ingenieurteams der Welt handelt, die mit den teuersten Budgets die fortschrittlichsten Rechencluster bauen – und dann 90 % der Rechenleistung ungenutzt lassen.

Dies ist kein Managementfehler einer kleinen Firma, sondern ein strukturelles Geheimnis der Branche.

Massive Anschaffungen, massive Verschwendung

Lassen Sie mich diesen Kontrast genauer aufschlüsseln.

Der Analyst Josh You von Epoch AI schrieb in einem weit verbreiteten Bericht: „Spitzenlabors nutzen den größten Teil ihrer KI-Rechenleistung noch nicht.“ Er verfolgte die Wachstumskurve der Rechenleistung der Hauptlabore und entdeckte ein beunruhigendes Muster – die Anschaffungsgeschwindigkeit der Rechenleistung übersteigt bei weitem die Verbrauchsgeschwindigkeit. Eine große Menge an Rechenressourcen befindet sich im „Reservestatus“ oder ist „idle“, wie strategische Güter, die auf Lager gehalten werden, anstatt wie Brennstoff verbraucht zu werden.

Dies ist nicht nur ein Problem der Spitzenlabore.

Fujitsu zitierte in seinem 2024 veröffentlichten Bericht „Status der KI-Infrastruktur“ eine noch auffälligere Statistik: Über 75 % der Unternehmen nutzen ihre GPUs auch unter Spitzenlast noch unter 70 %. Beachten Sie, dass dies die „Spitzenlast“ ist – das heißt, in der heißesten Phase nutzen drei Viertel der Unternehmen nicht einmal 70 % ihrer Rechenleistung.

VentureBeat traf auf der Grundlage ähnlicher Daten eine noch radikalere Einschätzung: „95 % der Ausgaben für KI-Infrastruktur werden verschwendet.“

Ich habe versucht, diese Zahlen in konkrete Geldverluste umzurechnen. Eine Cloud-Instanz eines H100-GPUs kostet zwischen 30 und 50 US-Dollar pro Stunde. Nehmen wir an, ein Unternehmen betreibt einen kleinen Cluster mit 20 GPUs und die Nutzungsrate beträgt nur 20 % – das ist in der Branche schon relativ gut – dann belaufen sich die jährlichen Rechenkosten, die durch Leerlauf verschwendet werden, auf etwa 200.000 US-Dollar. Für Spitzenlabore mit Tausenden von GPUs muss diese Zahl um mehrere Größenordnungen erhöht werden.

Dies bringt mich an eine vergessene Geschichte.

Am Ende der 1990er Jahre erlebte die US-amerikanische Telekommunikationsbranche eine wilde Faseroptik-Baubohne. Firmen wie WorldCom, Global Crossing und Level 3 verlegten Millionen von Meilen an Glasfaserkabeln und investierten über 100 Milliarden US-Dollar. Als die Blase 2001 platzte, stellte die Branche eine erstaunliche Tatsache fest: Über 95 % der verlegten Glasfasern waren sogenannte „dunkle Fasern“ (dark fiber) – sie wurden nie aktiviert und trugen niemals Daten. Sie lagen still im Boden, wie die begrabenen Ambitionen einer Ära.

Handelt es sich hierbei um eine andere Version derselben Geschichte wie heute, wenn KI-Firmen GPUs kaufen, aber sie leerlaufen lassen?

Aber hier gibt es einen entscheidenden Unterschied. Das Problem der dunklen Fasern lag hauptsächlich auf der Nachfrageseite – es gab damals einfach nicht so viele Daten, die übertragen werden mussten. Das Problem des Leerlaufs von GPUs ist komplexer, denn die Nachfrage nach Rechenleistung besteht eindeutig. Jedes Labor klagt über fehlende Rechenleistung, und jeder Forscher wartet in der Schlange auf eine GPU.

Es gibt sowohl Angebot als auch Nachfrage, wo genau liegt der Engpass?

Die GPU wartet 65 % der Zeit

Ich hatte einst naiv angenommen, dass die geringe GPU-Nutzung auf eine zu geringe Arbeitslast zurückzuführen sei. Erst als ich einige technische Analysen auf Infrastrukturebene gelesen hatte, wurde mir klar, dass das Problem ganz anders gelagert ist.

Eine GPU ist nicht wie ein wilder Bär, der nur gefüttert werden muss, um zu arbeiten. Sie ist eher wie ein anspruchsvoller Michelin-Koch – die Qualität der Zutaten, der Servierrhythmus, die Arbeitsabläufe in der Küche, wenn an einem dieser Punkte etwas schief geht, wird sie anhalten und warten.

Eine Studie von aixenergy hat eine für mich überraschende Zahl aufgedeckt: Während des KI-Trainings ist die GPU 30 % bis 65 % der Zeit im Leerlauf. Nicht weil ihr keine Aufgaben zugewiesen wurden, sondern weil die Daten noch nicht bereit sind.

Dies ist das sogenannte Problem des „Datenhungers“.

Das Training eines großen Modells erfordert eine riesige Menge an Daten. Diese Daten müssen einer Reihe von Vorverarbeitungsschritten wie Reinigung, Annotation, Tokenisierung und Paketierung unterzogen werden, bevor sie aus dem Speichersystem in den GPU-Speicher geladen werden können. Die Rechengeschwindigkeit einer GPU wird in Billionen von Fließkommaoperationen pro Sekunde (TFLOPS) gemessen, aber die IO-Geschwindigkeit des Speichersystems kann diesem Tempo bei weitem nicht folgen. Das Ergebnis ist wie auf einer Autobahn, wo die Durchsatzleistung der Tankstellen die tatsächliche Verkehrsdichte bestimmt – egal wie viele Fahrspuren Sie bauen, wenn die Tankstelle nur zwei Autos auf einmal bedienen kann, wird es Staus geben.

Aber die Geschichte ist noch nicht zu Ende. Ich habe auf arXiv einen Artikel über den Energieverbrauch von GPUs gefunden, der ein noch versteckteres Problem aufdeckt: Selbst wenn eine GPU in den sogenannten „Tiefen Leerlauf“ (deep idle) geht, verbraucht sie immer noch eine große Menge an Strom. Daten von Epoch AI zeigen, dass etwa 40 % der Gesamtleistung eines GPU-Datencenters direkt von den GPUs selbst stammt. Das bedeutet, dass die GPUs, die auf Daten warten, nicht nur nichts tun, sondern auch Strom verbrauchen, und zwar eine beträchtliche Menge.

Das ist wie ein Ferrari, der im Berufsverkehr stecken bleibt: Der Motor läuft leer, der Benzinreservoir leert sich, aber das Auto bewegt sich nicht. Und Sie zahlen noch immer 50 US-Dollar pro Stunde Miete für dieses Auto.

Es gibt noch eine subtile Falle. Der arXiv-Artikel weist darauf hin, dass der derzeit in der Branche gängige Überwachungsindikator „Cluster-Level SM Utilization“ nicht effektiv die reale Energieeffizienz widerspiegelt. SM (Streaming Multiprocessor) ist die interne Recheneinheit einer GPU. Selbst wenn das Überwachungspanel eine normale SM-Nutzung anzeigt, machen viele Rechenzyklen tatsächlich „Scheinarbeiten“ – Datenverschiebung, Speichersynchronisierung, Wartezeiten für die Kommunikation, anstatt echte Modellberechnungen durchzuführen.

Dies erklärt ein Phänomen, das mich bisher verwirrt hat: Warum melden einige Teams eine „GPU-Nutzung von 70 %“, aber die Trainingsgeschwindigkeit ist dennoch weit hinter den Erwartungen zurück. Denn von diesen 70 % machen möglicherweise nur die Hälfte effektive Berechnungen, der Rest macht „Haushaltsarbeiten“. Die Spitzenlastnutzung ist wie das „beste Quartalsumsatz“ eines Unternehmens – es ist real, aber es repräsentiert nicht den Normalzustand. Wenn Sie damit die Effizienz messen, ist das wie wenn Sie Ihre schnellste 100-Meter-Laufzeit als Maßstab für Ihre tägliche Pendelgeschwindigkeit nehmen.

Wenn das Problem in der Struktur und nicht in der Größe liegt, führt das Hinzufügen von Kapazität nicht zur Lösung des Problems, sondern vergrößert die Verschwendung im gleichen Verhältnis.

Wenn „die optimale Nutzung der Rechenleistung“ eine neue Disziplin wird

Wenn das Problem strukturell ist, muss auch die Lösung strukturell sein. Dies ist die zentrale These, die Anjney Midha in jener Podcast-Episode aufgestellt hat. Er benutzte ein Wort: „outputmaxxing“ – die Maximierung der Leistung.

Dieser Begriff klingt zunächst wie ein neues Silicon-Valley-Jargon, aber die von Midha festgelegte Referenzlinie hat mich darauf aufmerksam gemacht, dass es sich um ein ernsthaftes Ingenieurproblem handelt. Er sagte: „Ich denke, dass die MFU der besten Praktiker derzeit zwischen 60 % und 70 % liegt.“

60 % bis 70 %. Dies ist die Obergrenze, die die besten Teams der Welt, die optimiertesten Codes und die am besten abgestimmten Infrastrukturen erreichen können. Der Branchenmittelwert liegt weit unter diesem Niveau.

Was bedeutet diese Lücke? Für die meisten KI-Firmen bedeutet es, dass wenn sie die Nutzungsrate von 10 % auf 60 % steigern können, sie die effektive Rechenleistung um das Sechsfache erhöhen können, ohne zusätzliche Kosten zu verursachen. Es ist nicht erforderlich, mehr GPUs zu kaufen, mehr Datencentern zu bauen oder mit Nvidia einen Preiskampf zu führen – es reicht, die bereits erworbenen Ressourcen wirklich zu nutzen.

Dies ist ein Weg, den die Cloud-Computing-Branche bereits gegangen ist. Anfang der 2000er Jahre lag die durchschnittliche Nutzungsrate der physischen Server von Unternehmen nur zwischen 10 % und 15 %. Jeder Server betrieb eine einzelne Anwendung, und die restliche Rechenleistung blieb ungenutzt. Dann brachte VMware die Virtualisierungstechnologie, die es ermöglichte, mehrere virtuelle Maschinen auf einem physischen Server zu betreiben. Später führte Docker die Containerisierung ein, die die Ressourcenauslastung weiter reduzierte.

Heute liegt die Nutzungsrate von Cloud-Servern in der Regel zwischen 60 % und 70 %.

Von 10–15 % auf 60–70 %. Dieser Sprung hat etwa 15 Jahre gedauert und hat eine Cloud-Computing-Industrie im Wert von Billionen von Dollar hervorgebracht, die die Art und Weise, wie Software gebaut und deployed wird, grundlegend verändert hat. Die KI-Rechenleistung befindet sich jetzt an der gleichen Stelle wie der Servermarkt im Jahr 2005 – man weiß, wo das Problem liegt, aber die systemische Lösung ist noch in der Entwicklung.

Die Veränderung des Geschäftsmodells beschleunigt diesen Wandel. Im frühen Stadium des KI-Infrastrukturmarktes waren die Modelle „Festpreis-Lizenz“ und „gebundene Token“ beliebt – Unternehmen zahlten im Voraus eine große Summe, um ein bestimmtes Kontingent an Rechenleistung zu erwerben, und wenn sie es nicht verbrauchten, wurde es nicht erstattet. Dieses Modell fördert von Natur aus die Verschwendung, da die Grenzkosten Null sind und niemand die Motivation hat, die Nutzungsrate zu optimieren.

Die Analyse von VentureBeat zeigt, dass sich der Kostendruck der ungenutzten Infrastruktur mit dem Übergang der Branche hin zu einer nutzungsabhängigen Abrechnung von einem „ignorierten Hintergrundrauschen“ zu einem „dringenden Problem in der Produktionsphase“ wandelt.

Wenn jeder Leerlaufzyklus einer GPU direkt einem Betrag auf der Rechnung entspricht, wird die „Maximierung der Leistung“ nicht mehr ein technisches Ideal, sondern ein finanzielles Gebot.

Zugleich zwingt der Umweltfaktor auch zu einer Effizienzrevolution.

Die Analyse von Towards Data Science zeigt, dass der Leerlauf der meisten GPUs bedeutet, dass ein beträchtlicher Teil der CO2-Emissionen der globalen KI-Berechnung „ineffektive Emissionen“ sind – sie produzieren keine Intelligenz, sondern wandeln nur Strom in Wärme um. 40 % der Leistung eines GPU-Datencenters stammt von den GPUs selbst, und ein Großteil davon wird im Leerlauf und im tiefen Leerlauf verbraucht. Dies ist nicht nur ein Geldproblem, sondern auch ein Problem der Ressourcen und der Umwelt.

Fujitsu veröffentlichte 2024 ein technisches Whitepaper mit dem direkt ansprechenden Titel: „Maximierung der GPU-Nutzung“. Eine Reihe von Infrastrukturfirmen wie DevZero, Prodia und Mirantis haben ebenfalls Artikel veröffentlicht, in denen sie über die Frage „Warum liegen 80 % der GPUs ungenutzt?“ und ihre jeweiligen Optimierungsstrategien diskutieren. Diese Branchenweite Sorge ist an sich ein Signal – das Problem ist so groß, dass niemand es länger ignorieren kann.

Man hat eine wichtige Sache übersehen: In der Erzählung des KI-Wettbewerbs war bisher immer nur der „Umfang“ das Hauptthema. Wer die meisten GPUs hat, wer das größte Modell trainiert hat, wer am meisten Geld ausgegeben hat – das sind die Schlagzeilen. Aber Effizienz war nie Schlagzeile. Niemand wird einen Artikel über „ein Unternehmen hat die GPU-Nutzung von 15 % auf 50 % gesteigert“ schreiben, obwohl dies aus Sicht der tatsächlichen Leistung möglicherweise wertvoller ist als der Kauf von 100.000 zusätzlichen GPUs.

Midhas „Maximierung der Leistung“ ist es wert, ernst genommen zu werden, weil es auf einen Paradigmenwechsel hinweist:

Die Schutzmauern des KI-Wettbewerbs verschieben sich von „wer die meiste Rechenleistung kaufen kann“ hin zu „wer die meiste Intelligenz aus derselben Rechenleistung herausholen kann“. Der erste ist ein Kapitalverbrauchskrieg, der zweite ist ein präziser Ingenieurkrieg. Die Obergrenze des ersten hängt von Ihrem Bankkonto und der Produktionskapazität von Nvidia ab, die des zweiten von Ihrer Tiefe des Verständnisses der Rechenphysik, verteilter Systeme und Datenengineering.

Dies ist nicht ein Problem der schrittweisen Optimierung, sondern die Geburt einer neuen Disziplin.

Jede Infrastrukturrevolution scheint demselben Muster zu folgen: Zunächst gibt es einen wilden Bauboom, dann stellt man fest, dass der größte Teil der Kap

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Alle reden von einem Mangel an Rechenleistung – werden aber 90 % der KI-Chips „verschwendet“?

Massive Anschaffungen, massive Verschwendung

Die GPU wartet 65 % der Zeit

Wenn „die optimale Nutzung der Rechenleistung“ eine neue Disziplin wird