OpenAI hat nichts erreicht
Am Abend des 30. Juni hat The Information einen Artikel veröffentlicht, dessen Titel recht auffällig ist: Die Ingenieure von OpenAI haben einen Weg gefunden, die Inferenzkosten um die Hälfte zu senken.
Ich habe ihn sorgfältig gelesen, und der Kernpunkt ist einfach: Das Engineering-Team von OpenAI hat in diesem Monat seinen Kollegen verraten, dass die Inferenzkosten um mehr als die Hälfte gesunken sind.
Wie wurden die Kosten gesenkt? Es wurden keine neuen Chips eingesetzt, und es gab keine Architekturumstellung; es war rein eine Angelegenheit auf Softwareebene, die die Auslastung der vorhandenen Server erhöhte. Am interessantesten ist, wofür es eingesetzt wird, nämlich für den Datenverkehr von nicht angemeldeten ChatGPT-Benutzern.
Nach der Optimierung reichen nur noch einige hundert NVIDIA-GPUs, nur einige hundert. Denken Sie mal über diese Zahl nach.
ChatGPT wird täglich von Hunderten von Millionen Menschen verwendet; früher mussten für die nicht angemeldeten Besucher auch eine Menge Rechenleistung aufgebracht werden, jetzt reichen einige hundert GPUs aus.
Ehrlich gesagt, wenn Sie sich mit Hardware befassen, wird Ihnen beim Sehen dieser Zahl sicher ein Schauer über den Rücken gehen, denn wird die Nachfrage nicht problematisch?
Nun, schauen wir uns mal an, was gestern Abend an der amerikanischen Börse passierte;
AMD ist um über 7 % gestiegen und hat während der Sitzung einen neuen Rekord erreicht; Wells Fargo hat den Zielpreis von 505 US-Dollar auf 615 US-Dollar angehoben. Cantor Fitzgerald ist noch radikaler und hat einen Zielpreis von 700 US-Dollar festgelegt.
Raten Sie mal, worin der Kern liegt? Server-CPUs; Analysten erwarten, dass der Umsatz von AMD mit Server-CPUs im Jahr 2026 um 68 % gegenüber dem Vorjahr steigen wird. Beachten Sie, um 68 % gegenüber dem Vorjahr, nicht „leicht gestiegen“.
Bernstein hat den Zielpreis für SanDisk von 1700 US-Dollar direkt auf 3000 US-Dollar angehoben. Diese Aktie ist in diesem Jahr um 781 % gestiegen und hat die Spitze der S&P 500 für das Jahr errungen, nämlich die Firma, die sich mit Speicherlösungen befasst.
Bernstein ist der Ansicht, dass SanDisk eine Reihe von Langzeit-Speicherabkommen geschlossen hat, bei denen der Preis pro GB auf 0,29 US-Dollar festgelegt ist; selbst wenn die Speicherpreise um 72 % fallen, wird der Gewinn pro Aktie bis 2030 noch 214 US-Dollar betragen. Selbst ein Preissturz von 72 % kann diesen Wert nicht unterbieten. Wie robust muss das Unternehmen denn sein?
Anschließend ist gestern Abend an der amerikanischen Börse TSMC um 3 % gestiegen. Intel ist um über 7 % gestiegen. Der Philadelphia Semiconductor Index ist um über 3 % gestiegen. Die NASDAQ ist um über 2 % gestiegen.
Einerseits sagt Ihnen The Information: „Die Rechenleistung kann um die Hälfte reduziert werden, seien Sie vorsichtig“; andererseits feiert die Wall Street mit den Hardware-Aktien und klirren die Gläser.
Normalerweise sollte eine solche Nachricht die Börse fallen lassen. Ist das nicht widersprüchlich?
Tatsächlich ist es gar nicht widersprüchlich, denn das ist nicht das erste Mal. Ich habe nachgeschaut, dass in den letzten 18 Monaten mindestens vier ähnliche „negative Nachrichten“ gekommen sind. Bei jeder dieser Nachrichten hat der Markt anders reagiert.
01
Wenn Sie eine Linie ziehen, verstehen Sie es sofort.
Das erste Mal war am 27. Januar 2025. DeepSeek; das sollten Sie kennen, denn damals war es kostenlos, Open Source und gut zu nutzen.
Wussten Sie, welche Geschichten in Silicon Valley erzählt wurden? Sie sagten, dass man für das Training eines modernen Modells Milliarden von US-Dollar ausgeben müsse, Tausende von High-End-GPUs benötige und sich an NVIDIA wenden müsse, um die Lieferung zu erhalten.
Als DeepSeek auf den Markt kam, wurde diese Geschichte zerstört.
Ich habe nachgeschaut, dass NVIDIA an diesem Tag um 17 % gefallen ist und der Marktwert um 589 Milliarden US-Dollar geschrumpft ist. Was bedeutet 589 Milliarden US-Dollar? Das ist mehr als der gesamte Marktwert von Johnson & Johnson.
Der Philadelphia Semiconductor Index ist um 9,2 % gefallen, die NASDAQ um über 3 %. Broadcom ist um 17 % gefallen, Marvell um 19 %, Micron um 11 %; die Titel an diesem Tag hatten alle das gleiche Thema: China hat mit einem Bruchteil des Geldes das geschafft, was die USA mit Milliarden von US-Dollar anstreben. Die Logik der AI-Hardware ist kaputt.
Und dann? Zwei Tage später begannen die Kurse wieder zu steigen; 11 Monate später hatten alle Kurse ihre Verluste wieder wettgemacht, und NVIDIA hat sogar einen neuen Rekord erreicht.
Das zweite Mal war im Februar dieses Jahres, als OpenAI selbst eine Nachricht verbreitete.
Früher hatte OpenAI der Welt gesagt, dass es in den nächsten acht Jahren 1,4 Billionen US-Dollar in die Infrastruktur investieren würde. In dieser Runde sagte es den Investoren, dass die Ausgaben für Rechenleistung bis 2030 600 Milliarden US-Dollar betragen würden.
Von 1,4 Billionen auf 600 Milliarden US-Dollar; am Wochenende haben viele Investmentbanker ihre Taschenrechner ausgepackt und sich gefragt: Ist das eine Reduzierung um die Hälfte oder um 60 %? Ist die Nachfrage nach Rechenleistung erreicht?
Ich habe damals speziell nachgeschaut, dass die beiden Zahlen gar nicht vergleichbar sind.
Eine Zahl betrifft das gesamte Infrastrukturangebot über acht Jahre, einschließlich Rechenzentren, Hardware, Stromversorgung und Personal, alles zusammen. Die andere Zahl betrifft die reinen Ausgaben für Rechenleistung über fünf Jahre, nur die Kosten für Training und Inferenz.
Wenn man diese beiden Zahlen vergleicht, ist das wie wenn man das Gesamtbudget eines Gebäudes mit dem Angebot eines Bauunternehmens vergleicht. Die Kategorien stimmen nicht überein. Nachdem der Markt das verstanden hatte, war die Panik nach einer Woche vorbei.
Das dritte Mal war am 28. April 2026, als die Wall Street Journal berichtete.
Diesmal wurde gesagt, dass die Anzahl der OpenAI-Benutzer nicht die Ziele erreicht hatte; das Ziel für die wöchentliche Aktivität war 1 Milliarde, das wurde nicht erreicht, und auch das Umsatzziel war nicht erfüllt. Mehrere monatliche KPIs lagen hinter den Zielen.
Was noch schlimmer war, der CFO hat direkt an die Unternehmensleitung gerufen: Wenn es so weitergeht, kann die Firma die Rechnungen für das Rechenzentrum möglicherweise nicht bezahlen.
Diese Runde hat die Börse stark getroffen. Der Philadelphia Semiconductor Index ist um 3,6 % gefallen. Oracle ist um über 4 % gefallen. AMD ist um 3,4 % gefallen. CoreWeave ist um 5,8 % gefallen; die meisten Artikel an diesem Tag hatten im Wesentlichen sechs Wörter: Die AI-Geschichten kommen wieder.
Ha, einen Monat später hatten alle Kurse ihre Verluste wieder wettgemacht und setzten neue Rekorde.
Das vierte Mal war Anfang Juni, als die Einnahmen von Broadcom für AI-Chips im Vergleich zum Vorjahr um 143 % gestiegen waren. Diese Zahl ist in jeder Branche spektakulär.
Aber der Markt war nicht beeindruckt, weil es auf der Wall Street ein „Geheimnis“ gab; die offizielle Erwartung lag bei 2,4 US-Dollar pro Aktie, Broadcom hat 2,44 US-Dollar erzielt, also besser als erwartet. Aber das Geheimnis war 2,45 US-Dollar. Es fehlte eine Cent.
Eine Cent, nur diese eine Cent, und innerhalb von zwei Tagen ist AMD um 12,6 % gefallen, Micron um 17 %, Intel um 9 %; der globale Halbleiterbereich hat mehr als eine Billion US-Dollar an Marktwert verloren.
Drei Wochen später hatten alle Kurse ihre Verluste wieder wettgemacht. AMD hat einen neuen Rekord erreicht, auch Intel hat einen neuen Rekord erreicht; Das fünfte Mal war das, was ich gerade erwähnt habe; Die Inferenzkosten von OpenAI sind um die Hälfte gesunken. Wie hat der Markt reagiert? Es ist gestiegen, alle Kurse sind gestiegen.
Nun, wenn Sie diese fünf Fälle nebeneinander legen, sehen Sie etwas?
Das erste Mal ist es einen Tag lang stark gefallen und hat sich über mehrere Monate erholt; Das zweite Mal war es ein Wochenende lang in Panik und hat sich nach einer Woche erholt; Das dritte Mal ist es einen Tag lang gefallen und hat sich nach einem Monat erholt. Das vierte Mal ist es zwei Tage lang gefallen und hat sich nach drei Wochen erholt. Das fünfte Mal ist es gar nicht gefallen.
Werden die AI-Geschichten weniger? Nein, es werden jeden Monat neue geschrieben; Was sich ändert, ist die Immunität des Marktes; Sie wird immer stärker, so stark, dass beim letzten Mal der Markt gar nicht mehr reagiert hat.
02
Jetzt stellt sich die Frage, warum der Markt so immun ist?
Meine Meinung ist: Der Markt hat 18 Monate gebraucht, um endlich etwas zu verstehen; Diese AI-Geschichten schneiden jedes Mal an der gleichen Stelle, und diese Stelle ist gar nicht der Kernpunkt.
Ich gebe Ihnen ein Beispiel, und Sie verstehen es sofort.
Das Geschäft mit AI-Hardware kann in zwei Ebenen aufgeteilt werden; Die obere Ebene ist die „Einrichtung“, die untere Ebene ist das „Haus“.
Was ist die Einrichtung? Software und Algorithmen. FlashAttention, Modell-Distillation, Inferenz-Optimierung, Quantifizierungskomprimierung, all dies gehört zur Einrichtungsebene. Man kann aus dem gleichen Chip mehr Leistung herausholen und aus der gleichen GPU mehr Token generieren.
Im Wesentlichen bedeutet es, dass „die Technik immer besser wird und man mit den gleichen Materialien mehr erreichen kann“, und das hängt von den Modellen ab.
Was ist das Haus? Physikalische Hardware; Chips, Speicher, fortschrittliche Verpackung, Fertigungsleistung. Diese Dinge sind hart und die Versorgung ist starr.
Es dauert drei Jahre, um eine 2nm-Produktionslinie von TSMC aufzubauen, und man muss Milliarden von US-Dollar in eine HBM-Produktionslinie investieren. Drei Unternehmen kontrollieren 95 % der globalen DRAM-Kapazität; Wenn Sie die Kapazität erhöhen möchten, können Sie es nicht so schnell tun.
Nun, wenn Sie diese beiden Ebenen verstanden haben, schauen Sie sich die fünf AI-Geschichten an:
DeepSeek ist billiger im Training? Das ist die Einrichtungsebene; OpenAI passt die Ausgaben für Rechenleistung an? Das ist die Einrichtungsebene; Die Inferenzkosten werden um die Hälfte gesenkt? Auch die Einrichtungsebene; Alle fünf Schläge treffen auf die Einrichtungskosten, und keiner von ihnen trifft auf die Frage, ob „niemand mehr ein Haus kaufen will“.
Das eigentliche Widerspruchliche ist: Je billiger die Einrichtung, desto wertvoller wird das Haus.
Ich habe die Daten von Anthropic nachgeschaut, und diese Entwicklung zeigt das sehr gut.
2024 hat Anthropic fast zwei US-Dollar an Hardwarekosten für die Inferenz pro US-Dollar an Token-Verkäufen ausgegeben; Die Gewinnspanne war minus 94 %. Ja, Sie haben richtig gehört, es hat Geld verloren.
2025 ist die Gewinnspanne auf etwa 38 % gestiegen; Es hat angefangen, zu verdienen, und pro US-Dollar an Verkäufen hat es 0,38 US-Dollar behalten.
Im zweiten Quartal dieses Jahres wird die Gewinnspanne für die Inferenz laut der Anleitung an die Investoren auf über 60 % gestiegen sein; In weniger als zwei Jahren ist es von einem Verlust von 0,94 US-Dollar pro US-Dollar an Verkäufen zu einem Gewinn von über 0,6 US-Dollar geworden.
Diese Geschwindigkeit hat in der Geschäftsgeschichte fast keine Parallele. In der traditionellen Branche verbessert sich die Gewinnspanne im Laufe von Jahren, bei der AI-Inferenz wird die Kostenoptimierung monatlich gemessen.
Was bedeutet das?
Der Preis ist um die Hälfte gefallen, aber die Gewinnspanne ist höher; Die Kosten sinken so schnell, dass es nicht um einen Preissieg auf dem Markt geht; Für die Unternehmen, die Token verkaufen, ist jede Software-Optimierung wie ein Gelddruckwerk.
Nun, Sie fragen sich vielleicht: Wenn die Kosten sinken, sinkt auch die Nachfrage?
Entschuldigung, es ist genau umgekehrt.
Ich habe eine Reihe von offiziellen chinesischen Daten nachgeschaut; Anfang 2024 betrug der tägliche Token-Verbrauch von chinesischen Großmodellen 100 Milliarden; Bis März dieses Jahres war die Zahl, die von der Nationalen Datenbehörde veröffentlicht wurde, 140 Billionen, also eine Steigerung um mehr als das Tausendfache in zwei Jahren. Dies sind die neuesten Daten.
Einfach ausgedrückt, je billiger die Token, desto mehr werden sie genutzt.
Früher war ein Gespräch mit der AI eine Frage und eine Antwort, und es wurden einige tausend Token verbraucht; Jetzt lässt man einen Agenten eine Recherche durchführen, ein Projekt schreiben und Daten verarbeiten. Er ruft das Modell im Hintergrund mehrere zehn Mal auf, und für eine Aufgabe werden mehrere Millionen Token verbraucht.
Die Effizienzsteigerung hat nicht die Nachfrage eliminiert, sondern sie sogar geschaffen.
Meta hat vor ein paar Tagen eine Aktion unternommen, die dies sehr gut zeigt. Sie haben einen Chip namens Vistara entwickelt. Wofür?
Man hat alte DDR4-Speicher von ausgemusterten Servern entfernt und über eine neue Schnittstelle an neue DDR5-Server angeschlossen. Ein perfektes Beispiel für „Recycling“.
Auf den ersten Blick scheint es, als würde man Geld sparen, aber wenn man es andersrum betrachtet, was bedeutet es, dass ein Unternehmen mit einem Marktwert von einer Billion US-Dollar so weit geht, dass es Speicher von alten Maschinen wiederverwendet?
Der Speicher ist so knapp, dass man nicht einmal alte Speicher wegwirft; Die Nachfrage steigt ständig, und die Versorgung kann nicht mithalten.
Hier muss ich ehrlich sein. Die obige Argumentation setzt voraus, dass die Wachstumsrate der Nachfrage die Effizienzsteigerung ständig übertrifft.
Die aktuellen Daten unterstützen diese These. Die Wachstumsrate des Token-Verbrauchs ist viel höher als die Rate der Kostenreduktion. Die Einrichtung wird immer billiger, und es gibt immer mehr Menschen, die ein Haus kaufen möchten.
Wenn es einmal so kommt, dass die Menschen nicht mehr anstehen, keine Killer-Applikation auf den Markt kommt und die Wachstumsrate des Token-Verbrauchs nach unten geht, dann sind die AI-Geschichten keine Geschichten mehr. Das heißt echte negative Nachrichten, aber diesen Tag hat es noch nicht gegeben.
03
Warum die AI-Geschichten nicht mehr funktionieren, habe ich erklärt; aber an der Börse am 30. Juni gab es noch etwas, das sich lohnt, genauer zu betrachten.
Schauen Sie sich die Kurssteigerungen an