GPT-5.5 Verdoppelt, Gemini Verdreifacht: Wie Lange Kann Das Preiserhöungsspiel Fortsetzen?

【Einleitung】Die neuesten Schätzungen von Epoch AI enthüllen eine grausame Realität: Selbst wenn alle Blackwell-Chips weltweit auf volle Leistung gefahren werden, reichen sie nicht aus, den Strom von Tokens zu bewältigen.

Wie lange kann das Preiserhöhungsspiel der führenden Large Language Models noch dauern?

Seit Januar dieses Jahres ist der Mietpreis für GPUs um mehr als das Dreifache gestiegen.

Nach dem Bericht "Memory Price Tracking Report", der von Counterpoint im Februar veröffentlicht wurde, ist der Preis für Speicher seit dem ersten Quartal 2026 um 80 % bis 90 % im Vergleich zum Vorquartal gestiegen, was ein beispielloser Anstieg ist.

Diese Preiserhöhung hat sich natürlich auf die Nachhaltigen übertragen.

Der kürzlich veröffentlichte Bericht "Gradient Updates" von Epoch AI hat eine einfache und direkte Sache getan: Die Anzahl der Tokens, die alle Blackwell-Chips weltweit verarbeiten können, wurde berechnet und dann mit dem tatsächlichen Bedarf verglichen.

Die Schlussfolgerung besteht nur aus einem Wort - nicht genug.

Die Token-Flut verschlingt alles

Schauen wir uns zunächst die Angebotsseite an.

Das Modell von Epoch AI basiert auf Kimi K2.6 - ein MoE-Architekturmodell mit Billionen von Parametern und 3,2 Milliarden aktiven Parametern.

Bei einem Eingabe-Ausgabe-Verhältnis von 8.000:1.000 liegt die theoretische Grenze der globalen Blackwell-Cluster bei etwa 20 Milliarden ausgegebenen Tokens pro Sekunde.

Klingt das viel? Umgerechnet reichen diese Tokens für jeden Menschen auf der Erde für etwa 7 Millionen Tokens pro Monat.

Doch dies ist ein idealer Fall. Sobald das Kontextfenster auf 128.000 Tokens verlängert wird, sinkt die Durchsatzleistung um das 50-fache auf etwa 500 Millionen Tokens pro Sekunde.

Schauen wir uns nun die Nachfrageseite an.

Google hat kürzlich bekannt gegeben, dass es etwa 1,2 Milliarden Tokens (Eingabe + Ausgabe) pro Sekunde verarbeitet.

Bei einem Anforderungsverhältnis von 8.000:1.000 entspricht dies etwa 130 Millionen ausgegebenen Tokens pro Sekunde. Exponential View schätzt, dass Google etwa 25 % des globalen Token-Bedarfs ausmacht.

Das bedeutet, dass der aktuelle globale Token-Bedarf, wenn alle Blackwell-Cluster auf volle Kapazität laufen und nur für teure Milliarden-Parameter-Modelle genutzt werden, gerade noch gedeckt werden kann.

Aber wie schnell wächst der Bedarf?

Zehnfache pro Jahr.

Seit 2024 hat die Anzahl der von Google verarbeiteten Tokens jedes Jahr um das Zehnfache zugenommen, und die Wachstumsraten anderer Anbieter liegen in der gleichen Größenordnung.

Und wie sieht es mit der Angebotsseite aus? Die globale KI-Rechenleistung wächst jährlich um das 3,4-fache, und die Bandbreite der Chip-Speicher wächst um das 4,1-fache.

Das Angebot wächst um das 3,4-fache, während die Nachfrage um das Zehnfache steigt. Die Lücke wird jedes Jahr größer.

Meta-Mitarbeiter verbrauchen 1 Million Tokens pro Tag

Der Mangel an Rechenleistung ist kein abstrakter Begriff.

Schauen wir uns an, was innerhalb der Unternehmen passiert.

The Information berichtet, dass die 850.000 Mitarbeiter von Meta monatlich 60 Billionen Tokens verbrauchen.

Umgerechnet verbraucht jeder Mitarbeiter pro Tag etwa 1 Million ausgegebene Tokens.

Apple ist noch aggressiver.

Einige Ingenieurteams dürfen täglich 300 US-Dollar für Tokens ausgeben - bei den Preisen von Kimi K2.6 reicht das für eine Person für die tägliche Erzeugung von 25 Millionen ausgegebenen Tokens.

Dies sind nur zwei Unternehmen.

Etwa 14 Millionen Softwareingenieure weltweit nutzen täglich KI.

Wenn ihre Nutzungshäufigkeit das Niveau der Meta- oder Apple-Mitarbeiter erreicht, würde der globale Token-Durchsatzbedarf auf 200 Millionen bis 4 Milliarden Tokens pro Sekunde steigen.

4 Milliarden.

Die Grenze der Blackwell-Langkontext-Fähigkeit liegt bei 500 Millionen. Das ist eine ganze Größenordnung weniger.

Claude Code verlangsamt Entwickler um 19 %

Noch peinlichere Dinge passieren.

Eine neueste Studie von METR zeigt, dass Claude Code in der Praxis die Arbeitsgeschwindigkeit von erfahrenen Entwicklern um 19 % verlangsamt.

Die Installationsrate der VS Code-Plugins ist seit Anfang des Jahres deutlich gesättigt.

Die langsamere Wachstumsrate der Codierungstools könnte auf zwei Faktoren zurückzuführen sein: Einerseits ist der Ressourcenmangel an Rechenleistung, andererseits haben viele Unternehmen ihr jährliches KI-Budget bereits aufgebraucht.

Im krassen Gegensatz dazu steigen die Preise der führenden Modelle weiter.

Der Abonnementpreis von ChatGPT Pro wurde erhöht, die API-Preise von Claude sind gestiegen, und die Preise von Gemini sind am stärksten gestiegen - in einigen Szenarien sind sie um das Dreifache gestiegen. Die Preise von GPT-5.5 sind sogar verdoppelt.

Man verbraucht mehr, zahlt mehr, aber das Ergebnis ist nicht unbedingt besser.

Die Unternehmen haben schnell erkannt, was sich lohnt.

Flucht zu DeepSeek

Eine Fluchtroute hat sich bereits gebildet.

Die Trainingskosten von DeepSeek V3 betragen nur 1/10 bis 1/20 der Kosten der führenden Modelle, und die API-Preise sind bis zu 1/16 der Preise vergleichbarer Modelle.

Wie ist die Leistung? Sie ist fast so gut wie die von GPT-5.

Ein Beitrag auf Hacker News ist viral geworden: Ein ROI-Modell über 11 Monate, das Unternehmen Schritt für Schritt lehrt, wie viel sie pro Jahr sparen können, wenn sie von GPT-5.5 zu DeepSeek wechseln.

Die Meinung in den Kommentaren ist einfach: Das Preisdiktat der führenden Modelle bricht zusammen.

Wenn ein Open-Source-Modell mit 1/16 des Preises 90 % der Leistung eines anderen Modells erzielen kann, ist eine Preiserhöhung nicht mehr ein Zeichen von Vertrauen, sondern ein Beschleuniger für den Kundenverlust.

Tokenmaxxing - Unternehmen setzen auf die maximale Token-Nutzung, um den Wert der KI zu maximieren - war ursprünglich die Wachstumsgeschichte der führenden Modelle.

Aber jetzt zeigt ein Bericht von The Information, dass diese Strategie die Gewinnmargen der KI-Unternehmen selbst schädigt.

Je mehr Benutzer, desto mehr Verluste. Wenn man die Preise erhöht, um die Verluste einzudämmen, gehen die Benutzer weg.

Eine klassische Todesspirale.

Das Endspiel vor dem Rechenleistungsklipp

Schauen wir uns das Ganze aus einer weiteren Perspektive an.

Die führenden Labore - OpenAI, Anthropic, Google DeepMind - nutzen nur 20 % bis 30 % der globalen KI-Rechenleistung.

Die restlichen 70 % bis 80 % befinden sich in den Händen von Unternehmen für eigene Zwecke, Cloud-Anbietern und Inference-Anbietern.

Das bedeutet, dass selbst die besten Labore nicht in der Lage sind, die Nachfrage-Lücke durch die eigene Rechenleistung zu schließen. Sie konkurrieren wie alle anderen um die gleichen Chips.

Die Rechenleistung wächst jährlich um das 3,4-fache, während die Nachfrage um das Zehnfache steigt. Dieser Unterschied wird nicht von selbst verschwinden.

Kleinere Modelle ersetzen tatsächlich einen Teil des Bedarfs - der Aufstieg der Distillationsschichten beweist dies. Aber die Verbesserung der Fähigkeiten schafft ständig neuen Bedarf.

Die KI-Branche steht vor einem Abgrund.

Es ist kein technologischer Abgrund, denn die Modelle werden immer stärker. Es ist ein wirtschaftlicher Abgrund, denn die Zahlen stimmen nicht mehr.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

GPT-5.5 verdoppelt, Gemini verdreifacht: Wie lange kann dieses Preiserhöungsspiel noch weitergehen?

Die Token-Flut verschlingt alles

Meta-Mitarbeiter verbrauchen 1 Million Tokens pro Tag

Claude Code verlangsamt Entwickler um 19 %

Flucht zu DeepSeek

Das Endspiel vor dem Rechenleistungsklipp