Wenn Token immer günstiger werden, warum wird die Rechnung dann immer teurer?
Simon Willison, Mitbegründer des Django-Frameworks, ist wahrscheinlich einer der besten Kenner von Claude Code und Codex weltweit.
In den letzten 30 Tagen hat er Token im Wert von 2.180,16 US-Dollar verbraucht, aber nur 200 US-Dollar tatsächlich bezahlt.
Viele sehen darin eine gute Investition.
Simon sieht jedoch etwas anderes.
Denn diese günstige Situation verschwindet langsam.
OpenAI hat Codex von der Nachrichtenbasierenden Abrechnung zur Token-Abrechnung zurückgeführt; Anthropic hat zwar den offiziellen Preis von Opus 4.7 nicht erhöht, aber durch einen neuen Tokenizer die Anzahl der Tokens für denselben Text um bis zu 35 % erhöht. Diejenigen Kosten, die zuvor von der Plattform subventioniert wurden, werden nun allmählich an die Nutzer weitergegeben.
Für Simon bedeutet dies eine sehr konkrete Veränderung: Die Tage, in denen er mit 200 US-Dollar Token im Wert von über 2.000 US-Dollar verbrauchen konnte, werden zur Geschichte, und es wird keine dauerhafte Lösung sein. Eines Tages wird er wahrscheinlich tatsächlich die 2.180 US-Dollar bezahlen müssen, die er verbraucht hat.
Für jeden intensiv arbeitenden Entwickler ist dies keine leichte Nachricht.
Das Problem ist, dass diese Entwicklung fast unvermeidlich ist.
Unternehmen haben diese Veränderungen bereits zuerst gespürt.
Laut einer Meldung von The Information hat Uber binnen weniger Monate im Jahr 2026 sein gesamtes Jahresbudget für KI aufgebraucht, hauptsächlich aufgrund von Claude Code. Am 23. April 2026 hat OpenAI GPT-5.5 veröffentlicht, und die Preise für Eingabe und Ausgabe sind von 2,5/15 US-Dollar bei GPT-5.4 auf 5/30 US-Dollar gestiegen; Anthropic hat zwar den offiziellen Preis von Opus 4.7 beibehalten, aber Willison schätzt, dass die effektiven Kosten etwa 1,4-mal höher sind als bei Opus 4.6.
Einer erhöht die Preise offen, der andere versteckt.
Wenn man nur diese Nachrichten liest, kommt man leicht zu dem Schluss, dass KI immer teurer wird.
Das Problem ist, dass dieser Schluss genau entgegengesetzt zu den wichtigsten Forschungsergebnissen der letzten Jahre ist.
Guido Appenzeller, Partner von a16z, hat dieser Kurve einen Namen gegeben: LLMflation.
Im Jahr 2021 kostete die Leistung auf GPT-3-Niveau 60 US-Dollar pro Million Tokens, heute nur 0,06 US-Dollar.
Das Team von Mingdeng Du an der Wuhan-Universität hat im März dieses Jahres 318 Modelle von OpenRouter und 3.237 Aufzeichnungen von Epoch AI analysiert und festgestellt, dass sich die Token-Preise in den letzten sechs Jahren um etwa das 600-fache gesenkt haben. Die Halbwertszeit der Preise für die günstigen Modelle beträgt nur 1,10 Jahre, für die mittelwertigen Modelle 1,55 Jahre, was sogar schneller ist als das Moore'sche Gesetz.
Wenn man nur die Kosten betrachtet, sieht die Branche der großen Modelle heute überhaupt nicht aus, als würde sie die Preise erhöhen.
Es scheint eher, dass sie eine beispiellose Deflation durchmacht.
Also stellt sich die Frage.
Wenn die Kosten sinken, warum werden die Rechnungen immer teurer?
Weil die Unternehmen heute viel Geld ausgeben, und viele Diskussionen vermischen diese beiden Arten von Kosten, so dass man diese Rechnung nie richtig ausmachen kann.
Schauen wir uns zuerst die erste Art von Kosten an.
Claude Code behebt einen Bug nicht einfach, indem es in einem Chatfenster antwortet. Es muss den Code-Repository lesen, die Abhängigkeiten analysieren, Tools aufrufen, Tests ausführen, die Fehlermeldungen verstehen und dann das Ergebnis wieder in das Modell zur Inferenz geben. Was der Nutzer am Ende vielleicht nur als ein paar hundert Codezeilenänderungen sieht, verursacht dahinter Hunderttausende von Tokens.
Das Gleiche gilt für Inferenzmodelle.
Branchenschätzungen zeigen, dass in einigen komplexen Inferenztasks die internen Token-Verbrauch des Modells das Mehrfache oder sogar das Hundertfache der endgültigen Ausgabe betragen kann.
Deshalb bedeutet Ubers Budgetüberschreitung nicht unbedingt Verschwendung.
Es kann auch etwas anderes bedeuten: Die KI beginnt endlich, wirkliche Arbeit zu leisten.
In den letzten Jahren haben die Menschen es gewohnt, große Modelle als Suchmaschinen, Chatbots oder Schreibassistenten zu verwenden. Heute verwenden immer mehr Unternehmen sie als Ingenieure, Analysten, Betriebspersonal und Kundendienstteams.
Die Aufgaben werden komplexer.
Der Verbrauch steigt natürlich.
Wer einen Ferrari kauft, beschwert sich nicht über den Benzinverbrauch.
Nicht weil er kein Geld darauf achtet.
Sondern weil er einen Ferrari kauft, um die Leistung zu haben.
Das Gleiche gilt für viele Agent-Aufgaben heute. Code-Review, komplexe Betriebsführung, Finanzanalyse, Vertragsprüfung - in diesen Szenarien sind die besten Agenten und Modelle oft eng miteinander verbunden. Natürlich kann man ein fünfmal billigeres Modell wählen, aber die Ergebnisse werden wahrscheinlich ebenfalls schlechter sein.
Dieser Teil des Geldes wird für die Leistung ausgegeben.
Es wird nicht vergeudet.
Wenn die Geschichte hier enden würde, wäre der Schluss einfach: Die KI kann mehr, also wird sie teurer.
Aber genau hier liegt das Problem.
Die wichtigsten Forschungsergebnisse der letzten Jahre sagen genau das Gegenteil.
Die KI wird nicht teurer.
Die KI durchmacht eine beispiellose Preisreduktion.
Viele haben sich die Tatsache gemerkt, dass die Preise in der Studie der Wuhan-Universität in sechs Jahren um das 600-fache gesunken sind.
Was wirklich interessant ist, ist jedoch nicht diese Zahl.
Sondern die Kurve, die nicht gesunken ist.
Die Studie hat die Modelle in Ebenen unterteilt und festgestellt, dass die günstigen und mittelwertigen Modelle auf demselben Weg sinken. Die Leistung wird immer verbreiteter, und die Preise nähern sich immer mehr den Kosten.
Wenn die Geschichte hier enden würde, würde die KI schließlich zu einem standardisierten Produkt werden.
So wie Cloud-Server, Strom oder Bandbreite.
Das Problem ist, dass es einige Modelle gibt, die dieser Regel nicht folgen.
Die Studie hat eine exponentielle Anpassung der Preise der Flaggschiffmodelle vorgenommen und ein R² von nur 0,031 erhalten.
Übersetzt in einfache Sprache heißt das:
Die Preisreduktionsregel ist hier fast wirkungslos.
Zur gleichen Zeit gibt es einen durchschnittlichen Aufschlag von 31,5-mal für Inferenzmodelle im Vergleich zu normalen Modellen.
Dies ist kein statistischer Fehler.
Dies ist die Marktstruktur.
Die normale Leistung wird immer billiger.
Die unverzichtbare Leistung nicht.
OpenAI hat den Preis von GPT-5.5 verdoppelt, und Anthropic hat den effektiven Preis von Opus 4.7 durch den Tokenizer erhöht - beides geschieht außerhalb dieser Kurve.
So tritt ein interessantes Phänomen auf.
Obwohl es sich um dieselben Tokens handelt.
Einige Tokens werden schnell zu Waren.
Andere Tokens werden schnell zu Hartwährungen.
Der Preis der ersten Gruppe nähert sich immer mehr den Kosten.
Der Preis der zweiten Gruppe nähert sich immer mehr der Knappheit.
Das ist auch der Grund, warum GPT-5.5 und DeepSeek gleichzeitig existieren können und beide sinnvoll sind.
Das erste verkauft die derzeit stärkste Leistung.
Das zweite verkauft die bereits bewiesene und sich ausbreitende Leistung.
Beide befinden sich auf dem KI-Markt.
Aber sie folgen zwei verschiedenen Preisbildungsprinzipien.
Wenn man bis hierher gelesen hat, stellt sich natürlich die Frage.
Da die besten Modelle schließlich immer verbreitet werden und das heutige GPT-5.5 früher oder später zur normalen Leistung werden wird, warum versuchen einige Menschen immer noch, an die Spitze zu gelangen?
Weil der größte Wert der Spitze nie darin lag, teuer zu verkaufen.
Sondern darin, was man als fortschrittlich definiert.
Das ist auch bei der Automobilindustrie der Fall.
Ein Auto für 50.000 Yuan und ein Auto für 5 Millionen Yuan können beide Menschen von Punkt A nach Punkt B bringen. Letzteres ist natürlich teurer. Aber die Bedeutung eines Luxusautos liegt nicht nur darin, dass Reiche es konsumieren können.
ABS, ESP, aktive Sicherheit, intelligentes Fahren - viele Dinge, die später zur Branchen-Standard wurden, sind zuerst in den teuersten Autos erschienen. Wenn die Technologie reif ist, breitet sie sich dann auf einen größeren Markt aus.
Das Geld, das Luxusautos verdienen, ist eine Sache.
Wichtiger ist, dass sie die Richtung bestimmen, in die die Branche sich bewegt.
Das Gleiche gilt für die KI.
Die neuesten Architekturen, die längsten Kontexte, die komplexesten Inferenzketten, die radikalsten Trainingsmethoden werden zuerst in den Spitzenmodellen erscheinen. Die meisten von ihnen werden scheitern, und die wenigen erfolgreichen Teile werden dann destilliert, komprimiert und in Produkte integriert, die billiger sind.
Die Spitze erhöht die Preise nicht, um teurer zu verkaufen.
Sondern die Knappheit und Unersetzbarkeit sind die stärksten Preisschwächen.
Solange ein Modell die derzeit fortschrittlichste Leistung darstellt, wird sein Preis nicht mehr vollständig von den Kosten bestimmt.
Der Preis wird bestimmt von der Anzahl der Menschen, die es brauchen, und der Anzahl der Menschen, die es ersetzen können.
Das ist auch das, was die amerikanischen Spitzenmodelleunternehmen wirklich verteidigen.
Nicht eine bestimmte Version.
Sondern die Position des "fortschrittlichsten Modells" selbst.
Die Vereinigten Staaten betrachten sich als die weltweit führende Innovationshub für KI. Egal, ob man diese Aussage mag oder nicht, zumindest haben sie heute immer noch die stärksten geschlossenen Modelle, die stärksten kommerziellen Produkte und die stärkste Fähigkeit, Kapital zu beschaffen.
Da sie diese Position innehaben, werden die Preise natürlich nicht zusammen mit den Kosten fallen.
Weil sie nicht mehr Tokens verkaufen.
Sondern Unersetzbarkeit.
Das Geld, das die amerikanischen Spitzenunternehmen einnehmen, ist nicht Profit, sondern das Kapital für eine Wette.
In der S-1-Prospekturkunde von SpaceX steht, dass Anthropic seit Mai 2026 Rechenleistung von COLOSSUS und COLOSSUS II von ihnen bezieht, und der Vertrag läuft bis Mai 2029, mit einem monatlichen Höchstbetrag von etwa 1,25 Milliarden US-Dollar. Und dies ist nur einer ihrer Lieferanten.
Das Geld, das aus der Lücke zwischen Preis und Kosten herausgepresst wird, wird direkt in die Rechenzentren investiert.
Diese Zusage gilt nur unter einer Voraussetzung:
Sie wetten darauf, dass ihre Unersetzbarkeit in den nächsten Jahren nicht zusammenbricht.
China setzt ebenfalls auf dieselbe Frage.
Nur in einer anderen Richtung.
Viele verstehen die chinesischen Modelle als eine kostengünstige Strategie.
Dies ist eine Fehlinterpretation.
Wenn es nur um niedrige Preise ginge, würde es in China keine 10 Milliarden US-Dollar Finanzierung für DeepSeek geben, keine kontinuierliche Bemühung von Zhipu, um eine stärkere Codierungsleistung zu erreichen, und keine Entscheidung von Tencent Hunyuan, nach zwei Jahren einseitiger Preisreduktion die API-Preise wieder zu erhöhen.
Chinesische Unternehmen streben ebenfalls die Spitze an.
Weil niemand gerne immer von den Preisen anderer abhängig ist.
Der wahre Unterschied besteht darin, dass China mehr an die Technologiediffusion glaubt.
DeepSeek hat den Preis von V4-Pro dauerhaft auf ein Viertel des ursprünglichen Preises gesenkt, und die Gesamtkosten für Eingabe und Ausgabe von einer Million Tokens betragen etwa 5,27 US-Dollar, was ein Siebtel von GPT-5.5 und ein Sechstel von Claude Opus 4.7 ist. Gleichzeitig wird eine Finanzierung von etwa 10 Milliarden US-Dollar vorangetrieben. Die Xiaomi MiMo-V2.5-Serie hat die Preise dauerhaft gesenkt, mit einer maximalen Reduktion von 99 %. Volcengine hat mitgeteilt, dass die tägliche Token-Menge des Doubao-Modells bereits 120 Billionen überschritten hat und sich in drei Monaten verdoppelt hat.
Hinter diesen Maßnahmen steckt nicht einfach ein Preisvergleich.
Sondern eine Branchenbeurteilung.
In den letzten zwanzig Jahren haben fast alle erfolgreichen chinesischen Branchen demselben Weg gefolgt.
So ist es bei den Elektromobilen.
So ist es bei den Batterien.
So ist es bei der Photovoltaik.
Zuerst wird die fortschrittlichste Technologie eingeholt, dann wird die Technologie in die Praxis umgesetzt, skaliert und vermarktet, und schließlich wird die Leistung, die ursprünglich nur wenigen zur Verfügung stand, dem breiten Markt zugänglich gemacht.
Die KI folgt diesem Weg erneut.
Die Spitze ist natürlich wichtig.
Aber der größte Markt liegt nie an der Spitze.
China wetten darauf, dass die Diffusionsgeschwindigkeit der Spitzenleistung schneller ist als die Rentenhöhe der Spitze.
Und wie dick diese "Mauer" jetzt ist, weiß niemand.
Das am 7. April von Zhipu veröffentlichte Open-Source-Modell GLM-5.1 hat eine Programmierleistung von 94,6 % im Vergleich zu Claude Opus 4.6, und es kann unter der MIT-Lizenz kommerziell genutzt werden, ohne Einschränkungen. Das Training wurde vollständig auf Huawei Ascend-Systemen durchgeführt, ohne eine einzige NVIDIA-Karte.
Die aktuelle Debatte, die scheinbar um den Token-Preis geht, geht nicht um den Preis.
Sondern darum, wie lange die Unersetzbarkeit der KI noch auf