Die explodierenden Kosten für KI - Rechnungen und der unklare tatsächliche Nutzen: Wer treibt die "Token

Jeder trägt zur Inflation des Tokens bei. Und jeder wird unter seinem eigenen Einfluss ins Straucheln gezogen.

1.000.000.000.000.000

100 Billionen, eine 1 gefolgt von 14 Nullen. Dies ist zweifellos eine astronomische Zahl, aber möglicherweise noch nicht die Hälfte des täglichen Token-Verbrauchs der chinesischen Bevölkerung.

In der ersten Hälfte des Jahres 2026 wurde in den Kaffeeküchen der großen Unternehmen von Zhongguancun bis nach Silicon Valley das heißeste Thema: "Wie viel hast du heute verbrannt?" Hunderttausende, Millionen, Zehn Millionen? Wenn ein Fahrer an der nächsten Tabelle das hört, wird er wahrscheinlich denken, dass dieser Typ blödsinnig redet oder verrückt ist. Tatsächlich lügt er nicht. Sie sprechen nicht über Yuan, sondern über Tokens.

Obwohl zwischen Tokens und echtes Geld eine Größenordnung liegt, wachsen die Nullen hinter den Zahlen zu schnell. Laut Berichten hat ein ausländisches Unternehmen, als es seinen Mitarbeitern in einem Stapel Zugang zu der Unternehmenslizenz von Anthropics Claude gewährt hat, vergessen, ein Verbrauchslimit festzulegen. Einen Monat später kam die Rechnung - 500 Millionen US-Dollar, etwa 3,4 Milliarden Yuan.

Ein aktuelles chinesisches Beispiel ist Mihoyo. Zheng Yinhe, der Leiter des Technikteams der "Honkai"-Reihe, gestand auf dem Alibaba Cloud Summit im Mai 2026 selbst: Ein Ingenieur hatte beim Testen der Zusammenarbeit mehrerer Agenten kein Auslösevent festgelegt. Dutzende intelligente Agenten gerieten in eine zyklische Aufrufsituation, und in 13 Stunden belief sich die Token-Rechnung auf 2 Millionen Yuan.

Die Rechnung war riesig, aber wenn man fragt, welche praktischen Vorteile die KI gebracht hat? Die meisten Menschen werden wahrscheinlich verlegen aussehen. Die 2 Millionen Yuan, die der Mihoyo-Ingenieur verbrannt hat, wären ausreichen, um ein kleines Forschungs- und Entwicklungsteam für einen ganzen Monat zu bezahlen. Am Ende hat man aber nur eine nachtlang "KI-Trödellerei" ohne jegliche Ergebnisse erzielt.

Vielleicht ist nur der Personalabteilung gelungen, ihr Kündigungsziel zu erreichen. Der Chef wirft dann die eingesparten Personalkosten in die Entwicklung von KI und den Kauf von Tokens.

Die Einheitswertverdünnung, die exponentielle Expansion des Verbrauchsvolumens und die Fehlanpassung zwischen Investition und Output - Tokens als Hartwährung der KI-Zeit weisen typische Inflationseigenschaften auf. Und der Inflationsgrad könnte noch verrückter sein als bei den Menschen in Simbabwe, die einen Sack voll Geld tragen, um Reis zu kaufen.

Wer treibt also die "Token-Inflation" voran?

*Quelle: Internet

01 Vom maximalen Gebrauch zum begrenzten Gebrauch

In der ersten Hälfte des Jahres 2026 erfasste Silicon Valley eine Bewegung namens "Tokenmaxxing" (maximaler Token-Verbrauch). Die großen Unternehmen ermutigten ihre Mitarbeiter aktiv, so viele Tokens wie möglich zu verbrauchen und verknüpften sogar den Token-Verbrauch direkt mit den KPI.

Innerhalb von Meta wurde eine Rangliste für den Token-Verbrauch von 85.000 Mitarbeitern eingeführt. Mitarbeitern, die an der Spitze standen, wurden Titel wie "Token-Legende" und "Cache-Meister" verliehen. Amazon führte die interne KI-Nutzungsliste "KiroRank" ein und integrierte die Verbrauchsdaten in die Teambewertung.

Die Äußerungen von Huang Renxun, CEO von NVIDIA, waren wie Öl aufs Feuer: "Wenn die von meinen Ingenieuren verbrauchten Tokens nicht mindestens die Hälfte ihres Jahresgehalts wert sind, würde ich sehr besorgt sein."

Chinesische Hersteller folgten schnell der Tendenz. Tencent führte im März 2026 ein Unternehmensweites KI-Anreizprogramm ein und bot seinen Mitarbeitern jährlich Token-Ressourcen im Wert von 220.000 Yuan pro Person. Dies deckte mehrere nationale und internationale Tools wie Cursor und CodeBuddy ab. Innerhalb von Tencent gab es auch eine Zeit lang eine Token-Verbrauchs-Rangliste.

Es war also kein Wunder, dass ihre KI-Rechnungen außer Kontrolle gerieten.

In nur 30 Tagen verbrauchten die Mitarbeiter von Meta 60,2 Billionen Tokens, was einen Kostenbetrag von über 100 Millionen US-Dollar bedeutete. Uber hatte bereits nach 4 Monaten das gesamte KI-Budget für das Jahr 2026 aufgebraucht. Das Management musste dringend ein Limit einführen. Jeder Mitarbeiter darf pro Monat nicht mehr als 1.500 US-Dollar an KI-Tools ausgeben. Amazon hat auch eine strenge Token-Limitverwaltung eingeführt. Der Senior-Vizepräsident Dave Treadwell hat sogar persönlich dazugeredet: "Benutze nicht einfach KI, um KI zu benutzen."

Letzten Monat hat Tencent auch intern eine Benachrichtigung über die Anpassung der Token-Kontingente verschickt. Die Token-Kontingente aller Mitarbeiter wurden drastisch reduziert. Das monatliche Kontingent des Kern-Forschungsteams wurde von einem lockeren Zustand auf 7.000 Yuan eingeschränkt, und für ausgelagerte Stellen wurde es sogar auf 1.000 Yuan gesenkt.

Von einem unbeschränkten Gebrauch für alle Mitarbeiter zum begrenzten Gebrauch - in nur drei Monaten hat sich die Situation komplett gewandelt. Der Grund dafür ist einfach: Die hohen Rechnungen haben auch die reichen großen Unternehmen nervös gemacht.

Wie Sam Altman, CEO von OpenAI, kürzlich auf einer Veranstaltung für Unternehmenskunden sagte: "Anfangs dieses Jahres war die Betriebskosten der KI noch ein Thema, das niemals erwähnt wurde. Jetzt ist es plötzlich ein riesiges Problem."

Hinter diesem Phänomen steckt ein explosionsartiger Anstieg der Nachfrage. Laut Daten der Nationalen Datenbehörde hat die tägliche Token-Aufrufzahl in China im März 2026 bereits 140 Billionen überschritten, während sie Anfang 2024 nur 100 Milliarden betrug. Dies entspricht einem Anstieg von über tausendfacher in zwei Jahren.

Globale betrachtet zeigt dieser Wachstumstrend noch keine Anzeichen eines Abflaues. Eine kürzlich veröffentlichte Studie von Goldman Sachs prognostiziert, dass der monatliche globale Token-Verbrauch bis 2030 im Vergleich zu 2026 um das 24-fache steigen wird und auf etwa 120 Quadrillionen Tokens pro Monat ansteigen wird. Hierbei sind unternehmensbezogene intelligente Agenten der Haupttreiber des Wachstums.

*Quelle: Goldman Sachs

Das Ausufer der Token-Rechnungen hat auch eine Nebenwirkung. Um die Kostenlücke der KI zu schließen, haben im ersten Quartal dieses Jahres mehr als ein Dutzend ausländischer Technologiekonzerne über 40.000 Mitarbeiter entlassen. Programmierer waren die ersten Betroffenen. In China ist der "30. Juni" für viele Internet-Beschäftigte der gemeinsame "Letzte Tag" geworden.

Bei Meta schreibt fast niemand mehr Code von Hand. Bei den führenden chinesischen Unternehmen wird bis zu 90 % des neuen Codes von KI generiert. Der starke Anstieg der KI-Code-Rate hat direkt zu einem Rückgang der Personalanforderungen und der daraus resultierenden Arbeitsplatzunsicherheit geführt.

02 Das Rätsel des sprunghaft steigenden Token-Rechnungsbetrags

Rechnungsbetrag = Verbrauch x Preis. Hinter dieser einfachen Formel verbirgt sich eine zweischichtige, nicht so transparente Logik, die den Preis erhöht und schließlich zu einer exponentiellen Kostensteigerung führt.

Viele Menschen haben den Eindruck, dass die Preise für große Modelle ständig fallen und die KI somit immer billiger wird. Tatsächlich trifft dies nur halb zu - es sind immer nur die allgemeinen, leichten Modelle, die billig sind. Für die hochwertigen Szenarien, die Unternehmen wirklich benötigen, wie Programmierung, lange Kontextverarbeitung und komplexe Schlussfolgerungen, sind die Preise nicht gefallen, sondern haben sich im Gegenteil erhöht.

Das sicherheitsgestärkte Modell Fable 5 von Anthropic wird mit 10 US-Dollar pro Million Token-Eingabe und 50 US-Dollar pro Million Token-Ausgabe angeboten, was doppelt so viel ist wie das Opus-Serie in der gleichen Periode.

Zhipu AI in China ist ein typisches Beispiel. Laut Tianyancha hat Zhipu im ersten Quartal 2026 dreimal nacheinander die Preise für seine Kern-API angehoben, als neues Modell eingeführt wurde. Die kumulative Preiserhöhung belief sich auf 83 %. Das leichte Modell GLM-4.7 für allgemeine Szenarien kostet nur 2 - 4 Yuan pro Million Token-Eingabe und 8 - 16 Yuan pro Million Token-Ausgabe. Das Modell GLM-5.2 für Programmierung und Agent-Szenarien kostet jedoch 8 Yuan pro Million Token-Eingabe und bis zu 28 Yuan pro Million Token-Ausgabe. Der Preisunterschied zwischen den beiden Modellen kann bis zu dem Vierfachen betragen.

Darüber hinaus hat Tencent Cloud im März und April 2026 zwei Preisanpassungen vorgenommen. Der Preis für die Eingabe des Modells Hunyuan HY 2.0 Instruct ist um 463 % gestiegen. Die Preise für die Kernmodelle von MiniMax sind ebenfalls um 30 % - 50 % erhöht worden.

Zur gleichen Zeit hat sich das Abrechnungsmodell der Modellhersteller von einem Abonnementmodell vollständig auf eine nutzungsbasierte Abrechnung umgestellt. Der Umsatz der Hersteller hängt direkt vom Token-Verbrauch ab. Dies führt zu einem strukturellen Widerspruch: Das Ziel der Kunden ist es, mit den wenigsten Tokens möglichst effizient zu arbeiten, während die kommerziellen Interessen der Hersteller natürlich dahin tendieren, dass die Kunden mehr Tokens verbrauchen.

Die aktuellen Daten zeigen, dass der Anstieg des Token-Verbrauchs in letzter Zeit nicht linear, sondern exponentiell ist.

Seit Ende 2025 ist die wichtigste Veränderung in der KI-Branche der Übergang von dialogorientierter KI zu intelligenten Agenten. Die KI ist nicht mehr eine lineare Interaktion in Form von Fragen und Antworten, sondern ein komplexer Prozess, der Selbstplanung, zyklische Aufrufe und mehrfache Fehlerkorrekturen umfasst. Der Token-Verbrauch hat sich daher von einem linearen Anstieg zu einer exponentiellen Expansion gewandelt.

*Quelle: Internet

Obwohl Agenten sehr leistungsfähig sind, versteckt sich laut einer Analyse des Tencent-Forums eine Reihe von typischen ineffizienten Verbrauchsmustern:

Erstens der Kontext-Falle: Bei jeder Aktion eines intelligenten Agenten werden die historischen Gespräche, die Tool-Protokolle und der Dateiinhalt erneut einbezogen. Die gleichen Informationen werden wiederholt abgerechnet.

Zweitens die Redundanz von Fähigkeiten (Skills): Eine Basistestung von 49 Software-Engineering-Fähigkeiten hat gezeigt, dass 79,6 % der Fähigkeiten keine Verbesserung der Task-Erfolgsrate bewirken, aber den Token-Aufwand um bis zu 451 % erhöhen können.

Drittens die "Kommunikationssteuer" mehrerer Agenten: Wenn mehrere intelligente Agenten zusammenarbeiten, wiederholen sie ständig den Aufgabenkontext, die Ergebnisse und formelle Phrasen. Jede Konversation führt zu einer erneuten Abrechnung.

Viertens die "Entropie-Zunahme" bei langen Aufgaben: Je länger die Aufgabenkette ist, desto wahrscheinlicher gerät sie aus dem Kurs. Um die Abweichung zu korrigieren, müssen zusätzliche Zusammenfassungs-, Prüf- und Rückrollmechanismen eingeführt werden, was den Verbrauch weiter erhöht.

Diese Verluste sind nicht einfach additiv, sondern haben eine multiplikative Wirkung. Bei einer komplexen Aufgabe mit mehreren Agenten kann bis zu die Hälfte der Tokens für interne Koordination, Selbstkorrektur und wiederholtes Lesen aufgewendet werden. Der Anteil, der tatsächlich für die Generierung von effektivem Inhalt verwendet wird, ist nicht hoch. Für normale Unternehmen ohne ausreichende technische Fähigkeiten ist dies eine unübersichtliche und unberechenbare Rechnung.

03 Die Angst vor dem Verpassen

Wenn die Produkt- und Preispolitik der großen Modellhersteller ein äußeres "Offenes Geheimnis" ist, dann ist der Token-Verbrauch innerhalb der Unternehmen eine Art "Selbstaushöhlung" von oben nach unten.

Angst vor dem Verpassen der KI-Revolution hat die Unternehmen dazu gebracht, sich wild an die KI zu wenden. Dieser Druck wird natürlich auf jeden Mitarbeiter übertragen. Vor allem im Schatten von KI-bedingten Kündigungen betrachten die Mitarbeiter allgemein die Fähigkeit, KI zu nutzen und viel KI zu nutzen, als Quelle der Sicherheit.

Viele Unternehmen haben die KI-Code-Rate und die Nutzungsdauer von Tools in ihre OKR aufgenommen und sogar eine öffentliche Datenübersicht eingeführt, um jeden Mitarbeiter dazu zu zwingen, mehr Tokens zu verbrauchen. Einfache E-Mail-Antworten, grundlegende Code-Segmente und routinemäßige Datenabfragen, die man mit der Suchmaschine oder dem eigenen Gehirn in wenigen Sekunden lösen kann, werden stattdessen an die große KI-Modell übergeben - schließlich muss man nicht aus eigenem Geld zahlen. Je mehr man nutzt, desto stärker scheint man die "Revolution zu umarmen".

Unternehmen setzen den Token-Verbrauch in Verbindung mit der Leistung der Mitarbeiter und gehen davon aus, dass "wie viel KI man benutzt" gleichbedeutend ist mit "wie viel Wert man geschaffen hat". Sie sind auch bereit, dafür hohe Rechnungen zu zahlen.

Manche sagen, dass dies ein historisches Muster ist. Bei jeder allgemeinen Technologierevolution in der Geschichte hat man einen ähnlichen Weg gegangen. Als die Dampfmaschine neu erfunden wurde, stellten die Fabrikbesitzer fest, dass es billiger war, Pferde zu benutzen. Als die elektrische Lampe erstmals kommerziell eingesetzt wurde, war die Kosten viel höher als die der Gaslampen.

Aber der Unterschied ist, dass der Stromverbrauch zu einer konkreten und messbaren Fabrikleistung führt, aber es ist noch schwierig zu quantifizieren, wie viel Wert die "Intelligenz", die man durch Tokens erhält, tatsächlich geschaffen hat.

Laut einem

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die explodierenden Kosten für KI-Rechnungen und der unklare tatsächliche Nutzen: Wer treibt die „Token-Inflation“ voran?

01 Vom maximalen Gebrauch zum begrenzten Gebrauch

02 Das Rätsel des sprunghaft steigenden Token-Rechnungsbetrags

03 Die Angst vor dem Verpassen