Die Ära der sorgfältig kalkulierenden künstlichen Intelligenz ist angebrochen
Letzte Woche hat Doubao offiziell mit der Bezahlung begonnen. Es hat eine Professionelle Version eingeführt, die in drei Preisklassen aufgeteilt ist. Die Jahresgebühr für das oberste Paket beträgt bis zu 5.088 Yuan.
Anschließend will auch DeepSeek, das bekanntlich als "Preisjäger" gilt, seine Preismodelle ändern. Nach der Einführung des neuen Spitzen- und Tiefzeit-Tarifsystems werden die Zeiträume von 9 bis 12 Uhr morgens und von 14 bis 18 Uhr nachmittags als Spitzenzeiten betrachtet. In diesen Zeiten verdoppelt sich die Kosten für die API-Aufrufe direkt.
Quelle: DeepSeek Open Platform
Alle Geschenke, die es scheinen, sind im Geheimen mit einem Preis versehen. ChatGPT hat Anfang Februar diesen Jahres Werbung in die Dialogfelder der kostenlosen Nutzer eingebaut. Letzte Woche hat es auch in Frankreich rege Werbung gemacht, und die Häufigkeit der Werbeaussendungen hat plötzlich zugenommen.
Die Zeit des kostenlosen Genusses von KI scheint bald zu Ende zu gehen. In diesem Zeitraum des vergangenen Jahres waren die Unternehmen noch in einem Preiskampf, aber jetzt fragen sich alle, wie man das Geschäft mit KI endlich rentabel machen kann.
1. Zwei Wege der Kommerzialisierung sind blockiert
Für ein KI-Unternehmen gibt es im Grunde nur zwei Wege, um Geld zu verdienen. Entweder mehr Geld einnehmen oder weniger Geld ausgeben. Aber jetzt sind beide Wege blockiert.
In den letzten Jahren ging es darum, die Nutzerbasis zu erweitern. Die Internet-Strategie hat sich tief in die Köpfe der Menschen eingebrannt. Im Vorfeld wird wild Geld in die Akquise von Nutzern investiert, und es spielt keine Rolle, ob man Verluste macht. Wenn die Nutzerbasis groß genug ist, werden die Kosten natürlich aufgeteilt. Aber die Grenzkosten im Internet sind nahezu Null. Wenn ein zusätzlicher Nutzer zugreift, steigen die Serverkosten kaum.
KI-Produkte folgen eher der Logik der Fertigungsindustrie. Wenn die Nutzerbasis wächst, steigen auch die Rechenleistungskosten. Denn die Kosten für KI sind starr. Wenn ein zusätzlicher Nutzer eine Frage stellt, muss das Modell tatsächlich eine Inferenz durchführen und Rechenleistung verbrauchen. Je mehr Nutzer und je mehr Gespräche, desto mehr Rechenleistung wird verbraucht.
OpenAI, das 900 Millionen monatliche aktive Nutzer hat, hat im vergangenen Jahr einen Nettoverlust von 38,5 Milliarden US-Dollar gemacht. Im ersten Quartal dieses Jahres hat sich die Situation auch nicht verbessert. Das Unternehmen verliert 1,22 US-Dollar für jeden US-Dollar, den es einnimmt. Bei Doubao beträgt die tägliche Token-Aufrufmenge zwar bereits 180 Billionen, aber das tägliche Einkommen liegt unter 1 Million Yuan.
Werbung am Ende der Antwort auf die Frage "Wie lernt man KI?" in ChatGPT
Andererseits ist die Rechenleistung selbst eine knappe Ressource, was die Preise für Rechenleistung auf hohem Niveau hält, und die Gesamtkosten können nicht gesenkt werden.
Zurzeit ist die Beschränkung der Rechenleistungszufuhr eine harte physische Barriere, die nicht so leicht zu überwinden ist. Zunächst ist es der Strom. Gartner prognostiziert, dass der Stromverbrauch der globalen Rechenzentren bis 2030 mehr als 1.200 TWh betragen wird, und die Stromversorgung des Stromnetzes wird nicht ausreichen, um den Bedarf zu decken. Dann sind es die Chips. Die fortschrittliche Verpackung von globalen High-End-KI-Chips hängt fast vollständig von TSMC ab. Aber auch wenn TSMC seine Kapazität so schnell wie möglich erweitert, kann NVIDIA mehr als 60 % der Produktion konsumieren. Die verbleibenden 40 % werden von mehreren Dutzend Unternehmen umkämpft, und selbst wenn man das Geld hat, kann man nicht an die Reihe kommen.
Darüber hinaus wandelt sich die KI-Form von einem Chatbot, der auf Fragen antwortet, zu einem Agenten, der kontinuierlich läuft. Ein Agent muss die wenigen Zeilen Aufgaben, die ihm von Menschen gegeben werden, in Hunderte oder Tausende von Selbstinferenzen, Tool-Aufrufen und Gedächtnisoperationen im Hintergrund umwandeln. Dieser Wandel erfordert eine exponentielle Steigerung der Rechenleistung.
Deshalb sind die Rechenleistungskosten zwischen zwei Fronten eingespannt. Die Kosten steigen proportional zur Anzahl der Aufrufe, und die Skaleneffekte können die Kosten nicht senken. Die Zufuhr kann auch nicht den ansteigenden Bedarf decken, und die Kosten können nicht gesenkt werden.
Warum also nicht die Preise erhöhen und mehr Geld einnehmen?
Im B2B-Produktivitätsszenario ist eine Preiserhöhung kein Problem. Die Kunden kaufen die Fähigkeit, komplexe und spezielle Probleme zu lösen. Die Intelligenzgrenze und die reale Fähigkeit sind die erste Einschränkung, und die Unternehmen können sich die hohen Kosten leisten. Dies zeigt sowohl der starke Anstieg des ARR von Anthropic, der Anstieg des Aktienkurses von Zhipu als auch die gute Resonanz von Workbuddy.
Aber im B2C-Szenario ist die Situation völlig anders. Von den 900 Millionen wöchentlichen aktiven Nutzern von ChatGPT im Jahr 2025 sind nur etwa 50 Millionen persönliche Abonnenten, was nur etwa 5 % entspricht.
Die Zahlungsbereitschaft in China ist noch geringer. Nach langjähriger Einwirkung des Internetmodells "kostenlos + Werbung" haben die chinesischen Nutzer keine Gewohnheit, für unabhängige Software zu zahlen. Als Doubao im Anfang Mai 2026 ein Abonnementmodell testete, war der Hashtag "Doubao ist dumm und kostet auch noch Geld" auf der Trending-Liste.
Einfach gesagt, die normalen Nutzer haben keine Loyalität gegenüber B2C-KI-Produkten. Sie verwenden einfach das Produkt, das für sie bequem und angenehm ist. Nicht nur eine Preiserhöhung, sondern auch der Wechsel von kostenlos zu bezahlt würde viele Nutzer vertreiben.
Das heißt, die einzige Möglichkeit für die Unternehmen besteht darin, zu prüfen, ob man bei der gleichen Aufgabe mit weniger Rechenleistung auskommen kann.
Das ist genau das, was die gesamte Branche derzeit tut: Effizienz hat Priorität.
2. Jede Rechenleistungseinheit sinnvoll einsetzen
Von innen nach außen arbeitet die Branche auf jeder Ebene an der Verbesserung der Effizienz.
Im untersten Hardware-Schicht glaubt selbst NVIDIA, dass die GPU allein nicht ausreicht. Auf der GTC-Konferenz dieses Jahres hat NVIDIA einen neuen Chip namens LPU vorgestellt, der auf der Grundlage von Groq, für das es im vergangenen Jahr die technische Lizenz erworben hat, entwickelt wurde und speziell für KI-Inferenzszenarien optimiert ist.
Wie kann man das verstehen? Die GPU ist gut in der Lage, hohe parallele Massenrechnungen durchzuführen, wie eine Formation von zehntausend Soldaten, die gemeinsam angreifen. Sie wird hauptsächlich für das Pre-Training von großen Modellen verwendet, um die Intelligenzgrenze zu erhöhen. Der LPU ist wie eine Eliteeinheit, die gut darin ist, schnell auf eine Aufgabe zu reagieren. Bei den täglichen Inferenzszenarien für normale Nutzer ist es nicht erforderlich, zehntausende von Computern gleichzeitig einzusetzen. Ein schnelles und kostengünstiges System ist am kosteneffektivsten.
Über dem Chip liegt die Modellarchitektur. MoE (Mixture of Experts) ist in den letzten zwei Jahren zum Standard geworden. Der Vorteil besteht darin, dass die Gesamtparameter des Modells auf eine Billionen-Ebene erhöht werden können, um eine ausreichende "Gehirnkapazität" zu gewährleisten. Bei jeder Aufgabe werden jedoch nur eine kleine Anzahl von Parametern aktiviert, so dass das Modell sowohl leistungsstark als auch sparsam ist. Man kann sich das so vorstellen, dass ein Unternehmen bei jeder Aufgabe die passenden Experten aus der gesamten Mitarbeiterbasis auswählt.
Es ist schwierig, die Aktivierungsrate zu senken, und es ist noch schwieriger, die richtigen "Experten" auszuwählen. Andernfalls wird die Qualität der Antworten beeinträchtigt, wenn die erforderlichen Parameter nicht aktiviert werden. Beispielsweise hat DeepSeek V4 Pro insgesamt 1,6 Billionen Parameter, aber nur 49 Milliarden werden bei jeder Aufgabe aktiviert, was nur 3 % der "Elite-Mitarbeiter" entspricht. Das Ergebnis? Die Codierungsfähigkeit ist nahe an der eines top-level geschlossenen Modells, und die Kosten betragen nur ein Achtel von GPT-5.5.
Das kürzlich von Tencent veröffentlichte hy3 preview folgt dem gleichen Ansatz. Mit 295 Milliarden Parametern und nur 21 Milliarden aktivierten Parametern entspricht die Leistung nahe an einem 300-Milliarden-Parameter-Modell, aber die Kosten liegen auf der Ebene eines 20-Milliarden-Parameter-Modells. Nach der Veröffentlichung auf OpenRouter haben viele Entwickler das Modell verwendet, nicht nur weil es kostenlos ist, sondern auch weil es in dieser Größe sehr kosteneffektiv ist.
Offensichtlich hat sich dieser Ansatz bewährt, denn der kürzlich von Tencent in einer eingeschränkten Testphase veröffentlichte KI-Assistent Xiaowei folgt dem gleichen Prinzip. Das dahinter liegende Modell heißt WeLM und hat insgesamt 80 Milliarden Parameter, aber nur 3 Milliarden werden bei jeder Aufgabe aktiviert. Die Aktivierungsrate liegt bei nur 3,75 %, was sogar niedriger ist als bei DeepSeek-V4-Flash (4,6 %), dem derzeitigen Top-Modell in China in Bezug auf Kosten und Leistung.
Warum wird die Aktivierungsrate so niedrig gehalten? Angesichts der 1,4 Milliarden monatlichen aktiven Nutzer von WeChat würde die tägliche Inferenzmenge astronomisch hoch sein, wenn "Xiaowei" vollständig freigegeben würde. Wenn das Modell nicht kosteneffektiv genug ist, würden die Stromkosten alle Gewinne verzehren. Deshalb werden die meisten täglichen Anfragen an das schnelle und kostengünstige WeLM weitergeleitet, und für schwierige Aufgaben steht ein Kooperationsmodell zur Verfügung.
Während der Ausführung des Modells kann man auch durch ingenieurtechnische Tricks noch mehr Rechenleistung herausholen. Beispielsweise verwendet DeepSeek eine Methode namens KV-Cache-Wiederverwendung. Das bedeutet, dass wenn Sie mit der KI über das gleiche Thema sprechen, die wiederholten Inhalte wie Systemhinweise und übliche Präfixe nicht jedes Mal neu berechnet werden müssen. Stattdessen kann man das Ergebnis der letzten Berechnung direkt verwenden. Ähnlich wie wenn Sie öfter zur Arbeit fahren, müssen Sie nicht jedes Mal eine neue Route berechnen, nachdem Sie die Strecke kennen.
Außer den ingenieurtechnischen Methoden hat DeepSeek auch eine neue Methode entwickelt, nämlich die Verwendung von Preissignalen zur Optimierung der Rechenleistungszuteilung.
Nach dem neuen Preismodell von DeepSeek bleiben die Preise in den Tiefzeiten unverändert, und die Kosten für Cache-Treffer werden nahezu auf Null gesenkt. Dies führt dazu, dass ein Teil der Last von den Tagestunden in die Nachtstunden verschoben wird, so dass die sonst ungenutzte Rechenleistung genutzt wird. Die Gesamtauslastung der gleichen GPU in 24 Stunden ist höher, und die Einheitskosten sinken natürlich.
Wie bereits erwähnt, wird das Problem der Rechenleistung im Agenten-Zeitalter noch schwieriger. Wenn ein Agent arbeitet, werden viele Tokens für die Wiederholung von Informationen verbraucht, anstatt neue Inhalte zu produzieren. Wenn mehrere Agenten zusammenarbeiten, ist es noch schlimmer. Sie verhalten sich wie bei einer ineffizienten Besprechung und bestätigen wiederholt die bereits diskutierten Hintergrundinformationen. Je länger die Aufgabe, desto stärker ist die Leerlaufzeit.
Das A2A-Protokoll von Google und das MCP-Protokoll von Anthropic zielen darauf ab, dieses Problem zu lösen. Einfach ausgedrückt, ermöglicht MCP die Wiederverwendung des Kontexts innerhalb eines einzelnen Agenten, so dass nicht jedes Mal von vorne begonnen werden muss. A2A ermöglicht es mehreren Agenten, die bereits erzielten Ergebnisse zu teilen, um redundante Arbeit zu vermeiden. Das eine befasst sich mit internen Verlusten, das andere mit redundanter Arbeit. Zusammen können sie die ineffizienten Inferenzen bei der Zusammenarbeit von Agenten reduzieren.
Die Priorität der Effizienz ist nicht nur ein Wunsch der Unternehmen, sondern auch eine Auswirkung der sich verändernden Bedürfnisse der Nutzer.
Es gibt einen Indikator, der die Zahlungsbereitschaft für KI auf dem Markt misst, nämlich der LLM-Token-Ausgabenindex. Dieser hat in letzter Zeit kontinuierlich abgenommen. Hinter der Rückkehr des Indexes steckt die Tatsache, dass die Nutzer sich von den teuren, hochparametrisierten Spitzenmodellen wegbewegen und sich stattdessen den kostengünstigen, speziell optimierten Leichtmodellen und MoE-Modellen zuwenden.
Quelle: Bericht "Tokennomics" von Citadel Securities
Was die Citadel Securities in Bezug auf diese Phänomene kürzlich festgestellt hat, trifft den Nagel auf den Kopf: Es gibt Anzeichen einer Trennung zwischen der Nutzung von Spitzen-KI und "Alltags"-KI. Mit anderen Worten, Spitzen-KI strebt die Intelligenzgrenze an, während Alltags-KI auf maximale Effizienz abzielt. Man kann diese beiden KI-Ansätze nicht mehr mit dem gleichen Maßstab messen.
Das bedeutet nicht, dass Spitzenmodelle nicht mehr wichtig sind. Die führenden großen Modelle werden weiterhin die Intelligenzgrenze erweitern, und es besteht auch Bedarf an diesem Bereich. Aber man hat erkannt, dass nur in wenigen speziellen oder komplexen Szenarien die Verwendung eines teuren KI-Modells sinnvoll ist. In den meisten Szenarien kann man sich stattdessen für ein kostengünstigeres Modell entscheiden.
Ein Unternehmen würde ja auch nicht den Chefanalysten dazu einsetzen, Telefonanrufe am Empfang zu beantworten. Die Verwendung von Modellen funktioniert auf die gleiche Weise. Es wäre nur eine Verschwendung von Ressourcen, wenn man ein Kanonenprojektil gegen eine Mücke einsetzen würde.
Wenn die Effizienz priorisiert wird, können sowohl die Unternehmen als auch die Nutzer davon profitieren. Die Unternehmen können die Kosten pro Inferenz senken und so Gewinne erzielen. Andererseits können die Unternehmen die Preise senken, wenn die Kosten sinken. Wenn die Pre