Xiaomi MiMo: Anlehnung an DeepSeek und Eintritt ins Spiel

Das Wetten auf die Preisreduktion von MiMo

Am 27. Mai hat Xiaomi die Preise für die MiMo-V2.5-Serie von APIs dauerhaft gesenkt.

Der Preis für die Eingabecache-Treffer von MiMo-V2.5-Pro ist auf 0,025 Yuan pro Million Tokens gefallen, der Preis für nicht getroffene Eingaben beträgt 3 Yuan pro Million Tokens, und der Ausgabe-Preis liegt bei 6 Yuan pro Million Tokens. Der normale MiMo-V2.5 ist noch günstiger: 0,02 Yuan für Cache-Treffer, 1 Yuan für nicht getroffene Eingaben und 2 Yuan für die Ausgabe.

Dies ist keine gewöhnliche Aktion.

Wenn man die Preise vergleicht, wird schnell klar, dass Xiaomi hier nicht einfach die Preise gesenkt hat, sondern direkt mit DeepSeek konkurriert.

MiMo-V2.5-Pro wird mit DeepSeek V4-Pro verglichen, MiMo-V2.5 mit DeepSeek V4-Flash.

Heute ist DeepSeek nicht nur der Name eines Modells. Zumindest auf dem chinesischen Markt für Large Language Models wird es zu einer Art Preismaßstab.

Dieser Preismaßstab drängt die verschiedenen Modellunternehmen: Wie viel kostet dein Modell?

Wenn diese Frage allen gleichermaßen gestellt wird, entstehen neue Chancen. Später kommende Unternehmen wie Xiaomi mit MiMo können flexibler agieren und sich an DeepSeek hängen, um eine Chance auf den Markt zu bekommen.

1 Die Preise für Tokens werden immer feiner unterschieden

Schauen wir uns zunächst an, wie die Preisreduktion zustande kam.

Der wichtigste Aspekt in dieser Preisliste ist, dass die Preise für Cache-Treffer und nicht getroffene Cache-Eingaben klar unterschieden werden.

Dies ist die versteckte Linie im Preiswettbewerb der Large Language Models.

Was Cache-Treffer betrifft, ist es ganz einfach: Wenn der Präfix einer Anfrage mit dem Präfix einer früheren Anfrage übereinstimmt, muss die Plattform nicht von vorne beginnen, sondern kann die zuvor gespeicherten Zwischenergebnisse wiederverwenden.

Bei der Verarbeitung langer Kontexte durch Large Language Models fallen in etwa zwei Phasen Kosten an.

Die erste Phase heißt prefill, was man als "Aufgabenstellung lesen" verstehen kann. Systemhinweise, Projektcode, Unternehmensdokumente und historische Gespräche müssen zunächst vom Modell gelesen werden.

Die zweite Phase heißt decode, was man als "Antwort geben" verstehen kann. Das Modell generiert dann Token für Token die Antwort.

In der Vergangenheit ging es bei den API-Preisen hauptsächlich um Eingabe und Ausgabe. Heute werden Large Language Models jedoch immer häufiger in Agenten, Coding, Wissensbanken und langen Gesprächen eingesetzt, und viele Eingaben sind in der Regel wiederholend.

Der Code-Assistent muss jedes Mal das gleiche Repository betrachten, der Unternehmens-Assistent muss jedes Mal die gleichen Regelungsdokumente lesen, und der Agent bringt in jeder Runde die gleichen Werkzeugbeschreibungen und Systemregeln mit.

Vielleicht ist der einzige wirkliche Unterschied nur der letzte Befehl.

In diesem Fall wird der Cache zur Schlüsselvariablen in der Kostenstruktur.

Beim ersten Lösen einer Aufgabe muss man Notizen machen. Wenn der erste Teil der Aufgabe beim zweiten Mal gleich ist, muss man nicht erneut Notizen machen. Dies ist der Grund, warum der Preis für Cache-Treffer so niedrig sein kann.

Am Beispiel von MiMo-V2.5-Pro: Die nicht getroffene Eingabe kostet 3 Yuan pro Million Tokens, nach einem Cache-Treffer nur 0,025 Yuan, das ist ein Faktor von 120.

Der Preiswettbewerb ist intensiv, aber die Anbieter von Large Language Models verkaufen Tokens nicht mehr als ein einheitliches Produkt. Neue Eingaben, Cache-Eingaben und Ausgabe-Tokens haben drei völlig unterschiedliche Kostenstrukturen. In dieser Runde des Preiswettbewerbs geht es nicht darum, "alle Tokens zusammen zu günstigen Preisen anzubieten", sondern die Anbieter beginnen, die Tokens gemäß den realen Kosten neu zu bewerten.

2 Die Preisreduktion kommt aus dem "Rechenzentrum"

"Bis zu 99 % Preisreduktion" ist der größte Werbetrugg, aber die Gründe liegen woanders.

In der Ankündigung der Preisreduktion hat das Xiaomi-Team erwähnt, dass sie auf der Grundlage von SGLang HiCache die SWA, also Sliding Window Attention, vollständig unterstützen. Dadurch wird der Datenverkehr von KV Cache zwischen GPU-Speicher, CPU-Speicher und SSD auf fast 1/7 des vorherigen Werts reduziert, und die Anzahl der zwischenspeicherbaren Tokens wird auf fast das 5-fache erhöht.

Dieser Satz erklärt einen weiteren Grund für die Preisreduktion.

Bei der Generierung jedes Tokens muss ein Large Language Model auf den vorherigen Kontext zurückgreifen. Wenn man in jedem Schritt den gesamten Kontext neu berechnen würde, wären die Kosten sehr hoch. KV Cache speichert die Key- und Value-Werte, die in der Attention-Mechanik für die vorherigen Tokens berechnet wurden.

Es ist wie ein wiederverwendbares "Rechnungsnotizbuch" für die vom Modell gelesenen Inhalte.

Aber man muss auch einen Platz für diese Notizen finden. Der beste Platz ist der GPU-Speicher, er ist am schnellsten, aber auch am teuersten. Dann kommt der CPU-Speicher, und darunter die SSD, die billig, aber langsam ist. Je mehr Zwischenspeicher es gibt, desto unwahrscheinlicher ist es, dass alles im GPU-Speicher gespeichert werden kann.

Also, welche Zwischenspeicher sollen im GPU-Speicher, welche im CPU-Speicher und welche auf der SSD gespeichert werden? Wann sollen sie verschoben werden? Wie viel? Und wie kann man vermeiden, dass der Datenverkehr die Inference verlangsamt?

Dies ist die Bedeutung von "Reduktion des Datenverkehrs zwischen mehrstufigen Speichern" in der Xiaomi-Ankündigung.

Früher musste man entweder teuren GPU-Speicher beanspruchen oder zwischen verschiedenen Speichern hin und her verschieben, und die eingesparten Rechenkosten wurden von den Transportkosten wieder verzehrt. Jetzt ist die Systemsteuerung intelligenter, es wird weniger verschoben, mehr gespeichert, die Trefferquote ist höher, und es gibt die Möglichkeit, die Cache-Preise weiter zu senken.

Wenn die niedrigen Preise nur durch Subventionen erreicht werden, ist es nur Geldverbrennung. Wenn sie jedoch aus KV Cache, SWA, mehrstufigen Speichern, Expertenparallelität und Eingabelängen-Buckets resultieren, handelt es sich um Infrastrukturfähigkeiten.

Letzteres kann die Langzeitpreise verändern, während ersteres nur kurzfristig Traffic bringen kann. Laut Xiaomi wird in Kürze ein technischer Artikel mit weiteren Details veröffentlicht.

3 Kann die Herausforderung von DeepSeek für Xiaomi ein Rettungsstrohhalm werden?

Es ist unbestritten, dass eine Preisreduktion kurzfristig die Anzahl der Nutzer eines Modells erhöht. Bei Xiaomis Preisreduktion ist nicht nur die technische Veränderung, wie von der Firma angekündigt, sondern auch der Zeitpunkt und der Rhythmus der Preisreduktion beachtenswert.

Xiaomi hat die Preisreduktion direkt nach der neuesten Runde von DeepSeek vorgenommen.

DeepSeek hat allen Anbietern von Modellen eine Herausforderung gestellt: Wenn selbst DeepSeek zu niedrigen Preisen genutzt werden kann, warum sollten andere Anbieter ihre Preise beibehalten?

Früher konnten chinesische Modellunternehmen ihre Kosteneffizienz dadurch begründen, dass sie billiger als GPT und Claude waren. Seit DeepSeek den Preisanker gesenkt hat, befindet sich die Branche in einer schwierigeren Phase.

Wenn man teurer als DeepSeek ist, muss man nachweisen, dass man deutlich leistungsfähiger ist. Wenn die Leistung ähnlich ist, muss man zeigen, dass man schneller, stabiler und mit einem besseren Ökosystem ist. Wenn es keine deutlichen Vorteile in Leistung, Preis und Benutzererfahrung gibt, muss man sich auf engere Anwendungsbereiche wie Multimodalität, Edge-Side, Unternehmensprivatisierung, Branchenmodelle und Werkzeugkettenbindung beschränken.

Wenn es keine dieser Vorteile gibt, muss man sich früher oder später aus dem Markt zurückziehen.

DeepSeek ist wie ein Hecht. Es hat nicht alle Modelle sofort billiger gemacht, aber es hat die Notwendigkeit geschaffen, "teuer" neu zu begründen.

Claude kann seinen Preis mit seiner Fähigkeit in Coding und komplexen Aufgaben begründen, GPT kann seinen Preis mit einem kompletten Ökosystem, Multimodalität und Werkzeugketten begründen.

Was ist aber mit Xiaomi, einem Nachzügler, der noch keine Nutzer-Skaleneffekte erzielt hat? Vor allem liegt Xiaomis Kerngeschäft nicht in einem unabhängigen Modellbrand, sondern in Mobiltelefonen, Autos, IoT, HyperOS und dem Ökosystem intelligenter Hardware.

Die größte Herausforderung für MiMo, sowohl intern als auch extern, ist daher: Wie kann ein Basis-Modell, das nicht der Standardauswahl entspricht, zunächst in die Kandidatenliste der Entwickler gelangen?

Diesmal hat MiMo offensichtlich beschlossen, DeepSeek als Rettungsstrohhalm zu nutzen und die Preise pixelgenau anzupassen. Dies könnte die einzige Chance sein. Es muss sich an DeepSeek halten, um auf den Markt zu kommen.

Nur wenn die Preise auf das Niveau von DeepSeek gebracht werden, besteht die Möglichkeit, dass jemand das Modell nutzt. Im API-Markt werden Entwickler nicht ohne Grund ihre Aufrufe an ein neues Modell geben. Insbesondere in Anwendungsbereichen wie Agenten, Coding und langen Kontexten kann eine Aufgabe aus mehreren Dutzend Aufrufen bestehen. Wenn der Preis nur etwas höher als der von DeepSeek ist, werden die Entwickler von der Rechnung abgeschreckt, bevor sie die Unterschiede zwischen den Modellen kennen.

Auf der anderen Seite kommt auch Druck von innen: MiMo muss schnell beweisen, ob es sich zu einer AI-Basisfähigkeit in Xiaomis Ökosystem entwickeln kann.

Für Xiaomi ist die Model-API nicht unbedingt das Ziel. Das Endziel ist nicht nur die Entwicklerkonsole, sondern sein eigenes Ökosystem.

Aber um in diese Anwendungsbereiche einzudringen, reichen keine Pressekonferenzen und Parameterlisten. Es werden zahlreiche reale Aufrufe benötigt, die Entwickler müssen das Modell in realen Aufgaben testen, und die Nutzer müssen es in langen Gesprächen, Coding, Agenten, Wissensbanken, Fahrzeugcomputern und Gerätekontrollen kontinuierlich nutzen. Erst wenn diese Nutzungsdaten zurückkommen, weiß das Modell, welche Fähigkeiten wirklich nützlich sind, welche Anwendungsbereiche optimiert werden müssen und welche Schnittstellen neu gestaltet werden müssen.

Deshalb muss MiMo, auch wenn Luo Fuli kürzlich darauf hingewiesen hat, dass Modelle nicht "blind" die Preise senken sollten, einen Preiswettbewerb eröffnen. In Luo Fulis neuesten Tweet wird dies erklärt:

"Bei den neuen API-Preisen läuft unser Produktions-Inference-Engine fast auf vollem Betrieb und ist immer noch im Wesentlichen ausgeglichen. Wir haben LLM-Unternehmen früher geraten, nicht blind die Preise zu senken, weil nur wenige Modellarchitekturen und Inference-Optimierungen die API-Kosten vom Verlust bewahren können. Wenn es mehr Architekturen gibt, die Rechenleistung und KV-Cache sparen, und wenn diese mit einer besseren Inference-Infrastruktur kombiniert werden, um die API-Kosten zu senken, wird sich in der Branche ein ausgezeichneter positiver Kreislauf bilden."

Am Tag nach der Preisreduktion sieht diese Beschreibung eher wie eine perfekte Hypothese aus. Wenn es gelingt, hat MiMo sich fest im Markt etabliert. Wenn nicht, wird es eine andere Geschichte.

Dieser Artikel stammt aus dem WeChat-Account "Silicon Star Pro", Autor: Dong Daoli, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Xiaomi MiMo will sich an DeepSeek anlehnen und ins Spiel kommen.

1

Die Preise für Tokens werden immer feiner unterschieden

2

Die Preisreduktion kommt aus dem "Rechenzentrum"

3

Kann die Herausforderung von DeepSeek für Xiaomi ein Rettungsstrohhalm werden?