StartseiteArtikel

Der schnellste 1B-Großmodell von Xiaomi im Praxistest: Über 1000 Token pro Sekunde Durchsatz, Vibe Coding liefert Ergebnisse in 7 Sekunden

量子位2026-06-11 12:44
Ein allgemeiner GPU reicht aus, um dies zu erreichen.

Der Wettrüsten im Bereich der globalen Large Language Models (LLMs) eröffnet neue Schlachtfelder jenseits der „Intelligenz“ –

Die Inferenzgeschwindigkeit.

Xiaomi hat dieses Schlachtfeld auf ein neues Niveau gehoben.

Xiaomi hat das brandneue MiMo-V2.5-Pro-UltraSpeed-Modell vorgestellt, also die hochgeschwindigkeitsoptimierte Version des MiMo-V2.5-Pro.

Es verfügt über insgesamt 1T Parameter, unterstützt einen Kontext von 1M und bringt die Inferenzgeschwindigkeit pro API direkt auf über 1.000 TPS, was die bisherige globale Rekordgeschwindigkeit für Flaggschiffmodelle bricht.

Im Gegensatz zu Groq, das auf maßgeschneiderte Chips angewiesen ist, kann dies mit einem allgemeinen GPU erreicht werden.

Dies bedeutet, dass das neue Modell von Xiaomi das sogenannte „unmögliche Dreieck“ in der Branche, wonach Geschwindigkeit, Stärke und die Verwendung eines allgemeinen GPUs nicht gleichzeitig erreicht werden können, gebrochen hat. Xiaomi zeigt seine Fähigkeit zur Optimierung des gesamten Inferenzpfads von der Modell- bis zur Engineschicht, und dahinter steckt zweifellos eine Inferenz-Engineering-Kompetenz, die sich in der Weltspitze befindet.

Diesmal hat QbitAI auch die Testberechtigung für das MiMo-V2.5-Pro-UltraSpeed erhalten. Lassen Sie uns nun sehen, ob es wirklich so schnell ist.

Echtzeit-Test des „schnellsten Flaggschiffmodells“ von Xiaomi

Zunächst schauen wir uns an, ob das MiMo-V2.5-Pro-UltraSpeed eine vollständige Web-Anwendung erstellen kann.

Ich habe es mit Claude Code verbunden und es aufgefordert, eine Web-basierte Tomatenuhr-Anwendung zu schreiben.

Ehrlich gesagt ist diese Aufgabe angesichts der aktuellen Inferenzfähigkeiten von Modellen relativ einfach. Hier geht es hauptsächlich um die Geschwindigkeit.

Erstellen Sie mit HTML, CSS und JavaScript eine Tomatenuhr-Arbeitszeitmessung, die direkt im Browser ausgeführt werden kann. Die Anwendung soll Folgendes enthalten: Drei umschaltbare Modi (25 Minuten Fokus, 5 Minuten kurze Pause, 15 Minuten lange Pause); Anzeige einer großen Schriftart für die Countdown-Zeit; Start-, Pause- und Reset-Tasten; Automatischer Wechsel in den Pausenmodus nach Abschluss einer Tomate und Abspielen eines Hinweissounds (generiert mit der Web Audio API); Anzeige der Anzahl der heute erledigten Tomaten und einer Verlaufsliste auf der rechten Seite; Unterstützung der benutzerdefinierten Einstellung der Dauer jeder Phase; Farbschema nach dem Linear-Design-Stil.

Tatsächlich hat mich die Geschwindigkeit des Modells wirklich überrascht.

In den ersten fünf Sekunden nach der Aufgabe sah ich, dass es langsam nachdachte, und dachte, es würde scheitern.

Tatsächlich war es nur dabei, eine Meisterleistung zu erbringen. Bevor ich es mir bewusst war, hatte es den gesamten Quellcode für die Tomatenuhr-Webseite in einem Rutsch ausgegeben.

Über 500 Zeilen HTML, insgesamt nur sieben Sekunden, inklusive des Nachdenkens.

Diese Animationsgrafik zeigt die tatsächliche Geschwindigkeit. Passen Sie auf, dass Sie nicht blinken.

Im Vergleich dazu benötigt Claude, selbst in seiner leichtesten Version Haiku mit Low Effort, immer noch mindestens 40 Sekunden.

Wenn die gleiche Aufgabe im Webbrowser ausgeführt wird, dauert es aufgrund des längeren Nachdenkprozesses insgesamt viel länger als bei der Verwendung von Claude Code mit dem MiMo-V2.5-Pro-UltraSpeed.

Aber das MiMo-V2.5-Pro-UltraSpeed im Webbrowser zeigt die Geschwindigkeit direkt an, und man kann sehen, dass die durchschnittliche Geschwindigkeit in der Ausgabe-Phase über 1.000 TPS erreicht.

Schaut man sich den Spitzenwert an, so erreicht die maximale Durchsatzrate in der Inferenzphase über 600 TPS, und in der Ausgabe-Phase nach der Inferenz sogar über 3.300 TPS.

Natürlich muss die Funktion trotz der Einfachheit der Aufgabe getestet werden.

Nach dem Start der Seite entspricht die Standarddauer den Anforderungen und kann benutzerdefiniert werden. Der erforderliche Sound wird auch am Ende der Zeitmessung normal abgespielt.

Nach Abschluss der Fokus- oder Pausenzeitmessung wechselt die Anwendung automatisch in den anderen Modus, und der Wechsel in den Pausenmodus folgt dem Rhythmus von drei kurzen und einer langen Pause.

Natürlich ist es gut, wenn das Modell schnell ist. Aber wenn die Geschwindigkeit auf Kosten der „Intelligenz“ erzielt wird, wäre das ein falscher Ansatz.

Nach diesen einfachen Geschwindigkeitstests wird es nun schwieriger. Wir werden sehen, ob hinter der Geschwindigkeit des MiMo-V2.5-Pro-UltraSpeed eine Verschlechterung der Leistung steckt.

Um zu testen, ob das MiMo-V2.5-Pro-UltraSpeed gut mit verschiedenen Harness-Systemen kompatibel ist, habe ich die Umgebung auf Hermes geändert.

Erstellen Sie einen LAN-Echtzeit-Chatraum. Die Backend-Entwicklung soll mit Node.js + Express + WebSocket erfolgen. Der Chatraum soll die gleichzeitige Anwesenheit mehrerer Benutzer unterstützen. Benutzer müssen bei der ersten Anmeldung einen Nicknamen eingeben, der mit dem Gerät verknüpft wird. Der Nickname kann bearbeitet werden. Das Chat-Interface soll dem Slack-Design-Stil folgen und das Umschalten zwischen mehreren Kanälen unterstützen. Nachrichten sollen reinen Text und Codeblöcke (mit automatischer Hervorhebung) enthalten. Es soll eine Liste der online befindlichen Benutzer angezeigt werden, und es sollen Systemhinweise bei An- und Abmeldungen ausgegeben werden. Die Nachrichten sollen referenzierbar sein. Die Nachrichtenaufzeichnung soll in einer SQLite-Datenbank persistent gespeichert werden, und beim Betreten eines Kanals sollen die vergangenen Nachrichten geladen werden. Geben Sie den vollständigen Quellcode aller Dateien aus und starten Sie die Anwendung auf Port 11451.

Nachdem das MiMo-V2.5-Pro-UltraSpeed die Aufgabe erledigt hatte, hat es mir direkt die Projekt-Dateien, die Funktionsliste und die Startanleitung übermittelt.

Schauen wir uns direkt das Laufverhalten an.

Zunächst funktionieren die grundlegenden Funktionen wie Echtzeit-Chat, An- und Abmeldungshinweise und Eingabehinweise alle normal.

Spezielle Formate wie Code und Fettformat werden ebenfalls normal angezeigt.

Die Nachrichten-Referenzfunktion funktioniert ebenfalls normal.

Nach dem Aktualisieren der Seite wird der zuvor festgelegte Gerätenickname beibehalten, und auf der anderen Seite wird auch der Abmeldungshinweis normal angezeigt. Die Liste der online befindlichen Benutzer wird synchron aktualisiert.

Insgesamt hat das MiMo-V2.5-Pro-UltraSpeed den gesamten Entwicklungsprozess, einschließlich Frontend, Backend und Datenbank, in kürzester Zeit abgeschlossen.

Dieser Fall beweist, dass das MiMo-V2.5-Pro-UltraSpeed bei der Geschwindigkeitssteigerung weiterhin in der Lage ist, Full-Stack-Entwicklungsaufgaben mit hoher Qualität zu erledigen, was bedeutet, dass seine „Intelligenz“ weiterhin vorhanden ist.

Aber was kann diese Geschwindigkeit in der praktischen Produktion bewirken?

Ich habe das MiMo-V2.5-Pro-UltraSpeed aufgefordert, die Rolle eines erfahrenen Drehbuchbearbeiters zu übernehmen und zusammen mit vier Analysten eine dringende gemeinsame Prüfung eines Film-Synopses vor dem Projektbeirat durchzuführen.

Sie sind ein erfahrener Drehbuchbearbeiter mit drei kompetenten Gutachtern. Bevor Sie morgen Vormittag an der Projektpräsentation teilnehmen, müssen Sie das folgende Synopses für einen Kinofilm dringend gemeinsam prüfen. Bitte teilen Sie die Aufgaben wie folgt auf: Ihr Story-Struktur-Analyst beginnt zuerst und prüft, ob die Dreiact-Struktur vollständig ist, ob das Verhältnis zwischen Haupt- und Nebengeschichte angemessen ist und ob die Höhepunkte ausreichend vorbereitet sind. Er soll ein Struktur-Prüfreport ausstellen. Gleichzeitig arbeitet Ihr Charakter-Analyst parallel und prüft, ob die Motivation der Hauptfigur glaubhaft ist, ob der Charakterbogen vollständig ist und ob die Rolle der Nebenfiguren klar definiert ist. Er soll einen Charakter-Prüfreport ausstellen. Ihr Markt-Analyst prüft gleichzeitig aus kommerzieller Sicht, ob die Zielgruppe für dieses Thema klar definiert ist, wie die Marktleistung ähnlicher Filme ist und ob das Projekt genügend unterschiedliche Verkaufsargumente hat. Er soll ein Markt-Feasibilitätsbericht ausstellen. Nachdem Sie alle drei Berichte erhalten haben, entscheiden Sie als Drehbuchbearbeiter selbst, ob das Synopses in die Produktion gehen kann. Listen Sie die Probleme auf, die unbedingt korrigiert werden müssen, und geben Sie direkt ein überarbeitetes vollständiges Synopses aus.

Das Story-Grundgerüst lautet wie folgt:

Kinofilm-Synopses: „Die Zugvögel fliegen nicht südlich“ – ein realistischer emotionaler Drama, der hauptsächlich an städtische Frauen im Alter zwischen 25 und 40 Jahren gerichtet ist. Kurzbeschreibung: Eine Frau aus Hunan, die zwölf Jahre lang in Peking gearbeitet hat, muss nach der plötzlichen Erkrankung ihrer Mutter in ihre Heimat zurückkehren. In der Zeit zwischen Pflege und Flucht lernt sie ihre Beziehung zu ihrer Familie neu kennen. Hauptfiguren: Xie Wanqing, 38 Jahre alt, Direktorin einer Pekinger Public-Relations-Firma, geschieden, alleinstehend, seit langem von ihrer Mutter distanziert; Xie's Mutter, 64 Jahre alt, pensionierte Lehrerin aus einer Kleinstadt in Hunan, dominant und traditionell, gewöhnt, mit Stille Druck auszuüben; Chen Mo, 40 Jahre alt, ehemaliger Kollege von Xie Wanqing, kehrte aus familiären Gründen früher in seine Heimat zurück und betreibt jetzt ein Gästehaus. Story-Grundgerüst: Akt 1: Xie Wanqing erhält einen Anruf von ihrem Vater und erfährt, dass ihre Mutter an einem Schlaganfall erkrankt ist und im Krankenhaus liegt. Sie beantragt Urlaub und kehrt in ihre Heimat zurück. Ursprünglich plante sie, die Angelegenheiten schnell zu erledigen und dann wieder wegzugehen, aber sie stellt fest, dass die Genesung ihrer Mutter eine langfristige Betreuung erfordert und dass ihr Vater allein nicht mehr in der Lage ist, dies zu übernehmen. Sie gerät in eine Zwickmühle zwischen Beruf und Familie. Akt 2: Xie Wanqing bleibt in der Kleinstadt. Während der Pflege ihrer Mutter kommt es zu mehreren heftigen Konflikten. Die Dominanz und der Machtgedanke ihrer Mutter bringen sie an den Rand der Nervenlosigkeit. Gleichzeitig stellt sie wieder Kontakt mit Chen Mo her. Chen Mos Lebensentscheidungen lassen sie ihre zwölf Jahre lange Lebensweise neu bewerten. Akt 3: Die Mutter wird aus dem Krankenhaus entlassen. Xie Wanqing steht vor der endgültigen Entscheidung, ob sie nach Peking zurückkehrt oder nicht. Sie entscheidet sich schließlich dafür, nach Peking zurückzukehren, aber erreicht eine Art von Versöhnung mit ihrer Mutter, nicht in Form von Vergebung, sondern in Form der Annahme, dass sie unterschiedliche Menschen sind. Kernthemen: Flucht und Heimat, Selbstverwirklichung und familiäre Verantwortung, die chinesische Mutter-Tochter-Beziehung. Geschätzte Laufzeit: 105 Minuten.