Vor Veröffentlichung von DeepSeek V4: Luo Fuli zieht Schwert, MiMo-V2.5 von Xiaomi greift in der Nacht überraschend an

Die Fähigkeiten des Xiaomi Large Language Model (LLM) haben sich einen Monat später stark verbessert und sparen 42% Tokens im Vergleich zu Kimi K2.6.

Die Fähigkeiten des Xiaomi-Großmodells haben sich binnen eines Monats sprunghaft verbessert und verbrauchen 42 % weniger Token als Kimi K2.6.

Nach einer Meldung von Zhidongxi am 23. April hat Xiaomi gerade vier neue Modelle des MiMo-Großmodells angekündigt: Das Flaggschiff-Inferenzmodell MiMo-V2.5, das ganzheitliche Agentenmodell V2.5-Pro startet die öffentliche Beta-Phase und wird bald Open Source sein; V2.5-TTS Series und V2.5-ASR werden bald veröffentlicht.

Die Person hinter dem Xiaomi MiMo-Großmodell ist Luo Fuli, eine ehemalige Kernmitarbeiterin von DeepSeek und in der Branche als "Geniusmädchen" bekannt. Es sind nur 36 Tage seit der letzten wichtigen Dreifach-Update des MiMo-V2-Serien vergangen. Bei der Veröffentlichung des Vorgängermodells schrieb Luo Fuli, dass sie das Modell Open Source machen würden, sobald es stabil genug sei.

Ähnlich wie das Vorgängermodell ist die gesamte MiMo-V2.5-Serie für Agentenszenarien entwickelt. MiMo-V2.5-Pro ist speziell für lange und schwierige Agentenaufgaben konzipiert, während MiMo-V2.5 die meisten allgemeinen Agentenszenarien abdecken kann.

Xiaomi bietet den Benutzern auch eine offizielle Anwendungsanleitung: MiMo-V2.5 unterstützt die native ganzheitliche Agentenfähigkeit, einschließlich Bildern, Audio und Video. Im Vergleich zum Pro-Modell ist die durchschnittliche Inferenzgeschwindigkeit schneller, und es eignet sich besser für auf Latenzzeiten empfindliche Aufgaben.

Abgesehen von der Leistung ist ein weiterer wichtiger Upgrade-Punkt der neuen Xiaomi MiMo-Modelle die höhere Token-Effizienz. Laut offizielle Informationen benötigt MiMo-V2.5-Pro bei Erreichen der gleichen Punktzahl in der Agenten-Benchmark-Liste ClawEval 42 % weniger Token als das Open-Source-Flaggschiff des mehrmodalen Agentenmodells Kimi K2.6, das von Kimi diese Woche veröffentlicht wurde. MiMo-V2.5 verbraucht 50 % weniger Token als das geschlossene mehrmodale Inferenzmodell Muse Spark, das von Meta Anfang dieses Monats veröffentlicht wurde.

Darüber hinaus hat Xiaomi das Modells-Abonnement-Plan Token Plan vollständig verbessert: Die 4-fache Credits-Berechnungsmethode wird aufgehoben, die Abrechnung unterscheidet nicht zwischen 256k und 1M Kontext, es gibt exklusive Rabatt-Sätze in der Nacht und ein neues automatische Verlängerungsmodus. Immerhin haben viele Benutzer beim ersten Release des Token Plan die Preise als zu teuer kritisiert, und die billigen Pakete hätten nicht genug Token.

Zhidongxi hat MiMo-V2.5-Pro getestet und es aufgefordert, "ein 3D-Side-Scroller-Kampfspiel zu erstellen". MiMo-V2.5-Pro hat in wenigen Minuten 1.123 Zeilen Code geschrieben und so das "Drachen-Tiger-Kampfspiel" erzeugt. Das Spielinterface hat klare Lebensbalken, Namen der beiden Charaktere, eine Countdown-Zeit und Kampfhinweise. Es enthält auch Feedback-Systeme wie Trefferfunken, Blockiersplitter, Kameraschütteln und Treffer-Pause, was es spielbar macht. Die Charaktermodelle sind jedoch einfach, und es gibt fast keine Unterschiede außer in der Farbe und dem Hut.

Das Interface des Drachen-Tiger-Kampfspiels

Interessanterweise tauchte das Xiaomi MiMo-V2-Pro im März dieses Jahres anonym als Modell Hunter Alpha auf der OpenRouter-Plattform auf und wurde von Entwicklern für das bevorstehende DeepSeek V4 gehalten. Jetzt wird das neue Xiaomi MiMo-V2.5 eingeführt, und es wird berichtet, dass DeepSeek V4 in dieser Woche veröffentlicht werden soll.

Xiaomi MiMo Open Platform:

https://platform.xiaomimimo.com

Xiaomi MiMo Studio Testadresse:

https://aistudio.xiaomimimo.com/#/c

01. MiMo-V2.5-Pro: Spezialisiert auf lange und schwierige Agentenaufgaben, erledigt ein Projekt eines Bachelor-Studenten in 4,3 Stunden, das normalerweise Wochen dauert

Nach Angaben von Xiaomi ist MiMo-V2.5-Pro das bisher stärkste Modell von Xiaomi MiMo. In Bezug auf die allgemeine Agentenfähigkeit, komplexe Softwareentwicklung und langfristige Aufgaben kann es mit globalen Spitzen-Agentenmodellen wie Claude Opus 4.6 und GPT-5.4 mithalten und ist im Vergleich zum Vorgängermodell MiMo-V2-Pro verbessert.

Nach internen Xiaomi-Tests kann MiMo-V2.5-Pro bei Verwendung eines geeigneten Frameworks stabile langfristige Aufgaben mit fast tausend Mal Werkzeugaufrufen in einem Zuge erledigen. In Agentenszenarien hat das Modell eine verbesserte Befolgungsfähigkeit von Anweisungen. Es kann sowohl versteckte Anforderungen im Kontext erfassen als auch die logische Konsistenz über einen sehr langen Zeitraum aufrechterhalten.

Basierend auf dem von Xiaomi MiMo-Team entwickelten Bewertungsset MiMo Coding Bench hat MiMo-V2.5-Pro die Lücke zu Claude Opus 4.6 weiter geschlossen. Die Punktzahlen betragen 73,7 Punkte für MiMo-V2.5-Pro und 77,1 Punkte für Claude Opus 4.6, während MiMo-V2-Pro 71,5 Punkte erreichte.

Ein Twitter-Nutzer hat MiMo-V2.5-Pro mit der berühmten Frage "Ich möchte mein Auto waschen. Die Autowaschanlage ist 50 Meter von mir entfernt. Soll ich zu Fuß gehen oder mit dem Auto fahren?" getestet. MiMo-V2.5-Pro hat wie erwartet die richtige Antwort gegeben.

Xiaomi MiMo hat einige praktische Beispiele von MiMo-V2.5-Pro veröffentlicht.

Das erste Beispiel ist "die Implementierung eines vollständigen SysY-Compilers in Rust". Die Schwierigkeit dieser Aufgabe liegt darin, dass das Modell unabhängig einen Lexer, Parser, AST, Koopa IR-Code-Generator, RISC-V-Assembler-Backend und die Leistungsoptimierung erledigen muss.

In der Praxis baut das Modell den gesamten Compiler Schritt für Schritt auf. Es erstellt zuerst den gesamten Pipeline-Rahmen und löst dann Schritt für Schritt die Probleme. In den einzelnen Punktzahlen hat das Modell in Koopa IR, RISC-V-Backend und Leistungsoptimierung volle Punktzahl erreicht. Bei der ersten Kompilierung hat es eine Kaltstart-Erfolgsrate von 59 % erreicht, was bedeutet, dass die Architektur richtig war, bevor irgendwelche Tests durchgeführt wurden. Bei der 512. Runde hat das Modell eine Neukonstruktion vorgenommen, die zwei Testpunkte in lv9/riscv zurückgesetzt hat. Das Modell hat sich selbst diagnostiziert, sich erholt und die Arbeit fortgesetzt.

Diese Aufgabe ist ein Projekt im Kurs "Übersetzerbau" an der Peking-Universität. Bachelor-Studenten brauchen normalerweise mehrere Wochen, um sie zu erledigen. MiMo-V2.5-Pro hat es in 4,3 Stunden und 672 Mal Werkzeugaufrufen erledigt und in der versteckten Testmenge volle Punktzahl von 233 Punkten erreicht.

Das zweite offizielle Beispiel ist die Entwicklung eines Videoeditors. Der Hinweistext lautet "Erstelle eine Web-Anwendung für einen Videoeditor". Die von MiMo-V2.5-Pro gelieferte Web-Anwendung hat Funktionen wie mehrspurige Zeitachse, Clip-Schnitt, Kreuzfade, Audio-Mischung und Exportprozess. Der finale Code hat 8.192 Zeilen und wurde nach 1.868 Mal Werkzeugaufrufen in 11,5 Stunden eigenständiger Arbeit erstellt.

Das dritte Beispiel ist eine Aufgabe im Bereich EDA für analoge Schaltungen. Die Anforderung lautet "Entwurf und Optimierung eines vollständigen Flip-Voltage-Follower-Low-Dropout-Reglers (FVF-LDO) von Grund auf, basierend auf der TSMC 180nm CMOS-Technologie".

Während der Durchführung der Aufgabe muss das Modell die Größe der Leistungstransistoren bestimmen, das Kompensationsnetzwerk anpassen und die geeignete Vorspannung auswählen, damit sechs Indikatoren wie Phasenrand, Linienregelung, Lastregelung, Ruhestrom, Stromversorgungsunterdrückungsverhältnis und Transientenantwort gleichzeitig den Spezifikationen entsprechen.

Erfahrene Designer von analogen Schaltungen brauchen normalerweise mehrere Tage, um solche Projekte zu erledigen. Die Forscher haben MiMo-V2.5-Pro an den ngspice-Simulationszyklus angeschlossen und Claude Code als Simulationsframework verwendet. Nach etwa einer Stunde geschlossener Iteration hat es ein Design erzeugt, das alle Zielindikatoren erfüllt. Vier der unten gezeigten Indikatoren haben sich im Vergleich zur ursprünglichen Version um eine Größenordnung verbessert:

02. MiMo-V2.5: Kann sehen, hören und lesen, zuständig für allgemeine Agentenszenarien

MiMo-V2.5 ist ein natives ganzheitliches Modell, das speziell für Agentenszenarien entwickelt wurde. Es kann gleichzeitig sehen, hören und lesen und auf der Grundlage der wahrgenommenen Informationen handeln.

Dieses Modell hat zwei wichtige Upgrade-Punkte: Die Agentenfähigkeit übertrifft MiMo-V2-Pro deutlich, und die mehrmodale Wahrnehmung übertrifft MiMo-V2-Omni. MiMo-V2-Pro ist das vorherige Flaggschiff-Modell der Xiaomi MiMo-Serie, und MiMo-V2-Omni ist das vorherige ganzheitliche Agentenmodell.

In der end-to-end-verlässlichen Bewertungsbasis Claw-Eval für AI-Agenten hat MiMo-V2.5 eine bessere Leistung als MiMo-V2-Pro gezeigt, und die API-Kosten sind um etwa 50 % gesenkt. In Benchmark-Tests wie VideoMME, CharXiv und MMMU-Pro, die sich auf multimodale Inferenz, Videoverstehen und Diagrammanalyse beziehen, hat MiMo-V2.5 eine Leistung erreicht, die Claude Opus 4.6, Gemini 3 Pro und GPT-5.4, geschlossene Modelle, annähert oder sogar übertrifft.

In Bezug auf die Programmierung zeigt der interne MiMo-Programmier-Benchmark von Xiaomi, dass MiMo-V2.5 in alltäglichen Programmieraufgaben Gemini 3.1 Pro übertrifft, aber immer noch einen deutlichen

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Vor der Veröffentlichung von DeepSeek V4 hat Luo Fuli ihr Schwert gezogen, und Xiaomi's stärkstes Modell, MiMo-V2.5, hat in der Nacht überraschend vorgegriffen.

01. MiMo-V2.5-Pro: Spezialisiert auf lange und schwierige Agentenaufgaben, erledigt ein Projekt eines Bachelor-Studenten in 4,3 Stunden, das normalerweise Wochen dauert

02. MiMo-V2.5: Kann sehen, hören und lesen, zuständig für allgemeine Agentenszenarien