Gerade hat Xiaomi einen mysteriösen Large Language Model (LLM), den die ganze Online-Community als DeepSeek V4 vermutet hat, in Anspruch genommen. Darüber hinaus kann man kostenlos "Hummer züchten".
Nachrichten von Zhidongxi vom 19. März. In der Nacht von heute hat Xiaomi die MiMo-Großmodellreihe mit drei wichtigen Updates versehen: Das Flaggschiff-Grundmodell MiMo-V2-Pro, das ganzheitliche Agentenmodell MiMo-V2-Omni und MiMo-V2-TTS. Alle drei neu veröffentlichten Modelle wurden für die Optimierung der Fähigkeiten von Agenten entwickelt.
Das anonyme Modell Hunter Alpha und Healer Alpha, das in der vergangenen Woche auf OpenRouter, der weltweit größten API-Aggregationsplattform, mehrere Tage an der Spitze der Tagesliste der API-Aufrufe stand und viel Aufsehen erregte, sind die frühen Testversionen von MiMo-V2-Pro und MiMo-V2-Omni. Derzeit sind diese beiden anonymen Modelle auf OpenRouter weiterhin für Entwickler kostenlos zugänglich.
Früher hat man aufgrund der gleichen Parameterangaben wie beim DeepSeek V4 vermutet, dass Hunter Alpha das DeepSeek V4 sei. Peter Steinberger, der Gründer von OpenClaw, hat auch auf der sozialen Plattform X nach konkreten Informationen zu diesen beiden anonymen Modellen gefragt.
Das Flaggschiff-Grundmodell MiMo-V2-Pro hat insgesamt mehr als 1 Tillion Parameter. In Agentenframeworks wie OpenClaw und Claude Code kann MiMo-V2-Pro komplexe Workflows, Langzeitplanungen und präzise Werkzeugaufrufe ohne menschliche Intervention durchführen. Der Preis für die Model - API beträgt jedoch nur ein Fünftel des von Claude Opus 4.6.
▲Preisvergleich zwischen MiMo-V2-Pro, Claude Opus 4.6 und Claude Sonnet 4.6 (Quelle: Offizielle Website von Xiaomi MiMo)
Das ganzheitliche Grundmodell Xiaomi MiMo-V2-Omni unterstützt die ganzheitlichen Modalitäten von Text, Bild und Sprache. Das Modell kann komplexe Umgebungen über Modalitäten hinweg verstehen, eigenständig Pläne erstellen und ausführen sowie Strategien bei Ausnahmen in Echtzeit korrigieren und schließlich ein komplettes Ergebnis end - to - end liefern.
Das Sprachsynthese - Großmodell Xiaomi MiMo-V2-TTS soll es Agenten ermöglichen, mit warmherzigem, emotionalem und lebendigem Ton mit Menschen zu sprechen. Es unterstützt die Generierung in verschiedenen Dialekten, Rollen und Stimmungen und kann auch intelligent Satzzeichen, Ausrufungen, Betonungsmarkierungen und andere Formatierungssignale im Text erkennen.
Darüber hinaus hat Xiaomi auf der offiziellen Modelltestseite von MiMo-V2-Pro auch MiMo Claw gestartet. Benutzer können damit basierend auf MiMo-V2-Pro "Garnelen züchten" testen. Diese Funktion kann einmalig kostenlos für 30 Minuten getestet werden. Nach dem Verlassen werden die Daten automatisch gelöscht.
Die Person, die für die Xiaomi MiMo - Großmodelle verantwortlich ist, ist Luo Fuli, eine ehemalige Kernmitarbeiterin von DeepSeek, die in der Branche als "Genie - Mädchen" bekannt ist.
Zhidongxi hat MiMo Claw getestet und es gebeten, "eine Website zu entwerfen, die täglich um 19 Uhr die Unternehmen aktualisiert, die am nächsten Tag an der Hongkonger Börse und an der chinesischen Börse notiert werden". MiMo Claw hat über einen Python - Crawler die Daten in regelmäßigen Abständen abgerufen und dann statische Seiten erstellt und direkt deployed. Nachdem es bei den Testläufen fehlerhafte Übereinstimmungen festgestellt hat, hat es die Daten der Hongkong - Aktien korrigiert und ergänzt.
▲Die von MiMo Claw erstellte Website für neue Aktien - Radar
MiMo-V2-Pro und MiMo-V2-Omni werden zusammen mit den Teams von Agenten - Entwicklungsframeworks wie OpenClaw, OpenCode, KiloCode, Blackbox und Cline eine einwöchige kostenlose Schnittstellenunterstützung für globale Entwickler anbieten.
Die Testseite für die Garnelenzucht mit MiMo-V2-Pro:
https://aistudio.xiaomimimo.com
01.
MiMo-V2-Pro: Drittplatz in China in Bezug auf die Gesamtfähigkeiten
Drittplatz in der OpenClaw - Liste
MiMo-V2-Pro hat insgesamt mehr als 1 Tillion Parameter und 42 Milliarden aktive Parameter, was etwa das Dreifache des Vorgängermodells MiMo-V2-Flash beträgt. Es unterstützt eine Kontextlänge von 1 Million.
Im weltweit autoritativen Ranking für die Gesamtschnelligkeit von Großmodellen, der Artificial Analysis, belegt MiMo-V2-Pro den neunten Platz weltweit und den dritten in China, nur hinter GLM - 5 von Zhipu und MiniMax - M2.7, das von MiniMax gestern neu veröffentlicht wurde.
In allen wichtigen Benchmarks für die Bewertung von Modellen zeigt MiMo-V2-Pro in Bezug auf Programmieragenten, allgemeine Agenten und Werkzeugnutzung eine ähnliche Leistung wie Claude Sonnet 4.6, GPT 5.2 und Gemini 3.0 Pro.
Laut offiziellen Informationen wurde MiMo-V2-Pro speziell für Agentenszenarien optimiert. Es wurde durch überwachtes Finetuning und verstärkendes Lernen für komplexe und vielfältige Agentenarchitekturen trainiert und verfügt über stärkere Fähigkeiten bei der Werkzeugnutzung und mehrschrittiger Inferenz.
In den Standard - Benchmark - Listen PinchBench und Claw - Eval von OpenClaw belegt MiMo-V2-Pro den dritten Platz, nur hinter Claude Sonnet 4.6 und Claude Opus 4.6. Gleichzeitig kann MiMo-V2-Pro auf Basis eines 1M langen Kontextfensters intensive reale Claw - Komplexanwendungen unterstützen.
In Bezug auf die Programmierung zeigt das Ergebnis einer tiefgehenden Bewertung durch interne Xiaomi - Engineer, dass MiMo-V2-Pro sich in der Praxis bereits Claude Opus 4.6 annähert und ein hohes Maß an Programmierintelligenz aufweist. Es verfügt über bessere Fähigkeiten bei der Systemgestaltung und Aufgabenplanung, einen eleganteren Code - Style und effizientere Lösungswege für Probleme.
In Frontend - Anwendungsszenarien kann MiMo-V2-Pro in OpenClaw in einem Schritt eine Website mit einem feinen Design und vollständigen Funktionen erstellen.
Anweisung: Nachahmen der Ästhetik von Druckmagazinen aus den 90er Jahren. Serifenschrift für Überschriften wie Playfair Display, Monospace - Schrift für Text wie IBM Plex Mono. Mehrspaltiges Grid im Magazinstil mit ungleichen Spaltenbreiten. Die Hauptüberschrift ragt nach links aus dem Ansichtsfenster, um einen Drucküberlauf anzudeuten. Bilder mit Sepia - 0,2 - Braunfilter und Rauschen überlagern. Seitenübergänge wie beim Blättern durch ein Buch. Navigation wie ein Magazininhalt, jeder Eintrag mit einer Nummer 01/02/03, die Nummer wird größer, wenn man darüber fährt. Der untere Teil wie eine Magazincopyrightseite mit einer gefälschten ISSN - Nummer. Papiertextur als Hintergrund.
In Bezug auf die Preise wird es je nach Nutzungsmenge in Stufen berechnet: Innerhalb eines 256K - Kontexts kostet die Eingabe pro Million Tokens 1 US - Dollar (etwa 6,87 Yuan) und die Ausgabe 3 US - Dollar (etwa 20,62 Yuan); innerhalb eines 1M - Kontexts kostet die Eingabe pro Million Tokens 2 US - Dollar (etwa 13,75 Yuan) und die Ausgabe 6 US - Dollar (etwa 41,24 Yuan).
Auf der offiziellen Modelltestseite wurde MiMo Claw gestartet, um die kostenlose Testmöglichkeit der Garnelenzucht mit MiMo-V2-Pro freizuschalten. Darüber hinaus ist das MiMo Claw - Modul jetzt vollständig mit der WebOffice - Ekologie von Kingsoft verbunden und unterstützt nativ die vier gängigsten Formate Word, Excel, PPT und PDF, was über 95 % der täglichen Dokumenttypen abdeckt. Der Xiaomi - Browser ist jetzt auch mit MiMo-V2-Pro verbunden, um die AI - Suche zu verbessern.
02.
MiMo-V2-Omni: Spezialisiert auf multimodale Interaktion und Ausführung
Kann dir helfen, Tipps zu finden und Preise zu reduzieren
Das ganzheitliche Grundmodell Xiaomi MiMo-V2-Omni wurde speziell für komplexe multimodale Interaktions - und Ausführungsszenarien in der realen Welt entwickelt und integriert die ganzheitlichen Modalitäten von Text, Bild und Sprache.
Die Wahrnehmungsfähigkeit, präzise Wahrnehmung und genaue Inferenz sind die Grundlage für eine effiziente Ausführung. Bei der Audio - Verständnis unterstützt MiMo-V2-Omni die Klassifizierung von Umgebungsgeräuschen, die Trennung von mehreren Sprechern, die kombinierte Audio - Bild - Inferenz und die tiefe Verständnis von über 10 Stunden langer kontinuierlicher Audio. Seine Leistung übertrifft die von Gemini 3 Pro. Bei der Bildverständnis verfügt MiMo-V2-Omni über die Fähigkeit zur multimodalen visuellen Inferenz und komplexen Diagrammanalyse. Seine Leistung übertrifft die von Claude Opus 4.6 und nähert sich der von Gemini 3 Pro. Bei der Videoverständnis unterstützt das neue Modell die native kombinierte Eingabe von Audio und Video, und seine Leistung übertrifft die von Gemini 3 Flash.
In Bezug auf die Agentenfähigkeiten kann MiMo-V2-Omni komplexe Umgebungen über Modalitäten hinweg verstehen, eigenständig Pläne erstellen und ausführen sowie Strategien bei Ausnahmen in Echtzeit korrigieren und schließlich ein komplettes Ergebnis end - to - end liefern.
In den Bewertungsbenchmarks für die Interaktion mit der realen digitalen Umgebung nähert sich die Leistung von MiMo-V2-Omni der von Gemini 3 Pro. Bei reinen Text - Agentenaufgaben ist seine durchschnittliche Leistung nur hinter der von Claude Opus 4.6.