StartseiteArtikel

MiniMax-Evolution: Das Vorwärtskommen gegen die Wellen einer Gruppe von „Eingenüßten“

晓曦2025-07-01 21:59
Rang 2 weltweit im Bereich Open Source, ein Aha-Moment für das aus China stammende Large Language Model.

Wenn eine Technologie in drei Jahren von der relativen Unbekanntheit zur Veränderung der Welt kommt, nennen wir dies die N-te industrielle Revolution.

Wenn bei dieser Technologie die führenden Akteure während des Übergangs von der Theorie zur Umsetzung wie auf einem Karussell wechseln und Milliarden an Ressourcen in sie fließen, nur um dann in Stille zu versinken, nennen wir sie ein Kapitalmixer.

Wenn eine Technologie all diese Eigenschaften vereint und noch dazu mit der zehnfachen Geschwindigkeit einer herkömmlichen Technologie evolviert, die ökologischen Schutzbarrieren, Kapitalbarrieren und Skaleneffekte der Internet-Ära aufhebt und es auch Start-ups ermöglicht, in den Mittelpunkt der Weltbühne zu treten, dann handelt es sich um ein Großmodell.

Seit DeepSeek Anfang dieses Jahres die Regeln des Spiels änderte, hat sich dieser Trend besonders deutlich entwickelt. Heute gilt in der Großmodellbranche als einziges Überlebensgesetz für die verbleibenden Unternehmen: Innovation steht an erster Stelle.

Wie versteht man also das Primat der Innovation in der Großmodellbranche? Warum scheitern die herkömmlichen Internet-Strategien in der Großmodell-Ära komplett? Warum kann die Abschaffung von Großmodellen bereits innerhalb von Quartalen erfolgen?

Die gerade abgeschlossene MiniMax Week ist vielleicht der beste Ausgangspunkt, um diese Fragen zu beantworten.

Von hier aus kann man sehen, wie ein Start-up in einer innovativen Branche sich aus dem Einflussbereich der Konzernen befreit, wie die Brücke zwischen technologischer Innovation und der Veränderung der Welt bei Großmodellen gebaut wird und wie eine Gruppe „eingerissener“ Menschen in einer Branche, in der alles auf Hochtouren abläuft, vorankommt.

Wie lässt sich die Welt mit einem springenden Kater beeindrucken?

Zuerst war das Interesse an der MiniMax Week auf die Diskussionen innerhalb der Großmodellbranche beschränkt: Wie viele SOTA (State of the Art)-Ergebnisse würde MiniMax dieses Mal erzielen?

Anschließend begannen Videos mit springenden Katzen aller Arten - Orangekatzen, Holsteinkatzen, Trikolorkatzen - wie ein Virus auf den globalen Sozialen Netzwerken zu verbreiten. Darauf folgten Videos von Alpacas, Pandas und Giraffen, die von einer zehn Meter hohen Plattform mit dreieinhalb Drehungen im Flug oder Rücksprüngen abstiegen. In den Videos kann man sogar beobachten, dass bei Tieren unterschiedlicher Gewichte die Amplitude der Plattformschwingungen und die Winkel der Wasserspritzer beim Sprung unterschiedlich sind.

Genau wie bei der Präsentation von DeepSeek R1 Anfang des Jahres erlebte MiniMax seinen „Aha Moment“.

„Aha Moment“ stammt aus der Psychologie und der Produktgestaltung und bezeichnet den Augenblick, in dem ein Benutzer plötzlich den Wert und das Potenzial eines Produkts oder Werkzeugs erkennt. Oft ist dieser Moment von einem Moment der Einsicht, Überraschung oder eines kognitiven Sprungs begleitet.

Hinter diesem Moment verbirgt sich oft ein entscheidender Durchbruch bei der technologischen Entwicklung von der Quantitativ- zur Qualitativänderung. Darauf folgen in der Regel ein starker Anstieg der Produktpenetration und ein Wendepunkt für den großangelegten Ausbruch der Branche.

Der Grund, warum das Video des springenden Katers als Aha Moment der Video-AI bezeichnet wird, liegt nicht nur in der Aufregung, die es in den Sozialen Medien ausgelöst hat, sondern auch darin, dass komplexe Bewegungen wie Sprünge, Turnbewegungen und Interaktionen zwischen mehreren Personen seit langem als „Turing-Test“ für Video-AI gelten.

Denn diese Bewegungen erfordern nicht nur, dass die AI jedes Einzelbild präzise steuert. Gleichzeitig müssen alle Bewegungsbahnen, die aus aufeinanderfolgenden Bildern zusammengesetzt sind, wie Positionsänderungen, Sprung- und Drehungen, Geschwindigkeit und andere Details den physikalischen Gesetzen der Schwerkraft und Trägheit entsprechen. Selbst komplexe Umgebungsinteraktionen wie die Amplitude der Plattform bei verschiedenen Tieren beim Sprung und die Winkel der Wasserspritzer bei verschiedenen Eintrittsbewegungen müssen realistisch wiedergegeben werden.

Hinter all dies steht das neueste Video-Modell von MiniMax - Hailuo 02.

Im Vergleich zu Hailuo 01 hat das Hailuo 02-Modell dreimal so viele Parameter, eine native Videoauflösung von 1080p und kann in einem Durchgang zehn Sekunden langes Hochqualitätsmaterial generieren. Es kann feine Bewegungen des Körpers, Simulationen der Strömungsdynamik, Spiegelungseffekte und reale physikalische Interaktionen wiedergeben. Selbst komplexe Dynamiken wie bei einer Akrobatenvorstellung können wiedergegeben werden, und es kann professionelle Kameraführungen liefern.

Das Video ist eine Demo, generiert von Hailuo AI Super Creator: Hu Sheng AIGC.

Im internationalen Vergleich steht Hailuo 02 auf der Image-to-Video-Liste der Artificial Analysis Video Arena auf Platz zwei weltweit. Gleichzeitig ist die API-Kosten von Hailuo 02 nur ein Neuntel von Google Veo3, obwohl es bessere Leistung als Google Veo3 bietet.

Die Rangliste beginnt ab dem Tag der Aufnahme und ist bis heute gültig.

Warum kann Hailuo 02 also bei hoher Realitätsnahe auch kostengünstig sein?

Einerseits wird es von der Skalengesetzmäßigkeit vorangetrieben: Das Hailuo 02-Modell hat dreimal so viele Parameter und viermal so viele Daten wie Hailuo 01, was es ermöglicht, komplexere Anweisungen und physikalische Szenarien zu verstehen.

Darüber hinaus nutzt Hailuo 02 eine innovative NCR (Noise-aware Compute Redistribution)-Architektur. Diese Architektur verteilt die Rechenressourcen über einen Rauschwahrnehmungsmechanismus an verschiedene Bereiche. In Bereichen mit hohem Rauschen wird die Informationsdichte reduziert, während in Bereichen mit geringem Rauschen mehr Rechenressourcen für die Erfassung von Schlüsseldetails eingesetzt werden. Dadurch wird der HBM-Speicher-Lese- und -Schreibaufwand um über 70 % reduziert, und die Trainings- und Inferenzleistung wird um das 2,5-fache gesteigert.

Natürlich ist diese Logik, sich auf die richtigen Dinge zu konzentrieren und ständig zu innovieren, nicht nur die zugrunde liegende Technologie von NCR, sondern auch die beste Beschreibung für das Unternehmenskultur von MiniMax und wie es seinen heutigen Status erreicht hat.

Wie entkommt ein Großmodell der kapitalistischen Anziehungskraft der Konzernen?

Vor einem Jahr war eines der größten Probleme für die Gründer von Großmodellen sicherlich:

Jede Veränderung der Konzernen ist ein Überlebenskampf für kleine und mittlere Unternehmen. Wie kann man sich also von der kapitalistischen Anziehungskraft der Konzernen befreien?

Nicht nur die Partner waren besorgt. Auch in öffentlichen Anlässen haben Medien und Anleger diese Frage immer wieder gestellt.

Die Lage schien schwierig: Fast alle großen Internet- und Technologieunternehmen weltweit haben sich in die Großmodellbranche eingemischt. Der Wettlauf zwischen Hunderten von Modellen war so heftig, dass man annahm, es würde wie bei den Fahrrad-Sharing-Diensten und Lieferdiensten vor einigen Jahren enden.

Die Bedenken scheinen berechtigt: Die Parameter von Großmodellen sind bereits im Billionenbereich angelangt. Sowohl das Training als auch die Inferenz erfordern eine ausreichende Kapitalbarriere. Die Weiterentwicklung von Großmodellen hängt von einer riesigen Datenmenge ab, und die Konzernen verfügen über genügend Datenressourcen. Die Entwicklung von Großmodellen erfordert hochqualifizierte Fachkräfte, und die attraktiven Angebote der Großunternehmen scheinen es ihnen zu ermöglichen, jeden gewünschten Mitarbeiter zu rekrutieren.

Aber die Realität ist: Nur ein Jahr später hat der Wettlauf zwischen Hunderten von Modellen bereits nachgelassen. Die meisten SOTA-Plätze in den verschiedenen Ranglisten werden von Start-ups wie OpenAI, Anthropic, MiniMax und DeepSeek eingenommen.

Die Logik ist einfach: Ein großer Kapitalbetrag ist nur eine der Voraussetzungen für das Training von Modellen. Beim Bau von Großmodellen ist es wie bei der Investition: Je höher der Konsens über einen Technologiepfad ist, desto mehr zeigt dies, dass es sich um eine verzögerte Variable handelt. Unternehmen müssen ständig neue effektive Alpha-Faktoren entdecken, um überdurchschnittliche Renditen zu erzielen. In dieser Hinsicht haben agile Start-ups im Vergleich zu traditionellen Konzernen häufiger einen schärferen Riecher und effizientere Entscheidungswege.

Im Falle von MiniMax: Im Marktbereich hat das äußerhalb Chinas verfügbare Produkt Talkie in den ersten acht Monaten des vergangenen Jahres weltweit schnell mehr als zehn Millionen Downloads erreicht und hat Character AI überholt, um die vierte am häufigsten heruntergeladene KI-Anwendung auf dem US-Markt zu werden. Laut der britischen „Financial Times“ beliefen sich die Einnahmen von MiniMax im Jahr 2024 auf etwa 70 Millionen US-Dollar.

Technologisch gesehen ist das MiniMax M1-Modell, das kürzlich in der professionellen Großmodell-Benchmark-Testreihe Artificial Analysis den zweiten Platz weltweit belegte, ein gutes Beispiel. Es ist ein Großmodell mit 456 Milliarden Parametern. Außer in den 17 gängigen Testreihen der Branche ist M1 auch das weltweit am längsten kontextführende Inferenzmodell. Es unterstützt nativ eine Eingabelänge von 1 Million Tokens, was das Achtfache von DeepSeek R1 ist. Es unterstützt auch 80.000 Ausgabetokens und bricht damit die Beschränkung von 64.000 Tokens von Gemini 2.5 Pro, um das Modell mit der längsten Ausgabe weltweit zu werden.

Für Großmodelle bedeutet eine längere Kontextlänge in der Regel ein besseres KI-Erlebnis. Insbesondere in komplexen Szenarien wie der tiefen Suche und der wissenschaftlichen Forschung ist die längere Kontextlänge die Kernfähigkeit für tiefe Inferenz (z.B. mathematische Probleme, Code-Szenarien) und die synthetische Verarbeitung von Inhalten (z.B. wissenschaftliche Arbeiten, Branchenstudien). Insbesondere in Agent-Szenarien, in