Exklusiv | Über 100 Millionen US-Dollar an Finanzierung erhalten, Cao Yue von Sand.ai: Warum Video der wichtigste Pfad zum World Model ist
„Bei jeder Generation von Modellen setzen wir auf etwas, das nicht der Konsens ist.“
Text | Deng Yongyi
Redaktion | Zhang Yuxin
Cao Yue, der Gründer von Sand.ai, kümmert sich nicht besonders darum, auf welcher Seite des Konsenses er steht.
Sand.ai ist ein Unternehmen für Videogenerierungsmodelle und -produkte, das im Januar 2024 gegründet wurde. Die Geschichte der Gründung von Sand.ai durch Cao Yue wurde bereits oft erzählt: Nach dem abrupten Ende seines vorherigen Unternehmens „Guangnian Zhiwai“ war Cao Yue schnell wieder in die Gründung von Sand.ai und die Entwicklung von Videogenerierungsmodellen involviert.
Damals war die vorherrschende Marktgeschichte die Diffusion-Route. Fast niemand glaubte, dass die von Cao Yue gewählte autoregressive (Autoregressive) Route die richtige Lösung sei.
Anfang 2025, nachdem er das auf einer autoregressiven Architektur trainierte Modell Magi-1 veröffentlicht hatte, erkannte Cao Yue schnell, dass „nur Bilder nicht genügen“. Also begann das Team, die gleichzeitige Generierung von Bild und Ton zu erforschen. Später war Sand.ai das erste Team außer Google VEO 3, das ein Modell für die gleichzeitige Generierung von Bild und Ton entwickelte. Magi-1 hielt auch lange Zeit die Spitzenposition in der Physics IQ Benchmark von Google DeepMind.
Im November 2025 setzte Cao Yue erneut einen Wurf: Er beschloss, das Team dazu zu bringen, die Modellarchitektur von Dense auf MoE umzustellen. „Zu diesem Zeitpunkt hat es in China wohl kaum ein Videounternehmen gegeben, das sich voll und ganz auf diese Sache konzentrierte.“
„Nach der Veröffentlichung des Modells Gaga-1 für die gleichzeitige Generierung von Bild und Ton haben wir festgestellt, dass die Kosten bei einer weiteren Skalierung im Dense-Architekturmodus linear ansteigen. Bei Videomodellen gibt es ein unmögliches Dreieck: Kosten, Geschwindigkeit und Effekt. Um es zu überwinden, kann man nur auf Forschung setzen, und MoE ist die Antwort.“ sagte Cao Yue.
Im dritten Quartal 2026 wird Sand.ai ein neues Videogenerierungsmodell veröffentlichen, das die MoE-Architektur nutzt und sowohl eine effiziente Inferenz als auch die derzeit größte Parametergröße im Open-Source-Bereich bietet. Cao Yue sagte: „Wir sind zuversichtlich, dass wir Spitzenqualität erreichen können und es für alle Open-Source machen wollen.“
△Bildunterschrift: Das in der Kamera gefangene Bild stimmt mit der Bewegung des aufgetretenen Mädchens überein
△Bildunterschrift: Das von Sand.ai's neuem Modell generierte Video
Dieses Unternehmen hat gerade zwei Runden von Finanzierungen mit einem Gesamtwert von über einer Milliarde US-Dollar abgeschlossen. Die Investoren umfassen Look Capital, Lollapalooza Capital (Wang Huiwen's Family Office), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Sinovation Ventures, Xianghe Capital, Source Code Capital, Zhongke Chuangxing, Hongtai Fund, Capital Today, Huaye Tiancheng, Yunhui Capital, IDG, Baidu Ventures und andere führende Institutionen. Xinghan Capital war der Finanzberater für diese Runde von Finanzierungen.
In den fast drei Jahren des Unternehmertums basiert Cao Yues zugrunde liegende Überlegung, ob es sich um die Wahl der autoregressiven Route, die gleichzeitige Generierung von Bild und Ton oder die MoE-Architektur handelt, auf demselben Prinzip: „Im Endzustand sollte jeder sehr individuelle Inhalte konsumieren können. Unter dieser Voraussetzung müssen die Kosten für die Inhaltserstellung sehr niedrig sein.“ sagte Cao Yue.
Ein weiteres unverändertes Merkmal ist, dass Cao Yue sich nicht darum kümmert, ob er auf der Seite des Marktkonsenses steht. „Wenn du dir zu sehr um die Ansichten anderer Menschen kümmerst, ist es wahrscheinlich, dass du nicht von ersten Prinzipien ausgehend denkt.“
Dasselbe Antwortschema zeigte sich, als wir ihn fragten, was ein Weltmodell sei.
„Es ist jetzt sehr laut“, sagte Cao Yue. „Wenn jeder von einem Weltmodell spricht, weiß er wahrscheinlich nicht, wovon er redet. Es ist zu einem Schlagwort geworden.“
Das Weltmodell ist eines der am schwersten zu definierenden AI-Konzepte von 2026. Akademische Größen wie Yann LeCun und Fei-Fei Li setzen auf völlig verschiedene Richtungen. Gleichzeitig hat Sora, das einst als „Welt-Simulator“ die Branche erschütterte, im März vorübergehend seine Aktivitäten eingestellt. In China sind in diesem Bereich auch mehrere aufsehenerregende Start-ups aufgetaucht, und viele Unternehmen, die zuvor 3D-Generierung und Videogenerierung betrieben haben, wenden sich nun auch hochkarätig dem Weltmodell zu.
Einerseits weckt das Weltmodell die Vorstellung von zukünftigen Modellrouten in den Menschen – ein einheitliches Modell, das Sprache, Bilder, Videos und Audio vereint. Andererseits ist dieses Wort in der Situation, dass der Wettbewerbsweg für Modelle immer enger wird, auch ein Auslass für Fomo-Gefühle geworden.
Cao Yues Urteil ist: Das Weltmodell befindet sich noch in der „Vorgpt-Zeit“ – der Zeit vor der Entstehung von GPT-1. Die Daten sind unzureichend, die Definition ist unklar und die technischen Routen sind noch weit davon entfernt, sich zu konvergieren.
Was er aber sicher sein kann, ist, dass das Videomodel der wichtigste Weg zu diesem Endzustand ist. „Wenn du sehen willst, welche Daten der Beobachtung (Observation) der Welt am nächsten kommen und zugleich in ausreichender Menge vorhanden sind, sind es eigentlich nur Videos.“
Während Sand.ai weiterhin die Trainierung von Basismodellen vorantreibt, hat es bereits auf der Anwendungsseite Schritte unternommen und Produkte wie Digitalpersonen und Video-Agenten erforscht. Das im Januar dieses Jahres veröffentlichte Musik-Agentenprodukt VidMuse hat binnen drei Monaten einen ARR von zehn Millionen US-Dollar erreicht.
„Wenn ein Start-up nicht in der Lage ist, ein SOTA-Modell zu trainieren, wird es leicht von Modellherstellern integriert.“ Cao Yue lässt sich nicht von der aktuellen Debatte darüber stören, ob Modellunternehmen auch Anwendungen entwickeln sollten. Er sagte, dass Sand.ai weiterhin sowohl Modelle als auch Anwendungen entwickeln werde.
Nach Abschluss dieser Runde von Finanzierungen sprach „Intelligent Emergence“ mit Cao Yue über seine technischen Urteile und Anwendungsentwicklungen in den letzten drei Jahren.
Im Folgenden sind die von „Intelligent Emergence“ zusammengefassten Ansichten von Cao Yue:
Bei jeder Generation von Modellen setzen wir auf etwas, das nicht der Konsens ist
Wir waren von Anfang an der Meinung, dass die Autoregression die am besten geeignete Methode zur Modellierung von Videodaten ist.
Als auf dem Markt alle nur noch reine Diffusionsmodelle entwickelten, waren wir der Ansicht, dass es bei Videos in Bezug auf die Zeitreihe unbedingt eine kausale Beziehung geben muss. Viele physikalische Gesetze sind im Wesentlichen Funktionen, die sich mit der Zeit ändern – Predict Next Frame (Vorhersage des nächsten Bildes), Predict Next Second (Vorhersage der nächsten Sekunde). Dies ist das am besten geeignete Trainingsschema für Videodaten.
Wir waren das erste Team, das die Generierung von Videos mittels Autoregression erforschte. Das im vergangenen Jahr veröffentlichte Magi-1 belegte die Spitzenposition in der von Google-DeepMind vorgeschlagenen Liste der Tests zur physikalischen Wahrheit Physics-IQ und hielt diese lange Zeit. Es übertraf das neueste Flaggschiffsweltmodell Cosmos3-Super von Nvidia und weitaus andere reine Diffusionsmodelle wie Sora-2.
Die gleichzeitige Generierung von Bild und Ton ist nicht nur eine Funktionsverbesserung, sondern eine vollständigere Komprimierung des Weltzustands.
Nach der Veröffentlichung von Magi-1 haben wir festgestellt, dass nur Bilder nicht genügen. Ton und Bild sind von Natur aus zusammengehörig, und ihre gleichzeitige Generierung hilft beiden – nach der gleichzeitigen Generierung von Bild und Ton steigt auch die Realität des Bildes deutlich. Im Wesentlichen ist die gleichzeitige Präsenz von Bild und Ton näher an der Darstellung des Weltzustands und hat eine höhere Dimension. Deshalb begannen wir im Mai des vergangenen Jahres mit der Erforschung der gleichzeitigen Generierung von Bild und Ton und waren das erste Team außer Google Veo-3, das ein Modell für die gleichzeitige Generierung von Bild und Ton entwickelte.
Bei Videomodellen gibt es ein unmögliches Dreieck: Kosten, Geschwindigkeit und Effekt. Im vergangenen Jahr waren wir der Ansicht, dass man nur durch Forschung einen Durchbruch erzielen kann, und MoE ist die Antwort.
Im Jahr 2025 beschlossen wir, uns auf MoE zu konzentrieren. Zu diesem Zeitpunkt hat es auf dem Markt wohl kaum ein Videomodellunternehmen gegeben, das sich voll und ganz auf diese Sache konzentrierte.
Der Grund dafür ist, dass wir nach der Veröffentlichung des Modells Gaga-1 für die gleichzeitige Generierung von Bild und Ton festgestellt haben, dass die Kosten bei einer weiteren Skalierung des Dense-Modells linear ansteigen – wenn man mit der Dense-Architektur das gleiche Ergebnis erzielen möchte, sind die Inferenzkosten mindestens drei- bis fünffach höher, und auch die Trainingskosten. Zu diesem Zeitpunkt haben wir kein einziges Unternehmen gesehen, das sich auf die Entwicklung von Video-MoE konzentriert hat, aber wir sind der Ansicht, dass es sehr wichtig ist: Erstens muss man MoE beherrschen, wenn man weiter skalieren möchte; zweitens muss man die Kosten bei gleicher Effektivität senken, wenn man möchte, dass mehr Menschen Videomodelle nutzen können.
Wir haben ein neues Video-MoE-Architekturmodell und ein Trainingsschema entwickelt und damit das Kernproblem bei der Entwicklung von Video-MoE-Modellen gelöst.
Die Herausforderungen, denen Video-MoE und Sprachmodell-MoE gegenüberstehen, sind unterschiedlich – die Token-Sequenz von Videos ist viel länger als die von Texten, und die Redundanz der Token ist auch höher. Daher werden Probleme wie Kommunikationsaufwand, Lastenausgleich und Trainingsstabilität verstärkt. Wir haben daher mehrere Innovationen in der Modellarchitektur vorgenommen und damit erstmals die stabile Trainierung eines sehr großen Video-MoE-Modells ermöglicht.
Bei jeder Generation von Modellen setzen wir einen Wurf. Magi-1 setzt auf die Autoregression, Gaga auf die gleichzeitige Generierung von Bild und Ton, und das neue Modell setzt auf MoE.
Das im Juli veröffentlichte neue Modell ist der Sammelpunkt der Fähigkeiten, die sich aus diesen drei Generationen von Modellen ergeben – es nutzt die MoE-Architektur und integriert die Generierung von allgemeinen Szenen, die gleichzeitige Generierung von Bild und Ton, die Erzählung mit mehreren Aufnahmen und die Generierung mit mehreren Referenzen in ein einziges Modell. Das Ziel ist es, in jeder Dimension Spitzenleistung zu erzielen.
Warum sollten diese Funktionen integriert werden? Beispielsweise hat Seedance 2.0 gezeigt, dass die Erzählung mit mehreren Aufnahmen ein dringender Bedarf ist, ein Punkt, den wir zuvor nicht als so wichtig galten. Daher sollten alle Funktionen, die auf dem Markt als wichtig erkannt werden, schließlich in ein einziges Modell integriert werden – sie sind keine voneinander unabhängigen Merkmale (Features), sondern helfen auch gemeinsam, dass das Modell bessere Ergebnisse erzielt.
Video ist der wichtigste Weg zu einem Weltmodell, aber nur ein Zwischenstopp
Das Wort „Weltmodell“ wird völlig missbraucht. Wenn jeder von einem Weltmodell spricht, hat er wahrscheinlich ein anderes Konzept im Kopf.
Jedes Konzept repräsentiert eine Struktur. Um mit anderen darüber zu diskutieren, muss man verstehen, was dahinter steckt. Aber viele Menschen wissen nur ungefähr, was es ist, und es ist einfach zu einem Schlagwort geworden.
Derzeit gibt es noch sehr große Unterschiede in der Vorstellung von Weltmodellen. Zweitens stimmen die Zeitvoraussagen darüber, wann diese Sache tatsächlich einen Wert erzeugt, nicht überein.
Wenn man unbedingt ein Weltmodell definieren muss, befindet es sich meiner Meinung nach noch in der Vorgpt-Zeit (der Zeit vor der Entstehung von GPT-1).
Zunächst haben wir keine Daten. Wir leben in einer Welt mit drei räumlichen Dimensionen und einer Zeitachse, aber Daten wie Bilder, Töne, Temperatur und Druck haben eine sehr hohe Dimension, und wir haben keine vollständigen, großen Beobachtungsdaten (Observation) der Welt.
Die Trainingsroute für Weltmodelle hat sich auch noch überhaupt nicht konvergiert. Einige Menschen sind der Ansicht, dass dies durch die „Vorhersage des nächsten Zustands“ erreicht werden kann, aber wir sind der Meinung, dass man nicht irgendeinen vom Menschen definierten (Human-defined) verborgenen Zustand vorhersagen sollte, sondern die ursprünglichen Beobachtungen, die die Welt uns gibt.
Wir sind der Ansicht, dass Videodaten der wichtigste Datentyp für die Entwicklung von Weltmodellen sind.
Zunächst sind Videodaten der Datentyp mit der größten Menge an Beobachtungsdaten der Welt. Sie kodieren gleichzeitig Zeit, Raum, Sicht und Hörsinn – es sind strukturierte Schnitte der 4D-physischen Welt, die durch die Kamera projiziert werden. Unter allen verfügbaren Beobachtungsdaten der Welt haben sie die höchste Informationsdichte, die vielfältigsten Dimensionen und die größte Menge.
Video ist weit mehr als nur Bilder. Die in Videos enthaltenen Informationen sind viel mehr als man intuitiv vermutet. Haptik, Temperatur, Materialeigenschaften, sogar Absichten und Emotionen – viele Informationen, die im menschlichen Wahrnehmungssystem anderen Modalitäten zugeordnet werden, sind auch in den zeitlichen Veränderungen von Sicht und Hörsinn kodiert.
Manche sagen, man soll den „nächsten Zustand“ vorhersagen, aber niemand kann dem Modell helfen, zu definieren, was ein „Zustand“ überhaupt ist.
Viele Menschen sind der Ansicht, dass die direkte Vorhersage (Observation) möglicherweise viele Redundanzen enthält und nicht effizient genug ist. Daher möchten sie einen vom Menschen definierten Zustand (State) festlegen, um die Trainings-effizienz zu verbessern.
Die LLM haben uns bereits einmal gezeigt, was dabei passiert – viele Menschen haben versucht, die Repräsentation von Wörtern, Sätzen und Absätzen explizit zu modellieren, und es wurde zwar vorübergehend gezeigt, dass dies „effizient“ ist, aber am Ende wurde alles von der Vorhersage des nächsten Tokens überholt. Wir sollten nicht auf dem Gebiet der multimodalen Modellierung denselben Fehler wiederholen.
Die Geschichte hat immer wieder ge