Mei Tao, CEO von Zhixiang Future: Die Bruttomarge der Tokens von multimodalen Modellen ist weit höher als die von Sprachmodellen.
Text | Wang Xinyi, Li Jiaxing
Editor | Zhou Xinyu
Ein Unternehmen, das schon von Anfang an (Day 1) an multimodalen Großmodellen arbeitet, kann es sich nicht leisten, sich nicht an der Hype um Embodied Intelligence und Weltmodelle zu beteiligen.
Im Jahr 2026, mit dem Aufstieg von Modellen wie Seedance 2.0 und GPT Image 2.0, wird die multimodale Fähigkeit immer wichtiger und kann in der Branche nicht mehr ignoriert werden. Am 19. Mai, auf der ersten Open Day von Zhixiang Future, gab Zhixiang Future ihre Einschätzung und Antwort: "Native Multimodularität ist der unvermeidliche Weg zur Erreichung von AGI."
Thema der Open Day war "Imaging the World". Für Zhixiang Future ist jedoch die Bedeutung von "Welt" fast wichtiger als die von "Video" und "Bild".
"Unser ultimatives Ziel ist es, ein Weltmodell zu schaffen." Der CEO von Zhixiang Future, Mei Tao, hat diesen Gedanken wiederholt erwähnt. In seiner Definition will Zhixiang Future ein Unternehmen sein, das an nativen multimodalen Großmodellen arbeitet.
Nach Mei Tao muss ein echtes Weltmodell mehrere Bedingungen erfüllen: die Beherrschung physikalischer Gesetze, die Lösung von kausalen Schlussfolgerungen über lange Zeiträume, die Realisierung von ganzheitlichen multimodalen Interaktionen und absolute Sicherheit.
Die derzeitigen Hauptansätze zur Weltmodell-Trainierung in der Branche lassen sich in zwei Schulen einteilen: die von Fei-Fei Li, die sich auf die "Generierung einer 3D-Welt" konzentriert, und die von Yann LeCun, die sich auf die "selbstüberwachte Vorhersage der Welt" konzentriert.
Zhixiang Future hat eine andere Wahl getroffen - die Innovation auf Algorithmus- und Architekturebene. Sie beginnen mit den am scarcesten und teuersten multimodalen Daten in der Weltmodell-Trainierung und konzentrieren sich zunächst auf die Generierung von Daten wie Videos, Bildern und 3D-Interaktionen. Mit kostengünstigen synthetischen Daten sollen die Knappheitsprobleme in der Branche überwunden werden, und es sollen visuelle Modellfähigkeiten gesammelt werden, die für Weltmodelle wiederverwendbar sind.
Konkret sollen die multimodalen Modelle von Anfang an die Fähigkeit haben, die Regeln der realen Welt zu verstehen. Die native ganzheitliche Unified Transformer (UiT)-Architektur kann "Any to Any" (Beliebige Eingabeform unterstützt beliebige Ausgabeform) leisten, was auch die Fähigkeit ist, die Weltmodelle benötigen: das Verständnis, die Generierung und die Vorhersage verschiedener Zustände der realen Welt in einer einheitlichen Architektur.
In der letzten Zeit haben sie einen Wandel von "Modell als Produkt" zu "Agentenplattform" vollzogen.
Als ein hauptsächlich To-B-Unternehmen beschreiben sie ihre Strategie als die Schaffung einer "1+1+3"-MaaS (Model as a Service)-Plattform, die aus dem unteren HiDream-Serie von Großmodellen, der mittleren HiHarness-Enterprise-Service-Plattform und den oberen drei Anwendungsbereichen besteht: kommerzieller Marketing, Film- und Fernseherstellung, Social-Media-Erstellung.
Während das Konzept immer beliebter wird, setzen auch die Investoren immer mehr Geld darauf. Nachdem Zhixiang Future im vergangenen Monat eine Serie-B-Finanzierung in Höhe von 500 Millionen Yuan von Institutionen wie Anhui Industrial Investment und Orient Fortune Capital erhalten hat, hat es schnell die nächste Runde der Finanzierung angekündigt und binnen zwei Wochen eine weitere Finanzierung im Milliardenbereich abgeschlossen.
Eine Reihe von Wettbewerben folgt. Die Modellfähigkeiten werden immer stärker. Während Zhixiang Future mit nationalen und internationalen Basismodell-Anbietern um den Modellmarkt kämpft, muss es auch seine neue Karte - die MaaS-Plattform - festhalten und sich auf die Nischenmärkte im Bereich der Videogenerierung konzentrieren, um mit großen Unternehmen um Marktanteile zu kämpfen.
Nach der Open Day von Zhixiang Future haben Medien wie "Intelligent Emergence" mit dem CEO von Zhixiang Future, Mei Tao, und seinem Investor, dem Partner von Orient Fortune Capital, Wang Bing, gesprochen. Im Folgenden ist die Transkription des Gesprächs (leicht gekürzt):
Viele Embodied-Intelligence-Unternehmen unterschätzen die Wichtigkeit von Videomodellen
Frage: In der allgemeinen Wahrnehmung hat Zhixiang Future bisher viel mit Bildern und Videos gearbeitet. Wie ist die strategische Umstellung von zweidimensionalen Bildern und Videos auf die dreidimensionale physische Welt erfolgt?
Mei Tao: Es ist noch zu früh, die gegenwärtigen Modelle in der Branche als Weltmodelle zu bezeichnen. Es gibt verschiedene Wege zu Weltmodellen, und es werden möglicherweise auch mehrere Möglichkeiten in Zukunft geben.
Bis heute werden wir nicht behaupten, dass wir ein Weltmodell-Unternehmen sind. Wir neigen dazu, Zhixiang Future eher als ein Unternehmen für native multimodale Großmodelle zu definieren.
Zhixiang Future konzentriert sich eher auf native ganzheitliche multimodale Großmodelle und ihre Anwendungsbereiche. Ein Unternehmen für native multimodale Großmodelle wird jedoch auf jeden Fall in Zukunft zu Weltmodellen führen.
Frage: Viele Unternehmen bezeichnen sich derzeit als "Weltmodell-Unternehmen", aber die Definition dieses Konzepts ist für die Außenwelt sehr unklar. Wie definieren Sie das "Weltmodell", das Zhixiang Future anstrebt?
Mei Tao: Wir sind sehr streng in unserer Definition und glauben, dass Zhixiang Future an nativen multimodalen Modellen arbeitet. Beim Schritt in Richtung Weltmodell werden wir uns eher auf die Generierung von Daten wie Videos, Bildern und 3D-Interaktionen konzentrieren.
Frage: Zhixiang Future hat sich von der zusammengesetzten Multimodularität zur nativen Multimodularität entwickelt. Welche technologischen Wendepunkte sind dabei aufgetreten? Ist die Technologie derzeit reif?
Mei Tao: Die Technologie im Bereich der multimodalen Generierung hat sich noch nicht stabilisiert. Dies ist eine Chance für Start-up-Unternehmen. Wenn die Technologie vollständig stabilisiert und alle die DIT-Architektur verwenden, hätten wir keinen Spielraum mehr.
Genau weil die Technologie sich nicht schnell stabilisiert, können wir durch algorithmische Innovation mit wenigen Ressourcen die gleichen Ergebnisse wie große Unternehmen erzielen, anstatt einfach nur über Daten und Rechenleistung zu konkurrieren.
Frage: Welche reifen technologischen Bedingungen müssen noch erfüllt werden, um von einem ganzheitlichen multimodalen Großmodell zu einem Weltmodell zu gelangen?
Mei Tao: Erstens muss man die physikalischen Gesetze beherrschen, einschließlich der Strömungsmechanik, der Festkörpermechanik, der Molekulardynamik und des Newtonschen Gesetzes. Derzeit ist es für die Branche noch schwierig, alle diese Gesetze vollständig aufzulisten und zu beherrschen.
Zweitens muss das Problem der kausalen Beziehungen in langen Kontexten gelöst werden.
Drittens muss die ganzheitliche multimodale Interaktion mit der physischen Welt realisiert werden. Beispielsweise muss ein Roboter in der Lage sein, einen Becher aufzunehmen, den Deckel zu öffnen, Wasser einzufüllen und die Bedürfnisse des Benutzers zu erkennen. Dies ist noch ein langer Weg für uns.
Viertens muss die Sicherheit gewährleistet werden. Wenn ein Roboter in ein Haushaltssystem integriert wird, muss er 100% sicher sein, um keine Schäden an Personen oder wertvollen Gegenständen zu verursachen.
Unsere pragmatischere Wahl in der gegenwärtigen Phase ist es, uns auf das Problem der nativen Multimodularität zu konzentrieren. Dadurch können wir sowohl kommerzielle Umsetzungen erreichen als auch technologische Vorarbeiten für die Zukunft in Richtung Weltmodell leisten.
Frage: Viele Videogenerierungsmodell-Unternehmen konkurrieren um die Erstellung von langen Videos und die Realität. Werden diese Indikatoren sich beim Schritt in Richtung Weltmodell ändern?
Mei Tao: Weltmodelle legen den Schwerpunkt auf die Fähigkeit, die Welt zu generieren, einschließlich logischer Beziehungen und visueller Effekte.
Wir haben drei Dimensionen von Anforderungen an unser Videomodel:
Erstens die Modellfähigkeit, d. h. die Rationalität und Qualität der visuellen Inhalte sowie die Übereinstimmung mit den physikalischen Gesetzen. Bei der Modellfähigkeit müssen wir auf die Spitze abzielen.
Zweitens die Videolänge. Derzeit können wir Videos im Minutenbereich generieren, und technisch gesehen können wir sogar 3 Minuten, 5 Minuten oder sogar unendlich lange Videos erstellen.
Drittens die Echtzeitfähigkeit und Interaktionsfähigkeit. Wenn das Modell in einer Minute ein Video von einer Minute Länge generieren kann, kann es grundsätzlich interagieren. Ich hoffe, dass unser Produkt in diese Richtung entwickelt wird. Beispielsweise können wir durch Algorithmen eine niedrigqualitative Vorschau anbieten und nach Bestätigung des Benutzers ein hochauflösendes 2K- oder 4K-Video ausgeben.
Frage: Bei der Weltmodell-Trainierung sind Daten eine relativ knappe Ressource. Wie unterscheiden sich die Strategien zur Datenbeschaffung, -bereinigung und -annotierung für Weltmodelle von denen für Bild- und Videomodelle?
Mei Tao: Der Modell-Trainingsvorgang umfasst drei Elemente: Algorithmus, Daten und Rechenleistung.
Wenn der Algorithmusrahmen festgelegt ist, bleibt nur noch der Wettbewerb um Daten und Rechenleistung. Wenn beispielsweise alle die DiT (Diffusion Transformer)-Architektur für Videomodelle verwenden, sind die Qualität und Verteilung der Daten sowie die Qualität der Datenannotierung für die Modellfähigkeit sehr wichtig.
Wenn sich jedoch der Algorithmus und die Architektur ändern oder neue Architekturen und Algorithmen auftauchen, wird die Wichtigkeit der Daten etwas geringer. Dies ist auch die Chance für Start-up-Unternehmen - wir konkurrieren nicht nur über Rechenleistung und Daten, sondern konzentrieren uns auf die Innovation des Algorithmus selbst.
Betrachtet man die Datenebene, haben wir eine Reihe von Tools entwickelt, um hochwertige reale Daten zu sammeln, zu bereinigen und zu annotieren.
Wir verfügen über 200.000 Stunden an Videos mit Filmrechten und unterhalten Kooperationen mit vielen Herstellern. Gleichzeitig suchen wir auch nach Kooperationen mit führenden Filmstudios, die über lizenzierte Daten verfügen.
Die Datenlage für Weltmodelle unterscheidet sich von der für Videomodelle. Die Datenerfassung für Weltmodelle erfordert ganzheitliche multimodale Daten, die teurer und knapper sind. Deshalb erstellt Zhixiang Future aus den von anderen Herstellern gesammelten Millimetergenauen Daten von echten Handlungen mit einem Videomodel Millionen von Daten von echten Personen in verschiedenen Szenarien und Hautfarben und trainiert damit VLA (Vision-Language-Action, Visuelle-Sprache-Aktions-Modell) und WAM (World Action Model, Welt-Aktions-Modell).
Frage: Gibt es Unterschiede zwischen der Modell-Trainierung mit reinen realen Daten und der mit maschinell synthetisierten Daten?
Mei Tao: Wir führen kleine Tests durch, um einen geschlossenen Kreis von Daten bis zur Modell-Trainierung zu bilden. Konkret betrachten wir, ob die maschinell generierten Daten für die gängigen und besten VLA- und WAM-Modelle auf dem Markt von Vorteil sind, um die Wirksamkeit der Daten rückwärts zu überprüfen.
Frage: Sie haben erwähnt, dass viele Embodied-Intelligence-Unternehmen die Wichtigkeit von Videomodellen unterschätzen. Warum denken Sie, dass Embodied Intelligence ohne Videomodelle nicht weit kommen kann?
Mei Tao: Die Modelle von Embodied-Intelligence-Unternehmen sind derzeit im Allgemeinen sehr klein (weniger als 100 Milliarden Parameter). Wenn sie wirklich komplexe Aufgaben wie die eines Weltmodells übernehmen sollen, ist es mit kleinen Modellen und begrenzter Datenerfassung kaum möglich, eine breite Generalisierung zu erreichen.
Wir haben eines der weltweit drei multimodalen Modelle mit einer Größe von Milliarden von Parametern. Ohne ein solides und robustes Basis-Modell ist es schwierig, eine gute Generalisierung in der Embodied Intelligence zu erreichen. Selbst wenn man in bestimmten Szenarien aufgrund der Datenerfassung etwas erreichen kann, ist es schwierig, auf andere Szenarien zu erweitern.
Die Bruttomarge von Tokens für multimodale Modelle ist weit höher als die für große Sprachmodelle
Frage: Anfang dieses Jahres hat die Einstellung und das Abrufen von Sora einen gewissen Einfluss auf die chinesischen Videobranche-Start-ups ausgeübt. Wird dies die Investitionsentscheidungen der Investoren beeinflussen?
Wang Bing: Nein, denn dies ist eine Strategie von OpenAI. Momentan wird OpenAI im Bereich des Codings von Anthropic stark unter Druck gesetzt. Bei begrenzten Ressourcen und starkem Wettbewerb hat OpenAI möglicherweise die Priorität von Bild- und Videomodellen, die kurzfristig schwierig zu monetarisieren sind, herabgesetzt.
Aber von letztem Jahr bis heute hat sich die kommerzielle Entwicklung der gesamten Bild- und Videomodelle-Branche sehr schnell fortschritten. Beispielsweise haben Keling und Seedance 2.0 gute Einnahmen erzielt.
Allerdings besteht im Videogenerierungsmarkt möglicherweise das Problem der Urheberrechte. Dies ist auch ein wichtiger Grund, warum wir uns für die Investition in Zhixiang Future entschieden haben. Alle Daten von Zhixiang sind legal und lizenziert.
Angesichts der hohen Kosten für die Entwicklung von Großmodellen legen wir großen Wert darauf, wie Unternehmen auf die effektivste Weise mit großen Unternehmen differenziert konkurrieren können. Konkret bedeutet dies, dass Unternehmen einerseits in der Lage sein müssen, mit niedrigen Kosten ein Basis-Modell zu entwickeln, das die Fähigkeiten führender großer Unternehmen erreicht, und die Effizienz bei der Forschung und Entwicklung sowie die Kapitalausnutzung verbessern müssen. Andererseits müssen sie in der Lage sein, fortschrittliche Technologien schnell in verschiedene kommerzielle Szenarien umzusetzen und die B-Segment-Szenarien differenziert zu bedienen.
Frage: Können Videomodelle wirklich Geld verdienen?
Wang Bing: Sie werden definitiv Geld verdienen.
Erstens wird die Rechenleistungskosten exponentiell sinken. NVIDIA bringt jedes Jahr Chips mit einer fünf- bis zehnfachen Rechenleistung des Vorgängers auf den Markt, aber der Preis steigt kaum. Deshalb sinkt der durchschnittliche Preis für die Rechenleistung jedes Jahr.
Projekte, die heute nicht rentabel sind, könnten in ein paar Jahren profitabel werden, weil die Rechenleistungskosten ständig sinken.
Zweitens konnten die Generierungsergebnisse von Bildern und Videos in den letzten Jahren nicht auf kommerzielles Niveau gebracht werden. Aber in diesem Jahr können wir sehen, dass die Qualität von AI-Kurzfilmen, Kurzvideos und E-Commerce-Videos fast alle kommerziell nutzbar sind. In fast allen Anwendungsbereichen der Videobranche wie Film und Werbung wird AI in den meisten Fällen die menschliche Arbeit ersetzen.
Frage: Kann die Bruttomarge bei der To-B-Dienstleistung in der Videogenerierungsbranche positiv sein?
Mei Tao: Die Bruttomarge bei der To-B-Dienstleistung ist recht hoch. Darüber hinaus ist die Bruttomarge von Tokens für multimodale Modelle weit höher als die von Tokens für große Sprachmodelle.
Frage: Gibt es einen Standard, um zu messen, ob ein Unternehmen in der Videobranche den kommerziellen Umsatzpunkt erreicht hat?