StartseiteArtikel

Qiu Xipeng von Fudan University hat seinen Unternehmensplan offenbart: Einen Einstieg über Sprachtechnologie und eine Wette auf "Situationsintelligenz". Bereits in der Angel-Runde wurden mehrere hundert Millionen Yuan investiert.

多维资本2026-03-30 09:00
Entdecken Sie gemeinsam die unendlichen (∞) Möglichkeiten in der multidimensionalen Welt.

Quelle | QbitAI

Am 24. März 2026 richtete die Nationale Datenbehörde erstmals in offizieller Sprache „Token“ als Standardübersetzung für „Token“ fest und gab bekannt, dass der tägliche durchschnittliche Token-Aufruf in China bereits 140 Billionen überschritten hat. Dies ist jedoch immer noch nur das Ausmaß der „Textdominanzzeit“.

In multimodalen Szenarien, die von Sprache, Video und Echtzeitinteraktion angetrieben werden, ändert sich mit der massiven Implementierung von Agenten, die Tools selbstständig aufrufen und Ergebnisse liefern, die Art der Token-Erzeugung und -Verbrauch fundamental –

Von diskreten Texten hin zu kontinuierlicher Wahrnehmung, von niedrigfrequentem Stapelinput zu hochfrequentem Streaminput. Die Produktionsweise, die Organisationsstruktur und die Verbrauchseffizienz werden direkt die Kapazitätsgrenze und die Kostenstruktur der nächsten Generation von KI-Systemen bestimmen.

Bereits 2021 verwarf Professor Qiu Xipeng von der Fudan-Universität frühzeitig die Übersetzung „Token“ und trug zur Standardisierung in chinesischer Sprache bei. Er wies darauf hin, dass „Token“ sowohl vermeidet, einfach als „Wort“ in der natürlichen Sprache verstanden zu werden, als auch die wesentliche Bedeutung als grundlegende Einheit der Sprachverarbeitung beibehält.

Mit der Entwicklung der großen Modelle von Texten zu Multimodalität und von Modellfähigkeiten zu Agentensystemen ist „Token“ nicht mehr nur ein terminologisches Problem, sondern die unterliegende Organisationsweise der nächsten Generation von Intelligenzsystemen.

Unter diesem Trend erhalten Unternehmen, die sich um die einheitliche Token-Struktur, die Vollmodalität und die Situationsintelligenz kümmern, kontinuierlich die Aufmerksamkeit des Kapitals.

Kürzlich hat MOSI auch die Abschluss einer Angel-Runde von mehreren Hundert Millionen Yuan angekündigt, die von IDG Capital geleitet wurde und von Yuanhe Holdings, Shanghai Kechuang und Shanghai Future Industry Fund unter der Shanghai State Investment, MiraclePlus, Starlink Capital und einem führenden industriellen Investoren gemeinsam investiert wurde.

Hinter dieser Finanzierung legen die Investoren offensichtlich nicht nur Wert auf die Produktfähigkeit eines einzelnen Punktes, sondern auf die vorausschauende Planung für die nächste Generation von Technologien. Multidimensional Capital wird auch als exklusiver Finanzberater für die nächste Runde fungieren und gemeinsam mit MOSI die nächste Stufe der allgemeinen Intelligenzzeit erkunden.

Unkonventioneller Weg: Von Sprache zu Vollmodalität, ausgedrückt und berechnet in einer einheitlichen Token-Struktur

Bereits während des „Hunderte-Modelle-Kampfes“ im Jahr 2023 erkannte Qiu Xipeng, dass obwohl es viele Modelle auf dem Markt gibt, die unterliegenden Technologiepfade stark konvergieren. Die meisten Ressourcen fließen weiterhin in den Bereich der großen Textmodelle, während die Vielfalt der Grundlagenforschung schrumpft.

In gewissem Maße beschränkt diese Homogenität nicht nur die technologischen Möglichkeiten, sondern auch den Raum für die Erforschung neuer Wege.

Unter diesen Umständen hat MOSI nicht den herkömmlichen reinen Textweg weiter verfolgt, sondern sich für einen weniger befahrenen Weg entschieden: Von der Sprache aus geht es zur Vollmodalität, und verschiedene Modalitäten werden in einer einheitlichen Token-Struktur ausgedrückt und berechnet.

Der Grund für die Wahl der Sprache als Durchbruchspunkt ist nicht kompliziert.

Im Vergleich zu reinem Text hat Audio eine höhere Informationsdichte und enthält natürlicherweise Signale wie Tonfall, Rhythmus und Emotionen, die der Text nur unvollständig tragen kann. Gleichzeitig lässt sich Audio leichter mit der Umgebung, Bewegungen und Kontexten zu einem kontinuierlichen Eingabestrom verbinden, was der Art der Mensch-Maschine-Interaktion in der realen Welt näher kommt.

Es ist nicht nur ein Interaktionsportal, sondern auch ein natürlicher Ausgangspunkt für das „Situationsverständnis“.

Wenn Token nicht mehr nur diskrete Symbole im Text sind, sondern die diskretisierte Darstellung kontinuierlicher Wahrnehmungsinformationen werden, ändert sich auch die zu lösende Aufgabe des Modells: Von „ein Satz verstehen“ zu „eine Situation verstehen“.

MOSI fasst diese Fähigkeit als „Situationsintelligenz“ (Contextual Intelligence) zusammen – basierend auf kontinuierlicher Wahrnehmung, dynamischem Gedächtnis und Umgebungsverständnis, kann die KI in der realen Welt adaptive Interaktionen durchführen.

In diesem Rahmen sind Token nicht mehr nur statische Eingabeeinheiten, sondern die grundlegenden Signale, die eine Situation bilden.

Und Agenten sind der direkte Träger für die praktische Anwendung der Situationsintelligenz.

Mit der Reife der Infrastruktur, wie z. B. OpenClaw, verschiebt sich der Wettbewerb in der Branche von der bloßen „Modellfähigkeit“ hin zum Wettstreit um Interaktionsportale und Umgebungsverständnis. Die Fähigkeiten in Bezug auf Sprache, Kontext und Situationsmodellierung werden zur neuen technologischen Wasserscheide.

Wenn Qiu Xipeng die akademische Quelle dieser Richtung darstellt, dann ist MOSI der industrielle Träger dieser Richtung; und das Shanghai Chuangzhi Institut bietet die organisatorische und ressourcenmäßige Plattform, die die schnelle Umsetzung der Technologie unterstützt.

Nach MOSS hat die echte Planung erst begonnen

Das Kernteam von MOSI hat sich langfristig auf das Pre-Training, große Modelle und die Multimodalität konzentriert und die technologische Entwicklung der einheitlichen Token-Richtung fortgesetzt.

Im Februar 2023 wurde MOSS, das erste chinesische ChatGPT-ähnliche Dialogmodell, veröffentlicht und eröffnete den „Hunderte-Modelle-Kampf“ in China. Doch aus Sicht des MOSI-Teams ist es nicht so wichtig, einen Kampf um die Modellveröffentlichung zu gewinnen, sondern die technologische Struktur der nächsten Stufe vorausschauend zu planen.

Im Mai desselben Jahres führte das Team SpeechGPT ein und validierte frühzeitig in der Branche die Machbarkeit des „diskretisierten End-to-End-Sprachmodells“.

Das Kernproblem, das es löst, besteht darin, kontinuierliche Sprachsignale zum ersten Mal in diskrete Token-Sequenzen aufzuteilen und abzubilden, so dass Sprache tatsächlich in den einheitlichen Token-Raum mit Texten eintreten kann.

Dies bedeutet, dass Maschinen erstmals die Möglichkeit haben, das, was Menschen „sagen“ und das, was sie „schreiben“, in demselben Rechenrahmen zu verstehen.

Der im August desselben Jahres veröffentlichte SpeechTokenizer hat diese Richtung weiter in die Praxis umgesetzt und ist ein audio-diskretisierender Encoder, der semantische Token und akustische Token kombiniert. Er bildet die Grundlage für die nachfolgende Sprachverstehung und -generierung sowie für die umfassendere multimodale einheitliche Modellierung.

Wenn dieser Weg erfolgreich ist, ist die Erweiterung auf die Vollmodalität ein natürliches Ergebnis.

Im Februar 2024 wurde AnyGPT veröffentlicht, das erstmals Sprache, Text, Bild und Video in ein diskretes Token-System abbildete und eine echte diskretisierte Vollmodalitäts-Basismodellarchitektur vorschlug.

Verschiedene Modalitäten müssen nicht mehr voneinander getrennt und separat trainiert werden, sondern können in derselben Sequenzstruktur verstanden und generiert werden.

So hat das Team erstmals ein relativ komplettes Profil seiner jahrelangen technologischen Planung gezeigt.

Von einem Einzelpunkt-Durchbruch zu einem Fähigkeits-Closed-Loop

Anschließend begannen die relevanten Ergebnisse beschleunigt zu erscheinen.

Im Juli 2025 wurde MOSS-TTSD veröffentlicht, das als das erste chinesische Open-Source-Englisch-Chinesisch-Dialogsprachmodell, das auf Millionen von Stunden Audio trainiert wurde, in Szenarien wie Podcasts und Filmtonübersetzungen starke Wettbewerbsfähigkeit zeigte.

Im November desselben Jahres veröffentlichte das Team in Zusammenarbeit mit dem Shanghai Chuangzhi Institut und anderen Institutionen das nächste Generation von Agent-Modell-System NEX, das in mehreren Benchmark-Tests wie Atmosphärenprogrammierung, Werkzeugnutzung und Backend-Entwicklung in die Spitzengruppe weltweit einstieg und die Vorteile der diskretisierten Architektur weiter auf Agenten und Produktivitätsszenarien ausdehnte.

Ab 2026 hat das Team mit monatlichem Rhythmus kontinuierlich aktualisiert:

MOSS-Transcribe-Diarize hat in komplexen Szenarien mit mehreren Sprechern eine führende Leistung erzielt;

MOVA, als eines der ersten chinesischen Open-Source-Hochleistungs-Audiovideo-Generierungsmodelle, hat nach der Veröffentlichung schnell die Aufmerksamkeit der Branche erregt;

MOSS-Audio-Tokenizer hat bei derselben Bitrate die Audio-Wiederherstellungskapazität weiter verbessert;

Die MOSS-TTS-Serienmodelle, die auf diesem Tokenizer trainiert wurden, sind hauptsächlich für praktische Produktionsszenarien ausgelegt und haben sich in Indikatoren wie der Ähnlichkeit der Klonung von Stimmen ausgezeichnet.

So ist MOSI inzwischen eine der wenigen chinesischen Start-ups, die einen „Vollmodalitäts-Basismodell-Fähigkeits-Closed-Loop“ abgeschlossen haben.

Hinter diesen Ergebnissen liegt nicht eine Reihe von isolierten technologischen Durchbrüchen, sondern die natürliche Ausdehnung eines unterliegenden Themas, das wiederholt validiert wurde: Multimodale Informationen können durch eine einheitliche Diskretisierungsmethode in dieselbe Token-Sequenzstruktur abgebildet werden, um eine einheitliche Berechnung zu ermöglichen.

Die Diskretisierung bringt nicht nur eine höhere Kompressionseffizienz, sondern vor allem die Kombinierbarkeit und Berechenbarkeit verschiedener Modalitäten – und dies ist die grundlegende Architekturvoraussetzung für die tatsächliche Umsetzung der Vollmodalitätsintelligenz und des Agentensystems.

Spitze-Team für die Industrialisierung großer Modelle: Vollständige Fähigkeiten von 0 bis N

Das Kernteam von MOSI, das sowohl in der vordersten Forschung als auch in der technischen Umsetzung stark ist, unterstützt den technologischen Weg des Unternehmens.

Chefwissenschaftler Qiu Xipeng, Professor an der Fudan-Universität, Gewinner des Nationalen Ausgezeichneten Jungwissenschaftler-Fonds, Vollzeitmentor am Shanghai Chuangzhi Institut und Träger des CCF-ACM AI Award 2024 (der einzige globale Gewinner in diesem Jahr).

Er hat sich langfristig auf die natürliche Sprachverarbeitung und große Modelle konzentriert und in Spitzend Bereichen wie End-to-End-Sprachmodellen und Vollmodalitäts-Basismodellen technologisch führend gehalten. Er ist ein führender Charakter in der chinesischen Branche der großen Modelle, der sowohl akademische Höhe als auch industriellen Einfluss hat, und wurde mehrmals in die Liste der weltweit besten 2 % der Wissenschaftler aufgenommen.

Sein Buch „Neuronale Netze und Deep Learning“ wird weit verbreitet an Hochschulen verwendet.

CEO Li Shimin stammt aus Qiu Xipengs Master- und Doktorprogramm. Er hat mehrere CCF-A-Papiere als Erstautor veröffentlicht und war tief in das Schlüssel-Forschungsprojekt „Neue Generation von Künstlicher Intelligenz 2030“ des Ministeriums für Wissenschaft und Technologie involviert. Er hat mehrere Schlüsseltechnologien in der Richtung der anthropomorphen Mensch-Maschine-Interaktion entwickelt.

Für Li Shimin ist das Gründen eines Unternehmens keine Rollenumstellung, sondern die natürliche Fortsetzung seiner bestehenden Forschungsrichtung auf der industriellen Seite.

Es ist bemerkenswert, dass MOSI nicht das traditionelle „Professor führt Studenten ins Unternehmertum“ ist, sondern ein Vorzeigeprojekt, das vom Shanghai Chuangzhi Institut und der Fudan-Universität gemeinsam gefördert wurde.

Als neues Forschungsinstitut, das von der Stadt Shanghai gegründet wurde, bietet das Chuangzhi Institut dem Unternehmen eine systematische Unterstützung in Bezug auf Rechenleistung, Personal und industrielle Ressourcen, so dass es einen viel höheren Startpunkt und eine schnellere Iterationsgeschwindigkeit hat als herkömmliche akademische Unternehmensgründungsprojekte.

Im Juli 2025 wurde auf der Veröffentlichung der „Ersten Acht KI-Ergebnisse“ des Chuangzhi Instituts das von Qiu Xipengs Team und MOSI veröffentlichte MOSS-Audio als „Durchbruch der Sprachinteraktions-Phantomtal-Effekt und Grundlage für die Situationsintelligenz“ bewertet.

Im September desselben Jahres wurde auf der Ein-Jahr-Ergebnis-Veröffentlichung das von dem Team vorgeschlagene skalierbare, ganzheitliche Framework für die Interpretierbarkeit großer Modelle erneut zu den sieben innovativen Ergebnissen ausgewählt, was den Übergang Chinas von der Nachfolge zur Führung in dieser Richtung markiert. CEO Li Shimin sagte:

Die Förderung durch das Chuangzhi Institut hat es uns ermöglicht, die technologische Umsetzung mit einer viel höheren Geschwindigkeit als bei herkömmlichen akademischen Unternehmensgründungen zu erreichen.

Das Unternehmen hat derzeit ein Vollstack-Technologie-System von fast hundert Personen aufgebaut, wobei der Anteil der Doktoranden fast 50 % beträgt. Die Kernmitglieder stammen hauptsächlich aus dem NLP-System der Fudan-Universität (CS Ranking global führend) und ziehen kontinuierlich Forschungstalente aus mehreren Spitz