Ein Wettrisiko von "Sprung durch die Sterne"
Text | Deng Yongyi
Redaktion | Su Jianxun
Am 8. Mai tauchte Jiang Daxin, der CEO von Jieyue Xingchen, der lange Zeit nicht mehr gesehen wurde, auf einer Medienkonferenz in Peking auf.
„Im Bereich der Multimodalität wird jeder Mangel in irgendeiner Hinsicht den Fortschritt bei der Erforschung der AGI verzögern.“ Jiang Daxin gab eine klare Einschätzung ab. In den letzten zwölf Monaten hat er an verschiedenen Orten immer wieder betont: Die Multimodalität ist der unvermeidliche Weg zur AGI.
Unter den sechs aufstrebenden Unternehmen hebt sich Jieyue Xingchen durch seine Zurückhaltung besonders von den anderen Unternehmen ab, die bei der Finanzierung und in der Öffentlichkeit große Erfolge feiern.
Dieses Unternehmen ist am stillesten, aber dennoch aufgrund seiner einzigartigen Position in Erinnerung geblieben – in den letzten zwei Jahren hat es nicht an der heftigen Konkurrenz um die Vermarktung von Anwendungen teilgenommen und hat sich bei den To - C - Anwendungen nur vorsichtig getraut.
Die Multimodalität ist heute das markanteste Merkmal von Jieyue. Das Unternehmen setzt derzeit den Großteil seiner Kräfte in die Erforschung dieses Weges ein.
Seit seiner Gründung vor zwei Jahren hat Jieyue insgesamt 22 eigenentwickelte Basis - Modelle veröffentlicht, die Texte, Sprache, Bilder, Videos, Musik, Inferenz und andere Bereiche abdecken. Davon sind 16 Multimodal - Modelle, was mehr als 70 % ausmacht. Aus diesem Grund wird Jieyue in der Branche als „Multimodalitäts-Weltmeister“ bezeichnet.
Aber die Entwicklungsphase der Multimodalität unterscheidet sich von der der Sprachmodelle.
Im Bereich der Sprachmodelle, bei denen die technische Route bereits festgelegt ist, haben fast alle Unternehmen ähnliche technische Routen verfolgt. Die technische Erforschung der Multimodalität befindet sich jedoch noch in der Anfangsphase. Von den großen Konzernen bis hin zu den AI - Start - ups ist es wie das Wandern im Nebel.
Als Sora 2024 die Welt schockierte, hatten viele AI - Unternehmer unterschiedliche Meinungen. „Als Sora herauskam, waren wir eigentlich enttäuscht. Wir hätten erwartet, dass es sich um eine integrierte Lösung für das Verstehen und die Generierung handeln würde, aber sie haben nur die Generierung betrieben und nicht viel an der Verständnisseite gearbeitet.“ Jiang Daxin erklärte.
Jiang Daxin sagte gegenüber „Intelligent Emergence“, dass, wenn man die technologische Entwicklung der Sprachmodelle als Vergleich heranzieht, die von Jieyue favorisierte Richtung der „integrierten Verständnis - und Generierungskapazität“ in der Multimodalität möglicherweise noch vor der Phase von GPT 1.0 liegt, als der Transformer gerade auf den Markt kam.
Eines der größten Probleme bei der Multimodalität besteht darin, dass bei der Integration der verschiedenen Modalitäten die Leistung jeder einzelnen Modalität nicht beeinträchtigt werden darf, insbesondere darf es keine Reduktion der Intelligenz geben. Die von Jieyue gewählte technische Route ist also „besonders schwierig“: Ein und dasselbe große Modell muss sowohl Verständnis als auch Generierung leisten. Dies war die Hauptentwicklungstrendlinie von Jieyue Xingchen seit seiner Gründung.
Das Verstehen und die Generierung sind zwei Seiten derselben Medaille in der Richtung der nativen Multimodalität, was bedeutet:
Verständnisfähigkeit: Das Modell muss die Beziehungen zwischen den Objekten in einem Bild verstehen können, was die Generierungseinheit überwachen muss.
Generierungsfähigkeit: Der generierte Inhalt muss ebenfalls durch das Verständnis kontrolliert werden, um sicherzustellen, dass er nicht über die kognitive Grenzen der physischen Welt hinausgeht.
Mit der Veröffentlichung von GPT - 4o Image im Jahr 2025 und der weltweiten Begeisterung für die Stilkilter im Stil von Studio Ghibli und anthropomorphen Stilen kehrte die Multimodalität wieder in den Mittelpunkt der globalen AI - Szene zurück. Der Fortschritt der Inferenzmodelle, repräsentiert durch DeepSeek, kann auch ein wichtiges Stück in der technischen Erforschung der Multimodalität ergänzen.
Multimodalität und Agent sind die unbestrittenen Schlüsselwörter für das Jahr 2025. In den letzten zwölf Monaten hat Jiang Daxin an verschiedenen Orten immer wieder betont: Die Multimodalität ist der unvermeidliche Weg zur AGI. Der Agent hingegen ist die anfängliche Form, die die Branche bei der Erforschung der AGI bislang entwickelt hat.
Derzeit legt Jieyue auch Schwerpunkt auf den Bereich der Agenten. In wichtigen Anwendungsbereichen wie Automobilen, Mobiltelefonen, Embodied AI und IoT hat Jieyue bereits mit Unternehmen wie Oppo, Geely Automobile Group und Qianli Technology zusammengearbeitet, um Agenten in diesen Schlüsselbereichen einzusetzen.
Nachdem DeepSeek wie ein Raketenstart die Welt eroberte, hat es auch eine andere Seite: Wenn die einst unerschütterlichen technologischen Barrieren durchbrochen werden, müssen alle an einem angstvollen Kreuzweg stehen: Wie soll die technische Route weitergehen?
Große Unternehmen haben bereits etablierte Anwendungsbereiche und Benutzerstämme und haben daher genug Zeit, ihre Richtung zu ändern und ihre Kräfte zu konzentrieren. Für Start - ups im Bereich der großen Modelle ist diese Frage besonders dringend. Innerhalb von nur zwei Monaten haben einige der sechs aufstrebenden Unternehmen Teams aufgelöst, To - C - Anwendungen gestrichen oder die Vermarktung gestoppt und den Schwerpunkt wieder auf die Sprachmodelle gelegt.
Für Start - ups ist es vielleicht wichtiger und sicherer, sich in noch unbekanntere und fortschrittlichere Bereiche zu wagen.
Für Jieyue ist dies auch ein riskanter Wetteifer – derzeit hat Jieyue innerhalb des Unternehmens mehrere Teams mit verschiedenen technischen Ansätzen aufgebaut. „Jede dieser Routen könnte zu einem Durchbruch führen, und es muss ein Zustand der gleichzeitigen Entwicklung geschaffen werden.“ sagte Jiang Daxin.
Bei dieser Medienkonferenz hat Jiang Daxin neben der Veröffentlichung der zukünftigen Modell - und Produktpläne auch eine entscheidende Einschätzung des gegenwärtigen Multimodalitätsbereichs abgegeben, die von der Redaktion von „Intelligent Emergence“ zusammengefasst wurde:
Jeder Mangel in der Multimodalität wird den Fortschritt zur AGI verzögern
Die Erhöhung der Intelligenzgrenze bleibt immer noch die wichtigste Aufgabe der heutigen Zeit. Ich habe auch an vielen Orten immer wieder betont: Die Multimodalität ist der unvermeidliche Weg zur AGI.
In den letzten zwei Jahren haben wir gesehen, dass die Entwicklung der Modelle in der gesamten Branche im Wesentlichen diesem Weg folgt: Simulation der Welt – Erforschung der Welt – Induktion der Welt.
Technisch gesehen geht die gegenwärtige Entwicklung vom Einmodalen zum Multimodalem, von der Multimodal - Integration zur integrierten Verständnis - und Generierungskapazität und von der verstärkten Lernweise zur AI für die Wissenschaft.
Jieyue hat von Anfang an fest davon überzeugt sein, dass die Multimodalität für die allgemeine Künstliche Intelligenz von entscheidender Bedeutung ist. Warum?
Zunächst einmal ist die AGI auf die menschliche Intelligenz ausgerichtet, die vielfältig ist. Jede Person verfügt nicht nur über symbolische Intelligenz aus der Sprache, sondern auch über visuelle Intelligenz, räumliche Intelligenz und motorische Intelligenz usw. Diese Intelligenzen müssen durch visuelle und andere Modalitäten erlernt werden.
Von der Anwendungsseite her betrachtet, müssen wir, egal welche Anwendung wir entwickeln, sicherstellen, dass die KI hören, sehen und sprechen kann, damit sie die Umgebung des Nutzers besser verstehen und auf natürliche Weise mit ihm kommunizieren kann. Die Multimodalität ermöglicht es dem Intelligenzsystem, die Welt umfassend zu verstehen und wahrzunehmen, so dass es möglicherweise die Absichten des Nutzers besser verstehen kann.
Deshalb wird jeder Mangel in irgendeiner Richtung im Bereich der Multimodalität den Fortschritt bei der Realisierung der AGI verzögern.
Im Bereich der Multimodalität gibt es zwei zukünftige Trends bei der Entwicklung der Modelle: Erstens, das Hinzufügen von verstärkter Lernweise zu den vortrainierten Basis - Modellen kann die Fähigkeit der Modelle, lange Denkketten zu bilden, stimulieren und somit die Inferenzfähigkeit der Modelle erheblich verbessern.
Von der Veröffentlichung von o1 durch OpenAI bis zur Veröffentlichung von DeepSeek R1 vor dem chinesischen Neujahr halte ich dies für ein Zeichen, dass die Inferenzmodelle von einer Tendenz zu einem Paradigma geworden sind. Heute herrschen die Inferenzmodelle im Bereich der Sprachmodelle fast gänzlich vor.
Dies ist ein sehr heiß umkämpfter Bereich, in dem alle eifrig Innovationsversuche unternommen werden. Eine etwas neuere Fähigkeit, auf die weniger Beachtung gelegt wird, ist eigentlich die Integration der Inferenz in den Bereich der Multimodalität.
Zum Beispiel, wenn ich ein Bild (eines Fußballspiels) zeige und das Modell frage, wo dieses Bild aufgenommen wurde und welches Stadion das Heimstadion ist. Dies ist die Kombination der Wahrnehmungsfähigkeit des Modells mit seinem internen Wissen, um eine Inferenz durchzuführen, was die visuelle Verständnisfähigkeit im Vergleich zur vorherigen Situation erheblich verbessert.
△Quelle: Jieyue Xingchen
Der zweite Trend ist die integrierte Verständnis - und Generierungskapazität in der Multimodalität, genauer gesagt, die integrierte Verständnis - und Generierungskapazität im Bereich der visuellen Modalität, bei der sowohl das Verständnis als auch die Generierung von einem einzigen Modell durchgeführt werden.
Warum muss es unbedingt integriert sein? Nehmen wir zum Beispiel ein Video, in dem ein Lehrer an der Tafel schreibt. Die Haltung seiner Hand und die Spuren des Kreidestifts auf der Tafel können von Sora nachgebildet werden. Aber wenn der Lehrer mitten im Schreiben anhält und man fragt, was er als nächstes schreiben wird, dann ist dies die Aufgabe des Verständnis - Modells, um dies vorherzusagen.
Der generierte Inhalt muss durch das Verständnis kontrolliert werden, um sicherzustellen, dass er sinnvoll und wertvoll ist;
Und umgekehrt, das Verständnis muss durch die Generierung überwacht werden. Erst wenn ich in der Lage bin zu generieren, weiß ich, dass ich wirklich verstanden habe.
Die integrierte Verständnis - und Generierungskapazität kann die Inferenzfähigkeit der Generierung verbessern.
Ich gebe ein Beispiel: Wenn ein Mensch ein großes Gemälde malt, malt er es normalerweise nicht auf einmal fertig. Heute geben die Modelle beim Zeichnen eines Bildes sofort das fertige Bild aus, aber ein Mensch hat zuerst eine Vorstellung, wie das große Ganze aussehen soll, und malt dann die Details Schritt für Schritt.
Das Zeichnen ist eigentlich ein Prozess der Denkkettenbildung. Warum ist die Generierung durch unser Modell nicht ein Prozess der Denkkettenbildung? Es liegt daran, dass die Verständnis - und Generierungskapazität nicht integriert ist. Ich möchte ein Gerüst zeichnen und dann anhand dieses Gerüsts weitere Dinge hinzufügen und generieren. Selbst wenn ich feststelle, dass ein Strich nicht gut genug ist, kann ich ihn korrigieren und erneut generieren. Derzeit stoßen wir jedoch auf dieses Problem, nämlich die fehlende Integration der Verständnis - und Generierungskapazität, weshalb es schwierig ist, die Generierung Schritt für Schritt mit einer Denkkette durchzuführen.
△Quelle: Jieyue Xingchen
Im Bereich der Sprache ist die Vorhersage des nächsten Tokens die einzige Aufgabe, und der gesamte Trainingsvorgang besteht darin, zu überprüfen, ob die Vorhersage korrekt ist.
Übertragen auf den Bereich der visuellen Modalität stellt sich die Frage: Können wir ein Modell verwenden, um das nächste Bild zu prognostizieren? Dies ist eine zentrale Frage im Bereich der visuellen Modalität. Leider ist diese Frage noch nicht gelöst.
Der Grund für die Unlösbarkeit liegt in der Komplexität der Modalität. Man sagt, dass die Sprache sehr komplex ist, aber statistisch gesehen ist sie ein relativ einfaches Phänomen, da es in der Sprache höchstens ein paar hunderttausend Tokens gibt.
Aber im Bereich der visuellen Modalität, bei einem Bild von 1024×1024 Pixeln, haben wir bereits eine Million Dimensionen, und jede Dimension ist ein kontinuierlicher Raum. Die Schwierigkeit ist also ganz anders.
Im Bereich der Sprache hat die Einführung des Transformers im Jahr 2017 für die Branche vor allem den Vorteil, dass es ein skalierbares Framework für die integrierte Verständnis - und Generierungskapazität in Texten darstellt. Vorher waren die meisten anderen Modelle nicht skalierbar.
Im Jahr 2020 hat GPT - 3 die Branche revolutioniert, indem es zum ersten Mal eine riesige Menge an Internetdaten in dieses skalierbare Framework eingebracht und alle NLP - Aufgaben (natürliche Sprachverarbeitung) mit einem einzigen Modell bearbeitet hat;
Im Jahr 2022 ist ChatGPT auf den Markt gekommen, indem es auf dem vortrainierten Modell aufbauend die Befolgung von Anweisungen hinzugefügt hat, was GPT - 3.5 getan hat;
Mit GPT - 4 wurde diese Fähigkeit noch weiter verbessert. Der „GPT4 - Zeitpunkt“ bedeutet, dass unser Modell in dieser Modalität tatsächlich ein Niveau erreicht hat, das der menschlichen Intelligenz annähernd entspricht.
Jetzt, indem wir die Inferenz hinzufügen, können wir sehr komplexe Probleme lösen.
Was kommt als Nächstes? Viele denken, dass es die Online - Lernfähigkeit oder die eigenständige Lernfähigkeit sein sollte, d. h., dass das Modell in der Lage sein sollte, ständig neue Kenntnisse aus der Umgebung zu erlernen.
Bis jetzt glauben wir, dass sich die technische Route der Sprachmodelle im Wesentlichen stabilisiert hat und keine anderen Zweige aufgetreten sind. Deshalb glauben wir auch, dass die visuelle Modalität diesem gleichen Weg folgen kann.
Der erste Schritt wäre also, ein sehr skalierbares Framework zu haben. Die „integrierte Verständnis - und Generierungskapazität“ in der Multimodalität sollte