StartseiteArtikel

Ein Wetteinsatz von "Sprung durch die Sterne"

咏仪2025-05-12 08:23
DeepSeek hat uns gesagt, dass die Logik des Werbeplatzements nicht stimmt.

Text | Deng Yongyi

Editor | Su Jianxun

Am 8. Mai tauchte Jiang Daxin, der CEO von Jieyue Xingchen, der lange Zeit nicht mehr gesehen wurde, auf einer Medienkonferenz in Peking auf.

„Im Bereich der Multimodalität wird jeder Mangel in irgendeiner Hinsicht den Fortschritt bei der Erforschung der AGI verzögern.“ Jiang Daxin gab eine klare Einschätzung ab. In den letzten zwölf Monaten hat er an verschiedenen Orten immer wieder betont: Die Multimodalität ist der unvermeidliche Weg zur Realisierung der AGI.

Unter den sechs aufstrebenden Unternehmen in der KI-Branche fällt die Zurückhaltung von Jieyue Xingchen besonders auf, im Vergleich zu anderen Wettbewerbern, die bei der Finanzierung und in der Marktpräsenz wie ein Feuerwerk glänzen.

Dieses Unternehmen ist am stillsten, aber dennoch aufgrund seiner einzigartigen Position in Erinnerung geblieben. In den letzten zwei Jahren hat es sich nicht an der heftigen Konkurrenz um die Vermarktung von Anwendungen beteiligt und hat bei den To-C-Anwendungen nur einige Versuche unternommen.

Die Multimodalität ist heute das markanteste Merkmal von Jieyue. Das Unternehmen setzt derzeit den größten Teil seiner Kräfte in die Erforschung dieses Weges ein.

Seit seiner Gründung vor zwei Jahren hat Jieyue insgesamt 22 eigenentwickelte Basis-Modelle veröffentlicht, die Texte, Sprache, Bilder, Videos, Musik, Inferenz und andere Bereiche abdecken. Davon sind 16 Multimodal-Modelle, was mehr als 70 % ausmacht. Aus diesem Grund wird Jieyue in der Branche als „Multimodalitäts-Weltmeister“ bezeichnet.

Aber die Entwicklungsphase der Multimodalität unterscheidet sich von der der Sprachmodelle.

Im Bereich der Sprachmodelle, bei denen die technischen Ansätze bereits konvergiert sind, haben fast alle Unternehmen ähnliche technische Ansätze verfolgt, um ihre Modelle zu verbessern. Die technische Erforschung der Multimodalität befindet sich jedoch noch in der Anfangsphase. Von den großen Konzernen bis hin zu den KI-Start-ups ist alles noch im Nebel.

Als Sora 2024 die Welt erschütterte, hatten viele KI-Unternehmer unterschiedliche Meinungen. „Als Sora herauskam, waren wir eigentlich enttäuscht. Wir hätten erwartet, dass es sich um eine Lösung handeln würde, die Verständnis und Generierung integriert. Aber sie haben nur die Generierung betrieben und wenig Verständnis entwickelt.“ Jiang Daxin erklärte.

Jiang Daxin sagte gegenüber „Intelligent Emergence“, dass, wenn man die technologische Entwicklung der Sprachmodelle als Vergleich nimmt, der von Jieyue favorisierte Ansatz der „integrierten Verständnis- und Generierungskapazität“ in der Multimodalität möglicherweise noch vor der Phase von GPT 1.0 liegt, als der Transformer gerade entwickelt wurde.

Eines der größten Probleme bei der Multimodalität besteht darin, dass bei der Integration der verschiedenen Modalitäten die Leistung jeder einzelnen Modalität nicht beeinträchtigt werden darf, insbesondere darf es keine Reduktion der Intelligenz geben. Der von Jieyue verfolgte technische Ansatz ist also „doppelt schwierig“: Ein und dasselbe große Modell muss sowohl Verständnis als auch Generierung ermöglichen. Dies war von Anfang an die Hauptrichtung der Entwicklung von Jieyue Xingchen.

Verständnis und Generierung sind zwei Seiten derselben Medaille im Bereich der Multimodalität. Dies bedeutet:

Verständnisfähigkeit: Das Modell muss die Beziehungen zwischen den Objekten in einem Bild verstehen, was die Generierungskomponente überwachen muss.

Generierungsfähigkeit: Der generierte Inhalt muss ebenfalls durch das Verständnis kontrolliert werden, um sicherzustellen, dass er nicht über das physikalische Verständnis der Welt hinausgeht.

Mit der Veröffentlichung von GPT-4o Image im Jahr 2025 und der weltweiten Begeisterung für die Stilfilter von Studio Ghibli und anthropomorphen Stilen kehrte die Multimodalität wieder in den Mittelpunkt der globalen KI-Szene zurück. Der Fortschritt bei den Inferenzmodellen, wie beispielsweise DeepSeek, kann auch einen wichtigen Beitrag zur technischen Erforschung der Multimodalität leisten.

Multimodalität und Agenten sind die beiden unbestrittenen Schlüsselwörter für das Jahr 2025. In den letzten zwölf Monaten hat Jiang Daxin an verschiedenen Orten immer wieder betont: Die Multimodalität ist der unvermeidliche Weg zur AGI. Agenten hingegen sind die anfängliche Form, die die Branche bei der Erforschung des Weges zur AGI entwickelt hat.

Derzeit legt Jieyue auch Schwerpunkt auf die Entwicklung von Agenten. In wichtigen Anwendungsbereichen wie Automobilen, Mobiltelefonen, Embodied Intelligence und IoT hat Jieyue bereits Kooperationen mit Unternehmen wie Oppo, Geely Automobile Group und Qianli Technology eingegangen, um Agenten in diesen Schlüsselbereichen anzuwenden.

Nachdem DeepSeek die Welt erobert hat, steht man nun vor der Frage: Wenn die bisher unüberwindlichen technischen Barrieren durchbrochen sind, wie soll man den technischen Weg weiter gehen? Die großen Unternehmen haben bereits vorhandene Anwendungsbereiche und Benutzer und haben noch genug Zeit, um ihre Strategie anzupassen und ihre Kräfte zu bündeln. Für die Start-ups im Bereich der großen Modelle ist diese Frage besonders dringend. Innerhalb von nur zwei Monaten haben einige der sechs aufstrebenden KI-Unternehmen Teams aufgelöst, To-C-Anwendungen gestoppt oder die Vermarktung eingestellt und stattdessen wieder auf die Sprachmodelle konzentriert.

Für die Start-up-Unternehmen ist es vielleicht wichtiger und sicherer, sich in noch unerschlossene und unbekannte Gebiete zu begeben.

Für Jieyue ist dies auch ein großer Wetteifer. Innerhalb des Unternehmens wurden bereits mehrere Teams mit verschiedenen technischen Ansätzen aufgebaut. „Jeder dieser Ansätze könnte zu einem Durchbruch führen. Wir müssen alle Wege parallel verfolgen.“ sagte Jiang Daxin.

Bei dieser Medienkonferenz gab Jiang Daxin nicht nur Pläne für zukünftige Modelle und Produkte bekannt, sondern auch eine Schlüsselsicht auf den aktuellen Stand der Multimodalität. Diese wurden von „Intelligent Emergence“ bearbeitet und zusammengefasst:

Jeder Mangel in der Multimodalität verzögert den Fortschritt zur AGI

  • Die Strebung nach der Maximierung der Intelligenz ist immer noch das Wichtigste. Ich habe es an vielen Orten immer wieder wiederholt: Die Multimodalität ist der unvermeidliche Weg zur Realisierung der AGI.

    In den letzten zwei Jahren haben wir beobachtet, dass die Entwicklung der Modelle in der Branche im Wesentlichen diesem Schema folgte: Simulation der Welt - Erforschung der Welt - Induktion der Welt.

    Technisch gesehen geht die Entwicklung von der Einmodalität zur Multimodalität, von der Multimodal-Integration zur integrierten Verständnis- und Generierungskapazität und schließlich von der verstärkten Lernweise zur KI für die Wissenschaft.

  • Jieyue hat von Anfang an fest davon überzeugt gewesen, dass die Multimodalität für die allgemeine Künstliche Intelligenz von entscheidender Bedeutung ist. Warum?

    Zunächst einmal ist die AGI auf die menschliche Intelligenz ausgerichtet, die vielschichtig ist. Jeder Mensch hat nicht nur symbolische Intelligenz aus der Sprache, sondern auch visuelle Intelligenz, räumliche Intelligenz und motorische Intelligenz usw. Diese Intelligenzen müssen über die visuelle Wahrnehmung und andere Modalitäten erlernt werden.

    Von der Anwendungsseite her betrachtet, benötigen wir in jeder Anwendung, dass die KI hören, sehen und sprechen kann, damit sie die Umgebung des Benutzers besser verstehen und mit ihm auf natürliche Weise kommunizieren kann. Die Multimodalität ermöglicht es der KI, die Welt umfassend zu verstehen und wahrzunehmen, so dass sie die Absichten des Benutzers besser verstehen kann.

    Deshalb wird jeder Mangel in irgendeiner Richtung der Multimodalität den Fortschritt zur Realisierung der AGI verzögern.

  • Im Bereich der Multimodalität gibt es zwei zukünftige Trends bei der Entwicklung der Modelle: Erstens, die Hinzufügung von verstärkter Lernweise zu den vortrainierten Basis-Modellen kann die Fähigkeit des Modells, lange Denkketten zu bilden, verbessern und somit die Inferenzfähigkeit des Modells erheblich steigern.

  • Von der Veröffentlichung von o1 durch OpenAI bis zur Veröffentlichung von DeepSeek R1 vor dem chinesischen Neujahr halte ich dies für ein Zeichen, dass die Inferenzmodelle von einem Trend zu einem Paradigma geworden sind. Heute herrschen die Inferenzmodelle im Bereich der Sprachmodelle.

    Dies ist ein sehr heiß umkämpfter Bereich, in dem alle eifrig Innovationen vornehmen. Ein etwas weniger beachtetes, aber neues Konzept ist die Integration der Inferenz in den Bereich der Multimodalität.

    Zum Beispiel kann ich dem Modell ein Bild (eines Fußballspiels) zeigen und es fragen, wo das Spiel stattfindet und welches Team das Heimteam ist. Dies kombiniert die Wahrnehmungsfähigkeit des Modells mit seinem internen Wissen, um eine Inferenz zu ziehen, was die visuelle Verständnisfähigkeit des Modells erheblich verbessert.

△Quelle: Jieyue Xingchen

  • Der zweite Trend ist die integrierte Verständnis- und Generierungskapazität in der Multimodalität, genauer gesagt, die integrierte Verständnis- und Generierungskapazität im Bereich der visuellen Wahrnehmung, bei der ein und dasselbe Modell sowohl das Verständnis als auch die Generierung ermöglicht.

    Warum ist die Integration so wichtig? Nehmen wir beispielsweise ein Video, in dem ein Lehrer an der Tafel schreibt. Die Haltung der Hände des Lehrers und die Spuren der Kreide auf der Tafel können von Sora nachgebildet werden. Aber wenn der Lehrer mittendrin aufhört und sagt, was er später schreiben wird, dann ist dies eine Aufgabe für das Verständnis-Modell, um dies vorherzusagen.

    Der generierte Inhalt muss durch das Verständnis kontrolliert werden, um sicherzustellen, dass er sinnvoll und wertvoll ist.

    Umgekehrt muss das Verständnis durch die Generierung überwacht werden. Erst wenn ich etwas generieren kann, weiß ich, dass ich es wirklich verstehe.

    Die integrierte Verständnis- und Generierungskapazität kann die Inferenzfähigkeit bei der Generierung verbessern.

    Ich möchte ein Beispiel geben: Wenn ein Mensch ein großes Bild malt, malt er es normalerweise nicht auf einmal fertig. Wenn ein Modell ein Bild generiert, erzeugt es es jedoch sofort. Ein Mensch hat jedoch einen Entwurf, den er entwickelt, bevor er mit den Details beginnt. Dies ist ein Prozess der Denkkette. Warum kann unser Modell dies nicht? Weil es keine integrierte Verständnis- und Generierungskapazität hat. Ich möchte ein Gerüst zeichnen und dann basierend auf diesem Gerüst Details hinzufügen und generieren. Wenn ich feststelle, dass ein Strich nicht gut ist, möchte ich ihn ändern und erneut generieren. Dies ist das Problem, das wir noch zu lösen haben: Die fehlende Integration von Verständnis und Generierung macht es schwierig, die Generierung in Schritten mit einer langen Denkkette durchzuführen.

△Quelle: Jieyue Xingchen

  • Im Bereich der Sprache ist die Vorhersage des nächsten Tokens die einzige Aufgabe. Der gesamte Trainingsvorgang besteht darin, zu überprüfen, wie gut das Modell diese Vorhersage macht.

    Übertragen auf den Bereich der visuellen Wahrnehmung stellt sich die Frage: Können wir ein Modell verwenden, um das nächste Bild zu prognostizieren? Dies ist die zentrale Frage im Bereich der visuellen Wahrnehmung. Leider ist diese Frage noch nicht gelöst.

    Der Grund für die Unlösbarkeit liegt in der Komplexität der Modalitäten. Man sagt, dass die Sprache sehr komplex ist, aber statistisch gesehen ist sie ein einfaches Phänomen, da es höchstens ein paar hunderttausend Tokens gibt.

    Aber bei einem Bild, ganz zu schweigen von einem Video, hat ein Bild mit einer Auflösung von 1024 x 1024 Pixel eine Million Dimensionen, und jede Dimension ist ein kontinuierlicher Raum. Die Schwierigkeit ist also ganz anders.

  • Im Bereich der Sprache war die Veröffentlichung des Transformers im Jahr 2017 von großer Bedeutung für die Branche, da es sich um eine skalierbare Architektur für die integrierte Verständnis- und Generierungskapazität von Text handelte. Vorher waren die anderen Modelle im Allgemeinen nicht skalierbar.

    Das Jahr 2020 und die Veröffentlichung von GPT-3 waren von Bedeutung, weil wir erstmals eine riesige Menge an Internetdaten in diese skalierbare Architektur einführten und ein einziges Modell für alle NLP-Aufgaben (Natürliche Sprachverarbeitung) einsetzten.

    Im Jahr 2022 kam ChatGPT heraus, indem man auf das vortrainierte Modell eine Befehlsfolge hinzufügte, was GPT-3.5 leistete.

    Mit GPT-4 wurde diese Fähigkeit weiter verbessert. Der „GPT-4-Zeitpunkt“ bezeichnet den Moment, in dem unser Modell in dieser Modalität tatsächlich ein Niveau erreicht, das der menschlichen Intelligenz ähnelt.

    Jetzt können wir mit der Hinzufügung der Inferenz sehr komplexe Probleme lösen.

  • Was kommt als Nächstes? Viele denken, dass es sich um das Online-Lernen oder das autonome Lernen handeln sollte, also die Fähigkeit, ständig neue Kenntnisse aus der Umgebung zu erlernen.

    Bis jetzt halten wir es für wahrscheinlich, dass sich die technischen Ansätze der Sprachmodelle im Wesentlichen konvergiert haben und keine anderen Zweige aufgetreten sind. Deshalb glauben wir, dass auch die visuelle Wahrnehmung denselben Weg gehen kann.

    Der erste Schritt wäre also die Entwicklung einer sehr skalierbaren Architektur. Die integrierte Verständnis- und Generierungskapazität in der Multimodalität entspricht in Bezug auf die Sprachmodelle sogar dem Niveau des Transformers. Damals gab es noch kein GPT. Der Transformer wurde 2017 entwickelt, und GPT-1 kam 2018 heraus.

DeepSeek zeigt uns, dass die Logik der Werbeplatzierung nicht stimmt

  • Ich denke, dass DeepSeek uns gezeigt hat, dass die Logik der Werbeplatzierung nicht funktioniert. DeepSeek hat nie Werbung platziert, aber wenn es den Zugang zu seinem Service freigeben würde, würde es problemlos über eine Million Nutzer erreichen.

    Wir müssen uns erneut fragen, ob das Wachstum des Nutzers in der KI-Zeit wirklich so funktioni