StartseiteArtikel

Worauf deutet es hin, dass die Schwerpunkte der KI auf die Multimodularität verlagert werden? Welche Branchentrends spiegeln sich darin wider?

36氪的朋友们2025-10-29 20:03
In einem langen Zeitraum in der Zukunft werden die sogenannten "Hypes", auf die die Branche hoffen kann, möglicherweise hauptsächlich aus dem Bereich der Multimodalität stammen.

Quelle: Jiemian News

Die Brennpunkte der KI im Jahr 2025 verschieben sich.

Seitdem DeepSeek R1 im ersten Halbjahr die Branche in Wallung brachte, sind es selten geworden, dass Modelle im Paradigma von "reinem Text + Inferenz" noch gewichtige Ergebnisse erzielen. Im zweiten Halbjahr hat das Gesprächsthema deutlich hin zum multimodalen Bereich verschoben.

Sora 2 wurde in eine lieferfähige Applikation verpackt, und Google hat Nano Banana mit stärkeren Bildbearbeitungsfähigkeiten vorgestellt. Das Gleiche gilt auch für die AI-Agenten. Nach Produkten wie Manus, die stärker textbasiert sind, war LoveArt, das sich auf visuelle Gestaltungsszenarien konzentriert, ebenfalls sehr beliebt.

Hinter all dem befindet sich die Iteration von Textmodellen in einer Phase mit einer relativ hohen Basislinie und kleinen Schritten vorwärts, während die Fähigkeiten der multimodalen Verständnis und Generierung in Bezug auf die Anwendbarkeit einen Schritt näher an der "Brechung des Kreises" sind.

Ein Forscher, der sich mit Modelltraining befasst, sagte einem Reporter von Jiemian News, dass man, um dieses Phänomen zu verstehen, zuerst verstehen muss, dass die Forschung in den beiden Richtungen Text und Multimodalität parallel und nicht seriell verläuft.

Nach wichtigen Meilensteinen wie GPT-3, GPT-4 und OpenAI o1 ist die Sprachverständnisfähigkeit von Großmodellen ausreichend, um C-End-Anwendungen (Benutzer) zu liefern. Die anschließende Optimierung konzentriert sich auf stabile Projekte, wie z. B. Alignment, Kostensenkung, Latenzoptimierung, Robustheit usw. Dies kann die Anwendungsumgebung für C-End-Benutzer und den kommerziellen Wert für B-End (Unternehmen) weiter verbessern, aber die Benutzer spüren nicht mehr den starken Schock wie bei der Ankunft von GPT-4.

Ein typisches Beispiel ist DeepSeek-OCR. Dies ist ein Demo, das nicht genug Aufsehen erregt, aber langfristig Einfluss hat.

DeepSeek-OCR wurde am 20. Oktober vorgestellt und zielt auf die Erforschung der visuellen Kompressionsfähigkeit von Text (Optische Kontextkompression, Contexts Optical Compression) ab. Einfach ausgedrückt, steigt die Rechenmenge des Modells quadratisch mit zunehmender Eingabe von Kontexten, aber durch die Umwandlung von Langtext in Bilderkennung kann die Anzahl der Token-Berechnungen erheblich reduziert werden. Das Ergebnis der Validierung dieses Konzepts ist, dass es, wenn es in die Anwendungen umgesetzt wird, auch eine ziemlich vielversprechende Möglichkeit zur Kostensenkung und Effizienzsteigerung ist.

Die Situation auf der multimodalen Seite ist völlig anders. Die Fähigkeitskurve befindet sich immer noch in einem Bereich, der von mehr Menschen wahrgenommen werden kann. Der zuvor erwähnte Befragte sagte jedoch, dass aus der parallelen Perspektive der multimodalen Modelle noch keine Architektursprünge erzielt wurden, sondern es eher um ausreichende Datensammlung und Verbesserung der Trainingsmethoden geht.

Quelle: Jiemian News

Wie er über Sora 2 und Nano Banana urteilt, haben diese beiden Produkte, abgesehen von OpenAIs ersten Vorstellungen über multimodale Generierungsprodukte und Googles Erfassung der aktuellen Benutzerbedürfnisse von Bildeditoren (z. B. gezielte Änderungen an einem bestimmten Punkt), keine Sprünge in der Generierungsqualität erzielt.

Außerdem hängt die Verbesserung der Leistung im Bereich der multimodalen Generierung, repräsentiert durch "Text-zu-Bild" und "Text-zu-Video", weitgehend von der Verbesserung der Leistung von Textmodellen ab. Jiang Daxin, Gründer und CEO von Jiexing Xingchen, sagte in einem Interview mit einem Reporter von Jiemian News, dass die Beziehung zwischen Verständnis und Generierung darin besteht, dass Verständnis die Generierung steuert und die Generierung das Verständnis überwacht.

Der Primärmarkt zeugt ebenfalls von dieser Verschiebung des Fokus. Ein KI-Anleger sagte einem Reporter von Jiemian News, dass er spürt, dass die Anzahl der Investitionen in der Branche in diesem Jahr insgesamt gestiegen ist, aber die Investitionsvolumen gesunken sind. Dies wird von der Marktgröße und der Unternehmensbewertung nach der Übergabe des Investitionsfokus von der Modellschicht zur Anwendungsschicht bestimmt.

Darunter war das auffälligste Investment in diesem Jahr LiblibAI aus dem Bereich der visuellen Gestaltung der Anwendungsschicht. Am 23. Oktober gab LiblibAI bekannt, dass es eine Serie-B-Finanzierung in Höhe von 130 Millionen US-Dollar abgeschlossen hat. Sequoia China, CMC Capital und andere beteiligten sich daran, was die größte Finanzierung im Bereich der KI-Anwendungen auf dem chinesischen Kapitalmarkt in diesem Jahr bewirkte. Dies bedeutet, dass das PMF (Produkt-Markt-Passgenauigkeit) des Teams im Vergleich zu anderen Branchen stärker von den Investoren anerkannt wird.

In den kommenden Jahren werden die "Brennpunkte" in der Branche möglicherweise mehr aus dem multimodalen Bereich stammen.

Jiang Daxin betont immer, dass nur sprachliche Intelligenz nicht genug ist, und die Multimodalität ist der unvermeidliche Weg für Großmodelle. In diesem Bereich ist die Einheit von Verständnis und Generierung immer noch der Durchbruchspunkt.

Mehrere Befragte sagten einem Reporter von Jiemian News, dass aus Sicht des Modelltrainings die visuellen Modalitäten größere Herausforderungen als die Textmodalitäten haben. Nur von den Daten her kann die Repräsentation von Texten semantisch geschlossen sein, aber die Repräsentation von visuellen Informationen muss zuerst mit Texten übereinstimmen, und es gibt keine natürlich geschlossenen Daten. "Vielleicht braucht es einige große technologische Veränderungen wie ChatGPT und das Paradigma des verstärkten Lernens, um dieses Problem zu lösen", sagte ein Befragter.

Eine Meinung ist, dass auf der Grundlage besserer multimodaler Modelle Weltmodelle, Embodied Intelligence, Raumintelligenz usw. weiterentwickelt werden können, und die Branche kann sich näher an der AGI (Allgemeine Künstliche Intelligenz) befinden.

Eine realistischere Überlegung ist, dass das Modell die Obergrenze der Anwendungsfähigkeit bestimmt. Während die Textmodelle sich auf die Kostensenkung und die langsame Verbesserung der Leistung konzentrieren, können die Durchbrüche von multimodalen Modellen dem Markt mehr PMF-Möglichkeiten bieten, was für Unternehmer und Anleger eine praktisch wertvolle Änderung ist.

Dieser Artikel stammt von "Jiemian News", Reporter: Wu Yangyu, Redakteur: Wen Shuqi, veröffentlicht von 36 Kr mit Genehmigung.