StartseiteArtikel

Im Jahr 2024 wird kein großes Modell Tante Rong und Ziwei entkommen können | Fokusanalyse

咏仪2024-10-19 09:26
Gabelung, welchen Weg soll ich wählen?

Von | Deng Yongyi

Redaktion | Su Jianxun

Sogar Li Yanhong, der am eifrigsten an AI arbeitet, zögerte bei dieser Angelegenheit.

„Baidu wird keine Videos im Stil von Sora erstellen.“ sagte Li Yanhong kürzlich auf dem Q3-Meeting der Direktoren 2024. Der Grund liegt darin, dass es möglicherweise in zehn oder zwanzig Jahren nicht kommerziell anwendbar sein wird.

Seit dem plötzlichen Auftreten von OpenAI Sora und der vollständigen Veröffentlichung von Kuaishou's Keling im Juni ist die Videogenerierung zu einem der heißesten AI-Themen im Jahr 2024 geworden.

Unternehmen beginnen, sich gegenseitig zu überholen. Seit April sind Videoproduktionsmodelle wie Pilze nach dem Regen gewachsen - neben großen Unternehmen wie Kuaishou, ByteDance, und Alibaba haben führende Modellunternehmen wie Zhipu, MiniMax, sowie spezialisierte Anbieter wie Shengshu Technology und Zhixiang Future Videogenerierungsmodelle veröffentlicht.

Das Aufkommen von Videomodellen im Inland hat auch dazu geführt, dass die „Meme-Charaktere von Rong Mama und Ziwei" wieder populär geworden sind. Sie leben in verschiedenen Videomodell-Demos und benutzergenerierten Inhalten und testen die Effekte verschiedener Modelle:

△Bildquelle: Keling, aus dem öffentlichen Netzwerk 

△Bildquelle: JiMeng AI, Intelligente Darstellung 

Die Sehnsucht nach einer „Super-App“ ist offensichtlich und beeinflusst sogar die heutigen Routinen des großen Modells - ob Videomodelle erstellt werden oder nicht, ist eine entscheidende Entscheidung, die den Kurs der „Sechs Tiger der großen Modelle“ im Inland beeinflusst: Zhipu, Moon's Dark Side, MiniMax, Baichuan Intelligence, Jieshi Xingchen, und Lingyi Wahyu.

Allerdings gibt es unter den einheimischen Anbietern von großen Modellen noch keinen Konsens, sodass sie in völlig unterschiedliche Lager aufgeteilt sind:

Es gibt Unternehmen, die schnell nachziehen. Im Juli führte Zhipu ein Sora-ähnliches Videogenerierungsmodell „Zhipu Qingying“ ein. Im August veröffentlichte MiniMax das Videomodell Video-01.

Auf der Welt-Intelligent-Konferenz in Shanghai im Juli unternahm Jieshi Xingchen einige Versuche zur Videogenerierung.

Und es gibt klare Gegner. "Baichuan wird kein Sora machen." sagte Wang Xiaochuan, CEO von Baichuan Intelligence, in einem Interview mit "Intelligent Emergence" im Mai dieses Jahres. Er glaubt, dass Sora nicht zur AGI (Allgemeine Künstliche Intelligenz) gehört, die darauf abzielt, das Intelligenzniveau von Modellen zu erhöhen.

Andere Unternehmen, die nach der Erkundung vorübergehend pausiert haben. Moon's Dark Side, das im Juni von den Medien aufmerksam beobachtet wurde, testete zwei neue Anwendungen im Ausland – die Rollenspielanwendung Ohai und die AI-Musik-/Videogenerierungsanwendung Noisse. Laut "Intelligent Emergence" wurden diese beiden Anwendungen wegen unerwarteter Ergebnisse später nicht separat implementiert und verbleiben im Versuchsstatus.

Nach der Veröffentlichung der „Kimi Explorationsversion“ plant Moon's Dark Side, multimodale Fähigkeiten einzuführen. Ob dies Videogenerierungsfunktionen beinhalten wird, ist jedoch noch unklar.

Um den Tag der Nationalfeiertage herum traten zwei gewichtige Spieler in das Feld der Videogenerierung ein. Am 24. September stellte ByteDance leise die Produkte Seaweed und Pixeldance vor.

Und kurz darauf, am 5. Oktober, entzündete das von Meta veröffentlichte Serienmodell Movie Gen den Markt erneut.

△Bildunterschrift: In der ersten Jahreshälfte von 2024 sind weltweit viele Videomodelle und -produkte aufgetaucht, besonders in China ist es geschäftig.

Angesichts der Tatsache, dass sich die Weiterentwicklung von Sprachmodellen verlangsamt hat, scheint das Videogenierungsmodell die vielversprechendere neue Richtung für AI-Anwendungen zu sein - eine Monopolisierung durch große Unternehmen hat noch nicht stattgefunden. Für Startups ist dies eine wichtige Entscheidung - ob sie Sora machen sollen oder nicht.

Welche Weggabelung soll gewählt werden?

Zunächst müsste ein Konzept geklärt werden. Die „multimodalen Fähigkeiten“ (Bild, Stimme usw.), über die große Unternehmen und Startups heute im Allgemeinen verfügen, sowie Sora-ähnliche Videogenerierungsmodelle sind nicht dasselbe.

„Multimodale Fähigkeiten ermöglichen es dem Modell, Bilder, Audio, Video usw. zu verstehen, basieren aber immer noch auf den Fähigkeiten, die sich vom großen Sprachmodell ableiten.“ erklärte ein Praktiker des großen Modells gegenüber "Intelligent Emergence". „Bilder, Videos oder Audios in das große Modell einzugeben, bedeutet, auf der Basis des Sprachmodells 'Verständnis' zu generieren; die Generierung von Videos hingegen hängt von den Fähigkeiten des Videomodells ab.“

„Sora-ähnliche“ Produkte, die auf Videogenerierungsmodellen basieren, leihen sich technische Ansätze wie die Transformer-Architektur aus den großen Sprachmodellen (LLM), sind jedoch etwas anderes als LLMs.

Das bedeutet, dass der Bau eines Videogenerierungsmodells im Wesentlichen bedeutet, ein Modell von Grund auf neu zu entwickeln.

Es steht fest, dass die Erstellung eines Videogenerierungsmodells derzeit ein Spiel für nur wenige ist.

Die Nachbildung eines „Sora“ ist kostspielig.

Laut Meta wurden zum Trainieren von Movie Gen 6144 H100-GPUs verwendet, und die Parametergroße des Videomodells beträgt 30B (30 Milliarden). In China verfügt nur eine Handvoll von Unternehmen über solche Trainingsressourcen.

Bisher haben die meisten einheimischen großen Modellanbieter die multimodalen Fähigkeiten implementiert. Ob ein Videogenerierungsmodell entwickelt wird, bleibt jedoch unentschieden.

Für große Unternehmen, die im Bereich Kurzvideo tätig sind, wie Douyin und Kuaishou, ist die Videogenerierung ein unverzichtbarer Bereich. Laut Silicon Star ist ein wichtiger Antrieb für die Investitionen in Keling, den Inhalt der Kuaishou-Plattform zu unterstützen - im Jahr 2023 haben beispielsweise 138 Millionen Nutzer zum ersten Mal ein Kurzvideo auf Kuaishou veröffentlicht.

Außerdem zielt Kuaishou mit der Entwicklung von Keling darauf ab, das E-Commerce-Ökosystem von Kuaishou zu bedienen, indem es AI-Inhaltsgenerierungsdienste für MCN-Agenturen und E-Commerce-Händler bereitstellt.

Für Startups hingegen ist die Unsicherheit über den richtigen AI-Anwendungsbereich in der jetzigen Phase eine Herausforderung.

Einige Anbieter haben frühzeitig ihre Wahl getroffen. Das Unternehmen Baichuan, das schon von Beginn an entschieden hat, kein Sora zu machen, konzentriert sich im Jahr 2024 gezielt auf medizinische Anwendungen und lanciert ihren medizinischen AI-Assistenten.

Vertikale Anbieter, die sich auf die Videogenerierung spezialisiert haben, erreichen ebenfalls Etappenergebnisse, zum Beispiel Vidu von Shengshu Technology. Seit seiner Einführung im August erreichte Vidu einen monatlichen Besucherzuwachs von 5,52 Millionen innerhalb von zwei Monaten.

Doch ob sie die neue Geschichte zu ihrer eigenen machen können, hängt von der tatsächlichen Kompetenz jedes Unternehmens ab. Die technologische Richtung im Bereich der Videogenerierung hat sich noch nicht konsolidiert, und die Top-Videomodelle am Markt sind fast alle Closed-Source.

Das bedeutet, dass Anbieter tatsächlich beträchtliches Kapital für Trial-and-Error-Prozesse einsetzen müssen - die Wahl der richtigen technologischen Richtung und der Anwendungsbereiche wird entscheiden, wer nach dem Rückgang der AGI-Welle tatsächlich an Land bleibt.

Ist der Text zu anspruchsvoll, die Agenten zu fern und die Videogenerierung gerade richtig?

OpenAI hat Sora noch nicht freigegeben, warum ist die Videogenerierung nun der Renner in China?

Anhand von GPT-4 als Benchmark haben die führenden Anbieter großer Modelle in China in der ersten Hälfte dieses Jahres allmählich das Niveau von GPT-4 erreicht. Nach der Veröffentlichung von GPT-4o durch OpenAI haben sie nach und nach multimodale Fähigkeiten integriert.

Aber ein GPT-5 lässt auf sich warten, was bedeutet, dass die chinesischen Modellanbieter im Sprachmodellbereich schwerlich Generationsunterschiede schaffen können.

Auf der anderen Seite hat sich das große Modell, mehr als ein Jahr nach dem Einsatz, in Bezug auf Umsetzung und Kommerzialisierung noch nicht in dem Maße bewährt, das den Markt überzeugt.

Im Inland leiden die meisten AI-Anwendungsbereiche unter geringer Marktgängigkeit. Betrachten wir die in den letzten zwei Jahren angesagten AI-Anwendungsbereiche – ChatBot/Emotionale Begleitung und ChatGPT-ähnliche Produkte, Text-zu-Bild-Generierung, AI-Musik, AI-Suche – sie alle sind schnell in homogenisierten Wettbewerb geraten.

Ein Beispiel für führende AI-Anwendungen in China ist Dubao und Kimi. Beide erlebten in der ersten Hälfte dieses Jahres einen intensiven Anzeigenkampf, und die Nutzerzahlen erreichten ein Millionen-Niveau, aber kommerziell waren die Ergebnisse nicht zufriedenstellend.

Viele Branchenvertreter sind der Meinung, dass das Scheitern der Kommerzialisierung stark darauf zurückzuführen ist, dass sich die Iteration von Textmodellen verlangsamt und die Fähigkeitserweiterung ins Stocken gerät. Dies macht einige weiter entfernte, komplexere Aufgaben wie Agenten (intelligente Agenten) noch schwerer greifbar.

Ein Beispiel aus „Intelligent Emergence“ besagt, dass die Agentenoperationen der AI-Entwicklungsplattform von Byte, Douyin's Kuko, schon in diesem Jahr reduziert wurden.

Die jüngsten Debatten über den Verzicht auf die Vortrainierungsphase großer Modelle deuten darauf hin, dass sich einige Anbieter von der Streben-Plattform zurückziehen müssen, um sich auf die Implementierung von AI-Anwendungen zu konzentrieren, um das Überleben zu sichern.

Unternehmen brauchen eine neue Geschichte, und die Richtung der Videogenerierung steht genau an diesem Scheidepunkt: Es erfordert genügend Technologie und Entwicklungshürde, ist aber nicht unüberwindbar und die Perspektiven sind groß genug.

„Die Kommerzialisierung des Sprachmodells lasse ich außen vor. Startups brauchen zumindest Imagination. Wenn führende Startups keinen Kurswechsel zu anderen Anwendungsrichtungen vornehmen, haben sie nichts in der Hand, um so hohe Bewertungen zu rechtfertigen,“ sagte ein Branchenvertreter.

Viele Unternehmer im Bereich der Videogenerierung berichteten „Intelligent Emergence“ im Jahr 2023, dass das Feld der Videogenerierung derzeit mit der Phase zwischen GPT-2 und GPT-3 gleichzusetzen sei – das bedeutet, es fällt ein wenig hinter die Wirkung von ChatGPT zurück, aber es ist viel weiter fortgeschritten als das aktuelle Entwicklungsstadium von Sprachmodellen.

Doch bei Veröffentlichung von Sora wurde im Bereich der Videogenerierung bereits ein Lichtblick von GPT-3.5 sichtbar. „Diese Phase zeigt dir das enorme Potenzial dieses Bereichs und der Markt ist bereit zu investieren.“ bemerkte ein Brancheninsider gegenüber „Intelligent Emergence“.

Hinter den schwankenden Konsensvorstellungen steckt die Tatsache, dass der Bereich sich noch in einem frühen Entwicklungsstadium befindet und viele Erkundungsmöglichkeiten bietet. Ein Beispiel ist das gerade veröffentlichte Meta Movie Gen. Es basiert auf der Transformer-Architektur, aber nutzt die Flow Matching-Technologie, was sich stark von Sora unterscheidet und bedeutet, dass sich die technologische Richtung in diesem Bereich noch nicht verfestigt hat.

In China gibt es in dieser Richtung zudem ein überlegenes Ökosystem für Kurzvideos, das die Modellentwicklung im Bereich der Videogenerierung in die weltweite Vorreiterrolle bringt.

Ein typisches Beispiel ist das im Juni populäre Videomodell „Keling“ von Kuaishou - in der Welt der großen Unternehmen ist Kuaishou nicht das Zentrum für AI-Talente und -Ressourcen, aber in wenigen Monaten schaffte es das kleine Team von knapp über 20 Personen, das Kuaishou Keling entwickelte, die sich gegen die großen Modellanbieter durchsetzte, indem es mit nostalgischen Fotos und einer Reihe von Kampagnen den Durchbruch schaffte. Die Popularität erreichte sogar das Silicon Valley jenseits des Ozeans.

△Der Gründer von Stability.ai teilt das Keling-Produkt mit dem Kommentar „China hat einen enormen Vorteil in der KI“ Quelle: X

Darüber hinaus befindet sich die Richtung der Videogenerierung noch in der frühen Phase, und die Kosten für Rechenleistung sind noch hoch. Sobald die Kommerzialisierung beginnt, wird die Zahlung zur Pflicht.

Im Ausland gehen die Wege der Videogenerierung auseinander – führende Videoanbieter wie Runway und Pika konzentrieren sich darauf, Produktivitätswerkzeuge für B2B bereitzustellen. Runway hat sogar Hollywood erreicht und zahlreiche Kooperationen in der Filmbranche abgeschlossen. Im Inland haben Anbieter wie Keling und Minimax ebenfalls frühzeitig mit kostenpflichtigen Modellen experimentiert.

Am Ende wollen nur wenige diesen Bereich verpassen. Schließlich hat Video Text bereits ersetzt, um den höchsten Anteil an Informationsinhalten im Internet zu bilden. Laut dem Global Internet Phenomena Report 2023 von Sandvine erreichten die Video-Streaming-Dienste im Jahr 2022 65,93 % des gesamten Internet-Traffics.

Mit der kontinuierlichen Reifung der Videogenerierungstechnologie könnte es nicht mehr nur ein Spiel der großen Unternehmen sein. Startups können Technologie mit cleveren Betriebsansätzen kombinieren, um schnell ihren eigenen Weg zu gehen.

△Quelle: Pika

Das Startup Pika, ein Star in der Videogenerierung im Silicon Valley, hat viele Verkehrsgeheimnisse entdeckt: Es begann mit dem Betrieb auf dem Entwicklerzentrierten Discord und gewann schnell 500.000 Nutzer.

Im Oktober dieses Jahres brachte Pika mit dem neuen Modell 1.5 auch mehr soziale Betriebsmodi mit: Es enthielt Templates für Aufblasen, Schmelzen, Explodieren, Kneten und Plattdrücken, was globale Nutzer dazu veranlasste, kreativ zu sein, was sogar zum Absturz des Servers führte, da zu viele Nutzer hineinströmten – manche Benutzer fühlten sich an die frühen Tage des kalten Starts von TikTok erinnert.

Dieser Artikel stammt von dem WeChat-Öffentlichen Konto „Intelligent Emergence“, Autor: Deng Yongyi, von 36Kr lizenziert veröffentlicht.