36氪_让一部分人先看到未来

"Im Bereich der Videoerzeugung haben wir keinen Rückstand gegenüber OpenAI."

Text｜Deng Yongyi

Bearbeitung｜Su Jianxun

Exklusiv von „Intelligente Entfaltung” erfahren: Aishi Technology hat kürzlich offiziell die Finanzierungsrunden A2-A4 abgeschlossen, mit einer Gesamtsumme von fast 300 Millionen RMB. Die Investoren umfassen die Ant Group, den Beijing Artificial Intelligence Industry Investment Fund, Kexin Investment und Light Source Capital.

Ende 2024, kurz vor dem einjährigen Jubiläum von OpenAIs Sora: Wie geht es Chinas Startup-Unternehmen für Videogenerierung?

Im Gespräch mit „Intelligente Entfaltung” sagte Aishi-Technologie-Gründer Wang Changhu gelassen: „Zumindest haben wir die zuvor gesetzten Ziele erreicht.”

Anfang 2024, nach der Veröffentlichung der Sora-Vorschau, schätzte Wang Changhu, dass sie in 3 bis 6 Monaten mit Soras aktuellem Niveau mithalten könnten.

Im Dezember hat Sora schließlich seinen offiziellen Start erlebt. Trotz der innovativen Funktionen in Produkt und Interaktion, ist die allgemeine Marktmeinung, dass Sora nicht so beeindruckend ist wie erwartet.

Zum Beispiel belegte Aishi Technologies Hauptprodukt PixVerse im SuperClue-Test im November und Dezember den ersten Platz in der Kategorie „Text-to-Video”. Weltweit zählt PixVerse zu den Produkten der ersten Liga im Bereich der KI-Videogenerierung.

Nach fast zwei Jahren präsentierte Aishi Technology beeindruckende Ergebnisse: PixVerse, ihr KI-Video-Generierungs-Kernprodukt, erreichte im Januar 2024, dem ersten Monat nach dem Launch, über 1,2 Millionen Aufrufe. Zum Vergleich: Das in Silicon Valley ansässige Pika erreichte nach dem Launch in drei Monaten etwa 2 Millionen monatliche Aufrufe.

Ein Jahr später hat sich die Zahl erneut verändert: Die weltweite Anzahl der PixVerse-Nutzer übersteigt 12 Millionen, mit fast 6 Millionen monatlich aktiven Nutzern. Zudem generiert das Team mittlerweile skaliertes Einkommen.

Das schnelle Wachstum des Produkts ist auf viele Updates des zugrunde liegenden Videomodells zurückzuführen. Im Jahr 2024 führte Aishi Technology drei große Iterationen durch: Januar V1 des Videomodells, Juli V2, ein erstes Veröffentlichungen eines DiT-Architekturmodells in China, um Sora entgegenzutreten. In den Aspekten Klarheit, Konsistenz, physikalische Gesetze und Befehlssynchronisation hat PixVerse erheblich zugelegt.

Ende Oktober, nach der Einführung des neuesten V3-Modells, schuf PixVerse sogar einen viralen Trend in sozialen Medien - der „Venom”-Effekt, der auf TikTok, Douyin und Xiaohongshu über eine Milliarde Aufrufe erzielte. Mehrere Amateur-Blogger drehten Videos mit dem „Venom”-Effekt und erzielten über eine Million Aufrufe.

△Quelle: PixVerse

Der Erfolg des „Venom”-Effekts ist laut Wang Changhu eng mit der Modelfähigkeit von PixVerse verbunden. Im März 2024 veröffentlichte Aishi die weltweit erste Character2Video (Charakter-Konsistenz) Modell und verbesserte die Lösungen kontinuierlich. Durch präzise Identitätsbeschränkung im DiT-Generierungsprozess bleibt die Charakterdarstellung im Video konsistent mit dem Hintergrund, was die Benutzererfahrung erhöht.

Im vergangenen Jahr konzentrierten sich die Herausforderungen im Bereich generativer Videos nach wie vor auf Konsistenz, physikalische Gesetzmäßigkeiten und andere technische Schwierigkeiten. Wang Changhu gibt zu, dass die technologische Route in der Branche derzeit noch nicht konvergent ist.

Tatsächlich sind die Wahrnehmung und Erwartungen an KI-Videos in der Branche inzwischen realistischer geworden.

Zum Beispiel konnte Sora Anfang 2024 Videos von bis zu einer Minute Länge erzeugen, was Erwartungen an den Videogenerierungsmarkt weckte. Es ist jedoch zu beachten, dass Soras Demo nach mehrfacher Generierung entstand und bei der echten Verlängerung der Videolänge die Konsistenz, Klarheit usw. möglicherweise nicht überzeugen. Bei unzufriedenstellenden Ergebnissen tendierten Benutzer häufig dazu, „erneut generieren” zu klicken, was die Benutzererfahrung beeinträchtigte.

Derzeit liegt der Fokus im Bereich KI-Videos mehr auf Konsistenz, Klarheit, Bewegung als auf der Dauer.

„Man muss die wahren Bedürfnisse der Benutzer verstehen, um das Produkt zu entwickeln. Wir haben uns zufällig Filmszenen angesehen, um die Länge der Szenen zu prüfen, und festgestellt, dass sie meist nur etwa zehn Sekunden lang sind”, sagt Wang Changhu. Um Nutzererlebnis und Nutzbarkeit zu gewährleisten, ist das bloße Streben nach längeren Videos sinnlos.

△Quelle: PixVerse

In Bezug auf Dauer und Klarheit unterstützt PixVerse derzeit hochwertige generierte Videos innerhalb von 10 Sekunden mit einer Klarheit von bis zu 4K, ebenso wie bei kommerziellen Anwendungen. Im Vergleich zum Vorjahr, als die Industrie allgemein hochwertige KI-Videos innerhalb von 5 Sekunden und mit Klarheiten unter 1080p produzieren konnte.

PixVerse aktualisiert weiterhin Produkte und Modelle schnell - im November veröffentlichte PixVerse ein neues Feature, das Videoverlängerung durch eine hochgeladene Videoerweiterung durch Prompt oder Effektauswahl ermöglicht. Im Dezember befindet sich PixVerses neues Modell V3.5 in der Testphase, mit einer Video-Generierungszeit von unter 30 Sekunden und verbesserten Prompt- und Bewegungskontrollfähigkeiten, das demnächst offiziell veröffentlicht wird.

Tatsächlich zeigt sich im heutigen Bereich der KI-Videogenerierung eine deutliche Segmentierung. Während Unternehmen wie Pika und Runway hauptsächlich auf den B2B-Markt setzen, fokussiert sich Aishi Technologies seit der Gründung auf den breiten B2C-Markt. Im Dezember brachte PixVerse auch die internationale App-Version heraus.

Wang Changhus Vertrauen in den C2C-Markt stammt aus seiner früheren Arbeit bei ByteDance, wo er von Grund auf das visuelle Technikteam, die visuelle Algorithmusplattform sowie die Business-Middleware aufgebaut hat, die Douyin und TikTok unterstützt. Er sagt, Aishi Technologies Ziel ist es, es den Milliarden von täglichen Nutzern auf Kurzvideoplattformen zu ermöglichen, ohne Hürden die gewünschten Videos zu erstellen.

Diese Tendenz zeigt sich bereits. „Im letzten Jahr hat sich unser Einfluss von professionellen Kreatoren auf den C-Endnutzer ausgeweitet”, sagt Wang Changhu. Dies motivierte Aishi Technologies, die Hürden des Funktionsumfangs schnell zu senken - PixVerses baut bereits Dutzende von Effektvorlagen ein, wodurch Benutzer nur ein Bild hochladen müssen, um Videos zu generieren, ohne selbst einen Prompt einzufügen oder zu überlegen.

△Quelle: PixVerse

Im Jahr 2024 stellt sich für Startup-Unternehmen eine weitere große Herausforderung: Wie reagiert man auf den Vorstoß der Tech-Giganten? Bereits jetzt drängen viele Spieler in das Feld der KI-Video-Generierung, darunter Kuaishou, ByteDance, Alibaba und Tencent, die 2024 ihre entsprechenden KI-Videomodelle einführten.

Wang Changhu ist optimistisch. Trotz der schnellen Entwicklung bleibt die Videogenerierung derzeit im Stadium von GPT-2 zu GPT-3, wo es noch viele technische Herausforderungen gibt, die Chancen für Startups bieten. Zuvor hatte das Kernteam von Aishi Technology viele technische Probleme mit einem um den Faktor zehn kleineren Team als die Konkurrenz gelöst.

Im Produktspektrum ist die Videogenerierung näher am Benutzer als beispielsweise LLM (große Sprachmodelle), deren Iterationen oft Sprünge verursachen und viele Anwendungen übernehmen. Die technologische Entwicklung von Videomodellen ist jedoch gleichmäßiger - bei jeder technischen Iteration verbessert sich die Videoprodukterfahrung merklich, was Startups hilft, frühzeitig Marktfeedback zu erhalten und schnell einen kommerziellen Kreislauf aufzubauen.

Derzeit sinken auch die Kosten für Training und Inference, die früher große Aufmerksamkeit erhielten, rapide. Wang Changhu verrät, dass die Trainingskosten von Aishi jetzt bei einem Drittel oder sogar einem Zehntel vieler Mitbewerber liegen und er erwartet, dass die Kosten im nächsten Jahr noch rascher sinken. Aishi Technology plant, die Kommerzialisierung im nächsten Jahr zu beschleunigen und auf ein skaliertes Wachstum abzuzielen.

Titelseitenquelle｜Unternehmensoffizial‍‍

👇🏻 Scannen Sie den QR-Code, um der „Intelligente Entfaltung AI-Gruppe” beizutreten👇🏻

Willkommen zum Austausch

Dieser Artikel wurde von der WeChat-Public-Account „Intelligente Entfaltung”, Autor: Deng Yongyi, durch 36Kr veröffentlicht.

Dieser Artikel wurde ursprünglich von「咏仪」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

AI-Video-Startup "AI Poetry Technology" erhält fast 300 Millionen Yuan in A+ Finanzierungsrunde, weltweit über 12 Millionen Nutzer | Exklusiv von 36Kr