Eine riesige Finanzierung von 300 Millionen US-Dollar. Das neue AI-Video-Unicorn Aish Technology ist dabei, das Rennen um das "Echtzeit-Weltmodell" zu eröffnen.
Der Wettlauf im Bereich der KI-Videoerstellung hat die Anfangsphase überschritten, in der es darum ging, wer längere und realistischere Videos generieren kann, und tritt nun in die Phase der Echtzeitinteraktion und der Simulation realer physikalischer Gesetze über.
An diesem wichtigen Punkt hat ein chinesisches Start-up, das vor weniger als drei Jahren gegründet wurde, den Sprung nach vorne gemacht und sich dabei auch die größte Finanzierung im Bereich sichergestellt.
Es ist bekannt, dass das chinesische Star-Start-up Aishi Technology kürzlich eine Serie-C-Finanzierung in Höhe von 300 Millionen US-Dollar (etwa 2,06 Milliarden Yuan) abgeschlossen hat. Diese Finanzierung wurde von der CDH Hong Kong Fund, CDH VGC und CDH Baifu angeführt. Industrielle Investoren wie China Ruyi und 37 Interactive Entertainment sowie bekannte Investmentinstitute wie Yizhuang Guotou, Zhongwei Capital, Guotai Junan Innovation Investment, Suzhou Venture Capital Group, Suzhou Zhuopu, Huakong Fund, Fosun RZ Capital und Suzhou Yihe nahmen ebenfalls an der Finanzierung teil.
Darüber hinaus beteiligten sich auch mehrere weltweit bekannte Investmentinstitute, darunter UOB Venture Management, der Lion X-Fonds im Ökosystem von OCBC, der 3W Fund, Antler, EnvisionX Capital und iGlobe Partners, an der Investition.
Im Bereich der KI-Videoerstellung ist die Finanzierung von Aishi Technology nach der Serie-E-Finanzierung von Runway im vergangenen Monat mit 315 Millionen US-Dollar die zweitgrößte bis dato.
Im Jahr 2026 beschleunigt sich die technologische Entwicklung im Bereich der KI-Videoerstellung weiter. Vor dem chinesischen Neujahr hat OpenAI eine wichtige Aktualisierung der Modellfähigkeiten von Sora 2 vorgenommen. Kuaishou's Keling 3.0 hat die "kinostarke" Erzählfähigkeit verbreitet, und ByteDance's Seedance 2.0 hat sich schnell in der Öffentlichkeit etabliert und eine breite Diskussion über die kreative Revolution ausgelöst. Die Spitzentechnologien im Bereich der Videoerstellung scheinen dem praktischen Einsatz nur noch einen Schritt entfernt zu sein.
Im Zuge dieser Entwicklung hat Aishi Technology in Bezug auf technische Stärke, Kommerzialisierung und Finanzierungsrhythmus die Spitze behalten.
Weniger als drei Jahre: Vom Null zum Unicorn
Wenn man sagt, dass der Bereich der KI-Videoerstellung zuvor noch in der Testphase des "Hunderte-Modelle-Kampfes" war, dann hat die jüngst angekündigte Finanzierung von Aishi Technology offiziell die Etablierung der Spitzenposition bestätigt.
In der derzeitigen, insgesamt eher vorsichtigen Primärmarktumgebung hat diese Finanzierung den Rekord für die größte Einzelfinanzierung im chinesischen KI-Video-Bereich gebrochen und ist ein "Vertrauensvotum" des Kapitalmarktes für die KI-Videoerstellung.
Was noch bemerkenswerter ist, hat Aishi Technology diese Finanzierung in nur drei Jahren erreicht und sich von einem Start-up zum Unicorn entwickelt.
Seit seiner Gründung im April 2023 hat Aishi Technology eine sehr schnelle Finanzierungsgeschwindigkeit aufrechterhalten, und in jeder Runde waren Spitzeninstitute beteiligt - von der Serie-A-Finanzierung mit Ant Group und Fortune Capital über die Serie-B-Finanzierung mit Alibaba bis zur Serie-C-Finanzierung mit CDH. Dies zeigt nicht nur, dass das Unternehmen eine schnelle Expansion vorantreibt, sondern auch, dass das Kapital bereit ist, für die Erweiterung des KI-Modells und das exponentielle Wachstum der Inferenzanforderungen zu zahlen.
Zusammen mit den zuvor über 800 Millionen Yuan an Finanzierungen hat Aishi Technology nach dieser Runde die kumulative Finanzierung auf fast 3 Milliarden Yuan gebracht und hat sich unumstritten in die "Unicorn"-Gruppe eingeschrieben und in der Spitzengruppe der KI-Videoerstellung einen festen Platz erobert.
Zur gleichen Zeit haben wir in der neuen Finanzierungsrunde auch die Trends und Richtungen der industriellen Umsetzung erkannt. Die Beteiligung von China Ruyi und 37 Interactive Entertainment an der Liste der Investoren zeigt, dass die Finanzierungslogik von der reinen "Kauf von GPUs" zur "tiefen industriellen Bindung" übergegangen ist.
In naher Zukunft wird die KI-Videoerstellung wahrscheinlich schnell in die Film- und Spieleindustrie integriert werden. In einer Zeit der schnellen technologischen Entwicklung bringen industrielle Investoren reale Anwendungsfälle ein und treiben die KI-Großmodelle weiter voran.
Die 300 Millionen US-Dollar an Finanzierungsmitteln bedeuten nicht nur, dass Aishi Technology die hohen Rechenleistungskosten für die Training von Großmodellen und die skalierte Inferenz leichter bewältigen kann, sondern auch, dass die Content-Industrie am unteren Ende der Wertschöpfungskette beschleunigt die Geschäftslogik der "Kostensenkung und Effizienzsteigerung sowie der Verbesserung der Benutzererfahrung durch KI" umsetzt.
Xuzhang Xie, Mitbegründer von Aishi, hat angegeben, dass er die Finanzierung nutzen möchte, um die Forschung und Entwicklung fortzusetzen, neue Geschäftsmodelle zu erkunden und den globalen Markt auszubauen. In der Vergangenheit hat Aishi Technology nur etwa 10 % der Trainingskosten für Modelle gleicher Klasse im Vergleich zu Wettbewerbern aufgewendet, und in diesem Jahr möchte er den Investitionsbetrag um ein Vielfaches erhöhen.
Von der Konkurrenz mit Sora zum Vorsprung im Bereich des "Echtzeit-Weltmodells"
Technisch gesehen ist die Entwicklung der KI-Videoerstellung im Laufe der Zeit eine Revolution, in der Rechenleistung und Architektur sich gegenseitig beeinflussen und vorantreiben.
Vor dem Aufstieg der Großmodelle basierte die Bildgenerierung hauptsächlich auf GAN (Generative Adversarial Networks) und Diffusionsmodellen. Damals hatten KI-Videos zwar beeindruckende Einzelbilder oder stilisierte Renderings, aber bei der zeitlichen Kohärenz, der Einhaltung physikalischer Gesetze und der Erstellung längerer Videos kamen sie auf Schwierigkeiten und konnten sich nicht von dem Image eines "Spiels" lösen.
Der echte Durchbruch kam mit der Einführung der DiT (Diffusion Transformer)-Architektur. Als OpenAI Sora veröffentlichte, erkannte die Branche, dass die Kombination der starken Skalierbarkeit des Transformers mit Diffusionsmodellen der richtige Weg zu hochwertigen, langfristigen Videos ist. Seitdem hat der Bereich der KI-Videoerstellung seinen "GPT-Moment" erlebt, und der "Hunderte-Modelle-Kampf" hat weltweit begonnen.
Im Jahr 2026 wird die Erstellung von Videos mit hoher Konsistenz und die Echtzeitgenerierung zu einem Trend, und die Erforschung von Weltmodellen entwickelt sich von einer Konsensbildung zu einem technischen Ansatz.
Als eines der ersten chinesischen KI-Start-ups, das sich an Sora orientiert, hat Aishi Technology auf diesem steilen technologischen Weg seinen eigenen Weg eingeschlagen.
In der globalen Landschaft des KI-Videoerstellungsspektrums gehört Aishi Technology zu den "Spitzenakteuren". Gegenüber ausländischen Anbietern wie Runway und Pika sowie vielen chinesischen Großunternehmen hat Aishi Technology nicht nur bei der Entwicklung der unterliegenden Großmodellarchitektur keine Schritt zurückgeworfen, sondern hat auch durch die frühe Umsetzung eines universellen Echtzeit-Weltmodells die Spitze in der Erforschung von Spitzentechnologien übernommen.
In weniger als drei Jahren hat Aishi Technology seine eigenentwickelten Modelle der PixVerse-Serie mehrmals aktualisiert. Das im September letzten Jahres veröffentlichte PixVerse V5 belegte in autoritativen Ranglisten für die Videoerstellung aus Bildern und Texten zeitweise den zweiten Platz.
Nach Angaben von Aishi Technology zeichnet sich PixVerse V5 in der Modellstruktur durch zwei Highlights aus: Es hat einen Tokenizer speziell für die Video- und Bildgenerierung trainiert, der bei hohem Kompressionsverhältnis dennoch eine hervorragende Rekonstruktionsqualität und Generierungsergebnisse gewährleistet. Durch eine adaptive Attention-Struktur erreicht das Modell ein dynamisches Gleichgewicht zwischen Rechenaufwand und Aufmerksamkeitsgenauigkeit. Dadurch kann es nicht nur die Rechenkosten effektiv senken, sondern auch bei gleichbleibender Inferenzgeschwindigkeit größere Skalierungsmöglichkeiten bieten und seine Anpassungsfähigkeit deutlich verbessern.
In der neuesten Rangliste vom Ende Februar hat die neueste Version PixVerse V5.6 weiterhin die ersten beiden Plätze in den Bereichen der Videoerstellung aus Bildern und Texten belegt und ist eines der am besten abschneidenden chinesischen Modelle in der Rangliste.
Am 13. Januar dieses Jahres hat Aishi Technology sein neues Modell PixVerse R1 vorgestellt. Als weltweit erstes universelles Echtzeit-Weltmodell, das 1080P-Auflösung unterstützt, markiert seine Entstehung den Übergang der KI-Videotechnologie von der traditionellen "Vorratsaufzeichnung" (asynchrone Rendering, Wartezeit auf das fertige Video) zur "Echtzeitdynamischen Generierung".
Technisch gesehen basiert PixVerse R1 nicht vollständig auf dem traditionellen Einmal-Rendering-Pfad, sondern hat eine vollständig end-to-end-nativ-multimodale Basisarchitektur entwickelt, die drei Kerntechnologien neu definiert.
PixVerse R1 basiert auf dem nativ multimodalen Basis-Modell Omni, das verschiedene Modalitäten (Text, Bild, Video, Audio) in einen kontinuierlichen Token-Strom integriert und in einem einzigen Framework beliebige multimodale Eingaben verarbeiten kann. Omni wurde end-to-end und in nativer Auflösung trainiert und hat die inneren physikalischen Gesetze und Dynamiken der realen Welt internalisiert.
Im Gegensatz zu den herkömmlichen Diffusionsmethoden, die auf begrenzte Segmente beschränkt sind, integriert PixVerse-R1 ein autoregressives Modell, um unendliche, kontinuierliche visuelle Datenströme zu generieren, und kombiniert es mit einem Memory-Enhanced Attention-Mechanismus, um die physikalische Konsistenz der generierten Welt über einen langen Zeitraum zu gewährleisten.
Deshalb kann PixVerse-R1 nicht wie herkömmliche Tools warten, bis alle Frames eines Videos berechnet sind, sondern kann wie ein Strom die Frames direkt abspielen, während sie berechnet werden. Andererseits bleibt die Videoinhalte auch über einen langen Zeitraum hinweg physikalisch konsistent.
Die Echtzeit-1080p-Fähigkeit von PixVerse R1 basiert auf dem Instant Response Engine (IRE). Indem die Generierungsverzögerung auf ein extrem niedriges "instantanes" Niveau reduziert wird, müssen Benutzer nicht mehr passiv auf das "Öffnen der Schachtel" warten, sondern können während der Video-Wiedergabe jederzeit neue Befehle eingeben, und das Bild reagiert sofort und behält die physikalische Konsistenz bei.
Hinter dem Oberflächenkonzept der "Videoerstellung" hat PixVerse R1 das Ziel auf das "Weltmodell" (World Model) in der KI-Richtung gerichtet. Kürzlich haben Yann LeCun's AMI Labs und Li Feifei's World Labs jeweils über eine Finanzierung berichtet, und die weltweit führenden Technologiekräfte richten sich zunehmend auf das Weltmodell. In diesem Branchenkontext ist die native multimodale und autoregressive Strom-Generierung von PixVerse R1 im Wesentlichen nicht mehr das "Zeichnen von Bildern Frame für Frame", sondern das "Berechnen" und "Simulieren" der physikalischen Gesetze der realen Welt.
Durch die Architekturinnovation in der multimodalen Verarbeitung und der Echtzeitreaktion hat PixVerse R1 die begrenzten Traditionellen Videoworkflows überwunden und die Entwicklung der audiovisuellen Medienproduktion und -erfahrung vorangetrieben. Neben der Videoerstellung bietet das neue Modell auch die Rechenbasis für Anwendungen von KI-nativen Spielen bis hin zu komplexen industriellen Simulationen.
Eine Milliarde Nutzer, 40 Millionen US-Dollar ARR: Der geschlossene Geschäftszyklus der KI-Videoerstellung
Der Wettlauf um die technologische Umsetzung im Bereich der Videoerstellung wird zunehmend heftig. Die Fähigkeit, mit einer starken Technologie einen positiven Zyklus zwischen Community und Kommerzialisierung zu etablieren, ist ein seltenes Merkmal.
Im Vergleich zu Wettbewerbern wie Sora, Kuaishou Keling und ByteDance Jimeng richtet sich das von Aishi Technology angebotene Produkt PixVerse / Paiwo AI stärker an Endnutzer und zeichnet sich durch "Schnelligkeit, Einfachheit und kreative Kontrolle" aus. Hier können normale Nutzer, die noch nie Videos erstellt haben, eine native KI-Videoerstellungs- und -verteilungs-Erfahrung machen.
Laut Aishi Technology sind von den Milliarden von Menschen, die weltweit Videos anschauen, weniger als 10 % Videoersteller, und die restlichen 90 % haben ebenfalls das Bedürfnis, sich auszudrücken. KI kann ihnen helfen, kreative Personen zu werden.
Unter diesem Motto hat Aishi Technology seine App für einige Probleme optimiert:
PixVerse zeichnet sich durch eine sehr hohe Generierungsgeschwindigkeit aus und erfüllt die Nutzerbedürfnisse nach "Sofort-Erstellung".
Im Bereich der Konsistenz, der größte Herausforderung bei der Videoerstellung, hat Aishi Technology frühzeitig ein Personen-Konsistenz-Modell entwickelt, das die Identität von Charakteren präzise festlegt und gewährleistet, dass Personen in Videos in verschiedenen Szenen und Bewegungen in Aussehen und Kleidung hochgradig konsistent bleiben.
Funktionsmäßig unterstützt das Produkt die Generierung von Videos aus Text, Bildern und anderen Videos und ermöglicht es Nutzern, auf der Grundlage von aufgenommenen Materialien oder Filmausschnitten stilisierte Neuzeichnungen oder Verlängerungen zu generieren.
Um die Nutzungsschwelle zu senken, hat Aishi Technology in seiner App einen von einem Agenten angetriebenen kreativen Assistenten integriert. Normale Nutzer müssen keine komplexen Prompts kennen, sondern können mit der Unterstützung des Agenten mit einem Klick professionelle Videos generieren. Gleichzeitig hat die Community von Aishi einen globalen Ansatz, und die angebotenen Funktionen treffen genau die kulturellen Bedürfnisse von Nutzern in verschiedenen Regionen, was zu einer breiten Verbreitung von Inhalten führt.
Beispielsweise hat die Generierung von Bildern eines runden alten Mannes mit PixVerse nicht nur ein hochwertiges Endbild eines Handys, sondern auch eine beeindruckende Übergangsanimation erzeugt.
Seit der offiziellen Kommerzialisierung im November 2024 hat Aishi Technology in weniger als einem Jahr ein mehr als zehnfaches Wachstum des Ums