Der Videomacher "Cursor": Anijam revolutioniert den Animationserstellungsprozess

Die Videowiedergabe wandelt sich von der Bedienung eines Tools zu einem Dialog zwischen Menschen und Agenten.

Text | Liang Jianqiang

Redaktion | Wang Yuchan

Einführung in einem Satz

Anijam ist ein AI-Video-Agent für die Animationserstellung, dessen Ziel ist, die Effizienz der Animationsproduktion mit geringeren Kosten zu erhöhen. Benutzer müssen nur natürliche Sprachhinweise eingeben, und die Schlüsselprozesse wie die Erstellung von Charakteren und die Storyboard-Entwurf können automatisch abgeschlossen werden.

Teamvorstellung

Gründer und CTO Wang Jue hat Bachelor- und Master-Abschlüsse von der Tsinghua-Universität sowie einen Doktorgrad von der University of Washington in den USA erworben. Von 2020 bis 2023 war er herausragender Wissenschaftler bei Tencent und Direktor des Visuellen Rechenzentrums des AI Lab. Er trägt den Titel IEEE Fellow. Von 2017 bis 2019 war er Direktor des US-Forschungszentrums von Megvii, und von 2007 bis 2017 war er Chefwissenschaftler bei Adobe.

CEO Fang Chen hat seinen Doktorgrad an der Ivy League Universität Dartmouth College in den USA erworben. Er hat zuvor bei Adobe Research, dem North America AI Lab von ByteDance und Tencent gearbeitet und verfügt über umfassende Erfahrungen von der technologischen Forschung und Entwicklung bis zur Produktumsetzung. Seine Ergebnisse wurden bereits in Produkten wie Photoshop, Lightroom, Douyin und WeChat weit verbreitet eingesetzt.

Finanzierungsfortschritt

Es wurde bereits eine Finanzierung im Millionen-Dollar-Bereich abgeschlossen. Die Investoren umfassen Miracle Plus, Atypical Ventures und Yuanjing Capital.

Produkt und Geschäft

Die zentrale Positionierung von Anijam ist es, einen AI-Video-Agent für Videokünstler zu schaffen, ähnlich wie "Cursor" im Bereich der Programmierung. Genau wie Cursor, ein AI-Programmierungstool, Anforderungen verstehen und bei der Erfüllung von Entwicklungstasks helfen kann, möchte Anijam auch die Videoproduktion in Richtung "AI-gesteuerte Generierung" bringen und Künstlern bei der Erstellung von Charakteren und Storyboards helfen.

Die Videoproduktion ist im Wesentlichen eine professionelle Arbeit mit hohem Eintrittsschwellen und einem langen Prozess. Ein vollständiges Video erfordert von der frühen Phase der Skriptentwicklung, Charakterdefinition und Storyboard-Aufteilung über die mittlere Phase der Kameradrehplanung, Bewegungsübergänge und Bildstilsynchronisierung bis zur späten Phase der Montage, Synchronisation und Rhythmusanpassung ein systematisches Erstellungskonzept und professionelle Fähigkeiten.

Obwohl AI die Videogenerierung einfacher macht, liegt die eigentliche Schwierigkeit für die meisten Menschen nicht in der Generierung, sondern darin, wie man eine Erzählung aufbaut, die Kamerasprache gestaltet und alles zu einem klaren und guten Video zusammenfügt.

Fang Chen ist der Meinung, dass die großen AI-Modelle von führenden Unternehmen dominiert werden, und die Chancen liegen darin, das Problem der unkontrollierbaren und schwer modifizierbaren generierten Inhalte zu lösen.

Basierend auf dieser Einschätzung hat das Produkt den Videoproduktionsprozess neu aufgeteilt. Anijam integriert durch AI den ursprünglich getrennten und komplexen Erstellungsprozess, sodass Benutzer durch einfachere Interaktionen eine vollständige Videoproduktion abgeschlossen werden können.

Anijam integriert im Hintergrund mehrere Drittanbieter-Großmodelle und hat Optimierungen bei der Agent-Prozessplanung, den Nachbearbeitungsalgorithmen und der Benutzererfahrung vorgenommen.

Benutzer müssen nur einen natürlichen Sprachsatz eingeben, z. B. "Erstelle ein Video über Sun Wukong, der die Weiße Knochengeister dreimal schlägt", und das System wird automatisch den gesamten Prozess von der Generierung des Storyoutlines, der visuellen Konzeptentwicklung bis zur Storyboard-Skriptaufteilung, der Erstellung von Schlüsselbildern, der Produktion von Videosegmenten und der endgültigen Synthese abgeschlossen.

Der gesamte Prozess basiert auf einer Leinwand als Trägerform, und Benutzer können in jedem beliebigen Schritt eingreifen und ändern. Beispielsweise können sie den Stil ändern, Charakterdefinitionen hinzufügen oder entfernen oder die Kameradetails optimieren.

Während dieses Prozesses erkennt das System automatisch die Schlüssellemente in der Geschichte, einschließlich Charaktere, Szenen, Gegenstände und Stil, und generiert auf dieser Grundlage ein komplettes Storyboard. Jedes Kamerabild enthält Informationen wie Szenenbeschreibung, Charakterzustand und Kamerasprache.

Die Künstler können nicht nur die ungefähren Effekte jedes Storyboard-Bildes sehen, sondern auch über natürliche Sprache Änderungen vornehmen, wie z. B. die Kameraperspektive anpassen, die Komposition ändern oder lokale Elemente ersetzen. Gleichzeitig generiert das System automatisch die Schlüsselbilder jedes Storyboard-Bildes und unterstützt die Vorschau und Änderung jedes einzelnen Kamerabildes.

Dies ist auch eine der Schlüsselfähigkeiten von Anijam, nämlich von der Kartenziehungsart der Videogenerierung zur "kontrollierbaren Bearbeitung" zu gelangen.

Die herkömmliche AI-Videogenerierung hängt oft von der wiederholten Generierung des gesamten Inhalts ab. Wenn man mit einem einzelnen Bild nicht zufrieden ist, muss man den gesamten Prozess von vorne beginnen. Anijam betont die "lokale Bearbeitbarkeit", z. B. kann man nur die Gesichtsausdrücke der Charaktere ändern, ohne die Bewegung oder den Hintergrund zu beeinflussen.

Anijam optimiert derzeit die AI-gesteuerte Videobearbeitungsfähigkeit - es unterstützt nicht nur die lokale Bearbeitung, sondern versucht auch, ein Selbstfeedback-Mechanismus für die AI zu erstellen. In Fang Chens Planung soll Anijam in Zukunft die AI dazu bringen, die Videogenerierungsergebnisse automatisch zu bewerten, als "Drittanbieter-AI-Regisseur" zu fungieren, die Qualität der von AI-Tools generierten Kamerabilder zu bewerten und den Generierungsprozess rückwärts zu optimieren, um durch "AI-leitet-AI" die Anzahl der manuellen Einstellungen zu reduzieren.

In Bezug auf die Produktform bietet Anijam sowohl eine Desktop- als auch eine Mobile-Version an. Die Web-Version bietet komplexere Erstellungs- und Bearbeitungsfunktionen und eignet sich für langwierige Produktionsprozesse. Die Mobile-Version basiert hauptsächlich auf einer dialogbasierten Interaktion, hat eine leichtere Benutzeroberfläche und ist für hochfrequente Inhaltsersteller geeignet. Das Team baut auch eine Künstlercommunity auf, in der hochwertige Inhalte als Vorlagen gespeichert werden, die von Benutzern wiederverwendet werden können.

Das aktuelle Produkt unterstützt die Generierung von Videos mit einer Länge von bis zu 5 bis 10 Minuten. Die genaue Dauer hängt von der Komplexität des Inhalts ab. Die Generierung eines etwa 2-minütigen Videos kann mehrere zehn Minuten bis eine Stunde dauern.

In Bezug auf das Geschäftsmodell verwendet das Produkt ein gestaffeltes Abonnementmodell, das verschiedene Intensitäten von Erstellungsbedürfnissen abdeckt und zwischen 25 und 60 US-Dollar liegt. Die Erhöhung des Preissegments entspricht im Wesentlichen der Differenz in der Rechenleistung und der Generierungsfähigkeit.

Mit der fortlaufenden Interaktion zwischen Benutzern und dem Agent sammelt das System eine große Menge von Daten im Zusammenhang mit der Erstellung, einschließlich Benutzerpräferenzen, Stilauswahl und Änderungspfaden. Diese Daten werden weiter strukturiert und in "Erstellungsmemory" umgewandelt und in den Agent eingebettet, sodass er allmählich individuelle Fähigkeiten entwickelt.

Was Anijam zu erreichen versucht, ist es, mit einem Satz die Erstellung zu starten, die Produktion mit AI abzuschließen und jeden einzelnen Bildinhalt kontrollierbar zu ändern, und gleichzeitig im fortlaufenden Gebrauch immer effizienter zu werden.

Denken des Gründers

Der AI-Video-Sektor befindet sich noch in der frühen Phase, und die Zeitfenster sind die Barriere

Der kontinuierliche Fortschritt der großen Video-Modelle ist ein sicherer Trend, der für alle am Markt beteiligten Akteure ein Gewinn ist. Der eigentliche Unterschied liegt nicht im Modell selbst, sondern in der Fähigkeitsentwicklung außerhalb des Modells, wie z. B. die Nachbearbeitungsfähigkeit, die Agent-Prozessplanung und wie man die generierten Inhalte nutzbar und modifizierbar macht. Im Vergleich zur reinen Modellaufrufung ist die Frage, wie man die generierten Inhalte nutzbar und modifizierbar macht, der Kern der Produktkonkurrenz.

Dieser Sektor befindet sich noch in der frühen Phase, das Produkt ist noch nicht perfekt und erfordert immer noch eine große Menge an Benutzerbearbeitung. In dieser Phase sollte man sich nicht so sehr um die Konkurrenz sorgen, sondern um die Effizienz. Man muss so schnell wie möglich auf den Markt kommen, Benutzer gewinnen und in der realen Nutzung Daten und Erkenntnisse sammeln.

Der Schlüssel für Startup-Unternehmen im Wettbewerb mit großen Unternehmen ist, früher loszulegen und Benutzerbindung und Datenspeicherung zu erreichen.

Wenn man sich die Entwicklung des Bildgenerierungsmarktes anschaut, wird es auch im Bereich der AI-Videos in Zukunft keine Monopolstellung geben, sondern mehrere Anbieter werden unterschiedliche Marktanteile beanspruchen. Die Marktstruktur könnte ausgeglichener sein, wobei jeder Anbieter einen Teil der Benutzer und Szenarien einnimmt, anstatt dass eine einzelne Plattform den Großteil der Marktanteile beherrscht.

Der Kern des Video-Agents liegt nicht nur in der Generierung guter Videos, sondern in der "Geschichtenerzählung"

Die Engpässe der aktuellen AI-Videos liegen nicht nur in der Bildgenerierungsfähigkeit, sondern in der Erzählfähigkeit.

Es ist an sich eine äußerst schwierige Aufgabe, dass das Modell in zwei Minuten eine vollständige Geschichte klar erzählt. Dies bedeutet, dass die eigentliche Herausforderung nicht in der Generierung einzelner Segmente liegt, sondern darin, wie man die Inhalte mit der Regisseursprache organisiert und die Geschichte des Benutzers erzählt.

Zukünftige Künstlertools werden nicht nur Funktionen bieten, sondern Partner der Künstlermacher werden. Mit der fortlaufenden Interaktion zwischen Künstlern und dem Agent sammelt das System Verhaltensdaten der Benutzer während des Erstellungsprozesses, einschließlich Präferenzen, Änderungsprinzipien und Erfahrungen. Der Agent kann allmählich die Absicht des Benutzers verstehen und sogar einige Erstellungsentscheidungen im Voraus treffen, und schließlich zu einer "digitalen Doppelgänger" mit Gedächtnis und Evolutionsfähigkeit werden.

Das Ziel von Anijam ist nicht nur, ein Tool zu sein, sondern eine Erstellungsplattform wie Adobe zu werden. Durch die technologische Umgestaltung des Erstellungsprozesses soll die Effizienz erhöht, der Eintrittsschwellen gesenkt und gleichzeitig eine größere Skala an Inhaltserstellung und Künstlermacher-Ökosystem unterstützt werden, sodass mehr Menschen an der Erstellung teilnehmen und daraus Wert schöpfen können.

AI wird die Gleichberechtigung in der Erstellung vorantreiben, aber die Aufmerksamkeit bleibt auf die Spitzeninhalte konzentriert

Mit der weiteren Verbesserung der Agent-Fähigkeiten wird die Videoproduktion allmählich von einem Prozess, in dem Menschen ständig Feedback geben müssen, zu einem automatisierteren Produktionsmodell übergehen. In Zukunft könnte es sogar vorkommen, dass "der Agent für den Menschen Feedback gibt". Benutzer müssen nur ihre Anforderungen stellen, und der Rest wird vom System selbstständig iteriert und optimiert.

AI senkt die Erstellungsschwellen und ermöglicht es mehr Menschen, an der Inhaltserstellung teilzunehmen. Ähnlich wie die Entstehung von Kurzvideo-Plattformen es Künstlern, die sonst nicht in die Kinos kommen könnten, ermöglicht hat, sich auszudrücken, ist dies ein Schritt in Richtung Gleichberechtigung in der Erstellung.

Allerdings wird die Aufmerksamkeitsverteilung nicht völlig gleichmäßig sein. Kinos und Kurzvideo-Plattformen ersetzen sich nicht, sondern erweitern die Kanäle. Die Spitzeninhalte werden weiterhin das Publikum und den kommerziellen Wert anziehen. Daher bringt AI nicht "Gleichmäßigkeit", sondern stärkt die Spitzenwirkung, während die Angebotsmenge erhöht wird.

Das Geschäftsmodell wird sich von "Verkauf von Rechenleistung" zu "Bezahlung nach Ergebnis" wandeln

Die gegenwärtigen Kosten für die Videogenerierung sind immer noch sehr hoch, aber mit der zunehmenden Nachfrage und dem technologischen Fortschritt werden die Preise allmählich sinken.

Einerseits wird die Massennachfrage die Kosten ständig senken; andererseits wird die Optimierung und Beschleunigung auf Modell-Ebene den Rechenleistungsverbrauch erheblich reduzieren. Beispielsweise kann durch die Optimierung der Architektur und die Hardwarekoordination der Generierungsprozess, der ursprünglich eine große Anzahl von Token erfordert, stark reduziert werden. Dies bedeutet, dass die Rechenressourcen, die für dasselbe Video benötigt werden, um Größenordnungen sinken können, was den gesamten Preis schnell senkt und die Verbreitung von AI-Videoanwendungen weiter vorantreibt.

Im Geschäftsmodell ist die gegenwärtige Abrechnungsweise, die auf der Rechenleistung basiert, im Wesentlichen eine vorübergehende Form. Mit der Reife der Technologie und der Kostenreduzierung wird es in Zukunft wahrscheinlicher sein, sich zu "Bezahlung nach Ergebnis" zu wenden - d. h. Benutzer zahlen erst für das endgültige Ergebnis, wenn sie mit dem AI-Video zufrieden sind und es herunterladen möchten, anstatt für den Token-Verbrauch während des Generierungsprozesses zu bezahlen.

Die Gültigkeit dieses Modells hängt davon ab, dass das Produkt ein Gleichgewicht zwischen Qualität, Kosten und Geschwindigkeit erreicht. Sobald die Generierungsergebnisse stabil und kontrollierbar genug sind, wird sich auch die Zahlungslogik der Benutzer ändern.

Von Animationskünstlern ausgehend, breite man den Kreis der Inhaltsersteller aus

Anijam hat sich entschieden, mit der Animation einzusteigen. Der Grund dafür ist, dass diese Gruppe bereits an den digitalen Erstellungsprozess gewöhnt ist und die Akzeptanz für AI-Tools höher ist. Im Vergleich zu Künstlern für Live-Aufnahmen ist die Migrationskosten geringer. Gleichzeitig haben diese Benutzer oft eine starke Neigung zur Erstellung und sind diejenigen, die am leichtesten in der frühen Phase aktiviert werden können.

Im Bereich der breiteren Benutzergruppe hat das Team beobachtet, dass es auf dem ausländischen Markt eine große Anzahl von "leicht aktiven Künstlern" gibt - darunter Nebenberufskünstler, Inhaltsliebhaber usw. Sie haben eine starke Neigung zur Inhaltserstellung und haben bereits eine erste Kommerzialisierung auf Plattformen wie YouTube und Instagram erreicht.

Fang Chen ist der

Dieser Artikel wurde ursprünglich von「晓曦」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.