Von Kling bis Gemini: KI-Videos verabschieden sich kollektiv vom „Zufallsmodus“ – Werden Regie-Modelle der nächste große Trend?
Die Zeit des Kartenziehens neigt sich dem Ende zu.
In den letzten über einem Jahr kann unsere Wahrnehmung von KI-Videos eigentlich mit zwei Worten zusammengefasst werden: Kartenziehen. Man gibt einen Prompt ein, klickt auf „Generieren“ und wartet, während der Fortschrittsbalken läuft, bis das Modell einige Sekunden lang Bilder ausspuckt. Wenn das Ergebnis schön ist, behält man es; wenn nicht, ändert man die Wörter und versucht es erneut. Es kann tatsächlich beeindruckende Sequenzen produzieren, aber es gibt den Künstlern nie ein Material, mit dem sie weiterarbeiten können, sondern eher eine Karte, die man zieht und dann wegwirft, wenn man nicht das gewünschte Ergebnis erzielt.
Das Unangenehmste am Kartenziehen ist nicht, dass die Bilder nicht realistisch genug sind, sondern dass es nicht kontrollierbar ist. Sie möchten ein fertiges Video von neun von zehn Punkten, aber das Modell gibt Ihnen zehn Sequenzen, die jeweils sieben oder acht von zehn Punkten haben, aber nicht zusammenpassen. Sie können nicht mit dem Modell verhandeln, „Lassen Sie diesen Schuss unverändert und ändern Sie nur die Bewegung der Person“, sondern müssen erneut würfeln und hoffen, dass das nächste Ergebnis besser ist.
Aber diese Art des Spiels beginnt sich kürzlich zu ändern. In den letzten ein bis zwei Monaten sind mehrere neue Videomodelle fast nacheinander aufgetaucht. Sie haben unterschiedliche Produktformen, technische Ansätze und Zielmärkte, aber die Signale, die sie aussenden, sind erstaunlich einheitlich. Der Schwerpunkt des Wettbewerbs liegt nicht mehr darin, wer ein einmaliges, schöneres Video generieren kann, sondern wer das generierte Material kontinuierlich ändern, steuern und wiederverwenden kann. Mit anderen Worten, KI-Videos entwickeln sich von einer Filmproduktionsmaschine zu einem Produktionswerkzeug.
(Quelle: Google)
Das Problem ist nun, ob die Kernkompetenz der Künstler bei KI-Videos von der Montage zu einer eher regisseurähnlichen Fähigkeit wird. Da wir nicht mehr darauf „wetten“ müssen, was das Video generiert, könnte es sein, dass die bessere Darstellung und die Kameraführung der zukünftige Schwerpunkt der KI-Videoerstellung sind?
Ein Videomodell, das nicht zweimal bearbeitet werden kann, ist keine gute KI
Die KI-Videos, die derzeit am heißesten diskutiert werden, weil sie „bearbeitbar“ sind, stammen wahrscheinlich von Google und Runway.
Runway hat Aleph 2.0 vorgestellt, das darauf ausgelegt ist, Änderungen basierend auf dem Kontext des ursprünglichen Videos vorzunehmen. Im Grunde genommen behandelt es jede Generierung nicht wie ein leeres Blatt Papier, sondern erkennt, was sich in Ihrem Material befindet, und kann lokale Änderungen vornehmen, ohne das Ganze jedes Mal von vorne zu beginnen. Google hat mit Gemini Omni einen anderen Ansatz gewählt. Es bietet eine dialogbasierte Weiterbearbeitung an. Sie können wie beim Gespräch mit einem Menschen Schritt für Schritt Anforderungen stellen, und das Modell ändert die vorherige Version, anstatt bei jeder neuen Anforderung von vorne zu beginnen.
(Quelle: Runway)
Wenn wir beispielsweise bei Gemini anfordern, ein Video zu generieren, in dem eine weiße Keramiktasse auf einem Holztisch steht und die Kamera langsam näher rückt, neben der Tasse ein Notizbuch und eine schwarze Kugelschreiber liegen, das natürliche Tageslicht herrscht und es den Eindruck eines echten Handyaufnahme hat, mit einem Hintergrund wie in einem gewöhnlichen Studio, dann ist das Ergebnis der ersten Runde bereits sehr zufriedenstellend.
(Quelle: Lei Technology, Grafik)
Gemini hat ein Videomaterial generiert, in dem eine weiße Keramiktasse, ein Notizbuch und eine schwarze Kugelschreiber auf einem Holztisch zu sehen sind. Das Hauptthema des Bildes ist klar: die weiße Keramiktasse, das Notizbuch, der Kugelschreiber und der Holztisch. Die Kamera bewegt sich langsam von einer Mittel- und Fernaufnahme zu einer Nahaufnahme, was unseren Anforderungen entspricht. Aber es sieht nicht wie ein Werbevideo aus.
(Quelle: Lei Technology, Grafik)
Wir haben daher direkt an Gemini angefordert, dass das Material so bearbeitet wird, dass es eher wie ein Werbevideo für eine Kaffeemarke aussieht. Beispielsweise soll es feinen Dampf aus der Kaffeetasse geben und sanfte Highlights auf der Tassenwand.
(Quelle: Lei Technology, Grafik)
Es ist leicht zu erkennen, dass die Tasse, der Kugelschreiber, das Notizbuch und sogar die hintere Szene unverändert bleiben. Was sich ändert, ist die Zeit, zu der der Kaffee erscheint, die Kameraführung und der Effekt des umstehenden Dampfes.
Dies ist genau der Übergangszustand, in dem KI-Videos von der Generierung zur Bearbeitung übergehen. Früher gab man einen Prompt ein und wartete auf das fertige Video. Jetzt generiert man zunächst ein Basis-Material und sagt dann dem Modell, was noch verbessert werden muss. Die Künstler geben nun wie Regisseure die Richtung für die Änderungen an, aber das Modell kann noch nicht so präzise wie ein Montagesoftware folgen. Es ist nicht mehr nur Kartenziehen, aber es ist auch noch kein echtes Nachbearbeitungswerkzeug.
Die dialogbasierte Bearbeitungsmethode von Gemini ist nur ein Weg. Die chinesischen Plattformen Keling und Seedance 2.0 gehen einen systematischeren Ansatz, wobei sie unterschiedliche Ansatzpunkte wählen.
Die Strategie von Keling O1 besteht darin, alle Schritte in einem Engine zu integrieren. Generierung, Bearbeitung, Referenz, Stilkadierung, Kameraführungserweiterung – Dinge, die früher entweder nicht möglich waren oder in mehreren Tools durchgeführt werden mussten, sollen nun an einem Ort von Anfang bis Ende erledigt werden können. Dieser Ansatz ist klug, weil es sich nicht als ein Generator mit einer starken Einzelfunktion versteht, sondern als eine kreative Plattform. Für die Künstler ist es am ärgerlichsten, nicht, dass ein einzelner Schritt schwierig ist, sondern dass ein Film in sieben oder acht Tools hin- und hergeschoben werden muss. Keling will genau diese Ineffizienz in der Verknüpfung bekämpfen.
(Quelle: Keling)
Seedance 2.0 wählt den Ansatz der Multimodalität. Es nimmt Text, Bilder, Videos und Audio als Referenzmaterial auf, um die Referenzgenerierung, die Videoerweiterung und die Synchronisierung von Bild und Ton zu verbessern. Früher haben wir uns bei Videomodellen nur auf die Schönheit der Bilder konzentriert, aber ein Video ist nicht nur bewegte Bilder. Es ist das Ergebnis der Kombination von Bildern, Bewegungen, Sound und Rhythmus. Seedance bringt auch Sound und Bewegung in den kontrollierbaren Bereich, was uns daran erinnert, dass ein Videomodell nicht nur Zeichnungen können muss, sondern auch den Rhythmus verstehen und wissen muss, wo der Schnitt erfolgen soll.
(Quelle: Seedance 2.0)
Einfacher ausgedrückt: In Bezug auf die Entwicklung von Videomodellen ist die Zeit des Kartenziehens definitiv vorbei. Es folgt die „Bearbeitungszeit“. Das Modell, das den gesamten Prozess durchdringen kann, den Benutzern die intuitivsten Optimierungsprompts und Lösungen für die Zweitbearbeitung bietet, wird weiterhin die Spitze behalten.
KI-Videos sind kein Glücksspiel mehr, und die Arbeit der Menschen ändert sich
Wir kommen zurück zur Frage am Anfang. Wenn die Generierung von KI-Videos nicht mehr wie Kartenziehen ist, wird sich die Rolle der Menschen im gesamten Arbeitsablauf ändern? Meine Einschätzung ist: Ja.
Früher hat ein ausgezeichneter Videokünstler auf Fertigkeiten wie Montage, Farbkorrektur, Schnittübergänge und Musikgestaltung gesetzt und Bild für Bild seinen Stil herausgearbeitet. Diese Fähigkeiten werden nicht obsolet, aber wenn das Modell versteht, „Behalten Sie diese Kameraführung bei und ändern Sie nur die Qualität in Richtung Werbevideo“, wird der Unterschied zunehmend von einer anderen Fähigkeit bestimmt: die Fähigkeit, Kameraschüsse zu beschreiben, den Rhythmus zu steuern und zu entscheiden, was beibehalten und was neu gemacht werden soll. Mit anderen Worten, es ist die Fähigkeit eines „Regisseurmodells“.
KI-Videos werden die Montage nicht sofort ersetzen, und die Künstler werden nicht zu Prompt-Schreibern reduziert. Beide extreme Ansichten sind zu einfach. Genauer gesagt verschiebt sich der Schwerpunkt der Videoproduktion von der „Materialverarbeitung“ zur „Absichtsssteuerung“. Früher haben Sie die Materialien selbst zu einem fertigen Video zusammengesetzt. Künftig werden Sie eher dem Modell sagen, was Sie wollen, was Sie nicht wollen und was an der aktuellen Version noch fehlt.
(Quelle: Lei Technology, Grafik)
Diese Steuerungsfähigkeit hat jedoch eine Schwelle. Wer in der Lage ist, seine vage Idee in eine Kamerasprache umzuwandeln, die das Modell versteht, und bei einem Ergebnis des Modells sofort zu entscheiden, ob es brauchbar ist und was noch fehlt, der ist eher der zukünftige „Modellregisseur“. Ein Regisseur muss nicht unbedingt die Kamera bedienen oder jeden Schnitt machen, aber er weiß, was der gesamte Film braucht und wohin er an jeder Entscheidungssituation gehen muss. Wenn KI-Videos reif sind, müssen die Künstler auch diese Aufgabe übernehmen.
Das Werkzeug hat sich geändert, und natürlich hat sich auch die Schwelle geändert. Aber das Wesentliche der Kreativität bleibt das gleiche: es ist immer noch das klare Bild des fertigen Films in Ihrem Kopf und Ihre Bereitschaft, das Modell immer wieder zu optimieren. Die Zeit des Kartenziehens neigt sich dem Ende zu. Es werden immer weniger Glücksspieler geben, und was wirklich selten ist, ist die Person, die weiß, was sie will und in der Lage ist, das Modell dazu zu bringen, es zu liefern.
KI wird die Arbeiter nicht ersetzen, sondern sie vorwärts bringen
Wenn immer ein neues Werkzeug eine Handwerkskunst automatisiert, ruft immer jemand, dass die Arbeitsplätze weg sind. Aber wenn man zurückschaut, hat die Werkzeugentwicklung nie die Menschen selbst ersetzt, sondern nur den mechanischsten Teil ihrer Arbeit.
Das klassische Beispiel ist die Tabellenkalkulation. Vor der Entstehung von VisiCalc und später Excel haben Buchhalter und Finanzexperten einen Großteil ihrer Zeit damit verbracht, mit einem Taschenrechner Zellen für Zellen zu berechnen und Buch zu führen. Die Tabellenkalkulationssoftware hat diese wiederholten Berechnungen übernommen. Das Ergebnis war nicht, dass die Buchhalter arbeitslos wurden, sondern dass sie von „Rechenern“ zu „Modellern, Trendanalysten und Beratern für Entscheidungen“ wurden. Die langweiligste Ausführung wurde übernommen, und die freigewordene Energie hat diese Arbeit sogar wertvoller gemacht.
Vor der Verbreitung von nichtlinearen Montagesoftware mussten die Schnittmeister tatsächlich mit einer Klinge Filmstreifen schneiden und Band für Band Bild für Bild zurückspulen. Daher spricht man auch von „Video schneiden“. Aber seit der Entstehung von Software wie Premiere und Final Cut ist der physische „Schnitt“ verschwunden, aber die Schnittmeister sind nicht verschwunden. Sie haben sich von der körperlichen Arbeit befreit und ihre Aufmerksamkeit auf die Beurteilung von Rhythmus, Erzählung und Emotionen gerichtet. Das Werkzeug hat die körperliche Arbeit übernommen, und was übrig bleibt, ist die geistige Entscheidung.