Wie hat ein Buchhalter mit KI ein Video mit 7,4 Millionen Ansichten gemacht, in dem Drachen zu einem Gericht zubereitet werden?
„Man muss unbedingt Memes haben, um die Leute zu halten.“
Ende Oktober wurde ein Video namens „Zwei Dinosauriergerichte aus einem Urzeitmoschusdinosaurier (Teil 1)“ auf Bilibili extrem beliebt. Innerhalb von drei Tagen erreichte es 7 Millionen Aufrufe. Das Wichtigste ist, dass es sich um ein vollständig von KI generiertes Video handelt, das 6 Minuten und 23 Sekunden lang ist. Nach den bisherigen Regeln ist es schwierig, dass Videos mit diesen beiden Merkmalen von den Algorithmen gefördert werden.
Nach all der Tatsache, dass viele Menschen KI-generierte Inhalte ablehnen, waren die fast 5.000 Kommentare unter diesem Video hauptsächlich von Bewunderung über die schnelle Verbesserung der Bildqualität der KI und die Fähigkeit des Autors, die KI zu beherrschen.
Dieses Video war tatsächlich anders als die meisten anderen KI-Videos. Es handelte nicht um das Schneiden von Steinen oder um eine katzenähnliche Köchin, sondern um einen Kochwettbewerb zwischen Küchenchefs aus verschiedenen Ländern, bei dem das Gericht ein Moschusdinosaurier war. Ja, ein Moschusdinosaurier – eine Urzeit-Kreatur, die vor 65 Millionen Jahren ausgestorben ist – als Gericht zubereitet. Das habt ihr noch nie gesehen, oder?
Der Anfang des Videos zeigte eine beeindruckende Szene, in der eine Gruppe ausländischer Köche mit Sägen Fleisch schneideten und Rippen hackten, die höher waren als Menschen. Die Kamera rückte näher, drehte sich und wechselte schnell die Ansichten. Die Charaktere traten auf, Konflikte brachen aus, und die Handlung war spannend und fesselnd. So fesselte das Video sofort die Aufmerksamkeit der Zuschauer.
● Anfang des Videos „Zwei Dinosauriergerichte aus einem Urzeitmoschusdinosaurier (Teil 1)“
Das Schwerste und Wichtigste war es, die Zuschauer während der 6 Minuten und 23 Sekunden zu halten. Dazu setzte der Bilibili-UP „Huangpu River Salmon“ (im Folgenden einfach „Salmon“) viele „Tricks“ ein –
Zum Beispiel waren verschiedene beliebte Memes durch das gesamte Video verteilt. Der erste, der auftrat, war ein indischer Koch, der „Neunmal umgebratene Rektum“ zubereitete. Der chinesische Koch war „Cynthia“ aus Shanghai. Sie trat mit eigener Hintergrundmusik und Kommentaren auf, wie zum Beispiel dem bekannten Satz: „Das edelste Gericht erfordert oft nur die einfachste Zubereitungsmethode“ … Denn „Salmon“ war überzeugt, dass „man unbedingt Memes haben muss, um die Leute zu halten.“
Darüber hinaus war es am wichtigsten, dass die KI-Bilder so echt wirkten, dass man sie für echt halten konnte. „Man kann nicht sagen, dass sie identisch sind, aber ich versuche, dass sie zu 90 % echt aussehen.“ So hat einmal ein Netzbürger bestritten: „Du hast es ja tatsächlich live gefilmt und behauptest nur, dass es von KI generiert ist.“ „Salmon“ widersprach nicht und sagte: „Ja, ich habe den Dinosaurier vor ein paar Tagen im Südchinesischen Meer gefangen.“
Es war nicht einfach, Bilder von so hoher Qualität zu erstellen und die Konsistenz der Charaktere im Laufe des Videos aufrechtzuerhalten. Es wird berichtet, dass „Salmon“ für ein einzelnes Bild mit Spezialeffekten eine ganze Seite an Anweisungen für die KI geschrieben hat. Und es ist nicht so, dass man einfach einmal Anweisungen an das KI-Modell gibt und dann ein perfektes, verwendbares Videoteil bekommt. Meistens muss man es mehrmals generieren und dann das beste Teilstück auswählen. Dieser Prozess wird in der KI-Generierung auch als „Kartenziehen“ bezeichnet.
● Die Anweisungen, die „Huangpu River Salmon“ geschrieben hat
Angesichts der Tatsache, dass die meisten aktuellen Videomodelle nur 5-Sekunden- oder maximal 10-Sekunden-Teile generieren können, müsste theoretisch dieses 6-Minuten- und 23-Sekunden-Video aus mindestens 75 5-Sekunden-Szenen zusammengesetzt sein. Tatsächlich hat er für dieses Video über 1.000 Videomaterialien generiert, und bei einigen Szenen hat er über 100 Mal „Karten gezogen“.
Unter diesem Video, das bereits 7,4 Millionen Aufrufe erreicht hat, kommentierte jemand: „Dies ist das coolste KI-Video, das ich seit der Entstehung der KI gesehen habe.“
Tatsächlich ist der 28-jährige „Salmon“ beruflich ein Buchhalter. Vor drei Jahren, als die KI gerade in der breiten Öffentlichkeit aufkam, begann er schnell, sich damit zu beschäftigen. Zuerst mit Bildern, dann mit 3D-Modellen und schließlich mit Animationen. Früher brauchte er einen Monat, um ein kleines Videoteil zu erstellen, aber jetzt kann er „mehrere kleine Teile pro Tag“ machen.
Insbesondere nach dem chinesischen Neujahr in diesem Jahr stellte er fest, dass er tatsächlich ein kleines Werbevideo vollständig mit KI erstellen konnte. Es war zwar noch etwas grob, aber es konnte abgegeben werden. Er sah die rasante Entwicklung der KI-Modelle und beschloss: „Ich will unbedingt in diese Branche einsteigen.“ Schließlich war es sein Kindheitstraum, Regisseur zu werden.
Die Popularität dieses Videos „Zwei Dinosauriergerichte aus einem Urzeitmoschusdinosaurier (Teil 1)“ war also kein Zufall. Abgesehen von der erstaunlichen Entwicklung der KI-Modelle in kurzer Zeit war es auch eine geplante Attacke von „Salmon“ auf die Aufmerksamkeit der Zuschauer.
Einen Monat vor diesem Video veröffentlichte er mit einer Frequenz von einmal pro Woche drei Videos mit dem Thema Dinosaurierkochkunst. Es war wie ein A/B-Test vor dem Hauptangriff –
Im ersten Video „Drei Dinosauriergerichte aus einem Tyrannosaurus“ ging es einfach um das Kochen. Die Idee wurde umgesetzt, aber es gab keine Hauptcharaktere.
Im zweiten Video „Eine Shanghai-Küchenchefin bereitet drei Gerichte und eine Suppe aus einem Pterodactylus“ wurde die Hauptfigur Cynthia, eine Shanghai-Küchenchefin, eingeführt. Es gab Memes, und die Reaktion der Zuschauer war sehr positiv.
Im dritten Video „Ein Guangzhouer bereitet drei Mahlzeiten aus einem Triceratops“ wurde die Hauptfigur weggelassen, aber Elemente aus „Chinesischer Kochkunst“ hinzugefügt. Die Wirkung ging zurück.
Nach diesen drei Videos hatte „Salmon“ im Wesentlichen die Logik hinter erfolgreichen KI-Videos verstanden. Er lässt absichtlich einige Unstimmigkeiten im Video, wie zum Beispiel, dass Cynthia oft ihre Hände über einem heißen Topf hält. Das soll die Zuschauer dazu bringen, zu diskutieren, und eine lebhafte Diskussion bringt das Video in einen größeren Reichweite der Zuschauer.
Natürlich darf man die Veränderungen in der externen Umgebung nicht außer Acht lassen – die Akzeptanz von KI-generierten Inhalten durch die Inhaltsplattformen und die Zuschauer hat stark zugenommen. Die meisten beliebten Videos auf Bilibili enthalten KI-Elemente, und es gibt sogar ein Singenwettbewerb mit KI-generierten NPCs. Kuaishou hat auch erklärt: „Wir hoffen, dass die KI die kreativen Kräfte auf unserer Plattform stärker befähigt und dass es mehr hochwertige lange KI-Inhalte auf unserer Plattform gibt.“
Vor einem Monat begannen die KI-Video-Generierungsmodelle Sora2 und Veo3.1, sich zu verbessern, und ihre Fähigkeiten stiegen rapide. Der aufmerksame „Salmon“ hat offensichtlich entschieden: Die Zeit ist reif.
Am 9. November veröffentlichte „Salmon“ den zweiten Teil von „Zwei Dinosauriergerichte aus einem Urzeitmoschusdinosaurier“. Bis zum Mittag des 13. November hatte es bereits fast 2,34 Millionen Aufrufe, und die Anzahl seiner Bilibili-Abonnenten ist auf 71.000 gestiegen. Außerdem gibt es viele Kooperationsanfragen in seinem Hintergrund. Es scheint, dass seine Umstellung auf einen Vollzeit-KI-Designer bereits gut vorangeschritten ist.
Anfang November führte das „Future Human Laboratory“ ein Gespräch mit „Huangpu River Salmon“ über die Ideen hinter diesem erfolgreichen Video, die Produktion und die zukünftigen Pläne. Hier ist das Gespräch, nachbearbeitet und veröffentlicht –
„Ich habe gedacht, es wird gut, aber ich hätte nicht gedacht, dass es so gut wird.“
Future Human Laboratory: Die ersten drei Videos wurden im Allgemeinen einmal pro Woche veröffentlicht. Zwischen dem ersten Teil von „Zwei Dinosauriergerichte aus einem Urzeitmoschusdinosaurier“ und den vorherigen Videos lagen 16 Tage. Wofür hast du die Zeit hauptsächlich verwendet?
Huangpu River Salmon: Die Produktion hat nicht allzu lange gedauert. Die meiste Zeit habe ich für die Vorbereitung des Drehbuchs und die Anweisungen für die KI verwendet. Ich habe mir das Drehbuch eine Woche lang im Kopf überlegt. Wer gewinnt, wer verliert, wie ist die Perspektive jeder Person, welches Gericht wird zubereitet, wie wird das Finale aussehen … Nachdem ich den groben Rahmen der Geschichte ausgearbeitet hatte, habe ich mit der Produktion der ersten Szene (mit dem indischen Koch und Cynthia) begonnen. Nachdem ich angefangen habe, habe ich es in etwas mehr als einer Woche fertiggestellt, natürlich musste ich auch ab und zu nachts arbeiten.
Future Human Laboratory: Hast du dir vorgestellt, dass dieses Video so beliebt werden würde?
Huangpu River Salmon: Ich habe gedacht, es wird gut, aber ich hätte nicht gedacht, dass es so gut wird. Ich habe geschätzt, dass es maximal 1 Million Aufrufe erreichen würde. Ich habe es um 22:30 Uhr veröffentlicht und bin dann schlafen gegangen. Am nächsten Tag hatte es bereits über 1 Million Aufrufe. Ich bekam viele private Nachrichten, einige waren Kooperationsanfragen, aber die meisten wollten wissen, wie ich es gemacht habe und wollten, dass ich meine Erfahrungen teile. Sie sagten, dass es so aussieht, als ob ich mit einer anderen KI arbeite als sie.
Future Human Laboratory: Ich habe mit einem Blogger gesprochen, der sich speziell mit der Bewertung von KI-Produkten befasst. Wir glauben, dass der Grund für die Popularität dieses Videos eher in der Storytelling, den vielen Memes und dem schnellen Szenenwechsel liegt. Ich habe bemerkt, dass du in etwa alle 1 - 2 Sekunden die Szene wechselst. Die Darstellung der KI spielt eher eine untergeordnete Rolle.
Huangpu River Salmon: Ja. Ich denke, dass Videos, die von Menschen gerne gesehen werden, eher abstrakt und lustig sind und die Menschen unterhalten. Der andere Aspekt ist die hohe Qualität der Produktion. Die Bilder werden zwar von KI generiert, aber es dürfen nicht zu viele Fehler darin sein. Ich versuche, die KI-Bilder so echt wie möglich zu machen, nicht unbedingt identisch, aber zu 90 % echt. Der dritte Aspekt ist, dass man auf die aktuellen Internet-Trends reagiert und damit die Aufmerksamkeit der Menschen auf sich zieht. Ich denke, dass diese drei Faktoren zusammen den Erfolg dieses Videos erklärt haben.
Man muss unbedingt Memes haben, um die Leute zu halten. Wenn man einfach nur kocht, würde ich schätzen, dass es maximal 100.000 - 300.000 Aufrufe erreichen würde.
Future Human Laboratory: Du scheinst gut zu verstehen, wie man die Aufmerksamkeit der Menschen auf sich zieht. Gibt es noch andere Design-Elemente in deinem Video, die dazu beitragen, dass es populär wird?
Huangpu River Salmon: Ich lasse absichtlich in den real wirkenden KI-Bildern Dinge, die als Fehler erscheinen. Zum Beispiel hält Cynthia oft gerne ihre Hände über einem heißen Topf. Dann sagen die Leute, dass es einen Fehler gibt. Wenn es viele Kommentare zu einem bestimmten Punkt gibt, kann es in eine höhere Reichweite der Zuschauer gebracht werden. Deshalb lasse ich absichtlich Dinge ein, die zu Diskussionen führen.
● Cynthia hält ihre Hände über einem Topf
Future Human Laboratory: Du bist ziemlich schlau.
Huangpu River Salmon: Diese Szene ist eigentlich ziemlich lustig. Die Leute sagen, dass es so aussieht, als ob sie „Eisernen Sandhänden“ oder so hätte. Ich habe eigentlich auch gute Materialien, in denen sie nicht über dem heißen Topf hält, aber ich habe überlegt und beschlossen, diese „Fehl-Szene“ beizubehalten.
Future Human Laboratory: Also lässt du absichtlich solche Dinge, um die Leute zu diskutieren?