Das Phänomen von Seedance 2.0 hat das Internet in Sturm erobert. Tiefgehende Testbewertung: In komplexen Szenen ist es unglaublich stabil. Kann es sogar ASMR?
Es ist so lebhaft! Ein echtes Phänomen - Showtime!
Kaum hatte ByteDance gerade Seedance 2.0 online gestellt, schon hat es das Internet in aller Munde und auf allen Plattformen erobert!!!
Hier lobt Elon Musk es ausführlich, dort ruft ein amerikanischer Regisseur aus, dass Hollywood am Ende sei.
Selbst viele Ausländer drängen so hektisch auf Updates: Wann wird es global verfügbar sein? Wie kann man sich für ein chinesisches Konto registrieren? Warten online, dringend!
So beliebt und so erstaunlich - wir müssen es unbedingt ausprobieren.
Schaut euch mal dieses landesweit beliebte Video "Katzen gegen Godzilla" an, das ich erstellt habe. Die Katze springt und gibt einen gehörigen Schlag!
Schauen wir uns jetzt diese AI - Version von "F1 - Rennen" an. Der Drehzahlmesser steigt rasch, die Bremsen quietschen. Es hat echt den Hollywood - Charme!
Lass uns auch noch "Chinese Kungfu gegen Iron Man" ausprobieren. Die beiden kämpfen sich Hand in Hand nah, die Soundeffekte sind super spannend. Es ist einfach genial!
Die fantasievollen Netizens können noch bessere Sachen zusammenstellen. Schaut euch mal diesen One - Take - Clip eines Netizens an. Die Kamera gleitet von der Straße in die U - Bahnstation und in den Wagen. Es hat einen wunderbaren Traum - Kern - Charme:
Und dieser Netizen hat einfach nur ein Comic - Screenshot hochgeladen, und Seedance 2.0 hat daraus ein ganzes Szenario - Video gemacht. Das ist unglaublich!
Ehrlich gesagt versteht Seedance 2.0 die Kamerasprache besser und ist besser steuerbar. Die Referenzfähigkeit ist auf ein neues Level gestiegen. Es eignet sich perfekt für unsere täglichen Anwendungen bei der Erstellung von Videos mit mehreren Kameraperspektiven und feiner Steuerung.
Wie immer, keine langen Reden. Wir testen und diskutieren direkt. Lasst uns gemeinsam beurteilen, ob das Modell leistungsfähig ist!!!
Besseres Kameraverständnis
Stabilität auch in komplexen Szenarien
Ich frage mich, ob ihr auch mal wie ich vor Kopfzerbrechen standet:
Wenn wir täglich AI - Videos erstellen und auf Prompt - Wörter für mehrere Kameraperspektiven stoßen, neigen die Hauptmerkmale schnell dazu, "schwammig" zu werden.
Zum Beispiel sieht die Figur in den erstellten Videos in den verschiedenen Teilen unterschiedlich aus, die Szene und der Kamerastil sind nicht einheitlich. Am Ende müssen wir meist wiederholt "Karten ziehen" …
Letztendlich liegt es an den Fehlern in der Konsistenz und Stabilität des Modells.
Einer der offensichtlichsten Verbesserungen von Seedance 2.0 liegt in der multimodalen Eingabeform. Wir können Bilder, Videos, Audios und Texte in gemischter Form eingeben. Das Modell zeigt auch bessere Leistung und Kontrollierbarkeit in der Bildkonsistenz.
Zuerst ein Vorspeise. Die AI - Videos aus der Shaw - Epoche sind derzeit im Netz sehr beliebt. Also habe ich einfach ein Action - Foto von Kämpfern aus der Wulin - Welt hochgeladen:
Beim Design der spezifischen Prompt - Wörter muss es eine vollständige Konfliktkette zwischen der Unterhaltung der männlichen und weiblichen Charaktere, ihrer Emotionalität, ihren Bewegungen bis hin zur erneuten Konfrontation geben. Gleichzeitig muss das AI die Erscheinung der Charaktere in der Mehrfach - Kameraperspektive stabil halten und in Stil und emotionaler Grundstimmung einheitlich bleiben!
Aus den folgenden Ergebnissen geht hervor, dass auch bei starken Bewegungen und häufigen Kameraperspektivenwechseln die Gesichtsmerkmale der Hauptcharaktere stabil bleiben und keine offensichtlichen Verzerrungen aufweisen. Das ist gut!
Lasst uns jetzt etwas Spaßiges machen. Lassen wir Mona Lisa in der Louvre eine "große Show" mit Cola trinken!
Im Prompt - Design muss Mona Lisa in ihrem Originalbild immer noch Bewegungen wie das Holen und Trinken von Cola ausführen. Es müssen auch Gesichtsausdrücke beim Sprechen erscheinen. Dies erhöht die Anforderungen an die Stabilität des Modells:
Erstaunlicherweise passt das schleichige Verhalten und die Blicke von Mona Lisa beim Trinken von Cola wirklich gut. Die Gesichtskonsistenz beim Sprechen bleibt auch stabil, und die Bewegung des Haltens am Rahmen stört nicht. Bestanden!
Lasst uns noch eine "Anfangs - und Endbild - Methode" ausprobieren. Da das Jahr des Pferdes anbricht, habe ich zwei Pferde - Bilder mit völlig unterschiedlichem Stil hochgeladen und das Pferd in einem Bild eine Transformation vollzogen lassen:
Das ist beeindruckend … Die Übergänge vom Wassermalfarben - Stil zum Ölgemälde - Stil und dann zum Pixel - Stil sind sehr natürlich. Die Soundeffekte und die Transformationsbewegungen stimmen auch gut überein!!!
Insgesamt finde ich, dass das Modell in Bezug auf Bildkonsistenz und Kontrollierbarkeit ziemlich stark ist. Es eignet sich gut für die tägliche Erstellung von Videos mit mehreren Charakteren und Kameraperspektiven.
Es wird empfohlen, möglichst viele Bilder aus verschiedenen Winkeln und mit verschiedenen Referenzelementen hochzuladen, damit die Ausgabe des Modells stabiler ist.
One - Take - Aufnahmen möglich
Ein weiterer großer Funktionsvorteil von Seedance 2.0 in dieser Aktualisierung ist die "One - Take - Funktion".
Aber diese One - Take - Funktion unterscheidet sich von unserer herkömmlichen Vorstellung. Sie betont hauptsächlich, dass wir dem Modell verschiedene Referenzbilder geben können, und das Modell kann diese Bilder in einem Video verbinden.
Diesmal wollen wir etwas Zukunfts - Science - Fiction - Gefühl haben. Ich habe dem Modell drei Bilder von einer zukünftigen Weltstadt in 100 Jahren mit starkem Cyber - Flair und verschiedenen Perspektiven gegeben:
Beim Festlegen der Prompt - Wörter muss das Modell die Bilder 1 bis 3 in derselben Perspektive nahtlos verbinden. Darüber hinaus müssen auch starke Kamerabewegungen wie scharfe Kurven, Stürze und Aufstiege ausgeführt werden. Dies erfordert höhere Anforderungen an die Logik und Kohärenz der Kameraschnittstelle:
So habe ich ein Science - Fiction - Video von einer zukünftigen Stadt aus der Drohnenperspektive bekommen. Das starke Rütteln der Bilder ist wirklich genial!
Zuerst die positiven Aspekte: Die drei Referenzkameraperspektiven in der Eingabe wurden tatsächlich vollständig im Video wiedergegeben, und es ist wirklich ein One - Take - Video. Das ist unbestritten.
Aber ein kleiner "Nachteil" (der eigentlich kein echter Nachteil ist) ist, dass der Übergang zwischen Bild 1 und Bild 2 etwas zu hart ist. Ich zeige es euch langsam:
Eigentlich wäre es ideal, wenn zwischen Bild 1 und Bild 2 ein enger Raum als Übergang eingefügt würde. Dann würde die Kohärenz beim Übergang zu Bild 3 besser sein, und es würde weniger auffällig wirken.
(Was meint ihr? Gibt es bessere Lösungen? Kommentiert gerne!)
Unterstützung der vollständigen Szenario - Ausgabe
In Bezug auf Konsistenz und Stabilität kann Seedance 2.0 auch Szenarien selbst "erfinden".
Es erzeugt nicht nur Bilder auf der Grundlage des ersten Bildes, sondern kann auch mehrere Referenzmaterialien und Prompt - Wörter kombinieren und direkt ein ganzes "Szenario - Video" erstellen.
Diesmal habe ich einfach dem AI eine Sechser - Comic - Reihe gegeben und es aufgefordert, ein komplettes Szenario - Animationsvideo zu erstellen:
Stelle die Bilder in [@Bild 1] von links nach rechts und oben nach unten in Comic - Form dar. Behalte die Dialoge der Charaktere in den Bildern bei. Füge bei den Schnittwechseln und wichtigen Szenarien spezielle Soundeffekte hinzu. Der Gesamtstil soll witzig und humorvoll sein.
Nun … Das Bild selbst hat keine Probleme. Alle sechs Bilder wurden vollständig wiedergegeben.
Das Problem liegt hauptsächlich in den Texten. Viele Schriftarten stimmen nicht mit den Original - Comic - Texten überein, und die Anzeigezeit der Texte stimmt auch nicht mit den Bildern überein.
Ich vermute, dass es daran liegt, dass die Texte nicht Teil des Hauptbildes sind. Im Vergleich zu Charakteren, Bewegungen und Szenen haben die Texte in Comics für das Modell eine deutlich niedrigere Priorität.
Deshalb werden sie bei der Mehrfach - Kameraperspektive und beim Rhythmuswechsel leicht als variable Elemente behandelt …
Tatsächlich kann man nicht alles haben, und das gilt auch für AI. (doge)
DIY - Video - Länge und Soundeffekte
Außer den grundlegenden Fähigkeiten in Bezug auf Kameraperspektiven hat Seedance 2.0 auch einen Schritt vorwärts bei der Video - Verlängerung und Sound - Bearbeitung gemacht.
Zuerst zur Video - Verlängerung.
Beachtet, dass die Verlängerung nicht einfach die Video - Zeit verlängert. Wir können in den Prompt - Wörtern das erste Bild angeben und auch die gewünschte Video - Länge "markieren".
Diesmal habe ich dem AI ein 3D - Bild eines laufenden Donuts gegeben und es aufgefordert, ein 10 - Sekunden - Video zu erstellen, in dem der Donut Rollen, Springen und Gleiten ausführt: