Echtzeit-Test von ByteDance Seedance 2.0: Sprachausgabe-Störungen, fehlerhafte Untertitel

Echtzeit-Test der neuen Bombe von ByteDance

Vor Beginn des Artikels möchte ich Ihnen zunächst eine animierte Grafik zeigen.

(Quelle der Grafik: Bilibili)

Ein sehr beeindruckendes Szenario aus einem Blockbuster, nicht wahr? Das Material und die Atmosphäre sind hervorragend.

Was aber, wenn ich Ihnen sagen würde, dass dieser Film rein durch KI generiert wurde? Ich denke, viele Leser würden überrascht sein oder versuchen, in den Szenen Unstimmigkeiten zu finden.

In den letzten Jahren hat die rasante technologische Entwicklung es uns schwer gemacht, den Unterschied zwischen Spezialeffekten und KI zu erkennen. Die Erstellung eigener Videos scheint nie so einfach gewesen zu sein.

Ich schätze, dass die meisten Menschen wie ich nur zuschauen oder vielleicht versucht haben, aber ohne großen Erfolg. Die Gründe sind einfach:

Dieser Bereich ist sehr abschreckend.

Um ein hochwertiges Ergebnis zu erzielen, muss man sein eigenes Modell einrichten und einen stabilen und kontrollierbaren Workflow in ComfyUI erstellen. Aber diese unzähligen Parameter sind für mich, einen Experten auf dem Gebiet der KI-generierten Inhalte, noch immer schwierig zu verstehen. Ich denke, für die meisten Menschen ist es fast unmöglich, diese Parameter richtig einzustellen.

Wenn man es einfach ausprobieren möchte, kann man Sora und Veo ausprobieren. Diese Websites sind aber teuer, und das Ergebnis ist wie beim Kartenziehen - man muss für jedes "Ziehen" bezahlen. Darüber hinaus ist es für Menschen in China schwierig, auf diese Websites zuzugreifen.

Wer hätte gedacht, dass ByteDance in China nach langer Zeit plötzlich eine sensationelle Innovation entwickelt hat?

(Quelle der Grafik: Jimeng)

In dieser Woche ist das Videomodell Seedance 2.0 von ByteDance plötzlich online gegangen. Es gab keine lange Warteliste oder versteckte Beta-Test-Einladungen. Es wurde einfach während der chinesischen Neujahrfeier, der größten Traffic-Periode des Jahres, der Öffentlichkeit zugänglich gemacht.

Nachdem ich es ausprobiert habe, kann ich nur sagen: Für alle, die eigene KI-Videos erstellen möchten, ist das eine gute Nachricht.

15 Sekunden Generierung, eine Stunde Warteschlange

Zunächst einmal, wie kann man es nutzen?

Seedance 2.0 ist derzeit auf der Jimeng-Plattform verfügbar. Derzeit können Mitglieder (mit einem Mindestabonnement von 69 Yuan) direkt das neueste Modell nutzen. Sowohl die Web-Version auf dem Computer als auch die Mobile-App sind kompatibel. Es wird erwartet, dass es in wenigen Tagen für alle verfügbar sein wird.

Wenn man nicht bezahlen möchte, kann man auch die KI-Assistentin Xiaoyunque von ByteDance nutzen. Neuanmeldungen erhalten derzeit drei kostenlose Generierungsversuche für Seedance 2.0 und täglich 120 Punkte.

Nach der Nutzung der kostenlosen Versuche kostet die Generierung eines Videos mit Seedance 2.0 8 Punkte pro Sekunde. Das bedeutet, dass man pro Tag maximal 15 Sekunden Videoinhalt kostenlos generieren kann. Das reicht aber für einen ersten Eindruck.

(Quelle der Grafik: Lei Technology)

Betrachten wir nun die Fähigkeiten.

Wir wissen alle, dass die meisten Videomodelle in China bisher nur stumme Filme generieren konnten. Selbst bei ByteDance wurde erst in der Version Seedance 1.5 Ende vergangenen Jahres die Sprachausgabe hinzugefügt.

Jetzt aber stimmen die Stimme und das Bild von Seedance 2.0 perfekt überein.

Dieses neue Modell kann während der Videoerstellung passende Soundeffekte und Musik generieren und unterstützt Mundbewegungen und Emotionsanpassung. Dadurch wird sichergestellt, dass die Lippenbewegungen der Charaktere mit der Sprache übereinstimmen und dass die Mimik und der Tonfall ebenfalls passen.

Um seine Fähigkeiten zu testen, habe ich einen einfachen Text als Eingabe verwendet: "Erste Personensichtweise. Ich sitze am Fenster eines alten grünen Zuges und sehe die vorbeiziehenden Felder aus dem Fenster. Das Glas auf dem Tisch vibriert leicht."

Vielleicht weil so viele Menschen es ausprobieren wollten, musste ich über eine Stunde in der Warteschlange sitzen, bis das Video fertig generiert war.

Ehrlich gesagt überrascht mich die Feinheit des Bildes nicht. Was mich aber wirklich beeindruckt hat, ist der Sound. Im Video gibt es nicht nur eine sanfte Hintergrundmusik, sondern auch das typische "Klang-Klang" des Zuges, der über die Schienen fährt. Selbst wenn die Kamera über das Glas auf dem Tisch schweift, sind die Wellen auf der Wasseroberfläche des Glases deutlich zu sehen.

Beim Blick auf die Felder und die untergehende Sonne ist es wirklich schwer vorstellbar, dass all das nicht existiert hat.

Dieser "natürliche Sound" ist wirklich etwas anderes als eine nachträglich hinzugefügte Stimme. Es zeigt, dass die KI nicht nur Bilder zeichnet, sondern auch versteht, was in der Szene passiert und welche Geräusche in dieser Umgebung zu erwarten sind.

Das ist schon interessant.

Aber das reicht noch nicht. Ein Video muss auch stabil sein.

Früher war man beim Erstellen von Videos mit KI immer besorgt, dass die Personen plötzlich eine andere Erscheinung hatten. Einige Sekunden lang war der Hauptcharakter ein amerikanischer Harteker, und dann wechselte er plötzlich zu einem japanischen Jungen. Dieses Problem war besonders deutlich in Szenen mit großen Bewegungen.

Um die Konsistenz von Seedance 2.0 zu testen, habe ich die Schwierigkeit erhöht und ein Video mit dem Thema "Kampf in einer regnerischen Gasse. Zwei Kampfsportler kämpfen heftig in den Pfützen" generiert.

Den Titel des Videos nennen wir einfach Goat VS Goat.

Das Ergebnis war sehr überraschend. In den über zehn Sekunden langen Kampfaufnahmen blieben die Gesichtszüge der beiden Charaktere konstant. Selbst wenn sie sprang und die Position wechselte, blieben die Texturen der Kleidung und die Konturen der Gesichter intakt.

Obwohl man in einigen sehr unscharfen Bewegungsbildern noch etwas Verschmierung erkennen kann, ist das ein riesiger Fortschritt im Vergleich zu den frühere Versionen, in denen das Gesicht alle drei Sekunden wechselte.

Man kann sagen, dass Seedance 2.0 in Bezug auf die Grundqualität ein sehr nützliches Werkzeug ist.

Von der Texteingabe bis zum fertigen Video alleine erledigen, aber Sprachinkonsistenzen und Bildfehler bleiben weiterhin bestehen

Nachdem die Grundtests bestanden sind, wollen wir nun die Schwierigkeit erhöhen.

Für die meisten, die in der Social Media-Branche tätig sind oder es werden möchten, ist es nicht nur wichtig, dass die KI realistische Bilder generiert, sondern auch, dass sie unsere Ideen versteht.

Dafür hat Seedance 2.0 dieses Mal das Konzept von automatischer Szenenaufteilung und Kameraführung eingeführt.

Einfach ausgedrückt, kann es basierend auf Ihrer Beschreibung automatisch die Szenenaufteilung und Kameraführung planen. Man muss ihm nur sagen, was man möchte, und er entscheidet selbst, wie es gefilmt werden soll.

Ich habe versucht, einen sehr einfachen Befehl einzugeben: "Eine Person in Turnschuhen rennt kräftig auf weichem Sand am Strand. Die Sonne geht unter."

Die Schwierigkeit dieses Satzes liegt nicht nur in der Szenenaufteilung, sondern auch in der Vorstellung der physikalischen Welt.

Da Sand ein Fluid ist, sinkt der Fuß ein, wenn man drauftritt, und hebt Sand auf, wenn man ihn wieder hebt. Diese Details waren bisher bei der Videogenerierung sehr schwer wiederzugeben.

Im generierten Video konnte ich tatsächlich sehen, wie die Füße in den Sand einsanken. Bei jedem Schritt flogen Sandkörner zurück, und die Flugbahn der Sandkörner war sehr natürlich. Es gab keine anti-gravitativen Effekte, wie z. B. Sand, der in der Luft schwebte. Selbst die Bewegung der Unterschenkelmuskeln im Rhythmus des Laufens war deutlich zu spüren.

Ehrlich gesagt, als ich das Ergebnis sah, dachte ich: Dieser Effekt kann direkt in Social Media-Videos verwendet werden.

Basierend auf diesem Ergebnis frage ich mich: Kann ich mit diesem Workflow ein 60-sekündiges Brain Rot-Video erstellen?

Also habe ich zunächst die KI-Assistentin Doubao von ByteDance gefragt, um eine grobe Szenenaufteilung für ein neunfelder Video zu generieren. Dann habe ich eine sehr standardisierte Brain Rot-Video-Skript für das Thema "Rot oder blaue Tür" generiert.

(Quelle der Grafik: Lei Technology)

Ich muss sagen, dass Doubao derzeit immer noch nicht sehr gut bei der Interpretation von Szenenbildern ist. Das hat mir eine Menge Zeit gekostet.

Dann habe ich die Szenenaufteilung und das Skript an Seedance 2.0 übergeben.

Obwohl Seedance 2.0 derzeit maximal 15 Sekunden lange Videos unterstützt, können wir durch multimodale Eingabe das Ende des vorherigen Videos als Material für die Anforderung des nächsten Videos verwenden, um die Verbindung zwischen mehreren Szenen und die Konsistenz der Charaktere aufrechtzuerhalten. Am Ende können wir dann manuell das Video zusammenfügen.

Der gesamte Prozess hat mich einen halben Tag gekostet.

Wie soll ich das sagen? Obwohl die chinesische Sprachgenerierung von Seedance 2.0 weit über den ausländischen Konkurrenten liegt, gibt es immer noch Probleme wie inkompatible Untertitel und Stimme sowie Textfehler im Bild. Diese Probleme sind fast unvermeidlich.

Da es derzeit eine maximale Länge von 15 Sekunden gibt, wird die Stimme des fertigen Videos, wenn ich mehr Textinhalt eingebe, den gesamten Text mit einer sehr unnatürlichen hohen Geschwindigkeit vorlesen.

Außerdem habe ich dieses Mal ein relativ langes Video generiert. Man kann deutlich bemerken, dass Seedance 2.0 die Bewegung des Türöffnens immer sehr seltsam behandelt. Selbst nachdem ich alle kostenlosen Versuche aufgebraucht habe, konnte ich kein besseres Ergebnis erzielen, also musste ich aufgeben.

Was das Problem des "Kartenziehens" angeht... zumindest für die derzeitigen Videogenerierungsanwendungen ist es unvermeidlich.

Zusammenfassung

Meiner Meinung nach ist die Veröffentlichung von Seedance 2.0 ein echter Schub für die chinesischen Inhaltserzeuger.

Es ist unbestreitbar, dass Sora in Bezug auf die Kontinuität von Langaufnahmen und die künstlerische Qualität des Bildes immer noch der Br

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Echtzeit-Test von ByteDance Seedance 2.0: Störungen in der Sprachausgabe, fehlerhafte Untertitel. AI-Videos sind immer noch ein Spiel des Zufalls.

15 Sekunden Generierung, eine Stunde Warteschlange

Von der Texteingabe bis zum fertigen Video alleine erledigen, aber Sprachinkonsistenzen und Bildfehler bleiben weiterhin bestehen

Zusammenfassung