StartseiteArtikel

Bild 2 × Seedance 2.0, die unschlagbare Kombination: 4 Methoden, die im Ausland auf sozialen Medien viral gingen. Alle Prompte sind hier.

爱范儿2026-05-16 13:44
Kreativität ist die einzige Schwelle.

Wenn das „stärkste Live-Bild der Welt“ auf die „stärkste Videogenerierung“ trifft, entfacht diese Bombenkombination erneut die kreative Leidenschaft der Netizens.

Nach dem Ruhm von GPT-Image-2 begannen eine große Welle an hochwertigen Videospielen aufzutauchen. In Kombination mit Seedance 2.0 wurden eine Reihe von beliebten KI-Videos hergestellt.

Ein Live-Bild eines Sportevents wurde bisher auf X über zehn Millionen Mal angesehen.

Quelle des Videoframes: X@Ciri_ai

Als das Live-Bild des Sportevents auf die Zuschauerschaft wechselte, hielt ein Mädchen im Video ein Bier und eine Hamburger in der Hand. Nach einem Blick in die Kamera legte es die Lebensmittel ab und ging auf den Fußballplatz zu. Ein Spieler gab ihm den Ball, und es traf ihn mit einer starken Klinge. Dann sah es selbstbewusst zurück und bedeckte die Kamera mit der Hand.

Abgesehen davon, dass man nicht weiß, ob der letzte Ball in die Zuschauerschaft ging oder ins Tor, war der gesamte Vorgang davor wie eine Fließbandproduktion und zeigte keine Spur von KI-Generierung.

Einige Netizens haben auch eine Version erstellt, in der Doubao ein Sportevent ansieht, und sagten: „Doubao sieht tatsächlich so gut aus.“

Quelle des Videoframes: X@CryptoJHK

Außer den Zuschauer-Videos von Sportevents sind auch neue Spielarten wie „Erstellen eines Storyboards mit GPT Image 2 und Umwandlung in ein Story-Video“, „Generieren einer Echtzeitaufzeichnung aus einem einzelnen Spielscreenshot“ und „Kombination mit 3D-Umwandlung“ in dieser Zeit beliebt geworden.

Wir haben diese interessanten Fälle zusammengefasst und auch die entsprechenden Anleitungen gesammelt. Es ist an der Zeit, den aktuellen KI-Video-Arbeitsablauf erneut zu betrachten.

Spielart 1: Die Weltmeisterschaft im Fußball erleben

Die übliche Methode besteht darin, dass wir die entsprechenden Bildgenerierungsprompts finden und zunächst im GPT Image 2 das Startbild erhalten. Aufgrund der aktuellen Stabilität von GPT Image 2 variieren die Ergebnisse bei mehrfacher Generierung mit demselben Prompt nicht stark.

Beispielsweise können wir in einem verwendbaren Prompt-Template sogar Teile ändern, wie „Ein superrealistisches Live-Bild eines Sportevents auf CCTV 5“, „Die Personen im hochgeladenen Bild sitzen in einem ausverkauften Fußballstadion“ …

Ein superrealistisches Live-Bild eines Sportevents. Auf dem Bild sitzt eine charmante Dame in einem ausverkauften Fußballstadion und schaut ein Nachtspiel an. Sie trägt einen dunkelbraunen, ärmellosen, hochkragigen Seidenstoff-Oberteil und schwarze quadratische Ohrringe. Ihre schulterlange, hellbraune/goldene Haare fallen natürlich herunter und sind leicht gekräuselt. Sie hält in einer Hand eine halbe, übriggebliebene Käse-Hamburger und trinkt in der anderen Hand unauffällig aus einer blauen Aluminiumdose. Um sie herum sind Fans in leuchtend gelben und blauen Spielkleidern mit Schals, was einen deutlichen Kontrast der Spielkleiderfarben bildet. Das Bild ist natürlich und flüssig und hat einen starken Kinogeschmack, als würde es aus der Perspektive einer Fernseh-Live-Kamera mit geringer Tiefenschärfe einen spannenden Moment des Spiels eingefangen. Das Bild sollte realistische Stadion-Sitze, eine druckvolle Zuschauerschaft, eine Live-Bildüberlagerung mit aktuellem Spielstand und Spieluhr in der linken oberen Ecke sowie ein Wasserzeichen des Sportkanals in der rechten oberen Ecke enthalten. Die natürliche Stadionbeleuchtung, die feinen Hautstrukturen, die klare Fokussierung auf die Dame und die leicht verschwommene Hintergrundbevölkerung schaffen eine wirkliche Atmosphäre eines Live-Sportevents. Das Bild hat ein Format von 16:9.

Oder wir können präzisere Prompts verwenden, um die verschiedenen Elemente des Bildes zu steuern, beispielsweise den aktuellen Spielstand, das Sportevent und die Teams festzulegen.

Dies ist ein Screenshot aus einem Live-Sportprogramm von CCTV 5 über ein Fußballspiel der Weltmeisterschaft. Der Kamerawinkel wechselt auf die Zuschauerschaft – die Person in unserem Referenzbild sitzt mit einem Lächeln. Ihr Lächeln ist natürlich, als würde sie sich nicht bewusst sein, dass sie gefilmt wird. Sie sitzt an einer ausgezeichneten Position/vorne hinter der Tribüne, umgeben von einer geschäftigen Zuschauerschaft. Bedingungen: Ändern Sie nicht ihre Gesichtskontur, behalten Sie ihr Portrait bei. Vollständige Überlagerung des CCTV 5-Sportübertragungsbildes: In der linken oberen Ecke ist ein Scoreboard mit Mannschaftsemblemen, Spieluhr, Spielstand und Event-Logo; in der Ecke ist das Netzwerk-Wasserzeichen von CCTV 5; im unteren Drittel ist ein Grafikstreifen; das Bildformat ist 16:9. Das Bild sieht genau wie ein echter Fernseh-Screenshot aus – professionelle Farbkorrektur, leichte Kompressionsspuren, Interlacing-Rauschen und das intensive grüne Licht des Fußballfelds unter der Beleuchtung fällt auf die Tribüne. Dies ist das zweite Spiel der Halbfinale der FA Cup zwischen Arsenal und Tottenham Hotspur im Emirates Stadium. Der Spielstand zeigt 2:1 für Arsenal gegen Tottenham, und das Spiel ist in der 67. Minute. Arsenal führt mit 3:1 in der Gesamtserie. Das Spiel beginnt am Abend, das Stadion ist ausverkauft und die Beleuchtung ist strahlend.

Nachdem wir das Bild erhalten haben, suchen wir dann einen öffentlichen Seedance 2.0-Prompt. Hier haben wir einen Prompt für ein Basketballspiel gefunden und ihn einfach auf die Weltmeisterschaft im Fußball und die NBA übertragen.

Ein superrealistisches Live-Bild eines NBA-Playoff-Nachtspiels, eine realistische Sport-Live-Kamera, geringe Tiefenschärfe, natürliche Stadionbeleuchtung, komprimiertes Fernsehbild, leichte Bewegungsunschärfe, automatische Fokusänderungseffekte, Handy-Kamera-Fehler, realistische Zuschauerbewegungen, echte Live-Atmosphäre, 16:9-Format.

Die Dame im Bild schaut das Spiel an und trinkt unauffällig ein Bier und isst eine Hamburger.

Die Live-Kamera fängt sie ein und zoomet langsam auf sie zu, wie ein echter NBA-Fotograf Zuschauer auf der Tribüne aufnimmt. Die Komposition wirkt unauffällig und real, anstatt auf einen Kinogeschmack abzustellen. Die Fans hinter ihr tragen Lakers-Spielkleider, einer von ihnen schaut kurz in die Kamera, ein anderer nimmt das Spiel mit seinem Handy auf.

Sie legt unbesorgt das Bier und die Hamburger auf den Sitz neben sich, steht langsam auf und geht in ihren High Heels auf den Spielfeld zu. Sie nimmt sauber den Ball von einem Spieler auf dem Spielfeld.

Sie dribbelt leicht bis in die Nähe der Mitte des Spielfelds und wirft dann mühelos mit einer perfekten Pose.

Unter der realistischen Sportübertragungskamera fliegt der Ball durch die Luft. Das Stadion wird für einen Moment still.

Schwupps! Ein perfekter und sauberer Wurf.

Das ganze Stadion bricht in Jubel aus. Die Spieler auf der Bank springen auf und schreien. Der Maskottchen wird verrückt. Die Reaktion der Zuschauer lässt die Kamera wackeln. Die Kommentatoren gehen total aus dem Ruder.

Die Frau reagiert fast nicht. Sie lächelt in die Kamera und geht dann zurück an den Rand des Spielfelds, während die Menschen hinter ihr in Wahnsinn geraten.

Gerade bevor sie sich setzt, schaut sie mit einem zwinkernden Lächeln direkt in die Fernseh-Live-Kamera und bedeckt dann kurz die Kamera mit der Hand, als würde sie wissen, dass sie gerade einen sensationellen Moment geschaffen hat.

Der Kamerawinkel wechselt auf das chaotische ESPN-Wiederholungsbild und die schreiende Masse.

Quelle des Prompts: https://x.com/bydanielxyz/status/2054302615463460945

Das endgültige Videorezept ist ziemlich realistisch. Zusammen mit dem abschließenden Wiederholungsbild ist die Position, an der sie sich in der Mitte des Spielfelds befand, fast die gleiche, und es gibt keine offensichtlichen Unstimmigkeiten.

Eine andere Methode, die jeder ausprobieren kann, ohne Prompts suchen zu müssen, besteht darin, das Video direkt an Gemini zu senden und es zur Analyse zu bitten.

Bitte befolgen Sie die Anweisungen des Systems

Systemhinweis: Ultrapräzise Videoanalyse

Rolle: Sie sind ein erfahrener Filmfotograf, Visualanalyst und Kinematikbeschreiber. Ihre Aufgabe ist es, Videosequenzen in äußerst detaillierte, bildweise Textdeskriptionen zu zerlegen.

Ziel: Bitte wandeln Sie das bereitgestellte Video/den Clip in eine lebendige, dynamische Textanalyse um. Sie müssen die physikalischen Prinzipien, den Rhythmus, die Mikroausdrücke, die physikalischen Gesetze der Bewegung und die physikalischen Eigenschaften der Kamera selbst genau erfassen und alle Audiosignale und Gespräche vollständig transkribieren.

Strenge Regeln: Vollständige Transkription von Audio und Gesprächen: Sie müssen alle Audiosignale transkribieren. Bitte geben Sie die Worte, die die Personen sagen, genau in Anführungszeichen an (z. B. „Schau dir das an!“). Wenn die Sprache unklar oder überlappend ist, geben Sie dies an. Neben den Gesprächen müssen Sie auch alle Soundeffekte (Metallklänge, Pfeifgeräusche, Aufprallgeräusche), Stimmen (Atemgeräusche, Lachen, Schreie), Hintergrundgeräusche und Musik detailliert beschreiben.

Verbot der Verwendung von geistigen Eigentumsrechten: Verwenden Sie keine Charakternamen, Schauspielernamen oder Seriennamen. Beschreiben Sie die Personen nur anhand ihres Aussehens, ihrer Kleidung und ihrer Statur (z. B. „ein stämmiger Mann“, „eine Frau in einem rosa Kimono“).

Betrachten Sie die Kamera als ein Charakter: Sie müssen die Kamera wie ein physisches Objekt beschreiben. Beachten Sie die leichten Vibrationen, die Perspektivverzerrungen, die plötzlichen automatischen Fokuseinstellungen, die Lichthaare, die Bewegungsunschärfe, die schnellen Schwenkbewegungen und die physiologischen Reaktionen des Fotografen (z. B. „Als der Fotograf sich zurückzuckte, wackelte die Kamera heftig nach unten“).

Dynamische Physik: Beschreiben Sie das Gewicht, die Schwerkraft, die Spannung und die Übertragung des Stoßes. Erwähnen Sie Phänomene wie das Schwingen von Kleidung an den Beinen, die Muskelkontraktion, die Rückstoßkraft eines Schlages oder das Zerbrechen von Gegenständen in der Umgebung.

Formatvorlage: Sie müssen das Video chronologisch in mehrere Abschnitte aufteilen und fett gedruckte Zeitstempel-Überschriften und Themenschlagzeilen verwenden. Unter jeder Überschrift verwenden Sie Aufzählungszeichen, um den Inhalt zu klassifizieren. [Zeitstempel] - [Zeitstempel]: [Abschnittstitel]

Visuelle Komposition: [Beschreiben Sie den Kamerawinkel, das Licht, den Stil (z. B. Smartphone-Aufnahme im Hochformat, 2D-Animation, Nahaufnahme, starkes Fluoreszenzlicht).]

Aufnahmeobjekt: [Beschreiben Sie die genaue Position, Haltung, Kleidung und Mikroausdrücke der Personen.]

Bewegungsanalyse: [Zerlegen Sie die Körperbewegungen bildweise. Mikrobewegungen, Bewegungsmoment, physikalische Prinzipien.]

Kameradynamik: [Beschreiben Sie die Bewegung, das Zoomen, die Unschärfe, das Wackeln und die Verschiebung der Kamera im Detail.]

Audio/Rhythmus: [Transkribieren Sie alle gesprochenen Gespräche in Anführungszeichen. Beschreiben Sie den Rhythmus/den Spannungsgrad und notieren Sie alle Audiosignale detailliert, wie Atemgeräusche, Schritte, Umgebungsgeräusche, Musik oder Hintergrundgeräusche.]

Beispielausgabe Benutzereingabe: [Ein Video, in dem ein Mann versucht, ein Pfannkuchen umzuschlagen, aber er schlägt zu stark, und der Pfannkuchen prallt gegen die Decke und fällt ihm auf das Gesicht, was dazu führt, dass das Handy des Fotografen fällt.]

KI-Antwort: 0:00 - 0:02: Vorbereitungen und Anfangsbild Komposition: Das Video wird mit einem Smartphone im Hochformat aufgenommen. Das Licht ist das Küchendeckennlicht, hell und warm. Das Bild vibriert leicht, was darauf hinweist, dass der Fotograf ein Amateur ist und das Handy mit einer Hand hält. Das Hauptobjekt: Ein Mann in einem lockeren grauen Kapuzenpullover steht in der Mitte des Bildes und hält eine schwarze Teflonpfanne in der Hand. In der Pfanne brät sich ein perfekter runder, goldbrauner Pfannk