Künstliche Intelligenz auf der Gala des chinesischen Neujahrsfestes: Eine Prüfung für 1,4 Milliarden Menschen
Text | Lu Mosi
Editor | Wang Er
Wenn es noch die "Abstimmung auf das beliebteste Programm der Frühlingsgalas" gäbe, für welches Programm würdest du bei der Frühlingsgalas 2026 abstimmen?
"Das heißeste Programm der Frühlingsgalas"
"MVP"
"Jedes Bild ist wunderschön"
Dies sind die Kommentare von Internetnutzern zum Programm "Grüße an die Göttinnen der Blumen" bei der Frühlingsgalas 2026.
Als Bai Juyi im Boot auf dem Wasser saß und "Noch mitten im Wasser" vorlas;
Als der berühmte Maler Xu Wei mit einem Pinselstrich Blumen malte;
Als Wang Zhaojun die Brauen zusammenzog, sich umwandte und in die Richtung von Zhongyuan zurückblickte und dann die Pipa spielte;
Mein chinesisches Kultur-DNA wurde angeregt.
Bis das Programm endete und der Moderator sagte: "Volcano Engine hat mit der Bild- und Videoerzeugungsfähigkeit des Doubao-Großmodells die visuellen Effekte der zwölf Göttinnen der Blumen geschaffen", wurde vielen Zuschauern bewusst, dass die Fähigkeiten der KI so weit fortgeschritten waren.
Dies war auch die Frühlingsgalas der ZDF, die bisher am meisten KI- und Technologiegehalt hatte.
Zunächst einmal war dies ein visuelles KI-Wunderwerk für Milliarden von Menschen.
Nicht nur das wunderschöne Programm "Grüße an die Göttinnen der Blumen", sondern auch im Lied- und Tanzprogramm "Im Traum", als die Schauspielerin Liu Haocun auf der Bühne ihre Tänze ausführte, tanzten auch fünf realistische digitale Kopien auf der Bühnenkulisse eine Geschichte voller Freuden und Leid. Wenn die Kamera sich bewegte und das Licht auf der Bühne wechselte, synchronisierten sich auch die Perspektiven und das Licht der Kopien in Echtzeit.
Auch die Robotersketch von Cai Ming zog viele Blicke auf sich: Der Roboter konnte nicht nur Rückwärtsdrehungen machen, sondern auch Witze machen und Menschen verärgern - "Wenn der echte Enkel und der Roboter-Enkel ins Wasser fallen, wen rettet die Oma zuerst?" "Roboter: Wenn wir beide ins Wasser fallen, wirst du elektrisiert." - Nachdem Doubao schon bei der "technologischen Frühlingsgalas" gegen Luo Yonghao argumentiert hatte, war dies nur ein kleiner Einstand vor einer größeren Öffentlichkeit.
Als der Moderator mehrmals sein Handy nahm und den Zuschauern vor dem Bildschirm rief: Lassen Sie alle die Doubao-App öffnen, um ein neues Jahrswunsch für das Jahr des Pferdes zu generieren, lassen Sie Doubao ein Neujahrsbild basierend auf Ihrem eigenen Bild generieren...;
Diese Momente waren sehr bedeutsam.
Am Anfang des Jahres 2026 ist es schon unfashionabel, über die ultimative Vorstellung von AGI zu sprechen - die meisten menschlichen Vorstellungen gehen nicht über die allwissenden und allmächtigen KI-Assistenten in "Her" oder "Iron Man" hinaus.
Im Vergleich dazu ändert sich die uns nähere Realität heftig.
Am Silvesterabend belief die Gesamtzahl der Interaktionen mit Doubao-KI auf 1,9 Milliarden. Die Aktion "Doubao feiert das Jahr" hat den Nutzern bereits über 50 Millionen Neujahrsbilder und über 1 Milliarde Neujahrswünsche generiert. Am Silvesterabend erreichte die Spitzen-TPM (Token pro Minute) des Doubao-Großmodells von Volcano Engine genau in der Minute, in der der Moderator der Frühlingsgalas die zweite Runde der Interaktion mit Doubao ankündigte, einen Durchsatz von 63,3 Milliarden Tokens.
Das "technologische Wunderwerk" in der KI-Branche geht weiter. Vom Google Nano Banana des vergangenen Jahres bis zum kürzlich erschienenen "Krebskläuebot" Clawdbot und dem Videogenerierungsmodell Seedance 2.0 von ByteDance streben alle in eine Richtung: Nach jedem technologischen Ausbruch beschleunigt sich die Übertragung auf die Endnutzer rapide.
Große Unternehmen mit finanziellen Mitteln beschleunigen den Ausbruch dieser "Wunderwerke" durch Aktionen wie Geldgeschenke, die Frühlingsgalas und KI-Tee bestellen. Dies lässt den Neujahrs-Kampf 2026 als historischer Moment eingehen.
Dieser Moment hat zwei Dimensionen: Einmal ist es der Durchbruch der technologischen Grenzen - die KI hat erstmals auf einer nationalen Bühne eine bisher unmögliche Kreativität erreicht; der andere Moment liegt in der rapiden Senkung der Nutzungsbarrieren - die Zuschauer haben erstmals festgestellt, dass die KI nicht mehr ein fernes technologisches Rennen ist, sondern ein "hilfreicher" Assistent in ihrer Nähe.
Wie kann die KI-visuelle Wirkung die Ansprüche des Top-Kunden erfüllen?
Dieser "hilfreiche" Moment ereignete sich zuerst in der Vorbereitungsphase der Leitung der Frühlingsgalas.
Vor der Frühlingsgalas 2026 konnte der Ingenieur Xiaolin von Volcano Engine endlich beruhigt sein, als er sah, wie die inkschriftlichen rennernden Pferde aus der statischen Malerei heraussprangen und von Anfang bis Ende gleichmäßig und beeindruckend blieben.
Bevor die Leitung der Galas die Wirkung als akzeptabel bestätigte, konnte niemand vorhersagen, dass die Wirkung so gut sein würde - einschließlich der Leitung der Frühlingsgalas und Volcano Engine selbst.
△ Quelle: Lied "Gesang der Windreiter", Hintergrundanimation generiert mit Seedance 2.0
Vor über einem Monat gab die Leitung der Frühlingsgalas eine Anforderung an das Team von Volcano Engine. Die Anforderung schien einfach zu sein: Eine Inkschriftliche Malerei im Stil von Xu Beihong mit einigen Pferden in verschiedenen Stilen, die einfach laufen können, auch wenn es nur auf der Stelle ist.
Wo liegen die Grenzen des Großmodells? Kann es realisiert werden? Zumindest hatte der Ingenieur Xiaolin von Volcano Engine keine Antwort, als er die Anforderung der Leitung der Frühlingsgalas erhielt. "Ich war sehr unruhig.", sagte er in einem Gespräch mit 36Kr.
Damals war ByteDance damit beschäftigt, das neue Flaggschiff-Generierungsmodell Seedance 2.0 zu trainieren, und der Fortschritt lag nur bei etwa 30%.
Das KI-Videogenerierungsmodell eignet sich besonders gut für Projekte wie die Frühlingsgalas, die einen schnellen Rhythmus, viele Veränderungen und ständige Iterationen erfordern. Bevor das Team von Volcano Engine das Projekt übernahm, hatte die Leitung der Frühlingsgalas fast alle gängigen Videogenerierungsmodelle auf dem Markt getestet, aber schließlich festgestellt, dass keines in der Szene der Inkschriftlichen Malerei zufriedenstellend war.
Das Bildmaterial im Inkschriftlichen Stil ist ohnehin extrem rar. Die meisten ausländischen Modelle verstehen nicht einmal, was eine Inkschriftliche Malerei ist, da die Inkschriftliche Malerei eher auf die Ausdrucksweise als auf die Realität abzielt. Ohne Storyboard und dynamische Referenzen ist es schwierig, zu sagen, "wie eine bewegte Inkschriftliche Malerei aussehen sollte".
Aber nach dem Versuch stellte das Team fest, dass die von der Leitung der Galas gewünschten Effekte - Stilübertragung, Referenzgenerierung, feingranulare dynamische Kontrolle - genau mit der technologischen Richtung von Seedance 2.0 übereinstimmen, das sie gerade trainierten.
Die Leitung der Frühlingsgalas wurde somit der weltweit erste Top-Kunde von Seedance 2.0.
Der Vorteil eines Top-Kunden liegt darin, dass die künstlerische Qualität der Kunden erstklassig ist.
Am Anfang konnten das Team von Volcano Engine, bestehend aus Naturwissenschaftlern, sich nicht vorstellen, wie die mit dem Ausdrucksmalstil gemalten Linien und Haare auf den Pferden beim Laufen sich bewegen sollten. Sie mussten daher die Lehrer der Leitung der Galas bitten, das nächste Bild in ihrem Kopf zu skizzieren und dann wiederholt Videos mit KI zu generieren, um das "richtige" Gefühl zu erreichen.
△ Quelle: Lied "Gesang der Windreiter"
Selbst wenn das Modell ein dynamisches Pferdevideo generieren kann, gibt es noch das schwierigere Problem der Konsistenz: Es gibt sechs Pferde auf dem Bild, jedes mit einer anderen Farbe, einem anderen Aussehen und einer anderen Stimmung. Selbst wenn es möglich ist, ein Video von laufenden Pferden zu generieren, ist es schwierig, die sechs Pferde im Gleichgewicht zu halten, und sogar die Anzahl kann im nächsten Bild ändern.
Darüber hinaus muss sichergestellt werden, dass das Bild auch ausreichend fein und realistisch ist. Andernfalls können die kleinsten Fehler und Mängel auf dem echten HDR- und 8K-Ultrahochauflösungsscreen auf der Bühne der Frühlingsgalas vor Milliarden von Zuschauern nicht toleriert werden.
Die Lösung von Volcano Engine lautet: Befolgen Sie die Iterationslogik "erst nutzbar, dann zufriedenstellend". Generieren Sie zuerst die Schlüsselbilder und dann das dynamische Video auf der Grundlage der Schlüsselbilder, anstatt direkt aus einer Textdeskription zu generieren.
"Wir haben das Modell nicht speziell für die Frühlingsgalas angepasst", sagte das zuständige Team von ByteDance. Das Team hat eine klare Vorstellung von den Fähigkeitsgrenzen des Modells in jeder Trainingsstufe - es weiß, was es kann und was nicht. Mit dem Fortschritt des Trainings nutzen sie ständig die Fähigkeiten des Modells bis an die Grenzen.
Während des Fortschritts des Projekts der Frühlingsgalas hat die Rückmeldung von der Leitung der Galas auch den Trainingsschritt des Modells gefördert. "In der Spitze konnten wir pro Woche mehrere zehn bis über hundert Videoversionen iterieren, was für ein traditionelles Filmteam nicht erreichbar wäre.", sagte er.
Aber nur nach einem Monat brachte das Team von Volcano Engine ein erstaunliches Ergebnis hervor: Eine statische Inkschriftliche Malerei wurde in ein dynamisches Video von Minutenlänge mit komplexen Storyboards wie Dispersion, Aggregation, Nahaufnahmen und Interaktionen umgewandelt. Jedes Pferd lief nicht nur, sondern behielt auch seine eigene Perspektive und Eigenschaften. Die sechs Pferde zerstreuten sich, sammelten sich wieder und interagierten im Bild und kehrten schließlich in ein komplettes Bild zurück.
Das aktuelle Seedance 2.0-Modell kann derzeit höchstens 720P 24 FPS direkt ausgeben, was von den Bildqualitätsanforderungen der Frühlingsgalas noch etwas entfernt ist. Deshalb hat das Team von Volcano Engine sogar ein System zur Verbesserung der Bildqualität aufgebaut - dieses System analysiert zuerst die Elemente wie Menschen, Bewegung und Details im Bild und kombiniert verschiedene Algorithmen, um die Bildqualität auf das Niveau der Frühlingsgalas zu bringen.
Ein weiteres interessantes Phänomen ist, dass am Anfang, wenn die Leitung der Galas noch nicht weiß, was das Modell kann, muss das Modellteam ständig Vorschläge machen und sie den Künstlern vorlegen.
Aber wenn die Nutzbarkeit des Modells auf über 80 - 90% steigt, kehrt die Initiative der Kreativität um - die Leitung der Galas beginnt, frei nach Belieben kreative Anforderungen zu stellen, und das Modell kann stabile Reaktionen auf verschiedene feingranulare künstlerische Steuerungsbefehle geben. Das Designrecht der Storyboards kehrt wieder in die Hände der Regisseure zurück.
Wie ist der "Black Myth Moment" der chinesischen KI entstanden?
Ob es die zwölf Göttinnen der Blumen, die im Programm "Grüße an die Göttinnen der Blumen" tanzen und Gedichte sprechen, die rennenden Pferde im Programm "Gesang der Windreiter" oder die Neujahrs-KI-Interaktion der Doubao-App ist, alles hängt von einem Schlüsselwort ab: Das Videogenerierungsmodell Seedance 2.0 von ByteDance.
Seedance 2.0 wurde kurz vor dem chinesischen Neujahr eingeführt, und die globale Aufregung dauert noch an. Selbst der Gründer von Game Science, Feng Ji, hat es als "Black Myth Moment" der chinesischen KI-Branche bezeichnet.
Warum hat es so großen Einfluss?
Das liegt daran, dass das Videogenerierungsmodell erstmals den Sprung von der Generierung eines einzelnen