Alibaba Cloud AI to Open-Source Olympics Technology: How Does Tens of Thousands of Frames of Imagination Support This Winter Olympics Opening Ceremony Blockbuster?
01
Ein Großprodukt für die Eröffnung der Olympischen Winterspiele, das von Tausenden von "Regisseuren" inszeniert wird?
Die Eröffnung der Olympischen Winterspiele in Mailand - Cortina d'Ampezzo rückt immer näher.
Nach vielen Jahren wird Italien erneut Gastgeber der Olympischen Winterspiele, und die Weltlenkung richtet sich wieder auf das Land, das die Renaissance und die moderne Industrie hervorgebracht hat. Für die meisten Sportfans kehrt die vertraute Erwartung zurück - das Stadion, die Rekorde und die Sieger bleiben immer noch die zentralen Themen der Olympischen Winterspiele.
Aber ein "Überraschungselement" ist, dass die Aufmerksamkeit, die diese Olympischen Winterspiele wecken, sich von innen auf das Stadion hinaus in einen breiteren öffentlichen Raum ausbreitet.
Dies liegt an einem Kurzfilm namens "Your Epic Vibe", der kurz vor der Eröffnung veröffentlicht wurde.
Im Gegensatz zu den bisherigen offiziellen Promofilmen, die von professionellen Teams mit einem einheitlichen Stil erstellt wurden, zeigt dieser Kurzfilm in visueller und narrativem Hinsicht eine deutliche "Nicht-Einheitlichkeit": Die Bildstile variieren, die Hauptfiguren sind nicht auf reale Athleten beschränkt, und die emotionalen Ausdrücke drehen sich nicht mehr nur um Sieg und Ehre.
Mit dem Eintritt von KI und AIGC in die öffentliche Diskussion werden die Art und Weise, wie Sportevents angesehen, verbreitet und an denen teilgenommen wird, neu gestaltet: Die Zuschauer beginnen nicht nur, Informationen zu empfangen, sondern auch an der Generierung und Erzählung von Inhalten teilzunehmen. Die Frage, wie man in einer hochfragmentierten Medienumgebung weiterhin eine Verbindung zu einer breiteren Öffentlichkeit herstellen kann, wird zu einer realen Herausforderung für die Olympischen Spiele.
Die Reife der Künstlichen Intelligenztechnologie bietet den Olympischen Spielen eine neue Möglichkeit. Mit dem Eintritt von KI und AIGC in die öffentliche Diskussion werden die Schwellen für die Kreativität und die Kosten für die Expression deutlich gesenkt, und die Inhaltsgenerierung ist nicht mehr auf wenige professionelle Teams beschränkt. Vor dem Hintergrund einer zunehmend verbesserten Infrastruktur beginnen die Olympischen Spiele, eine neue Methode zu erkunden - mehr normale Zuschauer durch ihre Expression an den Spielen teilnehmen zu lassen.
Dies verleiht "Your Epic Vibe" von Anfang an einen anderen Charakter. Die Materialien für diesen Kurzfilm stammen aus den KI-generierten Werken von normalen Zuschauern aus der ganzen Welt. Diese Kreativität wird von der "Mailand Winterspiele AIGC Global Wettbewerb" unterstützt, der von der Internationalen Olympischen Komitee, Alibaba Cloud und der Organisationskomitee der Olympischen Winterspiele in Mailand - Cortina d'Ampezzo gemeinsam initiiert wurde.
Wintersportfans aus verschiedenen Ländern und Regionen können auf der Grundlage von Alibaba Cloud Wanxiang AI durch Textbeschreibungen Bilder und Videos zu Disziplinen wie Eiskunstlauf, Kurzstrecken-Eishockey, Alpinskifahren und Snowboarden generieren. Die Teilnehmer müssen keine professionellen Aufnahme- oder Schnittkenntnisse haben und müssen sich auch nicht mit den komplexen Details der Sporttechnik befassen. Sie müssen nur ihre Vorstellung von den Olympischen Winterspielen in Worten ausdrücken, um ihre Werke zu erstellen.
Die Veranstalter des Wettbewerbs haben die Teilnahme möglichst einfach gestaltet: Die Benutzer müssen keine zusätzlichen Anwendungen herunterladen und können die Werke direkt über den Browser erstellen; Die natürliche Eingabe in verschiedenen Sprachen kann von dem Modell verstanden und in Bilder und Videos umgewandelt werden; Die generierten Werke werden direkt in den offiziellen Präsentations- und Auswahlprozess aufgenommen, um einen vollständigen Zyklus von der Kreativität bis zur Verbreitung zu bilden.
Bis jetzt haben bereits Tausende von Werken aus über hundert Ländern und Regionen am Wettbewerb teilgenommen, was zu hunderte von verschiedenen Stilen führt, die von den verschiedenen Künstlern ausgedrückt werden. Einige betonen Geschwindigkeit und Kraft, andere bevorzugen Romantik und Phantasie, und wieder andere projizieren ihre kulturellen Symbole in die Schneescenen... Die besten Werke werden schließlich zu dem "Your Epic Vibe" zusammengestellt, das wir jetzt sehen.
Deshalb hat dieser Kurzfilm eine andere Bedeutung als die bisherigen Promomaterialien für die Olympischen Winterspiele - er lässt die "Expression" der Zuschauer selbst zu einer Form der Teilnahme werden - was auch mit dem offiziellen Motto der Olympischen Winterspiele in Mailand - Cortina d'Ampezzo "IT’SYOURVIBE" übereinstimmt.
Angesichts der Tatsache, dass KI zu einer grundlegenden Fähigkeit geworden ist, versuchen die Olympischen Spiele, ihre Erzählung durch die Kreativität, das Verständnis, die Emotionen und die Phantasie der Zuschauer neu zu gestalten, um eine neue Art der Fortsetzung zu finden.
02
Warum genau in diesem Jahr AIGC-Ko-Kreativität?
Wenn man sich die Erzählstruktur der Olympischen Spiele in den letzten hundert Jahren anschaut, ist sie sehr klar und konzentriert.
Über einen langen Zeitraum hinweg wurden die Geschichten der Olympischen Spiele hauptsächlich von drei Akteuren gemeinsam erzählt: offiziellen Organisationen, Hauptstrangmedien und Übertragungsgesellschaften. Der Schwerpunkt der Geschichten lag immer auf Helden, Siegen und Niederlagen, nationalen Symbolen und Rekorden. In diesem System war die Teilnahme der normalen Zuschauer aus der ganzen Welt relativ einseitig, nämlich das Zuschauen der Spiele und das Ausdrücken von Jubel, Enttäuschung, Stolz und Verlust in einem vorgegebenen Kontext. Dieses System war in der Radio- und Fernsehzeit sinnvoll und effizient - wenn die Übertragungskanäle rar und die Ausdrucksinstrumente begrenzt waren, war die zentrale Erzählung fast die einzige praktikable Option.
In den letzten Jahren steht jedoch diese Struktur vor neuen realen Umständen.
Die Veränderungen beginnen zunächst auf der Medienebene. Kurzvideos, soziale Plattformen und Algorithmen haben die Aufmerksamkeit immer mehr zerschnitten, und die Zuschauer springen oft zwischen verschiedenen Plattformen hin und her, um Fragmente, Spoiler und zweitgewonnene Inhalte zu sehen. Die Daten der Internationalen Olympischen Komitee zeigen, dass während der Olympischen Winterspiele 2022 in Peking die Interaktionen auf ihren offiziellen sozialen Medien-Konten 3,2 Milliarden Mal erreicht haben, fast doppelt so viel wie bei den Olympischen Winterspielen in Pyeongchang.
Aber hinter diesen Zahlen verbirgt sich auch eine Realität: Selbst ein Super-IP wie die Olympischen Spiele hat nicht mehr automatisch die volle Aufmerksamkeit der Zuschauer. Die Leute interessieren sich immer noch für die Spiele, aber ihre Aufmerksamkeit ist inzwischen auf verschiedene Plattformen verteilt. Insbesondere junge Zuschauer teilen, schneiden, machen Witze und kreieren neue Inhalte zusätzlich zum "Zuschauen" - die emotionalen Ausdrücke werden vielfältiger, aber auch schwieriger von einer einheitlichen offiziellen Erzählung abgedeckt.
Deshalb haben die Olympischen Spiele in den letzten Jahren verschiedene Interaktionsmöglichkeiten ausprobiert: Abstimmungen, "Gefällt mir", Themensammlungen, UGC-Bildsammlungen... Die Formen ändern sich, aber die Essenz bleibt die gleiche - die Grenzen der Zuschauerausdrücke werden nicht wirklich erweitert.
Der echte Wendepunkt kommt erst nach der Reife der AIGC-Technologie und ihrem Eintritt in die öffentliche Anwendung.
Einerseits senkt die KI-Generierung die Schwellen für die Expression auf ein Minimum. Bilder und Videos sind nicht mehr das Alleingang von professionellen Teams, und normale Menschen können auch ohne Kenntnisse in Schnitt und Effekten vollständige und ansprechende Werke erstellen; Andererseits macht die Videogenerierung die Expression direkter und eindrucksvoller.
Die Olympischen Winterspiele in Mailand stehen genau an diesem Zeitpunkt. Die Organisatoren haben beschlossen, die Kreativität selbst in das System aufzunehmen: Unter kontrollierbaren und auswählbaren Bedingungen wird die Expression der Masse in großem Maßstab akzeptiert.
Dies füllt auch eine Lücke in der AIGC-Videogenerierung. In der Vergangenheit konnte die AIGC-Videogenerierung nicht an die Masse gehen, weil die Benutzer nicht wussten, "warum" und "für wen" sie etwas machen sollten, d. h. es fehlten stabile kreative Motive und klare Rückmeldungsszenarien. Deshalb war es schwierig, dass Videos, eine kostspielige Form der Expression, wie Bilder kontinuierlich erstellt werden konnten.
Die Beteiligung der Olympischen Winterspiele füllt genau diese Lücke: Sie ist selbst das stärkste Erzählungsszenario und bietet den Werken einen klaren Zweck und eine Bühne, um gesehen zu werden.
Deshalb befinden sich die Olympischen Winterspiele in diesem Jahr an der Schnittstelle zwischen technologischem Aufbruch und narrativer Veränderung. Dies ist sowohl eine sensible Reaktion auf die strukturelle Veränderung der Verbreitungslandschaft, als auch eine volle Achtung der subjektiven Stellung der Zuschauer, und vor allem eine bahnbrechende Experimentierung auf dem Weg zur Verlängerung des Langzeitwerts des Sportevents.
03
Technologie, Ausdruck und Voraussetzung für die Fortsetzung
Hinter allen grandiosen Erzählungen steckt die Entwicklung der zugrunde liegenden Technologie als eigentlicher Treiber.
Seit langem ist die Schwelle für die Bild- und Videokreativität nicht niedrig. Selbst in der KI-Zeit ist der Produktionsprozess von Bildern und Videos immer noch getrennt: Generierung, Bildbearbeitung, Schnitt, Musik und Ausgabe - jeder Schritt kann ein Hindernis für die Teilnahme darstellen. Und sobald die Generierungsergebnisse instabil sind, wird der Ausdruckswunsch der Benutzer schnell erschöpft.
Im Gegensatz zu künstlerischen Stilfiltern ist der Wintersport eine extreme Simulation der physikalischen Gesetze. Deshalb wird die technologische Schwelle in der Olympischen Winterspiele-Szene noch höher gesetzt.
Was noch anspruchsvoller ist, ist, dass diese Videos oft nur wenige Sekunden lang sind und keine langen Handlungen haben, um die Aufmerksamkeit zu zerstreuen. Jeder Frame wird unter der extremen Prüfung der menschlichen dynamischen visuellen Wahrnehmung gestellt. Die Beteiligung des Videosgenerierungsmodells von Alibaba Cloud Wanxiang, insbesondere die Lösung der repräsentativsten Probleme, bietet die technologische Sicherheit für dieses gemeinsame Projekt der ganzen Nation.
Zunächst ist es die Bewegungsstabilität bei hoher Geschwindigkeit. Das Gleiten, Springen, Drehen und Landen bilden eine hoch gekoppelte Bewegungskette, und die Körperhaltung ändert sich in kürzester Zeit drastisch. Dies erfordert, dass jeder generierte Frame vernünftig aussieht und dass in aufeinanderfolgenden Frames eine stabile Knochenstruktur und Gelenkbindung aufrechterhalten wird. Andernfalls können Gliedmaßenverschiebungen, Verformungen und Zerrungen zu einem "Körperversagen" führen.
Um dieses Problem zu lösen, hat Alibaba Cloud Wanxiang während der Trainingsphase die Modellierung der Zeitdimension explizit verstärkt. Durch die kombinierte Beschränkung von Körperhaltungsänderungen und Bewegungsbahnen wird dem Modell bei der Generierung vorgezogen, die Kontinuität der Bewegungslogik sicherzustellen, um so in einem 5 - 15 Sekunden langen Videofenster einen vollständigen und glaubwürdigen Bewegungszyklus aufrechtzuerhalten.
Zweitens ist es die physikalische Realität, insbesondere in Bezug auf die Reaktion der Umgebung auf die Bewegung des Subjekts. Das Spritzen von Schneeflocken in der Schneescene gehört zu den typischen komplexen Partikelsystemen. Eine große Anzahl von halbtransparenten Partikeln bewegt sich gleichzeitig unter verschiedenen Geschwindigkeiten, Richtungen und Beleuchtungsbedingungen, was hohe Anforderungen an die zeitliche Modellierung und die Lichtkonsistenz des Modells stellt. Viele Modelle neigen dazu, die Details in diesem Schritt zu unscharfen, zusammenklebenden Farbflecken zu verringern.
Wanxiang hat während der Generierung explizite Beschränkungen und Simulationsfähigkeiten für die physikalischen Gesetze eingeführt, um die Umgebungspartikel, die Materialreaktionen und die Bewegung des Subjekts in die gleiche Generierungslogik zu integrieren: Die Streuungstrajektorie der Schneeflocken hängt von der Gleitgeschwindigkeit und -richtung zusammen, und die Bewegungsunschärfe und die Licht- und Schattenänderungen werden auch synchron mit der Kamerabewegung generiert, um ein abrupteres Aussehen zu vermeiden.
Noch herausfordernder ist die Kamerasprache im Kontext der Sportübertragung. Hochgeschwindigkeitsnachführung, schnelles Zoomen und Bewegungsunschärfe erfordern, dass das Subjekt klar bleibt, während der Hintergrund angemessen unscharf gemacht wird. Wenn das Videogenerierungsmodell beim Gleichgewicht zwischen Subjektsschärfe und Unschärfegrenze scheitert, kann es leicht zu einer instabilen Kontur oder einer Verformung ähnlich dem "Gelee-Effekt" kommen. Wanxiang hat durch die Einführung mehrerer visueller Beschränkungen während der Inferenzphase die Struktur des Sub