StartseiteArtikel

Der nächste Schritt bei AI-Videos: Nicht das Schneiden, sondern die Simulation

AI深度研究员2025-11-06 10:24
Dieser Artikel wird den Kerngedanken des Sora-Teams wiederherstellen: Wie haben sie es geschafft, dass das Videomodell von der Generierung von Bildern zur Verständnis der Gesetze des Weltablaufs übergeht? Wie bringt dieser technische Ansatz die KI-Videos an den kritischen Punkt des Agenten-Emergens heran?

Eine tiefe Analyse von OpenAI Sora 2, die betont, dass seine Kernposition sich von einem herkömmlichen Videogenerierungstool zu einem "Welt-Simulator" gewandelt hat. Der Artikel erklärt, wie Sora 2 Technologien wie den Diffusion Transformer (Dit) und "Raum-Zeit-Blöcke" nutzt, um es dem Modell zu ermöglichen, die Betriebsgesetze und kausalen Beziehungen der physischen Welt zu verstehen und zu simulieren, wodurch es anfängliche Merkmale des Agenten (Intelligenten) aufweist, wie z. B. die Dauerhaftigkeit von Objekten und die vernünftige Beurteilung von Handlungslogiken. Darüber hinaus diskutiert der Artikel, wie die Schlüsselproduktfunktion Cameo durch die Möglichkeit, dass Benutzer sich und ihre Freunde in generierte Videos einfügen können, ein sozial getriebenes generatives Netzwerk aufbaut, und blickt auf das Potenzial von Sora 2 als Einstiegspunkt für die "digitale Klonung" und das "Multiversum-Betriebssystem" der Zukunft.

Kürzlich hat OpenAI angekündigt, dass die Nutzungsrechte für Sora 2 weiter erweitert werden und keine Einladungscode mehr erforderlich ist.

Dies ist nicht nur eine Freigabe der Rechte, sondern auch eine Wende im technologischen Ansatz.

(Die App Store-Seite von Sora 2 für Android, die zum Download freigegeben ist)

Sie müssen nicht mehr filmen, schneiden und exportieren. Geben Sie einfach ein paar Sätze ein, und die KI kann basierend auf einem Sekundenweise-Skript ein vollständiges Video generieren. Es wird nicht durch das Zuschneiden von Bildern erstellt, sondern durch die Schritt-für-Schritt-Simulation des Betriebs der Welt.

Wenn man sagt, dass Sora 1 ein Bildverstärker ist, dann ist Sora 2 der Anfang eines Welt-Simulators.

Bei einem Interview am 5. November gab Bill Peebles, der Leiter der Produktforschung, eine klare Einschätzung:

Sora ist ein Welt-Simulator (World Simulator), kein Generator.

Dieser Artikel wird den Kerngedanken des Sora-Teams wiedergeben:

Wie haben sie es geschafft, dass das Videomodell von der Generierung von Bildern zur Verständnis der Betriebsgesetze der Welt wechselte? Wie bringt dieser technologische Ansatz die KI-Videos an den kritischen Punkt des Agenten-Emergens?

Abschnitt 1 | Technologische Grundlage: Warum wird die Videogenerierung zur Welt-Simulation?

Bill Peebles von OpenAI ist der Erfinder des Diffusion Transformer (Dit), der die Schlüsseltechnologie ist, die Sora von der Bildverstärkung zur Weltkonstruktion bringt.

Dit generiert nicht wie ein Sprachmodell token für token, sondern es ist der Prozess, ein vollständiges Video aus einer Menge von Rauschen wiederherzustellen. Frühere Videogenerierungssysteme hatten das Problem, dass die Videos auf der Zeitachse auseinanderbrachen. Die Bewegung in der ersten Sekunde war vernünftig, aber in der vierten Sekunde verschwand plötzlich der Arm, und in der siebten Sekunde kollabierte der Hintergrund.

Warum?

Weil die meisten Modelle nicht in der Lage waren, die komplexe Beziehung zwischen Zeit und Raum gleichzeitig zu verarbeiten. Die Bilder hatten keine Erinnerung aneinander und keine physische Logik.

Sora wechselte den Ansatz.

Es verarbeitet nicht mehr Bild für Bild, sondern es teilt das Video in kleine Würfel auf, wobei jeder Würfel Informationen über Position, Bild und Zeit enthält.

Peebles nennt dies "Raum-Zeit-Block" (space-time patch) oder "Raum-Zeit-Token" (space-time token). Man kann sich einen kleinen Quader vorstellen, der sowohl die räumlichen Dimensionen X und Y als auch eine zeitliche Lokalität enthält. Diese Struktur ist die kleinste Einheit des visuellen Generierungsmodells. Das heißt, Sora zeichnet nicht einfach Bilder, sondern es versteht und organisiert eine dreidimensionale zeitliche Struktur.

Thomas Dimson fügte hinzu: Die Aufmerksamkeitsmechanik wird hier zu einer global geteilten Erinnerung, die es dem Modell ermöglicht, die Informationen der ersten Sekunden in die späteren Bilder zu integrieren.

Deshalb hat es nun die Fähigkeit, die Dauerhaftigkeit von Objekten zu gewährleisten, was für frühere KI-Videomodelle fast unmöglich war.

Sora 2 kann sicherstellen, dass eine Figur von Anfang bis Ende dasselbe Kleidungsstück trägt, dass das Objekt in der Hand nicht mysteriös verschwindet und dass die Figur auch bei komplexen Bewegungen und Kamerabewegungen die Richtung beibehält. Dies wird nicht durch "Etikettieren" oder das Hinzufügen von Regeln erreicht, sondern das Modell versteht natürlich, dass es sich um einen kontinuierlichen Entwicklungsprozess der Welt handelt.

Peebles betonte: Das Videomodell von Sora hat zu jedem Zeitpunkt den globalen Kontext des gesamten Bildes, was es ihm ermöglicht, die Kontinuität der realen Welt zu bewahren.

Für Nicht-Techniker bedeutet dies: Sie müssen keine Zeitachse, Kamerareihenfolge oder Figurenlogik angeben, Sora kann selbst herausfinden, wer in diesem Video was tut, wie lange es dauert und wie es enden sollte.

Es hat die Art und Weise, wie KI-Videos generiert werden, grundlegend neu strukturiert.

  • Es simuliert die Welt anstatt Fragmente zu synthetisieren.
  • Es entwickelt sich nach Regeln anstatt Bild für Bild gerendert zu werden.
  • Das Modell versteht immer besser die Szene anstatt immer besser Bilder zu malen.

Es geht nicht nur darum, dass die Bilder realistischer aussehen, sondern Sora lernt, eine Welt mit physikalischen Gesetzen abzuleiten.

Abschnitt 2 | Anfänge der Intelligenz: Ab welchem Bildschirmaufnahme beginnt der Agent aufzutauchen?

Nach Ansicht des Forschungsteams von OpenAI besteht der größte Unterschied von Sora nicht darin, dass die Bilder flüssig und die Bewegungen realistisch sind, sondern dass das Modell beginnt, die Szene wie ein Intelligenz zu behandeln.

Bill Peebles sagte: Wir wollen nicht nur coole Videos machen, sondern das Modell soll ein grundlegendes physikalisches Verständnis hinter den Bewegungen haben.

Dies bedeutet, dass Sora nicht nur Bewegungen nach Anweisung generiert, sondern auch beurteilt, ob diese Bewegungen stattfinden sollten und ob sie logisch sind.

Der Moderator gab vor Ort ein Beispiel: Wenn der Hinweis "Ein Basketballstar wirft einen Freiwurf" ist, würde ein früheres Modell wahrscheinlich einfach den Ball ins Basketballkorb werfen lassen, weil dies den Benutzern gefällt. Aber Sora 2 macht es nicht so.

Peebles beschrieb es so:

"Wenn er nicht trifft, wird der Basketball tatsächlich zurückprallen. Das Modell wird nicht den Ball in den Korb zwängen, auch wird es die Schwerkraft oder die Geschwindigkeit nicht ignorieren. Es wird fehlschlagen, aber dieser Fehler ist vernünftig."

Obwohl es sich um ein kleines Detail handelt, markiert es in der Welt der KI-Generierung eine wichtige Grenze: Handelt es sich um das Filmen einer Bewegung oder um die Simulation einer Kausalität?

Dies ist der interessanteste Unterschied zwischen dem Versagen des Modells und dem Versagen des Agenten.

Mit anderen Worten: Sora hat nicht mehr das Ziel, dass das Video einfach gut aussehen soll, sondern es konstruiert eine kleine Welt, die sich selbst fortsetzen kann und interne Regeln hat. Hier beginnt die Intelligenz zu erscheinen.

In ihrer Ansicht wird das Wort "Agent" nicht als ein Systemmodul oder Produktrolle verwendet, sondern es bezieht sich auf den inneren Denkweg, den Sora selbst in der Modellierungsprozess zeigt, eine kontinuierliche Wahrnehmungsfähigkeit für die Beziehungen zwischen Objekten, Zeit, Bewegung und Kausalität.

Und diese Agentenähnlichen Merkmale tauchen in den meisten Fällen natürlich auf, wenn die Größe des Modells zunimmt.

Das ist das sogenannte "Emergenz": Ohne künstliche Gestaltung tritt diese Verständnisfähigkeit auf, wenn die Größe des Modells einen kritischen Punkt erreicht.

Genau wie die GPT-Serie plötzlich in der Lage war, mathematische Probleme zu lösen und Logiken zusammenzufassen, als es von 3 auf 4 wechselte, zeigt Sora auch nach der Erweiterung des Trainingsumfangs ähnliche "Gefühle für das Verständnis der Szene":

  • Es weiß, welche Bewegungen stattfinden sollten und welche nicht.
  • Es kann die Stabilität der Objekte in der Szene beibehalten (z. B. verschwindet eine Figur nicht plötzlich).
  • Es folgt natürlich der Mechanik und der Kausalität, anstatt nur visuelle Aufgaben zu erfüllen.

Und die Bewertungsstandards von OpenAI für Sora haben sich auch geändert:

Es muss nicht richtig aussehen, sondern der Fehler muss vernünftig sein.

Hinter diesem Ansatz denkt Sora nicht mehr Bild für Bild, sondern es betrachtet die Welt als eine räumlich-zeitliche Einheit: Ob jede Bewegung und jedes Ergebnis mit den inneren Logiken dieser Welt übereinstimmt. Es ist eher wie die Simulation des Betriebs einer Welt als die Bearbeitung eines Videos.

Der Anfang von Sora 2: Ein Prototyp eines Agenten, der Fehler zulässt, physikalische Regeln hat und interne Kausalitäten aufweist.

Abschnitt 3 | Produkt-Rundlauf: Cameo, kein Filter, sondern soziale Interaktion

Nachdem es die grundlegende Fähigkeit zur Intelligenz hat, muss OpenAI die nächste Frage beantworten: Wie kann man die Leute dazu bringen, es tatsächlich zu nutzen?

Das Produktpotenzial von Sora 2 liegt nicht in der Generierung von Videos, sondern darin, dass die Leute gerne in Videos auftauchen.

Thomas Dimson, der Produktmanager, sagte in einem Podcast:

Wir wussten am Anfang nicht, wie wir es machen sollten.

Aber wir haben beobachtet, dass die Leute es sehr gerne mögen, sich in generierte Videos einzufügen. Das ist sehr interessant.

Dies ist nicht das traditionelle Einfügen von Avatar-Bildern oder Fotos, sondern es nutzt die KI-Generierungstechnologie, um Sie in eine neue Szene zu bringen: Reiten auf einem Drachen, Autofahren auf hoher Geschwindigkeit, Mondlandung, Durchquerung eines Waldes im Stil von Studio Ghibli oder sogar die Teilnahme an der Eröffnungsfeier einer Paprikafabrik eines Freundes.

Diese Funktion heißt Cameo.

Anfangs war es nur eine experimentelle Idee, und selbst das Produktteam war nicht sicher, ob es funktionieren würde. Dimson erinnerte sich: Ich dachte damals, dass es überhaupt nicht funktionieren würde. Aber eine Woche später stellten wir fest, dass der Newsfeed voll von Cameo-Videos war. Alle Freunde waren in den generierten Videos der anderen.

Diese Funktion hat das gesamte Produkt in Gang gebracht.

Ein anderer Teammitglied, Rohan Sahai, gab eine Statistik preis: Nachdem die Benutzer den Einladungscode erhalten haben, beginnen fast alle am ersten Tag mit der Erstellung von Inhalten. Am zweiten Tag kehren 70 % der Benutzer zurück, um weiter zu erstellen, und 30 % der Benutzer veröffentlichen ihre Werke auf der Plattform.

Diese Statistik zeigt zwei Dinge:

Erstens, Sora ist ein aktiv genutztes Tool, nicht eine reine Konsumplattform.

Zweitens, es hat eine sehr starke soziale Beteiligung. Die erstellten Inhalte werden nicht nur für sich selbst erstellt, sondern man möchte auch, dass Freunde darin sind.

Im Wesentlichen handelt es sich um eine soziale Motivation. Frühere KI-Videos waren zwar schön, aber sie waren nur Inhalte zum Ansehen. Mit Cameo können die Benutzer sich in die Videos einfügen und von Zuschauern zu Beteiligten werden.

Diese Beteiligung hat zu einer explosionsartigen Weitererstellung (Remix) geführt: Einige nutzen Cameo, um Anime-Kämpfe zu simulieren, andere verwandeln Freunde in Pixel-Figuren, und wieder andere generieren einen Tag im Barbie-Welt. Am verrücktesten ist, dass ein Entwickler die Teammitglieder in bewegliche Puppen umwandelte, und das Ergebnis wurde innerhalb des Teams zweimal, dreimal, viermal gemischt und tausende Male weiterentwickelt.

So hat sich der Wachstumszyklus von Sora gebildet:

  • Die Erstellungsschwelle ist sehr niedrig: Man braucht nur ein paar Beschreibungen oder ein Selbstportrait.
  • Der Inhalt hat von Natur aus eine Beteiligungskomponente: Ich erstelle nicht nur, sondern ich erstelle zusammen mit Freunden eine Zukunft.
  • Die Rückmeldung ist sofort, und die Ergebnisse sind auffällig: Die generierten Ergebnisse sind in wenigen Sekunden sichtbar und können leicht geschnappt, weitergeleitet und erneut generiert werden.

Die Benutzer nutzen nicht nur ein Tool, sondern sie möchten gesehen, beteiligt und weiterentwickelt werden.

Auf anderen Plattformen sind die Inhalte Assets, und die Anzahl der Follower ist ein Indikator. Bei Sora ist die generierte Video eine Aktion, und das Erscheinen in den Videos anderer ist eine Beziehung.

Cameo hat die KI-Video-Plattform in den Anfang eines sozialen generativen Netzwerks verwandelt.

Abschnitt 4 | Zukunftseingang: Vom App zum Multiversum-Betriebssystem

Sora sieht heute wie ein Kurzvideo-KI-Tool aus, aber OpenAI sieht es intern anders.

Bill Peebles sagte: Was wir wirklich erstellen möchten, ist nicht eine Generierungsplattform, sondern eine kleine Realität. Sora wird nicht nur zum Ansehen verwendet, sondern es wird in der Lebenspraxis eingesetzt, um eine Welt zu simulieren, die parallel zur realen Welt existiert und in der Sie selbst involviert sind.

Thomas Dimson erklärte:

Durch Cameo übermitteln wir tatsächlich Informationen über Sie an das Modell. Von Ihrem Aussehen, Ihren Bewegungen bis zu Ihrem Verhaltensmuster und Ihren Beziehungen zu anderen.

Sie nennen diesen Prozess "Erhöhung der Bandbreite":

Anfangs weiß Sora nur, wie Sie aussehen.

Später kann es Ihre Bewegungen und Stimme simulieren.

Danach wird es Ihre Gewohnheiten, Beziehungen, Vorlieben und sogar Ihre Sprechweise verstehen