StartseiteArtikel

Kann die KI eine Welt erschaffen? Google DeepMinds Genie 3 erzeugt "Death Stranding" in Sekundenschnelle.

极客公园2025-08-06 19:25
Es ist nicht mehr wie "Eine Blume, eine Welt", sondern "Ein Gespräch, eine Welt".

Wenn man sagt, dass uns die Durchbrüche bei generativen KI-Systemen in den letzten Jahren beigebracht haben, mit Algorithmen zu kommunizieren und sie uns beim Schreiben von Artikeln, Zeichnen von Illustrationen und sogar beim Schneiden von Videos zu helfen, dann hat DeepMind mit Genie 3, das heute vorgestellt wurde, die generativen KI-Systeme in eine neue Dimension gebracht.

Am 5. August hat DeepMind auf seiner offiziellen Website Genie 3, ein neues Modell, das als „allgemeines Weltenmodell“ bezeichnet wird, bekannt gegeben.

Öffnet man Genie 3 und gibt einen Prompt wie „Spaziergang durch ein mittelalterliches Dorf in einem Sturm“ ein, kann Genie 3 binnen Sekunden eine 3D-Szene generieren, die man erkunden und in Echtzeit interagieren kann. In dem nassen Dorf spiegelt das Schlagzeug der Blitze auf den Pflastersteinen. Man kann die Ansicht steuern und frei durch das Dorf spazieren. Geht man in ein Häuschen und öffnet die Tür, kann man die flackernden Schatten des Feuers im Wind sehen.

Was noch erstaunlicher ist: Verlässt man das Häuschen und kehrt wieder zurück, brennt das Feuer noch, und die Graffiti an der Wand sind unverändert. Gibt man dann in das Befehlsfeld ein: „Der Regen hat aufgehört, und ein Ritter kommt auf seinem Pferd heran.“ Dann kann man binnen Sekunden die Tür wieder öffnen und den Ritter empfangen.

In diesem Moment fühlt man sich wie der Schöpfer einer kleinen Welt. Dies ist die Generierungsfähigkeit des „allgemeinen Weltenmodells“, das Genie 3 bietet. Und die starken Fähigkeiten von Genie 3 geben Google in der heftigen KI-Wettbewerbslage wieder einen Vorteil.

01

Die Welt mit den Fingerspitzen erschaffen

Der Vorgänger von Genie 3 war Genie 2, das Ende 2024 veröffentlicht wurde. Damals konnte das Modell zwar einfache 3D-Umgebungen generieren, aber die Szenen hielten nur 10 bis 20 Sekunden an. Die Details waren grob und nicht haltbar. Wendete man den Blick ein wenig ab, konnten Bäume schweben, Charaktere könnten plötzlich verschwinden, und die Positionen der Objekte änderten sich zufällig.

In nur sieben Monaten hat Genie 3 einen erstaunlichen Sprung gemacht.

Von einer Auflösung von 360p auf 720p und einer Bildrate von 24 Bildern pro Sekunde ist der Bildausgang gestiegen. Genie 3 kann auch Simulationen über mehrere Minuten aufrechterhalten, anstatt nur Animationsteile von ein paar Zehnsekunden.

Das Wichtigste ist, dass Genie 3 nicht wie eine Spiele-Engine die Physik durch harte Programmierung umsetzt, sondern durch Modellvorhersagen die logische und physikalische Konsistenz der Szene aufrechterhält. Einfach ausgedrückt: Die Blätter in der Szene bewegen sich natürlich und nicht wild herum, die Schatten der Charaktere bewegen sich mit der Position, und die Objekte geben auch nach einem Zusammenstoß eine physikalisch sinnvolle Reaktion.

In der Vergangenheit war es sowohl für Text-zu-Video-Modelle wie Sora als auch für die frühen Genie-Serien schwierig, das Problem der „Weltenkonsistenz“ zu lösen.

Genie 3 hat dagegen einen neuen visuellen Gedächtnismechanismus eingeführt, der jedem Frame den Zustand des vorherigen Frames als Referenz gibt und die gesamte Umgebungslayout kontinuierlich aufrechterhält. Das bedeutet, dass der Weg, den man gegangen ist, nicht einfach verschwindet, wenn man zurückschaut. Bäume, Felsen und Gebäude bleiben stabil an ihrem Platz, als ob sie wirklich in einem kontinuierlichen Raum existieren würden.

Einfach ausgedrückt: Das Modell hat gelernt, sich zu „merken“, was es gerade gezeichnet hat. Somit sieht man nicht mehr diese plötzlichen Sprünge, sondern eine kontinuierliche Welt, die mehrere Minuten anhält.

Genie 3 kann die generierten Objekte merken | Bildquelle: Genie 3

DeepMind schreibt in seinem Blog direkt, dass diese Art von Weltenmodellen der Grundstein für allgemeine Intelligenz ist, denn echte Intelligenz erfordert nicht nur das Verständnis der Welt, sondern auch die Fähigkeit, Entscheidungen zu treffen und Handlungen zu unternehmen, und all dies kann nur in einer stabilen und logisch konsistenten Umgebung geschehen.

Deshalb nennt DeepMind es auch „Weltenmodell“ und nicht einfach „Video-Generator“.

Die generierte Szene entspricht den physikalischen Gesetzen | Bildquelle: Genie 3

Traditionelle Video-Generierungsmodelle wie Sora können eine Textdarstellung in ein 30-sekündiges Video umwandeln, aber im Wesentlichen handelt es sich immer noch um „ein abgeschlossenes Stück“. Man kann die Welt in diesem Stück nicht ändern, geschweige denn mit ihr interagieren.

Genie 3 hingegen hat einen großen Schritt in Richtung Interaktivität gemacht. Es kann nicht nur eine kontinuierliche Welt generieren, sondern auch die Szene dynamisch anpassen, während man erkundet, und gleichzeitig die Logik intakt halten. Dies ist das Promptable World Events von Genie 3, was man einfach verstehen kann als „Worte sind Befehle, und die Welt reagiert in Echtzeit“.

Beispielsweise, wenn man eingibt: „Auf dem Wasser erscheint ein Motorboot.“ Genie 3 generiert nicht ein ganz neues Bild, sondern lässt ein Motorboot über den Fluss gleiten und wirft realistische Spritzer auf beiden Seiten und hinter sich.

Diese sofortige Plastizität bedeutet, dass der Benutzer nicht nur ein Zuschauer, sondern auch ein Regisseur ist.

Eine Szene, unendliche Möglichkeiten | Bildquelle: Genie 3

Nach Aussage von DeepMind hat Genie 3 bei der Ausbildung eine große Menge von Datensätzen, die von Spiele-Engines generiert wurden, sowie Videovorhersagetasks verwendet, um dem Modell ein „Gefühl für Kausalität“ und „Dauerhaftigkeit“ zu verleihen. Einfacher ausgedrückt: Genie 3 hat zwei Dinge gelernt: Die Welt ist kontinuierlich, und Handlungen haben Folgen.

Ein weiterer Detailpunkt ist, dass Genie 3 die freie Bewegung der Ansicht unterstützt und den Inhalt aus verschiedenen Ansichten dynamisch neu zeichnen kann. Dies klingt einfach, aber es ist in einem Generierungsmodell extrem schwierig und erfordert eine starke 3D-Schlussfolgerungsfähigkeit des Modells. Deshalb betont DeepMind in seinem Blog, dass das Ziel von Genie 3 nicht nur Video ist, sondern „interaktive Generierung auf der Grundlage der Welt“.

Genie 3 generiert also nicht einfach „Bilder“ oder „Videos“, sondern eine erkundbare und bearbeitbare virtuelle Realität, was unendliche Anwendungsmöglichkeiten bietet.

02

Die kreative Branche revolutionieren

Schaut man nur die offizielle Demo, kann man sich viele Anwendungsmöglichkeiten von Genie 3 vorstellen, insbesondere in der kreativen Branche.

Von der ursprünglichen Text-Oberfläche über 2D bis hin zu 3D und VR sind Computerspiele immer die Pioniere bei der Erkundung virtueller Räume gewesen. In der Demo von Genie 3 wird dieser Trend auf eine neue Ebene gebracht: Mit nur einem Satz kann man sofort eine erkundbare und interaktive 3D-Szene generieren. Was bedeutet dies für die Spieleentwicklungsbranche?

Im traditionellen Entwicklungsablauf ist das Erstellen von 3D-Szenen einer der teuersten und zeitaufwendigsten Schritte bei der Spieleentwicklung. Insbesondere für unabhängige Entwickler ist dies oft der Grund, dass sie Kompromisse eingehen müssen. Viele entscheiden sich stattdessen für 2D-Pixelstil, Handzeichnungen oder niedrige Polygonzahlen, um die Entwicklungskosten zu senken.

Aber Genie 3 bricht diese Beschränkung komplett. Was früher Wochen oder sogar Monate für das Modellieren, Texturieren und Einstellen des Lichts gedauert hat, kann jetzt mit nur ein paar Sätzen ein dynamische und interaktive Szene erstellt werden.

Erinnert es nicht stark an das Spiel „Bäcker-Simulator“? | Bildquelle: Genie 3

Große Studios werden vielleicht weiterhin die Unreal Engine oder ihre eigenen Engines nutzen, um hochwertige AAA-Welten zu erstellen. Aber für Entwickler mit begrenzten Ressourcen füllt Genie 3 die „Kostenlücke“: Es ersetzt nicht die professionellen Engines, sondern senkt die Schwelle für die Szenenentwicklung erheblich. Ein kleines Team mit Kreativität, aber ohne große technische Fähigkeiten, kann wie beim Bauen mit Lego eine ganze offene Weltkarte aus Texten zusammenbauen.

Das Gleiche gilt für die Filmbranche. Regisseure und Kunstler können vor dem Dreh die Sznenstile in Echtzeit previewen, das Licht anpassen, Charaktere hinzufügen und sogar die Schauspieler direkt in der virtuellen Welt ihre Bewegungen üben lassen, um ein „immersives Drehbuch“ zu erstellen.

In der Bildung hat man noch größere Vorstellungskraft. Historische Monumente und geographische Phänomene, die in Schulbüchern beschrieben werden, können durch Genie 3 in eine interaktive und erkundbare Szene umgewandelt werden.

Auch in der Kunst entsteht eine neue Form der Expression. Man kann sich vorstellen, dass man die Tore von Dwarrowdelf in „Der Herr der Ringe“ besuchen oder in die „Schule von Athen“ von Raffael eintreten kann.

Vielleicht kann auch der von Zuckerberg so sehr gewünschte Metaverse realisiert werden, wenn jeder die Fähigkeit hat, virtuelle Räume zu erschaffen.

Und die größere Ambition von DeepMind liegt in der Ausbildung von physikalischen Agenten.

03

Das „Kognitionstraining“ für KI

DeepMind schreibt in seinem Blog direkt, dass die Bedeutung eines Weltenmodells darin liegt, dass es einem Agenten ein „Kognitionstraining“ bieten kann, damit der Agent in der virtuellen Welt die Kausalität, die räumliche Wahrnehmung und die Handlungsplanung lernt, anstatt direkt in der realen Welt zu Fehlern zu raten.

Nehmen wir als Beispiel die Ausbildung eines Lagerroboters. Früher musste man entweder ein teures physikalisches Szenario bauen oder sich auf eine traditionelle Spiele-Engine verlassen. Aber beide Methoden haben ihre Grenzen: Die erste ist teuer, und die zweite fehlt an Vielfalt.

Aber in Genie 3 hat man eine Welt, die unendlich generiert, sofort geändert und logisch zusammenhängend ist. Der Roboter kann darin das Hindernisvermeiden, das Transportieren und die Zusammenarbeit üben und sogar extreme Situationen simulieren. Beispielsweise kann man ein autonomes Fahrzeug darauf trainieren, auf plötzlich auftauchende Fußgänger zu reagieren. Solche Szenarien sind in der Realität extrem schwer zu reproduzieren, aber in Genie 3 kann man sie einfach mit Texten erstellen.

Das ist auch, was DeepMind meint: Genie 3 hat die Möglichkeit, die KI-Agenten an ihre Grenzen zu bringen. Es wird die Agenten zwingen, aus ihren eigenen Erfahrungen zu lernen, ähnlich wie Menschen in der realen Welt lernen.

Aber Genie 3 ist nicht allmächtig. Es hat immer noch deutliche technische Einschränkungen.

Beispielsweise hat die aktuelle Szene nur eine Auflösung von 720p und eine Bildrate von 24fps. Obwohl dies für eine KI-Generierung schon bemerkenswert ist, ist es immer noch ein Unterschied zu den Standards von 4K-Hochbildratenspielen. Zweitens ist die Dauerhaftigkeit der von Genie 3 generierten Szenen immer noch begrenzt. Obwohl die offizielle Aussage ist, dass es mehrere Minuten dauern kann, halten alle gezeigten Demos unter einer Minute.

Die Textwiedergabe in der Szene ist immer noch schlecht. Man kann kaum klare Schrift auf den Wegweisern lesen, und die physikalische Konsistenz ist noch nicht perfekt. Bei Tests mit einer großen Anzahl von Lebewesen oder der Simulation von Lawinen zeigt sich immer noch das „KI-Anomalie“.

Eerige Herde von Rehen | Bildquelle: Genie 3

Die Offenheit ist ebenfalls ein Unbekanntes. DeepMind hat angegeben, dass Genie 3 derzeit nur in Forschungs- und Kooperationsprojekten verwendet wird und noch keine API für die Öffentlichkeit zur Verfügung steht, geschweige denn ein Online-Testzugang wie bei Imagen oder Gemini.

Aber wenn man das Ganze in einem größeren Kontext betrachtet, ist Genie 3 nicht eine isolierte Idee, sondern ein markanter Wendepunkt in der Richtung der KI-Technologietransfer.

Von den World Labs, die von Fei-Fei Li gegründet wurden, über das Weltgrundmodell Cosmos von Nvidia bis hin zu Genie 3 von DeepMind zeigt sich ein klarer Entwicklungspfad der KI-Raumintelligenztechnologie: Von 2D über 3D bis hin zu erkundbaren Räumen, schließlich zu physikalisch konsistenten, zeitlich zusammenhängenden und interaktiven Szenen mit Kausalität.

ChatGPT hat uns bewusst gemacht, dass Sprache ein Betriebssystem sein kann. Sora hat uns gezeigt, dass Video eine kreative Schnittstelle sein kann. Und Genie 3 geht noch einen Schritt weiter und verwandelt Worte in einen „bedienbaren“ Raum.