StartseiteArtikel

Einschlüssige Interviewaufzeichnung mit DeepMind: Enthüllung des Weltmodells Genie 3, das die Zukunft der Spiele- und Robotikbranche auf den Kopf stellen wird

36氪的朋友们2025-08-06 14:13
Google Genie erzeugt in nur 3 Sekunden interaktive 3D - Welten und revolutioniert das Training für VR und Roboter.

Am 5. August Ortszeit wurde die neueste von Google DeepMind entwickelte KI-Technologie "Genie 3" als ein revolutionärer Durchbruch gefeiert, der das Potenzial hat, die Zukunft der Generierung virtueller Welten, der Robotertrainings und der Unterhaltungsbranche grundlegend zu verändern. Diese Technologie kann mithilfe einfacher Texteinstellungen in etwa 3 Sekunden eine interaktive und realistische 3D-Virtuelle Welt mit einer Auflösung von 720p generieren, die zudem über Echtzeitinteraktion und Umweltkonsistenz verfügt.

Der beliebte YouTube-Vlogger Tim Scarfe hat in einem exklusiven Interview mit dem DeepMind-Forschungsteam die innovativen Funktionen, potenziellen Anwendungen und die zukünftigen Aussichten von Genie 3 ausführlich vorgestellt. Hier ist eine Zusammenfassung des gesamten Interviews:

Moderator: Hallo zusammen! Heute bringen wir Ihnen eine weltweit exklusive Reportage. Ich denke, dies ist die beeindruckendste Technologie, die ich je gesehen habe, und es macht einfach unglaublich Spaß! Letzte Woche habe ich in den Büros von Google DeepMind in London eine Demonstration dieser Technologie miterlebt. Diese Technologie könnte die nächste Billionenbranche werden oder die killerapp für die virtuelle Realität sein. Google DeepMind hat in letzter Zeit eine beeindruckende Leistung gezeigt, und selbst das Gemini Deepthink kann die Anzahl ihrer Erfolge nicht mehr zählen.

Heute werden wir eine neue Art von KI-Modellen diskutieren - die generativen interaktiven Umgebungen. Sie unterscheiden sich von herkömmlichen Spiele-Engines, Simulatorsystemen oder generativen Videomodellen, kombinieren aber die Eigenschaften aller drei. Im Wesentlichen handelt es sich um ein interaktives Weltenmodell und einen Videogenerator, an den Sie einen Spielecontroller oder jeden anderen Controller anschließen können. DeepMind definiert ein "Weltenmodell" als ein System, das die Dynamik einer Umgebung simulieren kann, wobei die Konsistenz auf natürliche Weise entsteht, ohne explizite Programmierung.

Das klingt unglaublich: Wie kann ein zufällig gesampelter neuronaler Netzwerk eine konsistente, realitätsähnliche Karte generieren? Erinnern Sie sich noch an den Quake-Engine aus dem Jahr 1996? Dort mussten die physikalischen Regeln und die Interaktionslogik explizit programmiert werden. Diese Generation von KI-Systemen lernt dagegen direkt aus Videodaten die Dynamik der realen Welt.

Sie können in Echtzeit die Agenten in der Welt steuern. Die Entstehung der generativen Weltenmodelle ist auf die Grenzen von handgeschriebenen Simulatorsystemen zurückzuführen. Selbst die fortschrittlichste Plattform von DeepMind, XLAND, die für das Training von universellen Agenten entwickelt wurde, wirkt noch karikaturhaft und ist auf bestimmte Domänenregeln beschränkt, was sie eher steif erscheinen lässt. Stellen Sie sich vor, wenn Sie einfach durch eine Texteinstellung jede interaktive Welt generieren könnten, um Agenten zu trainieren?

01. Die Entwicklung von Genie 1 zu Genie 2

Moderator: Letztes Jahr habe ich auf der International Conference on Machine Learning (ICML) mit Ashley Edwards, einem Mitglied des DeepMind-Teams, gesprochen. Damals hat er Genie 1 vorgestellt, das auf 30.000 Stunden von 2D-Plattformspielaufnahmen trainiert wurde. Beim Generieren des nächsten Bildes bewegen sich entfernte Objekte langsamer als nahe Objekte, was einen Effekt der Tiefenwahrnehmung simuliert. Diese Fähigkeit war überraschend, dass das Modell die physikalische Welt so schnell verstehen konnte.

Die Kerninnovation von Genie 1 ist der raumzeitliche Videomarker, der das Rohvideo in verarbeitbare Marker umwandelt; ein latentes Aktionsmodell, das ohne gelabelte Daten sinnvolle Steueraktionen entdecken kann; und ein autoregressives dynamisches Modell, das zukünftige Zustände vorhersagt. Das latente Aktionsmodell ist eine unüberwachte Aktionslernenmethode. Genie 1 hat acht diskrete Aktionen entdeckt, die in verschiedenen Umgebungen konsistent bleiben und dies nur durch die Analyse der Änderungen zwischen den Bildern erreicht.

Das hat mich schockiert! Wie kann man das aus offline-Spielabschnitten trainieren? Noch erstaunlicher ist, dass es auch über eine Art 2,5D-Parallaxenfähigkeit verfügt.

Nur 10 Monate später erschien Genie 2, das über 3D-Fähigkeiten verfügt, nahezu Echtzeitleistung bietet und eine stark verbesserte visuelle Wiedergabetreue aufweist. Es simuliert realistische Beleuchtungseffekte wie Rauch, Feuer, Wasserströmungen, Schwerkraft usw., fast alle Elemente, die man in einem echten Spiel antrifft. Es hat sogar eine zuverlässige Gedächtnisfunktion: Wenn Sie wegsehen und dann wieder zurückschauen, sind die Objekte noch an derselben Stelle. Hier ist Jack Parker Holder, ein Forschungsingenieur aus dem Openness-Team von Google DeepMind.

Holder: Dies ist ein Foto, das unser Team an einem Ort in Kalifornien aufgenommen hat. Wir haben dieses Foto in Genie eingegeben und eine interaktive Spielwelt generiert. Alle nachfolgenden Pixel werden von dem generativen KI-Modell erstellt. Hier sieht man jemanden, der tatsächlich spielt und die Taste W drückt, um vorwärts zu gehen. Ab diesem Moment wird jedes Bild von der KI generiert.

Moderator: Letztes Jahr hat das von Shlomi Fruchter geleitete DeepMind-Team in Israel eine Simulation des Doom-Engines auf Basis eines Diffusionsmodells vorgestellt, das als "Spiele-Engine" bezeichnet wurde. Doom ist fast zur Internetmeme geworden und kann auf einem Taschenrechner oder einem Toaster laufen. Jetzt kann ein neuronales Netzwerk jedoch in Echtzeit und Bild für Bild das Doom-Spiel generieren, die Lebenspunkte anzeigen, das Schießen von Charakteren, das Öffnen von Türen und die Navigation auf der Karte ermöglichen. Obwohl es manchmal kleine Störungen gibt, ist das unglaublich! Es kann auf einem einzelnen TPU mit 25 Bildern pro Sekunde laufen. Die einzige Einschränkung ist, dass es nur Doom simulieren kann.

02. Genie 3: Generierung realistischer interaktiver Welten aus Texten

Moderator: Letzte Woche waren wir in London, und das DeepMind-Team hat uns eine Demonstration von Genie 3 gezeigt. Ich konnte meinen Augen nicht trauen! Die Auflösung beträgt 720p, was für eine immersive Erfahrung sorgt. Es ist in Echtzeit und kann eine realistische Welterfahrung simulieren, die mehrere Minuten anhält, ohne den Kontext zu verlieren. Einer der Teammitglieder war an der Entwicklung von VO3 beteiligt. Sie scheinen die Genie-Architektur mit VO zu kombinieren und so eine "Superverstärkte VO" zu schaffen.

Im Gegensatz zu Genie 1 und 2 ist die Eingabe von Genie 3 ein Text statt ein Bild, was es flexibler macht, aber die direkte Generierung aus realen Fotos nicht ermöglicht. Ein Hauptmerkmal ist die Vielfalt der Umgebungen, die langfristige Vorhersagefähigkeit und die Möglichkeit, Weltereignisse per Texteinstellung zu generieren. Beispielsweise können Sie in einer Skihangar-Szene eingeben: "Ein Skifahrer in einem Genie 3-T-Shirt erscheint" oder "Ein Hirsch rennt den Hang hinunter", und diese Ereignisse werden dann eintreten.

Sie sagen, dass dies für die Simulation seltener Ereignisse bei selbstfahrenden Autos sehr nützlich ist. Aber ich frage mich, ob dies das Problem der "unendlichen Schildkröten" ist? Wie kann man ein Programm schreiben, das möglicherweise unendlich viele seltene Ereignisse per Texteinstellung generieren kann? Sie haben ein Beispiel gezeigt, bei dem ein Drohne über einem See fliegt, was beeindruckend war, aber ich habe bemerkt, dass es keine Vögel gibt. Können Sie per Texteinstellung Vögel hinzufügen?

Das DeepMind-Team glaubt, dass der "37. Schritt" für eingebettete Agenten noch nicht erreicht ist, der Moment, in dem der Agent eine völlig neue Strategie für die reale Welt entdeckt. Sie sehen Genie 3 als den Schlüssel für dieses Ziel. Aber die reale Welt ist voller Kreativität, und Ereignisse verzweigen sich ständig. In Zukunft könnte es einen äußeren Zyklus geben, der das System offener macht, aber derzeit generiert Genie 3 streng nach den Texteinstellungen und hat selbst keine Kreativität.

Genie 3 unterstützt derzeit nur die Erfahrung eines einzelnen Agenten, aber ein Mehragentensystem wird entwickelt. Ich freue mich am meisten auf ein neues interaktives Unterhaltungsformat, wie ein "YouTube 2.0". DeepMind glaubt, dass die Simulationstraining von Robotern der echte Durchbruch ist. Das Wunder der menschlichen Kognition liegt darin, dass wir durch die Simulation der Welt teure physikalische Experimente vermeiden können, was ähnlich der Idee von Genie ist.

Warum sollte man in der realen Welt trainieren? Es reicht, jede Szene zu simulieren, wie in einer Folge von "Black Mirror". Die Generierung von Genie 2 dauert etwa 20 Sekunden, während Genie 3 mehrere Minuten anhält, und die Fehler werden immer schwerer zu bemerken. Genie 2 ist nicht in Echtzeit, man muss einige Sekunden warten, die Bildauflösung ist niedrig und das Gedächtnis begrenzt. Genie 3 hat all dies grundlegend verändert.

Holder: Genie 3 kann eine kohärente interaktive Umgebung über mehrere Minuten aufrechterhalten.

Moderator: Sie sind sehr vorsichtig mit den Details der Architektur, vielleicht weil es um eine Geschäftsmöglichkeit im Billionenbereich geht, und Mark Zuckerberg, der CEO von Meta, könnte ja gierig hinschauen. Ich befürchte, er würde mit einem Scheckbuch kommen und sagen: "Komm, 100 Millionen Dollar, komm zu mir!" Zucker, bitte, lass sie in Ruhe! Sie machen großartige Arbeit, geben Sie ihnen Raum. Ich mache Spaß, aber wenn Sie gerade am Lernen des Unreal-Engines sind, sollten Sie vielleicht über einen Karrierewechsel nachdenken. Aber das Google-Team ist realistisch und sieht es als eine andere Technologie an, die ihre eigenen Vor- und Nachteile hat. Es ist immer noch ein neuronales Netzwerk mit vielen Einschränkungen, aber es kann einfach interaktive dynamische Grafiken generieren, ähnlich wie der Trend bei Unreal Engine 5.6. Muss ich meinen dynamischen Grafikdesigner feuern? Victoria, können die Nutzer Genie 3 nutzen?

DeepMind-Teammitglied Victoria: Zurzeit nicht. Es ist noch ein Forschungs-Prototyp und wird aus Sicherheitsgründen schrittweise über ein Testprogramm freigegeben. Auf der Pressekonferenz wurde gefragt, ob es möglich sei, eine antike Schlachtszene zu generieren. Fruchter sagte, dass das Modell für diese Daten nicht trainiert sei und es vorerst nicht möglich sei.

Moderator: DeepMind sagt, dass die Verbesserung des Modells die Fehler reduzieren und die Genauigkeit erhöhen wird. Die Trainingsdaten könnten alle YouTube-Videos und noch mehr enthalten, und sie sind vorsichtig mit diesem Thema. Die Berechnungen setzen auf ein TPU-Netzwerk an, was vermutlich viel Rechenleistung erfordert, aber die Demonstration lief reibungslos, und man kann in etwa 3 Sekunden nach der Texteinstellung in die Welt eintreten. DeepMind erwähnt auch, dass Genie Agenten trainieren kann, und die Agenten wiederum Genie 3 verbessern können, was einen positiven Kreislauf bildet. Beispielsweise beobachtet ein Mensch beim Überqueren einer Straße die Signale der Autofahrer, bevor er handelt, und die Agenten müssen ähnliche Simulationen durchführen.

Können Sie uns etwas über Genie 3 erzählen?

Fruchter: Ich bin der Forschungsdirektor von Google DeepMind und habe an dem VO-Projekt mitgewirkt. Ich arbeite seit 11 Jahren bei Google und habe mich in letzter Zeit auf multimodale Diffusionsmodelle konzentriert. Genie 3 ist unser fortschrittlichstes Weltenmodell, das die Entwicklung der Umwelt und die Auswirkungen der Agentenaktionen vorhersagen kann. Es erreicht eine hohe Auflösung, langfristige Vorhersage und bessere Konsistenz, alles in Echtzeit, und es erlaubt es Agenten oder Nutzern, frei zu navigieren und zu interagieren.

Holder: Ich bin ein Forschungsingenieur aus dem Openness-Team von DeepMind und habe ursprünglich an offenen Lernverfahren geforscht. In letzter Zeit habe ich mich auf Weltenmodelle konzentriert. In London haben wir Ihnen Genie 3 gezeigt. Ich denke, dies ist die beeindruckendste Technologie, die ich je gesehen habe, und es könnte ein Paradigmenwechsel sein.

03. Kernkonzept: Was ist ein "Weltenmodell"?

Moderator: Genie 3 ist unglaublich! Aber lassen Sie uns zunächst Genie 2 betrachten?

Holder: Genie 2 ist das Ergebnis zweijähriger Forschung und wird als Basisweltenmodell bezeichnet. Frühere Weltenmodelle haben nur eine einzelne Umgebung simuliert. Genie 1 war das erste, das es ermöglichte, eine neue Welt per Texteinstellung zu erstellen, aber die Auflösung war niedrig, die Interaktion dauerte nur wenige Sekunden und es erforderte ein Bild als Eingabe. Genie 2 wurde auf einer breiteren Palette von 3D-Umgebungen trainiert, und die Auflösung stieg von 90p auf 360p, was nahe an das moderne Niveau herankommt, aber es war noch nicht voll ausgereift. Wir wollten die Skalierbarkeit dieser Methode testen, und Genie 3 hebt es auf ein neues Niveau: 720p, Echtzeitinteraktion, einfach beeindruckend.

Moderator: Wie der verstorbene Mitbegründer von Apple, Steve Jobs, sagte, hat der Touchscreen eine Magie, und die Interaktivität bringt diese Magie hervor. Ihre Demonstration war unglaublich! Die realistischen visuellen Effekte, die Fusion mit VO, das Verständnis der realen Welt und die Erstellung eines interaktiven Basis-Modells. Können Sie einige Beispiele teilen?

Fruchter: Ein Videomodell ist in gewisser Weise ein Weltenmodell, aber es ist nicht interaktiv. Genie 3 löst dieses Problem und generiert die Erfahrung Bild für Bild. Der Nutzer oder der Agent kann die Richtung steuern und nicht vordefinierte Pfade erkunden. Beispielsweise kann der Agent an einen Ort zurückkehren, den er zuvor besucht hat, und die Umgebung bleibt konsistent. Dies ist eine sehr gute Fähigkeit.

04. Die Herausforderung der Konsistenz in generierten Welten

Moderator: Genie 2 hat bereits eine gewisse Objektpersistenz und -konsistenz, aber Genie 3 geht noch einen Schritt weiter. Genie 2 verwendet einen raumzeitlichen Transformer ähnlich wie ViT und ein latentes Aktionsmodell, das den Aktionsraum aus nicht-interaktiven Daten ableitet und dann in ein dynamisches Modell eingibt. Was können Sie uns über die Architektur von Genie 3 verraten?

Fruchter: Aufgrund der Interaktivität ist das Modell nicht autoregressiv und muss jedes Bild einzeln generieren und auf alle vorherigen Bilder zurückgreifen. Beispielsweise muss das Modell in einer Aula, wenn man an einen Ort zurückkehrt, die Konsistenz gewährleisten. Diese Konsistenz entsteht auf natürliche Weise, ohne eine explizite 3D-Darstellung, anders als bei neuronalen Strahlungsfeldern oder Gauss-Sprays. Diese Fähigkeit ist erstaunlich.

Moderator: Genie 2 kann bereits Parallaxen und Beleuchtung simulieren, aber Ihre Doom-Simulation hat mich noch mehr beeindruckt. Doom aus dem Jahr 1993 war das Meisterwerk von John Carmack. Jetzt kann ein neuronales Netzwerk ohne ein explizites Weltenmodell einfach über den Pixelraum ein Spiel generieren. Das ist unglaubl