StartseiteArtikel

Google öffnet erstmals ein Weltmodell.

36氪的朋友们2026-02-02 12:19
Dieses Prototypmodell wird erstmals den Abonnenten von Google AI Ultra in den Vereinigten Staaten zur Verfügung gestellt.

Dieser Prototyp wird zunächst an Abonnenten von Google AI Ultra in den Vereinigten Staaten zugänglich gemacht.

Wenn man die Fortschritte im Bereich der künstlichen Intelligenz als ein Orchesterstück ansehen kann, war das Thema der letzten Jahre zweifellos die "Generierung" – die Generierung von Texten, Bildern, Geräuschen und sogar Videos. Anfang 2026 wurde jedoch eine neue Melodie erklingt: Sie kann nicht nur generieren, sondern auch konstruieren.

Um Mitternacht am 30. Januar (Beijing-Zeit) hat Google DeepMind Project Genie für die Außenwelt freigegeben. Es wird als eines der fortschrittlichsten Weltmodelle derzeitig angesehen und kann als experimenteller ForschungsPrototyp des Weltmodells Genie 3 betrachtet werden. Es ist auch die erste Öffnung dieses Weltmodells für die Öffentlichkeit in einer interaktiven Form.

Das Wort "Genie" stammt aus dem Arabischen "jinni" (Geist) und wurde später durch das Französische zu "génie" und schließlich zu einem englischen Wort. Die häufigste Bedeutung bezieht sich auf einen "Geist" oder "Dämon" in arabischen und islamischen Mythologien, der die Wünsche des Beschwörers erfüllen kann. Google DeepMind hat sein Weltmodellprojekt "Project Genie" (Geisteprojekt) benannt, um die Bedeutung dieser Mythologie zu verdeutlichen: Dieser KI-Modell kann jeden von Ihnen in Worten beschriebenen Szenario (Wunsch des Beschwörers) augenblicklich in eine virtuelle Welt umwandeln, in die man eintreten und mit der man interagieren kann.

Wenn die KI nicht nur Träume malen, sondern auch Menschen in diese Träume eintreten und mit ihnen interagieren lassen kann, ist es vielleicht an der Zeit, die Grenze zwischen "Virtuellem" und "Realer Welt" neu zu überdenken.

Derzeit wird der Prototyp zunächst an Abonnenten von Google AI Ultra (125 US-Dollar für 3 Monate) in den Vereinigten Staaten zugänglich gemacht, die mindestens 18 Jahre alt sind.

Was unterscheidet Project Genie?

Das zugrunde liegende Modell von Project Genie ist das Weltmodell Genie 3. Im Gegensatz zu großen Inhaltsgenerierungsmodellen wie OpenAI's Sora beschränkt sich seine Funktion nicht auf die multimodale Inhaltsgenerierung (beispielsweise kann ein AI-Video-Generierungstool ein Video für die Benutzer erstellen, und alle Daten, auf die das Modell zurückgreifen kann, stammen aus menschlichen Text-, Bild- und Videobibliotheken). Stattdessen kann es einen vollständigen Raum generieren und so "aus dem Nichts eine Welt erschaffen":

Mit nur einer Wortsbeschreibung eines Szenarios oder dem Hochladen eines Bildes, wie "eine Marshmallow-Schloss, umgeben von einer Schokoladenfluss", wird in wenigen Sekunden eine Echtzeit- und interaktive 3D-Virtuelle Welt generiert.

Die Benutzer können wie bei einem Computerspiel ihre Charaktere in der Welt frei laufen, fliegen oder fahren lassen und diese imaginierte Welt erkunden.

Die Umgebung wird dynamisch und kontinuierlich basierend auf der Perspektive und den Handlungen des Benutzers generiert. Dies beruht nicht auf der Dekodierung von festen Daten durch herkömmliche Spiele-Engines, sondern auf einer sofortigen Ableitung und Vergegenwärtigung von potenziellen physikalischen Gesetzen und räumlichen Logiken. Wenn der Benutzer sich bewegt, werden der Weg und die Umgebung vor ihm in Echtzeit generiert.

Im technischen Kern besteht der Kern eines Weltmodells darin, die dynamischen Änderungen der Umgebung zu simulieren und die Entwicklung der Umgebung sowie die Auswirkungen von Handlungen auf die Umgebung vorherzusagen.

Google DeepMind hat bereits umfangreiche Erfahrungen in der Entwicklung von KI-Agenten für spezifische Umgebungen wie Schach und Go gesammelt. Um jedoch eine allgemeine Künstliche Intelligenz (AGI) zu erreichen, muss das System in der Lage sein, die fast unendliche Komplexität und Vielfalt der realen Welt zu verstehen und zu bewältigen.

Genie 3 ist ein wichtiger Schritt in diese Richtung. Es bietet eine bisher nie dagewesene Simulationsfähigkeit, die es ermöglicht, interaktive Umgebungen für jeden realen oder fiktiven Szenario zu generieren. Dies bietet eine leistungsstarke Werkzeug für Bereiche wie Robotik, Animationsproduktion und virtuelle Erkundung von historischen Szenarien.

Für die Entwicklung der KI ist die Bedeutung von Project Genie weit mehr als nur ein aufregendes Erlebnis. Sein zentraler Wert liegt darin, dass es für KI-Agenten (und zukünftige Roboter) ein unbegrenztes, sicheres und kostengünstiges "Simulations-Trainingsfeld" und "Fehlersandkasten" bietet. Agenten können in den zahlreichen und vielfältigen Simulationsumgebungen, die von Genie geschaffen werden, lernen und trainieren, um die physikalischen Gesetze und kausalen Logiken der realen Welt zu verstehen. Dies ist ein unverzichtbarer Grundstein für die Entwicklung einer allgemeinen Künstlichen Intelligenz.

Von diesem Blickwinkel aus gesehen ist das Weltmodell nicht nur ein kreatives Werkzeug auf der Inhaltsseite, sondern eine Brücke zwischen der heutigen KI und der zukünftigen "Embodied Intelligence" und eine Schlüsselinfrastruktur, um der KI "Gemeinsinn" und "Kausalität" beizubringen.

KI-Experten und Technologie-Riesen setzen sich in diesem Bereich ein

Die Pioniere der Künstlichen Intelligenz sind sich fast einig, dass Weltmodelle für die Schaffung der nächsten Generation von KI von entscheidender Bedeutung sind. Viele sagen, dass diese Technologie schließlich zur Schaffung einer übermenschlichen AGI beitragen wird.

Die Professorin an der Stanford University und "Mutter der KI" Feifei Li hat das Weltmodell-Startup World Labs gegründet. Laut Insiderinformationen dieses Monats führt Feifei Li derzeit Gespräche mit Investoren über eine neue Runde von Finanzierungen. Der aktuelle Wert des Unternehmens könnte auf etwa 5 Milliarden US-Dollar steigen. Frühere Meldungen zeigten, dass das Weltmodell-Startup AMI Labs von Yann LeCun, dem "Vater der KI", in einer Finanzierungsrunde potenzielle Unterstützer wie Cathay Innovation gewann. Diese Finanzierungsrunde könnte den Wert des Unternehmens des ehemaligen Chefs der KI-Forschung bei Meta auf 3,5 Milliarden US-Dollar bringen. Nvidia-CEO Jensen Huang hat frühzeitig erklärt, dass Weltmodelle zur Verwirklichung einer "physikalischen KI" beitragen können, die Roboter, selbstfahrende Autos und andere Geräte autonom steuern kann. Meta's Superintelligenz-KI-Labor arbeitet mit dem Robotik-Team zusammen, um ein Weltmodell zu entwickeln. Durch die Simulation der physikalischen Gesetze der realen Welt können Roboter eine räumliche Wahrnehmung und feinmotorische Fähigkeiten erlangen, um die Mängel bestehender Roboter zu beheben...

Natürlich sind Weltmodelle wie Project Genie in ihrer Anfangsphase noch sehr unausgereift. Am Beispiel von Project Genie ist die Zeit für die Generierung und Erkundung jedes Mal auf weniger als 60 Sekunden beschränkt. Die generierte Welt mag in ihren physikalischen Effekten nicht realistisch genug sein und manchmal die Anweisungen oder die physikalischen Gesetze der realen Welt nicht genau befolgen. Die Steuerung der Charaktere ist oft verzögert oder ungenau. Darüber hinaus sind einige der in frühen Demonstrationen erwähnten erweiterten Funktionen, wie die Veränderung von Weltereignissen durch sofortige Befehle, in dieser Version noch nicht implementiert.

Diese Einschränkungen stammen teilweise aus dem enormen Rechenaufwand von Weltmodellen, was auch das zentrale Problem der gegenwärtigen KI-Modelltechnologie darstellt. Die Forscher von DeepMind geben zu, dass hinter jeder Benutzung ein spezieller Rechenchip arbeitet. Jede scheinbar einfache "Welterschaffung" beruht auf der vollen Leistung eines speziellen Rechenchips. Dies bedeutet, dass es in der gegenwärtigen Phase eher wie ein enger Spaltfenster ist, durch den man die Zukunft erahnen kann, als wie eine Tür, die man frei betreten kann.

Das Spielesektor könnte der erste Bereich sein, in dem Weltmodelle getestet werden

Spitzen-KI-Teams wie Google DeepMind und World Labs glauben, dass Weltmodelle zunächst die Spiele- und Filmbranche umgestalten könnten.

Das traditionelle Erstellen von 3D-Assets und das Aufbauen von Szenarien sind arbeits- und zeitintensive Kernelemente. Project Genie zeigt die Möglichkeit auf, den Prozess der frühen Konzeptentwicklung, des Szenarioprototypenaufbaus und sogar der dynamischen Storyboard-Vorschau auf wenige Minuten oder sogar Sekunden zu reduzieren. Dies soll keine professionellen Kreativ-Engines ersetzen, sondern möglicherweise den Anfang des kreativen Prozesses neu gestalten und die Geschwindigkeit der Kreativitätsprüfung erheblich erhöhen.

Shlomi Fruchter, Mitbetreuer des DeepMind-Weltmodellprojekts Genie 3, hat früher gesagt: "Die Softwareentwicklung, insbesondere die Spieleentwicklung, ändert sich rasant. Ich erwarte, dass diese Veränderungen in den nächsten Jahren sogar radikal sein könnten."

Ende letzten Jahres hat World Labs sein erstes kommerzielles Produkt, das von einer generativen KI angetriebene dreidimensionale Weltgenerierungssystem Marble, offiziell vorgestellt. Feifei Li hat erklärt, dass diese Technologie Spiele-Engines wie Unity und Unreal von Epic beeinflussen wird. "Alles wird umgewandelt. Es ist wirklich an der Zeit, die Simulations-Spiele-Engines zu verbessern."

Außer im Spielesektor möchten auch Unternehmen wie xAI und Nvidia Weltmodelle in Roboter und selbstfahrende Autos integrieren.

Dieser Artikel stammt aus dem WeChat-Account "Kechuangban Daily". Autor: Song Ziqiao. Veröffentlicht von 36Kr mit Genehmigung.