Li Feifeis Weltmodell ist da. Mit einem Satz kann man eine 3D-Welt generieren. KI beginnt wirklich, die Realität zu verstehen.
Das Weltmodell ist endlich da!
In der Nacht von gestern hat Fei-Fei Li, die als "Mutter der KI" bekannte Professorin an der Stanford University, bekannt gegeben, dass ihre Startup-Welt Labs ihr erstes Produkt namens Marble offiziell vorgestellt hat. Dies ist das erste Mal, dass ein Weltmodell in Form eines nutzbaren Produkts der Öffentlichkeit präsentiert wird.
Die Kernfähigkeiten von Marble können in drei Punkten zusammengefasst werden:
Erstens, multimodale Generierung. Es kann auf der Grundlage eines Bildes, eines Videos oder sogar einer Textanweisung eine strukturell vollständige und detaillierte 3D-Welt rekonstruieren.
Zweitens, die KI-eigene Fähigkeit zur Weltbearbeitung. Marble ermöglicht es Benutzern, die Welt wie eine reale Szene zu bearbeiten, indem sie lokale Ersetzungen, Materialänderungen, Lichtanpassungen oder Layoutumstrukturierungen vornehmen können.
Drittens, ein wirklich umsetzbarer Produktionsprozess. Marble unterstützt das Exportieren der generierten Welt in Form von Gauss-Sprays, Dreiecksnetzen oder Videos, die direkt in gängige Gestaltungswerkzeuge wie Unreal, Unity und Blender importiert werden können und in den Arbeitsabläufen der Spiele- und Filmbranche eingesetzt werden können.
Fei-Fei Li ist der Meinung, dass die Bedeutung von Marble weit über "einfachere 3D-Gestaltung" hinausgeht. Wie sie in ihrem Aufsatz "Von Sprache zur Welt: Räumliche Intelligenz ist die nächste Frontiers der KI" schreibt, ist Marble nur der erste Schritt bei der Schaffung eines echten Weltmodells mit räumlicher Intelligenz.
Von dieser Perspektive aus betrachtet bringt Marble nicht nur das Weltmodell erstmals in Form eines "nutzbaren Produkts" der Öffentlichkeit näher, sondern symbolisiert auch den offiziellen Beginn der Ära der räumlichen Intelligenz:
Von der Bereitstellung von 3D-Welten für Gestalter zu Beginn bis hin zur möglichen Unterstützung von Robotern bei der Wahrnehmung der realen Umwelt in Zukunft und schließlich zur Verwendung in wissenschaftlichen Forschungen für virtuelle Experimente und die Vorhersage von Ergebnissen.
Noch wichtiger ist, dass es die Außenwelt erstmals deutlich spürt:
Die KI hat möglicherweise die Möglichkeit, von der Verständnis von Bildern und Sprache hin zur Verständnis und Steuerung einer vollständigen Welt, die aus Strukturen, physikalischen und dynamischen Gesetzen besteht, voranzuschreiten.
Derzeit ist Marble bereits offiziell nutzbar. Die Adresse lautet wie folgt: https://marble.worldlabs.ai/
01 Mit einem Satz oder einem Bild kann man eine Welt erschaffen
Das "magische" an Marble lässt sich eigentlich in einem Satz zusammenfassen:
Egal, was man ihm gibt - ein Satz, ein Bild, einige Videos oder sogar ein Entwurf aus wenigen Würfeln - es kann daraus eine vollständige 3D-Welt machen.
Das klingt wie übertriebene Werbung, aber lassen Sie uns mit der einfachsten Eingabemethode beginnen.
Schauen wir uns zunächst die Textgenerierung an. Nehmen wir an, Sie geben Marble den folgenden Hinweis:
"Eine offene Küche, die die Ästhetik eines Restaurants aus der Mitte des Jahrhunderts mit Schienentechnik kombiniert, geprägt von quadratischen Böden und Edelstahlzubehör und beleuchtet mit sanften hellblauen Lampen."
Obwohl dieser Satz lang erscheint, wird Marble automatisch die Schlüsselmerkmale extrahieren - quadratische Böden, Edelstahl, hellblaue Beleuchtung, offene Küche - und in wenigen Sekunden einen dreidimensionalen Raum erschaffen, in den man "hineingehen" kann.
So sieht es ungefähr aus:
Neben der Textgenerierung unterstützt Marble auch komplexere Gestaltungsmethoden:
Einzelbildgenerierung: Geben Sie ein Foto ein, und es kann eine erkundbare 3D-Welt generieren;
Wenn Sie beispielsweise Marble ein Foto geben, kann es anhand der Perspektive, der Lichtrichtung und der Anordnung der Objekte im Foto die Szene automatisch zu einer erkundbaren 3D-Welt ergänzen.
Das Ergebnis sieht in etwa so aus:
Wenn Sie mehrere Bilder aus verschiedenen Perspektiven oder Videos bereitstellen, kann es auch die Schlüsselmerkmale erfassen und einen noch vollständigeren und genauereren dreidimensionalen Raum wiederherstellen.
▲ Das erste Bild zeigt die Frontansicht, das zweite die Seitenansicht.
Beispielsweise können Sie Marble zwei Fotos geben: eines von der Front und eines von der Seite. Das System kombiniert die Informationen aus beiden Bildern und rekonstruiert einen noch vollständigeren und dreidimensionaleren Raum. Das Ergebnis sieht wie folgt aus:
Neben Texten, Bildern und Videos bietet Marble für professionellere Gestalter das Chisel-Tool an.
Dies ist eine experimentelle Bearbeitungsmethode, die Marble für fortgeschrittene Gestalter entwickelt hat. Wenn Sie Chisel verwenden, können Sie zunächst einen sehr groben Rahmen in einem dreidimensionalen Raum erstellen.
Dieser Rahmen kann so einfach sein, dass er nur aus wenigen Boxen, Ebenen oder Wänden besteht, oder so komplex, dass er mehrere Räume, Korridore oder sogar mehrere Stockwerke umfasst. Darüber hinaus können Benutzer auch vorhandene 3D-Ressourcen importieren und sie als Teil der Welt in die Szene einfügen.
Nachdem ein solcher "Rahmen" erstellt wurde, tritt die KI in die zweite Phase ein. Der Gestalter muss nur mit einem Satz beschreiben, welchen Stil er erreichen möchte, sei es ein modernes Kunstmuseum, ein nordisches Ferienhaus oder eine wissenschaftliche Experimentierstation. Das System wird dann auf der Grundlage der bestehenden Struktur Materialien, Licht und Details ergänzen, sodass die gesamte Welt einen einheitlichen visuellen Stil aufweist.
Beispielsweise wird auf der Grundlage eines 3D-Geometrie-Urbildes und der Textanweisung "Ein schönes modernes Kunstmuseum mit Parkettboden, gefüllt mit bunten Gemälden und eleganten Skulpturen" das folgende Ergebnis erzielt:
Der Schlüssel bei dieser Methode liegt darin, dass sie die räumliche Logik von der visuellen Gestaltung klar trennt. Die grobe dreidimensionale Anordnung bestimmt die Grundstruktur der Szene, während der Text hinweis den endgültigen Stil und die Atmosphäre steuert. Beide können frei kombiniert werden, sodass aus demselben Rahmen völlig unterschiedliche Welten entstehen können.
02 Die echte Revolution von Marble: Eine kontinuierlich evolvierende Welt
Die Generierung ist nur der Anfang. Ein weiterer wichtiger Durchbruch von Marble besteht darin, dass es die "Weltbearbeitung" zur KI-eigenen Fähigkeit macht.
Es ermöglicht es Benutzern, die generierte dreidimensionale Welt wie eine reale Szene zu bearbeiten: Ein Objekt löschen, das Material ersetzen, das Licht ändern, einen Bereich erweitern oder sogar das gesamte Raumlayout umstrukturieren.
Hier ist ein Demonstrationsbeispiel von Marble:
Diese "Bearbeitbarkeit" befreit die dreidimensionale Generierung erstmals von der Beschränkung auf "einmalige Bildgenerierung" und verwandelt sie stattdessen in einen kontinuierlichen Gestaltungsprozess, der dem realen dreidimensionalen Produktionsablauf näher kommt.
Darüber hinaus bietet Marble auch eine neue Methode für die "Erweiterung" der Welt.
Bei der traditionellen 3D-Gestaltung ist die Ausdrucksstärke umso größer, je größer die Szene ist. Die Erweiterung einer Szene bedeutet jedoch in der Regel höhere Kosten. In dieser Hinsicht bietet Marble den Gestaltern eine enorme Freiheit.
Nach der Generierung der Anfangswelt können Benutzer jeden beliebigen Bereich erweitern. Sie müssen nur einen Bereich auswählen, und das System wird auf der Grundlage der bestehenden Szenenlogik eine neue Umgebung ableiten und die ursprünglich unscharfen oder unentwickelten Teile ergänzen.
Beispielsweise kann ein Eckbereich eines Raums in der ersten Generierungsversion nicht detailliert genug sein, oder die Informationen auf der Rückseite der Möbel sind nicht vollständig dargestellt. Durch die Erweiterung können diese Schwächen ausgeglichen werden, sodass die Szene einheitlicher und vollständiger wird.
Größere Bereiche können zu Gärten, Straßen oder sogar ganzen Landschaften erweitert werden, sodass die ursprüngliche kleine Szene sich natürlich zu einem immersiven Raum entwickelt.
Hier ist ein weiteres Demonstrationsbeispiel von Marble:
Neben der Erweiterung innerhalb einer einzelnen Welt bietet Marble auch eine andere Möglichkeit, große Szenen zu erstellen: Durch den "Kombinationsmodus" können mehrere unabhängig generierte Welten kombiniert werden.
Dieser "Kombinationsmodus" ermöglicht es den Gestaltern, die Beziehungen zwischen verschiedenen Welten wie bei der Kartenerstellung anzuordnen. Unabhängig davon, ob es sich um Nebeneinanderstellung, Verbindung oder Verschachtelung handelt, können sie die Anordnung nach Bedarf frei gestalten.
Das bedeutet, dass Benutzer zunächst mehrere Räume mit unterschiedlichen Stilen generieren können und dann durch die Kombination eine umfangreiche und vielfältige virtuelle Umgebung schaffen können.
Durch diese beiden Methoden wird Marble nicht mehr nur ein Werkzeug zur einmaligen Generierung von Szenen, sondern eher eine Plattform zur kontinuierlichen Erweiterung von Welten.
03 Generierte Inhalte als Materialien: Die KI-Welt kann in Spielen und Filmen eingesetzt werden
Nach der Generierung einer Welt ist der Schlüssel dafür, ob ein dreidimensionales Gestaltungswerkzeug tatsächlich seinen Wert entfalten kann, wie diese Welt in den realen Produktionsprozess integriert werden kann.
Marble ist in dieser Hinsicht sehr gut ausgestattet. Es ermöglicht es Benutzern, die Szene in verschiedene Formate zu exportieren, um sie in der anschließenden Spieleentwicklung, Filmproduktion, Architekturvisualisierung oder Robotersimulation weiter zu verwenden.
Einer der Exportmethoden ist die Gauss-Partikel-Renderung. Gauss-Partikel können als eine "dreidimensionale Darstellung aus unzähligen winzigen Punkten" verstanden werden. Bei der Generierung einer Welt teilt Marble die Szene in Tausende von kleinen Partikeln mit Farbe, Transparenz und Tiefeninformationen auf und überlagert sie dann, um ein realistisches dreidimensionales Bild zu erzeugen.
Diese Methode eignet sich besonders gut zur Darstellung von sanften Licht- und Schatteneffekten, komplexen Materialien und feinen räumlichen Ebenen und wird daher zur Darstellung der höchsten Genauigkeit von Marble-Welten verwendet.
Um diese Partikelwelten direkt im Webbrowser anzeigen zu können, hat Marble auch einen Open-Source-Renderer namens Spark entwickelt. Dieser basiert auf dem gängigen THREE.js (eine Bibliothek, die Benutzern hilft, 3D-Inhalte im Webbrowser anzuzeigen) und ermöglicht es Benutzern, diese Gauss-Partikelwelten direkt im Browser zu laden und anzuzeigen.
Wenn Sie traditionellere dreidimensionale Assets benötigen, unterstützt Marble auch den Export der Welt als "Dreiecksnetz". Dies ist das Standardformat in der Spiele-, Film- und Designbranche und kann von fast allen professionellen Softwareprogrammen direkt geöffnet werden.
Marble bietet zwei verschiedene Genauigkeitsstufen für die Netze an:
Eine ist das "Kollisionsnetz", das eine relativ grobe Struktur hat und für physikalische Simulationen wie die Kollisionserkennung von Charakteren oder die Pfadplanung von Robotern verwendet wird.
Die andere ist das "Hochqualitätsnetz", das möglichst viele Details und Licht- und Schatteneffekte des ursprünglichen Bildes bewahrt und sich gut für die Verwendung in Spielstufen, Animationsschnittstellen oder Architekturpräsentationen eignet.
Nach dem Export als Netz können diese Szenen nahtlos in gängige Produktionswerkzeuge wie Blender, Maya, Unity und Unreal importiert werden und werden vollständig in den bestehenden Gestaltungsprozess integriert, ohne dass zusätzliche Konvertierungen erforderlich sind. Das bedeutet, dass die von Marble generierten Materialien direkt in die Arbeitsabläufe der Spiele- und Filmbranche eingesetzt werden können.
Natürlich unterstützt Marble auch die direkte Renderung der gesamten Welt als Video, wenn Ihr Ziel nur die Präsentation ist. Die offiziellen Beispielvideos wurden fast alle direkt mit Marble generiert.
Darüber hinaus unterstützt Marble auch die Verbesserung der exportierten Videos. Es fügt automatisch feinere Details hinzu, beseitigt unnatürliche Stellen im Bild und fügt sogar einige dynamische Effekte wie das Flackern von Feuer, das Schweben von Rauch oder die Wellenbewegung von Wasser hinzu. Der gesamte Verbesserungsprozess basiert immer noch auf der ursprünglichen dreidimensionalen Struktur, sodass die Kameraperspektive, das Licht und die Perspektive konsistent bleiben.
Durch diese Exportmethoden wird Marble nicht mehr nur eine "KI, die Welten generieren kann", sondern ein echtes dreidimensionales Gestaltungswerkzeug, das in verschiedene Branchenarbeitsabläufe integriert werden kann.
04 Was bedeutet es, wenn die KI beginnt, "Welten zu generieren"?
Nachdem Sie die Fähigkeiten von Marble gesehen haben, wird sich fast von selbst die Frage stellen:
Was bedeutet es, wenn die KI tatsächlich beginnt, "Welten zu generieren"?
Tatsächlich hat Fei-Fei Li vor der Veröffentlichung von Marble einen langen Artikel mit dem Titel "Von Sprache zur Welt: Räumliche Intelligenz ist die nächste Frontiers der KI" veröffentlicht, der fast wie eine theoretische Grundlage für Weltmodelle wie Marble wirkt.
Der Artikel diskutiert ein tieferes Problem: Die Beziehung zwischen räumlicher Intelligenz und Weltmodellen und warum sie für die nächste Generation von KI entscheidend sein werden.
Fei-Fei Li ist der Meinung, dass räumliche Intelligenz bestimmt, wie Menschen mit der physischen Welt interagieren, und die Grundlage für fast alle kognitiven Fähigkeiten ist. Von der Verbesserung der Spinnmaschine bis zur Entdeckung der DNA-Doppelhelix stammen viele Ziele der Zivilisation von der Lösung von "räumlichen Problemen", die nicht allein durch Sprachbeschreibungen gelöst werden können.
Wenn die KI also die Welt wirklich verstehen, in reale Szenen eintreten und mit der physischen Umwelt interagieren möchte, muss sie diese "räumliche Intelligenz" besitzen, und dies wiederum erfordert die grundlegendere Fähigkeit: Weltmodelle.
Nach Ansicht von Fei-Fei Li muss ein reifes Weltmodell mindestens drei Kernfähigkeiten aufweisen:
Erstens,