Hat das in China eigens entwickelte Matrix-3D bereits das von Fei-Fei Li inszenierte "Weltmodell" voraus erreicht?
Das von China selbst entwickelte Weltmodell Matrix-3D kann mit nur einem einzigen Bild eine frei erkundbare 3D-Welt generieren. Nicht nur ist seine Leistung mit der von Fei-Fei Lis World Labs vergleichbar, sondern es ermöglicht auch einen größeren Erkundungsraum und tritt somit als Pionier in das vorderste Feld des künstlichen Verständnisses der Welt ein.
Ein Blumenei ist eine Welt, ein Blatt ein Bodhi.
Seit Jahrhunderten konnten die Menschen die Welt jenseits der Bilder nur in ihrer Vorstellungskraft skizzieren. Zwischen Traum und Realität hing stets ein unzugänglicher Schleier.
Heute, wenn die Macht der KI unendlich erweitert wird, wird dieser Schleier endlich aufgehoben –
Matrix-3D, ein echtes Weltmodell, das aus „einem Bild unzählige Szenen erschafft“!
Es ist nicht nur das erste von Kunlun Wanwei entwickelte Weltmodell, sondern auch ein vollkommen neues Upgrade des ersten selbst entwickelten Weltmodells „Matrix-Zero“.
Das evolvierte Weltmodell Matrix-3D kann ausgehend von einem Foto einer Bergwiese eine Panoramablick mit wehendem Gras und hügeligen Bergen erschaffen.
Von einer Ecke einer modernen Stadt ausgehend kann es die strahlenden Straßen und Hochhäuser jenseits des Bildes „erfinden“.
Jetzt brauchen wir keine mehreren Ansichten mehr und sind nicht länger auf lokale Perspektiven beschränkt. Stattdessen haben wir tatsächlich eine 3D-Welt mit präziser geometrischer Struktur und 360° freier Navigation realisiert.
Es ist erwähnenswert, dass diese Woche die aufregende KI-Technologie-Publikationswoche von Kunlun Wanwei ist, und Matrix-3D ist das zweite aufgetretene Modell.
Die Kernprobleme der Raumintelligenz herausfordern
Nach zwei Jahren des harten Wettbewerbs im Bereich der großen Modelle beobachten alle, in welche Richtung der nächste Durchbruch gehen wird.
Hierbei kann World Labs von Fei-Fei Li, das in nur drei Monaten einen Wert von einer Milliarde Dollar erreicht hat, möglicherweise beweisen: Weltmodelle mit Raumintelligenz sind der nächste Vorstoßpunkt des künstlichen Verständnisses der Welt.
Kürzlich hat Google Genie 3 veröffentlicht, was erneut alle Menschen mit Erwartungen an „Weltmodelle“ erfüllt. Es kann in Echtzeit 720p-Bilder mit einer Geschwindigkeit von 20 - 24 Bildern pro Sekunde generieren und eine Konsistenz über mehrere Minuten aufrechterhalten.
Als Exploration hat Kunlun Wanwei auch im Februar dieses Jahres das selbst entwickelte Weltmodell Matrix-Zero veröffentlicht:
- Es kann nicht nur die vom Benutzer eingegebenen Bilder in eine realistische und vernünftige 3D-Szene umwandeln, die frei erkundet werden kann;
- sondern kann auch interaktive Videoeffekte in Echtzeit basierend auf der Benutzereingabe generieren.
Das neu veröffentlichte Matrix-3D verfügt erstmals über die Fähigkeit, aus „einem Bild in die reale Welt zu eintauchen“, wodurch das Weltmodell erneut evolviert ist:
- Globale Konsistenz der Szene: Unterstützt eine 360°-Freischau, genaue geometrische Struktur, natürliche Verdeckungsverhältnisse und einheitlichen Texturstil.
- Großer Generierungsbereich der Szene: Im Vergleich zu den bestehenden Szenegenerierungsmethoden ermöglicht es die Generierung eines größeren, 360° frei erkundbaren Bereichs.
- Hochgradig steuerbare Generierung: Unterstützt sowohl Texteingabe als auch Bilder eingabe. Die Ergebnisse stimmen hochgradig mit der Eingabe überein und ermöglichen benutzerdefinierte Bereiche und unbegrenzte Erweiterung.
- Starke Generalisierungsfähigkeit: Basierend auf selbst entwickelten 3D-Daten und Video-Modell-Vorwissen kann es eine Vielzahl von hochwertigen Szenen generieren.
- Schnelle Generierungsgeschwindigkeit: Das erste Vorwärts-Panoram-3D-Szenegenerierungsmodell, das schnell hochwertige 3D-Szenen generieren kann.
Technischer Bericht: https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf
Projektseite: https://matrix-3d.github.io/
Github: https://github.com/SkyworkAI/Matrix-3D
Hugging Face: https://huggingface.co/Skywork/Matrix-3D
Jetzt lassen Sie uns die „Kraft“ von Matrix-3D direkt erleben.
Bildkonsistenz
Zunächst kann sowohl der generierte Inhalt als auch die Farben einheitlich sein.
Zweitens unterstützt Matrix-3D eine 360°-Freischau.
Ein animierter Dorfstil mit einem Haus mit grasigem Dach, einer Windmühle und einem Blumenfeld, das sich bis an den Horizont erstreckt, äußerst detailliert, warmes Licht, gemütliche Atmosphäre.
Außerdem stimmen die geometrischen und Verdeckungsverhältnisse zwischen den Objekten den physikalischen Gesetzen überein.
Ein impressionistischer Winterlandschaftsdruck, der Berge, einen See, eine Hütte, Bäume und Schnee enthält, hauptsächlich in Blautönen, reiche Pinselstriche, ruhige Atmosphäre, hohe Auflösung, lebhafte Farben.
Das von Matrix-3D generierte Panoramvideo sieht wie folgt aus:
Und das endgültige Ergebnis der 3D-Szenenrenderung sieht so aus:
Eine blockpixelierte Landschaft, die Berge, Bäume, Gewässer, Himmel und Wolken enthält, ähnlich dem Stil von „Minecraft“, hohe Auflösung, lebhafte Farben, reiche Texturdetails, ruhige Atmosphäre.
Präzise Steuerung
In der 3D-Welt bewegt sich unsere Sicht normalerweise willkürlich entlang verschiedener Pfade in verschiedene Richtungen.
Für diese verschiedenen Bahnen kann Matrix-3D die entsprechenden 3D-Szenen generieren.
Beispielsweise bewegt man sich entlang einer S-förmigen Kurve vorwärts:
Oder bewegt man sich nach rechts vorwärts:
Großer Bewegungsbereich
Im Vergleich zur Methode von Fei-Fei Lis World Labs unterstützt Matrix-3D einen größeren Bewegungsbereich.