StartseiteArtikel

Nachdem das 3D-Weltmodell von Fei-Fei Li stark in Mode gekommen ist, ist jetzt die erste kostenlose Version in China verfügbar: Ich habe mich einmal wie ein "willkürlicher" Schöpfer gefühlt.

爱范儿2025-12-22 17:18
Die Welt ist so einfach.

Denken Sie sich noch das von Fei - Fei Li entwickelte "3D-Weltgenerierungsmodell" in Erinnerung, das kürzlich in der KI-Szene die Runde machte? Jetzt ist endlich die chinesische Version da.

Letzte Woche, als die Nachricht über die Übernahme von Shunyu Yao durch Tencent die Medien erschütterte, hat das Tencent Hunyuan-Team still und leise das World Model 1.5 (TencentHY WorldPlay) online gestellt. Dies ist das erste in China verfügbare Echtzeit-Weltmodell.

Was ist ein Weltmodell? Einfach ausgedrückt: Wenn Sie ein paar Sätze oder ein Bild eingeben, kann die KI eine virtuelle Welt generieren, in die Sie "hineingehen und spielen" können. Es ist nicht einfach nur ein Video, das man anschauen kann, sondern ein 3D-Raum, den Sie in Echtzeit mit Tastatur, Maus oder sogar Gamepad steuern können.

Spielszene, generiert aus dem ersten Bildausschnitt

Was sind die Highlights dieses Mal :

  • Durch ein eigenes Context Forcing-Destillationsverfahren und die Optimierung des Streamings kann das Modell 720p-HD-Videos mit 24 Bildern pro Sekunde generieren;
  • Durch die Rekonstitution des Gedächtnisses (Reconstituted Memory) unterstützt das Modell die geometrisch konsistente Generierung von Inhalten im Minutenbereich und kann somit für die Erstellung hochwertiger 3D-Raumsimulatoren verwendet werden;
  • Das Hunyuan-Weltmodell kann in Spielen oder realen Szenen unterschiedlicher Stile sowie in der ersten und dritten Person verwendet werden. Es unterstützt auch Echtzeit-Textauslöser und das Fortsetzen von Videos.

Sind Sie von diesen technischen Fachausdrücken verwirrt? APPSO zeigt Ihnen jetzt, wie Sie damit spielen können und "Welten" mit viel Fantasie erschaffen können.

Online-Testseite: https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

Von Text zu Welt - Erleben Sie das Gefühl des "Schöpfers"

Als ich die Seite öffnete, bemerkte ich, dass die Benutzeroberfläche wie ein alter Fernseher gestaltet war. Wenn wir als Kinder fernsahen, konnten wir nur sehen, was die ZDF oder Hunan TV ausstrahlten. Egal wie oft wir mit der Fernbedienung umgeschaltet haben, blieben wir immer in der vorgegebenen Programmstruktur gefangen.

Heute müssen Sie nicht mehr auf die Goldzeit um 20 Uhr warten oder auf den Regisseur warten, bis er fertig ist. Sie sind der Regisseur dieser Welt. Möchten Sie eine Achterbahn fahren? Tippen Sie ein paar Wörter ein und lassen Sie es generieren. Möchten Sie in die Jahrtausendwende zurückkehren? Beschreiben Sie es und lassen Sie es erscheinen.

Eine Achterbahn, die wie der Wind dahinrasst. Sie halten die kalte Metallhandhabe fest, der windstarke Wind bläst in Ihren Hals, plötzlich überkommt Sie ein Gefühl der Schwerelosigkeit, schnelle Bäume flitzen vorbei und die blendende Sonne scheint von oben. Die erste Personensicht ist sehr spannend und realistisch.

Eine Achterbahn, die wie der Wind dahinrasst. Sie halten die kalte Metallhandhabe fest, der windstarke Wind bläst in Ihren Hals, plötzlich überkommt Sie ein Gefühl der Schwerelosigkeit, schnelle Bäume flitzen vorbei und die blendende Sonne scheint von oben. Die erste Personensicht ist sehr spannend und realistisch.

Nach etwa 5 - 8 Sekunden erschien das Bild. Beim ersten Blick hatte ich wirklich das Gefühl, in der ersten Reihe der Achterbahn zu sitzen. Bei genauerer Betrachtung der Hände unten im Bild waren die Hauttextur, die Knöchel und sogar die Poren deutlich zu sehen. Die Farbe des roten Sitzes und die Kratzer an der Metallhandhabe waren sehr realistisch dargestellt.

Drücken Sie die Pfeil-auf-Taste, um vorwärts zu fahren. Das Bild beginnt sich rückwärts zu bewegen, als würden Sie rückwärts auf der Achterbahn fahren. Es wird noch spannender!

Im späteren Verlauf des Videos waren die Bäume auf beiden Seiten nicht mehr so scharf und stark verzerrt. Angesichts der Schwierigkeiten der Echtzeitgenerierung ist dies jedoch verständlich.

Ein Schneemotorrad, das wie ein Pfeil dahinrasst. Sie halten die eiskalte Metallgriffstange fest, spitze Schneekörner prasseln gegen Ihr Gesicht, plötzlich überkommt Sie ein Gefühl der Schwerelosigkeit, schnelle Bäume flitzen vorbei und der kalte Schnee und das Licht am Himmel. Die erste Personensicht ist sehr spannend.

Nach der Generierung des Bildes befand ich mich in einem "stillstehenden Moment". Der Schnee, die Bäume und das Licht am Himmel waren still, als hätte ich den Pausenknopf gedrückt. Ich konnte die Kamera frei drehen und die aufgewirbelten Schneeflocken, den Himmel und die Reifspuren auf der Metallgriffstange genau betrachten.

Zuerst dachte ich, dass dies ein Fehler sei. Aber wenn ich darüber nachdenke, ist es so, als ob Sie in eine neue Welt gereist wären und die Zeit in diesem Moment stillsteht. Sie können sich die Umgebung und alle Details in Ruhe ansehen.

Technisch gesehen ist es möglich, dass das Modell Schwierigkeiten hat, Szenen mit "erster Personensicht + hoher Geschwindigkeit" zu verarbeiten. Obwohl dies nicht die erwartete dynamische Erfahrung des "Fahrens auf einem Schneemotorrad" war, kann man bei dieser Art der Exploration der stillstehenden Momente die Textur des von der KI generierten 3D-Raums besser spüren.

Eine lebhafte Szene an der Jahrtausendwende. Es gibt Kassettenstände auf der Straße, Menschen halten farbige Ballons und warten auf die Neujahrszählung auf dem Platz. An den Straßenständen werden die Neujahrsfeiern auf alten Fernsehgeräten gezeigt. Plötzlich entzünden sich die Feuerwerke und erhellen den Himmel. Ein nostalgischer Stil.

Wenn Sie in den 80er oder 90er Jahren geboren wurden, ist diese Szene auf jeden Fall einen Versuch wert. Im Jahr 2000, als noch keine Smartphones verbreitet waren, konnten nur wenige Menschen Videos aufnehmen.

Als die Kamera von den Kassettenständen auf das Gebäude rechts wechselte, behielten die Objekte in der Szene ihre relative Position gut bei. Die Straßenlaternen, die Menschen und die Fernsehgeräte waren nicht verschoben oder verrutscht. Dies zeigt, dass das Modell die dreidimensionale Welt gut versteht.

Aber beim Betrachten der Kassettensäle trat das typische "klebrige" Verhalten von KI auf. Von der Ferne sah es farbenfroh aus, aber aus der Nähe fehlten die scharfen Kanten. Wenn ich nach oben auf das Gebäude rechts schaute, wirkten die Details des Gebäudes sehr "weich", eher wie ein Gemälde als wie ein festes Objekt mit harter physikalischer Struktur.

Nachdem ich die nostalgischen Szenen getestet hatte, wollte ich eine Meerblickvilla testen, in der ich schon immer wohnen wollte.

Die Hauptfarben des Zimmers sind hellblau und sandfarben. Der Boden ist mit mattierten Fliesen mit Muscheltextur bedeckt. Am Fenster steht ein hellgrauer Leinensessel. Die französischen Fenster sind unbehindert und rammen die Meeraussicht wie ein lebendes Bild ein.

Dies war eine fast 180-Grad-Panoramabildung. Beim Umschalten des Blickwinkels über eine große Distanz verzerrten sich die Fensterrahmen, Säulen und Deckenlinien nicht. Dies zeigt eine ausgezeichnete dreidimensionale Konsistenz des Modells.

Obwohl wir keine Meerblickvilla kaufen können, können wir uns zumindest in der von der KI generierten Welt entspannen (lacht). Vielleicht können wir es auch nutzen, um uns die Einrichtung unseres zukünftigen Hauses vorzustellen.

Machen Sie die "Tausend Meilen Landschaft" lebendig

Außer der Textgenerierung unterstützt das Hunyuan-Weltmodell auch die Funktion "Einzelbildgenerierung von Szenen". Bevor Sie ein Bild hochladen, sollten Sie folgende Dinge beachten:

Überprüfen Sie die Auflösung: 1280×704 bis 4k×4k. Wenn Sie ein großes Bild von mehreren Megabyte von einer professionellen Kamera haben, reduzieren Sie bitte die Qualität oder die Größe auf weniger als 10 MB.

Vermeiden Sie Hochformatbilder: Hochformatbilder von Mobiltelefonen erfüllen nicht die Anforderungen. Schneiden Sie es am besten in Querformat zu.

Videoerweiterung: Generiert aus dem ersten Bildausschnitt

Nachdem ich diese Dinge erledigt hatte, unternahm ich einen mutigen Versuch: Ich habe einen Ausschnitt aus der "Tausend Meilen Landschaft" hochgeladen.

Ja, ich meine das blaue und grüne Landschaftsmalwerk von Wang Ximeng, einem genialen jungen Künstler aus der nördlichen Song-Dynastie, das er im Alter von 18 Jahren gemalt hat. Ich wollte wissen, ob die KI die ästhetische Welt vor tausend Jahren verstehen kann.

Das generierte Bild übertraf meine Erwartungen vollkommen:

Die KI hat die Stilmerkmale des Originalbildes gut beibehalten. Die 3D-Verarbeitung hat die Atmosphäre der chinesischen Malerei nicht zerstört. Ich fühlte mich, als wäre ich in die nördliche Song-Dynastie zurückgereist und stände in der Landschaft, in der Wang Ximeng damals skizzierte.

Dies zeigt, dass das Weltmodell Kunst nicht nur zum "Betrachten" macht, sondern auch zum "Besuchen" ermöglicht.

Echtzeitereignisse auslösen

Das interessanteste an dem Weltmodell ist, dass Sie nur ein paar Worte sagen müssen und nach 5 Sekunden ändert sich die Welt nach Ihrem Willen.

Stellen Sie sich nicht mehr vor, dass Sie keine Möglichkeiten haben. Hier können Sie das Gefühl des Machtigen erleben.

Es ist nicht ein sprunghafter "Szenenwechsel", sondern ein sanfter Übergang. Der Übergang von hellem bis dunklem Himmel und die feinen Änderungen des Lichts lassen diese Welt lebendig erscheinen.