Die Lite - Version von Tencents Hunyuan 3D ist da. Sie unterstützt Consumer - Grafikkarten. Geht das 3D - Modell in die Allgemeinheit?
Am 15. August hat das Tencent Hunyuan-Team eine Lite-Version des 3D-Weltmodells vorgestellt. Im Vergleich zu den bisher erforderlichen 26 GB Grafikspeicher wird durch die Einführung der dynamischen FP8 (8-Bit-Fließkommaformat)-Quantisierungstechnologie der Grafikspeicherbedarf direkt auf weniger als 17 GB gesenkt, sodass auch Consumer-Grafikkarten reibungslos laufen können.
Zuvor konnte zwar die FP32-Version des Tencent Hunyuan 3D-Weltmodells alle Details vollständig bewahren, doch war der Grafikspeicherbedarf extrem hoch – die Parameter könnten mehr als eine Milliarde betragen, und normalerweise war eine GPU mit großem VRAM erforderlich, um die Inferenzgeschwindigkeit zu erhöhen. Daher konnten Consumer-Grafikkarten diese Version überhaupt nicht unterstützen.
Einfach ausgedrückt, repräsentieren FP32, FP16 und FP8 verschiedene "Genauigkeitsgrade". In der Vergangenheit, als die hochpräzise FP32-Technologie verwendet wurde, konnte zwar eine extrem hohe Genauigkeit erreicht werden, doch wurde viel Grafikspeicher beansprucht, und es wurden möglicherweise unnötige Details beibehalten (z. B. die Himmelskarte im Hintergrund, die eigentlich nicht so fein gearbeitet werden muss).
Der Kern der dynamischen FP8-Quantisierungstechnologie liegt darin, dass die Datenverteilung während des Betriebs des Modells in Echtzeit überwacht und dynamisch an verschiedene Module angepasst werden kann: In den meisten Schlüsselbereichen wird die FP16-Genauigkeit verwendet, während in nicht-kritischen Teilen wie der oben genannten Hintergrundkarte die Genauigkeit dynamisch auf FP8 eingestellt wird.
Diese Technologie hat den Grafikspeicherbedarf erheblich reduziert. Obwohl die Genauigkeit in einigen Bereichen etwas gesenkt wurde, können Privatspieler nun problemlos das 3D-Weltmodell nutzen.
Tencent Hunyuan 3D revolutioniert den 3D-Modellierungsprozess
Das Tencent Hunyuan 3D-Weltmodell ist das erste quelloffene und bearbeitbare Weltgenerierungsmodell in der Branche. Es kann basierend auf vom Benutzer bereitgestellten Bildern oder Textinformationen direkt ein komplettes, bearbeitbares und interaktives Weltmodell generieren, das direkt in Szenarien wie Spielentwicklung, Effektgestaltung und Bildungsimulation eingesetzt werden kann.
Quelle: Offizielle Website von Tencent Hunyuan 3D
Im Vergleich zur bisherigen 3D-Modell-AI-Generierungsfunktion des Tencent Hunyuan-Modells ist der Inhalt des neu vorgestellten 3D-Weltmodells reichhaltiger und umfasst mehrere Faktoren wie Umgebungsstil, Innen- und Außenkulissen, Lichtrendering usw. Die traditionelle 3D-Szenenentwicklung dauert extrem lange. Nur für eine Hauptgebäude-Szene kann es Wochen oder sogar länger dauern. Die Effizienzsteigerung durch diese Szenen, die mit einem Klick generiert werden, übertrifft die Vorstellungskraft der Benutzer vollkommen.
Wie erzeugt das Hunyuan 3D-Weltmodell nun so schnell einen 360°-immersiven visuellen Raum angesichts einer so komplexen Szenenentwicklung?
Aus der Modellarchitektur des Hunyuan-Weltmodells 1.0 geht hervor, dass die Panoramaweltbildgenerierungstechnologie als einheitliches Vermittlungssystem zwischen Text, Bildern und der Welt zunächst ein Panorama des initialisierten Weltbildes erzeugt, um eine 360°-umfassende Szene zu realisieren.
Quelle: Offizielle Website von Tencent Hunyuan 3D, Modellarchitektur des Hunyuan-Weltmodells 1.0
Anschließend zerlegt das System die gesamte 3D-Welt in verschiedene klare Ebenen, wie Vordergrund und Hintergrund, Ozean und Boden, Boden und Himmel usw., und rekonstruiert dann die 3D-Welt auf der Grundlage dieser Ebenen, um schließlich das 3D-Weltmodell zu bilden.
Im Vergleich zur traditionellen 3D-Szenenentwicklung, bei der jedes Detail fein gearbeitet werden muss und viel Zeit und Personalressourcen aufgewendet werden müssen, spart diese Szenen, die mit einem Klick generiert werden, nicht nur viel Zeit, sondern kann auch standardisierte, erkundbare 3D-Mesh-Assets ausgeben, die mit Tools wie Unity und Unreal Engine kompatibel sind.
Außerdem hat die Genauigkeit der generierten Inhalte das Niveau erreicht, dass sie direkt verwendet werden können: Die Details in den Aufmerksamkeitsbereichen im Vordergrund sind gut dargestellt, die Trennung zwischen Hintergrund und Vordergrund ist ausreichend, und es gibt keine Probleme wie undeutliche Grenzen oder verschwommene Licht- und Schatteneffekte.
Nachdem man das Hunyuan 3D-Weltmodell auf der offiziellen Website getestet hat, wird man feststellen, dass es nicht alle Anforderungen im Text vollständig wiedergeben kann, sondern nur die groben Szenenanforderungen, die Licht- und Farbe sowie die Details im Vordergrundbereich.
Beispielsweise werden in den Textanforderungen des folgenden Bildes Elemente wie Maschinenwelt und Roboter erwähnt, doch sind diese in der generierten Szene nicht zu sehen. Das System hat nur die Wörter extrahiert, die für die Erstellung der allgemeinen Weltkulisse relevant sind, wie Cyberpunk-Wüstenstil, roter Sonnenuntergang am Himmel usw., und dann Vordergrund und Hintergrund getrennt – die "verlassene Freizeitwelt" wurde in Vordergrundinhalt zerlegt, und der rote Sonnenuntergang wurde als Hintergrundhimmel verwendet. Anschließend wurde die 3D-Weltkulisse auf der Grundlage dieser Ebenen rekonstruiert. Das heißt, es wurden nur die groben Szenenanforderungen wiedergegeben.
Quelle: Offizielle Website von Tencent Hunyuan 3D
Es ist deutlich zu sehen, dass das Hunyuan 3D-Weltmodell derzeit noch nicht die individuellen Anforderungen der Benutzer erfüllen kann. Dennoch kann es bereits grundlegend Vordergrund, Hintergrund und einfache Szenendetails erstellen, was in der Spielentwicklung und anderen Arbeiten viel Zeit sparen kann.
Außerdem ist das generierte 3D-Weltmodell für normale Spieler sehr spielbar. Die direkte Ausgabe von 3D-Mesh-Assets bringt eine einheitliche Formatierung und eine Reduzierung der Lernkurve mit sich. Wenn die AI die Arbeit der Szenenzersetzung und 3D-Konstruktion erledigen kann, wird die subjektive Aktivität der Benutzer die einzige Variable bei der Generierung der Szene.
Der Aufstieg der 3D-Modelle: Wird 2025 die Massenmarktdurchdringung erreicht?
Tencents Ziel, das Hunyuan 3D-Weltmodell nun auch auf Consumer-Grafikkarten nutzbar zu machen, ist klar: Es möchte Entwickler und Kreative in die "Tencent Hunyuan 3D"-Ökosystem locken. Das Modell unterstützt die gesamte Prozesskette von der 3D-Modellgenerierung bis hin zur 3D-Weltkulisse, sodass Benutzer ihre eigene virtuelle Welt erschaffen können.
Auf dem Markt gibt es bereits zahlreiche AI-Tools, die 3D-Modelle generieren können, wie Tripo AI, Meshy AI, GENIE usw. Die intensive Konkurrenz auf dem 3D-Sektor hat jedoch zu einer hohen Funktionshomogenität der Produkte geführt, was indirekt darauf hinweist, dass das "Übertragen realer Szenen in die virtuelle Welt" zum Kernmerkmal geworden ist, um das die Hersteller kämpfen.
Unter diesen AI-Tools hebt sich das AI-3D-Grundmodell Tripo AI, das das kalifornische Startup VAST 2024 veröffentlichte, durch seine einzigartige Produktstruktur hervor.
Im Gegensatz zu Tencent Hunyuan 3D, das auf einen breiteren Nutzerkreis abzielt, zielt Tripo AI eher auf professionelle Kreative: Nach dem Eintritt auf die Seite können Benutzer direkt über Text oder Bilder 3D-Modelle generieren, und die einstellbaren Parameter sind relativ reichhaltig – es unterstützt nicht nur die Texturgenerierungsfunktion, die alle gängigen AI-3D-Modelle haben, sondern kann auch die Modellteile automatisch aufteilen, sodass jedes einzelne Teil separat bearbeitet werden kann. Es unterstützt sogar die Bindung von Basisanimationen an die Modellteile und deren Demonstration, obwohl es gelegentlich Probleme mit der Verformung der Teile bei der Demonstration gibt. Insgesamt ist Tripo AI ein reifes AI-3D-Tool, das für verschiedene Szenarien geeignet ist.
Quelle: Tripo AI
Auch Meshy AI, das 2024 von einem chinesischen Team entwickelt wurde und ebenfalls die direkte Generierung von 3D-Modellen über Text und Bilder unterstützt, bietet eine stärker ausgebaute Communityfunktion als Kernvorteil: Benutzer können in der Community die 3D-Modellwerke anderer Kreativer ansehen, und die Plattform hat eine detaillierte Klassifizierung der Modelle, wobei auch Schlüsselinformationen wie Interaktionszahl, Anzahl der Likes und die Unterstützung für 3D-Druck markiert sind. Diese Gestaltung ermöglicht es neuen Benutzern, fertige 3D-Modelle direkt herunterzuladen und zu verwenden, und erhöht gleichzeitig die Verbreitung und Aktivität der Community.
Quelle: Meshy AI
Das von Luma AI entwickelte Tool GENIE unterstützt nicht nur die Umwandlung von Text in 3D-Modelle und den Export in verschiedenen Formaten (wie OBJ, FBX usw.) für verschiedene Szenarien, sondern bietet auch eine API-Schnittstelle als Hauptattraktion – Benutzer können über diese Schnittstelle direkt Videoinhalte in 3D-Modelle umwandeln, was es zu einem einzigartigen Produkt macht.
Es ist offensichtlich, dass alle oben genannten Produkte sich in der homogenen Konkurrenz mit ihren eigenen Stärken hervortun, und Tencent Hunyuan 3D ist da keine Ausnahme. Obwohl die 3D-Modellgenerierungsfunktion von Hunyuan 3D nicht wesentlich von anderen Tools abweicht, ist das "hohe kostenlose Kontingent" sein Kernvorteil: Auf der offiziellen Website von Hunyuan AI 3D können alle Benutzer täglich 20 Modelle kostenlos generieren, und nach dem Verbrauch der Anzahl können sie durch das Teilen mit Freunden erneut Zugang erhalten. Diese Marketingstrategie, "mit Menge Nutzer zu gewinnen", hat sich bewährt. Vor der Veröffentlichung der Lite-Version des 3D-Weltmodells hatte die Community bereits 2,3 Millionen Modell Downloads erreicht, was es zu einer der beliebtesten quelloffenen 3D-Modellplattformen weltweit macht.
Quelle: Tencent Hunyuan AI
Die Veröffentlichung der Lite-Version des Hunyuan 3D-Weltmodells, die auf Consumer-Grafikkarten optimiert ist, wird zweifellos mehr Kreative in das Ökosystem von Tencent ziehen. Das Wachstum der Nutzerbasis wird wiederum die Rückkopplungsiteration und die Erweiterung der Anwendungsfälle vorantreiben. Nehmen wir das derzeit beliebte VR-Brille als Beispiel: Die von Hunyuan 3D exportierten 3D-Weltmodell-Dateien können direkt in VR-Geräten verwendet werden. Benutzer können mit einem VR-Gerät jederzeit und überall in ihrer eigenen virtuellen Welt eintauchen, was die Kopplung zwischen Ökosystem und Hardware ermöglicht. Gleichzeitig können normale Benutzer mit dem AI-3D-Grundmodell leicht hochgradig maßgeschneiderte 3D-Modelle erstellen, die mit 3D-Druckern kollaborieren können.
Wichtiger noch ist, dass die nahezu "null Lernkurve" der AI-3D-Technologie ihre schnelle Penetration in verschiedene Branchen vorantreibt: In Bereichen wie Architekturplanung, Innenausstattung, E-Commerce-Präsentation usw. ist 3D-Visualisierung einfacher zu verstehen als Text oder traditionelle Zeichnungen. Mitarbeiter können die Szeneninhalt ohne komplizierte Lernprozesse erstellen, was die Zeit für die wiederholte Modellierung erheblich reduziert. Diese Kopplung zwischen "virtuellen Modellen" und "realen Branchen" kann nicht nur die Benutzerbindung erhöhen, sondern auch ein Gefühl der Zugehörigkeit vermitteln, da die Inhalte hochgradig maßgeschneidert sind. All diese Trends deuten darauf hin, dass die 3D-Modelle 2025 auf jeden Fall zur Massenmarktdurchdringung kommen werden.
Xiaolei meint, dass zukünftige AI-3D-Modelle die professionellen Szenenmodelle und die Kreativität weiter integrieren werden, indem sie sich auf spezifische Bereiche und Anwendungsfälle konzentrieren und so mehr vertikale Nutzer anziehen. Dadurch wird das Ökosystem erweitert und in verschiedene alltägliche Szenen eindringen.
Und das ist genau die Kernbedeutung der gegenwärtigen Welle der Massenmarktdurchdringung von 3D-Modellen: In einer Zeit, in der Realität und Virtuosität verschmelzen, jedem die Möglichkeit zu geben, eine 3D-virtuelle Welt zu erschaffen.