StartseiteArtikel

Zwei große Unternehmen haben in ein 3D-Modell-Generierungsunternehmen investiert|WAVES

Muqiu2025-01-29 11:56
Meituan und ByteDance investieren gleichzeitig.

Text | Jiaxiang Shi

Redaktion | Jing Liu

Im Oktober 2023, nach einem halben Jahr voller Anstrengungen, wurde eine Finanzierungsrunde von Yingmo Technology ohne Erfolg abgebrochen. Der Gründer Wu Di war völlig verblüfft. 

Ohne viel Überlegung führte Yingmo Technology die erste groß angelegte Personalumstrukturierung seit seiner Gründung durch. Wu Di wollte schnell eine kleine Finanzierungsrunde abschließen, um den Betrieb des Unternehmens zu sichern, aber das Umfeld war extrem ungünstig. Der Misserfolg in der Finanzierung bestärkte ihre Idee, die Fähigkeiten zur Generierung von 3D-Vermögenswerten in allen Produktkategorien auszubauen. 

Zu dieser Zeit hatten bereits Teams auf Basis von 2D-Hochskalierungstechnologien 3D-Generierungsprodukte auf den Markt gebracht, was der Hauptpfad in der akademischen Welt ist. 

Sie erkannten jedoch die Grenzen des 2D-Hochskalierungspfads: Es kann nur eine Seite eines realen Objekts abbilden, und selbst unbegrenzt viele Blickwinkel können den 3D-Inhalt nicht vollständig beschreiben. 

Die einzige Lösung besteht darin, von Anfang an native 3D-Daten zu verwenden. Fast durch eine all-in-Wette wurden sogar die Künstler des Teams, die ursprünglich für Filmprojekte zuständig waren, abgezogen, um sich mit Modellmarkierungen zu befassen. Im Juni letzten Jahres wurde Rodin, die 3D-Engine auf Basis von CLAY, eingeführt. CLAY ist ein von Yingmo und der ShanghaiTech University gemeinsam entwickeltes natives 3D-Diffusion-Transformer-Großmodell, das ihnen eine Nominierung für das beste Paper der SIGGRAPH2024 einbrachte. 

45 Tage später erreichte Rodin einen ARR von 1 Million US-Dollar. Wu Di sagte, dass dies der Hauptgrund war, warum sie später von großen Unternehmen wahrgenommen wurden. 

Waves hat erfahren, dass Yingmo Technology eine neue Serie-A-Finanzierungsrunde in Höhe von mehreren zehn Millionen Dollar abgeschlossen hat, angeführt von Meituan Longzhu und ByteDance, mit den bestehenden Investoren Sequoia China Seed Fund und Miracle Plus als Mitinvestoren. 

Yingmo wurde in der Vergangenheit als "Studentenunternehmer" bezeichnet, und sogar die Kernmitglieder studieren derzeit noch im Labor für ihren Master oder Doktor, aber nach vier Jahren sagte CTO Zhang Qixuan, dass "kleine Genies" zunehmend die Kommerzialisierung und Benutzerfreundlichkeit von Produkten in den Vordergrund rücken. 

Wu Di erinnert sich noch daran, als er an die ShanghaiTech University kam, war die Schule noch eine Baustelle. Er wusste nicht einmal, ob diese Baustelle tatsächlich zum modernen Campus aus den Ansichtsplänen werden würde. Aber direkt nach dem Abitur kümmerte er sich nicht darum. Die fast vollständig unbeschriebene Partitur reizte ihn mehr als der konventionelle Weg, mit dem Studium fertig zu werden, im Ausland weiterzubilden und zu großen Unternehmen im In- und Ausland zugehen. 

"WAVES" ist eine neue Rubrik von Wave. Hier präsentieren wir Ihnen die Geschichten und den Geist der neuen Generation von Unternehmern und Investoren.

Im Folgenden reflektieren der Gründer von Yingmo Technology Wu Di und CTO Zhang Qixuan über die vergangenen Gründergeschichten und ihr Verständnis der Zukunft im 3D-Sektor, bearbeitet von Waves: 

Über Unternehmertum: Eine Entscheidung

1. Die Geburt von Yingmo begann mit einem Problem im Labor: Wie man Menschen und Objekte in die virtuelle Welt bringt. Um dieses Ziel zu erreichen, führten wir 2020 das erste Gesichtsscanningsystem ein, das das Erscheinungsbild eines Gesichts unter verschiedenen Umgebungslichtbedingungen erfassen kann, um neue Gesichtsanzeigeeffekte unter unterschiedlichen Beleuchtungen zu erzeugen. 

2. Doch bei der praktischen Anwendung dieser Technologie stießen wir an Grenzen. Wir waren in ein Face-Swapping-Projekt des Films "The Wandering Earth 2" involviert, konnten aber letztlich nicht erfolgreich zusammenarbeiten. Das Problem war, dass das ursprüngliche Kuppel-Lichtfeld sich auf die Lichtaufnahme konzentrierte, um den Effekt des Lichts auf eine Person zu skizzieren, wobei die Kameraansicht fixiert war, und das Modell sich nicht bewegen konnte. Letztlich konnte es nur in bestimmten Ansichten - wie bei statischen Kameraperspektiven - verwendet werden. Das Lichtfeld konnte nur Daten geometrischer Informationen sammeln, war aber unfähig, Materialien zu erkennen oder dynamische Informationen wie Falten im Gesicht zu verarbeiten. 

3. Damals erkannte ich, dass es eine enorme Kluft zwischen den Forschungen in akademischen Kreisen und den Anforderungen der Industrie gibt. Ein 3D-Modell, das elegantes Wiring, strukturierte UV-Mappen, Renderfähigkeit bietet und in Spielen in Echtzeit animiert werden kann, ist das, was die Industrie benötigt. Während wir auf die Aktualisierung der neuen Generation des Kuppel-Lichtfelds warteten, überlegten wir, generative Netzwerktechnologien auszuprobieren. 

4. Yingmo entwickelte damals zwei Produkte, eines davon hieß Wand. Diese App war sehr einfach: Benutzer zeichnen einfache Skizzen auf der Leinwand, und Wand generiert realistische Avatarköpfe. Die Produktentwicklung dauerte nur zwei Wochen. Die erste Generation realistischer Avatarköpfe sorgte für keine großen Wellen, also änderten wir die Generierungsergebnisse von realen Images zu Zweitanime-Bildern. Ergebnis darauf: Wand erreichte den ersten Platz in der Kategorie Grafik und Design im App Store, mit über 1,6 Millionen registrierten Nutzern, die auf Wand ihren "Zweitanime-Liebhaber" zeichneten. 

5. Aber Wand war nur ein einfaches Werkzeug; die Nutzer blieben nicht, und wir konnten kein gutes Monetarisierungsmodell entwickeln, um das Gleichgewicht zwischen Nutzern und Berechnungskraftkosten zu finden. Die nächsten Schritte waren entweder, die Technologie weiter zu erforschen, um mehr Funktionen anzubieten, oder eine Zweitanime-Community zu schaffen. Aber wir hatten kein Vertrauen in 2D-Technologien, und als Technikteam von acht Personen fanden wir niemanden, der ein Community-Management betreiben konnte. Letztendlich mussten wir uns eingestehen, dass wir den Traffic nicht handeln konnten, und haben die 2D-Geschäftslinie komplett eingestellt. 

6. Rückblickend hat Wand bereits seine historische Mission erfüllt, indem es uns den ersten Gewinn brachte, auch wenn es nur 6000 waren, aber wichtiger war, dass uns dies die Angel-Finanzierung sicherte. Dennoch glauben wir, dass die nächste Generation von Anzeigegeräten und Interaktionen in einer dreidimensionalen Ebene stattfinden wird. 

Über Richtungswahl und die Zukunft von 3D-Generierung: Schwanken und Entschlossenheit

7. Nach der Finanzierung kam der Metaverse-Hype, und wir sicherten uns mit dem Trend zu digitalen Menschen und Metaverse eine zweite Finanzierung. Zu diesem Zeitpunkt dachten wir, dass bestehende digitale Personen sich letztendlich in ID-Typ-Digitalpersonen verwandeln würden, zu einem Must-Have für jeden, der die virtuelle Welt betreten möchte. Ende 2022 brachten wir DreamFace und den darauf basierenden 3D-Charaktergenerator ChatAvatar auf den Markt, wodurch Modelle mindestens auf Nebendarstellerniveau mit Skelettbindung möglich wurden.

8. Aber der Zeitpunkt unseres Markteintritts fiel mit dem Ende des Metaverse zusammen, und der Kommerzialisierungsfortschritt verlief schleppend. In dem Jahr schloss ich mein Studium ab, verlagerte das Büro aus dem ShanghaiTech-Labor, traf plötzlich auf pandemiebedingte Lockdowns und zahlte ein halbes Jahr Miete umsonst. 

9. Bis 2023 verbrachten ich sechs Monate, um über eine neue Finanzierungsrunde zu verhandeln. Doch über Nacht beschloss der Hauptinvestor, sich zurückzuziehen, was mich völlig lahmlegte. Ich wollte ursprünglich eine oder zwei Millionen Dollar sammeln, um über die Runden zu kommen, aber das Umfeld war miserabel. Ich ließ die Finanzen, mir zweimal pro Woche den Kontostand zu zeigen, überprüfte ständig den Cashflow und bemühte mich, die Einnahmen und Ausgaben ausgeglichen zu halten. Damals wurde mir klar, dass Yingmo kein weiteres Geld einwerben konnte, bis neue Meilensteine erreicht wurden. 

10. Wir hatten bereits die umfassende generative 3D-Entwicklung in den Fokus gerückt, standen aber gleichzeitig vor einer wichtigen technologischen Entscheidung. Die Technologierouten der 3D-Generierung lassen sich grob in zwei Kategorien unterteilen: 2D-Upscaling und native 3D. Erstere trainiert mit massiven Mengen an 2D-Bilddaten zur Generierung, stößt aber aufgrund der Fokussierung auf die 3D-Welt auf das Problem der "Mehrköpfigkeit" bei Modellen. Mit diesem Technologiepfad Produkte zuerst auf den Markt zu bringen kann dazu führen, dass man schnell eine Finanzierung erhält, aber die Produkte werden nie den "Production-Ready"-Standard erreichen. Wir waren unsicher, ob die native 3D-Technologie machbar wäre. 

11. Wir kamen letztlich überein, dass, um mit der 3D-Industrie mithalten zu können, nur die native 3D-Methode anwendbar wäre. Diese Methode wird oft für ihre Knappheit an hochwertigen Daten als schwierig angesehen. Tatsächlich ist die Begrenzung der 3D-Generierung nicht die Datenmenge des Modells, sondern die geeignete dreidimensionale Darstellung und Parametergröße. Der Schlüssel liegt darin, die Informationsverluste vom Datensatz zur finalen Ausgabe so gering wie möglich zu halten. 

12. Rodin wurde im Juni letzten Jahres veröffentlicht und war das letzte der gleichzeitigen 3D-Generator-Startup-Produkte, das auf den Markt kam. Ich denke, dass seine Generierungsqualität und Nutzbarkeit damals die der Konkurrenzprodukte weit übertraf. Die am 31. Dezember 2024 veröffentlichte Rodin Gen-1.5 schloss die Lücke bei der scharfen Kanten-Generierungsfähigkeit. Bei CAD-Industrie- und Hartoberflächenmodellen hat es einen absoluten Vorteil. 

3D-Modell

13. Dennoch ist das von AI generierte Modell noch weit von der direkten Einsatzbereitschaft entfernt. Im Gegensatz zu Videoinhalten oder Bildern ist 3D ein industriell orientierter Inhalt, nicht konsumorientiert, was bedeutet, dass es etablierte Industriestandards gibt. In Anbetracht von Problemen wie Topologie, geometrischer Präzision, Material und UV-Entwicklung sind AI-generierte 3D Modelle noch weit davon entfernt, direkt in Spielen oder Filmen verwendet zu werden. 

14. Da die Fähigkeit, die Kreativität gewöhnlicher Nutzer in der 3D-Welt zu entfesseln, noch nicht bedeutet, dass die Ära des konsumorientierten 3D angekommen ist, werden weitere Voraussetzungen benötigt — etwa die Allgegenwärtigkeit von Vision Pro, Quest 3 und iPhone. Das Metaverse wurde zwar berühmt, doch war es eher eine Selbstinszenierung der B-End-Player. In Bezug auf Effizienz im Spielebereich kann 3D-Generierung nicht mit Midjourney konkurrieren. Im Labor dachten wir, Technologie sei Produkt und Unternehmen, tatsächlich entspricht Technologie nicht Produkten oder Unternehmen.

15. Rodin kann weder spiel- noch filmtaugliche industrielle 3D-Produkte generieren, vielleicht wird 3D-Generierung als zentrales Feature in Spielen und Filmen der Zukunft auftauchen, aber die Gelegenheit für native 3D-Technologie liegt derzeit im vorhandenen Markt. 

16. Deshalb zielt Yingmo diesmal auf die Kommerzialisierung von "Game Outsourcing": Im Prozess des Game-Modellings besteht eine Serie von möglicherweise mehrfach zu überholenden "Entwürfen". Jetzt kann Rodin nach Fertigstellung der dreiseitigen Darstellung des Originaldesigns Modell-Entwürfe erstellen, die dann in den Details vom Modellierer angepasst werden. So werden in der mittleren oder Vorschaustufe der Modellerstellung Kosten gesenkt oder es können auch einige weniger wichtige Assets eingebaut werden. 

17. Als ich an die ShanghaiTech University kam, war die Schule noch eine Baustelle, auch das Labor war ganz neu. Wir waren Zeugen, wie sich die Universität von Schutt zu Hochhäusern entwickelte. In gewisser Weise ist der Werdegang der ShanghaiTech wie unser Mentor sagte, auch eine "große Gründung". Yingmo Technology steht in den letzten vier Jahren als Fußnote zu dieser "Gründung".