VAST hat eine neue Finanzierung im Wert von tens von Millionen US-Dollar abgeschlossen. Er sagte, dass das Modell als Produkt nicht das echte Produkt sei.
Text | Shi Jiaxiang
„Anchong Waves“ hat erfahren, dass das im Bereich der 3D-Generierungsmodelle tätige Unternehmen VAST eine Serie Pre - A+ - Finanzierung im Wert von mehreren Millionen US - Dollar abgeschlossen hat. Diese Runde wurde von der Investitionsfonds für die Künstliche - Intelligenz - Industrie von Peking angeführt, und Jingya Capital folgte als Mitinvestor.
„Wir in der gesamten Branche haben möglicherweise alles falsch gemacht.“ Dies war das stärkste Gefühl des Gründers von VAST, Song Yachen, in den letzten neun Monaten. Nach Gesprächen mit Hunderten von 3D - Künstlern erkannte Song Yachen, dass der Ansatz in der Branche, die AI - Generierung von 3D - Modellen als ein „Modell ist Produkt“ wie bei Texten und Bildern zu betrachten, nicht funktioniere.
Der Grund dafür ist, dass in anderen Inhaltsbereichen ein UGC - Ökosystem besteht, in dem Nutzer Inhalte veröffentlichen können, einfach um zu teilen. Derzeit befindet sich die 3D - Branche jedoch noch im PGC - Ökosystem.
„Wer sind dann die echten Zielnutzer?“ Song Yachens Antwort ist, dass sie Ähnlichkeiten mit Programmierern haben. Sie brauchen ebenfalls ein AI - natives 3D - Arbeitsplatzsystem wie „Cursor“, um den traditionellen Produktionsprozess neu zu gestalten.
Basierend auf diesem Erkenntnis veröffentlichte VAST im vergangenen Monat das AI - angetriebene One - Stop - 3D - Arbeitsplatzsystem Tripo Studio. Es bietet nicht nur die Möglichkeit, ein 80 - Punkt - Modell zu generieren, sondern auch einen vollständigen AI - Arbeitsablauf, damit die Künstler das Modell innerhalb weniger Minuten auf 95 Punkte optimieren können.
Zur gleichen Zeit erforscht VAST derzeit die momentan realisierbaren und konsumierbaren Inhaltsmuster der AI - 3D - Welt. Sie versuchen zu verstehen, was als stark interaktive leichte Inhalte Spaß macht. Sie arbeiten gemeinsam mit unabhängigen Entwicklern an 3D - Minispielen und haben für das Highlight - Gameplay „Alles im Taiji“ in „Yan Yun Sixteen Sounds“ eine „Tripo“ - Flash - Version entwickelt, damit die Spieler im virtuellen Raum ihre Wünsche direkt umsetzen können.
Diese Art der Exploration stammt teilweise aus Song Yachens Leidenschaft für Spiele. Als er noch bei SenseTime war, gründete er von Grund auf die Geschäftsfelder AI + Spiele und AI + Animation. Als Teil der Generation der 95er, die von den sogenannten „elektronischen Drogen“ „vergiftet“ wurden, sagte Song Yachen beim letzten Treffen, dass er jeden Tag erst um 2 oder 3 Uhr morgens ins Bett geht. Tagsüber ist er der CEO von VAST, und nachts ist er auch der Leiter einer Gilde in „The Lord of the Realms“.
Bei diesem Interview sagte er, dass er seit einiger Zeit nicht mehr in „The Lord of the Realms“ gespielt hat. „Weil es viele neue SLGs gibt“, und er ist derzeit in „Rome“ und „The Great Jianghu: Azure Dragon and White Crane“ verliebt und versucht es am Wochenende immer mal wieder, ein Spiel von „Dungeons & Dragons“ zu spielen. „Ich schlafe nur wenig, aber ich arbeite nicht weniger. Ich muss um 8 Uhr morgens wie gewohnt aufstehen und an Meetings teilnehmen.“ fügte er hinzu.
Das Büro von VAST in Peking hat sich bereits dreimal umgezogen, aber es befindet sich immer in der Nähe von Tsinghua Universität. VAST hat auch viele Absolventen (Bachelor, Master und Doktoranden) von Tsinghua Universität aufgenommen. Dies könnte einer der Gründe sein, warum es vom Investitionsfonds für die Künstliche - Intelligenz - Industrie von Peking gefördert wird.
Im September letzten Jahres und im Juni dieses Jahres haben wir zweimal mit dem Gründer von VAST, Song Yachen, gesprochen. Während des Interviews war Song Yachens Tonfall immer wieder von Begeisterung, Optimismus und dem Glauben an 3D als die nächste Inhaltsform geprägt. Wie er sagte, besteht der größte Unterschied zwischen Startup - Unternehmen und Großkonzernen darin, dass die Startups zuerst glauben und dann sehen.
Im Folgenden finden Sie das Interview, editiert von „Anchong Waves“ -
Teil 01
Von „3D Cursor“
zu „3D Meitu Xiuxiu“
„Anchong“: Seit der Finanzierung im September letzten Jahres, haben Sie neue Einsichten in die 3D - Branche gewonnen?
Song Yachen: Nach unseren Gesprächen letzten Jahres habe ich mit ungefähr mehreren Hundert Tripo - Künstlern gesprochen. Plötzlich war mir klar, dass etwas vorliegt, auf das die Leute in der Branche noch nicht reagiert haben. Tatsächlich haben wir alle in der Branche alles falsch gemacht.
Ich habe Ihnen früher gesagt, dass 3D der letzte „C“ in AIGC ist. In diesem Moment wurde mir jedoch plötzlich klar, dass dies nicht stimmt.
Wir und auch unsere Konkurrenten haben uns immer auf die Basis - Modelle konzentriert, weil es ohne Produktdarstellung nur so wenig zu tun gab.
Wir haben immer gedacht, dass Text, Bilder, Videos und auch 3D - Großmodelle alle Inhaltsgenerierungs - Großmodelle sind, also „Modell ist Produkt“. Zum Beispiel bei den frühen Versionen von Midjourney und Runway, die eine sehr einfache Benutzeroberfläche hatten. Man gab einfach einen Text ein, und es wurde direkt ein Bild oder Video generiert. Dann bemerkte man, dass manchmal ein bestimmtes Video oder ein bestimmter Effekt plötzlich sehr beliebt wurde. Die 3D - Branche ist jedoch sehr anders.
Der Grund dafür ist, dass die Künstler von Texten, Bildern und Videos und die bestehenden 3D - Künstler zwei verschiedene Gruppen sind. Die ersteren konnten schon frühzeitig UGC - Inhalte erstellen. Man kann mit dem Handy Videos aufnehmen, Bilder bearbeiten und mit apps wie Jianying videos schneiden. Die Einstiegshürden sind sehr niedrig. Aufgrund des bestehenden Ökosystems kann das Konzept „Modell ist Produkt“ die breite Öffentlichkeit direkt in die Kreativität einbeziehen.
Die 3D - Branche ist jedoch eher ein PGC - Ökosystem. PGC - Kreativität dient der Gewinnmaximierung. UGC - Nutzer veröffentlichen Inhalte, um Gedanken zu teilen, Emotionen auszulassen, zu meckern oder sich zu profilieren, aber nicht um Geld zu verdienen. Daher kann man nicht dem Weg „Modell ist Produkt“ folgen.
„Anchong“: Welchen Weg sollte man dann einschlagen?
Song Yachen: Ich denke, dass unser Nutzerprofil eher dem von Programmierern ähnelt.
Tripo kann über APIs Unternehmen bedienen, aber für professionelle Nutzer brauchen sie ein AI - natives 3D - Arbeitsplatzsystem, um den traditionellen Produktionsprozess neu zu gestalten.
Wenn Programmierer einmal an Cursor gewöhnt sind, ist es für sie schwer, wieder zu VS Code zurückzukehren. Dies ist etwas anderes als das Hinzufügen eines AI - Plugins zu bestehenden Arbeitssoftware, weil die Generierung und Bearbeitung immer noch voneinander getrennt sind.
Was unsere Nutzer tatsächlich brauchen, ist die Möglichkeit, in Tripo ein 80 - Punkt - 3D - Modell zu generieren und es dann in fünf Minuten auf über 95 Punkte zu optimieren. Durch AI wird die 3D - Produktionslinie neu definiert, und den Künstlern wird ein immersives 3D - Inhaltserstellungsklima geboten.
„Anchong“: Welche Veränderungen haben Sie vorgenommen, nachdem Sie dies erkannt haben?
Song Yachen: In diesem Jahr haben wir das Produktions - , Engineering - und Vertriebsteam gestärkt. Wir glauben, dass das endgültige Ergebnis ein AI - natives Arbeitsablaufsystem sein muss, das die 3D - Produktionslinie vollständig neu definiert, damit die Nutzer 3D - Inhalte end - to - end erstellen können.
„Anchong“: Wie verstehen Sie die Nutzer, die Sie jetzt bedienen möchten?
Song Yachen: In den letzten zwei Jahren haben wir professionelle Nutzer (Pro) gut bedient. Jetzt wollen wir professionelle Verbraucher (Pro - C) bedienen.
Die Bedienung von UGC - Nutzern ist die nächste Aufgabe. Erst wenn es ein „3D Meitu Xiuxiu“ gibt, kann es möglicherweise auch ein „3D - TikTok“ geben.
Unser Weg ist, zuerst das „Modell ist Produkt“ zu realisieren, jetzt arbeiten wir an einem „One - Stop - AI - 3D - Arbeitsplatzsystem“, und der nächste Schritt ist das „3D Meitu Xiuxiu“.
Der Unterschied zwischen dem „3D Meitu Xiuxiu“ und einem normalen 3D - Arbeitsplatzsystem besteht darin, dass das „3D Meitu Xiuxiu“ zwar die Kontrollierbarkeit und Bearbeitbarkeit für die Nutzer verringert, aber es Nutzern ohne Vorkenntnisse die Möglichkeit gibt, 3D - Inhalte, die von der breiten Öffentlichkeit konsumiert werden können, ohne Einstiegshürden zu erstellen.
Es ist etwas wie die Filter in Jianying. Man kann nicht die genauen Parameter kontrollieren. Der Vorteil besteht jedoch darin, dass es ohne Einstiegshürden und Kosten zu nutzen ist und die Kreativität direkt in konsumierbare Inhalte umwandeln kann.
Langfristig besteht noch eine Chance auf den B2C - Markt, aber man muss Schritt für Schritt vorgehen. Zuerst müssen die Einstiegshürden für die Pro - C - Nutzer gesenkt werden, und dann allmählich auch für die reinen UGC - Nutzer.
Warum können Text, Bilder und Videos direkt auf breiter Basis konsumiert werden? Weil es bereits Massenwerkzeuge wie die Schreibmethode und die Handy - Kamera gibt, und es ein reifes UGC - Ökosystem besteht. Die Nutzer sind bereits darauf vorbereitet und können bereits Meitu Xiuxiu und Jianying nutzen. Wenn man von einem „AI - Jianying“ oder „AI - Meitu Xiuxiu“ spricht, akzeptieren sie es sehr leicht.
„Anchong“: Seit dem Interview letzten Jahres scheint Ihre Einstellung konservativer geworden zu sein.
Song Yachen: Seit ich 2023 mit der Gründung des Unternehmens begonnen habe, halte ich jedes Jahr eine interne Präsentation für alle Mitarbeiter. Nachdem ich diesmal das dritte Mal gesprochen habe, habe ich den CTO Liang Ding gefragt, wie er es fand. Er sagte, dass es jedes Mal nicht viel unterschiedlich sei. Also hat sich mein ursprüngliches Ziel nicht geändert.
Es bedeutet auch nicht, dass wir konservativer geworden sind. Im Gegenteil, ich dachte ursprünglich, dass es 5 - 10 Jahre dauern würde, bis es ein „3D - TikTok“ gibt. Jetzt denke ich, dass es in 3 - 5 Jahren auftauchen wird. Ich bin optimistischer, aber ich passe die Methoden und Wege zur Erreichung meiner Ziele dynamisch an.
Teil 02
Zuerst glauben, dann sehen.
„Anchong“: In der Vergangenheit war die 3D - Branche noch ein relativ kleiner Nischenmarkt, aber in diesem Jahr setzen auch Tencent und ByteDance Kraft in die 3D - Entwicklung. Sorgen Sie sich darum?
Song Yachen: Wir stehen ständig in Konkurrenz mit Großkonzernen. Früher waren es nicht Tencent und ByteDance, sondern Nvidia, Meta, Google und OpenAI. Jetzt gibt es auch nationale Konkurrenten.
Große Unternehmen bilden in der Regel ein Algorithmus - Team, um technische und akademische Einflüsse zu erlangen. Viele Dinge, die sie jetzt tun, haben wir bereits vor zwei Jahren getan. So war es, als wir uns um die Modelle bemühten, hatten sie noch nicht begonnen. Jetzt, wenn sie sich um die Modelle bemühen, sind wir bereits in der Produktentwicklung, im Engineering und im Vertrieb weiter vorangekommen.
Große Unternehmen sind nicht so furchterregend. Ihr Denkansatz ist „Zuerst sehen, dann glauben“. Sie müssen etwas sehen, dass es funktioniert, die Daten gut sind, die Nutzerzahl hoch ist und es profitabel ist, bevor sie folgen. Startup - Unternehmen sind anders. Wir glauben zuerst und sehen dann. Wir wissen bereits, was wir tun möchten.
Außerdem arbeiten wir auch mit Großkonzernen zusammen.
„Anchong“: Erzählen Sie mal von Ihrem Beitrag zu „Yan Yun Sixteen Sounds“.
Song Yachen: Als „Yan Yun Sixteen Sounds“ Anfang dieses Jahres veröffentlicht wurde, gab es ein Kern - Gameplay namens „Alles im Taiji“, bei dem die 3D - Generierungstechnologie in eine neue Interaktionsform umgewandelt wurde, so dass man seine Wünsche direkt umsetzen kann. Diese Funktion haben wir bereitgestellt.
Zum Beispiel, wenn ein Spieler auf einen Fluss trifft, musste er früher umweg gehen. Jetzt kann er einfach eine Brücke generieren und darüber gehen. Oder wenn er im Kampf auf dem Rücken liegt, kann er einen Baum generieren und sich dahinter verstecken, so dass der Gegner ihn nicht treffen kann.
Zu Beginn war die 3D - Generierung ziemlich langsam. Nicht nur wir, sondern es war allgemein so, dass es mehrere zehn Sekunden dauerte. Für die Spieler ist es unpraktikabel, dass sie für das Überqueren eines Flusses mehrere zehn Sekunden auf die Brücke warten müssen, während sie in der Zwischenzeit schon umweg gegangen wären. Später haben wir eine Tripo - Flash - Version entwickelt, die die Generierungszeit von mehreren zehn Sekunden auf wenige Sekunden verkürzt, maximal auf 10 Sekunden.
Wir bieten drei Arten von Werten: Erstens Kostensenkung und Effizienzsteigerung, zweitens die Senkung der Einstiegshürden für die Kreativität, so dass auch Leute, die es vorher nicht konnten, jetzt etwas tun können, und drittens die Schaffung neuer Gameplays und Interaktionsformen.
Beim Zusammenspiel mit Spielestudios im Bereich des Gameplays beginnen die meisten Unternehmen in der Entwicklungs - oder Veröffentlichungsphase. Wir beginnen oft in der Betriebsphase. Wenn ein Spiel veröffentlicht wird und das Team beginnt, es zu betreiben und neue Gameplays, Funktionen zu testen und mit den Spielern zu interagieren, ist die Kooperationskosten am niedrigsten.
„Anchong“: Abgesehen von Spielen haben Sie auch Kunden aus der 3D - Druckbranche. Was halten Sie von diesem Markt?
Song Yachen: Ich bin selbst ein Enthusiast des 3D - Drucks. Ich habe auch einen 3D - Drucker zu Hause, und die Schuhe, die ich jetzt trage, sind 3D - gedruckt.
Es gibt jedoch ein Problem: Ich konnte vorher nicht modellieren, also musste ich immer Modelle von anderen herunterladen. Dies ist auch der Grund, warum die 3D - Druckbranche nicht so schnell wächst: Die meisten Menschen können nicht 3D - modellieren. Dadurch sind die Zielnutzer nur einige wenige Millionen Menschen.
Die „3D - Generierung“ hingegen erweitert den potenziellen Markt von einigen Millionen auf einige Milliarden Menschen. Die Genauigkeit der Modellgenerierung in der Tripo 2.5 - Version ist so gut, dass die 3D - Generierungstechnologie von VAST bereits die private 3D - Druckbranche vollständig bedienen kann.
„Anchong“: Wird die 3D - Druckbranche also ein großer Anwendungsbereich sein?
Song Yachen: Vom Standpunkt der Modellgenerierung aus gesehen, ist es für alle Kategorien außer für hyperrealistische Gesichter in Ordnung. Das Problem mit realistischen Gesichtern wird jedoch in unserer Version 3.