StartseiteArtikel

Der ehemalige Leiter des ByteDance Jianying AI-Produkts gründet ein Unternehmen und erhält Investitionen von Silicon Valley-Fonds und BV Baidu Ventures, um einen multimedialen Marketing-Agenten zu entwickeln.

咏仪2025-10-29 13:04
Es macht nichts, dass Sora 2 veröffentlicht wurde. Wir bauen bereits ein Schiff.

Text | Deng Yongyi

Editor | Su Jianxun

Im Bereich von AIGC ist Liao Qian möglicherweise einer der wenigen in China, der selbst Starprodukte mit einem Jahresumsatz von mehreren Millionen US - Dollar entwickelt hat und in allen Aspekten, von der Produktentwicklung, der Kommerzialisierung bis hin zum globalen Markt, Erfahrung gesammelt hat. Er ist ein echter "Mehrseitler".

Sein Berufspfad stimmt genau mit den technologischen Wendepunkten überein: Anfangs arbeitete er bei Tencent Cloud an den ersten To - C Gesichtswechselprodukten. Innerhalb von nur zehn Tagen erreichte das Produkt eine tägliche Aktivbenutzerzahl (DAU) von mehreren Millionen.

Als Midjourney 2022 aufkam, gehörte er zu den ersten in ByteDance, die sich mit multimodalen Fähigkeiten befassten. Er entwarf und brachte von Grund auf das "Intelligente Kreativcloud" - Produkt der Volcengine heraus, das das am meisten besuchte Produkt war. Es bietet Tausenden von kleinen und mittleren Unternehmen Marketing - und Automatisierungsdienste. Außerdem initiierte er im Bereich von Jianying das Auslands - Projekt Pippit, das inzwischen über eine Million monatliche aktive Benutzer hat.

Anfang 2024 machte die Veröffentlichung von Sora Liao Qian darauf aufmerksam, dass der "ChatGPT - Moment" für multimodale Technologien bald eintreffen könnte. Sofort beschloss er, der multimodalen Start - up - Firma Shengshu Technology beizutreten. Er leitete ein Team von über hundert Personen in den Bereichen Produktentwicklung, Marketing und Betrieb und begleitete die Firma von der Gründung bis hin zu einem Jahresumsatz von mehreren Millionen US - Dollar.

Mit Liao Qian zusammengearbeitete Personen sagen, dass er ein "aggressiver und schnelles Handeln" - Typ ist. Deshalb gab es einen Wettlauf unter Investoren, als er im August beschloss, die Firma "Apex Context" zu gründen.

Liao Qian sagt, dass er noch nicht einmal seine Finanzierungs - Präsentation fertiggestellt hatte, aber binnen zwei Wochen die erste Finanzierungsrunde im Millionen - Dollar - Bereich abgeschlossen hatte. Diese Finanzierungsrunde wurde gemeinsam von dem Silicon - Valley - Dollar - Fonds HT investment und BV Baidu Ventures getragen. HT investment ist ein neuer Generationen - Dollar - Fonds aus Silicon Valley mit globaler Präsenz, der sich auf die Investition in AI - angetriebene Technologien und soziale Unterhaltungsbranchen konzentriert.

Ende September veröffentlichte Sora seine App. Er spürte erneut den Schock der technologischen Veränderung. "An diesem Abend war ich in Schweiß gebadet", gestand er. An diesem Tag arbeitete er normalerweise mit seinem Team über die Zeit hinaus. Als er die Veröffentlichung von Sora sah, stornierte er umgehend alle Meetings für den nächsten Tag und organisierte eine umfassende Evaluierung von Sora für das gesamte Team.

Allerdings wandelte sich dieser Druck schnell in Motivation um. Der Unterschied ist, dass er jetzt nicht mehr an Basis - Modellen arbeitet, sondern eher die Rolle eines "Schiffbauers" einnimmt.

"In dieser Phase sollten wir riskanter und aggressiver vorgehen", so Liao Qian, der gerade die Firma "Apex Context" gegründet hat. Dies ist sein größtes Gefühl in letzter Zeit.

Diese Überzeugung stammt aus seiner Erfahrung in Shengshu Technology. Im Jahr 2024, als Plattformbetreiber, bearbeitete das von ihm gegründete TEP (Talent Exchange Platform) - Team tausende von Unternehmensanfragen im Bereich AIGC. Dabei entdeckte er einen entscheidenden Schmerzpunkt: Unternehmen brauchen nicht so viel komplizierte AI - Tools, sondern eher eine Lösung, die ihnen direkt fertige Ergebnisse liefert.

Die Basis - Modelle im multimodalen Bereich befinden sich noch in starker Veränderung, aber die Kluft zwischen Technologie und praktischer Anwendung besteht weiterhin.

"Der traditionelle Prozess für die Herstellung von Marketingvideos ist zu aufwändig und zu teuer", erklärt Liao Qian. "Tatsächlich möchten Unternehmen nicht lernen, wie man komplizierte Tools bedient. Sie wünschen sich eher einen Service wie von einer Werbeagentur, nur mit einem zehnten der Kosten und einer hundertfachen Geschwindigkeit."

Das erste Produkt, das "Apex Context" entwickelt, ist kein Videoerstellungstool, sondern ein Marketing - Agent. Der Front - End versteht über multimodale Interaktion die Unternehmensmarkenstimmung und - anforderungen, während der Back - End verschiedene AI - Modelle integriert und direkt fertige Videos liefert.

Derzeit entwickelt das Team von Apex Context das Produktprototyp. Später ist geplant, es zunächst auf den ausländischen Märkten anzubieten.

Nach Ansicht von Liao Qian hat China im Bereich von AI - Videos besondere Vorteile: Die Kurzvideo - Ökosysteme in China sind weltweit 1 - 2 Jahre voraus. Die Erkundung und das Verständnis der praktischen Anwendung von Video - Ökosystemen in China sind tiefer. "Die Erfahrungen in China können vollständig auf die ausländischen Märkte übertragen werden, sei es bei der Produktinnovation oder dem Benutzerwachstum", sagt Liao Qian. Dies ist auch der Grund, warum er sich für einen globalen Ansatz entschieden hat und nicht nur den chinesischen Markt bedient.

In Zukunft möchte Liao Qian die Firma zu einem "AI - Ausdrucksystem" der neuen Ära machen. Bevor er das erreicht, möchte er zunächst mit vertikalen Agenten beginnen und sich dann schrittweise auf weitere Bereiche wie Bildung und Büroarbeiten ausweiten.

Warum nicht einen allgemeinen Agenten entwickeln? Liao Qians Antwort ist sehr realistisch: "Zu Beginn der mobilen Internetära dachte man auch, man sollte Super - Apps entwickeln. Am Ende waren es jedoch vertikale Apps wie Meituan und Didi, die erfolgreich waren. Das Gleiche gilt für AI - Agenten. Wir sollten uns auf die vertikalen Szenarien konzentrieren, bei denen der ROI am klarsten ist", sagt er.

Liao Qian

Benutzer brauchen keine AI - Tools, sondern direkte Ergebnisse

"Intelligente Entstehung": Sie haben eine reiche Berufserfahrung, sowohl bei Tencent als auch bei ByteDance gearbeitet und später bei Shengshu Technology. Wie haben Sie diesen gesamten Prozess geplant?

Liao Qian: Ich absolvierte 2015 meinen Master an der Xidian University, wo ich mich auf Computer Vision spezialisierte. Nach meinem Studium arbeitete ich sechs Jahre bei Tencent. In den ersten zwei Jahren war ich in der Tianmei - Studio Gruppe als Entwickler tätig. 2017 wechselte ich zu Tencent Cloud als Produktmanager und war hauptsächlich für die Umsetzung von AI - Gesichts - und Körpererkennungs - Produkten zuständig, wie z. B. in den Bereichen Smart City und Smart Transportation, von der Produktentwicklung bis zur praktischen Umsetzung.

2019 begann ich, mich mit AIGC zu beschäftigen. Damals handelte es sich hauptsächlich um AI - Gesichtswechseltechnologien auf Basis von GAN (Generative Adversarial Networks). Ich arbeitete für einen Kunden namens "Taipai", der mit Tencents Gesichtswechseltechnologie ein Mini - Programm entwickelte. Das Produktkonzept war ähnlich wie das von Miaoya, aber die Benutzererfahrung war besser.

Sie entwickelten eine Vielzahl von Vorlagen für die untere Schicht von Frauenbenutzern, damit diese Hochzeitskleider tragen und verschiedene Portraitfotos machen konnten. Innerhalb von zehn Tagen erreichte das Mini - Programm eine tägliche Aktivbenutzerzahl (DAU) von mehreren Millionen und war in der Top 10 der WeChat - Mini - Programme. Diese Erfahrung brachte mich dazu, wie Algorithmen die Nutzwert für Endbenutzer aufblitzen lassen können.

Deshalb beschloss ich 2021, mich auf Anwendungen zu konzentrieren und wechselte zu ByteDance's Volcengine, die gerade gegründet wurde. Ich gründete von Grund auf das "Intelligente Kreativcloud" - Team, dessen englischer Name AIGC ist.

Allerdings war das AIGC damals völlig anders als heute. Wir wandelten Texte in Videos um, aber nicht in der heutigen reinen Generierungsweise. Stattdessen verstand unser System die Semantik über NLP und passte Bilder und Videos aus der Materialbibliothek an, die mit Tags versehen waren. Dann fügten wir BGM und Untertitel hinzu und erstellten so Videos. Dieses Produkt wurde schnell 2022 das am meisten besuchte Produkt der Volcengine und diente hauptsächlich dem Marketing - Inhaltserstellung für B2B - Kunden.

"Intelligente Entstehung": Später sind Sie zu Jianying gewechselt?

Liao Qian: Ja, von 2023 bis 2024 war ich in Jianying. Ich initiierte ein neues Projekt von Grund auf, das speziell auf ausländische Unternehmen zugeschnitten war und ein AI - Inhaltserstellungs - und - verteilungsplattform schuf, das später als Pippit veröffentlicht wurde.

Einfach ausgedrückt, bietet diese Plattform ausländischen Unternehmen einen vollständigen Service von der Ideenfindung über die Videoerstellung bis zur Veröffentlichung und Datenrückmeldung.

Der Grund für die Initiierung dieses Projekts war, dass ich während meiner Zeit im "Intelligente Kreativcloud" - Team viele Erkenntnisse über die chinesischen Anwender in den Bereichen Lebensdienstleistungen und E - Commerce gesammelt hatte.

Ich bemerkte, dass die chinesischen AIGC - Produkte in Bezug auf die Benutzerakzeptanz und die Produktreife um zwei bis drei Jahre voraus waren als die ausländischen. Während meiner Zeit im "Intelligente Kreativcloud" - Team haben wir viele ähnliche Produktentwicklungen vorgenommen: Von der Inhaltsidee bis zur Einer - Knopfd - Erstellung (damals mit einer Misch - Schneide - Idee) und dann zur Verteilung. Man konnte seine Douyin - Konten verbinden und hunderte von Videos auf hunderte von Konten verteilen und dann die Daten zurückerhalten.

Diese Methodologie ist universell anwendbar. Wir übertragen die chinesischen Erfahrungen auf die ausländischen Märkte und erzielten gute Ergebnisse. Die erstellten Videos hatten ein gutes Engagement auf TikTok und Instagram. Heute hat Pippit über eine Million monatliche aktive Benutzer.

"Intelligente Entstehung": Warum haben Sie im August 2024 beschlossen, zu Shengshu Technology zu wechseln?

Liao Qian: Der Zeitpunkt der Veröffentlichung von Sora war sehr wichtig. Anfang 2024 war Sora nur als Demo verfügbar und noch nicht offiziell veröffentlicht. Die großen Unternehmen reagierten auch nicht so schnell.

Damals war Shengshu Technology eine der ersten in China, die Sora verfolgten. Im April veröffentlichten sie eine Demo, die Sora abzielte, und im ersten Halbjahr veröffentlichte sie die erste Version von Vidu. Nachdem ich es getestet hatte, fand ich die Fähigkeiten sehr beeindruckend und sah es als eine tolle Gelegenheit an, also trat ich Shengshu bei.

Das gesamte Team von Shengshu besteht aus Absolventen der Tsinghua Universität und hat eine sehr starke technische Stärke. Damals brauchte das Team jedoch Unterstützung in den Bereichen Produktentwicklung und Kommerzialisierung. Ich verstehe etwas von Technologie, Produktentwicklung und Forschung und konnte gut mit ihnen zusammenarbeiten.

Innerhalb eines Jahres in Shengshu haben wir von Grund auf mehrere Millionen globale Benutzer erreicht und diesen Jahr einen Jahresumsatz von mehreren Millionen US - Dollar erzielt.

"Intelligente Entstehung": Welche Dinge in Shengshu haben Ihren späteren Geschäftsideen am meisten beeinflusst?

Liao Qian: In Shengshu bekamen wir viele Anfragen von Kunden, darunter Marken - TVCs, Unternehmenspräsentationsvideos und E - Commerce - Produktvideos. Sie wollten, dass wir ihnen direkt fertige Videos lieferten.

Die damaligen AI - Tool - Plattformen wie Vidu und Keling konnten nur wenige Sekunden lange Video - Clips generieren. Um ein fertiges Video zu liefern, fehlten noch viele hintere Schritte.

Deshalb gründete ich ein internes Inhaltsdienst - Team namens TEP (Talent Exchange Platform). Die Kernaufgabe war es, diese kundenspezifischen Anfragen zu bearbeiten und die Kreativkräfte in der Ökosystem zu verbinden, damit sie mit AI - Tools fertige Videos erstellen konnten.

Wir bearbeiteten Tausende solcher kundenspezifischen Anfragen und ich hatte das starke Gefühl, dass hier ein deutliches Geschäftspotenzial lag.

Viele Benutzer möchten nicht die auf dem Markt verfügbaren Standard - AI - Tools nutzen. Einerseits können diese Tools nicht direkt in ihre bestehenden Geschäftsprozesse integriert werden. Andererseits ist es für Nicht - Profi - Kreativkräfte schwierig, diese Tools effektiv zu nutzen. Deshalb sind sie eher bereit, für eine End - to - End - Lösung, die direkt Ergebnisse liefert, zu zahlen, und haben auch ein relativ hohes Budget.

"Intelligente Entstehung": Was ist für Sie der technologische Wendepunkt, an dem es sinnvoll ist, ein Geschäft zu gründen?

Liao Qian: Es muss ein Punkt erreicht werden, an dem die Effektivität und die Kosten kompatibel für die Kommerzialisierung sind. Wenn die Effektivität gut ist, aber die Generierung eines Videos Tausende von Yuan kostet, ist es nicht rentabel.

Im Laufe eines Jahres hat sich die Kosten für multimodale Modelle verringert. Die Generierung von Videos mit AI ist im Vergleich zur traditionellen Methode um den Faktor zehn billiger.

Was die Effektivität betrifft, ist die Reasoning - Fähigkeit ein entscheidender technischer Punkt. Erst nach der Veröffentlichung von Chatgpt o1 im September 2024 war ich der Meinung, dass die Umsetzung von Large - Language - Modellen in verschiedene Branchen eher eine Frage der Optimierung ist, als ob es überhaupt möglich ist.

Ein weiterer Wendepunkt ist die Verbesserung der Konsistenz von multimodalen Modellen. Früher war die Konsistenz ein Engpass bei der kommerziellen Anwendung von AI - Video - Modellen. Beispielsweise wechselte das Produktbild in Produktvideos, was für Marken nicht akzeptabel war.

Früher war es sehr kompliziert, das Konsistenzproblem zu lösen. Es war erforderlich, in der Bildphase viele Bilder zu generieren oder viel PS - Arbeit zu verrichten. Dieser Teil der Arbeit machte bis zu 70 % der Gesamtarbeit aus, bevor man dann Bilder in Videos umwandelte.

Bei Vidu veröffentlichten wir im November letzten Jahres die 1.5 - Version von "Reference to Video", die die Stabilität der Hauptinformationen in Videos gewährleisten konnte. Allerdings war die Bildqualität noch nicht gut genug. Im ersten Halbjahr dieses Jahres, als die Vidu Q1 - Version veröffentlicht wurde, war die Bildqualität verbessert und die Konsistenz war sehr gut.

Vor kurzem war Google's Nano Banana sehr beliebt. Es kann die Elemente in Bildern flexibel bearbeiten und die Kontinuität des Hauptobjekts im Bild aufrechterhalten. Man kann sehen, dass das Konsistenzproblem sowohl in der Bildgenerierung als auch in der Videogenerierung gute Lösungen gefunden hat.

Beginne mit Marketing - Agenten und bediene Personen mit Ausdrucksbedürfnissen

"Intelligente Entstehung": Warum heißt Ihre Firma "Apex Context"?

Liao Qian: "Context" ist in der AI - Ära ein sehr wichtiges Konzept. Vom Produktentwicklungssichtpunkt aus muss ein guter Agent das Kontext des Benutzers gut verstehen. Vom Unternehmensmanagement - Sichtpunkt aus möchte ich auch, dass das Team mehr Kontext - Austausch hat. Meine Philosophie ist "More context, less control".

"Intelligente Entstehung": Das war auch eines der frühen Werte von ByteDance, richtig?

Liao Qian: Ich bin stark von Tencent und ByteDance beeinflusst.

"Intelligente Entstehung": Was