StartseiteArtikel

Nach einer Finanzierung von 20 Millionen US-Dollar hat dieses AI-Unternehmen mit einem ARR von 20 Millionen US-Dollar die "Video-Photoshop" namens "Buzzy" vorgestellt.

阿菜cabbage2026-04-24 12:58
Wenn die Technologie zur KI-generierten Videoproduktion ausreichend entwickelt ist, gibt es nur zwei Dinge, die auf der Anwendungsseite getan werden können: vor der Inhaltserstellung und nach der Inhaltserstellung.

Text | Zhou Xinyu

Bearbeitung | Yang Xuan

Kurzfassung

Buzzy (https://www.buzzy.now/) ist eine Video-Editor-Agent-Plattform des KI-Inhaltserstellungsunternehmens "Perceptual Leap", die hauptsächlich an Endverbraucher-Inhaltsersteller und kleine und mittlere Unternehmen gerichtet ist.

Verglichen mit "Photoshop für Videos" können Benutzer einfach natürliche Sprachbefehle geben, um den Agenten anzuweisen, Videos zu bearbeiten, wie z. B. Hintergrund entfernen, Lichtkorrektur vornehmen, Produkte ersetzen, Hintergrund oder Perspektive ändern usw.

Teamvorstellung

Ella Zhang (Zhang Shiying), Gründerin und CEO von "Perceptual Leap", hat zuvor bei Apple, Oculus VR und Google für Kernprodukte verantwortet.

Während ihrer Zeit bei Apple war sie Mitglied des Gründungsteams der AirPods-Produktlinie und übernahm die Systemintegration und die umfassende Designumsetzung des Produkts, einschließlich der Architekturgestaltung von Audioprodukten, der Auswahl von Bauelementen, der Zeichnung von Schaltplänen, der Layoutgestaltung, der Validierung und der Massenproduktion.

Danach wurde Zhang Shiying Systemarchitektin für AR-Produkte bei Google und übernahm die Algorithmen- und Architekturentwicklung für Produkte wie Glass und Reflector.

Die anderen Kernmitglieder von "Perceptual Leap" kommen von Unternehmen wie Adobe, Xiaomi und SenseTime.

Finanzierungsstand

Kürzlich hat "Perceptual Leap" eine neue Runde von Finanzierungen abgeschlossen. Der Betrag übersteigt 20 Millionen US-Dollar, und die Leitung der Investition erfolgte durch Redpoint (Redpoint Ventures). Deep Crossing Capital fungierte als exklusiver Finanzberater für diese Runde.

Produkt und Geschäft

Nach Ansicht von Zhang Shiying ist der Markt für generative Tools im Bereich der Videogenerierung aufgrund der Entwicklung der Leistung von Videogenerierungsmodellen allmählich zu einem "roten Ozean" geworden. Sie teilt die Videowerzeugungstools auf dem Markt grob in zwei Kategorien ein:

Eine Kategorie sind die "Leinwand"-Produkte. Ihr Vorteil liegt darin, dass die Qualität des generierten Ergebnisses durch manuelle Steuerung gewährleistet werden kann. Der Nachteil besteht jedoch darin, dass die Nutzung für die meisten Benutzer eine hohe Schwelle darstellt. Die andere Kategorie bietet den Benutzern vorgefertigte Workflows und Vorlagen. Der Nachteil hierbei ist, dass sie nicht flexibel genug sind und die Ideen nicht innovativ genug sind.

"Benutzer neigen dazu, ganze Videos auf einmal zu generieren und diese durch kontinuierliche Iterationen und Änderungen bis zum perfekten Ergebnis zu verbessern. Daher wird ein Videoredaktor, der genau das tut, was der Benutzer will, zu einer dringenden Notwendigkeit."

Aktuell ist es für Benutzer aufgrund der Kohärenz von Videos und der begrenzten Verständnisfähigkeit von Modellen schwierig, durch Chat-Funktionen "lokale Feinbearbeitungen" an Videos wie Hintergrundwechsel, Personenwechsel oder das Entfernen bestimmter Elemente vorzunehmen. Die meisten KI-Editoren ändern das gesamte Bild, was nahezu einer Neugenerierung entspricht.

Kürzlich hat "Perceptual Leap" das neue Produkt Buzzy eingeführt, ein KI-Videoredaktor, der es Benutzern ermöglicht, Videos so einfach zu bearbeiten wie Bilder.

Mit Buzzy können Benutzer einfach über Chat-Befehle Aktionen wie das Entfernen von Passanten im Hintergrund, die Korrektur des Lichts, das Ersetzen von Produkten, das Zusammenführen von Videos, das Ändern des Hintergrunds und der Perspektive usw. an Videos vornehmen und so tatsächlich lokale Feinbearbeitungen durchführen.

△ Entfernung von Passanten im Hintergrund. Links: Nach Entfernung; Rechts: Vor Entfernung. Bildquelle: Bildmaterial des Interviewten.

△ Lichtänderung. Oben: Vor Änderung; Unten: Nach Änderung. Bildquelle: Bildmaterial des Interviewten.

△ Änderung der Aufnahmeausrichtung. Links: Nach Änderung; Rechts: Vor Änderung. Bildquelle: Bildmaterial des Interviewten.

Die lokale Bearbeitung von Videos unter Beibehaltung des Restes ist technisch nicht einfach. Zhang Shiying erklärt uns, dass die lokale Bearbeitung von Videos eine höhere Fähigkeit des Videomodells zur Video- und Sprachverstehen erfordert. "Zunächst muss es erkennen, was genau der zu ändernde Teil ist und wo er auftritt. Zweitens muss es die Absicht des Benutzers genau verstehen, wie z. B. die Witze in den Prompts."

Dafür hat "Perceptual Leap" auf der Grundlage von RLHF (Reinforcement Learning mit menschlichem Feedback) ein kleines Modell trainiert, um Buzzys Verständnis für die Videobearbeitung zu verbessern.

Zugleich ist Buzzy auch als Agent konzipiert, der autonom das Ästhetik- und Geschmackssinn der Benutzer lernt.

Buzzy hat einen "OpenClaw-ähnlichen" Bot eingeführt. Benutzer können den Bot über das Scannen eines Codes direkt in Telegram und WhatsApp integrieren.

Indem Benutzer Videolinks von TikTok und YouTube an den Bot senden, analysiert der Bot automatisch die Videopräferenzen und den Geschmack der Benutzer, sucht 24/7 automatisch nach inspirierenden Materialien im gesamten Netz auf der Grundlage des Videostils und speichert diesen Stil als "Skill" ab.

Stilspeicherung. Bildquelle: Bildmaterial des Interviewten.

Seit seiner Gründung im Jahr 2021 hat "Perceptual Leap" zwei Iterationen seiner Inhaltserstellungsprodukte durchlaufen:

Vor dem Aufstieg von Text-zu-Bild-Produkten wie Midjourney und Stable Diffusion hat "Perceptual Leap" auf der Grundlage von GAN (Generative Adversarial Network) die erste AI-Plattform für die Generierung von Modelfotos namens ZMO.ai entwickelt, die auf chinesische B2B-E-Commerce-Kunden zugeschnitten ist. Später wurde das Anwendungsgebiet auf die Gestaltung und Bearbeitung von Warenbildern erweitert.

ZMO. Bildquelle: Bildmaterial des Interviewten.

ZMO.ai, das einen Vorsprung hatte, erreichte einmal eine monatliche aktive Benutzerzahl (MAU) von 7 Millionen.

Ab 2024 erlebte der Videogenerierungsmarkt einen kleinen Aufschwung mit der Veröffentlichung von Sora. In dieser Phase hat "Perceptual Leap" die Aktivitäten von ZMO.ai eingestellt und im April 2024 die Inhaltserstellungsplattform Creati eingeführt, die sowohl Bilder als auch Videos umfasst.

Im Gegensatz zu ZMO.ai, das sich auf die Generierung und Bearbeitung von E-Commerce- und Werbebildern konzentriert, erweitert Creati die Inhaltserstellung auf den Videobereich und bietet Funktionen wie Text-zu-Video-Generierung und die Neuerstellung von Videos auf der Grundlage von Vorlagen.

Zugleich bietet es Benutzern ein mobiles Produkt. Viele nicht-professionelle Inhaltsersteller können somit direkt mit ihrem Mobiltelefon Material aufnehmen und dann direkt in der App Inhalte erstellen, bearbeiten und veröffentlichen, anstatt es auf den Computer zu übertragen.

"Die Nachfrage der Benutzer nach KI-generierten Videos ist dringender als die nach Bildern", sagt Zhang Shiying. "Beim Verbreitungsgeschehen ziehen Videos auf Sozialmedien und in der Werbung mehr Aufmerksamkeit auf sich als Bilder. Gleichzeitig ist es für Benutzer schwieriger, Videos aufzunehmen als Bilder zu gestalten."

Creati. Bildquelle: Bildmaterial des Interviewten.

Änderungen gab es auch bei den Zielbenutzern. Die Hauptkunden von ZMO.ai waren chinesische B2B-E-Commerce- und Werbeunternehmen. Zhang Shiying bemerkte jedoch bald, dass trotz des schnellen Wachstums der Benutzerzahl von ZMO.ai die Traffic nicht in tatsächliche Bezahlungen umgesetzt wurde.

Die Kerngründe liegen darin, dass erstens die Zahlungszyklen von "großen B"-Kunden zu lang sind und zweitens die Kosten für die Bildgestaltung niedriger sind als für Videos. Daher ist die Zahlungsbereitschaft der Benutzer für Bilder nicht hoch genug.

Creati ist ein Produkt für "große C und kleine B": Endverbraucher-Inhaltsersteller und kleine und mittlere Unternehmen. Zhang Shiying sagt der Zeitschrift "Intelligent Emergence", dass "große C und kleine B" die Gruppe mit der höchsten Zahlungsbereitschaft ist, "weil größere B2B-Unternehmen tendieren dazu, ihre eigenen Workflows zu entwickeln."

Einen Jahr nach der Einführung hat Creati eine globale Benutzerzahl von über 10 Millionen erreicht. Das ARR (Annual Recurring Revenue) des Produkts erreichte einmal 20 Millionen US-Dollar.

Geschäftsmodell

Die Abonnementgebühren der Benutzer, um die Kosten für den Token-Verbrauch zu decken, ist derzeit das vorherrschende Geschäftsmodell für KI-Software. Zhang Shiying ist jedoch der Meinung, dass das Abonnementmodell aus der SaaS-Zeit stammt. Im Zeitalter der Agenten sollte das Geschäftsmodell auf die Ergebnisse bezogen sein und nicht auf die Kosten.

Sie sagt der Zeitschrift "Intelligent Emergence", dass die Benutzer derzeit die Agenten immer noch als Werkzeuge und nicht als Wertschöpfer betrachten.

Wenn die Agenten den gesamten Prozess der Inhaltserstellung, Veröffentlichung, Platzierung, A/B-Testung, Effektanalyse und Neuerstellung abdecken können, sollte das Geschäftsmodell der Agenten immer ähnlicher dem von menschlichen Agenturen werden. "Das Zahlungsmodell wird nicht das Abonnement sein, sondern eher eine Provision."

Denken des Gründers

Die meisten nicht-professionellen Benutzer erstellen Inhalte hauptsächlich auf mobilen Geräten, nicht auf PCs.

Viele Unternehmen und nicht-professionelle Inhaltsersteller sind daran gewöhnt, Warenbilder und Kurzvideos mit ihrem Mobiltelefon aufzunehmen. Das Problem ist jedoch, dass die Erstellungstools oft auf PCs konzentriert sind. Dies führt zu einer Unterbrechung des Inhaltserstellungsprozesses.

Deshalb bieten wir sowohl bei Creati als auch bei Buzzy Benutzern mobile App-Produkte an, damit die Aufnahme von Material, die Inhaltserstellung und -bearbeitung sowie die Veröffentlichung alle auf dem Mobiltelefon erfolgen können.

Wenn die Technologie zur KI-generierten Videogenerierung ausreichend reif ist, gibt es nur zwei Dinge, die die Anwendungs-Ebene tun kann: vor der Inhaltsgenerierung und nach der Inhaltsgenerierung.

Vor der Inhaltsgenerierung löst die Anwendungs-Ebene das Problem der Ideenfindung. Nach der Inhaltsgenerierung muss das Problem "wie ändern" gelöst werden.

Die Anwendungs-Ebene sollte nicht die Aufgaben der Modell-Ebene übernehmen, denn die Modelle werden immer besser.

Derzeit gibt es viele Produkte, die die Fähigkeiten von Videomodellen nutzen, sei es "Leinwand" oder Workflow. Sie lösen das Problem der begrenzten Fähigkeiten der Modelle, wie z. B. die "Kartenziehung" und die begrenzte Länge der generierten Videos.

Aber in Zukunft wird die Modell-Ebene sicherlich das Problem der Generierungsqualität und -länge lösen. Die Chancen für die Anwendungs-Ebene liegen darin, die Probleme außerhalb des Generierungsprozesses zu lösen.

In Zukunft werden Skills zu handelbaren Vermögenswerten werden.

Skills sind im Wesentlichen der Geschmack, das Wissen und der Workflow der Benutzer. Im Bereich der Kreativität sind der ästhetische Sinn und der Geschmack der Menschen sowie die Fähigkeit, passende Materialien zu finden, wertvoll.

Deshalb könnte der Verkauf von Skills in Zukunft ein Geschäftsmodell werden.

In der neuen Ära sollten neue Produkte unabhängig entwickelt werden, anstatt einen neuen Zugang zu alten Produkten hinzuzufügen.

Buzzy und Creati sind zwei völlig verschiedene Generationen von Produkten. Creati konzentriert sich auf die Generierung, Buzzy auf die Bearbeitung nach der Generierung. Unterschiedliche Produktgenerationen bilden unterschiedliche Benutzermentalitäten.

Alle "Viralität" ist zufällig, und Produkte sollten nicht übermäßig danach streben.

Viele dringende Bedürfnisse der Benutzer haben keine Potenzial, auf Sozialmedien viral zu gehen, wie z. B. der PDF-Editor. Aber ihre Benutzerzahl ist sehr hoch.

Nach unserer Erfahrung haben Produkte, die viral werden können, einige Merkmale: Erstens, die Produktform und -gestaltung sind innovativ. Zweitens, sie sind praktisch. Nur wenn sie die Probleme der Benutzer lösen, sind die Benutzer bereit, sie spontan zu verbreiten. Drittens, sie senken die Schwelle für die Benutzer, interessante Inhalte zu erstellen.