StartseiteArtikel

Ein renommierter Tonmeister steigt mit einem KI-gestützten emotionalen Aufführungssystem in den Bereich der intelligenten Sprachverarbeitung ein

jamsound2026-06-04 17:43
Jiemu Sound Technology hat eine Angel-Finanzierungsrunde in Höhe von 3 Millionen Yuan initiiert, um ein KI-gestütztes System für emotionales Darstellen zu entwickeln.

Jiemu Sound Technology startet Angel-Runde-Finanzierung und sucht hochwertige Investoren im Bereich der KI-Anwendung für Gespräche

Jiemu Sound Technology, das sich auf die Forschung und Entwicklung der KI-Emotionsdarstellungstechnologie konzentriert, hat in letzter Zeit die Angel-Runde-Finanzierung in Höhe von 3 Millionen Yuan gestartet. Die Investoren sind noch nicht festgelegt. Das gesamte Kapital dieser Runde wird für die Kerntechnologie-Forschung und -Entwicklung, die Teamaufbau und die Marktausweitung verwendet, um die Chancen im Auslandseintritt von KI-Komikserien und Kurzfilmen auszunutzen und den B2B-Markt zu erschließen. Im Gegensatz zu den üblichen KI-Stimmansatz-Tools auf dem Markt positioniert sich Jiemu Sound Technology als ein KI-Emotionsdarstellungssystem mit "Regisseur im Loop", das darauf abzielt, dass Maschinen komplexe menschliche Emotionen verstehen und darstellen können, anstatt einfach Text in Sprache umzuwandeln.

Der Ausbruch der Inhaltskapazität zwingt zur Aufrüstung, und es besteht ein Engpass bei der Bereitstellung professioneller KI-Emotionsdarstellungen

Die Inhaltsbereiche wie der Auslandseintritt von Kurzfilmen und KI-Komikserien befinden sich in einer Phase des rapiden Wachstums. Laut Branchendaten wird der Markt für ausländische Kurzfilme im Jahr 2025 4 Milliarden US-Dollar überschreiten, mit einem Wachstumsrate von über 126%. Die Anzahl der im ersten Halbjahr veröffentlichten KI-Komikserien hat bereits 50.000 erreicht, und das Jahresvolumen wird voraussichtlich 20 Milliarden Yuan überschreiten. Allerdings besteht bei der Explosion der Kapazität ein gravierender Mangel an der Bereitstellung von hochwertigen Emotionsdarstellungen. Die allgemeinen KI-Stimmansatzprodukte weisen eine unzureichende Genauigkeit bei der Emotionsausdruck auf und können die professionellen Anforderungen an die Wiedergabe menschlicher Stimmen und Emotionen in Bereichen wie Film, Fernsehen und Kurzfilmen nicht erfüllen. Die traditionelle manuelle Stimmenaufzeichnung ist teuer und hat eine lange Lieferzeit, was es schwierig macht, dem Produktionsrhythmus von mehreren Dutzend Episoden pro Tag beim Auslandseintritt von Kurzfilmen zu folgen.

Jiemu Sound Technology geht davon aus, dass mit der Umstellung des Inhaltsmarktes von der "Quantitätskonkurrenz" zur "Qualitätskonkurrenz" ein KI-Darstellungssystem, das Emotionen präzise vermitteln kann, zu einem Schlüsselpunkt in der Inhaltsproduktionskette werden wird. Sein Produkt ist nicht als "Stimmansatz-Tool", sondern als "KI-Emotionsdarstellungssystem" positioniert. Der Kernunterschied liegt in der Architektur mit "Regisseur im Loop" und der kodierten Modellierung der menschlichen Darstellungslogik.

Die Architektur mit "Regisseur im Loop" ermöglicht die Kontrolle von Emotionen, und die Validierung in realen Projekten markiert einen wichtigen Sprung

Die Kerntechnologie von Jiemu Sound Technology ist ein KI-Emotionsdarstellungssystem mit "Regisseur im Loop", das eine Architektur von "Offline-Vorverarbeitung + parallele Generierung zur Laufzeit" verwendet. Das System analysiert zunächst das gesamte Drehbuch strukturiert, erstellt ein Profil für die Charaktere und setzt Emotionsbeschränkungen für die Szenen, um ein globales Verständnis zu bilden. Zur Laufzeit generiert es über ein großes Sprachmodell strukturierte Emotionslabels (einschließlich Emotionstyp, Intensität, Betonung, Pause, Atmung usw.), die über einen selbst entwickelten Controller in unterliegende akustische Parameter umgewandelt werden, um den Sprachsynthese-Engine anzusteuern und die Stimmanfänge zu generieren. Das System hat auch einen dreistufigen Mechanismus für die Eingriffe des Regisseurs, der es den Benutzern ermöglicht, die Charaktereigenschaften zu korrigieren, die Grenzen der Emotionsintensität zu bestätigen und die Parameter einzelner Sätze fein abzustimmen.

Es ist bemerkenswert, dass das System bereits in einer realen Produktionsumgebung validiert wurde. Ein Regisseurfreund hat in seinem teilgenommenen KI-Komikserienwerk zunächst das integrierte Stimmansatz-Tool Seedance 2.0 verwendet, um das Video zu generieren. Als er feststellte, dass die Stimmanfänge nicht den Darstellungsanforderungen des Charakters (einer mittleren, wüstlichen Frau) entsprachen, hat er stattdessen die Technologie von Jiemu Sound Technology verwendet, um alle Dialoge aufzunehmen. Dieser Fall beweist direkt, dass Jiemu Sound Technology in Bezug auf das Problem der "Emotionsgenauigkeit", das die Konkurrenten nicht lösen können, bereits kommerziell einsetzbare Ergebnisse liefern kann.

Bei internen Blindtests erreichte Jiemu Sound Technology in einem Szenario mit einem mehrstimmigen, 2.000-Wort-Langtext eine subjektive Bewertung der Emotionskontinuität von 4,5 von 5 Punkten (Fünf-Punkte-Skala), was eine Steigerung von etwa 61% gegenüber dem öffentlichen Emotionskontroll-TTS-Modell (IndexTTS2) mit 2,8 von 5 Punkten darstellt. Die Genauigkeit der Betonungserkennung erreichte 92%, und die Abweichung der Pausenlänge wurde auf ±0,08 Sekunden begrenzt. In der Produkt-Testphase haben mehrere Film- und Fernsehdubber-Regisseure und Produzenten das Produkt als "überlegen gegenüber normalen Stimmenakteuren" bewertet. Mehr als drei erfahrene Produzenten und Investoren aus der Filmbranche haben ausdrücklich die Absicht geäußert, das Produkt nach dem Start zu testen.

Das Projekt-Arbeitsplatz-System entspricht der Branchenlogik, und das Geschäftsmodell zielt auf einen Daten-Flywheel

Im Geschäftsmodell hat Jiemu Sound Technology das "Projekt-Arbeitsplatz-System" eingeführt - die Kunden kaufen einen Arbeitsraum für KI-Stimmansätze pro Projekt. Innerhalb des Arbeitsplatzes können sie unbegrenzt generieren, unbegrenzt ändern und mehrere Alternativen ausgeben, bis die endgültige Version festgelegt ist, ohne zusätzliche Gebühren. Die Preise orientieren sich an 40%-60% der Branchenlohnkosten. Der Arbeitsplatz für Kurzfilme kostet 6.800 Yuan pro Stück, für Fernsehserien 5.800 Yuan pro Episode, für Hörspiele 3.500 Yuan pro Stunde und für Filme 35.000 - 58.000 Yuan pro Stück. Gleichzeitig werden zusätzliche Dienstleistungen wie professionelle Tonpakete, maßgeschneiderte Tonklonung und Regisseur-Level-Tuning angeboten. Das Team plant, durch die hochwertigen Emotionsstimmdaten, die durch die kommerzielle Umsetzung gesammelt werden, ein stärkeres "Empathie"-Modell zu trainieren und die Technologiefähigkeiten auf Bereiche wie virtuelle Personen und intelligente Assistenten in der generellen Mensch-Maschine-Interaktion auszudehnen.

Das Team mit einem komplexen Hintergrund ist aufgebaut, und die Kerntechnologie-Patente befinden sich in der Prüfungsphase

Der Gründer von Jiemu Sound Technology, Li Tian, war einst Tonmeister für "Ne Zha: Birth of the Demon Child" und Dialogbetreuer für "Leap". Er hat den Titel des ausgezeichneten Dialogbetreuers auf der zweiten China Film Industry Week erhalten. Er war auch als Tonproduzent bei NetEase, Himalaya und der ausländischen Kurzfilmplattform Dramawave von Kunlun Tech tätig. Er ist einer der wenigen chinesischen Unternehmer mit einem Spitzen-Filmton-Profihintergrund und einem KI-Produktdenken. Der Full-Stack-Engineering-Leiter, Shi Zhenyu, war einst ein Frontend-Experten-Ingenieur bei Alipay und verantwortete die Qualitätssicherung für das Wufu- und 618-Sonderangebot. Der Technologie-Partner, Lin Zhanjie, war einst ein AI-Chip-Ingenieur bei Canaan Creative und hat reiche Erfahrungen in der unabhängigen Entwicklung von KI-Anwendungen.

Derzeit ist der Kerntechnologie-Rahmen des Projekts fertiggestellt. Die Kernpatente wurden eingereicht und befinden sich im Vorprüfungs-Beschleunigungs-Kanal des Peking Intellectual Property Protection Center. Weitere Patente werden in Teilen eingereicht. Demos für die Konkurrenzvergleich von Szenen aus "Dying to Survive" und "Ne Zha: Birth of the Demon Child" wurden bereits fertiggestellt. Sobald die Finanzierung eingeht, werden die reservierten Mitarbeiter in den Bereichen Sprachalgorithmus, Business Development und Produktmarketing sofort an ihren Plätzen sein.

Jiemu Sound Technology befindet sich derzeit in der Angel-Runde und hat noch keine offizielle Produkt-Launch und kommerzielle Umsetzung durchgeführt. Die 3 Millionen Yuan Finanzierung dieser Runde werden für den Teamaufbau, die Kern-Daten-Asset-Buildung, die Rechenressourcen und die Produktentwicklung verwendet. Es ist geplant, innerhalb von 6 - 9 Monaten eine Beta-Version des Produkts zu veröffentlichen, die ersten Marken-Kunden zu unterzeichnen und einen stabilen Cashflow zu generieren. Mit dem explosionsartigen Wachstum der Inhaltsbereiche wie der Auslandseintritt von Kurzfilmen und KI-Komikserien wächst die Marktbedarf für professionelle KI-Emotionsdarstellungssysteme schnell. Jiemu Sound Technology hat die Chance, dank seiner technologischen Vorsprung die Lücke auf dem Markt zu schließen und eine führende Position in diesem Bereich zu erreichen.