Künstliche Intelligenz löst die Probleme bei der Synchronisation von Kurzvideos – Aishengyinfang sucht Medienberichterstattung
Das Ökosystem von Kurzvideos hat in den letzten Jahren einen Wandel von einem explosionsartigen Wachstum hin zu einer fein abgestimmten Betriebsweise erfahren. Doch im gesamten Prozess von der Planung bis zur Veröffentlichung eines Videos konnte das Problem der Effizienz im Bereich der Audiounterstützung nie systematisch gelöst werden. Für täglich aktualisierte Accounts, Teams, die mehrere Accounts betreiben, und für kreative Personen, die in hoher Frequenz Inhalte produzieren müssen, werden die Zeitkosten und die Instabilität der Qualität bei der Tonaufnahme zur am leichtesten zu übersehenden Schwachstelle in der Inhaltsproduktionskette. AiSounds.cn, eine Plattform für KI-gestützte Audioproduktion, versucht, mit der Technologie der Text-zu-Sound-Generierung in diesen Markt einzusteigen und Kurzvideo-Kreativen eine umfassende Audioproduktionslösung von der Texterstellung bis zur Audiounterstützung, von der Musikbegleitung bis zu den Soundeffekten anzubieten.
Die vernachlässigte Hürde bei der Kurzvideo-Audiounterstützung
In der typischen Arbeitsweise der Kurzvideo-Inhaltserstellung konzentrieren sich die Kreativen in der Regel auf die Texterstellung und die Bildmontage, während die Audiounterstützung oft als abschließender Schritt betrachtet wird, bei dem man einfach die Aufnahme macht. In der Praxis sind die Anforderungen an die Aufnahmeumgebung und die Geräte jedoch viel höher, als man denkt. Umgebungsgeräusche, die Standardmäßigkeit des Putonghua, Schwankungen im Stimmzustand, der Zeitaufwand für wiederholte Aufnahmen und die Tatsache, dass man in der Nacht oder in ruhigen Zeiten nicht aufnehmen kann, verringern die Effizienz der Inhaltserstellung.
Dieses Problem tritt besonders bei der Massenproduktion von Inhalten hervor. E-Commerce-Accounts müssen schnell Erklärungsaudio für Dutzende von Produkten erstellen, Wissensaccounts müssen kontinuierlich lange Skripts vorlesen, und Unternehmens-Online-Marketing-Teams müssen für Produktpräsentationen und Werbematerialien einen einheitlichen Klangstil einhalten. In all diesen Fällen ist der Text bereits festgelegt, aber die Stabilität und Geschwindigkeit der Audioproduktion können nicht mit dem Rhythmus der Inhaltsveröffentlichung Schritt halten.
Betrachtet man die Marktgröße, so hat die Kurzvideo-Branche bereits über eine Milliarde Nutzer, und es werden täglich Millionen neuer Videos erstellt. Insbesondere bei Sprechvideos, Tutorials, Produktbeschreibungen und Text-zu-Video-Inhalten besteht ein dringender Bedarf an Audiounterstützung. Die traditionellen Lösungen umfassen die eigene Tonaufnahme, die Outsourcing an Sprecher oder die Verwendung von frühen TTS-Tools mit starker mechanischer Note. Alle drei Methoden haben jedoch ihre Probleme: Die Effizienz ist niedrig, die Kosten sind hoch oder die Tonqualität ist unnatürlich. Das Team von AiSounds.cn ist der Meinung, dass die KI-Stimmgenerierungstechnologie nun reif genug ist, um dieses Problem in großem Maßstab zu lösen. Der Schlüssel liegt darin, die Technologie in ein Produkt zu verpacken, das die Kreativen ohne Lernaufwand nutzen können.
Die KI-Lösung für die Generierung natürlicher Stimmen aus Text
Die Produktlogik von AiSounds.cn ist nicht kompliziert: Die Kreativen geben den Text in die Plattform ein, wählen die passende Stimme und den passenden Tonfall, und das System generiert dann eine natürliche Stimme. Außerdem unterstützt die Plattform die Synchronisierung und den Download von Untertiteln. Darüber hinaus integriert die Plattform die Fähigkeiten zur KI-gestützten Videomusikbegleitung, Soundeffektgenerierung und Musikkomposition, um den gesamten Prozess der Kurzvideo-Audioproduktion in einem Browser-Tool zu vereinen.
Bei der Audiounterstützung bietet AiSounds.cn derzeit drei Hauptwege an: die Audiounterstützung für kurze Texte, für lange Texte und für Podcasts, um die verschiedenen Bedürfnisse von kurzen Sprechvideos bis hin zu langen Textvorlesungen zu decken. Die Stimmenbibliothek umfasst verschiedene Stile wie seriös und klar, natürlich und angenehm zu hören, emotional und ausdrucksstark, um den Anforderungen unterschiedlicher Inhaltstypen wie Produktbeschreibungen, Wissensvermittlungen und Werbeaktionen gerecht zu werden.
Das unterschiedliche Design der Plattform zeigt sich auf zwei Ebenen. Einerseits ist die Audiounterstützung mit der Untertitelgenerierung verknüpft – beim Generieren des Audios kann man auch die Untertiteltexte nach Bedarf ausgeben, die direkt an Hauptmontageprogramme wie Jianying übergeben werden können, um die doppelte Arbeit bei der Untertitelerstellung zu reduzieren. Andererseits werden die vier Schritte der Audioproduktion – Audiounterstützung, Musikbegleitung, Soundeffekte und Musikkomposition – in einem Arbeitsablauf integriert. Die Kreativen müssen nicht zwischen verschiedenen Tools die Formate ändern oder die Parameter einstellen, und sie müssen keine Desktop-Software installieren. Alle Operationen werden im Browser durchgeführt.
Technisch gesehen basiert AiSounds.cn auf einem Deep-Learning-Modell für die Stimme Generierung und hat in Bezug auf die Natürlichkeit, die Rhythmuskontrolle und die Unterstützung mehrerer Stimmen spezifische Optimierungen vorgenommen. Die Qualität der KI-gestützten Audiounterstützung hängt nicht nur von der Fähigkeit des Modells ab, sondern auch stark von der sprachlichen Einfachheit des Eingabetexts. Die Länge der Sätze, die Satzzeichen und die Tonfallmarkierungen beeinflussen die Natürlichkeit des generierten Audios. Daher führt die Plattform die Kreativen bei der Produktgestaltung dazu, den Text für die Vorlesung umzuschreiben, anstatt lange schriftliche Absätze direkt einzugeben.
Der kommerzielle Weg und der Teamfortschritt des Audioproduktionstools
Die Zielgruppe von AiSounds.cn umfasst Kurzvideo-Kreative, Spieleentwickler, Podcast-Hörer und Social-Media-Manager. Derzeit sind die Kurzvideo-Sprechvideos und die Text-zu-Video-Inhalte die wichtigsten Anwendungsfälle. Die Plattform verwendet ein Punktesystem für die Abrechnung. Neue Nutzer können nach der Registrierung 200 Punkte erhalten, um die Funktionen wie Audiounterstützung und Musikbegleitung zu testen. Anschließend wird nach dem tatsächlichen Verbrauch bezahlt. Dieser Ansatz senkt die Einstiegshürde für die Kreativen und entspricht der Entscheidungshabits der Kurzvideo-Branche, die Produkte zuerst zu testen und dann zu kaufen.
Beim kommerziellen Lizenzvertrag gibt die Plattform klar an, dass die KI-generierte Audiounterstützung für Kurzvideos, Spiele, Podcasts und Werbung verwendet werden kann, aber die Weiterverbreitung, das Weiterverkaufen oder das Hochladen der generierten Inhalte auf andere Plattformen ist verboten. Diese Lizenzhaltung berücksichtigt sowohl die kommerziellen Bedürfnisse der Kreativen als auch die rechtlichen Anforderungen der Plattform in einer Branche, in der die Urheberrechtsgrenzen von KI-generierten Inhalten noch nicht klar definiert sind.
Betrachtet man die Wettbewerbssituation auf dem Markt, so hat sich auf dem Gebiet der KI-Stimmgenerierung eine Vielzahl von Technologieanbietern und Produktteams angesammelt, darunter Open Platforms großer Technologieunternehmen und Start-up-Projekte in der Nische. Die Differenzierungsstrategie von AiSounds.cn besteht darin, kein allgemeines API zu bieten, sondern die Fähigkeiten zur multimodalen Soundgenerierung um die konkrete Arbeitsweise der Kurzvideo-Kreativen herum in ein situationsspezifisches Produkt zu verpacken. Mit anderen Worten, die Plattform ist eher ein "Kurzvideo-Audiostudio" als ein einfaches TTS-Tool.
Derzeit ist die Webversion von AiSounds.cn online, und die Kernfunktionen wie KI-gestützte Audiounterstützung, Videomusikbegleitung und Online-Bearbeitung sind für die Nutzer zugänglich. Die Plattform befindet sich in der Phase der kontinuierlichen Verbesserung und der Nutzerakquise. Das Team konzentriert sich auf die Gruppe der Kurzvideo- und Social-Media-Kreativen. Die zukünftigen Pläne umfassen die Einführung von mehr Stimmen für spezifische Situationen, die Verbesserung der Zusammenarbeit zwischen der Untertitelgenerierung und den Montageprogrammen sowie die Erweiterung auf vertikale Bereiche wie Spiele-Soundeffekte und Podcast-Produktion.
Im Trend, dass KI-generierte Inhalte immer mehr in den Mittelpunkt der Kreativität rücken, wird die Effizienz und Qualität der Audioproduktion als ein versteckter Faktor für die Wettbewerbsfähigkeit der Inhalte immer wichtiger. Ob AiSounds.cn in der Nische der KI-gestützten Audioproduktion eine ausreichende Produktbarriere und eine große Nutzerbasis aufbauen kann, muss noch von der Marktwirtschaft überprüft werden.