StartseiteArtikel

Die KI-Stimme hat ihren „Tesla-Moment“ erreicht. Ein Arbeitsablauf „verschlingt“ einen globalen Markt von zehn Milliarden US-Dollar.

晓曦2025-04-08 18:58
Der Szenen-basierte Durchbruch des "stärksten KI-Stimm-Systems"

Der Sprachassistent in der Küche reagiert präzise auf Befehle, virtuelle Idole können nahtlos zwischen sieben Sprachen während des Livestreams wechseln, und für Kurzfilme, die ins Ausland gehen, kann mit einem einzigen Klick eine mehrsprachige Stimme erzeugt werden … Diese von der Branche hoch geschätzten AI-Sprachanwendungen waren lange Zeit an technologischem Engpass gebunden und wurden zu „Halbfertigprodukten im Labor“.

Im März 2025 hat OpenAI offiziell neue Audio-Modelle vorgestellt: gpt-4o-transcribe (Sprache in Text umwandeln), gpt-4o-mini-transcribe (Sprache in Text umwandeln) und gpt-4o-mini-tts (Text in Sprache umwandeln). Entwickler können über die API die benötigten KI-Fähigkeiten nutzen und so effizientere Sprachinhalte erstellen.

Besonders interessant ist die Fähigkeit von gpt-4o-mini-tts: Die KI kann je nach Bedarf des Entwicklers verschiedene Sprachstile vorab einstellen. Durch die Variation des Stils wird die Spaßfaktor und die Realität des Agenten erheblich verbessert.

Als führendes Unternehmen in der Branche hat das Sprachmodell von OpenAI unzähligen Entwicklern neue Chancen eröffnet. Das einzige Manko ist vielleicht, dass nur die API-Schnittstellen der betreffenden Modellfunktionen geöffnet wurden. Für die meisten Benutzer kann die KI nur einfache Inhalte erstellen.

Der nächste Schwerpunkt des Branchenwettbewerbs wird sich von der „Parameterwettlauf“ auf die „Fähigkeit zur industriellen Umsetzung“ verlagern – wer zuerst die echten Produktionsbedürfnisse mit industriellen Fähigkeiten decken kann, hat die Chance, im neuen Branchenwettbewerb die Spitze bei der „stärksten KI-Sprache“ zu erreichen.

In dieser Transformation hat QwanTech das Produkt „All Voice Lab“ vorgestellt (derzeit wird es in der Einladungstestphase durchgeführt). Mit der Massen- und Standardisierungsfähigkeit des MaskGCT-Modells hat es die technologische Steuerung fest in der Hand.

Technische Barrieren durchbrechen: Die zugrunde liegende Logik der ganzheitlichen digitalen Transformation von KI-Sprache

Bevor All Voice Lab die Branche erneut mit der KI-Sprache beeindruckte, gab es bereits einige KI-Produkte mit ähnlichen Funktionen auf dem Markt. Aus praktischer Sicht sind viele traditionelle KI-Sprachen noch wie „Handwerksbetriebe“, während All Voice Lab eine „Foxconn“ bauen will.

Dieses Produkt integriert vielfältige Fähigkeiten wie Text-zu-Sprache-Umwandlung, Videotranslation und mehrsprachige Synthese. Gleichzeitig unterstützt es fein abgestimmte Funktionen wie die nahtlose Entfernung von Untertiteln und kann eine ganzheitliche intelligente Sprachlösung bieten.

Mit der Stärke des MaskGCT-Modells, das von der The Chinese University of Hong Kong, Shenzhen und QwanTech gemeinsam entwickelt wurde, ist die Sprachgenerierung emotionaler, annähernd wie bei einem Menschen und fein steuerbar.

Berichtet wird, dass MaskGCT auf mehreren TTS-Referenzdatensätzen den SOTA (den neuesten Stand der Technik) erreicht hat, die aktuell besten ähnlichen Modelle übertrifft und in einigen Indikatoren sogar das menschliche Niveau übersteigt. Es hat weitere Fortschritte bei der Ähnlichkeit, Qualität und Stabilität der Sprache erzielt, insbesondere in Bezug auf die Sprachähnlichkeit ist es in der Spitze.

Interessanterweise hat All Voice Lab erstmals die vollständige Automatisierung des Videotranslationsprozesses erreicht – Entfernung von Untertiteln, Übersetzung, Synchronisation, Nachbearbeitung und Abgabe des fertigen Films. Es kann in einem Rutsch 40 GB Videos in Massen verarbeiten, und die tägliche Verarbeitungsmenge übersteigt 1.000 Minuten. Die Effizienz ist um mehr als das Zehnfache höher als bei der traditionellen Übersetzung. Hinter diesen Zahlen lässt sich nicht nur ElevenLabs, das 45 Minuten Einzelhochladung unterstützt, weit hinter sich lassen, sondern es ist auch eine Überlegenheit der industriellen Fähigkeiten gegenüber dem Laborprototyp.

Wir haben einen Videotranslationstest mit einem Vortragsvideo des CEO von 36Kr durchgeführt. Die generierte Stimme hat die Tonlage und Emotion der Originalstimme sehr gut wiedergegeben. Die mehrsprachige Synthese in Englisch und Japanisch ist klar und natürlich, fast wie eine echte Aufnahme.

Nehmen wir das Anwendungsgebiet von Kurzfilmen als Beispiel. Der Kern der Probleme liegt in der „hohen Frequenz und niedrigen Preisen“: Ausländische Benutzer haben einen starken Bedarf an sofortiger Inhaltsbereitstellung, aber die Kosten der traditionellen Übersetzung betragen 200 - 300 Yuan pro Minute, und der Prozess dauert bis zu 30 Tage.

„Dies ist nicht nur eine technologische Iteration, sondern auch eine Umgestaltung der Produktionsbeziehungen.“ Ein Technologiechef einer chinesischen Kurzfilmplattform hat enthüllt, dass nach der Integration von All Voice Lab der Übersetzungsprozess von 30 Tagen auf 3 Tage verkürzt wurde und die Anzahl der ausländischen Benutzer um 300 % gestiegen ist. Hinter der sprunghaften Effizienzsteigerung liegt die extreme Vereinfachung des Agenten-Arbeitsablaufs, der keiner menschlichen Intervention bedarf. Diese Fähigkeit hat schnell die führenden Kurzfilmplattformen angezogen und die Anzahl ihrer ausländischen Benutzer um 300 % erhöht.

Die Reife der Industrialisierung bedeutet, dass die KI-Sprachtechnologie einen niedrigeren Schwellenwert und niedrigere Kosten hat. Mehr Inhaltsersteller werden die Chance haben, auf die „Schnellstraße“ der AIGC-Zeit zu gelangen, die Produktivität zu erhöhen und mehr kreative Ideen zu entfesseln.

Erweiterung der Anwendungsgebiete: Vom „Kleinen“ zum „Großen“ und schließlich zur „globalen Inhaltsinfrastruktur“

Ein scheinbar kleiner technologischer Durchbruch kann oft die Tür zu einem riesigen Markt öffnen.

Der Kern der Produktimplementierungsstrategie von All Voice Lab besteht darin, die skalierten Bedürfnisse der intersprachlichen Kommunikation mit industriellen Fähigkeiten zu befriedigen und zur „unsichtbaren Betriebssystem“ der globalen Inhaltsindustrie zu werden. Es beginnt mit dem vertikalen Sektor des Inhaltsexports und dringt schrittweise in diverse Bereiche wie Nachrichten, Tourismus, Unternehmensdienstleistungen und öffentliche Dienste vor, um schließlich das kollaborative Paradigma der globalen Inhaltsindustrie neu zu gestalten.

Wenn die industrielle Übersetzungsfähigkeit auf die skalierten Bedürfnisse trifft, wird jede Inhaltsform, die intersprachliche Kommunikation erfordert – sei es die sofortige Verteilung von Nachrichtenvideos oder die Echtzeitübersetzung von Dialekten in Museumseinführungen – zu einem neuen Wachstumspunkt.

Im Nachrichtenbereich können einige internationale Videos von Medien mit einem Klick in Englisch, Japanisch und Koreanisch generiert und auf TikTok und YouTube gleichzeitig verteilt werden, wodurch die Personalkosten auf Null reduziert werden. Im Tourismusbereich kann die Kantonesische Erläuterung in Echtzeit in Englisch übersetzt werden, um den ausländischen Besuchern in Museen zu entsprechen. Im Hörbuchmarkt kann das System automatisch Stimmen für die Charaktere zuweisen, und die Herstellungszeit für ein einstündiges Hörbuch wird von 3 Tagen auf 20 Minuten verkürzt.

Diese Logik von „kleiner Einstieg, große Chancen“ ist ähnlich wie bei Tesla, das mit dem Model S den Elektromarkt eröffnete: Zuerst gewinnt man ein hochnachhaltiges Anwendungsgebiet mit maximaler Effizienz und dann verschlingt man den Milliardenmarkt mit standardisierten Fähigkeiten. Laut dem „Globalen Bericht über die digitale Inhaltsindustrie 2024“ beträgt der Bedarf an mehrsprachigen Übersetzungen nur im Medien- und Unterhaltungssektor über 65 Milliarden US-Dollar, und All Voice Lab wird zur Kerninfrastruktur in diesem Bereich.

Auch bei scheinbar homogenen Funktionen wie der mehrsprachigen Synthese schneidet All Voice Lab hervorragend ab. Insbesondere die chinesischen Ergebnisse sind in Bezug auf Pausen, Rhythmus und Tongenauigkeit überraschend gut.

(Sie können das Audio im WeChat-Client anhören: https://mp.weixin.qq.com/s/D8mmTazK3--zb3vcKrS_cQ)

Darüber hinaus liegt ein größeres Potenzial in der Ökosystempositionierung.

Wenn die KI-Sprache ausreichend „unsichtbar“ wird, wird sie nicht länger auf eine einzige Funktion beschränkt, sondern wird zu einer „Superanwendungsbasis“ über verschiedene Endgeräte und Anwendungsgebiete hinweg. Ähnlich wie WeChat soziale Interaktionen, Zahlungen und Mini-Apps integriert, kann die Technologie von All Voice Lab in Mobiltelefone, AR-Brillen, Fahrzeugaudiosysteme und andere Endgeräte eingebettet werden, um vielfältige Dienste wie intelligente Sprachinteraktionen und Navigationsführungen zu unterstützen.

Diese Fähigkeit stimmt mit der Logik der in der KI-Branche 2024 heiß diskutierten „Superanwendungen“ überein: Durch standardisierte Schnittstellen und eine offene Ökosystem wird die industrielle Sprachfähigkeit in „digitale Wasser- und Stromversorgung“ umgewandelt, die auf Nachfrage abgerufen werden kann, und wird zur unsichtbaren Betriebssystem der globalen Inhaltsindustrie.

„Die beste KI-Sprache der Zukunft lässt die Existenz der KI nicht spüren.“ Diese Aussage eines Unternehmensleiters von Amazon Web Services wird von All Voice Lab bestätigt. Wenn der Wettlauf um die technologischen Parameter vorbei ist, wird der wahre Sieger die Fähigkeit sein, reale Bedürfnisse in großem Maßstab zu befriedigen – und die Superanwendung ist die ultimative Form dieser Fähigkeit.

So wie Tesla die Automobilindustrie mit der Fließbandproduktion revolutioniert hat, verwandelt All Voice Lab die KI-Sprache von einem „Laborpräparat“ in eine „globale Inhaltsinfrastruktur“. Und die „stärkste KI-Sprache“ ist vielleicht keine einzelne Anwendung, sondern die neue Energie, die die Entwicklung der KI-Zeit antreibt.