36氪_让一部分人先看到未来

MaskGCT verfügt über zahlreiche Anwendungsszenarien in Bereichen wie Kurzvideos im Ausland, digitalen Menschen, intelligenten Assistenten, Hörbüchern und unterstützender Bildung.

Text | Liu Shibu (36Kr Games)

Am 24. Oktober kündigte Quwan Technology die Veröffentlichung des „MaskGCT“-Sprachmodells an, das in Zusammenarbeit mit der Chinesischen Universität Hong Kong (Shenzhen) entwickelt wurde und im Amphion-System offengelegt wurde. Es ist weltweit zugänglich. Im Gegensatz zu traditionellen TTS-Modellen verwendet MaskGCT ein Masken-Generierungsmodell und eine decouplte Codierung der Sprachrepräsentation, die schnelle Implementierungen in Aufgaben wie Sprachklonierung, sprachübergreifende Synthese und Sprachsteuerung ermöglicht.

Testergebnisse (Quelle: MaskGCT)

Es ist bekannt, dass MaskGCT im Vergleich zu bestehenden großen TTS-Modellen in Bezug auf Ähnlichkeit, Qualität und Stabilität von Sprachmodellen bahnbrechend ist und in drei TTS-Benchmark-Datensätzen SOTA-Ergebnisse erzielt. Die hervorstechenden Merkmale sind wie folgt:

Extrem realistische Sprachklonierung in Sekundenschnelle: Mit einem 3-Sekunden-Audiobeispiel können beliebige Sprachprofile wie menschliche Stimmen, Anime oder „Whispering“ dupliziert werden, wobei Intonation, Stil und Emotionen vollständig reproduziert werden.
Fein kontrollierbare Sprachgenerierung: Die Länge, Geschwindigkeit und Emotion der generierten Sprache kann flexibel angepasst werden. Es ermöglicht die Bearbeitung von Sprache durch Textbearbeitung, während Rhythmus und Timbre auf hohem Niveau konsistent bleiben.
Hochwertiger mehrsprachiger Sprachdatensatz: Trainiert mit dem 100.000 Stunden langen Datensatz Emilia, bereitgestellt durch die Chinesische Universität Hong Kong (Shenzhen) und Quwan Technology, gehört er zu den größten und vielfältigsten hochwertigen mehrsprachigen Sprachdatensätzen weltweit und ermöglicht die sprachübergreifende Synthese in sechs Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch, Französisch und Deutsch.

Die Entwicklung von MaskGCT wurde von einem AI-Lab-Team der Chinesischen Universität Hong Kong (Shenzhen) und Quwan Technology durchgeführt. Als ein großangelegtes Zero-Shot-TTS-Modell verwendet MaskGCT einen nicht-autoregressiven Masken-generierenden Transformer, der keine Text- und Sprach-Alignment-Überwachung und Phoneme-Dauer-Vorhersage erfordert,besteht der technologische Durchbruch in der Nutzungdes innovativen Paradigmas von maskengenerierenden Modellen und decouplter Codierung der Sprachrepräsentationen.

Das MaskGCT-Großmodell übersetzt einen Ausschnitt der Animation „Black Myth: Wukong“ (Videoquelle: Quwan Qianyin)

Offizielle Experimente zeigen, dass MaskGCT in Sprachqualität, Ähnlichkeit und Verständlichkeit den meisten aktuellen TTS-Modellen überlegen ist und bei zunehmender Modellgröße und Trainingsdatenmenge bessere Leistungen zeigt, während es die Steuerung der Gesamtdauer der generierten Sprache ermöglicht.

MaskGCT wurde im Amphion-System veröffentlicht, das gemeinsam von der Chinesischen Universität Hong Kong (Shenzhen) und dem Shanghai AI Laboratory entwickelt wurde.

Bemerkenswert ist, dass MaskGCT ein zweistufiges Modell ist. In der ersten Phase verwendet das Modell Textvorhersagen, um semantische Marker aus einem sprachbezogenen selbstüberwachenden Lernmodell (SSL) zu extrahieren. In der zweiten Phase prognostiziert das Modell auf Basis dieser semantischen Marker akustische Marker (entsprechend einem Masken-Vorhersage-Lernparadigma).

Während des Trainingsprozesses lernt MaskGCT, semantische oder akustische Marker basierend auf den gegebenen Bedingungen und Hinweisen vorherzusagen. Beim Inferenzprozess generiert das Modell parallel Marker mit der spezifizierten Länge. Experimente mit 100.000 Stunden natürlicher Sprache zeigen, dass MaskGCT in Qualität, Ähnlichkeit und Verständlichkeit anderen Zero-Shot-TTS-Systemen überlegen ist.

Derzeit hat MaskGCT reiche Anwendungsszenarien in den Bereichen Kurzfilm-Export, digitale Menschen, intelligente Assistenten, Hörbücher, Bildungshilfe und mehr.Um die Marktreife zu beschleunigen, hat Quwan Technology die mehrsprachige, schnelle Übersetzung intelligente Audio- und Video-Plattform „Quwan Qianyin“ entwickelt, die das schnelle Übersetzen von Videos in mehrere Sprachen mit einem Klick ermöglicht und Funktionen wie Untertitel-Reparatur, Übersetzung, Sprachübersetzung und Lippen-Synchronisation umfasst. Dies senkt signifikant die bisherigen hohen Kosten für manuelle Übersetzung und verkürzt den langwierigen Produktionszyklus und wird so zur neuen Wahl für den Export von Inhalten wie Filmen, Spielen und Kurzfilmen.

Videoquelle: Quwan Qianyin

Der „2024 Kurzfilm-Export-Bericht“ zeigt, dass der Überseemarkt 2023 ein Volumen von 650 Milliarden Dollar erreichte, etwa das Zwölffache des Inlandsmarktes. Der Kurzfilm-Export wird zu einem neuen, vielversprechenden Wachstumsmarkt. Basierend auf MaskGCT bietet Quwan Qianyin die Möglichkeit, chinesische Kurzfilme kostengünstiger und schneller international zu verbreiten und so die Effizienz des Exports von chinesischen Kulturinhalten zu steigern.

Dieser Artikel wurde ursprünglich von「刘士武」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Das Sprachmodell „MaskGCT“ wurde offiziell als Open Source veröffentlicht, um Dienstleistungen für Kurzdramen, Spiele, digitale Menschen und andere Produkte bereitzustellen.