Alibaba hat sein stärkstes Sprachmodell vorgestellt, das genaue Transkriptionen von englischen Raptexten ermöglicht und weltweit die höchste Genauigkeit aufweist.
Nach Berichten von Zhidx am 9. September: Gestern hat Alibaba das neueste Spracherkennungsmodell Qwen3-ASR-Flash vorgestellt. Das Modell basiert auf dem Qwen3-Grundmodell und unterstützt 11 Sprachen und verschiedene Akzente. Benutzer können es kostenlos über ModelScope, HuggingFace und die Alibaba Cloud Bailian-API Qwen3-ASR-Flash testen.
In mehreren Basistests für ASR (Automatische Spracherkennung) hat Qwen3-ASR-Flash deutlich niedrigere Fehlerraten bei der Erkennung von Dialekten, Mehrsprachen, Schlüsselinformationen, Liedtexten usw. als Google Gemini-2.5-Pro, OpenAI GPT-4o-Transcribe, das Alibaba-Sprechlabor Paraformer-v1 und ByteDance Doubao-ASR.
Genauer gesagt basiert das Modell auf einer riesigen Menge an multimodalen Daten und ASR-Daten im Millionensunden-Maßstab und unterstützt 11 Sprachen, darunter Chinesisch, Englisch, Französisch, Deutsch usw. Bei der Erkennung kann es automatisch die Sprache des gesprochenen Textes erkennen und Stille und Hintergrundgeräusche sowie andere nicht-sprachliche Segmente filtern.
Darüber hinaus können Benutzer die ASR-Ergebnisse anpassen. Indem sie beim Hochladen von Audio-Dateien Kontextinformationen wie Schlüsselbegriffe und den Hintergrund des Audios hinzufügen, können sie die Erkennungsergebnisse an diese vorhandenen Informationen anpassen.
Im Folgenden ist ein Beispiel für einen Audiokommentar zu einem E-Sport Wettkampf von der offiziellen Seite gezeigt. Die Forscher haben für diesen Szenario Hintergrundinformationen konfiguriert, einschließlich einer Schlüsselwortliste und dem Hintergrund des Spiels. Daher hat die schnelle Sprechgeschwindigkeit der E-Sport-Kommentatoren die Erkennung von Fachausdrücken im Spiel nicht beeinträchtigt.
- ModelScope-Adresse: https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
- Hugging Face-Adresse: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
- Alibaba Cloud Bailian-API-Aufrufadresse: https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031
01. Kann E-Sport-Kommentare und englische Rapmusik erkennen, maximale Störunterdrückung bei kontinuierlichen Störgeräuschen
Die offizielle Seite hat fünf Demonstrationsbeispiele veröffentlicht, die die Probleme der Audioerkennung bei verschiedenen Störgeräuschen, schnellem Wechsel zwischen mehreren Sprachen, Dialekten und Fachausdrücken enthalten.
Das erste Beispiel enthält verschiedene Arten von kontinuierlichen Störgeräuschen, wie Handyglocken, Fahrradglocken, Musik, Wassergeläute und Gewittergeräusche. Darüber hinaus gibt es auch Dialogwechsel zwischen verschiedenen Personen. Qwen3-ASR-Flash hat die Sprache auch bei mehreren gleichzeitig sprechenden Personen oder sehr kurzen Sprechpausen genau erkannt und war nicht von den Störgeräuschen beeinträchtigt.
Das zweite Beispiel ist englischer Rap. Englischer Rap zeichnet sich durch eine schnelle Sprechgeschwindigkeit und viele zusammenhängende Wörter in den Liedtexten aus. In den Erkennungsergebnissen wurden viele zusammenhängende Wörter und lange, schwierige Sätze in den Liedtexten genau erkannt und nicht von der Hintergrundmusik beeinträchtigt.
Das dritte Beispiel ist die Erkennung von Dialekten. In diesem Szenario fährt der Protagonist im Audio mit dem Auto. Es gibt sowohl den Dialekt des Protagonisten als auch die Standardchinesisch-Sprache des intelligenten Sprachassistenten. Der intelligente Sprachassistent hat das Wort "korrigieren" fälschlicherweise als "96" erkannt, während Qwen3-ASR-Flash es genau erkannt hat.
Das vierte Beispiel ist der Wechsel zwischen mehrsprachigen Sätzen. In einem 7-Sekunden-Audio gibt es fünf Sprachen, wie Englisch und Japanisch, und alle wurden in den Erkennungsergebnissen korrekt wiedergegeben.
Das letzte Beispiel ist ein Audio aus einem Chemiekurs. In den Erkennungsergebnissen wurden chemische Begriffe wie Ester, Säure, Aldehyd, Ammoniak usw. sowie die Ausrufezeichen der Personen im Audio korrekt erkannt.
02. Fehlerrate bei der Liedtext-Erkennung unter 8%, anpassbare Spracherkennungsergebnisse
In Bezug auf die Leistung hat Qwen3-ASR-Flash niedrigere Fehlerraten bei der Erkennung von Chinesisch, Englisch, Mehrsprachen, Liedtexten und Schlüsselinformationen als Gemini-2.5-Pro, GPT-4o-Transcribe, Paraformer-v1 und Doubao-ASR.
Bei der Liedtext-Erkennung unterstützt Qwen3-ASR-Flash die Erkennung von a capella-Songs und Liedern mit Hintergrundmusik. Die Forscher haben festgestellt, dass die Fehlerrate unter 8% liegt.
Das Modell unterstützt Standardchinesisch sowie Dialekte wie Sichuanisch, Minnanisch, Wu-Sprache und Kantonesisch, Englisch mit britischem, amerikanischem und anderen regionalen Akzenten sowie andere Sprachen wie Französisch, Deutsch, Russisch, Italienisch, Spanisch, Portugiesisch, Japanisch, Koreanisch und Arabisch.
Wenn Benutzer anpassbare ASR-Ergebnisse erhalten möchten, können sie Kontexttexte in beliebigen Formaten bereitstellen, um tendenziellere ASR-Ergebnisse zu erhalten, ohne dass sie die Kontextinformationen vorverarbeiten müssen.
Die unterstützten Formate umfassen, sind aber nicht beschränkt auf die folgenden: Einfache Schlüsselwort- oder Hotword-Listen, vollständige Absätze oder ganze Dokumente beliebiger Länge und Herkunft, gemischte Schlüsselwortlisten und Absätze in beliebigen Formaten, irrelevante oder sogar sinnlose Texte. Die Forscher haben erwähnt, dass das Modell eine hohe Robustheit gegenüber negativen Auswirkungen irrelevanten Kontexts aufweist.
Basierend auf diesem Kontext kann Qwen3-ASR-Flash benannte Entitäten und andere Schlüsselbegriffe erkennen und abgleichen und anpassbare Erkennungsergebnisse ausgeben.
03. Fazit: In Zukunft wird die Genauigkeit der allgemeinen Spracherkennung verbessert werden
Seit langem sind komplexe akustische Umgebungen, vielfältige Sprachmerkmale und Fachausdrücke die größten Herausforderungen bei der Spracherkennung. Um die Kontrolle der Benutzer über die Ausgabeergebnisse zu gewährleisten, haben die Alibaba-Forscher die Funktion zum Hochladen von Kontexttexten hinzugefügt, damit die Erkennungsergebnisse eher den Erwartungen der Benutzer entsprechen.
Als nächstes werden die Forscher die allgemeine Erkennungsgenauigkeit von Qwen3-ASR-Flash verbessern und die Nutzungsschwelle für normale Benutzer weiter senken.
Dieser Artikel stammt aus dem WeChat-Account "Zhidx" (ID: zhidxcom), geschrieben von Cheng Qian und redigiert von Xin Yuan. Veröffentlicht von 36Kr mit Genehmigung.