Alibaba hat binnen einer Nacht drei bahnbrechende Open-Source-Projekte vorgestellt und 32 Open-Source-SOTA-Ergebnisse aufgestellt.
Nachrichten von Zhidx vom 23. September. In der späten Nacht hat das Team hinter Alis Tongyi Large Model drei große Schritte unternommen: Die Open-Source-Veröffentlichung des nativen multimodalen Modells Qwen3-Omni, des Sprachgenerierungsmodells Qwen3-TTS und die Aktualisierung des Bildbearbeitungsmodells Qwen-Image-Edit-2509.
Qwen3-Omni kann nahtlos verschiedene Eingabeformen wie Text, Bilder, Audio und Video verarbeiten und gleichzeitig Text und natürliche Sprachausgabe in Echtzeit streamen. Es hat in 32 von 36 Audio- und Audiovideo-Benchmarks die beste Open-Source-Leistung (SOTA) erzielt und in 22 Fällen die Gesamt-SOTA, was es über leistungsstarke proprietäre Modelle wie Gemini-2.5-Pro, Seed-ASR und GPT-4o-Transcribe stellt. Gleichzeitig erreicht es auch auf dem Gebiet der Bild- und Textverarbeitung SOTA-Standards bei gleicher Modellgröße.
Qwen3-TTS unterstützt 17 Stimmen und 10 Sprachen und übertrifft in der Bewertung der Sprachstabilität und Klangähnlichkeit führende Produkte wie SeedTTS und GPT-4o-Audio-Preview.
Die wichtigste Neuerung von Qwen-Image-Edit-2509 ist die Unterstützung der Mehrbildbearbeitung, die es ermöglicht, Personen + Personen, Personen + Objekte usw. aus verschiedenen Bildern zusammenzufügen.
Alis Open-Source-Homepage
Ali hat Qwen3-Omni-30B-A3B-Instruct (Befehlsfolgung), Qwen3-Omni-30B-A3B-Thinking (Schlussfolgerung) und den universellen Audiountertitelgenerator Qwen3-Omni-30B-A3B-Captioner open source gemacht.
Open-Source-Adresse auf Hugging Face:
https://huggingface.co/Qwen
Open-Source-Adresse auf GitHub:
https://github.com/QwenLM/Qwen3-Omni
01.
Unterstützung von 119 Sprachen für die Interaktion
Freie Anpassung und Änderung der Persona
Auf der internationalen Version der Tongyi Qianwen-Website kann man die Videotelefoniefunktion einfach durch Klicken auf die rechte untere Ecke des Eingabefelds aufrufen. Derzeit befindet sich diese Funktion noch in der Beta-Testphase.
Bei unseren praktischen Tests haben wir festgestellt, dass die Videointeraktion auf der Webseite noch instabil ist. Daher haben wir uns entschieden, die internationale Version der Tongyi Qianwen-App für weitere Tests zu nutzen. In der App ist die Latenzzeit bei der Videoreaktion von Qwen-Omni-Flash sehr gering, fast unbemerkt, was annähernd der Flüssigkeit eines persönlichen Gesprächs entspricht.
Qwen-Omni-Flash verfügt über umfangreiche Weltwissenkenntnisse. Wir haben es durch die Erkennung von Biermarken, Pflanzen und anderen Bildern getestet, und das Modell hat in allen Fällen genaue Antworten gegeben.
Im offiziellen Blog wird erwähnt, dass Qwen3-Omni die Interaktion in 119 Textsprachen, das Verständnis in 19 Sprachen und die Sprachgenerierung in 10 Sprachen unterstützt. Die reine Modell-End-zu-End-Latenzzeit bei Audiogesprächen beträgt nur 211 ms, bei Videogesprächen nur 507 ms, und es kann auch 30 Minuten Audiomaterial verstehen. In der Praxis jedoch kann man, wenn das Modell Englisch, Spanisch oder andere Fremdsprachen ausgibt, immer noch einen deutlichen Mandarin-Akzent in der Aussprache bemerken, was es nicht ganz natürlich und authentisch klingt.
In der Interaktion mit Kantonesisch mischt Qwen-Omni-Flash noch immer manchmal Mandarin-Vokabeln ein, was die Immersion im Gespräch etwas beeinträchtigt.
In einigen offiziellen Demo-Videos werden die Interaktionsergebnisse in Spanisch, Französisch und Japanisch gezeigt.
Das Modell kann die Speisekarte eines italienischen Restaurants analysieren und dann in Französisch seinen Freunden Pasta empfehlen. Seine Antwort erwähnt klassische Pasta-Sorten und gibt eine kurze Beschreibung basierend auf der Speisekartenbeschreibung.
Qwen3-Omni kann auch die Inhalte einer Website analysieren und dem Benutzer zusammenfassen, dass es sich um die offizielle Website des Picasso-Museums in Barcelona handelt. Es erwähnt auch die Geschichte von fünf Gebäuden und den dazugehörigen Straßen.
In einem japanischen Gesprächsszenario kann das Modell die Umgebung der Personen im Video und den Inhalt ihrer Unterhaltung analysieren.
Qwen3-Omni unterstützt die freie Anpassung des System-Prompts und die Änderung des Antwortstils und der Persona.
In der Demo spielt das Modell die Rolle einer Kindertagesstättenlehrerin aus Guangdong und erklärt den Kindern Qwen3-Omni anhand einer Zusammenfassung der Modellmerkmale. Dabei werden die vier Merkmale des Modells aus dem Bild abgedeckt und einfache Vergleiche verwendet, die für Kinder leichter verständlich sind.
Im Szenario der Mehrpersoneninteraktion kann Qwen3-Omni auch das Geschlecht der Personen, ihren Tonfall und den Inhalt ihrer Äußerungen analysieren.
Beispielsweise in diesem Gespräch: Eine junge Frau, die Sichuan-Dialekt spricht, lädt Freunde ein, ein junger Mann, der Mandarin spricht, hat sich von seiner Freundin getrennt, und ein anderer Mann hat seinen Hund gestohlen. Als man Qwen3-Omni fragte, welchen Dialekt die junge Frau spricht und was sie gesagt hat, hat es erkannt, dass es sich um Sichuan-Dialekt handelt, und hat ihre Selbstvorstellung, Einladung und Lob auf ihre Heimat analysiert.
Als man das Modell fragte, wer im Video am glücklichsten sei, hat Qwen3-Omni entschieden, dass es der zuletzt sprechende Xiao Wang sei und hat insbesondere seinen Tonfall und seine Geste mit dem Daumen nach oben analysiert.
Darüber hinaus kann Qwen3-Omni auch die Musikrichtung und -elemente analysieren und auf die Bilder im Video schließen. Wenn es erkennt, dass der Benutzer im Video an einer Mathematikaufgabe arbeitet, wird es auch die Aufgabe lösen.
02.
22 Benchmarks erreichen SOTA
Keine Leistungsabnahme bei der Vorhersage
Bei der umfassenden Leistungsevaluation hat Qwen3-Omni in Einmodusaufgaben die gleiche Leistung wie die Einmodusmodelle der Qwen-Serie mit ähnlicher Parameteranzahl und in Audioaufgaben sogar bessere Ergebnisse erzielt.
In 36 Audiovideo-Benchmarks hat das Modell in 32 Fällen die beste Open-Source-Leistung und in 22 Fällen die SOTA-Leistung erreicht. Es übertrifft proprietäre Modelle wie Gemini-2.5-Pro, Seed-ASR und GPT-4o-Transcribe und erreicht in der Spracherkennung und der Befehlsfolgung die gleiche Leistung wie Gemini-2.5-Pro.
Im Blog wird erwähnt, dass Qwen3-Omni die Thinker-Talker-Architektur verwendet. Der Thinker ist für die Textgenerierung verantwortlich, während der Talker sich auf die Generierung von fließenden Sprach-Tokens konzentriert und direkt die hochgradigen semantischen Repräsentationen vom Thinker erhält.
Um eine ultraniedrige Latenzzeit bei der fließenden Generierung zu erreichen, prognostiziert der Talker sequentiell mehrere Codebooks in einer autoregressiven Weise: In jedem Dekodierungsschritt gibt das MTP-Modul das Residual-Codebook des aktuellen Frames aus, und anschließend wird das entsprechende Wellenformat durch Code2Wav synthetisiert, um eine frameweise fließende Generierung zu ermöglichen.
Zu den Highlights der innovativen Architektur gehört, dass der Audio-Encoder das auf 20 Millionen Stunden Audiomaterial trainierte AuT-Modell verwendet, das universelle Audio-Repräsentationsfähigkeiten besitzt. Sowohl der Thinker als auch der Talker verwenden die MoE-Architektur, die eine hohe Parallelität und schnelle Inferenz ermöglicht.
Gleichzeitig haben die Forscher in der frühen Phase der Textvorhersage Einmodus- und Quermodusdaten gemischt, um sicherzustellen, dass die Leistung bei der Mischtraining von verschiedenen Moden nicht schlechter als bei der reinen Einmodustraining ist und gleichzeitig die Quermoduskapazität deutlich verbessert wird.
AuT, Thinker, Talker + Code2wav verwenden die gesamte Prozesskette und unterstützen die direkte fließende Dekodierung des ersten Frame-Tokens in Audioausgabe.
Darüber hinaus unterstützt Qwen3-Omni Function Calls, um eine effiziente Integration mit externen Tools oder Diensten zu ermöglichen.
03.
Veröffentlichung eines Text-zu-Sprache-Modells
Mehrere Benchmarks erreichen SOTA
Ali Tongyi hat auch das Text-zu-Sprache-Modell Qwen3-TTS-Flash veröffentlicht.
Zu seinen Hauptmerkmalen gehören:
Stabilität in Englisch und Chinesisch: Qwen3-TTS-Flash hat in der seed-tts-eval Testmenge die beste Leistung (SOTA) in der Stabilität von Englisch und Chinesisch erzielt und SeedTTS, MiniMax und GPT-4o-Audio-Preview übertroffen.
Stabilität und Klangähnlichkeit in mehreren Sprachen: In der MiniMax TTS multilingual Testmenge hat Qwen3-TTS-Flash in Chinesisch, Englisch, Italienisch und Französisch die beste Word Error Rate (WER) erzielt, die deutlich niedriger ist als die von MiniMax, ElevenLabs und GPT-4o-Audio-Preview. Die Ähnlichkeit der Sprecherstimme in Englisch, Italienisch und Französisch übertrifft ebenfalls deutlich diese Modelle.
Hohe Expressivität: Qwen3-TTS-Flash verfügt über eine hochgradig expressive anthropomorphe Stimme und kann zuverlässig Audio ausgeben, das dem Eingabetext genau entspricht.
Reiche Stimme- und Sprachauswahl: Qwen3-TTS-Flash bietet 17 Stimme-Optionen, wobei jede Stimme 10 Sprachen unterstützt.
Unterstützung von Dialekten: Qwen3-TTS-Flash unterstützt die Generierung von Dialekten, einschließlich Mandarin, Minnan-Dialekt, Wu-Dialekt, Kantonesisch, Sichuan-Dialekt, Pekinger Dialekt, Nanjing-Dialekt, Tianjin-Dialekt und Shaanxi-Dialekt.
Anpassung des Tonfalls: Nach dem Training mit einer großen Datenmenge kann Qwen3-TTS-Flash automatisch den Tonfall basierend auf dem Eingabetext anpassen.
Hohe Robustheit: Qwen3-TTS-Flash kann automatisch komplexe Texte verarbeiten, die Schlüsselinformationen extrahieren und ist sehr robust gegenüber komplexen und vielfältigen Textformaten.
Schnelle Generierung: Qwen3-TTS-Flash hat eine sehr niedrige Latenzzeit für das erste Paket, wobei die Latenzzeit des Modells bei einfacher Parallelität nur 97 ms beträgt.
In Bezug auf die konkrete Leistung hat Qwen3-TTS-Flash in der MiniMax TTS multilingual Testmenge in Chinesisch, Englisch, Italienisch und Französisch die beste WER erzielt, die deutlich niedriger ist als die von MiniMax, ElevenLabs und GPT-4o-Audio-Preview. In Bezug auf die Ähnlichkeit der Sprecherstimme übertrifft Qwen3-TTS-Flash diese Modelle in Englisch, Italienisch und Französisch und zeigt eine hervorragende Leistung in der Sprachstabilität und Klangähnlichkeit in mehreren Sprachen.
Die Forscher haben mehrere Architektur-Upgrades und Beschleunigungsstrategien eingeführt, um eine niedrigere Latenzzeit für das erste Paket und eine schnellere Generierungsgeschwindigkeit zu erreichen.
04.
Aktualisierung des Bildbearbeitungsmodells
Unterstützung der Mehrbildbearbeitung
Ali hat auch die monatliche Iterationsversion des Bildbearbeitungsmodells Qwen-Image-Edit-2509 vorgestellt.
Im Vergleich zu Qwen-Image-Edit, das im August veröffentlicht wurde, hat Qwen-Image-Edit-2509 die folgenden Hauptmerkmale:
Unterstützung der Mehrbildbearbeitung: Für die Eingabe mehrerer Bilder baut Qwen-Image-Edit-2509 auf der Qwen-Image-Edit-Struktur auf und wird durch das Zusammenfügen von Bildern weiter trainiert, um verschiedene Kombinationen wie "Person + Person", "Person + Produkt" und "Person + Szene" zu ermöglichen.