Aliclouds stärkstes multimodales Modell: Versteht "Friends" und erreicht SOTA in 215 globalen Tests

Einige Leistungen übertreffen die von Gemini-3.1 Pro.

Zhidongxi berichtete am 31. März. Gestern hat Alibaba das neueste Ganzmodus-Großmodell Qwen3.5-Omni vorgestellt. Es ist ein Modell, das von Natur aus Text, Bilder, Audio sowie Audio- und Videoeingaben verstehen kann und in Text- und Audio-Modalen ausgeben kann.

Alibaba hat das Omni-Serienmodell das letzte Mal im vergangenen September aktualisiert. Die gestern eingeführte Qwen3.5-Omni-Serie umfasst die Größen Plus, Flash und Light und unterstützt 256k lange Kontexte sowie Audioeingaben von über 10 Stunden und Audio- und Videoeingaben von über 400 Sekunden im 720P-Format (1 FPS).

Das Qianwen-Team hat in einem Technologieblog angegeben, dass Qwen3.5-Omni-Plus in 215 Audio- oder Audio-Video-Verständnis-, Inferenz- und Interaktionstasks die SOTA-Leistung erreicht hat. Die allgemeine Audio-Verständnis-, Inferenz-, Erkennungs-, Übersetzungs- und Dialogfähigkeit dieses Modells übertrifft Gemini-3.1 Pro, und die Audio-Video-Verständnisfähigkeit erreicht insgesamt das Niveau von Gemini-3.1 Pro. Gleichzeitig ist die visuelle und Textsfähigkeit mit dem gleichgroßen Qwen3.5-Modell vergleichbar.

Diese Fähigkeiten eröffnen viele interessante Anwendungsfälle. Beispielsweise können Sie im Echtzeitmodus Ihr Mobiltelefon nehmen, die Kamera öffnen und Qwen3.5-Omni Ihre Entwicklungsideen anhand eines Skizzenplans mitteilen. Das Modell kann dann den entsprechenden Code generieren und so die "Programmierung mit der Stimme" ermöglichen, um schnell ein Prototypendesign zu erstellen.

Darüber hinaus kann Qwen3.5-Omni 39 chinesische Dialekte und 74 Sprachen verstehen und Audio in 7 chinesischen Dialekten und 29 Sprachen synthetisieren. Dies stellt eine deutliche Erweiterung im Vergleich zum Vorgängermodell Qwen3-Omni dar.

Wir haben versucht, mit Qwen3.5-Omni auf Minnan-Dialekt zu sprechen. Das Modell hat den Minnan-Dialekt genau verstanden, und die generierte Stimme war ziemlich authentisch, obwohl noch einige Mandarin-Wörter darin enthalten waren. Von der Sendung der Stimme bis zur Rückgabe des Audios hat Qwen3.5-Omni etwa 1 - 2 Sekunden gebraucht und hat auch die Internetrecherche genutzt, um die korrekten Wetterinformationen des Tages bereitzustellen.

Derzeit kann das Qwen3.5-Omni-Serienmodell über die API auf Alibaba Cloud Bailian verwendet werden und unterstützt sowohl den Offline- als auch den Echtzeitmodus. Darüber hinaus können Benutzer das Modell auch auf chat.qwen.ai, Hugging Face und ModelScope testen.

Der Preis für die API-Nutzung dieses Modells basiert auf einem Staffelpreissystem. Bei der gängigen Eingabe von ≤128k beträgt der Preis für die Audioeingabe 4,96 Yuan pro Million Tokens, und der Preis für die Text-, Bild- oder Videoeingabe beträgt 0,8 Yuan pro Million Tokens. Der Preis für die Ausgabe des Modells beträgt 61,322 Yuan pro Million Tokens (Text + Audio), und der Preis für die reine Textausgabe beträgt 9,6 Yuan pro Million Tokens.

Nach der Veröffentlichung des Modells hat Zhidongxi sofort Qwen3.5-Omni-Plus getestet. Dieses Modell hat in der Langzeitvideo-Verständnis- und Multimodal-Befehlsausführung gute Verarbeitungsfähigkeiten gezeigt. Gleichzeitig verbessern die Echtzeitinteraktion mit geringer Latenz und die neuen Sprachsteuerungsfunktionen das Interaktionserlebnis.

Qwen3.5-Omni-Plus-Realtime:

https://help.aliyun.com/zh/model-studio/realtime

Qwen3.5-Omni-Plus:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.5-omni-plus

ModelScope Offline-Demo:

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo

ModelScope Echtzeit-Demo:

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo

01. 50-minütiges Video in 1 Minute verstehen

und "Programmierung mit der Stimme" ermöglichen

Das Qianwen-Team hat im Technologieblog angegeben, dass eine der Fähigkeiten von Qwen3.5-Omni-Plus die Audio-Video-Beschreibung (Caption) ist. In Kombination mit den Hinweistexten kann Qwen3.5-Omni-Plus eine detaillierte Beschreibung auf Skriptniveau generieren, automatische Slicing, Zeitstempelmarkierung und eine detaillierte Einführung der Beziehung zwischen Personen und Audio durchführen.

Bei der praktischen Tests haben wir Qwen3.5-Omni-Plus eine etwa 50-minütige Folge der US-Serie "Friends" hochgeladen und es aufgefordert, eine genaue Beschreibung des Bildinhalts gemäß den Systemhinweistexten auszugeben.

Qwen3.5-Omni-Plus hat etwa 1 Minute gebraucht, um diese Folge zu verarbeiten, was eine relativ gute Geschwindigkeit ist. Seine Beschreibung deckt die gesamte Videolaufzeit ab, ohne Sprünge oder Lücken, und erfüllt die Kernanforderung der "zeitlichen Beschreibung".

Inhaltlich hat seine Beschreibung die zentralen Handlungswendepunkte erfasst, kann wichtige Personenbeziehungen und Stimmungsänderungen erkennen. Die Beschreibung ist nicht einfach eine mechanische Auflistung, sondern hat eine leichte Erzählstruktur. Der Lesefluss ist deutlich besser als bei vielen automatisch generierten AI-Videozusammenfassungen in Cloud-Speichern.

In einem offiziellen Beispiel hat Qwen3.5-Omni-Plus einen Schnitt aus "A Bite of China" erhalten und eine Audio-Video-Beschreibung erstellt. Man kann sehen, dass Qwen3.5-Omni-Plus die geeigneten Zeitpunkte automatisch gemäß der Bildgeschichte und dem Inhalt teilen kann. Die Beschreibung des Inhalts umfasst sowohl die Bilder als auch die Sprachbeschriftung, mit einer klaren Struktur und reichhaltigen Details.

In Kombination mit komplexeren Hinweistexten kann Qwen3.5-Omni-Plus auch für Prüfungstasks verwendet werden, wie z. B. die Überprüfung, ob ein Spiel-Livestream blutige Gewalt, gefährliche Handlungen, beleidigende Sprache und Mobbing sowie andere unangemessene Themen enthält.

Das Qianwen-Team hat auch beobachtet, dass das Ganzmodus-Modell die Fähigkeit entwickelt hat, direkt nach Audio-Video-Befehlen zu programmieren. Sie nennen dies "Audio-Visual Vibe Coding".

Bei der praktischen Tests haben wir eine Bildschirmaufzeichnung hochgeladen und Qianwen aufgefordert, anhand der Bilder und Sprachbefehle in der Aufzeichnung schnell ein Prototyp für ein soziales Netzwerk zu entwickeln. Nachdem Qwen3.5-Omni-Plus das Video erhalten hat, hat es schnell mit der Programmierung begonnen, und das Videomaterial hat keine spürbare Verzögerung verursacht.

Das generierte Webseiten-Ergebnis ist wie folgt. Es entspricht im Wesentlichen der Layoutstruktur der Webversion von Xiaohongshu. Die Navigationslogik zwischen den verschiedenen Screens ist korrekt. Nach dem manuellen Einfügen von Bildern sollte die Wiederholungsrate etwa 80 % betragen.

In der offiziellen Demo hat das Qianwen-Team auch die Fähigkeit von Qwen3.5-Omni-Plus gezeigt, Webseiten anhand von Skizzen zu generieren. Benutzer müssen nur eine einfache Wireframe-Skizze auf Papier zeichnen, ein Foto davon machen und die Funktionsanforderungen mündlich mitteilen. Das Modell kann dann die Designabsicht verstehen und direkt ausführbaren Front-End-Code ausgeben.

02. Verbesserte Echtzeitinteraktionsfähigkeit

Unterstützung von beliebigen Unterbrechungen und Sprachklonierung

Neben der Verbesserung der Basisfähigkeiten hat sich auch die Interaktionsfähigkeit des Qwen3.5-Omni-Serienmodells verbessert.

Qwen3.5-Omni unterstützt jetzt semantische Unterbrechungen, was bedeutet, dass Benutzer während des "Redeablaufs" des Modells beliebig unterbrechen, zusätzliche Informationen geben oder neue Befehle ausgeben können.

Dieses Interaktionserlebnis basiert auf der Fähigkeit von Qwen3.5-Omni, die Absicht des Gesprächsablaufs automatisch zu erkennen, um unnötige Unterbrechungen durch Zustimmungen und bedeutungslose Hintergrundgeräusche zu vermeiden. Dies wird von der API von Natur aus unterstützt.

In der offiziellen Demo kann man sehen, dass Qwen3.5-Omni nicht durch "Ja" oder ähnliche Zustimmungen unterbrochen wird. Wenn der Benutzer jedoch tatsächlich eine Frage stellt, kann das Modell die vorherige Antwort sofort beenden und neue Inhalte generieren.

Qwen3.5-Omni unterstützt von Natur aus die Internetrecherche und die komplexe FunctionCall-Fähigkeit. Das Modell kann selbst entscheiden, ob es die Internetrecherche nutzen muss, um die aktuelle Frage des Benutzers zu beantworten. In dem am Anfang des Artikels gezeigten Dialekt-Dialogbeispiel konnte das Modell die Echtzeit-Wetterinformationen suchen, dank dieser Fähigkeit.

Die End-to-End-Sprachsteuerungs- und Dialogfähigkeit ist ebenfalls in Qwen3.5-Omni integriert. Das Modell kann wie ein Mensch Befehle befolgen, um Lautstärke, Sprechgeschwindigkeit und Emotionen frei zu steuern.

Qwen3.5-Omni unterstützt die Klonierung von Stimmen. Benutzer können ihre eigene Stimme hochladen, um die Stimme anzupassen. In der offiziellen Demo kann Qwen3.5-Omni die Stimme des Sprechers klonen und in verschiedene Sprachen umwandeln, um eine wechselseitige Übersetzung zu ermöglichen.

03. Fortsetzung des Thinker-Talker-Verteilungsschemas

Einsatz des Hybrid-Attention-Mechanismus

Wie hat das Qwen3.5-Omni-Serienmodell die oben genannten Fähigkeiten erreicht?

Qwen3.5-Omni setzt das Thinker-Talker-Verteilungsschema des Vorgängermodells fort - der Thinker ist für das Verständnis zuständig, und der Talker ist für die Expression zuständig. Diesmal werden beide in Hybrid-Attention MoE (Hybrid-Attention Mixture of Experts) umgewandelt, was die Effizienz und Leistung des Modells verbessert.

Der Thinker ist für die Aufnahme von visuellen und Audiosignalen zuständig, codiert die Positionsinformationen über TMRoPE und gibt Text aus. Der Hybrid-Attention-Mechanismus ermöglicht es ihm, auch bei der Verarbeitung von 10-stündigem Langaudio und 1-stündigem Video schnell die Schwerpunkte zu identifizieren.

Der Talker nimmt die multimodalen Ausgaben des Thinkers entgegen und generiert kontextbezogene Sprache. Er verwendet auch RVQ-Codierung anstelle der aufwändigen DiT-Berechnung.

Bezüglich der Sprachinstabilität in der Echtzeit-Sprachinteraktion, die durch die Unterschiede in der

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Aliclouds stärkstes multimodales Modell taucht auf. In praktischen Tests kann es die 50-minütige Fernsehserie "Friends" verstehen und hat in 215 globalen Tests den SOTA (State-of-the-Art) erreicht.

01.

50-minütiges Video in 1 Minute verstehen

und "Programmierung mit der Stimme" ermöglichen

02.

Verbesserte Echtzeitinteraktionsfähigkeit

Unterstützung von beliebigen Unterbrechungen und Sprachklonierung

03.

Fortsetzung des Thinker-Talker-Verteilungsschemas

Einsatz des Hybrid-Attention-Mechanismus