Erster eigener Testbericht: Offizielle Version des größten und stärksten Alibaba - Modells nach vier Monaten Wartezeit veröffentlicht

Kann Werkzeuge unabhängig einstellen und effizient denken.

Ohne dass GPT-5.3 oder Gemini 3.5 erschienen sind, hat Alibaba diese Woche den Startschuss für die Veröffentlichung neuer Large Language Models gegeben!

Am Abend des 26. Januar hat Alibaba Qwen3-Max-Thinking vorgestellt. Dies ist derzeit das leistungsstärkste Flaggschiffmodell der Qianwen-Serie von Alibaba. In 19 autoritativen Benchmark-Tests konnte Qwen3-Max-Thinking mit Spitzenmodellen wie GPT-5.2-Thinking, Claude-Opus-4.5 und Gemini 3 Pro mithalten. Nach der Integration der Testzeit-Erweiterungsfunktion (TTS) kann es in vielen Benchmark-Tests den aktuellen Stand der Technik (SOTA) erreichen.

▲Benchmark-Test-Ergebnisse von Qwen3-Max-Thinking

Was ist neu an Qwen3-Max-Thinking? Erstens verfügt es über eine adaptive Tool-Aufruf-Funktion, die es dem Modell ermöglicht, Suchmaschinen und Code-Interpreter nach Bedarf aufzurufen, ohne dass der Benutzer manuell ein Tool auswählen muss. Vielleicht aufgrund des Vertrauens in die Tool-Aufruf-Funktion des Modells hat Qianwen das Suchsymbol im Dialogfeld entfernt.

Dieses Modell integriert auch Alibaba's eigene Idee der Testzeit-Erweiterung. Im Gegensatz zur gängigen Praxis in der Branche, die auf die Erhöhung der parallelen Inferenzpfade abzielt, konzentriert Qwen3-Max-Thinking nicht einfach auf die Erhöhung der Anzahl der parallelen Zweige, sondern lenkt die begrenzten Rechenressourcen auf den "klügeren" Inferenzprozess selbst, um die Inferenz des Modells genauer, ressourcenschonender und "reflektierender" zu machen.

Tatsächlich hat Alibaba bereits im vergangenen September eine Vorschauversion von Qwen3-Max veröffentlicht. Im Vergleich zur Vorschauversion kombiniert die offizielle Version effektiv die Denk- und Nicht-Denk-Modi. Das Kontextfenster von Qwen3-Max beträgt 256k, und die Anzahl der Parameter wurde noch nicht veröffentlicht, dürfte aber der Vorschauversion ähnlich sein, das heißt über eine Billion Parameter.

Qwen3-Max-Thinking ist kein Open-Source-Modell. Derzeit ist es in Qwen Chat verfügbar, wo man die adaptive Tool-Aufruf-Funktion des Modells testen kann. Gleichzeitig ist die API von Qwen3-Max-Thinking auch geöffnet, mit einem Preis von 2,5 Yuan pro Million eingegebener Tokens und 10 Yuan pro Million ausgegebener Tokens, was relativ kostengünstig ist.

▲API-Aufruf-Oberfläche von Qwen3-Max-Thinking

Es ist erwähnenswert, dass Alibaba am gleichen Tag auch die gesamte Qwen3-TTS-Serie von Sprachsynthese-Modellen Open-Source gemacht hat, die die Klonung von Stimmen, die Schaffung von Stimmen, die Generierung von anthropomorphen Stimmen und die Sprachsteuerung basierend auf natürlicher Sprache unterstützt.

Testlink:

https://chat.qwen.ai/

API-Aufrufplattform:

https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

01. Das reale Testen zeigt, dass die adaptive Suchleistung besser ist als die von ChatGPT

Die Suche und der Code-Interpreter können kombiniert verwendet werden

Nach der Veröffentlichung von Qwen3-Max-Thinking hat Zhidongxi umgehend getestet.

Schauen wir uns zunächst die adaptive Tool-Aufruf-Funktion von Qwen3-Max-Thinking an. Dies ist eine Fähigkeit, die durch einen speziellen Trainingsablauf entwickelt wurde: Nach der ersten Feinabstimmung der Tool-Nutzung wurde das Modell auf diversen Aufgaben mit regel- und modellbasierten Rückmeldungen weiter trainiert.

Tatsächlich ist die Fähigkeit, automatisch zu suchen, bereits relativ verbreitet. Sowohl DeepSeek als auch ChatGPT können in einigen Abfragen, die eindeutig aktuelle Informationen betreffen, automatisch suchen. Das gleiche gilt für Qwen3-Max-Thinking. Wenn man beispielsweise nach dem heutigen Wetter fragt, sucht es automatisch und gibt eine genaue Antwort.

Für Inhalte, die keine eindeutigen Hinweise auf die Aktualität enthalten, kann Qwen3-Max-Thinking auch die Suche selbständig aufrufen. Wenn wir beispielsweise fragen, was "Clawdbot" ist, denkt das Modell zunächst nach, stellt fest, dass es keine relevanten Informationen hat, und beginnt dann mit der Suche und gibt eine vollständige Beschreibung.

Hierbei schneiden die Modelle in ChatGPT nicht so gut ab. Sie halten Dinge, die nicht in ihrem Wissensspeicher enthalten sind, für falsch und führen keine Suche oder Überprüfung durch.

Wenn wir Qwen3-Max-Thinking beispielsweise bitten, "einmalige Münzwürfe 1.000 Mal zu simulieren, die Anzahl der Kopfseiten zu zählen und das Gesetz der großen Zahlen zu überprüfen", startet es den Code-Interpreter, schreibt über 60 Zeilen Python-Code und erledigt die Aufgabe. Die von Python generierten Diagramme sind korrekt, wenn auch etwas schlicht gestaltet.

Anschließend haben wir versucht, Qwen3-Max-Thinking die beiden Tools Suche und Code-Interpreter zu kombinieren, um eine Aufgabe zu lösen.

Bei der folgenden Aufgabe musste Qwen3-Max-Thinking die Aktienkursbewegungen von NVIDIA und AMD seit 2026 abfragen und ein Diagramm erstellen. Nach der Überprüfung des Denkprozesses und des Codes wurde festgestellt, dass Qwen3-Max-Thinking zwar gesucht hat, aber die Suchmethode eher ungeordnet war. Es hat viele verschiedene Quellen durchsucht, konnte aber nicht alle Aktienkurse für alle Datenpunkte finden.

Trotzdem erfüllt das von Qwen3-Max-Thinking generierte Diagramm die grundlegenden Anforderungen zur Beobachtung der Aktienkursentwicklung. Seine Analyseergebnisse kombinieren Marktanalysen und Unternehmensberichte und sind relativ umfassend.

02. Verwendung einer effizienten neuen Inferenzmethode

Das Programmierdesign ist besser als in der Vorschauversion

Für die Inferenz hat Alibaba für Qwen3-Max-Thinking eine auf Erfahrungsakkumulation und mehrfachen Iterationen basierende Strategie für die Testzeit-Erweiterung eingesetzt.

Im Gegensatz zur einfachen Erhöhung der Anzahl paralleler Inferenzpfade (was oft zu redundanter Inferenz führt), beschränkt Qwen3-Max-Thinking die Anzahl der Pfade und verwendet die eingesparten Rechenressourcen für eine iterative Selbstreflexion, die durch einen "Erfahrungsextraktions"-Mechanismus geleitet wird.

Dieser Mechanismus extrahiert Schlüsselinformationen aus früheren Inferenzrunden, sodass das Modell vermeidet, bekannte Ergebnisse erneut abzuleiten, und sich auf die noch ungelösten Unsicherheiten konzentriert. Im Vergleich zur direkten Verwendung der ursprünglichen Inferenztrajektorie erzielt dieser Mechanismus eine höhere Effizienz bei der Nutzung des Kontexts und kann in demselben Kontextfenster die historischen Informationen besser integrieren.

Bei annähernd gleicher Token-Auslastung übertrifft diese Methode kontinuierlich die Standardmethode der parallelen Stichprobenahme und Aggregation. Dies ermöglicht es dem Modell, in verschiedenen Benchmark-Tests, die Inferenzfähigkeiten erfordern, wie GPQA, HLE, LiveCodeBench v6, eine Leistungssteigerung von 2 - 4 Punkten zu erzielen.

Wir haben Qwen3-Max-Thinking aufgefordert, einen Populationssimulator für Stärke und Geschwindigkeit zu erstellen, eine Aufgabe, die wir auch bei der Testung von Qwen3-Max-Preview gestellt haben.

Anweisung: Es gibt zwei Populationen. Population A konzentriert sich auf die Entwicklung von Stärke, Population B auf die Entwicklung von Geschwindigkeit. Bitte simulieren Sie die Interaktion zwischen den beiden Populationen und geben Sie eine Erklärung.

Man kann beobachten, dass nach der Eingabe derselben Anweisung Qwen3-Max-Thinking lieber den Code-Interpreter verwendet, um Diagramme zu erstellen, anstatt wie in der Vorschauversion eine Webseite zu generieren.

Nachdrücklich verlangten wir die Generierung einer Webseite zur Simulation. Qwen3-Max-Thinking lieferte das folgende Ergebnis. Im Vergleich zu Qwen3-Max-Preview war das Ergebnis reichhaltiger und das UI-Design besser. Dies könnte daran liegen, dass es in diesem Kontext das Thema bereits ausführlicher untersucht hat.

Ergebnis generiert von Qwen3-Max-Thinking:

Ergebnis generiert von Qwen3-Max-Preview:

Einige Nutzer auf der X-Plattform haben bereits die Inferenzfähigkeit von Qwen3-Max-Thinking getestet. Es ist jedoch zu beachten, dass Qwen3-Max jetzt den vollständigen Denkpfad verbirgt und stattdessen eine Zusammenfassung des Denkpfads bietet, was einigen Nutzern nicht gefällt.

Der AI-Blogger Max for AI berichtet, dass Qwen3-Max-Thinking dank seiner Inferenzfähigkeit logische Fallstricke umgehen kann und die Download-Trends von zwei Open-Source-Modellfamilien genau analysieren kann, ohne nicht existierende Daten zu erfinden.

▲Qwen3-Max-Thinking umgeht logische Fallstricke (Quelle: Max for AI@X)

03. Fazit: Chinesische Large Language Models gehen weiter

den Weg der effizienten Inferenz

Bei einer öffentlichen Rede im Januar dieses Jahres hat Lin Junyang, der Leiter des Qianwen Large Language Models von Alibaba, angegeben, dass die Rechenleistung in China immer noch ein großer Engpass für die AI-Forschung ist. Die Bereitstellung von Large Language Models durch Alibaba beansprucht bereits einen Großteil der Rechenleistung, und die für die Forschung zur Verfügung stehende Rechenleistung ist nicht so reichhaltig wie erwartet.

Lin Junyangs Aussage stimmt mit der Upgradestrategie von Qwen3-Max-Thinking überein. Durch verschiedene technische und ingenieurtechnische Optimierungen kann Qwen3-Max-Thinking Ergebnisse mit höherer Token-Effizienz liefern und somit in gewissem Maße den Bedarf an Rechenleistung reduz

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Nach vier Monaten Wartezeit wurde die offizielle Version des größten und stärksten Modells von Alibaba veröffentlicht. Hier folgt eine erste-eigene Testbericht.

01.

Das reale Testen zeigt, dass die adaptive Suchleistung besser ist als die von ChatGPT

Die Suche und der Code-Interpreter können kombiniert verwendet werden

02.

Verwendung einer effizienten neuen Inferenzmethode

Das Programmierdesign ist besser als in der Vorschauversion

03.

Fazit: Chinesische Large Language Models gehen weiter

den Weg der effizienten Inferenz