StartseiteArtikel

Die Qianwen-Version von Gemini 3 ist hier.

硅星人Pro2026-01-28 11:54
Die erste chinesische Version von Gemini 3

Die erste chinesische Version von Gemini 3 ist da.

Am 26. Januar hat Alibaba offiziell das Flaggschiff-Inferenzmodell Qwen3-Max-Thinking von Qianwen veröffentlicht.

Laut Angaben hat Qwen3-Max-Thinking insgesamt über eine Billion Parameter und eine Menge an vortrainierten Daten von bis zu 36T Tokens. Es hat in mehreren autoritativen Tests wie Wissenschaftlichen Wissen (GPQA Diamond), Mathematischer Inferenz (IMO-AnswerBench) und Code-Programmierung (LiveCodeBench) globale Rekorde aufgestellt. Es hat in den mathematischen Inferenztests AIME 25 und HMMT 25 die ersten doppelten Vollpunkte in China erzielt und hat sogar in dem "letzten Test für Menschen", HLE, 58,3 Punkte erreicht, weit über den 45,5 Punkten von GPT-5.2-Thinking und den 45,8 Punkten von Gemini 3 Pro.

Das Wichtigste ist der Zeitpunkt. Wenn Sie sich in letzter Zeit mit dem Bereich KI beschäftigt haben, werden Sie feststellen, dass alle großen Modellhersteller ihre besten Tricks auf Lager haben. Alibaba hat es sich zur Aufgabe gemacht, Qwen3-Max-Thinking genau zu diesem Zeitpunkt zu veröffentlichen, um sich den Titel der "ersten chinesischen Version von Gemini 3" zu sichern.

Wie schön die Ranglistendaten auch aussehen mögen, kann es wirklich mit Gemini 3 mithalten?

Nach einigen Versuchen mit Qwen bei der Codegenerierung war die Misserfolgsrate in den ersten Versuchen recht hoch. Aber sobald es in Szenarien landet, in denen Alibaba stark ist, zeigt es sich ganz anders. Wenn Sie beispielsweise von ihm eine E-Commerce-Website für Obst verkaufen lassen, kann es Funktionen wie Warenkategorien, Einkaufswagen hinzufügen und zusammen zahlen im Grunde in einem Zug schreiben, und die Logik ist komplett und das Erlebnis ist reibungslos. Offensichtlich hat es in E-Commerce-Szenarien so viel gesehen und von den Daten von Taobao und Tmall genug gefüttert bekommen, sodass es diese Aufgabe besonders gut macht.

Aber bei anderen Arten von Aufgaben ist die Erfolgsrate weniger stabil. Wenn Ihre Anforderungen genau in seiner Komfortzone liegen, ist das Erlebnis tatsächlich besser. Wenn sie dagegen abweichen, müssen Sie möglicherweise mehrere Male die Hinweissätze anpassen.

Ich habe auch speziell einen komplexeren Interaktionsfall getestet: Ein Ballon-Spiel mit Bewegungskontrolle über die Kamera, ein klassisches Demo, das auch von Gemini 3 gezeigt wurde. Die genauen Anforderungen waren: Mit Gesten den Visierpunkt auf dem Bildschirm steuern, eine Kneifbewegung (Daumen und Zeigefinger zusammen) ausführen, um die von unten nach oben schwebenden Ballons zu schießen, und es sollten Details wie ein Himmelshintergrund, wandernde Wolken, Treffereffekte und Kombinationsrückmeldungen vorhanden sein.

Die Leistung von Qianwen hat mich etwas überrascht. Das gesamte Gerüst des Spiels hat es in einem Zug erstellt: Ein sich verändernder Himmelshintergrund, Ballons, die von unten entstehen und nach oben schweben, verschiedene Größen und Geschwindigkeiten, sowie die Anzeige von Punkten und Kombinationszahlen auf der Benutzeroberfläche. Diese Grundlogik ist in Ordnung.

Die Interaktionseffekte sind ziemlich interessant. Wenn Sie den Zeigefinger ausstrecken, bewegt sich der Visierpunkt auf dem Bildschirm mit der Hand mit, und wenn Sie Daumen und Zeigefinger zusammen drücken, kann es feuern. Im Moment, in dem ein Ballon getroffen wird, vibriert der Bildschirm leicht, wenn der Ballon platzt, gibt es eine Partikeleffekt, und es gibt auch ein "Popping"-Soundeffekt. Die Rückmeldung ist sehr stark. Bei aufeinanderfolgenden Treffern wird die Combo-Zahl angezeigt. Diese sofortige Rückmeldung vermittelt wirklich eine Immersion.

Aber beim eigentlichen Spielen gibt es ein offensichtliches Problem: Es ist schwer zu zielen. Obwohl der Finger genau auf einen Ballon gerichtet ist, ist der Visierpunkt immer versetzt, und es braucht mehrere Schüsse, um zufällig einen Treffer zu erzielen. Dies liegt wahrscheinlich an einer Abweichung zwischen der Handverfolgung und der Abbildung auf die Bildschirmkoordinaten oder an einer ungenauen Kalibrierungsalgorithmus. Obwohl Qwen den gesamten Prozess der Bewegungskontrolle realisiert hat: Die Kameraaufnahme, die Gestenerkennung und die Schussrückmeldung funktionieren alle, aber die Kernfunktion der Genauigkeit "wo man zeigt, da trifft man" ist nicht gut genug, sodass das Spielvergnügen leidet.

Das beeindruckendste an Qianwen bei diesem Mal ist nicht die Größe der Parameter, sondern die Art, wie es "denkt". Bei der wichtigen Verbesserung der Modellinferenzfähigkeit hat das neue Qianwen-Modell einen völlig neuen Mechanismus der Testzeit-Skalierung (Test-time Scaling) eingesetzt, der die Inferenzleistung verbessert und gleichzeitig kostengünstiger ist.

Nehmen wir als Beispiel, wie die alte KI Mathematikaufgaben löst: Sie schreibt gleichzeitig 10 Antworten und wählt dann diejenige aus, die am häufigsten als richtig bewertet wird. Diese Methode ist dumm, verschwendet Rechenleistung und es kann sein, dass alle 10 Antworten denselben Fehler machen.

Qwen3 hat es in die Art von Menschen umgewandelt: Zuerst macht es die Aufgabe einmal, schaut dann, was nicht stimmt, zieht Erfahrungen daraus und macht es dann nochmal. Genau wie beim Anlegen eines Fehlerheftes wird es beim zweiten Mal definitiv besser sein. Das Ergebnis ist, dass Qwen in dem Test, der die Lösung von Problemen mit Werkzeugen erfordert, 58,3 Punkte erzielt hat, während Gemini nur 45,8 Punkte erreicht hat, ein großer Unterschied.

Bei der Verwendung von Werkzeugen hat Qianwen die Fähigkeit zur Werkzeugnutzung in das Modell "eingetragen". Nach der ersten Feinabstimmung der Werkzeugnutzung hat das Tongyi-Team das Modell weiter auf einer großen Anzahl von vielfältigen Aufgaben einer kombinierten Verstärkungslernausbildung basierend auf Regellohn und Modelllohn unterzogen, sodass Qwen3-Max-Thinking eine intelligentere Fähigkeit zur Kombination von Werkzeugen beim Denken hat.

Es nutzt eine dreistufige Trainingsmethode: Zuerst lernt es, Werkzeuge zu nutzen, dann trainiert es sich in verschiedenen Aufgaben und schließlich entwickelt es eine bedingte Reflex. Die Vorteile sind offensichtlich: Es ist schnell und reibungslos in der Anwendung, es muss nicht jedes Mal die Anleitung des Werkzeugs lesen, und das Modell weiß selbst, wann welches Werkzeug eingesetzt werden soll. Das ist der Grund, warum Qwen in dem HLE-Test um 12 Punkte besser als Gemini abschneidet, insbesondere wenn es darum geht, komplexe Probleme mit mehreren Werkzeugen nacheinander zu lösen, zeigt sich dieser Vorteil der "Muskelgedächtnis".

Im Vergleich dazu geht Gemini den Weg der traditionellen Softwareentwicklung: Das Modell ist nur dafür verantwortlich, zu verstehen, was Sie tun möchten, und die konkrete Nutzung von Werkzeugen erfolgt über ein externes API-Framework. Der größte Vorteil davon ist die Flexibilität: Google kann die Einkaufsfunktion von Walmart hinzufügen, ohne das Modell neu zu trainieren, es braucht nur ein API einzufügen. Aber der Preis dafür ist, dass jedes Mal, wenn ein Werkzeug genutzt wird, der gesamte Prozess "Absicht verstehen - in API-Aufruf übersetzen - ausführen - Ergebnis analysieren" durchlaufen werden muss, was langsam und fehleranfällig ist.

Die Codegenerierungsfähigkeit von Qianwen hat die Stufe eines einfachen "Syntaxübersetzers" überschritten und ist eher wie ein technischer Partner, der Ihre Absichten versteht. Es kann nicht nur Anforderungen in ausführbaren Code umwandeln, sondern hat auch technisches Intuition: Es weiß, wann die Leistung optimiert werden soll, wann die Implementierung vereinfacht werden soll und wann eine Fehlertoleranzmechanismus hinzugefügt werden soll.

Das richtige Maß in der Handhabung ist genau der entscheidende Sprung, den KI von einem "Werkzeug" zu einem "Kollegen" macht.

Dieser Artikel stammt aus dem WeChat-Account "Silicon Star People Pro", Autor: Yoky, veröffentlicht von 36Kr mit Genehmigung.