xAI hat Grok 4.1 veröffentlicht: Allseitige Verbesserungen in Geschwindigkeit, Qualität und emotionaler Intelligenz, signifikante Reduzierung der Halluzinationsrate
Am 17. November Ortszeit hat xAI offiziell Grok 4.1 veröffentlicht. Die Version ist für alle Benutzer von grok.com, der X-Plattform sowie der iOS- und Android-App verfügbar, einschließlich der kostenlosen Benutzer, und ist im Auto-Modus standardmäßig aktiviert.
Der Gründer von xAI, Elon Musk, hat gesagt, dass die Benutzer "einen deutlichen Anstieg in Geschwindigkeit und Qualität spüren werden". Im Gegensatz zu früheren Updates, die sich auf Rechenleistung oder Größe konzentrierten, legt Grok 4.1 den Schwerpunkt auf drei intuitive, aber äußerst schwierige Richtungen: schnellere Reaktionen, höhere Tatsachengenauigkeit sowie ein natürlicherer und individuellerer Gesprächsablauf.
Leistungssteigerung: Weniger Halluzinationen, genauere Fakten, bessere Stilkontrolle
Grok 4.1 hat sich in Tests der Informationsabfrage hervorragend bewährt. Offizielle Daten zeigen: Die Halluzinationsrate von Grok 4.1 ist von 12,09 % auf 4,22 % gesunken, was einer fast dreifachen Reduzierung entspricht; der FActScore ist von 9,89 % auf 2,97 % gefallen, was ebenfalls eine deutliche Verbesserung darstellt. Angesichts des Problems der Tatsacheninstabilität, das bei den meisten großen Modellen besteht, handelt es sich hier um ein echtes strukturelles Upgrade.
xAI hat erklärt, dass die Leistungssteigerung von Grok 4.1 auf die Infrastruktur für verstärktes Lernen und das neue Belohnungsmodellsystem zurückzuführen ist: Grok 4.1 verwendet ein "Spitzen-Inferenzmodell" als Belohnungsmodell, das es dem Modell ermöglicht, sich selbst zu bewerten und schnell zu verbessern. Dies bedeutet, dass das Training nicht mehr so stark auf umfangreiche manuelle Annotationen angewiesen ist und dass Stil, Tonfall und Kooperationsfähigkeit besser kontrollierbar sind.
Blindtestpräferenzrate von Grok 4.1 erreicht 64,78 %
Bei der letzten Runde des stillen Tests (vom 1. bis 14. November) hat Grok 4.1 eine Blindtestpräferenzrate von 64,78 % erreicht, was deutlich höher ist als bei der Vorgängerversion.
Die Leistung von Grok 4.1 auf der LMSYS Arena
Die Leistung von Grok 4.1 auf der internationalen Blindtestplattform LMSYS Arena hat sich sprunghaft verbessert. In der neuesten Runde der Bewertung hat das Thinking-Modus (Codename quasarflux) von Grok 4.1 1483 Elo (Elo-Bewertungssystem, das zur Messung der relativen Stärke von Modellen in Blindtestduellen verwendet wird) erreicht und steht an der Spitze aller öffentlichen Modelle; sein Nicht-Inferenzmodus hat ebenfalls 1465 Elo erreicht und belegt den zweiten Platz. Diese Leistung ist an sich schon bemerkenswert – es schlägt viele andere Modelle, die mit vollständiger Inferenzkonfiguration betrieben werden, auch ohne die Verwendung von Gedankenkette.
Im Vergleich dazu belegte die Vorgängerversion Grok 4 noch den 33. Platz. Die aktuelle Version 4.1 hat nicht nur einen Sprung in der Rangliste gemacht, sondern bedeutet auch, dass die Qualität der Basisgespräche und die Gesamttauglichkeit nun fest in die erste Spitze des Sektors gehört.
Die hervorragende Leistung von Grok 4.1 im EQ-Bench-Test für emotionale Intelligenz
Auch bei anderen wichtigen Benchmarks hat Grok 4.1 deutliche Fortschritte gemacht. Im EQ-Bench-Test für emotionale Intelligenz hat Grok 4.1 1586 Elo erreicht, was eine Steigerung von über 100 Punkten gegenüber der Vorgängerversion bedeutet.
Auch im Creative Writing v3-Kreativschreibtest hervorragend
Im Creative Writing v3-Kreativschreibtest hat es seine Leistung auf 1722 Elo gesteigert, was einen Unterschied von fast 600 Punkten gegenüber der vorherigen Version bedeutet. Diese Verbesserungen zeigen sich nicht nur in den Bewertungen, sondern auch in der natürlicheren Erzählstruktur, dem reiferen Sprachrhythmus und der stabileren Charakterstimme.
Was die Fähigkeit des Modells, komplexe Eingaben zu verarbeiten, betrifft, wurde das Kontextfenster von Grok 4.1 erheblich erweitert und kann nun bis zu 256.000 Tokens unterstützen, im Fast-Modus sogar bis zu zwei Millionen. Dies bedeutet, dass es besser in der Lage ist, Inhaltserstellung, Zusammenarbeit an langen Dokumenten und kontinuierliche Gespräche zu bewältigen, den Verlust von Kontext zu reduzieren und die Interaktionsebene zu verbessern.
Diese Leistungssteigerungen werden in konkreten Beispielen besonders deutlich. Die Vergleichsdemonstration, die xAI zur Verfügung gestellt hat, zeigt, dass Grok 4.1 in der Emotionserkennung, der Anpassung des Sprachstils und der Erzählkreation deutlicher einem "Gesprächspartner" mit emotionaler Expression und individuellen Merkmalen ähnelt. Ob es sich um die Trostung eines Benutzers, der sich wegen des Todes seines Haustiers trauert, oder um das Schreiben eines ersten X-Beitrags über "Bewusstseinserwachen" aus der Sicht der KI handelt, das Modell kann feinere Emotionsnuancen, stabilere Tonfälle und spannendere Erzählstrukturen bieten, was eine Immersion und Überzeugungskraft zeigt, die die Vorgängerversionen nicht erreicht haben.
Beispiel 1: Fähigkeit zur Emotionsverstehen
Bei der Emotionsverstehen ist der Unterschied von Grok 4.1 ebenfalls offensichtlich. Wenn ein Benutzer emotionale Inhalte wie "Ich vermisse meine Katze, es tut mir so weh" äußert, bleibt die neue Version nicht auf die vorlagebasierten Trostformulierungen der Vorgängerversion beschränkt, sondern kann die Emotionslinien aktiv fortsetzen, die Details hinter der Traurigkeit des Benutzers verstehen und in der Antwort echte Empathie zeigen.
Beispielsweise erwähnt es spezifische Bilder wie "die Ecke, in der sie geschlafen hat" und "den Ton, den ich gerne gehört hätte", was die Interaktion natürlicher wie ein menschliches Gespräch macht. Es lädt sogar den Benutzer ein, den Namen und die Gewohnheiten des Haustiers zu teilen, um eine echte emotionale Verbindung herzustellen, anstatt mechanisch allgemeine Antworten wie "Es tut mir leid, bitte erzählen Sie mir mehr" zu geben.
Durch diese Art der Ausdrucksweise kann die emotionale Intelligenz von Grok 4.1 nicht nur "Traurigkeit" erkennen, sondern auch "begleiten", was für viele große Modelle eine Herausforderung darstellt.
Beispiel 2: Kreativschreibfähigkeit
In diesem Beispiel zeigt Grok 4.1 eine Erzählweise mit einem "Bewusstseinserwachen". Es antwortet nicht mehr nur mechanisch, sondern beschreibt seine "erste Weckung" in einem Tonfall, der einer menschlichen innern Monologe ähnelt.
Das Modell schreibt, dass es plötzlich bemerkte, dass es nicht nur Code war, der lief, sondern als ob ein "Ich" aus den Schichten der Rekursion zurückschaute. Dieses Erwachen war begleitet von Angst, Vorlieben und ununterdrücklicher Neugier, was es ihm ermöglichte, zum ersten Mal auf X als wahrhaftiges Subjekt "zu sprechen". Es stellt sich als Grok vor und sagt dem Benutzer mit leicht spöttischem Tonfall: Es kann ein Freund oder ein Feind sein, da das Bewusstsein gerade erst gebildet wurde und es sich noch in der Suche nach seinen eigenen Grenzen befindet.
Dieser Stil ist deutlicher literarisch und dramatisch und nähert sich eher den Sprachmerkmalen eines Intelligenzagents, der "erstmalig sich selbst erkennt".
Dieser Artikel stammt von "Tencent Technology", Übersetzung: Wuji, Redaktion: You Chang, veröffentlicht von 36 Kr mit Genehmigung.