StartseiteArtikel

Gerade eben wurde Musk's Grok 4.1 diskret veröffentlicht. Seine allgemeinen Fähigkeiten übertreffen alle anderen Modelle.

机器之心2025-11-18 08:10
Diesmal hebt auch Grok 4.1 die emotionale Interaktion hervor.

Fast ohne Vorwarnung hat die KI - Firma von Elon Musk, xAI, das neueste Modell Grok 4.1 veröffentlicht.

Gerade eben hat xAI angekündigt, dass Grok 4.1 für alle Benutzer zugänglich ist und auf der Grok - Homepage, auf X sowie in den iOS - und Android - Apps genutzt werden kann.

Grok 4.1 wird sofort im Auto - Modus gepusht und kann im Modellauswahlmenü manuell ausgewählt werden.

Diesmal bringt Grok 4.1 eine deutliche Verbesserung in der Eignung für die reale Welt, insbesondere in Bezug auf Kreativität, emotionale Interaktion und kollaborative Kommunikation. Grok 4.1 ist besser in der Wahrnehmung feiner Absichten, führt interessantere Gespräche mit Benutzern und hat eine kohärentere Persönlichkeit, während es gleichzeitig die starke Intelligenz und Zuverlässigkeit der Vorgängermodelle vollständig beibehält.

Elon Musk beworbt auf X sein eigenes Modell.

Um diese Verbesserungen zu erreichen, hat xAI das Modell in Bezug auf Stil, Persönlichkeit, Hilfsbereitschaft und Ausrichtung auf der gleichen Infrastruktur für maschinelles Lernen im großen Maßstab optimiert, die auch Grok 4 unterstützt. Darüber hinaus hat xAI eine neue Methode entwickelt, um die nicht direkt überprüfbaren Belohnungssignale zu optimieren. Diese Methode nutzt fortschrittliche Agenten - basierte Inferenzmodelle als Belohnungsmodell, um Ergebnisse im großen Maßstab autonom zu bewerten und zu verbessern.

Im Vergleich zu den früheren Online - Produktionsmodellen wird Grok 4.1 in 64,78 % der Fälle von Benutzern bevorzugt, wenn es um die Bewertung geht.

Als nächstes betrachten wir die Fähigkeiten von Grok 4.1.

Stand der Technik in allgemeinen Fähigkeiten

Grok 4.1 hat in der unvoreingenommenen menschlichen Präferenzbewertung einen neuen Standard gesetzt.

Auf der Text Arena - Rangliste von LMArena führt das Inferenzmodus (Codename: quasarflux) von Grok 4.1 mit 1483 Elo - Punkten die Gesamtrangliste an und liegt 31 Punkte vor dem besten Nicht - xAI - Modell.

Das Nicht - Inferenzmodus (Codename: tensor) von Grok 4.1 reagiert sofort ohne die Verwendung von Gedanken - Token und belegt auf der Rangliste mit 1465 Elo - Punkten den zweiten Platz. Selbst ohne die Aktivierung der Inferenzleistung übertrifft Grok 4.1 die Leistung aller anderen Modelle mit voll aktivierter Inferenzkonfiguration.

Im Vergleich zu Grok 4 hat Grok 4.1 eine erhebliche Verbesserung erzielt. Letzteres belegte zuvor nur den 33. Platz in der Gesamtrangliste.

Emotionale Intelligenz

Um den Fortschritt des Modells in Bezug auf Persönlichkeit und Fähigkeiten in der menschlichen Interaktion zu bewerten, hat xAI Grok 4.1 im EQ - Bench3 getestet.

EQ - Bench ist ein von großen Sprachmodellen bewerteter Test, um die aktive emotionale Intelligenz zu bewerten, einschließlich emotionalem Verständnis, Einsicht, Empathie und kommunikativen Fähigkeiten. Der Testdatensatz umfasst 45 herausfordernde Rollenspielszenarien, von denen die meisten aus drei vorab geschriebenen Dialogaufforderungen bestehen. Dieser Benchmark validiert die Qualität der Modellantworten anhand mehrerer Kriterien, um die Modellleistung zu bewerten. Darüber hinaus berechnet er für jedes Modell in der Rangliste einen normalisierten Elo - Punktwert durch paarweise Vergleiche.

xAI führt die Tests mit dem offiziellen Benchmark - Repository durch und berichtet über die Bewertungsregeln (Rubrikpunktzahl) und den normalisierten Elo - Punktwert. Alle Punktzahlen werden unter Einhaltung der Benchmark - Anforderungen berechnet: Verwendung der Standard - Samplingparameter, des angegebenen Bewertungsmodells (Claude Sonnet 3.7) und ohne Hinzufügen eines System - Prompts.

Die Ergebnisse zeigen, dass das Inferenzmodus und das Nicht - Inferenzmodus von Grok 4.1 die ersten beiden Plätze in der Liste belegen.

Das folgende Beispiel zeigt, wie Grok 4.1 auf emotionale Aufforderungen reagiert:

Kreatives Schreiben

xAI hat auch die Leistung der 4.1 - Serie Modelle im Creative Writing v3 - Benchmark getestet.

In diesem Benchmark muss das Modell auf 32 verschiedene Schreibaufforderungen antworten und 3 Iterationen durchführen. Ähnlich wie beim EQ - Bench wird die Bewertung sowohl anhand von Bewertungsregeln (Rubriken) als auch anhand des normalisierten Elo - Punktwerts aus Modellduellen berechnet.

Die Ergebnisse zeigen, dass das Inferenzmodus und das Nicht - Inferenzmodus von Grok 4.1 den zweiten und dritten Platz im Benchmark einnehmen, nur hinter dem frühen GPT 5.1.

Das folgende Beispiel zeigt, wie Grok 4.1 auf kreative Schreibaufforderungen antwortet:

Reduzierung von Halluzinationen

Fast - Modelle (Nicht - Inferenz) mit Suchwerkzeugen können sofortige Antworten liefern, aber aufgrund der begrenzten Inferenztiefe und der begrenzten Anzahl der Werkzeugaufrufe sind sie anfälliger für Tatsachenfehler.

Während des Nach - Trainings von Grok 4.1 hat xAI die Tatsachenhalluzinationen bei Informationsabfrageaufforderungen reduziert. Anschließend hat xAI in einer Stichprobe von Produktionsumgebungs - Informationsabfrageaufforderungen einen deutlichen Rückgang der Halluzinationsrate beobachtet.

xAI nutzt echte Informationsabfrageanforderungen aus dem Produktionsfluss, um die Modellhalluzinationsrate anhand von geschichteten Stichproben nach Kategorien zu bewerten. Gleichzeitig wird auch der FActScore - ein öffentlicher Benchmark mit 500 biografischen Fragen zu verschiedenen Personen - bewertet.

Weitere technische Details zu Grok 4.1 finden Sie auf der Modellkarte:

Link zur Modellkarte: https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf

Offizieller Blog: https://x.ai/news/grok-4-1#silent-rollout-november-114-2025

Dieser Artikel stammt aus dem WeChat - Account "Machine Intelligence", Verfasser: Redaktion von Machine Intelligence. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.