Gerade hat Musk Grok 4 veröffentlicht, das nun an erster Stelle in allen Listen steht, und die Jahresgebühr ist auf über 20.000 gestiegen.
Alle Fachbereiche erreichen das Niveau eines Postdocs.
Das langersehntes nächste große Modell von xAI, Grok 4, ist endlich veröffentlicht! Seine Fähigkeiten übertreffen unsere Vorstellungen.
Um etwa 12 Uhr mittags Beijing-Zeit heute hat endlich die von uns lange erwartete xAI-Presskonferenz begonnen. Elon Musk ist im Livestream aufgetaucht und hat direkt mit den Worten begonnen: „Dies ist die beste KI der Welt. Lasst uns das zeigen.“
Musk hat angegeben, dass Grok 4 bei jeder SAT-Prüfung (amerikanisches Hochschulzugangstest) volle Punktzahl erzielt, ohne die Fragen im Voraus zu kennen. Es kann auch in jeder Disziplin des GRE nahezu volle Punktzahl erreichen, was das Niveau aller Graduierten auf der Welt übertrifft. Die stärkste Eigenschaft von Grok 4 ist seine logische Schlussfolgerungsfähigkeit, die bereits das menschliche Niveau übersteigt.
Musk ist überzeugt, dass Grok 4 innerhalb dieses Jahres neue wissenschaftliche Entdeckungen vornehmen kann.
Dank der verbesserten Rechenleistung und der Trainingstechniken des verstärkten Lernens hat sich die logische Schlussfolgerungsfähigkeit von Grok 4 im Vergleich zu seiner Vorgängerversion um das 10-fache verbessert. Von Grok 2 bis Grok 4 wurden verschiedene technische Paradigmen eingesetzt, nämlich die Vorhersage des nächsten Tokens, die Vorhersageberechnung, das Vorhersage + RL und die RL-Berechnung.
Dabei hat sich die Rechenmenge in der Vorhersagephase von Grok 2 bis Grok 3 um das 10-fache erhöht. Bei Grok 3 reasoning wurde erstmals die RL-Feinabstimmung eingeführt, was eine tiefgreifende logische Schlussfolgerungsfähigkeit mit sich brachte. Die verstärkte Lernphase von Grok 4 reasoning hat die Rechenmenge erneut um das 10-fache erhöht, was eine deutliche Verbesserung der logischen Schlussfolgerungsfähigkeit bedeutet.
Darüber hinaus hat die verbesserte Fähigkeit, Tools aufzurufen, die Intelligenz von Grok 4 noch weiter verstärkt. Somit kann es in verschiedenen anspruchsvollen Benchmarks-Ergebnissen weit über den aktuellen Stand der Technik (SOTA) liegen.
Als Nächstes kommen die Hauptakte: Die Benchmark-Ergebnisse von Grok 4.
Zunächst ist es der HLE (Humanities Last Exam, der letzte menschliche Test), der Mathematik, Chemie und Logik umfasst. In den am vergangenen Samstag geleakten Benchmark-Ergebnissen erreichte Grok 4 bei der HLE (Humanities Last Exam, der letzte menschliche Test) einen Standardwert von 35 %, der nach der Anwendung der logischen Schlussfolgerungstechnik auf 45 % stieg. Dennoch äußerten sich viele Internetnutzer skeptisch.
Im heutigen Livestream haben die xAI-Forscher angegeben, dass die bisherigen SOTA-Modelle bei der Verwendung von Tools (with tool) maximal 41,0 % erreichen konnten.
Heute hat Grok 4 diese Benchmark-Ergebnisse noch weiter verbessert.
Genauer gesagt, im Vergleich zu anderen SOTA-Modellen (o3, Gemini 2.5 Pro) erreichte Grok 4 bei der Verwendung von Tools 38,6 %, während Grok 4 Heavy auf 44,4 % sprang. Wenn man dem großen Modell mehr Zeit zum Nachdenken gibt und mehr externe Tools angemessen einsetzt, kann die HLE-Zahl sogar auf 50,7 % steigen.
Bezüglich anderer Benchmark-Ergebnisse, einschließlich GPQA (Graduate-level Google-verifizierter Fragen-Antwort-Benchmark), AIME25 (American Invitational Mathematics Examination), LCB (Januar - Mai) (Programmierwettbewerb / Online-Algorithmuswettbewerb), HMMT25 (High School Mathematical Tournament) und USAMO25 (United States of America Mathematical Olympiad). Wie aus dem folgenden Bild zu sehen ist, hat Grok 4 Heavy in allen diesen Tests den neuesten Stand der Technik erreicht.
Im Vergleich dazu kann der Mensch bei der HLE-Test kaum einige Fragen beantworten. Musk hat mehrmals betont: Grok hat jetzt in allen Fachbereichen das Niveau eines Postdocs erreicht, ohne Ausnahme. Es hat noch keine neuen wissenschaftlichen Entdeckungen oder neuen physikalischen Gesetze gefunden, aber das ist nur eine Frage der Zeit.
„Ich würde sehr überrascht sein, wenn Grok innerhalb dieses Jahres keine praktischen neuen wissenschaftlichen Technologien findet“, so Musk.
Die umfassenden Benchmark-Ergebnisse der Plattform Artificial Analysis zur Leistungsevaluation von großen Modellen zeigen, dass Grok 4 jetzt das führende KI-Modell ist, mit einer Gesamtscore von 73 Punkten, was es vor o3, Gemini 2.5 Pro, Claude 4 Opus und DeepSeek R1 0528 platziert.
Stellen Sie sich vor, wo wir uns jetzt befinden. Wir befinden uns in einem Zustand des intelligenten Entwicklungsexplosions, wie es in der menschlichen Geschichte noch nie zuvor gegeben hat. Es ist an der Zeit, zu sehen, was Grok 4 konkret können kann.
Schauen wir uns ein oder zwei Demos an, wie etwa „Eine HTML-Animation basierend auf physikalischen Prinzipien, die die Kollision zweier Schwarzen Löcher und die daraus resultierenden Gravitationswellen in einer 30-sekündigen Visualisierung simuliert“:
Grok 4 hat fast vollständig die Simulation der Gravitationswellen von der Annäherung der beiden Schwarzen Löcher bis zu ihrer endgültigen Verschmelzung wiedergegeben. Auf der einen Seite des Animationsbildes sind der logische Schlussfolgerungsprozess, die Rechenschritte und der Code dargestellt. Jede konsultierte Studie hat einen Link.
Die Alleskönner-Eigenschaft von Grok 4 ist noch stärker geworden
Abgesehen von der Verbesserung der Ergebnisse in den verschiedenen Sprachbenchmarks hat sich Grok 4 auch in anderen Bereichen verbessert.
Dabei hat sich die Sprachfähigkeit von Grok 4 im Vergleich zu seiner Vorgängerversion um das 2-fache beschleunigt, die End-to-End-Latenz ist niedriger; es werden 5 Sprachen unterstützt; die Gesamtaufenthaltsdauer der Benutzer pro Tag hat sich um das 10-fache erhöht.
Die neuen Grok-Rollen Eve und Sal sind jetzt in der iOS-Version von Grok verfügbar. Sal unterstützt verschiedene Persönlichkeiten, Eve kann singen und flüstern.
Im ARC-AGI-Benchmark-Set, das speziell für die Bewertung der allgemeinen logischen Schlussfolgerungsfähigkeit von KI-Systemen entwickelt wurde und als wichtiger Meilenstein auf dem Weg zur AGI gilt, soll überprüft werden, ob das Modell in der Lage ist, neue, nie zuvor gesehenen Probleme so flexibel zu lösen wie der Mensch.
In diesem extrem anspruchsvollen Benchmark, der auf die Kernfähigkeit der AGI abzielt, hat Grok 4 ebenfalls den neuesten Stand der Technik erreicht. Dabei hat es in ARC-AGI-2 15,9 % erreicht, was fast das Doppelte des bisherigen kommerziellen Standes der Technik ist und den aktuellen Stand der Kaggle-Wettbewerbe übertrifft.
Im Vending-Benchmark, der sich auf die Bewertung der Fähigkeit eines Agenten, komplexe Handlungseinsätze in der realen physischen Welt auszuführen, konzentriert, ist das Hauptziel, die „Sim2Real-Lücke“ zwischen traditionellen Simulationsumgebungen (wie Habitat, AI2-THOR) und der realen Welt zu überbrücken und die praktische Anwendungsfähigkeit der Robotik in offenen Szenarien zu fördern.
Man kann sehen, dass Grok 4 im Vergleich zu Claude Opus 4, Human, Gemini 2.5 Pro und o3 führend liegt.
Grok 4 kann über die API aufgerufen werden und bietet ein Kontextfenster von 256K Tokens. Es ist derzeit bereits verfügbar, die Versionsnummer ist grok-4-0709, und der Preis ist der gleiche wie für Grok 3.