StartseiteArtikel

Die erstaunlichen Testleistungen von Musk's Grok 4 sind preisgegeben worden. Bei der sogenannten "letzten Prüfung für die Menschheit" hat es beeindruckenderweise 45 % erreicht und sich den ersten Platz in der gesamten Gruppe sichergestellt.

新智元2025-07-07 11:04
Mit OpenAI, Gemini und Claude bin ich total verwirrt!

Die Benchmark-Ergebnisse von Grok 4 sind vorzeitig preisgegeben worden. Es hat in der "letzten menschlichen Prüfung" eine Punktzahl von 45 % erreicht, weit überlegen gegenüber Gemini und Claude, und ist damit einer der stärksten Modelle in den aktuellen Tests. Elon Musk hat erklärt, dass Grok 4 einen Inferenzmechanismus auf der Grundlage des "Prinzip der Ersten Gründe" aufgebaut hat. Grok 4 hat das Potenzial, die Landschaft der Large Language Models (LLMs) zu verändern.

Grok 4 kommt bald, so hat Musk gesagt!

Sogar das derzeit eingesetzte Grok hat bereits eine deutliche Verbesserung in seiner Leistung gezeigt.

Zur gleichen Zeit hat ein Screenshot eines Nutzers namens LEGIT die Benchmark-Ergebnisse von Grok 4 und Grok 4 Code in mehreren wichtigen Tests preisgegeben.

Diese Nachricht wurde inzwischen von Tibor Blaho, einem bekannten Experten aus der AI-Szene, bestätigt.

Laut den preisgegebenen Daten hat Grok 4 in den Tests GPQA, AIME 25 und SWE-bench einen "deutlichen Vorsprung" und hat Google Gemini 2.5 Pro, OpenAI o3 und Claude 4 Opus umfassend geschlagen.

GPQA (Graduate-Level Physics and Astronomy Questions): Grok 4 hat eine Punktzahl von 87 - 88 % erreicht, etwas besser als Gemini 2.5 Pro mit 86.4 % und deutlich besser als Claude 4 Opus mit 79.6 %.

AIME 25 (American Invitational Mathematics Examination 2025): Grok 4 hat eine Punktzahl von 95 % erreicht, weit überlegen gegenüber Claude 4 Opus mit 75.5 % und besser als OpenAI o3 mit 88.9 %.

SWE-bench (Real-World Software Engineering Questions): Grok 4 Code hat eine Punktzahl von 72 - 75 % erreicht, etwas besser als Claude Opus 4 mit 72.5 % und etwas höher als OpenAI o3 mit 71.7 %.

Darüber hinaus hat Grok 4 in der "letzten menschlichen Prüfung" (Human Last Exam, HLE), einem umfassenden und schwierigen akademischen Test, eine erstaunliche Punktzahl von standardmäßig 35 % und maximal 45 % erreicht.

Das bedeutet, dass Grok 4 im besten Fall zweimal so viele Punkte wie das derzeitige führende Modell, Gemini 2.5 Pro, erzielt hat - einen Vorsprung von ganzen 24 Prozentpunkten.

Im Vergleich zu Claude 4 Opus, das nur 10.7 % richtig beantwortet hat, hat Grok 4 seine Punktzahl mehr als vervierfacht.

Die HLE ist ein extrem schwieriger Test, der speziell entwickelt wurde, um die Leistung von LLMs zu prüfen:

Es gibt 2.500 Expertenfragen aus über 100 verschiedenen Disziplinen.

14 % der Fragen sind multimodale Fragen (Text + Bild).

24 % der Fragen sind Multiple-Choice-Fragen.

Es gibt Memory-Traps und versteckte Testsets, um "trickreiche Trainingstechniken" zu verhindern.

Die folgende Abbildung ist eine hochrangige Visualisierung der enthaltenen Kenntnisse, wobei jede Kategorie viele spezifische Disziplinen umfasst.

Projekt-Website: https://lastexam.ai/

Es ist bekannt, dass die meisten fortschrittlichen Modelle diese Punktzahl nicht erreichen können.

Wenn die preisgegebenen Daten zutreffen, hat Grok 4 eine der schwierigsten Prüfungen im Bereich der AI-Benchmarks bestanden.

Aufgrund seiner außergewöhnlich hohen Punktzahl in der HLE hat die Veröffentlichung von Grok 4 erneut eine breite Diskussion in der Community ausgelöst.

Ja, wenn die Daten zutreffen, bedeutet dies, dass das Modell ein extrem starkes Weltwissen besitzt.

Nachdem die Nutzer von der Stärke von Grok 4 erfahren haben, können sie es kaum erwarten, dass es veröffentlicht wird und haben online dringend danach gefragt:

Die Quellcode von Grok 4 sind preisgegeben worden

Die Erwartungen an Grok 4 sind extrem hoch.

Elon Musk hat in einem früheren Interview erwähnt, dass

Grok 3.5 versucht, von den ersten Prinzipien aus zu schließen, d. h., es wendet die Methoden der Physik auf den Denkprozess an.

Grok - 3.5 ist jetzt Grok 4. Musk hat beschlossen, direkt von Grok - 3 zu Grok 4 zu springen, anstatt langsam voranzuschreiten.

Das scheint darauf zu hindeuten, dass Grok 4 eine enorme Leistungssteigerung erzielen wird!

Vor ein paar Tagen hat jemand auf X festgestellt, dass zwei Grok 4 - Modelle, Grok 4 und Grok 4 Code, im Quellcode der xAI - Konsole gefunden wurden.

Grok 4:

Das neueste und beste Flaggschiffmodell, das in den Bereichen natürliche Sprache, Mathematik und Inferenz eine beispiellose Leistung zeigt und somit die perfekte Wahl für alle Anwendungen ist.

Grok 4 Code:

Ein speziell für Programmierpartner entwickeltes Modell. Man kann es um Hilfe bei Code - verwandten Fragen bitten oder es direkt in den Code - Editor einbinden.

Es gibt auch Skeptiker

Natürlich gibt es auch Leute, die von der früheren Überhöhung von Grok 3 "enttäuscht" wurden.

Dan Hendrycks, der Schöpfer der HLE, ist ein enger Berater von xAI (im Vergleich zu anderen Labors).

Die Nutzer möchten wissen, ob Dan Hendrycks nur Sicherheitsberatungen erteilt hat oder ob er auf irgendeine Weise konkrete Forschungsvorschläge zur Verbesserung der wissenschaftlichen Kenntnisse gegeben hat.

Das lässt an die frühere Fehlleistung von Llama 4 denken, die ebenfalls auf "zielgerichtetes Training" zurückzuführen war.

Elon Musk beworben Grok 4 persönlich

Elon Musk hat am 27. Juni in einem Beitrag geschrieben, dass er und sein Team hart an der Entwicklung von Grok arbeiten.

Grok 4 wird nach dem 4. Juli veröffentlicht. Gemäß der östlichen US - Zeit kann es jederzeit veröffentlicht werden, beginnend von heute.

Musk hat besonders betont, dass ein großes Training erforderlich war, um ein "besonderes" Codierungsmodell zu entwickeln.

Auf der Microsoft Build 2025 - Konferenz am 20. Mai hat Musk erklärt, dass Grok 3.5 (Grok 4) von den ersten Prinzipien aus entwickelt wird.

Elon Musk:

Insbesondere in dem bevorstehenden Grok 3.5 möchten wir, dass das Modell von den ersten Prinzipien aus schließt.

Das bedeutet, wie ein Physiker zu denken und die Werkzeuge der Physik anzuwenden, um Probleme zu analysieren.

Wenn Sie die wahre Natur einer Sache verstehen möchten, müssen Sie das Problem in die grundlegendsten und wahrscheinlichsten Axiome zerlegen und dann von diesen Grundlagen aus nach oben schließen.

Dann können Sie die endgültige Schlussfolgerung mit diesen Grundprinzipien vergleichen. In der Physik, wenn Ihr Ergebnis das Energieerhaltungsprinzip oder das Impulserhaltungsprinzip verletzt, haben Sie entweder eine Nobelpreisfähige neue Theorie entdeckt oder - wahrscheinlicher - Sie haben etwas falsch gemacht.

Unser Hauptziel bei der Entwicklung von Grok 3.5 ist es, die grundlegenden Prinzipien der Physik als Leitfaden zu verwenden und diese Methoden auf verschiedene Probleme anzuwenden, um mit minimalen Fehlern der Wahrheit möglichst nahe zu kommen.

Natürlich ist es unvermeidlich, dass Fehler auftreten, aber unser Ziel ist es, diese Fehler kontinuierlich zu reduzieren. Dieser Ansatz ist für die Sicherheit von KI von entscheidender Bedeutung.

Ich habe mich seit langem mit dem Thema KI - Sicherheit befasst, und meine endgültige Überlegung lässt sich mit einem alten Spruch zusammenfassen: Redlichkeit ist die beste Strategie.

Das ist nicht nur eine moralische Forderung, sondern auch eine Sicherheitsmaßnahme. Natürlich werden wir auch Fehler machen, aber wir versprechen, diese Fehler so schnell wie möglich zu korrigieren.

Wir freuen uns sehr über Feedback aus der Entwicklercommunity - was brauchen Sie? Wo haben wir etwas falsch gemacht? Wie können wir es verbessern?

Wir möchten, dass Grok ein Tool wird, auf das die Entwickler sich freuen, und eine Plattform, auf der ihre Stimmen gehört werden.

Grok wird sich ständig verbessern und die Bedürfnisse der Entwickler erfüllen.

Die Codierungsfähigkeit wird zum Wettlauf

Basierend auf den früheren Modellen der Grok - API wird vermutlich Grok 4 Code der Höhepunkt der Veröffentlichung sein, vielleicht wird es auch ein Grok 4 mini geben.