Elon Musk hat mit 200.000 GPUs die intelligenteste KI aller Zeiten trainiert. Grok 4 hat die Spitze der Welt wieder erreicht, und die menschlichen Doktoren sind auf allen Fronten besiegt
Elon Musks letzte Karte – Grok 4 – ist endlich auf den Tisch gelegt worden. Diese weltweit intelligenteste KI hat direkt nach ihrem Start die globalen Ranglisten überrannt und die Spitze erreicht, alle anderen großen Modelle in den Schatten gestellt. Der hochkarätig vorgestellte Grok Heavy kostet monatlich 300 Dollar.
Elon Musks letzter Zug hat sich als großer Erfolg erwiesen!!
Bei der Pressekonferenz am 10. Juli ist endlich nach langem Warten die Bombe von xAI, Grok 4, auf den Markt gekommen.
Und man kann sagen, dass es die weltweit intelligenteste KI ist!
Sie übertrifft nicht nur die meisten menschlichen Promovenden, sondern ist sogar besser als viele Doktoranden.
Die Pressekonferenz dauerte insgesamt eine Stunde. Hier ist eine kurze Zusammenfassung für diejenigen, die es nicht so genau lesen möchten:
Jetzt können die Benutzer von SuperGrok es bereits nutzen. Die normale Version kostet monatlich 30 Dollar, die Heavy-Version 300 Dollar.
Gleichzeitig ist die Grok 4 API für alle Entwickler offiziell geöffnet und wird auf Drittanbieter-Cloudplattformen verfügbar sein.
Nach einem Rückschlag in der Politik kehrt er als König in der KI-Branche zurück.
Natürlich ist Elon Musk immer noch der unbesiegte Mann aus dem Mythos.
200.000 GPUs, sensationelle Ergebnisse in der HLE
In verschiedenen Prüfungen und Benchmarks hat Grok 4 erstaunliche Ergebnisse erzielt.
Beispielsweise bekommt es bei der SAT immer die volle Punktzahl, auch wenn es die Fragen noch nie gesehen hat.
Bei der GRE-Prüfung bekommt es in allen Fachgebieten fast die volle Punktzahl, sei es in den Geisteswissenschaften, Sprachen, Mathematik, Physik oder Ingenieurwissenschaften.
Man kann sagen, dass Grok 4 in allen Fachgebieten intelligenter ist als fast alle menschlichen Promovenden.
Wie hat es das geschafft? Elon Musk hat es enthüllt.
Zunächst hat Grok 4 im Vergleich zu Grok 2 eine 100-fache Trainingszeit wie Grok 2.
Von Grok 2 zu Grok 3 hat xAI hauptsächlich Rechenleistung für das Pre-Training eingesetzt. Aber von Grok 3 zu Grok 4 wurde viel Rechenleistung in die Inferenz und das Reinforcement Learning investiert.
Durch das Training von Grok 2 hat das Team erstmals eine大规模e Erweiterung des Pre-Trainings vorgenommen.
Dadurch haben sie festgestellt, dass wenn man die Datenaufbereitung, die Infrastruktur und die Algorithmen noch genauer behandelt, man die Skala des Pre-Trainings um das Zehnfache erhöhen kann und so ein Spitzenmodell für das Pre-Training schaffen kann!
Netzuser rufen aus: xAI hat für das Reinforcement Learning genauso viel Rechenleistung eingesetzt wie für das Pre-Training? Das ist verrückt!
Deshalb hat xAI eine Weltklasse-Supercomputeranlage namens Colossus mit 100.000 H100 GPUs gebaut.
Wenn man belohnende Daten mit überprüfbaren Ergebnissen sammeln kann, kann man das Modell trainieren, von ersten Prinzipien aus zu denken, zu schließen und seine eigenen Fehler zu korrigieren. Dies ist die Herkunft der Inferenzfähigkeit von Grok 2.
Was passiert dann, wenn man alle 200.000 GPUs der Colossus-Supercomputeranlage einsetzt?
Die Antwort ist – die Entstehung von Grok 4!
Bei der „letzten Prüfung für den Menschen“, der HLE, hat Grok 4 sensationelle Ergebnisse erzielt und die Punktzahl ist erstaunlich hoch.
Die HLE besteht insgesamt aus 2.500 Fragen, die mehrere Fachgebiete abdecken. Als sie Anfang dieses Jahres veröffentlicht wurde, hatten die meisten Modelle nur ein einstelliges Genauigkeitsergebnis.
Der Grund liegt darin, dass die Fragen in der HLE extrem schwierig sind. Beispielsweise sind hier einige Fragen: eine mathematische Frage über natürliche Transformationen in der Kategorientheorie, eine organisch-chemische Frage über Elektrocyclisierungsreaktionen und eine linguistische Frage zur Unterscheidung von geschlossenen und offenen Silben aus dem hebräischen Originaltext.
Offensichtlich haben diese Fragen den Schwierigkeitsgrad eines Doktoratsstudiums oder sogar noch höher.
Fast kein Mensch kann alle diese Fragen richtig beantworten und eine hohe Punktzahl erzielen. Wenn man 5 % der Fragen richtig beantworten kann, zählt man schon zu den extrem intelligenten Menschen.
Dennoch hat Grok 4 in allen Bereichen der HLE das Niveau eines Doktoranden erreicht und sogar die meisten menschlichen Doktoranden übertroffen, da letztere mit hoher Wahrscheinlichkeit durchfallen würden.
Natürlich hat Grok 4 derzeit noch einen Nachteil, nämlich dass es noch keine neuen Technologien erfunden oder neue Physik entdeckt hat.
Aber Elon Musk glaubt, dass dies nur eine Frage der Zeit ist – spätestens Ende dieses Jahres wird Grok neue Technologien erfunden, und nächstes Jahr wird es neue Physik entdecken.
Unfassbare Rechenleistung, um die weltweit intelligenteste KI zu trainieren
Teamforscher haben爆料, dass eigentlich am Anfang die Genauigkeit von Grok 4 auch nur einstellig war.
Aber mit zunehmender eingesetzter Rechenleistung hat ein Wunder geschehen! Schließlich hat es 1/4 der schwierigen Fragen in der HLE gelöst, und das ohne Hilfsmittel.
Nachdem es die Fähigkeit zur Werkzeugnutzung erhalten und die Werkzeugnutzung direkt in den Trainingsablauf integriert wurde, hat die Leistung von Grok 4 einen erstaunlichen Anstieg erfahren.
Zurzeit verwendet Grok 4 noch keine Unternehmensgrade Werkzeuge.
Wenn man es mit Unternehmenswerkzeugen wie der Finite-Elemente-Analyse, der Computergestützten Strömungsmechanik, der Kollisionssimulation und hochpräzisen physikalischen Simulators wie die von Tesla oder Space X verwendet werden, dann wird es zweifellos zu einer revolutionären Veränderung von Grok 4 kommen!
Beispielsweise kann man Grok mit Optimus verbinden, dann kann es mit der realen Welt interagieren, Hypothesen aufstellen und die Wahrheit selbst überprüfen.
Der „Heavyweight“ Grok Heavy taucht auf
Außer dem Problem der Rechenleistung müssen wir auch ein weiteres großes Problem lösen, nämlich wie man die Datenengpässe überwindet.
Das Prinzip des RL ist, nicht nur eine große Anzahl herausfordernder Reinforcement Learning-Probleme zu finden, sondern auch zuverlässige Signale zu haben, die dem Modell sagen, ob es richtig oder falsch gearbeitet hat.
Allerdings haben wir jetzt fast keine Testfragen mehr! Die meisten schwierigen Probleme, die die Menschen nicht lösen können, werden für die KI immer leichter.
Glücklicherweise haben wir noch einen ausgezeichneten Richter, nämlich die Realität. Die Physik ist die ultimative Regel, und die endgültige Inferenztestung für die KI ist die reale Welt.
Stellen wir uns vor, wenn ein einzelnes KI-Intelligenzsystem 40 % der Probleme lösen kann, was passiert dann, wenn man mehrere Intelligenzsysteme gleichzeitig betreibt?
Dies ist das sogenannte Test-Zeit-Computing. Mit seiner Erweiterung kann Grok 4 jetzt über 50 % der reinen Textfragen in der HLE lösen.
Und wenn man mehrere KI-Intelligenzsysteme parallel erzeugt, dann entsteht Grok 4 Heavy!
Diese Intelligenzsysteme arbeiten unabhängig voneinander, vergleichen ihre Ergebnisse und entscheiden, welches besser ist. Sobald ein Intelligenzsystem die Schlüssellösung gefunden hat, teilt es sie mit anderen Intelligenzsystemen, und schließlich kommen sie durch Kommunikation zu einer endgültigen Antwort.
Das ist der Grund, warum Grok 4 „Heavy“ genannt wird, weil das Maßstab der Prüfung und des Computings um eine Größenordnung erweitert wurde.
· Erstaunliche Demonstration von Grok 4 Heavy
Grok 4 Heavy hat sich so weit entwickelt, dass es nicht nur Prüfungen bestehen kann, sondern auch verschiedene knifflige Probleme in der realen Welt lösen kann!
Beispielsweise kann man es bitten, die Gewinnwahrscheinlichkeiten der Teams in der amerikanischen Major League Baseball (MLB) vorherzusagen.
Es kann berechnen, dass die Los Angeles Dodgers die Favoriten für den Titel dieses Jahres sind, mit einer Gewinnwahrscheinlichkeit von 21.6 %.
Außerdem kann man es bitten, ein visuelles Bild der Kollision von zwei Schwarzen Löchern zu generieren.