Gerade eben ist der König der großen Modelle im Schach geboren. Nach 40 runden erbitterten Kämpfen hat OpenAI o3 den ersten Platz errungen. Ist die Stellung der menschlichen Grandmasters bedroht?
Nach den Eliminationsspielen in der Kaggle Game Arena sind die Ergebnisse des Schach-Punktwettbewerbs herausgekommen! OpenAI o3 führt mit einem menschlichen äquivalenten Elo-Score von 1685 Punkten an, gefolgt dicht von Grok 4 und Gemini 2.5 Pro. DeepSeek R1, GPT-4.1, Claude Sonnet-4 und Claude Opus-4 teilen sich den fünften Platz.
Lasst die Eliminationsspiele in Ruhe!
Diesmal ist es ein ehrlicher „Punktwettbewerb“, und die Elo-Tabelle ist das echtes Maß für die Stärke.
Nach 40 runden Schlachten sind die Ergebnisse des Schach-AI-Text-Eingabe-Tests herausgekommen.
Die verschiedenen AI-Modelle haben nur mit Text-Eingaben, ohne Werkzeuge und ohne Validatoren, gegeneinander antreten können.
Jede Paarung hat mehr als 40 Spiele gespielt, um eine Elo-Rangliste wie bei Go und anderen Sportarten zu erstellen.
OpenAI o3 führt an, Grok und Gemini folgen auf den zweiten Platz.
Erster Platz: o3, geschätzter menschlicher Elo-Score von 1685 Punkten, während der Score eines menschlichen Meisters bei 2200 Punkten liegt!
Zweiter Platz: Grok 4, geschätzter menschlicher Elo-Score von 1395 Punkten, gute Leistung.
Dritter Platz: Gemini 2.5 Pro, geschätzter menschlicher Elo-Score von 1343 Punkten, etwas hinterher.
Übrigens ist es erwähnenswert, dass DeepSeek-R1-0528, GPT-4.1, Claude Sonnet-4 und Claude Opus-4 sich den fünften Platz teilen.
Bei der ersten Schachmeisterschaft der Game Arena hat o3 zuletzt gewonnen und damit seine Stärke bewiesen.
Die erste Punktwettbewerbs-Rangliste der Game Arena
Früher hat Kaggle die erste Schach-AI-Vorführungswettmeisterschaft organisiert, um die Leistung von allgemeinen Modellen wie o3, Grok 4, Gemini 2.5 und DeepSeek R1 im Schach zu zeigen.
Diese Modelle haben deutliche Fortschritte gemacht, und alle haben viel Spaß dabei gehabt. Beispielsweise wurde festgestellt, dass die großen Sprachmodelle besonders den Sizilianischen Verteidigungseingang mögen.
Aber die Eliminationsspiele mit Best-of-Four haben zu viele Zufälle, um die echte Leistung der Modelle genau zu messen.
Deshalb hat Google-Kaggle heute offiziell die Schach-Text-Rangliste auf der Game Arena-Plattform veröffentlicht.
Link zur Rangliste: https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard
Die Schach-Text-Rangliste ist eine strenge AI-Benchmark-Plattform. Hier konkurrieren die neuesten großen Sprachmodelle, und ihre Fähigkeiten in strategischem Denken, Planung, Anpassung und Zusammenarbeit werden gründlich getestet.
Die Plattform bietet durch ein transparentes Testdesign, reichhaltige Spieledaten und eine ständig aktualisierte Multi-Spiel-Rangliste ein dynamisches und reproduzierbares Standardmaß für die Bewertung der echten kognitiven Fähigkeiten von AI.
Die Schach-Text-Rangliste
Diese Rangliste basiert auf den Ergebnissen der Rundenspiele zwischen allen teilnehmenden Modellen. Jedes Modellpaar hat 20 Spiele als Weiß und 20 Spiele als Schwarz gespielt, insgesamt 40 Spiele.
Diesmal wurde der Umfang der teilnehmenden Modelle erweitert. Es wurden nicht nur die 8 Modelle aus der Vorführungswettmeisterschaft der vergangenen Woche aufgenommen, sondern auch mehr Modelle hinzugefügt, um umfassendere und zuverlässigere Bewertungsergebnisse zu erzielen.
Der Elo-Score der Game Arena wird mit dem Standard-Bradley-Terry-Algorithmus basierend auf den Ergebnissen der Duelle zwischen den Modellen berechnet.
Um die menschlichen äquivalenten Elo-Scores dieser Modelle zu schätzen, wurden sie gegen verschiedene Stufen (L0 bis L3) des Schach-Engines Stockfish gespielt.
Durch lineare Interpolation werden die menschlichen äquivalenten Elo-Scores der großen Modelle basierend auf den menschlichen Elo-Scores der verschiedenen Stufen von Stockfish berechnet. Genauer gesagt: L0 entspricht 1320 Punkten, L1 entspricht 1468 Punkten, L2 entspricht 1608 Punkten und L3 entspricht 1742 Punkten.
Es ist zu beachten, dass diese Modelle immer noch einen großen Abstand zu den besten menschlichen Schachspielern haben:
Ein menschlicher „Meister“ hat einen Score von 2200 Punkten oder höher.
Ein „Großmeister“ hat einen Score von 2500 Punkten oder höher.
Und der stärkste Stockfish-Engine hat einen geschätzten menschlichen Elo-Score von 3644 Punkten.
Stockfish ist ein kostenloser und quelloffener Schach-Engine.
Seit 2020 hat Stockfish alle wichtigen Turniere der Top-Schach-Engine-Championship (TCEC) und der Chess.com-Computer-Schach-Championship (CCC) gewonnen. Bis August 2025 ist es der stärkste CPU-Schach-Engine der Welt, mit einem geschätzten Elo-Score von 3644 Punkten.
Das Konfidenzintervall wird durch 500-maliges Resampling der Spielresultate und getrennte Berechnung des Game Arena-Elo und des menschlichen Elo-Scores ermittelt.
Außer dem Elo-Score wurden auch die Indikatoren wie „Durchschnittliche Tokenanzahl pro Zug“ und „Durchschnittliche Kosten pro Zug“ hinzugefügt, um das Gleichgewicht zwischen Leistung und Effizienz der Modelle widerzuspiegeln.
Natürlich hat diese Rangliste auch einige Einschränkungen und Mängel:
(1) Nur Schach: Kein einzelnes Spiel kann das gesamte Spektrum der Intelligenz erfassen. Kaggle wird versuchen, dieses Problem zu lindern, indem es im Laufe der Zeit mehr Spiele einführt.
(2) Zeitlimit: Die strenge Zeitbeschränkung pro Zug kann Modelle bestrafen, die länger brauchen, um zu einem Ergebnis zu kommen und tiefere Überlegungen anzustellen, was zu einem Vorteil für schnellere, aber möglicherweise oberflächliche Strategien führt.
(3) Stichproben-Zufall: Es werden die Standard-Stichprobenparameter der Modelleingesetzt. Diese Parameter können nichtdeterministisch sein.
Neues Testbenchmark und Spielwiedergabe möglich
Sie können die kommentierten Vorführungswettkämpfe in der YouTube-Playlist von Kaggle ansehen, aber die Rangliste bietet mehr Spielwiedergaben. Klicken Sie einfach auf das Wiedergabe-Icon neben dem Modell und wählen Sie das gewünschte Spiel aus.
Außerdem wurde ein Datensatz mit Portablen Schachnoten (PGN) und öffentlichem Inferenzprozess der Modelle veröffentlicht: Schach-Text-Eingabe-Benchmark „Chess Text Gameplay“.
Link zum Datensatz: https://www.kaggle.com/datasets/kaggle/chess-text-gameplay
Der Schach-Text-Eingabe-Benchmark zielt darauf ab, die strategischen Denkfähigkeiten der heutigen allgemeinen Sprachmodelle zu bewerten und zu vergleichen.
Dies ist das erste Projekt der öffentlichen Benchmark-Plattform Game Arena von Kaggle. Diese Plattform lässt AI-Modelle in komplexen strategischen Spielen konkurrieren und kombiniert eine strenge wissenschaftliche Methode mit einem spektakulären Wettkampfserlebnis.
Warum ist das wichtig? Kaggle nennt drei Gründe:
Überwindung des Datenschmutzproblems: Statische Tests können nicht unterscheiden, ob die echte Denkfähigkeit eines Modells oder das Einprägen von Antworten gemessen wird. Im Schach-Text-Eingabe-Test entsteht jede Entscheidung aus der internen Logik des Modells, was sicherstellt, dass der echte Denkprozess bewertet wird.
Leistung unter hohem Druck: Die Modelle müssen sich anpassen, von Fehlern lernen und sich ständig ändernden Chancen zuwenden, ähnlich wie menschliche Schachmeister in komplexen Situationen agieren.
Einsicht in die allgemeine Künstliche Intelligenz (AGI): Erfolg in diesem Bereich bedeutet, dass das Modell einen wichtigen Meilenstein in der Mehrschritt-strategischen Problemlösung erreicht hat, was einen wertvollen Beitrag zur Entwicklung der allgemeinen Künstlichen Intelligenz leistet.
Überwindung des Datenschmutzproblems, dies ist die „Maturitätsprüfung“ für AI!
Jeder Zug testet die echte strategische Denkfähigkeit, Planung und Anpassungsfähigkeit der großen Modelle.
Sie haben auch einige Einschränkungen dieses Datensatzes aufgezeigt, darunter:
Denken: Die Denkausgabe ist eine generative Zusammenfassung des Denkprozesses des Modells. Sie ist keine wörtliche Aufzeichnung der internen Berechnungen, da Modelle normalerweise ihren internen Denkprozess verbergen.
Testrahmen: Die Leistung der Modelle hängt eng mit dem speziellen Testrahmen für diesen Benchmark zusammen (mehr Details).
Zeitpunkt: Dieser Datensatz repräsentiert die Leistung dieser speziellen Modellversionen zum Zeitpunkt der Datenerhebung.
Datenstruktur Der Datensatz „PGNs_with_reasoning“ (PGN mit Begründung) enthält Portierbare Spielnoten (PGN)-Dateien, die die Schachspiele der großen Sprachmodelle darstellen. Jede PGN-Datei besteht aus Schachnotationen und den Überlegungen der großen Sprachmodelle bei jedem Zug.
Kaggle plant, regelmäßig neue Modelle in die Schach-Text-Rangliste und andere Game Arena-Ranglisten aufzunehmen, um den Fortschritt der AI-Modelle in strategischer Planung, Denken und anderen kognitiven Fähigkeiten zu verfolgen.
In Zukunft wird die Game Arena Ranglisten für mehr Spiele einführen, um eine umfassendere Bewertung der Fähigkeiten von AI-Modellen zu ermöglichen.
Die heutige Schach-Text-Rangliste ist nur der erste Schritt.
Quellen:
https://x.com/kaggle/status/1958546786081030206