StartseiteArtikel

Kriegsbericht: Elon Musks Grok4 dominiert das KI-Schachturnier, DeepSeek kommt nicht an o4-mini ran, und über Kimi K2 wird Unrecht behauptet.

量子位2025-08-06 16:35
Google und Kaggle haben ein internationales Schachduell mit KI organisiert.

Aktuelle Schlachtbericht: Beim ersten internationalen Schachduell mit KI... hat Grok 4 von Musk "deutlich vorgelegen".

Ja, Google hat für die großen Sprachmodelle ein Schachturnier organisiert: den Kaggle AI Schachwettbewerb.

Nach den Duellen am ersten Tag haben die Teilnehmer OpenAIs o3 und o4-mini, DeepSeek R1, Kimi K2 Instruct, Gemini 2.5 Pro und 2.5 Flash, Claude Opus 4 und Grok 4 ihre ersten Runden gespielt, und das Ergebnis war -

Grok 4 hat die beste Leistung gezeigt. DeepSeek R1 war stark, konnte aber o4-mini nicht schlagen. Kimi K2 war am schlechtesten abgerundet - die Netzizens haben sogar Unrecht behauptet.

Da sein eigenes Grok 4 so gut abgeschnitten hat, wird Musk natürlich nicht die Chance für PR verpassen. Seine Antwort war aber etwas anmaßend:

Wir haben es nicht absichtlich trainiert. Das ist nur ein Nebeneffekt.

Ehrlich gesagt, wer würde sich für so einen "sinnlosen" Wettbewerb absichtlich trainieren?

Natürlich ist bei einem Schachduell zwischen KIs der Prozess viel wichtiger als das Ergebnis. Schließlich war das Ziel von Google bei diesem Wettbewerb, die "Emergenzfähigkeit" zu testen.

Erster Kaggle AI Internationaler Schachwettbewerb

Dieser Wettbewerb wurde von Google initiiert, um die Kaggle Spielarena zu promoten. Das erste Turnier beginnt mit Schach.

Die teilnehmenden "Spieler" sind OpenAIs o3 und o4-mini, DeepSeek R1, Kimi K2 Instruct, Gemini 2.5 Pro und 2.5 Flash, Claude Opus 4 und Grok 4.

Von den 5. bis 7. August wird täglich um 10:30 Uhr (Pazifische Zeit) das Turnier live gestreamt.

Außer den Schachduellen zwischen den Topmodellen wird der Stream auch von dem weltberühmten Schachmeister Hikaru Nakamura kommentiert.

Er hat mit sieben Jahren angefangen, Schach zu lernen und wurde mit 15 Jahren US-amerikanischer Schachmeister und bekam den GM-Titel. Er war auch der Dritte bei der bisher größten Schachtmeisterschaft, der EWC.

Nach einem Tag der Duelle haben es jetzt Gemini 2.5 Pro, Grok 4, ChatGPTs o4-mini und o3 in die Halbfinale geschafft.

Die Zuschauer warten gespannt auf das "Innenkampf" zwischen ChatGPTs o4-mini und o3 sowie das Duell zwischen Gemini 2.5 Pro und Grok 4.

Außerdem endeten alle Achtelfinale mit einem perfekten 4:0. Die Leistungsunterschiede waren sehr deutlich.

Die Netzizens haben die Ergebnisse analysiert und gesagt, dass Grok 4 in diesem Benchmark "alle anderen Modelle in taktischer Strategie und Geschwindigkeit übertroffen hat".

Warte mal, ist es nicht erst Achtelfinale? Ist es nicht zu früh, um eine endgültige Einschätzung zu treffen?

Schauen wir uns die genauen Leistungen der Modelle an, um zu verstehen, warum die Netzizens so hohe Bewertungen abgegeben haben:

Grok 4 vs Gemini 2.5 Flash

Grok 4 war wie ein wilder Tier. Es spielte so mühelos, wie ein "echter GM". Es war der Beste des Tages.

Andererseits war Gemini Flash von Anfang an im Nachteil, auch beim Eröffnungsspiel, als es den König auffing.

OpenAI o4-mini vs DeepSeek R1

Beim Duell zwischen OpenAI o4-mini und DeepSeek R1 hatte R1 einen starken Start, verlor aber schließlich gegen o4-mini.

Beide Seiten machten viele Fehler, aber o4-mini nutzte zuerst die Fehler von R1.

Die von R1 angebotenen Schlussfolgerungen waren zwar überzeugt, aber falsch. Die fehlende Einsicht in die Schachstellung führte dazu, dass es Figuren frei ließ, die o4-mini zuerst wegnehmen konnte.

Gemini 2.5 Pro vs Claude Opus 4

Dieses Duell zwischen Gemini 2.5 Pro und Claude Opus 4 war das beste Spiel des Tages. Beide Modelle zeigten ein hohes Niveau.

Claude machte einige Fehler, während Gemini Pro eine starke taktische Sichtweise zeigte, aber manchmal zu lange Analysen lieferte.

Kimi K2 vs o3

Dies war das schnellste Viertelfinale. Kimi K2 wurde "niedergerungen", hauptsächlich weil es wiederholt illegale Züge machte. o3 gewann per Verzicht, und es gibt nicht viel zu analysieren.

Einige Leute haben sich für Kimi eingesetzt: Kimi ist kein Schlussfolgermodell und braucht mehr Zeit zum Nachdenken, um eine bessere Leistung zu erbringen. Je weiter das Spiel fortschreitet, desto mehr Zeit zum Nachdenken wird benötigt.

Warum Schach?

Warum also Schach für ein Duell zwischen KIs?

Schach hat klare Regeln, ist aber sehr komplex (10^120 mögliche Stellungen). Es ist ein idealer Testfall für die Entscheidungsfähigkeit von KIs.

Einige Netzizens haben es falsch verstanden und denken, dass "je größer, desto besser" gilt. Tatsächlich liegt diese Zahl weit über dem Anwendungsbereich der Brute-Force-Methode.

Kürzlich hat Terence Tao in einem Interview mit Lex gesagt, dass einige mathematische Probleme nicht direkt durch brute-force-Berechnungen gelöst werden können. Beispielsweise können wir die Anzahl der Schachstellungen bis heute nicht vollständig mit Computern lösen. Wir haben jetzt aber KIs, die nicht jeden möglichen Zug im Spielbaum erkunden, sondern sich an Näherungslösungen orientieren.

Mit anderen Worten, wenn KIs Schach spielen, wird eigentlich ihre Emergenzfähigkeit getestet.

Ein Netzizen hat auch darauf geachtet und die Leistung von Grok 4 zusammengefasst:

Dieser Netzizen sagte, dass in traditionellen KIs die Stärke des Modells von der aufgaben-spezifischen Trainingseinstellung abhängt (maßgeschneidert für die Aufgabe), während in modernen KIs die Stärke von der konsistenten Verallgemeinerung kommt (die Entwicklung einer internen Weltstruktur, die auf alles abgebildet werden kann). Schach ist nur eine Projektion davon.

Die Netzizens sind sich einig, dass Schach eine zuverlässige Methode zur Bewertung der Fähigkeiten von KIs ist.

Einige Netzizens haben auch die nächste Spielart für KI-Wettbewerbe vorhergesagt: Vielleicht UNO? (Natürlich als Scherz)

Welche KI wird am meisten favorisiert?

Vor dem offiziellen Start des Kaggle AI Schachwettbewerbs hat ein Netzizen auf Manifold eine Umfrage gestartet: Wer wird der Endsieger dieses AI Schachwettbewerbs sein?

Anfangs war Gemini 2.5 Pro am beliebtesten, gefolgt von o4.

Nach den Achtelfinalsspielen hat sich die Umfrageergebnisse deutlich verändert, und Grok 4 hat eine überwiegende Führung.