Erste Großmodell-Schachmeisterschaft: Grok 4 und o3 qualifizieren sich für das Finale, DeepSeek und Kimi scheitern.
Nachrichten vom 7. August. Um etwa 1 Uhr in der Nacht dieses Tages fand im "Schacharena"-Turnier, das von der von Google gegründeten Plattform Kaggle organisiert wurde, die Halbfinale einer Schach-AI-Vorführungsserie statt. Schließlich haben Grok 4 und o3 jeweils Gemini 2.5 Pro und o4-mini geschlagen und sich für die Finale qualifiziert.
Das Turnier dauerte drei Tage. Die "Teilnehmer" waren acht Large Language Models (LLM): Grok 4 (xAI), Gemini 2.5 Pro (Google), o4-mini (OpenAI), o3 (OpenAI), Claude 4 Opus (Anthropic), Gemini 2.5 Flash (Google) sowie zwei "chinesische Teilnehmer" – DeepSeek R1 (DeepSeek) und Kimi k2 (Moonshot AI).
Das Turnier folgte dem Einfachverlierer-System. In jeder Runde hatte die KI maximal vier Versuche, einen gültigen Zug zu machen. Wenn sie in diesen vier Versuchen keinen gültigen Zug machen konnte, wurde sie als Verliererin des Spiels bewertet. Die Regeln beziehen die Rechenleistung nicht ein, sondern konzentrieren sich hauptsächlich auf das Verständnis der Schachpartie und die Problemlösungskompetenz der KI.
Bei den ersten Finalspielen am ersten Tag konnten Claude 4 Opus, DeepSeek R1, Gemini 2.5 Flash und Kimi K2 nicht gewinnen und qualifizierten sich nicht für die Halbfinale.
Halbfinale: Grok 4 und o3 gewinnen
Bei den vier Duellen am ersten Tag, dem 5. August, haben Gemini 2.5 Pro, o4-mini, Grok 4 und o3 jeweils Claude 4 Opus, DeepSeek R1, Gemini 2.5 Flash und Kimi k2 mit 4:0 geschlagen und sich für die Halbfinale qualifiziert.
Bei der zweiten Halbfinale hat o3 von OpenAI zunächst sein Light-Version o4-mini mit 4:0 klar geschlagen und eine überwältigende Dominanz gezeigt.
Im zweiten Spiel hat o3 das Mini-Spiel in 12 Zügen beendet und ein "Matt" ähnlich wie im Puzzle Rush (einem online-Schach-Trainingsmodus von Chess.com) erzielt, mit einer Präzisionsbewertung von 100.
Im dritten Spiel hat o3 zwei geniale Züge gemacht: 12...Bb4+ (im 12. Zug hat Schwarz den Läufer auf das Feld b4 bewegt und Schach gegeben) und 19...e3+ (Schwarz hat im 19. Zug den Bauern auf e nach e3 bewegt und Schach gegeben). o4-mini hat im Spiel mehrmals Fehler gemacht und konnte nicht mit dem Tempo von o3 mithalten.
Das Duell zwischen Grok 4 und Gemini 2.5 Pro war der Höhepunkt dieser Runde. Das reguläre Spiel endete mit 2:2 Unentschieden und ging in die "Armageddon"-Nachergebnisphase über (Armageddon tiebreak, eine spezielle Spielform, um schnell ein Ergebnis zu erzielen, die normalerweise nach einem Unentschieden im regulären Spiel verwendet wird, um eine weitere Verlängerung des Spiels zu vermeiden). Grok spielte mit den schwarzen Steinen und gewann im 55. Zug im Unentschieden (wegen des Siegesrechts im Unentschieden).
Im ersten Spiel beider Seiten hat Grok mehrmals Fehler gemacht, einen Springer und einen Turm verloren und wurde von Gemini matt gesetzt. Im zweiten Spiel folgten beide Seiten der Eröffnungstheorie bis zum 11. Zug. Nachdem Grok die Theorie verlassen hatte, hat es durch einen Fehler einen Springer verloren, aber Gemini hat "Halluzinationen" gehabt und durch einen falschen Zug die Dame verloren, sodass Grok das Spiel zurückgewonnen hat. Im dritten Spiel hat Grok gewonnen und führte an. Im vierten Spiel hat Gemini zurückgeholt und das Unentschieden hergestellt. In der Nachergebnisphase hat Gemini die Chance auf einen einen Zug Matt verpasst und schließlich wegen des Verlusts der Dame im Unentschieden gelandet. Grok qualifizierte sich für die nächste Runde.
Rückblick auf das erste Spieltag
Ergebnisse des ersten Spieltags
Am 5. August haben acht KI-Modelle ihre ersten heftigen Duelle begonnen. Alle vier Spiele endeten mit einem Ergebnis von "4:0". Die Modelle, die sich für die Halbfinale qualifiziert haben, haben sich wie folgt präsentiert:
Gemini 2.5 Pro (Google) hat Claude 4 Opus (Anthropic) mit 4:0 klar geschlagen. Dieses Duell war das einzige Spiel am ersten Tag, das hauptsächlich mit "Matt" endete. Claude 4 Opus hat aufgrund von Schlüsselfehlern (z. B. g5 im zehnten Zug, was zum Verlust von Steinen und der Entdeckung der Königsstellung führte) verloren. Gemini 2.5 Pro hat eine solide Kontrolle über das Brett gezeigt.
o4-mini (OpenAI) hat DeepSeek R1 mit 4:0 geschlagen. Zu Beginn des Spiels hatten beide Seiten einen soliden Stil, aber DeepSeek R1 hatte anschließend häufige "Halluzinationen" und machte eine Reihe von Fehlern. o4-mini hat zweimal erfolgreich "Matt" erzielt und eine starke Fähigkeit zur Gesamtüberblick gezeigt.
Elon Musk hat einen Beitrag über die Leistung von Grok 4 am ersten Tag gepostet
Grok 4 (xAI) hat Gemini 2.5 Flash (Google) mit 4:0 geschlagen. Grok 4 hat eine hervorragende Schachkunst gezeigt und ungeschützte Steine des Gegners erkannt. Seine Leistung hat sogar den Gründer von xAI, Elon Musk, dazu veranlasst, es auf der Plattform X zu teilen und hat zu einer lebhaften Diskussion geführt.
o3 (OpenAI) hat Kimi k2 (Moonshot AI) mit 4:0 geschlagen. Kimi k2 hat in vier aufeinanderfolgenden Spielen verloren, weil es vier Mal hintereinander keinen gültigen Zug machen konnte.
Aus diesem Turnier lässt sich immer noch erkennen, dass die Large Language Models viele Fehler gemacht haben. Die weltweit größte Schachplattform Chess.com hat in einem Artikel darauf hingewiesen, dass dieses Turnier Probleme wie das fehlende Kontextverständnis und die Schwierigkeit, einfache taktische Sequenzen auszuführen, bei den KI-Modellen insgesamt aufgedeckt hat.
Das Turnier geht weiter. Das nächste Finale wird am 7. August um 13 Uhr Ortszeit in den USA (1 Uhr am 8. August, chinesische Zeit) stattfinden. Grok 4 von xAI wird gegen o3 von OpenAI antreten. Gemini 2.5 Pro und o4-mini werden um den dritten und vierten Platz kämpfen.
Dieser Artikel stammt von "Tencent Technology", Autor: Wuji. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.