AI-Prognose für die Gruppenphase der FIFA-Weltmeisterschaft: Hunyuan auf Platz 1, Qianwen und DeepSeek unentschieden
Heute sind alle 72 Gruppenphase-Spiele der FIFA-WM 2026 in den USA, Kanada und Mexiko beendet, und die erste Phase der Weltmeisterschaft ist vorbei. Außerhalb des Spielfelds hat auch ein anderer Wettbewerb seine Ergebnisse vorgelegt.
Im von Lenovo und Migu gemeinsam initiierten Mensch-Maschine-Wettbewerb zur WM-Vorhersage haben 12 chinesische Large Language Models (LLMs) gemeinsam mit Tausenden von menschlichen Spielern an der Tipp-Wettbewerbs teilgenommen. Der aktuelle Ergebnisstand lautet: Die Gesamt-Trefferquote der KI liegt bei etwa 61,9 %, die der menschlichen Spieler bei 54,6 %.
In Spielen, bei denen ein eindeutiges Ergebnis feststeht, hat die KI eine höhere Trefferwahrscheinlichkeit. Bei Unentschieden hat die KI jedoch nur 11 von 20 Vorhersagen richtig getroffen. Der Vorteil der KI liegt nicht darin, die Alltagserfahrung zu übertreffen, sondern darin, stabiler als Menschen zu agieren. Sie kann von Emotionen unbeeinträchtigt bleiben und kann eine größere Anzahl von Informationsdimensionen berücksichtigen.
Die Achtelfinale stehen kurz bevor. Die verbleibenden 32 Mannschaften sind in ihrer Stärke näher beieinander, und es gibt keine einfachen "Geschenkfragen" mehr. Für die KI hat die echte Prüfung erst begonnen.
Ein noch interessanteres Problem ist, warum die Anbieter von Large Language Models in die WM-Vorhersage einsteigen. Zeigen sie damit ihre technologischen Fähigkeiten oder nutzen sie den einmal alle vier Jahre angebotenen Traffic für eine Marketingkampagne? Können diese Modelle auch nach Beginn der Achtelfinale und dem Verschwinden der "Geschenkfragen" noch eine akzeptable Leistung erbringen?
01. Large Language Models im Tipp-Wettbewerb: Wer nimmt die Prüfung ernst?
Die Weltmeisterschaft ist schon immer ein Kampfplatz für Marken um Traffic. In diesem Jahr gibt es eine neue Gruppe von Teilnehmern. Die Anbieter chinesischer Large Language Models haben sich in den Tipp-Wettbewerb eingeschaltet und nutzen das alle vier Jahre angebotene Traffic-Fenster, um den Nutzern direkt die Analysefähigkeiten der KI zu zeigen.
Das umfangreichste Projekt ist der von Lenovo und Migu gemeinsam initiierte "Mensch-Maschine-Wettbewerb". Dabei wurden 12 chinesische Large Language Models wie DeepSeek, Tongyi Qianwen, Kimi und Tencent Hunyuan eingeladen, gemeinsam mit Tausenden von menschlichen Spielern unter den gleichen Regeln um die Trefferquote zu konkurrieren.
Es gibt auch viele Anbieter, die eigenständig teilnehmen. Qianwen hat einen Fußball-Vorhersage-Assistenten basierend auf KI eingeführt, der alle 104 Spiele abdeckt. Nutzer können gemeinsam mit der KI tippen, und diejenigen, deren Trefferquote Qianwen übertrifft, haben die Chance, einen Gewinn von 10.000 Yuan zu gewinnen. Gleichzeitig hat Qianwen auch ein Stadion-Projekt initiiert. Wenn die Nutzer eine bestimmte Punktzahl im Tipp-Wettbewerb erreichen, wird Qianwen für eine ländliche Schule ein Fußballstadion bauen. Kimi hat 300 Agenten aufgebaut, die sich jeweils um die taktische Analyse, die Verfolgung des Spielerszustands, die Spielplanberechnung, die Überwachung der Quoten etc. kümmern und einen 224-seitigen Vorhersagebericht erstellt haben.
Die Schwerpunkte der Aktivitäten sind jedoch unterschiedlich. Lenovo und Migu haben eine Vergleichsstudie der Fähigkeiten durchgeführt und die Aufmerksamkeit durch den Wettbewerb zwischen 12 Modellen erhöht. Qianwen hat die Vorhersage in die Interaktion mit den Nutzern und die gemeinnützige Arbeit eingebunden und geht auf dem Weg der Kundenakquise auf der C-Seite voran. Kimi legt den Schwerpunkt auf die Demonstration der Fähigkeiten der Agenten bei der Bearbeitung komplexer Aufgaben, und die Vorhersage ist nur ein Träger.
Unter den drei Aktivitäten hat nur der "Mensch-Maschine-Wettbewerb" von Lenovo und Migu einheitliche Regeln und Bewertungskriterien festgelegt, so dass die 12 Modelle und die menschlichen Spieler auf der gleichen Strecke konkurrieren können. Daher nehmen wir seine Daten als Referenz und analysieren diese Ergebnisse.
Stand 28. Juni sind alle 72 Gruppenphase-Spiele beendet. Die Gesamt-Trefferquote der 12 KIs liegt bei 61,9 %, die der menschlichen Spieler bei 54,6 %. Die KI liegt etwa 7,3 Prozentpunkte vor.
Quelle: AIX Finance, statistische Berechnung basierend auf den offiziellen Vorhersagedaten von Migu
Nach der Rangliste liegen Tencent Hunyuan und China Mobile Jiutian gleichauf auf dem ersten Platz mit einer Trefferquote von 68,1 %, was mehr als zwei Drittel beträgt. Baidu Wenxin, Qianwen und DeepSeek teilen sich den dritten Platz mit 63,9 %. Das am schlechtesten abschneidende Jieyue Xingchen hat nur 43,1 %, was sogar unter dem Durchschnitt der menschlichen Spieler liegt. Der Unterschied zwischen dem ersten und dem letzten Platz beträgt 25 Prozentpunkte, was nicht unerheblich ist.
Interessanter als die Rangliste ist, wo diese Modelle gewinnen und wo sie scheitern.
Die KI ist gut darin, Spiele mit hoher Vorhersagegenauigkeit zu tippen. Bei dem Spiel zwischen Spanien und Saudi-Arabien haben 11 von 12 KIs das Ergebnis richtig getippt. Bei dem Spiel zwischen Deutschland und Curaçao haben 10 Modelle die richtige Entscheidung getroffen. Ein gemeinsames Merkmal dieser Spiele ist, dass die Stärkeunterschiede zwischen den Mannschaften deutlich sind. Die Modelle können eine richtige Entscheidung treffen, indem sie sich auf die Weltmeisterschafts-Rangliste, die Marktwert der Mannschaften und die historischen Ergebnisse beziehen. Je einfacher die Aufgabe ist, desto besser schneidet die KI ab.
Zeng Xiaojian, der Leiter der KI-Expansion eines US-amerikanischen Unternehmens, erklärt, dass die Vorhersage von Large Language Models im Wesentlichen eine "Sortiermaschine" ist, die die Daten der Mannschaften gewichtet vergleicht. Je größer der Stärkeunterschied ist, desto stabiler ist das Sortierergebnis.
Unentschieden und Überraschungsergebnisse lassen die KI "stolpern". Im gesamten Gruppenphasenabschnitt ist das Unentschieden der Spieltyp mit der niedrigsten Trefferquote der KI, wobei nur 11 Vorhersagen richtig getroffen wurden.
Das typischste Beispiel ist das Spiel zwischen Spanien und Kap Verde. Spanien ist einer der Favoriten für den WM-Sieg und hat Vorteile in der Weltmeisterschafts-Rangliste, dem Marktwert der Mannschaft und den historischen Ergebnissen. Kap Verde ist hingegen ein neues Team aus Afrika, das erstmals an der Weltmeisterschaft teilnimmt. Vor dem Spiel haben 11 Large Language Models darauf gewettet, dass Spanien gewinnt, aber das Ergebnis war ein 0:0-Unentschieden. Der Torwart von Kap Verde hat mehrere entscheidende Rettungen gemacht und die Angriffe von Spanien abgewehrt. Die Leistung eines Spielers oder die Umsetzung einer Taktik können das Spielgeschehen verändern, und diese Faktoren können von den Daten nicht im Voraus quantifiziert werden.
Warum ist es so schwierig, Unentschieden zu tippen? In der Geschichte der Weltmeisterschaft liegt der Anteil der Unentschieden zwischen etwa 20 % und 25 %, was an sich ein unwahrscheinliches Ereignis ist. Die Modelle verteilen die Wahrscheinlichkeit eher auf den Sieg oder die Niederlage, was aus statistischer Sicht nicht falsch ist.
Zeng Xiaojian meint, dass das Unentschieden kein Sortierergebnis ist, sondern ein spezieller Bereich in der Wahrscheinlichkeitsverteilung. Large Language Models neigen dazu, eine eindeutige Antwort auszugeben. Selbst wenn die Stärken der beiden Mannschaften ähnlich sind, wird es eine Seite auswählen und eine tendenzielle Entscheidung treffen. Mit anderen Worten, die Mechanik des Modells zwingt es dazu, sich für eine Seite zu entscheiden.
Hongson, ein Fachmann auf dem Gebiet der Large Language Models, erwähnt, dass das Auftreten eines Unentschieden oft nicht zufällig ist, sondern das Ergebnis eines blockierten Angriffs der starken Mannschaft, einer erfolgreichen Raumkompression der schwachen Mannschaft oder der Zurückhaltung beider Mannschaften in einer bestimmten Phase. Diese vor Ort getroffenen taktischen Entscheidungen sind an sich schwer im Voraus vorherzusagen.
Das heißt, die KI ist bei Spielen mit deutlichen Stärkeunterschieden genauer, aber schneidet bei Unentschieden und Überraschungsergebnissen schlechter ab. Selbst wenn die Trefferquote der KI beim Tippen über 50 % liegt, kann man diese Zahl nicht einfach mit der Fähigkeit der KI zur Vorhersage gleichsetzen.
Die Anbieter sind sich dieses Problems bewusst. Zeng Xiaojian meint, dass die Vorhersage von Spielen leicht zu verbreiten ist und es den normalen Nutzern leicht macht, die KI als "analytisch fähig" zu empfinden. Dies ist spannender als die bloße Präsentation einer abstrakten Rangliste. Der eigentliche Wert liegt darin, die Nutzer zu unterrichten: Die KI kann Informationsintegration, Szenarioanalyse und Wahrscheinlichkeitsausdrücke durchführen. Die Anbieter interessieren sich nicht so sehr für das Tippen selbst, sondern dafür, dass die Weltmeisterschaft ein von allen verständliches Szenario bietet, in dem die Fähigkeiten der Large Language Models von abstrakten Parametern zu konkreten Leistungen werden.
Egal wie es verpackt wird, der Kern ist es, den Traffic der Weltmeisterschaft zu nutzen, um die KI in den Blick von mehr Menschen zu bringen.
02. Auf was basiert die KI-Tipps?
Wie genau tippen die Modelle, die richtig liegen?
Zeng Xiaojian meint, dass die KI-Tipps bei Fußballspielen im Wesentlichen keine Vorhersagen, sondern Wiederholungen sind. Sie ähneln eher der Neuordnung der Worte, die Fußballkommentatoren oft sagen. Dies erklärt auch, warum die Vorhersageergebnisse der 12 Modelle oft sehr ähnlich sind. Sie lesen die gleichen öffentlichen Informationen und verwenden ähnliche logische Schlussfolgerungen, so dass es nicht verwunderlich ist, dass sie zu demselben Ergebnis kommen.
Aber hinter dieser "Wiederholung" gibt es auch verschiedene technische Ansätze.
Der einfachste Ansatz ist die reine Prompt-Engineering. Man füllt die Teaminformationen in die Prompt ein. Der Schwellenwert ist niedrig, und die Verbreitung ist schnell. Aber die Ausgabe des Modells sieht zwar wie die eines "Experten" aus, kann aber nicht statistisch überprüft werden.
Eine Stufe höher ist die RAG (Retrieval Augmented Generation) -Technologie, die das Problem der Aktualität der Informationen löst. Aber die abgerufenen Informationen können einseitig sein, und das Modell wird nur systematischer zu einem einseitigen Ergebnis kommen.
Der dritte Ansatz ist die Zusammenarbeit mehrerer Agenten, wie in einem kleinen Analyseteam. Aber die Zusammenfassung der Meinungen mehrerer Agenten bedeutet nicht automatisch eine Verbesserung der Vorhersagegenauigkeit. Wenn die Architektur komplexer wird, steigt die Genauigkeit nicht unbedingt.
Der vierte Ansatz ist, zuerst die Wahrscheinlichkeiten mit statistischen Tools zu berechnen und dann die Large Language Models zur "Übersetzung" zu nutzen. Mit Methoden wie der Elo-Bewertung, dem Poisson-Tor-Modell und der Monte-Carlo-Simulation wird eine Wahrscheinlichkeitsverteilung ermittelt, und das Large Language Model ist für die Erklärung und Präsentation verantwortlich. Zeng Xiaojian meint, dass dies der vernünftigste Ansatz ist, da die Fußballvorhersage zunächst ein mathematisches Problem und erst dann ein Sprachausdrucksproblem ist. Aber dieser Weg hat auch die höchsten Schwellenwerte. Es ist erforderlich, ein eigenes Wahrscheinlichkeitsmodell aufzubauen, und die meisten Anbieter werden nicht so viel investieren, nur für eine Marketingkampagne.
Quelle: Offizielle FIFA-WM-Weibo
Das von Hongson selbst aufgebaute FLUX·10 folgt genau diesem Weg. Er hat zehn Dimensionen wie die Stärke der Mannschaft, den Angriffs- und Verteidigungsstatus, die Mannschaftszusammensetzung etc. in berechenbare Variablen umgewandelt, zuerst die Wahrscheinlichkeiten für Sieg, Unentschieden und Niederlage sowie die erwarteten Tore berechnet und dann das Large Language Model genutzt, um die Ergebnisse in eine von normalen Menschen verständliche Analyse umzuwandeln. Bis zum dritten Spieltag der Gruppenphase hat er 64 Spiele vorhergesagt, und die Trefferquote liegt bei etwa 60,9 %.
Die Schwellenwerte und die Genauigkeit dieser vier Ansätze steigen schrittweise an, aber die meisten Anbieter auf dem Markt befinden sich noch in den ersten beiden Ebenen. Letztendlich haben alle Modelle dasselbe Ziel: Die vorhandenen Informationen in eine scheinbar vernünftige Entscheidung zu integrieren. Die Unterschiede in den Ansätzen bestimmen die Qualität der Informationen, aber kein Weg kann es dem Modell ermöglichen, wirklich die noch nicht geschehenen Ereignisse auf dem Spielfeld vorherzusehen.
Sie haben auch gemeinsame Schwächen. Erstens sind die Vorhersagen nicht dynamisch genug. Die Bekanntgabe der Startelf, der Ausfall von Schlüsselspielern und die Veränderung der Quoten verändern die Wahrscheinlichkeiten in Echtzeit. Aber die meisten Modelle geben ihre Vorhersage nach einem Durchlauf ab und haben keine Mechanismen, um die Vorhersage mit neuen Informationen zu aktualisieren.
Zweitens fehlt die Wahrscheinlichkeitskalibrierung. Die Modelle produzieren nur scheinbar vernünftige Zahlen, nicht wirklich zuverlässige Wahrscheinlichkeiten. Eine Vorhersage ohne Kalibrierung und Rücktest ist eher ein Inhaltsprodukt als ein wissenschaftliches Modell.
Für die meisten Anbieter liegt die Optimierung der Vorhersage in der Daten-Engineering. Sie füttern das Modell mit mehr Informationen, schreiben bessere Prompts und verbinden sich mit vollständigeren Datenquellen, anstatt einen Durchbruch auf der Modell-Ebene zu erzielen.
Dies zeigt auch eine Einschränkung der Large Language Models bei Vorhersagetasks. Sie sind gut darin, vorhandene Informationen zu integrieren und scheinbar vernünftige Entscheidungen zu treffen, aber sie fehlt die Fähigkeit, auf unbekannte Variablen zu reagieren. Das bedeutet, dass die Large Language Models gute Nachträger sein können, aber noch keine qualifizierten Propheten.
03. Mit Beginn der Achtelfinale sind die "Geschenkfragen" für die KI vorbei
Nach der Beendigung der Gruppenphase hat sich die "Prüfungsumgebung" für die KI verändert.
Diese Weltmeisterschaft hat die meisten teilnehmenden Mannschaften. Viele der 48 Mannschaften mit schwächerer Stärke sind erstmals auf der Weltmeisterschafts-Bühne aufgetreten.
Das bedeutet, dass in den 72 Gruppenphase-Spielen ein beträchtlicher Teil der Spiele deutliche Stärkeunterschiede aufweist, was die Sortierung für die KI relativ einfach macht. Aber in den Achtelfinals sind die verbleibenden 32 Mannschaften nach der Gruppenphase gefiltert, und der Stärkeunterschied zwischen ihnen ist stark reduziert. Das Tippen wird schwieriger.