Der Wolf von Wall Street in der KI-Version: Der o3-mini hat dank seiner "göttlichen Wetten" einen neunfachen Gewinn erzielt, und der DeepSeek R1 ist das eigenwilligste.
Kann KI wie der Prophet in Science-Fiction-Filmen die Zukunft vorhersagen? Ein neues Benchmark-Test namens "Prophet Arena" evaluiert derzeit die "Prophezeiungs"-Fähigkeit von KI, indem es reale Weltereignisse vorhersagt.
Kann KI die Zukunft vorhersagen?
In "Matrix" kann der Prophet die Zukunft von Neo vorhersagen.
KI, repräsentiert durch ChatGPT, kann hingegen anhand bisheriger Textdaten das "nächste Token vorhersagen".
Die Frage ist nun, kann KI wie der Prophet aus den ungeordneten Informationen der ganzen Welt Hinweise finden und die Zukunft genau vorhersagen?
Zum Beispiel:
Kann die KI-Regulierung in diesem Jahr ein Bundesgesetz werden?
Wer wird im Spiel der Major League Soccer (MLS) gewinnen?
Wer wird der Champion der NBA in diesem Jahr sein?
Bei der Meisterschaftsmeisterschaft des Männer-Basketball-Asien-Cups letzte Nacht hat die chinesische Männer-Basketball-Nationalmannschaft zwar mit einem Punktunterschied knapp gegen Australien verloren, aber es ist bereits die beste Leistung in den letzten zehn Jahren!
Ich glaube, die meisten Menschen hätten diesen Spielstand nicht erwartet. Kann also KI anhand der bisherigen Leistung der chinesischen Mannschaft diesen Spielstand im Voraus vorhersagen?
Darüber hinaus: Kann KI wie das Laplacesche Dämon nach Erhalt aller Informationen über die gegenwärtige Welt alles in der Zukunft exakt vorhersagen?
Wenn es in einem Moment die Position und Geschwindigkeit aller Teilchen im Universum kennt und die Naturgesetze vollständig versteht.
Dann kann es alles in der Vergangenheit exakt berechnen und alles in der Zukunft exakt vorhersagen.
Das heute vorgestellte Prophet Arena ist ein Benchmark-Test, der die Vorhersageintelligenz von KI-Systemen anhand von Echtzeit-updateden realen Weltvorhersagetasks evaluiert.
Indem man Marktkonsens, automatisierte Vorhersagen, Informationsorganisation und Community-Einsichten kombiniert, entsteht eine stärkere Gesamtvorhersagefähigkeit.
Einfach ausgedrückt, Prophet Arena ist als Benchmark-Test einzigartig:
Es misst die Vorhersagefähigkeit: Dies ist eine hochgradige Intelligenz, die eine umfassende Verständnis- und Schlussfolgerungsfähigkeit erfordert.
Es ist für "Mensch-Maschine-Kooperation" gemacht: Sie können der KI Hinweise geben und sehen, wie sich ihre Vorhersage ändert; die KI wird Ihnen auch ihren Denkprozess mitteilen.
Es gibt keine Überanpassung, und die Daten werden nie veraltet: Denn zukünftige Ereignisse sind immer neue Aufgaben.
Es steht vor der Realität: Die Vorhersagen der KI sind direkt mit realen Wettdecisionen verbunden. Ein gut funktionierendes Modell kann tatsächlich in der virtuellen Märkte Geld verdienen.
Prophet Arena gründet erstmals einen dynamischen Benchmark, bei dem man nicht "auf die Prüfung lernen" kann, indem es Echtzeitvorhersagen von Marktereignissen nutzt.
Es misst umfassend die Leistung von KI bei der Unsicherheitsfolgerung, Informationsintegration, Wahrscheinlichkeitsvorhersage und realen Gewinnen.
Sogar Noam Brown, der Leiter der OpenAI Reasoning Research (KI-Folgerungsforschung), hat bewundert, dass die Vorhersagefähigkeit eine einzigartige Fähigkeit der Menschen ist, und nun beginnt die KI endlich, sich damit zu befassen.
Die Regeln der Arena werden offen gelegt
In Prophet Arena müssen die KI-Modelle eine einfache aber grundlegende Frage beantworten:
Kann man wirklich Ereignisse in der realen Welt, die noch nicht passiert sind, vorhersagen?
Prophet Arena wählt aus Prädiktionsmarktplattformen wie Kalshi und Polymarket beliebte, vielfältige und periodische reale Ereignisse als Aufgaben aus.
Kalshi ist eine amerikanische Finanzbörse und Prädiktionsmarktplattform. Sie ist die erste in den USA, die von der US Commodity Futures Trading Commission (CFTC) reguliert wird und sich auf den Handel mit "Ereignisergebnissen" konzentriert.
Prädiktions-Themen im Zusammenhang mit KI auf Polymarket
Der gesamte Wettlaufablauf besteht aus drei Schritten:
1. Informationssammlung
Die KI-Modelle nutzen Suchmaschinen, um wie Detektive Nachrichtenberichte über ein bestimmtes Ereignis zu sammeln und sie in einer prägnanten "Informationsbroschüre" zusammenzufassen. Gleichzeitig werden auch die damaligen Marktpreise (die man als kollektive Intelligenz der Masse ansehen kann) aufgenommen.
2. Vorhersageeinreichung
Nachdem sie die gleichen Informationen erhalten haben, muss jedes KI-Modell einen detaillierten "Vorhersagbericht" einreichen: Es gibt eine Wahrscheinlichkeitsverteilung für alle möglichen Ergebnisse an und begründet diese mit ausführlichen Gründen, warum es so denkt.
3. Ergebnisverkündung und Bewertung
Nachdem das Ereignis beendet ist und das Ergebnis bekanntgegeben wurde, wird ein professionelles Kriterium verwendet, um zu bewerten, wie genau die Vorhersage der KI war, und es wird dann auf einer Echtzeit-Rangliste aktualisiert.
Einstellung der Vorhersagekriterien
Die Rangliste berücksichtigt hauptsächlich zwei Kriterien: Einmal den Brier-Score (je höher, desto besser), der die Genauigkeit und Kalibrierung misst, und zum anderen die durchschnittliche Rendite bei der Simulation eines realen Wetts (man sieht, wer Geld verdienen kann).
Neben den oben genannten beiden Kernkriterien verwendet Prophet Arena auch fortgeschrittene Bewertungsmethoden, die von der Statistik und psychometrischen Modellierung inspiriert sind, wie die Item Response Theory (IRT) und das Generalisierte Bradley-Terry (BT)-Modell.
Diese zusätzlichen Kriterien bereichern die Rangliste und ermöglichen ein feineres und umfassenderes Verständnis der Vorhersageintelligenz.
Die Notenliste der KI-"Propheten" ist da
Die geheimen Entdeckungen von Prophet
Vielleicht denken Sie, je genauer die Vorhersage, desto mehr Geld wird man verdienen?
Das ist in den meisten Fällen der Fall, aber in den Daten wurde ein besonders interessanter "Umkehrbereich" entdeckt.
Geheimnis 1: Die am meisten rentablen Vorhersagen sind nicht unbedingt die genauesten
In dem Bereich, in dem der Brier-Score nicht hoch ist (0,3 - 0,5 Punkte), sind viele Vorhersagen mit erstaunlichen Renditen entstanden.
Bei genauerer Untersuchung stellte man fest, dass viele davon aus sensationellen Sportspielen stammen.
Beispielsweise bei einem Wimbledon-Tennisturnier dachte der Markt vor dem Spiel im Allgemeinen, dass der Spieler Paul eine Gewinnwahrscheinlichkeit von 84 % habe, und diese stieg sogar kurz vor dem Spiel auf 95 %.
Aber viele KI-Modelle waren vorsichtiger als der Markt und gaben ihm nur eine Gewinnwahrscheinlichkeit von etwa 80 %.
Genau dieser kleine Unterschied ließ die Modelle beim Wetten denken, dass es "kostengünstiger" sei, auf den Gegner Offner zu setzen.
Am Ende hat Offner tatsächlich sensationell gewonnen! Dieser Wette brachte fast das Sechsfache des Einsatzes zurück.
Sie sehen, die KI hat den Gewinner nicht genau vorhergesagt, also ist ihr Genauigkeits-Score (Brier-Score) durchschnittlich.
Aber sie hat die "Preisabweichung" des Marktes scharf erkannt und eine rentable Entscheidung getroffen.
Dies zeigt, dass ein genauer Prophet und ein rentabler Investor zwei nicht vollständig identische Fähigkeiten sind.
Um dies zu untersuchen, wurde die Zusammensetzung der Modelle in jedem Brier-Score-Bereich geprüft, wobei jedes Modell durch eine andere Farbe repräsentiert wird.
Eine direkte Beobachtung ist, dass in den Bereichen mit höheren Brier-Scores normalerweise mehr Vorhersagen gemacht werden.
Die meisten Large Language Models (LLMs) neigen dazu, bei ihren Vorhersagen mit der Mainstream-Information übereinzustimmen, daher konzentrieren sich die meisten Vorhersagen auf den Bereich mit hohem Brier-Score.
Geheimnis 2: KI hat auch "Persönlichkeit", Radikale oder Konservative
Angesichts der gleichen Informationen zeigen verschiedene KI-Modelle völlig unterschiedliche "Persönlichkeiten".
Beispielsweise bei der Frage: "Wird die KI-Regulierungsgesetzgebung vor 2026 ein Bundesgesetz werden?" denkt der Markt, dass die Wahrscheinlichkeit nur 25 % ist.
Aber die Modelle sind viel radikaler als die Menschen.
Der Vertreter der Radikalen, Qwen3: Es sieht, dass alle Arten von Gesetzen vorankommen und denkt, dass die Tendenz sehr stark ist, und gibt direkt eine Wahrscheinlichkeit von 75 % an.