Der Goldmedaille im Mathematik-Olympiade ist nur der Anfang. OpenAI und Google haben die Propheten komplett entlarvt. Die Woge der Künstlichen Intelligenz ist unaufhaltsam.
Im Jahr 2022 behaupteten Propheten: Bis 2025 besteht nur eine 90-prozentige Wahrscheinlichkeit, dass KI nicht die Goldmedaille bei der Internationalen Mathematikolympiade (IMO) gewinnen wird.
Das war eine sehr sichere Behauptung, voller Zuversicht.
Allerdings brauchte es nur zwei Jahre, bis OpenAI und Google DeepMind diese pessimistischen Prophezeiungen zerschmetterten:
Die großen Sprachmodelle (LLMs) haben nicht nur vorzeitig die Goldmedaille errungen, sondern auch die Vorstellungen von den Grenzen der KI-Fähigkeiten übertroffen.
Von der Sprachgenerierung bis zur logischen Argumentation, von den allgemeinen Fähigkeiten bis zum Wettbewerb in speziellen Bereichen: Die generativen KIs überwinden mit erstaunlicher Geschwindigkeit jede von den Menschen errichtete „Intelligenzbarriere“.
Je weiter daneben die Vorhersagen lagen, desto überwältigender ist die Wirkung der KI.
Heute kann man fast sicher sagen, dass die Entwicklung der KI weit schneller voranschreitet als die vorherrschenden Erwartungen der letzten Jahre.
Die großen Veränderungen haben erst gerade begonnen.
Die Propheten scheitern kollektiv
Gerade kündete Ethan Mollick, Professor an der Wharton School der Universität Pennsylvania und Mitdirektor des Labors für generative Künstliche Intelligenz, sehr zuversichtlich: In der Vergangenheit hat man die Entwicklungsgeschwindigkeit der KI unterschätzt.
Er führte ein Beispiel an:
Im Jahr 2022 lud das Forecasting Research Institute 169 führende Prognostiker und Wissenschaftler ein, den Fortschritt der KI zu bewerten.
Damals kamen sie zu dem Schluss, dass bis 2025 nur eine 2,3-prozentige und 8,6-prozentige Wahrscheinlichkeit besteht, dass KI die Goldmedaille bei der Internationalen Mathematikolympiade gewinnen wird.
Das Ergebnis: Die Realität hat sie ins Gesicht geschlagen. Die beiden großen generativen Modelle Gemini von Google DeepMind und ChatGPT von OpenAI haben die Goldmedaille bei der Internationalen Mathematikolympiade 2025 gewonnen.
Google DeepMind und OpenAI haben um die erste „IMO-Goldmedaille“ in der Geschichte der KI gekämpft. OpenAI hat seine Ergebnisse früher veröffentlicht, aber das Modell von Google DeepMind hat die offizielle Bestätigung der IMO erhalten.
OpenAI hat mit seiner Vorreiterei eine Menge Aufmerksamkeit erregt:
Es heißt, dass Google die Ergebnisse erst nach der offiziellen Bestätigung der IMO publiziert hat, um die teilnehmenden Schüler zu respektieren.
Dies war ein historischer Moment für die KI, der den großen Fortschritt der KI in den letzten zehn Jahren markiert.
Die großen Sprachmodelle, die ursprünglich für die Sprachgenerierung entwickelt wurden, haben in der Mathematik auch weit über die Erwartungen der meisten Menschen hinausgegangen.
Noam Broen, ein Forscher bei OpenAI, meint, dass die damaligen Vorhersagen für die LLMs noch pessimistischer waren:
Es ist auch zu beachten, dass diese Vorhersagen sich auf „jede“ Art von KI-System bezogen, das die Olympiade gewinnen könnte. Wenn man sich auf die „großen Sprachmodelle“ als generelle KI-Systeme bezieht, war die Wahrscheinlichkeit in ihren Augen noch geringer.
Und kurz vor der Veröffentlichung der Ergebnisse der Internationalen Mathematikolympiade hat MathArena die verfügbaren großen Modelle getestet, und keines konnte eine Bronzemedaille gewinnen:
Später kam die Nachricht, dass eine KI die Goldmedaille gewonnen hatte.
Bei der mathematischen Argumentation wurde die Leistung der LLMs wiederholt unterschätzt.
Das Forecasting Research Institute hat zugeben müssen, dass die KI bei der Internationalen Mathematikolympiade beeindruckende Ergebnisse erzielt hat.
Die fehlerhaften Vorhersagen sind kein Zufall, sondern ein Zeichen für einen Paradigmenwechsel.
Tatsächlich haben die Vorhersagen in den drei Standard-KI-Benchmarks MATH, MMLU und QuALITY fast gänzlich daneben gelegen.
Beim MATH-Datensatz-Benchmark erreichte GPT-4 Turbo im April 2024 87,82 %. Die Fachexperten und Super-Vorhersager schätzten die Wahrscheinlichkeit, dass bis zum 30. Juni 2024 dieses Niveau erreicht wird, auf 21,4 % und 9,3 %.
Beim MMLU erreichten GPT-4o und Claude 3.5 Sonnet Mitte 2024 88,7 %, während die vorhergesagten Wahrscheinlichkeiten nur 25,0 % und 7,2 % betrugen.
Beim QuALITY Hard-Subset erreichte RAPTOR + GPT-4 im Juni 2023 eine Punktzahl von 69,3 – ein ganzes Jahr vor dem Zieltermin.
Sowohl die Fachexperten als auch die Super-Vorhersager haben die Entwicklungsgeschwindigkeit und -richtung der KI falsch eingeschätzt.
Beide Gruppen haben die maximale Rechenleistung der KI bis Ende 2024 unterschätzt. Die Vorhersagen der Super-Vorhersager lagen nur bei einem Fünftel des tatsächlichen Maximums. Gleichzeitig haben sie die Obergrenze der maschinellen Lernmodelle überschätzt:
Die Experten haben vorhergesagt, dass die Parameteranzahl 1,00E+14 (100 Billionen) erreichen würde.
Die Super-Vorhersager haben dagegen eine Anzahl von 4,00E+14 (400 Billionen) erwartet.
Beide Vorhersagen liegen um das Zehnfache höher als die derzeit vorläufig festgestellte Parameteranzahl von 1,00E+13 (10 Billionen).
Ähnlich hat McKinsey einen Bericht veröffentlicht, in dem die Vorhersagen einer Gruppe von KI-Experten aus dem Jahr 2017 (vor den LLMs) dargestellt werden.
McKinsey hat beispielsweise vorhergesagt, dass die KI bis 2037 das durchschnittliche Kreativitätsniveau der Menschen erreichen würde. Tatsächlich wurde dieses Ziel bereits 2023 erreicht.
Und was das Erreichen des oberen Viertels des Kreativitätsniveaus betrifft: McKinsey hatte ursprünglich geschätzt, dass dies erst 2055 möglich sein würde, aber dieses Ziel wurde bereits 30 Jahre früher erreicht.
Aufgrund der Entwicklung der generativen KI wird erwartet, dass die technischen Leistungen schneller als zuvor geschätzt das Niveau des menschlichen Medianwerts erreichen und in einem breiten Bereich von Fähigkeiten das obere Viertel der Menschen erreichen werden.
McKinsey Global Institute (MGI) hat beispielsweise früher angenommen, dass die Technologie in Bezug auf das Verständnis natürlicher Sprache frühestens 2027 das Niveau des menschlichen Medianwerts erreichen würde. In der neuen Analyse wurde dieser Zeitpunkt jedoch auf 2023 verschoben.
In seinem Bericht von 2025 hat McKinsey festgestellt, dass die KI in den letzten zwei Jahren einen rapiden Fortschritt gemacht hat und viele wichtige KI-Inovationen aufgetaucht sind ⬇️.
Der Internetnutzer Aravind Sunda hat über den schnellen Fortschritt der KI gewundert:
Die Veränderungen sind verrückt schnell. Was 2022 unmöglich schien, ist jetzt greifbar nah.
Am 30. November 2022 wurde ChatGPT offiziell vorgestellt