Google KI erhält die einzige Goldmedaille beim IMO, Silicon Valley gratuliert auf beiden Seiten der Straße, und Altman macht sich immer wieder lächerlich.
Google Gemini hat die Goldmedaille bei der IMO gewonnen, und zwar die offizielle, zertifizierte Art.
Nach der Bewertung durch die offizielle Jury der IMO hat das neue Gemini-Modell 5 von 6 Aufgaben richtig gelöst und sich mit 35 Punkten die Goldmedaille geholt.
Die Goldmedaille gewann eine fortgeschrittene Version von Gemini, die über ein neues Denkmodell verfügt und später an Abonnenten von Google AI Ultra – also diejenigen, die monatlich 1400 Yuan zahlen – zur Verfügung gestellt wird.
Letztes Jahr holte es in drei Tagen die Silbermedaille, dieses Jahr gewann es in 4,5 Stunden die Goldmedaille. Die Mathematikleistungen von DeepMind haben sich also spürbar verbessert.
Außer DeepMind-CEO Demis Hassabis und Google-CEO Sundar Pichai, die Glückwünsche an das Team gesendet haben, hat auch Elon Musk über Twitter seine Glückwünsche ausgesprochen.
DeepMind hat von allen Seiten Glückwünsche erhalten und hat sich damit vorbildlich verhalten.
Je mehr DeepMind gelobt wird, desto schlechter sieht OpenAI aus. Auch wenn es sich um eine AI-Beteiligung an der IMO handelt, ist es schon schlimm genug, im Geheimen zu agieren, aber auch noch um Aufmerksamkeit mit menschlichen Jugendlichen zu konkurrieren, um zu vermarkten.
Unter der Leitung von Sam Altman hat OpenAI in letzter Zeit nur noch Pech gehabt.
DeepMind kündigt an, dass seine AI die Goldmedaille bei der IMO gewonnen hat
Nach der Ankündigung von DeepMind hat das neue Gemini-Modell 5 von 6 Aufgaben bei der diesjährigen IMO richtig gelöst und 35 Punkte erzielt.
Und diese Leistung wurde auch persönlich vom Vorsitzenden der IMO, Gregor Dolinar, bestätigt:
Wir können bestätigen, dass Google DeepMind das langersehnte Meilenstein erreicht hat und 35 Punkte (von 42 möglichen) erzielt hat – was einer Goldmedaille entspricht. Ihre Lösungen sind in vielerlei Hinsicht erstaunlich. Die Prüfer der IMO halten diese Lösungen für klar, präzise und in den meisten Fällen leicht verständlich.
Die Bewertung folgte nicht nur den nicht veröffentlichten Regeln der IMO, sondern auch die Zeitstandard war genau der gleiche wie bei den menschlichen Teilnehmern – die Aufgaben mussten innerhalb von 4,5 Stunden gelöst und abgegeben werden.
Letztes Jahr erreichte DeepMind seine Silbermedaille, indem AlphaProof und AlphaGeometry drei Tage lang an den Aufgaben arbeiteten.
Diesmal war nicht nur die Zeit kürzer, sondern der Prozess des Aufgabenlösens wurde auch ganzheitlich in natürlicher Sprache und end-to-end durchgeführt, ohne dass wie letztes Jahr die Aufgabenformate speziell angepasst werden mussten.
Thang Luong, ein leitender Wissenschaftler bei DeepMind und Leiter des IMO-Teams, sagte, dass dies im Vergleich zum letzten Jahr ein Paradigmenwechsel sei.
Außerdem erklärte Junehyuk Jung, ein Forscher bei DeepMind und Professor an der Brown University, dass bei der dritten Aufgabe dieser Jahres viele menschliche Teilnehmer Lösungen auf Graduiertenebene anwandten (die IMO ist ein Wettbewerb für Highschool-Schüler), aber Gemini nur elementare Zahlentheoriekenntnisse verwendete, um eine kohärente Beweisführung zu liefern.
Jung sagte auch, dass bei der letzten Aufgabe, die Gemini nicht richtig gelöst hat, von Anfang an die falsche Richtung eingeschlagen wurde, aber auch nur fünf menschliche Teilnehmer haben diese Aufgabe richtig gelöst.
Übrigens hat Google die Lösungen der fünf richtig gelösten Aufgaben von Gemini vollständig veröffentlicht (Link am Ende des Artikels). Wenn Sie interessiert sind, können Sie sie überprüfen.
Für diesen Wettbewerb hat DeepMind ein neues, noch nicht veröffentlichtes Modell verwendet, das über das Deep Think-Schlussfolgermodell verfügt.
DeepMind erklärt, dass Gemini Deep Think ein verbessertes Schlussfolgermodell für komplexe Probleme ist, das einige seiner neuesten Forschungstechniken integriert, einschließlich paralleler Denkprozesse.
Dieses Modell ermöglicht es dem Algorithmus, mehrere mögliche Lösungen gleichzeitig zu erkunden und zu kombinieren, um schließlich die endgültige Antwort zu finden, anstatt sich auf eine einzelne lineare Denkrichtung zu beschränken.
Um die Schlussfolgerungsfähigkeit von Deep Think voll auszunutzen, hat DeepMind diese Version von Gemini zusätzlich trainiert, damit es mehr Daten aus mehrstufigen Schlussfolgerungen, Problemlösungen und Satzbeweisen nutzen kann.
Außerdem hat DeepMind Gemini eine sorgfältig ausgewählte, hochwertige Mathematikaufgabenbank zur Verfügung gestellt und in seinen Anweisungen einige allgemeine Tipps und Tricks hinzugefügt, wie man IMO-Aufgaben löst.
Wie Hassabis sagte, wurde das Modell bereits in kleinen Kreisen von Mathematikern und anderen Personen getestet und wird später an Abonnenten von Google AI Ultra zur Verfügung gestellt.
Natürlich hat die heutige Ankündigung von DeepMind viele Lobeshymnen ausgelöst.
DeepMind kündigt die Ergebnisse an und wird in Silicon Valley gefeiert
Einschließlich Lob von Mitbewerbern hat DeepMind die volle Zustimmung von Silicon Valley erhalten.
Außer Elon Musks kurzem "Congrats" am Anfang hat auch ein Wissenschaftler von Meta AI Lob für die klaren, präzisen und sehr lernfreundlichen Lösungen von Gemini ausgesprochen.
Der Grund für die Beliebtheit liegt nicht nur in der hervorragenden Leistung, sondern auch in Googles Respekt vor den Regeln der IMO.
Gemini hat die Herausforderung auf offizielle Einladung der IMO angenommen, und alle Regeln und Standards waren identisch mit denen der menschlichen Teilnehmer.
Außerdem hat DeepMind die Anforderungen der IMO befolgt und hat nicht eilig die Ergebnisse veröffentlicht.
Wenn man sich Hassabiss Tweets genauer ansieht, wird OpenAI nirgendwo erwähnt, aber es ist überall gegen OpenAI gerichtet.
In Hassabiss drei Antworten werden hauptsächlich drei Punkte betont: Die Ankündigung wurde nicht zu früh gemacht, die Ergebnisse wurden von der IMO zertifiziert und das Modell wird in Zukunft verfügbar sein.
Diese drei Punkte stehen im krassen Kontrast zu OpenAIs Vorgehen, das vorzeitig die Goldmedaille angekündigt und dafür kritisiert wurde.
Die Jury und die Koordinatoren der IMO sind sich einig, dass es "rücksichtslos und unangemessen" ist, dass AI-Entwickler während der IMO (besonders vor der Abschlussfeier) die Ergebnisse ankündigen.
Außer dem Problem der Ankündigungszeit ist auch streitig, ob OpenAI tatsächlich die Goldmedaille gewonnen hat.
Thang Luong, der Leiter des Super-Schlussfolgerungsteams von DeepMind, fügt hinzu, dass es innerhalb der IMO eine offizielle Bewertungsrichtlinie gibt, die für Außenstehende nicht zugänglich ist. Ohne eine Bewertung basierend auf dieser Richtlinie hat man keine Berechtigung, eine Medaille zu erhalten.
Bei dieser IMO gab es insgesamt 6 Aufgaben, jede mit 7 Punkten. Die Goldmedaille wird ab 35 Punkten vergeben. OpenAIs selbst angegebene Punktzahl liegt knapp über der Schwelle. Selbst eine kleine Punktabzug in der Lösung könnte OpenAI von der Gold- zur Silbermedaille verfallen lassen.
Einige Internetnutzer haben kommentiert: OpenAI macht alles, um auf sich aufmerksam zu machen. Ohne offizielle Punktzahl, ohne Geduld und ohne Scham.
Außerdem ist das Modell, das OpenAI für den Wettbewerb verwendet hat, eine noch nicht veröffentlichte Version und wird möglicherweise nie veröffentlicht werden.
Insgesamt steht OpenAI in krassem Kontrast zu Google.
Ein OpenAI-Forscher antwortet auf die Zweifel
Als Reaktion auf diese Zweifel hat der OpenAI-Forscher Noam nach einem Glückwunsch an Google auch eine Antwort gegeben:
Zunächst erklärt Noam, dass OpenAI nicht mit der offiziellen IMO zusammengearbeitet hat, nicht weil es keine Einladung erhalten hat, sondern weil OpenAI die Einladung abgelehnt hat.