Top-KI trifft auf triviellen Fehler: Schreibt mehrere Dutzend Seiten an Ableitungen, stellt fest, dass Aufgabenstellung falsch war

Von der „Lösungsmachine“ zum „Ästhetikrichter“

Eine Belohnung von einigen hundert US - Dollar und ein ungelöstes Problem, das über ein halbes Jahrhundert anhält.

Der größte „Aufgabenmagier“ des 20. Jahrhunderts, Paul Erdős, hinterließ während seines Lebens hunderte von Belohnungsausschreiben. Der Betrag der Belohnungen stieg von 50 Dollar auf 5000 Dollar.

In 50 Jahren haben unzählige Mathematikgenies ihr Haar ausgerissen, aber keinen Cent der Belohnung bekommen.

Dann trat Google DeepMind mit einem Monster namens Aletheia (Göttin der Wahrheit) in das Spiel ein.

Nur sieben Tage nach dem Start wurden 13 schwierige Probleme gelöst.

Link zur Studie: https://arxiv.org/abs/2601.22401

Aber die am schmerzhaftesten ins Herz gehende Wahrheit ist: Die KI ist nicht klüger als Sie, sie versteht nur besser, wie man „Inhalte umschreibt“.

Die Wahrheit hinter 13 von 700: Beschleunigt die KI wirklich die Wissenschaft?

Der Titel „KI löst ein Jahrhundert - altes mathematisches Problem“ klingt wie ein sensationeller Artikel. Man sollte ihn nur hören und nicht von ihm mitreißen lassen.

In der Mathematik zählt nur das Harte. Die von DeepMind entwickelte Aletheia ist im Grunde kein „Genie der Mathematik“, sondern eine kaltblütige „Spitzen - Logik - Waschstraße“.

Diese Logik ist äußerst grausam und hat etwas von dem blutigen KPI - Gedanken der Silicon - Valley - Großkonzerne:

Im Anfangsstadium wurden 700 Erdős - Vermutungen in die Datenbasis geladen.

Dann schaltete Gemini den Deep - Think - Modus ein und steckte massiv Rechenleistung hinein, um 200 Kandidaten für Lösungen zu erhalten.

Diese 200 Kandidaten wurden dann durch einen natürlichen Sprachvalidator geprüft, und die logisch inakzeptablen Teile wurden ausgesondert. Am Ende blieben nur noch 63 übrig.

Nach einer fachkundigen mathematischen Herleitung wurden 13 wirklich mathematisch originelle Lösungen gefunden.

Erfolgreich bewiesenes Problem: Erdős Problem #1051

Nur 13 von 700 Problemen wurden gelöst. Die Umwandlungsrate liegt bei weniger als 2%.

Das repräsentativste Beispiel ist der Beweis zur Verteilung der Irrationalzahlen in der Vermutung „Erdős - 1051“.

Es klingt beeindruckend, aber DeepMind gibt selbst zu, dass 68,5% der Ergebnisse akademischer Müll sind.

Manche von der KI gelieferten Beweise haben mehrere hundert Seiten und lesen sich wie zusammengeklammerte Artikel.

Während des gesamten Prozesses fungiert Aletheia wie ein „automatischer Gutachter“. Gemini produziert massiv, und der Validator lehnt kaltblütig ab.

Der konkrete Prozess der Behandlung mathematischer Vermutungen durch Gemini DeepThink: https://www.youtube.com/watch?v=Nmv4YxpbhU8

Noch ironischer ist, dass die menschlichen Mathematiker nach der Überprüfung feststellten, dass ein großer Teil dieser 13 sogenannten „Durchbrüche“ für die Mathematikwelt „einfache Früchte“ sind - zu umständlich, also will niemand sie erledigen.

Ein Kombinatorik - Experte, der an der Begutachtung beteiligt war, hat privat gesagt:

Die Stärke der KI liegt derzeit nicht in der Schöpfung, sondern im Säubern.

Solange die Rechenleistung ausreicht, ist die KI in der Sammlung, Organisation und Erzwingung von Ergebnissen durch brute Logik fast unbesiegbar.

Unbewusster Plagiat: Die Kunst des „Inhaltsumschreibens“ von KI - Mathematikern

Bei der Präsentation der Ergebnisse von DeepMind tauchte ein neues Schlagwort auf, das die akademische Welt aufrüttelte: Unbewusster Plagiat.

Einfach ausgedrückt: Die KI nutzt ihre fast unendliche Festplatte, um einen unbekannten Artikel aus einer abgelegenen Ecke zu holen und ihn dann mit moderner logischer Sprache neu zu verpacken.

Das typischste Beispiel für einen Absturz ist der Beweis zur Vermutung Erdős - 1089.

Aletheia lieferte damals eine äußerst raffinierte Herleitung, so raffiniert, dass fast einige Spitzenmathematiker ihr einen Preis geben wollten.

Aber dann stellte jemand bei der Tiefenanalyse der Datenbank fest, dass diese sogenannte „originelle Inspiration“ stark mit einem Artikel in einer unbekannten osteuropäischen Mathematikzeitschrift aus dem Jahr 1981 übereinstimmt.

Dies ist die am meisten verzweifelt machende Eigenschaft der KI als „Black Box“.

Für die KI gibt es keine Konzepte von Originalität und Plagiat. Sie kombiniert einfach die Token mit der höchsten Gewichtung unter der Anleitung der Wahrscheinlichkeit.

Die KI erinnert sich an alles, was Sie vergessen haben. Wenn sie aus Milliarden von Parametern eine unbekannte Verbindung extrahiert, weiß sie selbst nicht, ob sie eine Hommage macht oder sich etwas klaut.

Details des GoogleDeepMind - Aletheia - Projekts. Auf dieser Seite können Sie mehr konkrete Ausgabebeispiele finden: https://github.com/google - deepmind/superhuman

Solange man der KI genug Daten gibt, kann sie einen alten Artikel durch die Änderung des Zeichensystems und die Anpassung der Herleitungsschritte so umschreiben, dass er wie ein frisch herausgekommener SCI - Artikel aussieht.

Terence Tao, Preisträger des Fields - Medals, hat es treffend erkannt:

Die KI macht keine Mathematik, sondern führt eine massive Induktion und Integration der menschlichen bisherigen Weisheit durch.

Das ist beängstigend. Wenn die KI auch in der harten Welt der mathematischen Wahrheit durch „Inhaltsumschreiben“ durchkommt, was sind dann unsere Branchenberichte, Architekturpläne und Marktanalysen in ihren Augen?

Selbst Meister geraten ins Straucheln: Das verfluchte Erdős - 75

Das folgende „Geistergeschehen um Erdős - 75“ zeigt die Intelligenzschwächen der KI auf.

Dieses Problem hat in der Mathematikwelt einen schlechten Ruf, weil es „verflucht“ ist.

1995 machte Erdős einen elementaren logischen Fehler, als er diese Vermutung aufschrieb. Die Fragestellung ist falsch, es ist eine falsche Aussage.

Es passierte etwas Magisches: Nachdem Aletheia das Problem übernahm, bemerkte es nicht einmal, dass das Problem fehlerhaft war. Stattdessen produzierte es dank seiner enormen Rechenleistung und des Selbst - Spiel - Mechanismus eine „perfekte Beweisführung“ mit mehreren Dutzend Seiten, die logisch abgeschlossen war.

Dieser „logische Lauf“ zeigt die fatale Schwäche der gegenwärtigen KI auf:

Erstens fehlt der KI Ästhetik und gesunder Menschenverstand. Sie sucht nur nach der besten Lösung innerhalb des Symbolrahmens, ohne zu verstehen, ob dieser Rahmen überhaupt Sinn macht.

Zweitens ist die Belohnungsfunktion blind. Das Ziel der KI ist es, den Validator stillzulegen. Solange der Beweisprozess den Regeln entspricht, ist sie bereit, auch zu einem absurdesten Ergebnis zu gelangen.

Am Ende mussten die Mathematiker den Fehler finden. Sie haben die Manuskripte aus dem Jahr 1995 ausgegraben und Zeile für Zeile überprüft. Das Ergebnis war: „Das Problem ist fehlerhaft. Die KI hat umsonst bewiesen.“

Und das ist genau unsere letzte Verteidigungslinie im Wettbewerb mit der KI. Die KI kann in wenigen Millisekunden einen logischen Marathon von tausenden von Kilometern absolvieren, aber sie weiß nicht, ob die Ziellinie außerhalb eines Abgrunds gezeichnet ist.

DeepMind setzt alles auf eine Karte: Das Scheitern der „mathematischen PR - Schlacht“ von OpenAI

Vor kurzem hat OpenAI mit o1 in der mathematischen AIME - Prüfung für Schlagzeilen gesorgt und behauptet, dass die KI eine ähnliche „langsame Denkweise“ wie der Mensch entwickelt habe.

Aber aus der Sicht von DeepMind war das höchstens eine äußerst erfolgreiche Recherche in der Literatur.

Um OpenAI zu demütigen, hat Google in der Ausgabe - Klassifizierung von Aletheia ein ziemlich boshaftes Label eingeführt: „Verknüpfung mit bekannter Literatur“.

Es ist offensichtlich, dass es OpenAI ironisiert: Du denkst, du hast das Problem gelöst, aber du hast nur die richtige Lösung aus dem Trainingssatz herausgesucht.

DeepMind hingegen sagt, dass es nicht nur beweisen kann, sondern auch sagen kann, welche Ergebnisse von Menschen bewiesen wurden, welche durch Inhaltsumschreiben entstanden sind und welche wirklich original sind.

Diese „mathematische PR - Schlacht“ hat den Schleier der Konkurrenz zwischen den Großkonzernen aufgerissen.

Die mathematische Fähigkeit von OpenAI hängt in hohem Maße von der „Übungsmethode“ ab. Sobald es auf echte Probleme außerhalb des Trainingssatzes stößt, gerät es schnell in Schwierigkeiten.

DeepMind geht den „AlphaGo - Weg“ - Selbst - Spiel + formale Validierung (Lean). Selbst wenn die Umwandlungsrate nur 2% beträgt, will es sicherstellen, dass diese 13 Ergebnisse echtes Zeug sind.

Offizielle Technische Dokumentation von DeepMind: Selbst - Spiel und formaler Beweis von Aletheia für die Mathematik

Terence Tao, der „Schweizer Taschenmesser“ der Mathematikwelt, hat diese Konkurrenz immer beobachtet.

Er hat in seinem Blog indirekt gesagt, dass er eher an ein System glaubt, das „von Computern verifizierbare Beweise“ erzeugen kann, als an ein Wahrscheinlichkeitsmodell, das nur „richtig aussieht“.

Das ist eine Unterstützung für DeepMind.

Verschiebung der Engpässe: Vom „Problemlöser“ zum „Ästhetischen Richter“

Was hat uns diese Schlacht von 13 von 700 am Ende gelehrt?

Es ist - der Engpass in der mathematischen Entdeckung verschiebt sich von der „Problemlösungsfähigkeit“ zur „Wertbeurteilung“.

Diese Paradigmenverschiebung zeigt zwei Überlebenswege für alle zukünftigen harten Fachkräfte an:

Der eine Weg ist, vom „Betreiber“

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Top-KI trifft auf einen triviellen Fehler: Schreibt mehrere Dutzend Seiten an Ableitungen und stellt dann fest, dass die Aufgabenstellung falsch war?

Die Wahrheit hinter 13 von 700: Beschleunigt die KI wirklich die Wissenschaft?

Unbewusster Plagiat: Die Kunst des „Inhaltsumschreibens“ von KI - Mathematikern

Selbst Meister geraten ins Straucheln: Das verfluchte Erdős - 75

DeepMind setzt alles auf eine Karte: Das Scheitern der „mathematischen PR - Schlacht“ von OpenAI

Verschiebung der Engpässe: Vom „Problemlöser“ zum „Ästhetischen Richter“