Ein chinesischer Dozent aus der Generation der Neunzigjährigen hat eine 30 Jahre alte mathematische Vermutung überwunden. Die Ergebnisse stehen in direktem Zusammenhang mit generativen KI.
Die seit über 30 Jahren die Mathematikwelt plagende Talagrandsche Faltungs-Vermutung wurde von einem chinesischen Mathematiker aus der Nachwuchsgeneration der 90er-Jahre gelöst!
Yuansi Chen von der Eidgenössischen Technischen Hochschule Zürich hat gerade seine neuesten Forschungsergebnisse auf arXiv veröffentlicht:
Die Dissertation beweist die Talagrandsche Faltungs-Vermutung (Talagrand’s convolution conjecture) auf dem Booleschen Hyperwürfel, und das Ergebnis ist bis auf einen Faktor von log log η genau.
Dieses Ergebnis hat viel Aufmerksamkeit erregt. Einfach ausgedrückt, liegt das daran, dass es mathematische Argumente für das Verständnis der Glättung in hochdimensionalen diskreten Räumen liefert.
Außerdem steht diese Forschung in engem Zusammenhang mit dem maschinellen Lernen:
Sie stützt theoretisch das Konzept der Regularisierung im maschinellen Lernen;
Sie liefert direkte mathematische Werkzeuge und physikalische Intuitionen für die Entwicklung von generativen KI-Modellen zur Verarbeitung diskreter Daten.
Lösung eines 30-jährigen mathematischen Rätsels
Die Talagrandsche Faltungs-Vermutung wurde 1989 von Michel Talagrand, dem Gewinner des Abel-Preises, dem sogenannten "Nobelpreis der Mathematik", aufgestellt.
Zunächst wollen wir uns zwei Konzepte anschauen. Das erste ist die "Glättung durch Erwärmung":
Stellen Sie sich einen sehr hochdimensionalen Raum vor, wie zum Beispiel ein riesiges mehrdimensionales Schachbrett, bei dem der Zustand jedes Feldes eine binäre Wahl ist. Es gibt eine Funktion, die möglicherweise sehr "spitz" ist, d. h. an manchen Stellen hat sie einen sehr großen Wert, an anderen einen sehr kleinen Wert.
Die mathematische Operation der "Faltung" oder der "Wärmehalbgruppe" ist wie das "Erwärmen" dieser Funktion, sodass die Wärme sich ausbreitet und die hohen Werte in die umliegenden Gebiete mit niedrigen Werten fließen. Das Ergebnis ist, dass die Funktion glatter wird und die Spitzen abgeschliffen werden.
Das zweite Konzept ist die Markov-Ungleichung:
Die Markov-Ungleichung sagt uns, dass die Wahrscheinlichkeit, dass eine nichtnegative Zufallsvariable einen extrem großen Wert annimmt, sehr gering ist. Wenn der Durchschnittswert beispielsweise 1 ist, dann beträgt die Wahrscheinlichkeit, dass der Wert über 100 (η) liegt, höchstens 1% (d. h. 1/η).
Talagrands Vermutung ist, dass nach der "Glättung durch Erwärmung" (Faltung) einer Funktion in Wahrscheinlichkeitsräumen wie dem Gaußschen Raum oder dem Booleschen Hyperwürfel die Wahrscheinlichkeit, dass diese Funktion einen extrem großen Wert annimmt, viel niedriger sein sollte als die von der Markov-Ungleichung vorhergesagte Wahrscheinlichkeit.
Er meint, dass diese Wahrscheinlichkeit nicht nur von 1/η kontrolliert wird, sondern dass man sie zusätzlich durch einen Faktor teilen sollte, der mit
zusammenhängt.
D. h., die Talagrandsche Faltungs-Vermutung besagt, dass die Wahrscheinlichkeit, dass in geglätteten Daten extreme Ausreißer auftreten, um eine bestimmte Größenordnung niedriger ist als von der allgemeinen Theorie vorhergesagt.
△
Bisher wurde die Gaußsche Form (kontinuierlicher Raum) dieser Vermutung von Mathematikern gelöst. Aber die Verallgemeinerung auf diskrete Räume wie den Booleschen Hyperwürfel bleibt eine große Herausforderung.
Der Grund dafür ist, dass die Lösung der Gaußschen Form auf der Glätte und der Vollständigkeit der Werkzeuge beruht, die von der Analysis und den stochastischen Differentialgleichungen im kontinuierlichen Raum bereitgestellt werden. Diese Eigenschaften können nicht direkt auf diskrete Räume übertragen werden.
Yuansi Chens Lösungsidee ist, das Rahmenwerk der stochastischen Analyse im Gaußschen Raum zu nutzen und die Eigenschaften des rückwärts gerichteten Wärmeprozesses zu verwenden, um Störungen zu gestalten, die sich an die diskreten Eigenschaften des Booleschen Hyperwürfels anpassen.
Genauer gesagt nutzt die neue Kopplungs-Konstruktion Störungen entlang eines stochastischen Prozesses. Der Störterm δ ist keine Konstante, sondern hängt vom Zustand und den Koordinaten ab.
Die Dissertation beweist schließlich:
Das zeigt, dass der Kerngedanke der Talagrandsche Faltungs-Vermutung richtig ist.
Dieses Ergebnis löst die ursprüngliche Vermutung bis auf einen Faktor von log log η genau. Da log log η extrem langsam wächst, kann man sagen, dass die Talagrandsche Faltungs-Vermutung fast vollständig gelöst ist.
Es ist bemerkenswert, dass diese Dissertation eine reine mathematische Forschung über die Wahrscheinlichkeitstheorie ist, aber ihre Ergebnisse in direktem Zusammenhang mit dem maschinellen Lernen und sogar mit der generativen KI-Technologie stehen.
Zunächst ist der in der Dissertation verwendete "rückwärts gerichtete Wärmeprozess" das Äquivalent des Diffusionsmodells auf dem Booleschen Hyperwürfel, und die beiden haben eine hohe Ähnlichkeit.
Dies bedeutet, dass diese Forschung möglicherweise hilft, Diffusionsgenerierungsmodelle für diskrete Daten zu verstehen oder zu entwickeln.
Zweitens besteht der Kern der Talagrandsche Faltungs-Vermutung darin, den Regularisierungseffekt der Faltungsoperation zu quantifizieren. Im maschinellen Lernen ist die Regularisierung ein Schlüsselverfahren zur Verhinderung von Überanpassung und zur Verbesserung der Generalisierungsfähigkeit von Modellen.
Dieses Ergebnis liefert die theoretische Stütze dafür, warum Glättungsprozesse oder das Hinzufügen von Rauschen dazu führen, dass Modelle in komplexen hochdimensionalen Räumen stabiler funktionieren.
Außerdem sind viele Daten im maschinellen Lernen im Wesentlichen diskret und hochdimensional. Diese Forschung hilft, die geometrischen Eigenschaften hochdimensionaler diskreter Räume zu verstehen und ist sehr wertvoll für die Entwicklung von Lerntheorien für binäre Daten oder logische Funktionen.
Chinesischer Mathematiker aus der Nachwuchsgeneration der 90er-Jahre
Der Autor der Dissertation, Yuansi Chen, wurde im Juli 1990 in Ningbo, Zhejiang, geboren.
Seine Hauptforschungsgebiete sind das statistische maschinelle Lernen, die Markov-Kette-Monte-Carlo-Methode, die angewandte Wahrscheinlichkeitstheorie und die hochdimensionale Geometrie.
2019 absolvierte er seinen Doktor an der University of California, Berkeley, unter der Leitung des chinesischen Statistikers Yu Bin.
Nach zwei Jahren Postdoktoratsforschung an der Eidgenössischen Technischen Hochschule Zürich wechselte er von 2021 bis 2024 an die Duke University, wo er als Assistentprofessor an der Fakultät für Statistikwissenschaft arbeitete. Anfang 2024 wechselte er an die Eidgenössische Technische Hochschule Zürich und wurde dort als Associate Professor ernannt.
Nach Google Scholar wurden seine Artikel 1.623 Mal zitiert, und sein h-Index beträgt 13.
Er ist auch der Gewinner des Sloan Research Fellowship 2023.
Früher hat auch seine Arbeit an der KLS-Vermutung viel Aufmerksamkeit erregt: Ein chinesischer Doktorand in Statistik hat das 25 Jahre lang Mathematiker plagende "Apfelschnitt-Rätsel" gelöst.
Link zur Dissertation: https://arxiv.org/abs/2511.19374
Dieser Artikel stammt aus dem WeChat-Account "QbitAI". Der Autor folgt den neuesten Technologien. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.