Google's AlphaFold hat den Nobelpreis gewonnen, aber hat DeepMind überhaupt keine früheren wissenschaftlichen Arbeiten zitiert?
Streit um den Nobelpreis für AlphaFold! Eine Studie, die ein Doktorand 2016 auf der NeurIPS vorgestellt hat, könnte möglicherweise der „Prototyp“ von AlphaFold sein. Jetzt hat der Mentor Daniel Cremers Stellung genommen und gefragt, warum DeepMind diese Studie ignoriert und nicht zitiert hat?
AlphaFold hat sich durch den Nobelpreis einen Ruhm erworben.
In den meisten Fällen ist die Vorhersagegenauigkeit von AlphaFold 2 fast mit der Röntgenkristallographie vergleichbar, was sehr beeindruckend ist.
Ein seit einem halben Jahrhundert bestehendes Problem in der Biochemie wurde endlich gelöst.
Aber bereits 2016 hat Dr. Vladimir Golkov auf der NeurIPS-Konferenz vorgeschlagen, mithilfe von tiefen neuronalen Netzen direkt aus Koevolutionsdaten Protein-Kontaktkarten vorherzusagen.
Bei den CASP 11-Tests war diese Methode besser als alle anderen damaligen Methoden und kann als der „Prototyp“ von AlphaFold angesehen werden.
Kürzlich hat Daniel Cremers, Direktor des Münchner Zentrums für Maschinelles Lernen und Professor an der Technischen Universität München, erklärt, dass sein Team die Grundlage für den Nobelpreis von AlphaFold gelegt hat.
Jetzt fragt Daniel Cremers: Warum wurde dieser Baustein in der Geschichte ignoriert?
Lasst uns dies herausfinden.
Der Prototyp von AlphaFold war bereits 2016 vorhanden
Im Dezember 2018 trat AlphaFold 1 bei der 13. Critical Assessment of protein Structure Prediction (CASP) sensationell auf und belegte den ersten Platz.
Im November 2020 hat AlphaFold 2 bei der CASP glänzend abgeschnitten, mit einer Medianpunktzahl von 92,4, nahe an der vollen Punktzahl von 100; am 8. Mai 2024 wurde AlphaFold 3 veröffentlicht.
Aber bereits 2016 hielt Vladimir Golkov auf der renommierten AI-Konferenz NeurIPS einen Plenarvortrag über Proteinvorhersage.
Die damals vorgeschlagene Methodik umfasste:
Aufrufen einer Sequenzdatenbank mit bekannten dreidimensionalen Strukturen für die Zielaminosäuresequenz
Anwenden eines Hidden Markov-Modells (HMM) für die Multiple-Sequence-Alignment, um homologe Sequenzen zu identifizieren
Berechnen der Koevolutionsstatistiken für Mutationen
Trainieren eines tiefen neuronalen Netzes zur direkten Vorhersage von Protein-Kontaktkarten aus ursprünglichen Koevolutionsdaten
Eine systematische Bewertung auf dem CASP11-Datensatz zeigte, dass diese Methode sowohl in Bezug auf die Genauigkeit als auch auf die Geschwindigkeit die damaligen besten Techniken deutlich übertrifft
Diese Studie vereinte mehrere Pioniere aus dem Bereich des Deep Learning und der Proteinvorhersage, darunter die Mitarbeiter Thomas Brox, Alexey Dosovitskiy und Jens Meiler.
Link zur Studie: https://papers.nips.cc/paper_files/paper/2016/file/2cad8fa47bbef282badbb8de5374b894-Paper.pdf
Interessanterweise hat Vladimir bereits am Ende seines Vortrags vorausgesagt: „Architekturoptimierung und Skalierung werden die Leistung weiter verbessern“ –
Dies stimmt mit den späteren Durchbrüchen des AlphaFold-Teams überein.
Warum diese Studie nicht zitiert wurde, ist bis heute unklar.
Sie können den 20-minütigen Vortrag von Vladimir ansehen, um die vollständige Entwicklung der Proteinvorhersage zu verstehen:
Im Jahr 2024 erhielten Demis Hassabis (links auf dem Bild unten) und John Jumper (rechts auf dem Bild unten) den Nobelpreis für Chemie für ihre Beiträge zur Proteinstrukturvorhersage.
Der Nobelpreiskomitee hat die Arbeitsweise von AlphaFold 2 wie folgt beschrieben:
Sequenzalignment: Das System sucht in der Datenbank nach Proteinen, deren Sequenzen der Eingabesequenz ähneln. Diese Sequenzen können aus verschiedenen Spezies stammen. Durch das Alignment zeigt das Programm die potenziellen Beziehungen zwischen Aminosäuren auf. Beispielsweise kann eine Mutation an einer Position möglicherweise mit einer Veränderung an einer anderen Position zusammenhängen.
Erstellung einer Distanzkarte: Basierend auf den Korrelationsinformationen aus dem Sequenzalignment erstellt das Programm eine Distanzkarte, die die relativen Abstände der Aminosäuren im Raum zeigt.
Vorhersage der dreidimensionalen Struktur: Das Programm wandelt die Distanzkarte in eine dreidimensionale Struktur um und sagt schließlich die Form des Proteins mit hoher Genauigkeit voraus.
Schematische Darstellung der Arbeitsweise von AlphaFold 2
Daniel Cremers ist der Meinung, dass die sogenannten Kernideen von AlphaFold bereits in ihrer Studie aus dem Jahr 2016 vollständig dargestellt wurden.
Er hat das Gefühl, dass der Nobelpreiskomitee ihre bahnbrechende Arbeit möglicherweise übersehen hat.
Hierzu hat Hugo Penedone, Mitglied des Kernteams von AlphaFold 1, einige historische Details zur Entstehung von AlphaFold genannt.
Hat DeepMind bei seinem Nobelpreis die Beiträge früherer Forscher ignoriert?
Hugo Penedone, Mitglied des ursprünglichen Teams von AlphaFold 1, hat die Entwicklungszeitlinie von DeepMind wiederhergestellt.
Von Juli 2015 bis August 2019 arbeitete Hugo Penedone bei Google DeepMind und forschte über Anwendungen von Deep Learning und Reinforcement Learning.
Laut seinen Erinnerungen hat DeepMind im März 2016 mit der Entwicklung von AlphaFold 1 begonnen, nachdem sie bei einem internen Hackathon versucht hatten, Deep Reinforcement Learning und Optimierungsalgorithmen auf das Spiel FoldIt anzuwenden.
In den folgenden Monaten begannen sie, die Möglichkeit der Vorhersage von Kontaktkarten zu untersuchen.
Protein-Kontaktkarte des Proteins VPA0982 aus Vibrio parahaemolyticus
Da in früheren Publikationen bereits das Konzept der Kontaktkarten erwähnt wurde, haben sie erkannt, dass die Vorhersage von Kontaktkarten mit einem neuronalen Netzwerk genauer ist als die direkte Vorhersage der gesamten Proteinstruktur.
Deshalb ist er der Meinung, dass DeepMind möglicherweise auch 2016 unabhängig von anderen von dieser guten Idee gekommen ist.
DeepMinds Publikationen erschienen viel später als die Studie von NeurIPS 2016. Offensichtlich sollten sie diese früheren Arbeiten in ihrer Arbeit zitiert haben!
Was sagen die AI-Akademiker dazu?
Yann LeCun, einer der berühmtesten AI-Größen der Gegenwart und das Herzstück des Meta AI Labors, hat sich zu diesem Thema geäußert.
LeCun hat erwähnt, dass die Idee, maschinelles Lernen in der Bioinformatik anzuwenden, bereits in den 1990er Jahren auf dem Snowbird Workshop (der Vorgänger der ICLR) geboren wurde.
Zu den Teilnehmern gehörten Anders Krogh (Professor an der Universität Kopenhagen), Pierre Baldi (Professor an der Universität von Kalifornien, Irvine), Richard Durbin (Professor für Genetik an der Universität Cambridge) und David Haussler (wissenschaftlicher Direktor des Genomik-Instituts an der Universität von Kalifornien, Santa Cruz).
Vor AlphaFold gab es bereits mehrere Studien zur Proteinstrukturvorhersage mit neuronalen Netzen.
LeCun hat klar gemacht, dass er nicht die „Beiträge von AlphaFold“ herabwürdigen will.
Es ist bemerkenswert, dass Pierre Baldi von der Universität von Kalifornien, Irvine, einer der Teilnehmer des Snowbird Workshops in den 1990er Jahren, einer der ersten Forscher in diesem Bereich war.
Er hat 2000 mit einem rekurrenten Netzwerk Protein-Kontaktkarten vorhergesagt.
Link zur Studie: https://pubmed.ncbi.nlm.nih.gov/11120677/ Link zur Studie: https://pubmed.ncbi.nlm.nih.gov/10871264/ Link zur Studie: https://pubmed.ncbi.nlm.nih.gov/10869034/
Das war lange bevor Deep Learning populär wurde.
LeCuns Äußerung lässt uns nachdenken:
Gute Ideen kommen selten aus dem Nichts. Sie werden auf irgendeine Weise weitergeleitet und verbessert, manchmal ist es sogar schwierig, ihren Ursprung zu verfolgen.
LeCun hat klar gemacht, dass AlphaFold ein bemerkenswerter und sehr einflussreicher Durchbruch ist, aber kein isolierter Beitrag.
Pierre Baldi, Professor an der Universität von Kalifornien, Irvine, der einer der ersten Forscher in diesem Bereich war, hat sich auch zu diesem Thema geäußert.
Pierre Baldi hat erwähnt, dass die erste Anwendung von Deep Learning in der Proteinstrukturvorhersage in den 1980er Jahren stattfand.
Damals haben Qian und Sejnowski an einem einfacherem Problem der Vorhers