Nobelpreisträger aus den 1980ern: AlphaFold wird als Nächstes Large Language Models integrieren
Zum fünften Jahrestag der Entstehung von AlphaFold hat sein Designer John Jumper, der auch den Nobelpreis für Chemie wegen AlphaFold erhalten hat, öffentlich erklärt:
Der nächste Schritt für AlphaFold besteht darin, es mit großen Modellen zu integrieren.
Die genauen Methoden wurden jedoch nicht offen gelegt. Vielleicht hat man bereits Ideen, oder es ist sogar bereits im Gange.
Innerhalb von fünf Jahren hat AlphaFold bereits über 3 Millionen Forscher weltweit unterstützt, die dreidimensionale Struktur von Hunderten von Millionen von Proteinen vorhergesagt und sich auf über 500.000 relevante wissenschaftliche Artikel ausgewirkt.
Man kann sagen, dass dies nach der Quantentheorie und der molekularbiologischen Revolution ein weiterer großer Sprung in den Lebenswissenschaften darstellt.
Nach der anfänglichen "Revolution der Strukturvorhersage" und der anschließenden Transformation zu einem "Standardwerkzeug für die Forschung" tritt AlphaFold und seine Folgetechnologien in eine neue Phase der großen Modelle ein.
AlphaFold + Große Modelle
Selbst in der heutigen Zeit des anhaltenden AI-Wellenbruchs bleibt AlphaFold immer noch das meilensteinmarkanteste Beispiel für die Umsetzung von AI in den Lebenswissenschaften.
Als ein von Google DeepMind entwickeltes AI-Forschungswerkzeug kann AlphaFold die dreidimensionale Struktur von Proteinen präzise vorhersagen.
Unter Verwendung einer großen Menge an experimentellen Daten, die in Sequenz- und Strukturdatenbanken gespeichert sind, wird das Netzwerk trainiert, um Zusammenhänge und Muster zwischen Aminosäuresequenzen zu entdecken.
Seit der ersten Veröffentlichung von AlphaFold 2 im Jahr 2020 ist es schnell zur soliden Grundlage in der strukturellen Biochemie geworden. Anschließend wurden nacheinander AlphaFold Multimer, das die Struktur mehrerer Proteine vorhersagen kann, und AlphaFold 3, das bisher das schnellste ist, vorgestellt.
Heute hat AlphaFold sich von der ursprünglichen einfachen Vorhersage der Proteinstruktur zu einer Technologie entwickelt, die komplexere multimolekulare Komplexe und einen breiteren Bereich von Biomolekülwechselwirkungen behandeln kann.
Basierend auf AlphaFold haben Wissenschaftler auch zahlreiche Ergebnisse erzielt:
So hat kürzlich ein Forschungsteam der Universität Missouri mit Hilfe von AlphaFold erfolgreich das Geheimnis der Herz-Kreislauf-Erkrankung – das "schlechte Cholesterin" (LDL) – enthüllt und dies in der Zeitschrift Nature veröffentlicht.
LDL ist der Hauptrisikofaktor für Herzerkrankungen wie Arteriosklerose und koronare Herzkrankheit. Sein Kern besteht aus dem ApoB100-Protein. Aufgrund seiner großen Größe, komplexen Struktur und engen Verbindung mit Fetten konnten Wissenschaftler seine atomare dreidimensionale Struktur lange Zeit nicht bestimmen.
Deshalb haben sie AlphaFold verwendet, um zunächst die Struktur seiner Aminosäuresequenz vorherzusagen, dann das generierte Modell in ein Dichtediagramm einzupassen und es schrittweise zu optimieren, bis es mit den experimentellen Daten übereinstimmte.
Schließlich wurde die käfigartige Struktur von ApoB100 enthüllt, was eine theoretische Grundlage für die weitere Förderung der Behandlung von Herz-Kreislauf-Erkrankungen bietet.
Ein weiteres Beispiel ist die Untersuchung der Krankheitsresistenz von Bienen mit Hilfe von AlphaFold.
Diese Studie konzentriert sich auf das Schlüsselprotein Vitellogenin (kurz Vg) in Bienen. Dieses Protein unterstützt nicht nur die Ernährung der Nachkommen in der Bienenkolonie, sondern ist auch eng mit der Immunität und Stressresistenz der Bienen verbunden.
Mit der Hilfe von AlphaFold konnten die Forscher in nur zwei Tagen die Arbeit erledigen, die zuvor mehrere Jahre gedauert hätte, und das fast atomare Strukturmodell des Vg-Proteins entschlüsseln, was eine entscheidende leitende Rolle bei dem Schutz gefährdeter Populationen spielt.
Außerdem ist AlphaFold auch bei einigen unkonventionellen Anwendungen immer noch sehr effektiv.
Der Computervirologe David Baker, der im vergangenen Jahr zusammen mit John Jumper den Nobelpreis für Chemie erhielt, versucht gerade, AlphaFold zu verwenden, um die Erfolgsrate der Proteinsynthese- und -designs vorherzusagen.
Einige Teams verwenden AlphaFold auch als Suchmaschine, um aus Tausenden von Kandidatenproteinen dasjenige auszuwählen, das am wahrscheinlichsten mit dem Zielprotein bindet.
...
Insgesamt lässt sich die Wirkung von AlphaFold kaum aufzählen. Es ist nicht nur ein einfaches Werkzeug zur Strukturvorhersage, sondern auch ein wichtiger Bestandteil des heutigen experimentellen Designs.
Wo geht es also mit AlphaFold weiter?
Laut John Jumper wird der nächste Schritt die Integration von AlphaFold mit breiteren großen AI-Modellen sein.
AlphaFold wird weiterhin die Strukturvorhersage als grundlegenden Bestandteil des Forschungsablaufs vorantreiben. Gleichzeitig wird seine Fähigkeit zur Strukturvorhersage in Kombination mit großen Modellen auf ein Niveau gesteigert, auf dem es wissenschaftliche Literaturdaten verstehen und wissenschaftliche Schlussfolgerungen ziehen kann.
Das bedeutet, dass AlphaFold in Zukunft möglicherweise nicht nur Strukturen vorhersagen, sondern auch Hypothesen aufstellen, experimentelle Abläufe entwerfen und sogar Forschungsansätze automatisch generieren kann.
Bei komplexeren multimolekularen und multifunktionalen Systemen, wie z. B. der Wechselwirkung zwischen Proteinen und der Wechselwirkung von Nukleinsäuren (DNA/RNA), kann AlphaFold ebenfalls besser helfen, die entsprechenden biologischen Prozesse zu verstehen.
Das ist ähnlich wie bei einem anderen System von Google, AlphaEvolve, das ein großes Modell verwendet, um Lösungen für Probleme zu generieren, und dann ein zweites Modell, um die falschen Informationen zu überprüfen und auszufiltern.
Die beiden Ansätze sind ähnlich, aber das eine richtet sich an die mathematischen und informatischen Wissenschaften, das andere an die Biochemie.
Der erste Nobelpreisträger aus der "80er"-Jahrgangsstufe
Die Leitung der Entwicklung von AlphaFold obliegt dem Gründer und CEO von DeepMind, Demis Hassabis, und John Jumper.
John Jumper ist der jüngste Nobelpreisträger für Chemie und der erste Nobelpreisträger aus der "80er"-Jahrgangsstufe.
Er absolvierte sein Bachelorstudium an der Vanderbilt University, wo er Mathematik und Physik studierte. Anschließend absolvierte er einen Master in theoretischer kondensierter Materie an der Universität von Cambridge und wechselte während seiner Promotion an der Universität von Chicago zur theoretischen Chemie.
Seine Dissertation befasste sich mit der Anwendung von maschinellem Lernen auf die Untersuchung der Proteindynamik.
Im Jahr 2017, als er noch Postdoc war, hörte er, dass Google DeepMind geheimnisvoll von der Entwicklung von Spiel-AI zur Vorhersage von Proteinstrukturen wechselte. Also bewarb er sich um einen Job dort.
Tatsächlich hat Google DeepMind bereits vor AlphaFold ein Protein-Faltungspiel namens "Foldit" entwickelt. Dies liegt daran, dass Hassabis seit seiner Zeit an der Universität von Cambridge an der Protein-Faltungsproblematik interessiert war und hoffte, durch die Vorhersage von Proteinstrukturen Lösungen für Krankheiten wie Alzheimer zu finden.
Aber ein Spiel bleibt letztendlich nur ein Spiel und reicht bei der Behandlung echter Molekülstrukturen nicht aus, da die Trainingsdaten für die echte Protein-Faltung äußerst begrenzt sind.
Die Bestimmung einer Proteinstruktur dauert oft Monate oder sogar Jahre, und dieser Prozess hat sich bereits fast ein halbes Jahrhundert hinziehen lassen.
Deshalb wandten sie sich der Entwicklung von AlphaFold zu.
Obwohl das erste AlphaFold bei der 13. CASP (Critical Assessment of Protein Structure Prediction) auf sich aufmerksam machte und 25 von 43 Proteinen erfolgreich vorhergesagt hat, was die anderen 97 Teilnehmer unterbot, und somit bewies, dass die Vorhersage von Proteinstrukturen mit "Maschinellem Lernen + Statistischer Information" möglich ist.
Aber Hassabis gestand, dass die Qualität der damaligen Vorhersage noch nicht ausreichte, um von Biologen in der Praxis angewendet zu werden, und dass es noch ernsthafte Mängel bei der Genauigkeit und Generalisierbarkeit für komplexe Proteine gab.
Nachdem sie erkannt hatten, dass die alleinige Verwendung von Standard-Maschinenlernmethoden nicht zum Erfolg führen würde, gründete DeepMind intern eine Spezialgruppe, die AlphaFold 2 mit Hilfe von Transformer komplett neu aufbaute und schrittweise biologische Fachkenntnisse integrierte.
Aber die Leistung von AlphaFold 2 war in der Anfangsphase sogar schlechter als die von AlphaFold 1, was sie befürchten ließ, ob sie den falschen Weg eingeschlagen hatten. Deshalb nahmen sie in dieser Phase einen alternierenden Ansatz:
Einerseits versuchten sie, die Leistung des alten Systems bis an die Grenzen zu treiben, andererseits gaben sie dem Entwicklungsteam des neuen Systems die Freiheit, Fehler zu machen: Sie erlaubten kurzfristige Leistungseinbußen und wollten nur verschiedene neue Ideen ausprobieren.
Eines Tages passierte ein Wunder, und es wurde plötzlich sehr gut.
Eines