Proteinstrukturvorhersage / Funktionsannotation / Interaktionserkennung / maßgeschneiderte Gestaltung. Das Team von Zhang Shugang der Ozean-Universität von China setzt sich direkt mit den Kernaufgaben der intelligenten Proteinberechnung auseinander.
Dr. Zhang Shugang, ein Assistentprofessor der Fakultät für Informatik der Ozean-Universität von China, hat in seinem Vortrag mit dem Titel "Aufbau und Anwendung des intelligenten Computingsystems für Proteine" umfassend die traditionellen Herausforderungen im Bereich der Proteinforschung erläutert und die Revolution und den Durchbruch, die das intelligente Computingsystem mit sich bringt, systematisch dargelegt. Er hat insbesondere die Forschungsergebnisse seiner Gruppe in den Bereichen funktionelle Annotation, Interaktionserkennung und Designoptimierung vorgestellt. Dieser Artikel ist eine Zusammenfassung des Vortrags von Dr. Zhang Shugang.
Proteine, als die Hauptträger der Lebensvorgänge, spielen eine Schlüsselrolle in den physiologischen Funktionen des menschlichen Körpers. Allerdings stehen die traditionellen Forschungsmethoden vor Herausforderungen wie hohen Kosten für die Strukturaufklärung, stark hinterholter funktioneller Annotation und geringer Effizienz bei der Entwicklung neuer Proteine. In den letzten Jahren ist die Nachfrage nach der Aufklärung der komplexen Eigenschaften von Proteinen in der Lebenswissenschaften immer dringender geworden. Der bahnbrechende Fortschritt in Technologien wie Big Data, Deep Learning und multimodalen Computingsystemen bietet neue Chancen für den Aufbau eines intelligenten Computingsystems für Proteine. Der Aufbau eines solchen Systems hat zu bemerkenswerten Ergebnissen in den Bereichen massenhafter funktioneller Annotation, Interaktionsvorhersage und dreidimensionaler Strukturmodellierung von Proteinen geführt und neue technische Lösungen für die Arzneimittelentwicklung und die Simulation von Lebenssystemen bereitgestellt.
Auf der Beijing Zhiyuan-Konferenz 2025 hat Dr. Zhang Shugang, ein Assistentprofessor der Fakultät für Informatik der Ozean-Universität von China, im Fachforum "AI + Naturwissenschaften & Medizin" einen Vortrag mit dem Titel "Aufbau und Anwendung des intelligenten Computingsystems für Proteine" gehalten. Er hat ausgehend von den Kernwerten des intelligenten Computingsystems für Proteine die technologischen Durchbrüche bei den vier Kernaufgaben - Proteine-Strukturvorhersage, funktionelle Annotation, Interaktionserkennung und neues Design - systematisch erläutert und insbesondere die relevanten Forschungsergebnisse seiner Gruppe vorgestellt.
HyperAI Superneural hat Dr. Zhang Shugangs ausführlichen Vortrag unter Beibehaltung der ursprünglichen Bedeutung zusammengefasst. Im Folgenden finden Sie die vollständige Abschrift des Vortrags.
Übersicht über das intelligente Computingsystem für Proteine: Die AI-getriebene Revolution in der Lebenswissenschaften
In der Lebenswissenschaftenforschung ist die Wichtigkeit von Proteinen unbestritten. Sie sind nicht nur Enzyme, die biochemische Reaktionen katalysieren, sondern auch Botenstoffe, die Signale übertragen, die strukturelle Grundlage des Körpers und die "Waffen" des Immunsystems gegen Eindringlinge. Allerdings sind die traditionellen Forschungsmethoden bei der Bewältigung der komplexen Eigenschaften von Proteinen an ihre Grenzen gestoßen. Herausforderungen wie hohe Kosten für die Strukturaufklärung, stark hinterholte funktionelle Annotation und geringe Erfolgsraten bei der Proteinentwicklung stellen große Hindernisse dar.
Der Einstieg der KI-Technologie hat diese Situation grundlegend verändert. Im Jahr 2024 wurde der Nobelpreis für Chemie für die bahnbrechenden Fortschritte in der Vorhersage und Entwicklung von Proteinen mit KI verliehen. Dies unterstreicht erneut die Wichtigkeit der KI in der Proteinforschung. Das intelligente Computing für Proteine ermöglicht es durch den Aufbau von datengesteuerten Algorithmusmodellen, die komplexen Eigenschaften von Proteinen effizient zu simulieren und vorherzusagen und bietet neue Ansätze und Forschungsparadigmen für die Bewältigung der obigen Herausforderungen. Es hat auch ein neues Zeitalter in der Lebenswissenschaftenforschung eröffnet.
Technologische Durchbrüche bei den Kernaufgaben des intelligenten Computings für Proteine
Die Kernprobleme des intelligenten Computings für Proteine lassen sich in folgende vier Kategorien einteilen:
Kann die Proteine-Struktur von Grund auf vorhergesagt werden? Vom Levinthal-Paradoxon bis zur Revolution durch AlphaFold
Nehmen wir die Proteinfaltung als Beispiel: Ein Protein mit 100 Resten kann bis zu 10^200 verschiedene Konformationen annehmen. Bei einer zufälligen Suche würde die erforderliche Zeit weit über das Alter des Universums (13,8 Milliarden Jahre) hinausgehen. Dies ist das berühmte Levinthal-Paradoxon. Tatsächlich kann sich ein Protein jedoch in Millisekunden bis Minuten falten, was darauf hindeutet, dass es bestimmte Faltungswege gibt.
Im Jahr 2018 hat das erste AlphaFold-Modell versucht, das Problem mit Deep Learning-Methoden zu lösen. Es hat mithilfe von Residual-Convolution-Modulen die Abstände und Torsionswinkel zwischen Aminosäuren vorhergesagt. Im CASP13 hat es mit deutlichem Vorsprung vor den anderen Teilnehmern bestanden und die Strukturen von 25 Proteinen korrekt vorhergesagt, während der Zweitplatzierte nur drei Proteine richtig identifiziert hat.
Im Jahr 2021 hat das zweite AlphaFold-Modell einen qualitativen Sprung erzielt. AlphaFold2 hat HMMER und HH-suite zur multiplen Sequenzalignment und Vorlageensuche eingesetzt. Durch 48 Evoformer-Module und 8 Structure-Module hat es die Vorhersage von Proteinstrukturen mit atomarer Genauigkeit ermöglicht und eine Datenbank mit etwa 214 Millionen vorhergesagten Proteinmonomeren veröffentlicht. Der durchschnittliche Fehler zwischen den vorhergesagten Strukturen und den Ergebnissen der Elektronenmikroskopie beträgt nicht mehr als die Breite eines Atoms, was den "Highly Accurate"-Standard erfüllt.
Im Jahr 2024 hat das dritte AlphaFold-Modell einen weiteren Durchbruch erzielt und die vollständige Vorhersage der Interaktionsstrukturen von Proteinen in vivo ermöglicht. AlphaFold3 hat nicht nur die Fähigkeit zur Vorhersage von Proteinstrukturen verbessert, sondern auch die Strukturvorhersage von Komplexen aus Proteinen und Nukleinsäuren, kleinen Molekülen, Ionen und anderen lebenswichtigen Molekülen ermöglicht. Es deckt fast alle Molekültypen in der PDB-Datenbank ab und bietet ein leistungsstarkes Werkzeug für das Verständnis von Zellfunktionen und die Behandlung von Krankheiten.
Kann die Proteinfunktion automatisch annotiert werden? Der Durchbruch durch die Fusion von Daten aus verschiedenen Quellen
Angesichts der fortschrittlichen Entwicklung von AlphaFold3 in der Proteinvorhersage hat unsere Gruppe beschlossen, das Hauptaugenmerk auf die funktionelle Annotation und Interaktionsanalyse von Proteinen zu legen. Von den weltweit 250 Millionen Proteinsequenzen wurden bisher nur 0,5 % genau annotiert. Das traditionelle Modell, das auf der manuellen Analyse durch Biowissenschaftler beruht, ist bei der Bewältigung der riesigen Datenmengen an seine Grenzen gestoßen. Daher ist die Massenannotation mit Deep Learning-Methoden ein entscheidender Durchbruch.
Unser Engagement in diesem Bereich begann im Jahr 2022. Um das Problem der knappen Verfügbarkeit und hohen Kosten von Elektronenmikroskopie-Strukturdaten für das Deep Learning zu lösen, haben wir innovativ vorgeschlagen, die virtuellen Strukturdaten, die von AlphaFold2 vorhergesagt wurden, für das Modelltraining zu nutzen. Diese Strategie, die ähnlich wie "Data Augmentation" funktioniert, hat die Größe der Trainingsdaten erheblich erhöht - von den 5 Millionen Proben, die traditionell von der Elektronenmikroskopie zur Verfügung gestellt werden, auf theoretisch mehrere Hundert Millionen vorhergesagte Daten. Experimente haben gezeigt, dass das Modell, das auf den vorhergesagten Daten trainiert wurde, nicht nur bessere Leistung als die ursprüngliche Version aufweist, sondern auch neue Proteinfunktionen entdecken kann, die von traditionellen Methoden nicht erkannt wurden.
Titel der Publikation: Enhancing Protein Function Prediction Performance by Utilizing AlphaFold-Predicted Protein Structures
Link zur Publikation: https://pubs.acs.org/doi/10.1021/acs.jcim.2c00885
In Bezug auf die Innovation in den Techniken und Methoden hat unsere Gruppe angesichts des Problems der unzureichenden Nutzung von Proteinstrukturinformationen eine Methode zur Vorhersage von Proteinfunktionen auf der Grundlage von selbstüberwachtem Graph-Attention vorgeschlagen. Durch die Kodierung der Informationen über die Beziehungen zwischen Resten in Proteinen und die Nutzung der Abstandsinformationen zwischen Resten als Hilfstask hat es die Leistung bei der Vorhersage von Proteinfunktionen verbessert. Titel der Publikation: SuperEdgeGO: Edge-Supervised Graph Representation Learning for Enhanced Protein Function Prediction (in Druck)
Schematische Darstellung des Modellaufbaus
Angesichts der Probleme wie der Schwierigkeit der Fusion von verschiedenen Proteinmerkmalen und der Inkonsistenz im Raum haben wir eine Strategie zur Konstruktion von Doppelansichten von Proteinen und eine Methode zur Merkmalsausrichtung vorgeschlagen. Basierend auf den komplexen Eigenschaften von biologischen Proteinen, die sechs verschiedene Skalenmodi (einschließlich Sequenz, dreidimensionaler Struktur, funktioneller Domänen usw.) aufweisen, hat unsere Gruppe eine Strategie zur Fusion von multimodalen Daten vorgeschlagen - die Integration von Kontrastlearning und Mehransichtsanalyse aus dem Bereich der Informatik zur Erstellung eines hierarchischen Modells zur Fusion von Merkmalen. Dieser Ansatz hat in sieben Datensätzen im Vergleich zu 20 gängigen Basismethoden die besten Ergebnisse erzielt und das Problem der Leistungseinbußen bei der direkten Fusion von Modi gelöst.
Titel der Publikation: Annotating protein functions via fusing multiple biological modalities
Link zur Publikation: https://www.nature.com/articles/s42003-024-07411-y
Schematische Darstellung des Modellaufbaus
Detaillierte Testergebnisse
Detaillierte Testergebnisse
Darüber hinaus hat das Modell in der Forschung zur Interpretierbarkeit der Funktionsvorhersage eine bemerkenswerte Fähigkeit gezeigt, aus Tausenden von GoTerms-Annotationen mehr als zehn Proteinfunktionen präzise zu identifizieren. Darüber hinaus hat unsere Gruppe durch die Recherche in Fachliteratur festgestellt, dass Fälle, in denen das Modell falsche Vorhersagen getroffen hat, aber eine hohe Konfidenz angegeben hat, in einigen Studien bereits beschrieben wurden. Dies deutet darauf hin, dass diese Fälle möglicherweise auf eine veraltete Version des Datensatzes zurückzuführen sind. Diese Entdeckung hebt das Potenzial von KI-Modellen bei der Entdeckung neuer Proteinfunktionen hervor.
Kann die Protein-Interaktion genau erkannt werden? Eigenentwickelte Modelle ermöglichen effiziente Vorhersagen
Im Bereich der Arzneimittelentwicklung ist die genaue Bindung von Proteinen an menschliche Zielstellen der Schlüssel zum Wirksamwerden von Medikamenten. Die KI-Technologie hat hier einen wichtigen Mehrwert. Obwohl AlphaFold3 in der Vorhersage von Proteinstrukturen hervorragende Ergebnisse erzielt hat, gibt es in der praktischen Anwendung erhebliche Einschränkungen: Die kostenlose Version unterstützt nur 20 Zugriffe pro Tag, deckt etwa 15 - 20 Molekültypen ab und die Anmeldung für kommerzielle Nutzungsrechte ist sehr schwierig. Dies hat unsere Gruppe dazu veranlasst, eigene Modelle zu entwickeln.
Angesichts dieses Problems hat unsere Gruppe die folgenden Schritte unternommen:
Zunächst haben wir angesichts der Probleme wie der schlechten Koordination bei bestehenden Methoden zur Vorhersage von Protein-Interaktionen ein Siamese-Learning-Modell in den Encoder integriert, um die konsistente Darstellung von Proteinen zu verbessern, und ein kooperatives Lernframework mit einem Mechanismus für die Koordination von Protein-Interaktionen und einem Mechanismus für die Koordination von Aufgaben vorgeschlagen. Unsere Gruppe hat Methoden wie Interaktions-Attention und Multi-Task-Learning eingesetzt, um die Interaktion von Protein-Nukleinsäure, Protein-Protein und Protein-Kleinstmolekül vorherzusagen.
Unsere Gruppe hat auch Transformer aus dem Bereich der NLP und Graph-Neuronale Netzwerke kombiniert und Module wie Convformer und Graphormer entwickelt, um Ferninteraktionen zu modellieren und die Fusion von multimodalen Informationen durch einen Kreuz-Attention-Mechanismus verstärkt. Das Modell hat in der Praxis eine starke Generalisierungsfähigkeit gezeigt. Beispielsweise hat es bei der Vorhersage der Signalwege des Pankreaskarzinoms eine Genauigkeit von über 95 % erreicht, mit nur neun falschen Vorhersagen bei den Interaktionen.
Titel der Publikation: SSPPI: Cross-modality enhanced protein-protein interaction prediction from sequence and structure perspectives (in Druck)
Schematische Darstellung der Vorhersage. Grün: Niedrige Konnektivität; Rot: Hohe Konnektivität; Schwarze Linie: Korrekte Vorhersage; Rote Linie: Falsche Vorhersage
In unseren jüngsten Forschungen haben wir nicht nur die Reduzierung der Dimensionalität von Proteinen auf verschiedenen Skalenebenen untersucht, sondern auch die Merkmale von Proteinen erforscht. Da die traditionellen Graph-Modelle bei der Reduzierung der dreidimensionalen Strukturinformationen auf zweidimensionale Informationen Verluste verursachen, haben wir die neueste Geometrische Deep Learning-Technologie eingeführt und eine Methode zur Geometrischen Deep Learning auf der Grundlage einer gemischten Nachrichtenübertragungsstrategie vorg