Ein französisches Team erstellt Bild der antiviralen Immunität von Bakterien mit Deep-Learning-Modell und sagt 2,39 Millionen anti-Phagen-Proteine erfolgreich voraus

Etwa 23.000 Operon-Familien wurden vorhergesagt, wobei die überwiegende Mehrheit erstmals entdeckt wurde.

Forscher des französischen Pasteur - Instituts haben drei komplementäre Deep - Learning - Modelle entwickelt und feinjustiert, um die Anti - Phagen - Funktion im großen Maßstab vorherzusagen. Das ALBERT_DF - Modell stützt sich ausschließlich auf den lokalen genomischen Kontext für die Inferenz; ESM_DF nutzt ein Protein - Sprachmodell, um die Aminosäuresequenz zu analysieren; GeneCLR_DF integriert Sequenzinformationen und genomischen Kontext.

In der mikroskopischen Welt hat der "Rüstungswettlauf" zwischen Bakterien und Phagen nie aufgehört. Die Anzahl der Phagen ist normalerweise etwa zehnmal höher als die der Bakterien. Sie nutzen die Bakterien als Wirt, um sich zu vermehren. Gleichzeitig haben die Bakterien in der langen Evolution ein hochspezialisiertes antivirales Abwehrsystem entwickelt. Bisher wurden über 250 Anti - Phagen - Systeme experimentell verifiziert, darunter Restriktions - Modifikationssysteme und CRISPR - Cas - Systeme. Neue Systeme werden ständig entdeckt. Dies zeigt, dass die Komplexität und Vielfalt des bakteriellen Abwehrsystems wahrscheinlich weit über unser gegenwärtiges Verständnis hinausgeht. Allerdings bleiben aufgrund der Einschränkungen traditioneller experimenteller Methoden und Rechenmittel viele potenzielle Anti - Phagen - Mechanismen im bakteriellen Genom verborgen und sind noch nicht systematisch entdeckt worden.

Bisherige Studien haben festgestellt, dass bekannte Anti - Phagen - Systeme bestimmte gemeinsame Merkmale auf der Ebene der Proteinsequenz und der genomischen Organisation aufweisen, wie die wiederholte Erscheinung charakteristischer Domänen und die Anreicherung in "Abwehrinseln" oder Prophagenregionen. Diese Muster deuten darauf hin: Wenn man diese gemeinsamen Muster identifizieren und nutzen kann, könnte man möglicherweise auf genomweiter Ebene unbekannte Anti - Phagen - Systeme systematisch entdecken.

Basierend auf diesem Gedanken haben Forscher des französischen Pasteur - Instituts drei komplementäre Deep - Learning - Modelle entwickelt und feinjustiert, um die Anti - Phagen - Funktion im großen Maßstab vorherzusagen. Das ALBERT_DF - Modell stützt sich ausschließlich auf den lokalen genomischen Kontext für die Inferenz; ESM_DF nutzt ein Protein - Sprachmodell, um die Aminosäuresequenz zu analysieren; GeneCLR_DF integriert Sequenzinformationen und genomischen Kontext. In einem einheitlichen Benchmark - Test hat das GeneCLR_DF - Modell die beste Leistung gezeigt, mit einer Genauigkeit von 99 % und einem Recall von 92 %.

Basierend auf diesem hochpräzisen Modell wurde eine Vorhersage von Anti - Phagen - Systemen auf der Ebene des Pangenoms durchgeführt. Die Ergebnisse zeigen, dass in über 32.000 bakteriellen Genomen etwa 1,5 % der Gene in einem typischen bakteriellen Genom an der antiviralen Abwehr beteiligt sind. Noch wichtiger ist, dass über 85 % der vorhergesagten abwehrrelevanten Proteinfamilien bisher nicht mit einer Immunfunktion in Verbindung gebracht wurden. Schließlich hat das Modell insgesamt etwa 2,39 Millionen Anti - Phagen - Proteine vorhergesagt, von denen viele zu Ein - Gen - Abwehrsystemen gehören. Basierend auf der Gen - Koinzidenz wurden etwa 23.000 Operonfamilien definiert, von denen die meisten bisher mit der antiviralen Abwehr überhaupt nicht in Verbindung gebracht wurden. Diese Ergebnisse zeichnen zusammen ein systematisches Bild der bakteriellen antiviralen Immunität, das zeigt, dass deren Umfang und Vielfalt weit über unser bisheriges Verständnis hinausgehen.

Die zugehörigen Forschungsresultate wurden unter dem Titel "Protein and genomic language models uncover the unexplored diversity of bacterial immunity" in Science veröffentlicht.

Highlights der Studie:

* Insgesamt wurden 2,39 Millionen Anti - Phagen - Proteine vorhergesagt, von denen 85 % bisher nicht mit einer Immunfunktion in Verbindung gebracht wurden;

* In einem typischen bakteriellen Genom sind etwa 1,5 % der Gene speziell für die antivirale Abwehr zuständig;

* Etwa 23.000 Operonfamilien wurden vorhergesagt, von denen die meisten erstmals entdeckt wurden;

* Viele der vorhergesagten Abwehrproteine existieren in Form von Ein - Gen - Systemen, was die traditionelle Ansicht herausfordert, dass die Abwehrfunktion normalerweise durch die Zusammenarbeit mehrerer Gene erfolgt.

Link zur Studie: https://www.science.org/doi/10.1126/science.adv8275

Datenmenge: Basierend auf 123 Millionen Proteinen und 32.000 Genomen

In dieser Studie wurden zunächst die Tools DefenseFinder und PadLoc verwendet, um insgesamt 32.798 vollständige bakterielle Genome aus der RefSeq - Datenbank systematisch zu scannen und die bekannten Anti - Phagen - Systeme quantitativ zu beschreiben. Von etwa 123 Millionen Proteinen wurden von DefenseFinder v1.3 521.360 (0,4 %) als Bestandteile von Anti - Phagen - Systemen identifiziert, und von PadLoc wurden 805.357 (0,65 %) identifiziert.

Es ist bemerkenswert, dass viele Abwehrsysteme zunächst durch die genomische Assoziation mit bekannten Systemen entdeckt wurden. Diese Assoziation kann auf der Ebene der Proteinfamilie durch einen "Abwehrscore" quantifiziert werden, der hauptsächlich die Häufigkeit misst, mit der eine Proteinfamilie in Genomen gemeinsam mit bekannten Abwehrproteinen auftritt.

Abwehrscore, berechnet nach Genfamilien

Basierend auf der Methode des Abwehrscores wurden, wie in der folgenden Abbildung gezeigt, insgesamt 37.959 Proteinfamilien (4,6 %) als potenzielle Anti - Phagen - Familien identifiziert. Anschließend wurden 7.799 Familien, die mit Kernbiologiefunktionen oder beweglichen genetischen Elementen wie Integrasen verbunden sind, ausgeschlossen. Schließlich wurden 30.160 ausgewählte Kandidatenfamilien (3,7 %) erhalten.

Verteilung der Abwehrscores in der RefSeq - Datenbank, die von DefenseFinder als positiv (rosa) und negativ (blau) identifiziert wurden

Diese Methode hat jedoch deutliche Einschränkungen: Erstens ist sie nur für Proteinfamilien mit mehr als fünf homologen Sequenzen anwendbar, wodurch etwa 23 % der Proteine ausgeschlossen werden; zweitens befinden sich einige Anti - Phagen - Systeme nicht in typischen Abwehrinseln. Selbst wenn sie eine Abwehrfunktion haben, kann ihr Abwehrscore niedrig sein und sie können somit übersehen werden.

Um diese Einschränkungen zu überwinden und die abwehrrelevanten genomischen Signale umfassender zu erfassen, wurde in dieser Studie ein Datensatz für das Deep - Learning erstellt. Im Rahmen des ALBERT_DF - Modells wurde das bakterielle Genom "sprachlich" modelliert: Jede Proteinfamilie wurde als ein "Wort" und jedes benachbarte Genfragment als ein "Satz" betrachtet.

Da in der vollständigen Datensatz mehr als 8 Millionen verschiedene Proteinfamilien enthalten sind, was weit über die Größe des Vokabulars herkömmlicher Sprachmodelle hinausgeht, wurde der Trainingsbereich auf die Actinobacteria eingeschränkt, und es wurde ein Datensatz mit 10.796 Genomen erstellt. Die Gene wurden in 4,2 Millionen Proteinfamilien gruppiert, und das Vokabular wurde auf die 524.288 häufigsten Familien beschränkt, um etwa 89 % der Proteine abzudecken.

Für die Modelle ESM_DF und GeneCLR_DF wurde der Datensatz Gembase_DF erstellt: Wie in der folgenden Abbildung gezeigt, wurden 521.360 Anti - Phagen - Proteine, die von DefenseFinder markiert wurden, als positive Beispiele genommen, 116 Millionen hochkonservative Kerngene, die in über 99 % der Genome vorkommen, und 14 Millionen Gene beweglicher genetischer Elemente ohne Abwehrfunktion als negative Beispiele, und die übrigen Proteine wurden als unmarkierte Kandidaten beibehalten.

Um eine Informationsleckage zwischen Training, Validierung und Test zu vermeiden, wurden alle Proteine desselben Abwehrsystems in dieselbe Datensatzfaltung eingeteilt, und MMseqs2 wurde verwendet, um die restliche Homologie zwischen den Datensatzfaltungen zu entfernen, um die Strenge der Modellbewertung sicherzustellen.

Aufbau des Gembase_DF - Protein - Datensatzes

Modellarchitektur: Drei - Schicht - Deep - Learning - Modell in aufeinanderfolgenden Schritten

Um die Einschränkungen der traditionellen "Abwehrscore" - Methode zu überwinden, hat das Forschungsunternehmen ein komplementäres und schrittweise fortschreitendes Deep - Learning - Framework entwickelt, das auf drei Ziele ausgerichtet ist: die Entdeckung unbekannter Systeme, die Erforschung auf Pangenom - Ebene und die hochpräzise integrierte Vorhersage. Insbesondere umfasst es ALBERT_DF basierend auf dem genomischen Kontext, ESM_DF basierend auf der Proteinsequenz und GeneCLR_DF, das Sequenz - und Kontextinformationen kombiniert.

ALBERT_DF konzentriert sich darauf, funktionelle Signale aus den "Nachbarschaftsbeziehungen" der Gene zu lernen und hat die Fähigkeit, neue Abwehrsysteme zu entdecken; ESM_DF nutzt direkt die Aminosäuresequenz für die Modellierung und hat eine gute Generalisierungsfähigkeit über Sequenzen hinweg; GeneCLR_DF integriert beide Arten von Informationen in einem einheitlichen Rahmen und erreicht ein besseres Gleichgewicht zwischen Erkennungsgenauigkeit und Vorhersageumfang.

Das ALBERT_DF - Modell basiert auf einer Schlüsselbeobachtung: Anti - Phagen - Systeme tendieren dazu, in Genomen in Clustern zu verteilen, und es gibt ein stabiles Organisationsmuster zwischen den inneren und benachbarten Genen. Basierend auf diesem Merkmal wurde die ALBERT - Architektur aus der natürlichen Sprachverarbeitung in die Genommodellierung eingeführt. Proteinfamilien wurden als "Wörter" und die Genanordnung als "Syntaxstruktur" betrachtet, und der lokale Kontext wurde durch die Vorhersage von maskierten Genen gelernt.

Im Gegensatz zu traditionellen Methoden, die auf Sequenzähnlichkeit basieren, nutzt diese Modellierungsart direkt die genomische Organisationsinformation und hat daher mehr Potenzial, völlig neue Abwehrmechanismen zu identifizieren, die keine Homologie zu bekannten Systemen aufweisen. Allerdings hat diese Methode aufgrund ihrer Abhängigkeit von diskreten "Vokabeln" natürliche Beschränkungen bei der Erweiterung auf verschiedene Arten.

ALBERT_DF - Modell

Das ESM_DF - Modell geht einen anderen Weg und wirkt direkt auf die Protein - Aminosäuresequenz. Dieses Modell lernt durch Massenvorausbildung die Kooperationsänderungen und Fernsequenzbeziehungen zwischen Resten, um so funktionelle Signale ohne die Abhängigkeit von manuellen Merkmalen zu extrahieren. Nach der Feinjustierung kann ESM_DF jedes Protein bewerten und feststellen, ob es an der Anti - Phagen - Abwehr beteiligt ist. Dieser Ansatz verbessert deutlich die Anwendungsbreite der Methode und ermöglicht es, sie auf Pangenom - Ebene auszuführen. Allerdings hängt die Diskriminierungsfähigkeit von ESM_DF in gewissem Maße immer noch von der Sequenzähnlichkeit ab, und es ist besser darin, entfernte Varianten bekannter Abwehrsysteme zu identifizieren, während seine Fähigkeit, völlig neue Domänen ohne Homologie zu identifizieren, relativ begrenzt ist.

ESM_DF - Modell

Basierend auf diesem wurde das GeneCLR_DF - Modell vorgeschlagen, um Sequenz - und genomische Kontextinformationen zu integrieren. Dieses Modell verwendet einen Kontrastive - Learning - Rahmen und lernt für jedes Gen zwei Darstellungen gleichzeitig: eine aus der Proteinsequenz und die andere aus seinem genomischen Umfeld. Indem das Modell trainiert wird, zu entscheiden, ob diese beiden Darstellungen demselben Gen entsprechen, wird eine Ausrichtung der beiden Arten von Informationen im Darstellungsraum erreicht.

Dieses Design bringt einen entscheidenden Vorteil: Wenn einige Gene auf Sequenzebene keine Homologie aufweisen, kann der typische genomische Kontext, in dem sie sich befinden, immer noch Erkennungshinweise liefern; umgekehrt, wenn die Kontextinformation nicht typisch ist, können die Sequenzmerkmale immer noch die Diskriminierung unterstützen. Durch diesen komplementären Mechanismus berücksichtigt GeneCLR bei der anschließenden Vorhersage sowohl die Entdeckungsfähigkeit für neue Systeme als auch die Skalierbarkeit für die Massenanwendung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ein französisches Team hat mithilfe eines Deep-Learning-Modells ein Bild der antiviralen Immunität von Bakterien erstellt und 2,39 Millionen anti-Phagen-Proteine erfolgreich vorhergesagt.

Datenmenge: Basierend auf 123 Millionen Proteinen und 32.000 Genomen

Modellarchitektur: Drei - Schicht - Deep - Learning - Modell in aufeinanderfolgenden Schritten