Das interdisziplinäre Team der Carnegie-Institution hat mit Hilfe des Random-Forest-Modells erfolgreich die Überreste von Leben vor 3,3 Milliarden Jahren anhand von 406 Proben erfasst.
Das Carnegie-Institut für Wissenschaften in den Vereinigten Staaten hat ein interdisziplinäres Team mit mehreren Universitäten weltweit zusammengeschlossen und die Lösung der "Technologieintegration" von Pyrolyse-Gaschromatographie-Massenspektrometrie und überwachtem maschinellem Lernen verbessert. Dadurch können alte Lebensspuren in chaotischen Molekülfragmenten erfasst werden.
Das Entschlüsseln der organischen Moleküle in alten Gesteinsschichten tief unter der Erdoberfläche spielt eine entscheidende Rolle für das Verständnis der Erdgeschichte und die Erforschung der Lebensentwicklung. Diese potenziellen Zeugen des Lebens können nicht nur das Rätsel über die Entstehung des Lebens auf der Erde lösen, insbesondere die Verbindung zwischen der Entstehung der Photosynthese und dem Prozess der Oxidation der Erdatmosphäre aufklären, sondern auch Lücken in der Zeitlinie der Lebensentwicklung schließen und Kerninformationen für das Verständnis der Entstehung des frühen Ökosystems der Erde liefern. Da diese "Zeugen" jedoch im Gegensatz zu großen Organismen keine sichtbaren Fossilien bilden können und durch die geologischen Zeiträume längst verschwunden sind, ist es eine große Herausforderung in den Bereichen Paläontologie und Geowissenschaften, Lebensspuren in hochgradig abgebauten organischen Überresten zu erkennen.
Seit langem verlassen sich Wissenschaftler hauptsächlich auf Methoden wie die Analyse von Paläontologie-Fossilien und Isotopen, um frühes Leben zu untersuchen. Diese Methoden sind jedoch oft durch den Erhaltungszustand der Proben eingeschränkt. Beispielsweise können klare Aufzeichnungen von komplexen Molekülen wie Lipiden und Porphyrinen nur bis vor etwa 1,6 Milliarden Jahren zurückverfolgt werden, was viel kürzer ist als die Zeit der Entstehung des Lebens, die durch andere Beweise aufgezeigt wird. Die Herkunft der organischen Moleküle in archaischen Gesteinen ist unklar, und es ist schwierig, die Grenze zwischen biogenen und abiogenen Ursprüngen zu bestimmen. Dies lässt viele Schlüsselerkenntnisse auf der Stufe der Vermutung liegen.
Um diese Pattsituation zu brechen, hat ein interdisziplinäres Team, das von dem Geowissenschaftlichen und Planetarischen Labor des Carnegie-Instituts für Wissenschaften in den Vereinigten Staaten geleitet und mit mehreren Universitäten und Forschungsinstituten weltweit zusammengeschlossen wurde, eine Lösung der "Technologieintegration" vorgeschlagen. Sie analysierten zunächst mit Pyrolyse-Gaschromatographie-Massenspektrometrie (pyrolysis–gas chromatography–mass spectrometry, py-GC-MS) und klassifizierten dann die Analysedaten mithilfe von überwachtem maschinellem Lernen, um so alte Lebensspuren in chaotischen Molekülfragmenten zu erfassen.
Die Experimente haben gezeigt, dass dieses Modell der Technologieintegration überraschend gute Ergebnisse erzielt. Es kann 100 % präzise zwischen modernen organischen Stoffen und organischen Stoffen aus Meteoriten/Fossilien unterscheiden, und die Genauigkeit bei der Unterscheidung zwischen fossilen Pflanzengeweben und organischen Stoffen aus Meteoriten kann bis zu 97 % erreichen. Noch wichtiger ist, dass das Modell bei der Anwendung auf unbekannte Proben erfolgreich Beweise für biogene Molekülkombinationen in archaischen Gesteinen von vor 3,33 Milliarden Jahren und 2,52 Milliarden Jahren identifizieren konnte. Dies bietet eine neue methodische Unterstützung für die Erforschung früherer und weniger gut erhalten bleibender Lebensspuren.
Die entsprechende Studie mit dem Titel "Organic geochemical evidence for life in Archean rocks identified by pyrolysis–GC–MS and supervised machine learning" wurde in der Proceedings of the National Academy of Sciences (PNAS) veröffentlicht.
Hervorhebungen der Studie:
* Die vorgeschlagene Technologieintegrationsmethode der Studie bricht die traditionellen Grenzen und löst das Kernproblem, dass es nach dem Abbau von Molekülen schwierig ist, sie zu unterscheiden, indem Pyrolyse-Gaschromatographie-Massenspektrometrie und maschinelles Lernen kombiniert werden.
* Die Untersuchungsproben haben ein breites Spektrum, von modernem Leben bis zu Gesteinen von vor Milliarden Jahren, von terrestrischen Organismen bis zu extraterrestrischen Meteoriten, und bieten eine ganzheitliche Kontrolle für das Modelltraining. * Die Experimente haben gezeigt, dass diese Methode sowohl wissenschaftlich als auch zukunftsweisend ist. Sie hat nicht nur die Existenz von Lebensspuren in archaischen Gesteinen bestätigt, sondern auch eine neue Methode für die Suche nach anderen unbekannten Lebensspuren bereitgestellt.
Link zur Studie: https://www.pnas.org/doi/10.1073/pnas.2514534122
Datenmenge: 406 Proben mit breitem Spektrum bieten eine ganzheitliche Kontrolle für das Modell
Das Forschungsunternehmen hat insgesamt 406 natürliche und synthetische Proben, die eine Reihe von organischen Molekülen enthalten, analysiert. Diese Proben stammen aus verschiedenen Quellen, einschließlich altem und modernem, biologischem und nicht-biologischem Ursprung, und erstrecken sich über einen Zeitraum von etwa 3,8 Milliarden Jahren (Archaeum) bis vor 10 Millionen Jahren (Neogen). Die Probentypen umfassen Sedimentgesteine (141 Stücke), Fossilien (65 Proben), moderne Organismen (123 Exemplare), Meteoriten (42 Stück, darunter 39 Kohlenstoffchondriten) und im Labor synthetisierte organische Molekülkombinationen (35 Gruppen), und bieten eine reiche und vielfältige Datenbasis für die maschinelle Lernanalyse.
Von diesen 406 Proben wurden 272 Proben gemäß ihrer phylogenetischen Verwandtschaft und physiologischen Merkmalen eindeutig in 9 Kategorien unterteilt, die für das Training (75 %) und die Prüfung (25 %) des überwachten maschinellen Lernens verwendet wurden. Im Einzelnen (wie in der folgenden Abbildung gezeigt):
Dreidimensionale py-GC-MS-Daten von 9 Probengruppen
* Moderne Tiere: Sie stammen von verschiedenen kürzlich verstorbenen Wirbellosen und Wirbeltieren und repräsentieren die organischen Molekülmerkmale moderner nicht-photosynthetischer heterotropher Organismen. Die Anzahl der Proben beträgt 21.
* Moderne Pflanzen (nicht-photosynthetisches Gewebe): Sie umfassen nicht-photosynthetisches Gewebe und Sekrete von Pflanzenwurzeln, Samen, Blüten, Früchten und Baumsaft und repräsentieren die molekularen Unterschiede von Pflanzengeweben mit verschiedenen Funktionen. Die Anzahl der Proben beträgt 40.
* Moderne Pflanzen (photosynthetisches Gewebe): Sie bestehen hauptsächlich aus Blättern und anderem photosynthetischem Gewebe und dienen als moderner Bezug für die molekularen Merkmale von photosynthetischen Organismen. Die Anzahl der Proben beträgt 36.
* Sedimentgesteine mit photosynthetischen Cyanobakterien/Algen-Fossilien: Sie sind organische Rückstände, die aus Schiefer oder Flint durch Säurelösung mit Salzsäure (HCI) und Flusssäure (HF) angereichert wurden, und die Gesteine haben zuverlässige morphologische Beweise für Cyanobakterien- oder Algen-Fossilien und dienen als molekulare Aufzeichnungen von alten photosynthetischen Mikroorganismen. Die Anzahl der Proben beträgt 24.
* Holzfossilien, Kohle und Ölschiefer: Sie stammen hauptsächlich aus dem Phanerozoikum (< 541 Millionen Jahre), aber auch aus kohlenwasserstoffreichen Sedimenten mit komplexem Ursprung in proterozoischen Gesteinen, wie Shungit und Anthraxolith, und repräsentieren die molekularen Erhaltungseigenschaften von alten höheren Pflanzen und Kohlenwasserstoffen. Die Anzahl der Proben beträgt 49.
* Tierfossilien: Sie stammen alle aus dem Phanerozoikum und umfassen verkohlte Rückstände von Fischfossilien und Trilobitenfossilien sowie Schalenbindeproteine, die aus mittelmiozänen Gastropodenschalen extrahiert wurden, und repräsentieren die organischen Molekülrückstände von alten Tieren. Die Anzahl der Proben beträgt 9.
* Moderne Pilze: Sie umfassen verschiedene Holzfäulepilze und Hefen und füllen die molekularen Daten von eukaryotischen Organismen, die weder Pflanzen noch Tiere sind, auf. Die Anzahl der Proben beträgt 16.
* Meteoriten: Sie bestehen hauptsächlich aus Kohlenstoffchondriten (39 Stück), und die organischen Molekülkombinationen wurden durch chemische Ätzung angereichert und dienen als eindeutiger Bezug für nicht-biologische organische Quellen. Die Gesamtzahl der Proben beträgt 42 Stück.
* Im Labor synthetisierte Proben: Sie sind organische Molekülkombinationen, die durch Laborprozesse wie die Maillard-Reaktion und die Formose-Reaktion erhalten wurden, und simulieren die molekularen Merkmale von nicht-biogenen organischen Stoffen. Die Anzahl der Proben beträgt 35.
Darüber hinaus hat das Forschungsunternehmen zusätzlich zwei Hilfskategorien von Proben für ein bestimmtes maschinelles Lernmodell festgelegt, um zwischen photosynthetischen und nicht-photosynthetischen Organismen zu unterscheiden. Die Gesamtzahl der Proben beträgt 3. Zwei moderne Cyanobakterienproben ergänzen die Daten von photosynthetischen Prokaryoten. Eine moderne Halobakterienprobe (Halobacter) ergänzt die Daten von nicht-photosynthetischen Archaeen.
Schließlich sind die verbleibenden 131 Proben hauptsächlich säurelösliche angereicherte Rückstände von organisch reichen archaischen oder proterozoischen Sedimentgesteinen. Die Herkunft der organischen Moleküle und die physiologischen Merkmale dieser Proben sind unbekannt oder umstritten, aber dadurch bieten sie ein neues Testfeld für die Anwendung der maschinellen Lernanalyse in diesem Experiment.
Forschungsmethode und Modell: Tiefe Integration von py-GC-MS und maschinellem Lernen
Dieses Experiment kann hauptsächlich in vier Schritte zusammengefasst werden:
* Im ersten Schritt wurden 406 verschiedene kohlenstoffhaltige Proben aus verschiedenen modernen und alten, biologischen und nicht-biologischen Quellen gesammelt.
* Im zweiten Schritt wurden kohlenstoffhaltige Makromoleküle aus Meteoriten und alten Sedimentgesteinen extrahiert.
* Im dritten Schritt wurde jedes Probe mit Pyrolyse-Gaschromatographie gekoppelt mit Elektronenstoßionisations-Massenspektrometrie analysiert.
* Im vierten Schritt wurde ein überwachtes Random-Forest-Modell mit den Daten aus der Analysesubmenge der Experimentproben (maschinelles Lernverfahren) trainiert.
Der wichtigste Aspekt dieser Methode liegt darin, die py-GC-MS-Analysetechnik und das maschinelle Lernverfahren in einer "Technologieintegration" zu verbinden.
Zunächst die Analysetechnik: In diesem Experiment hat das Forschungsunternehmen bei der Instrumentenkonfiguration einen CDS 6150-Thermoprobengeber mit einem Agilent 8860-Serien-Gaschromatographen und einem Agilent 5999-Quadrupol-Massenspektrometer kombiniert und eine Agilent 30 M 5 % Phenyl-PDMS-Chromatographiesäule für die chromatographische Trennung verwendet. Die Pyrolyseprodukte werden sofort von Helium in die Gaschromatographiesäule gespült und analysiert. Die genaue Vorgehensweise ist wie folgt:
* Pyrolyse: Die Forscher haben die Probe (10 - 100 μg) in ein vorgewärmtes (3 Stunden bei 550 °C in Luft gebranntes) Quarzrohr gefüllt und es dann in die Spule des Thermoprobengebers eingesetzt, um eine Blitzpyrolyse durchzuführen. Die Temperatur wurde mit einer Rate von 500 °C/s auf 610 °C erhöht und 10 s gehalten.
* Chromatographie: Die Anfangstemperatur betrug 50 °C und wurde 1 min gehalten. Dann wurde sie mit 5 °C/min auf 300 °C erhöht und 15 min gehalten. Als Trägergas wurde ultrareines Helium (UHP 5,5-Grad) verwendet.
* Massenspektrometrie: Sie arbeitete im Elektronenionisationsmodus (EI) mit einer Ionisierungsenergie von 70 eV bei 250 °C. Der Scanbereich betrug m/z 45 - 700, die Scanrate 0,80 s/Dezade und die Verzögerung zwischen den Scans 0,20 s.
Um Störungen durch kleine flüchtige Moleküle (z. B. CO₂, H₂O) zu vermeiden, wurden in den ersten zwei Minuten des Experiments keine MS-Daten aufgenommen. Darüber hinaus mussten in der Chromatographie die Signale aus den Elutionsbereichen von häufig auftretenden Verunreinigungen (z. B. Palmitinsäure, Stearinsäure) ausgeschlossen werden. Jede Probe wurde in eine zweidimensionale Matrix (3.240 Elutionszeitpunkte x 150 m/z-Werte) umgewandelt, und die Signalstärke von 489.240 Elementen wurde als Funktion der Masse und der Retentionszeit aufgezeichnet. Nach Standardisierung und Glättung verblieben schließlich 8.149 effektive Merkmale.
Zweitens die Modellauswahl: In diesem Experiment wurde die Random-Forest-Methode verwendet. Dies ist eine integrierte Klassifizierungsmethode mit hoher Genauigkeit, niedrigen Rechenkosten und Interpretierbarkeit, die das Risiko der Überanpassung durch das Aufbauen mehrerer voneinander unabhängiger Entscheidungsbäume verringert. Das Modell basiert auf dem Random-Forest-Modell, das von Leo Breiman in "Random Forests" vorgeschlagen wurde.
Die Forscher haben zwei Validierungsstrategien für das trainierte maschinelle Lernmodell verwendet. Zunächst wurde eine stratifizierte Zufallsstichprobe mit 75 % Trainingsmenge und 25 % Testmenge durchgeführt, um sicherzustellen, dass das Verhältnis der verschiedenen Probengruppen in beiden Mengen gleich ist. Dann wurde die Generalisierungsfähigkeit des Modells durch 10-fache wiederholte 10-fache Kreuzvalidierung bewertet, und die durchschnittliche Genauigkeit wurde berechnet, um Zufallsfehler zu reduzieren.
Im Experiment wurden 4 Modelle getestet, die jeweils für die Unterscheidung zwischen modernen biologischen Quellen (Pflanzen und Tieren) und nicht-biologischen Quellen (Meteoriten + synthetische Proben), zwischen alten biologischen Quellen (Sedimentgesteine mit bekanntem biologischem Ursprung) und nicht-biologischen Quellen, zwischen alten biologischen Quellen (ohne Holzfossilien und Kohle) und nicht-biologischen Quellen sowie zwischen photosynthetischen und nicht-photosynthetischen Proben verwendet wurden.
Experimentsergebnisse: Mehrere Modelle und Dimensionen bestätigen die Machbarkeit der Technologieintegration
Bei den ersten Tests hat das Forschungsunternehmen die Random-Forest-Modellklassifizierung für 36