StartseiteArtikel

Validierung an 7 Datensätzen: scSiameseClu erreicht SOTA-Leistung bei unüberwachten Einzelzell-Clustering-Aufgaben

超神经HyperAI2025-09-15 15:31
Ein Clusterungstool, das wirklich die Zellunterschiede bewahren kann

Ein Forschungsteam aus dem chinesischen Akademiestammbaum, der Nordost-Agraruniversität, der Universität von Macau und der Jilin-Universität hat gemeinsam ein neues Siamese-Clustering-Framework namens scSiameseClu für die Interpretation von Einzelzell-RNA-Seq-Daten vorgeschlagen. Dieses Framework kann das Problem des Representations-Kollaps effektiv lindern und eine klarere Klassifizierung von Zellpopulationen ermöglichen, was ein leistungsstarkes Werkzeug für die Analyse von scRNA-Seq-Daten darstellt.

Im Verlauf der Lebenswissenschaften lag in der Vergangenheit der Schwerpunkt oft auf der Ebene der „Population“. Durch die herkömmliche Bulk-RNA-Seq können wir die durchschnittliche Genexpression von Zellpopulationen erhalten, aber dies bedeutet, dass die Merkmale einiger seltener Zellen möglicherweise überdeckt werden. Heute möchten Forscher immer mehr die Stimme der „einzelnen“ Zellen hören.

Die Einzelzell-RNA-Seq (scRNA-Seq) ist eine revolutionäre Technologie, die in der Geräuschkulisse von Zellpopulationen die umfassenden genetischen Informationen einzelner Zellen erfassen kann und somit verborgene komplexe Merkmale aufdecken kann. Um diese komplexen Informationen zu verstehen, ist ein entscheidender Schritt - die Zellclusterung - erforderlich. Zellen werden basierend auf der Ähnlichkeit ihrer Genexpression gruppiert, und dieser Prozess ist voller Herausforderungen.

scRNA-Seq-Daten zeichnen sich durch hohe Rauschanfälligkeit, hohe Sparsität und hohe Dimensionalität aus. Selbst die derzeit effektivsten Methoden der Graphen-Neuralen Netzwerke (GNNs) haben die Probleme des „unzureichenden Graphenbaus“ und des „Representations-Kollaps“. Wie in der folgenden Abbildung gezeigt, weisen sowohl das auf Deep Learning basierende scNAME als auch das auf GNNs basierende scGNN zunehmend konvergierende Repräsentationsergebnisse auf, was bedeutet, dass beide in unterschiedlichem Maße an Representations-Kollaps leiden. Mit anderen Worten, es fehlt immer noch ein echte Clustering-Werkzeug, das die Zellunterschiede bewahren kann.

Ähnlichkeitsverteilung der Zell-Einbettungen von scNAME und scGNN auf demselben Datensatz

Um dieses Dilemma zu lösen, hat ein Forschungsteam aus dem chinesischen Akademiestammbaum, der Nordost-Agraruniversität, der Universität von Macau und der Jilin-Universität gemeinsam ein neues Siamese-Clustering-Framework namens scSiameseClu für die Interpretation von Einzelzell-RNA-Seq-Daten vorgeschlagen. Es zielt darauf ab, komplexe Informationen zwischen Zellen zu erfassen und zu verfeinern und gleichzeitig diskriminierende und robuste Repräsentationen auf der Ebene der Gen- und Zellmerkmale zu lernen. Dieses Framework integriert drei Schlüsselmodule: Doppelte Verstärkung, Siamese-Fusion und Optimale Transport-Clustering. Durch diese Gestaltung kann scSiameseClu das Problem des Representations-Kollaps effektiv lindern und eine klarere Klassifizierung von Zellpopulationen ermöglichen, was ein leistungsstarkes Werkzeug für die Analyse von scRNA-Seq-Daten darstellt.

Die zugehörige Studie mit dem Titel „scSiameseClu: A Siamese Clustering Framework for Interpreting single-cell RNA Sequencing Data“ wurde für die IJCAI 2025 ausgewählt, und das Preprint wurde auf arXiv veröffentlicht.

Highlights der Studie:

* scSiameseClu kann komplexe Informationen aus der Genexpression und dem Zellgraphen erfassen, um diskriminierende und robuste Zell-Einbettungen zu lernen und die Clusterergebnisse und nachgelagerte Aufgaben zu verbessern;

* Es wurden Schlüsselmodule eingeführt, um ein vollständiges Framework von „Verstärkung - Fusion - Clustering“ aufzubauen;

* scSiameseClu zeigt in der Clusterung und anderen biologischen Aufgaben eine bessere Leistung als die SOTA-Methoden.

Link zur Studie: https://go.hyper.ai/00BhP

7 reale Datensätze aus verschiedenen Geweben und Arten

Um die Leistung von scSiameseClu umfassend zu bewerten, hat das Forschungsteam Experimente mit 7 realen scRNA-Seq-Datensätzen durchgeführt. Gene, die von weniger als 3 Zellen exprimiert wurden, wurden gefiltert, normalisiert, logarithmisch transformiert (logTPM), und hochvariable Gene wurden basierend auf vordefinierten Mittelwert- und Streuungsschwellenwerten ausgewählt. Diese vorverarbeiteten Datensätze bestehen aus 3 Mausproben und 4 menschlichen Proben und umfassen verschiedene Zelltypen (z. B. Retina, Lunge, Leber, Niere, Bauchspeicheldrüse usw.). Sie haben unterschiedliche Anzahlen von Genen, Zelltypen und Sparsitätsraten. Die folgende Abbildung zeigt einen Überblick über die verwendeten Datensätze.

Überblick über 7 scRNA-Seq-Datensätze

3 Module des Siamese-Clustering-Frameworks

Das von dem Forschungsteam vorgeschlagene scSiameseClu ist ein Siamese-Clustering-Framework auf der Grundlage eines verstärkten Graphen-Autoencoders. Dieses Framework umfasst 3 Module: (i) Duales Verstärkungsmodul (Dual Augmentation Module); (ii) Siamese-Fusionsmodul (Siamese Fusion Module); (iii) Optimales Transport-Clustering-Strategie für das Selbstüberwachte Lernen (Optimal Transport Clustering).

Übersicht über die Architektur von scSiameseClu

Duales Verstärkungsmodul

In dieser Studie ist das Duale Verstärkungsmodul „Genexpressionsverstärkung + Zellgraphenverstärkung“. Um die Robustheit des Modells gegenüber Rauschen und die Generalisierungsfähigkeit auf verschiedenen Datensätzen zu verbessern, simuliert das Forschungsteam die natürlichen Schwankungen der Genexpression durch das Hinzufügen von Gaußischem Rauschen, um die Robustheit auf der Ebene der Gene zu verbessern. Durch die Strategien der Kantenstörung und der Graphendiffusion werden jeweils verstärkte Adjazenzmatrizen erzeugt, um den Zellgraphen aus verschiedenen, aber komplementären Perspektiven zu behandeln, damit das Modell die vielfältigen Wechselwirkungen zwischen Zellen erfassen kann.

Siamese-Fusionsmodul

Das Siamese-Fusionsmodul (SFM) ist das zentralste innovative Design von scSiameseClu. Es verwendet eine Strategie, die „Kreuzkorrelationsverfeinerung“ und „Adaptive Informationsfusion“ integriert. Genauer gesagt wird bei der ersteren ein Autoencoder aufgebaut, um die verstärkten Genexpressionsmatrizen und Zellgraphenmatrizen getrennt zu verarbeiten und in dem latenten Raum auszurichten und zu fusionieren. Die letztere integriert die Zellbeziehungen durch Einbettungsaggregation, Autokorrelationslernen und dynamische Neugruppierung, filtert effektiv redundante Informationen und behält die diskriminierenden Merkmale im latenten Raum, so dass es robuste und sinnvolle Repräsentationen lernen kann, um die Clusterleistung zu verbessern und den Representations-Kollaps zu vermeiden.

Darüber hinaus führt das Framework einen Propagationsregularisierungsterm ein, um die Übereinstimmung zwischen der ursprünglichen Einbettung und der Einbettung nach der Graphenpropagation mit der Jensen-Shannon-Divergenz einzuschränken, um das Problem der Überglättung von Graphen-Neuralen Netzwerken zu lindern, während der Informationsfluss aufrechterhalten wird.

Optimales Transport-Clustering

Das Forschungsteam berechnet zunächst die Ähnlichkeit zwischen Zellen und Clusterzentren mithilfe der Student'schen t-Verteilung und richtet und korrigiert dann die vorhergesagte Verteilung mithilfe des Sinkhorn-Algorithmus. So wird die Balance der Clusterverteilung gewährleistet und das Problem des Kollaps vermieden.

Mehrfache Validierung der hervorragenden Leistung des scRNA-Seq-Frameworks

Die hervorragende Leistung des scRNA-Seq-Frameworks in der Clusterung ist das Ergebnis zahlreicher Experimente. Zunächst wurde ein umfassender Vergleich mit den gängigen Methoden durchgeführt. Das Forschungsteam hat insgesamt 9 der derzeit fortschrittlichsten Benchmarkmodelle ausgewählt, darunter herkömmliche Clusteringmethoden, Methoden auf der Grundlage von tiefen neuronalen Netzwerken und Clusteringmethoden auf der Grundlage von Graphen-Neuralen Netzwerken. Mit den oben genannten 7 realen Datensätzen wurden 3 weit anerkannte Clusterindizes verwendet: ACC (Genauigkeit), NMI (normalisierte wechselseitige Information) und ARI (angepasster Rand-Index) zur Bewertung.

Die Ergebnisse zeigen, dass scSiameseClu in allen 3 Indizes deutliche Vorteile hat. Es hat nicht nur höhere Gesamtpunkte, sondern auch eine stabile Leistung zwischen verschiedenen Datensätzen. Wie in der visuellen Gegenüberstellung auf dem menschlichen Hepatozytendatensatz deutlich zu sehen ist, kann scSiameseClu im Vergleich zu anderen Benchmarkmodellen Cluster mit klaren Grenzen und gut getrennten Zellen erzeugen und verschiedene Zelltypen effektiv unterscheiden.

Visuelle Ergebnisse von scSiameseClu und 4 typischen Benchmarkmethoden auf menschlichen Hepatozyten

Zweitens wurde in den Experimenten mit nachgelagerten Aufgaben die Zelltypannotation durchgeführt. In dem menschlichen Bauchspeicheldrüsendatensatz identifizierten das Team mit dem Seurat-Tool differenziell exprimierte Gene und Marker-Gene und verglich die ersten 50 Marker-Gene, die von scSiameseClu und anderen Methoden identifiziert wurden, mit dem Goldstandard. Die Ergebnisse zeigen, dass die Ähnlichkeit der meisten Cluster über 90 % beträgt, was genau auf die bekannten Zelltypen abgestimmt werden kann. Gleichzeitig kann das Modell auch die Marker-Gene jedes Clusters identifizieren.

Weitere Zellklassifizierungsexperimente zeigen auch, dass scSiameseClu in mehreren Indizes wie der Genauigkeit und dem F1-Wert besser als das Baseline-Modell ist, was die Vorteile bei der Aufdeckung der Zellheterogenität und der Zelltypunterscheidung bestätigt.

Überlappung zwischen differenziell exprimierten Genen und Goldstandard-Zelltypen

Vergleich der Klassifizierungsleistung

Schließlich wurden Abschmelzexperimente durchgeführt. Das Forschungsteam hat auf dem Shekhar-Mausretinazelldatensatz die Schlüsselkomponenten von scSiameseClu (einschließlich des SFM-Verlusts, des ZINB-Verlusts und des OTC-Verlusts usw.) entfernt und mit dem vollständigen Modell verglichen, um die Effektivität der einzelnen Module des Frameworks zu bewerten. Die Ergebnisse zeigen, dass jeder Teil die Leistung deutlich verbessern kann, und das Fehlen einer Komponente führt zu einer Verschlechterung der Ergebnisse. Wenn das SFM-Modul weiter zerlegt wird, zeigt sich, dass die Leistung des Modells zurückgeht, wenn die Zellbezugsverfeinerung, die latente Bezugsverfeinerung, die Propagationsregularisierung und der Rekonstruktionsverlust entfernt werden. Im Gegensatz dazu zeigt scSiameseClu mit allen Komponenten eine deutliche Leistungssteigerung, was bedeutet, dass es die genetischen und zellulären Informationen effektiv integriert.

Abschmelzexperimente auf dem Shekhar-Mausretinazelldatensatz

Schritt in eine neue Ära des Aufschwungs der Computergenetik

Betrachtet man es aus der Perspektive der Computergenetik, löst scSiameseClu mit Methoden wie der doppelten Verstärkung, der Siamese-Fusion und dem optimalen Transport-Clustering aus der Informatik das langjährige Problem der Analyse der Zellheterogenität in der Biologie effektiv. Man kann sagen, dass es nicht nur ein neues Clustering-Werkzeug ist, sondern auch einer der vielen neuen Versuche in dem Bereich der tiefen Fusion von Computermethoden und Lebenswissenschaften. Darüber hinaus tauchen mit dem rap