Der Artikel wurde gemeinsam mit Pan Liu, Postdoktorand an der UCLA und am Fred Hutchinson Most cancers Middle, verfasst. Pan ist der erste Autor des mcRigor Naturkommunikation Artikel.
Technologien zur Einzelzellsequenzierung haben sich in den letzten Jahren rasant weiterentwickelt und bieten beispiellose Möglichkeiten zur Aufdeckung der Zellvielfalt, dynamischer Veränderungen im Zellzustand und der zugrunde liegenden Genregulationsmechanismen. Zusätzlich zur weit verbreiteten Einzelzell-RNA-Sequenzierung (scRNA-seq) 1,2neue Modalitäten wie Single-Cell-Chromatin-Accessibility-Sequenzierung (scATAC-seq) 3,4 und gemeinsame Profilierung der Zugänglichkeit von Transkriptom und Chromatin (scMultiome) 5 haben die Zerlegung der zellulären Heterogenität mit Einzelzellauflösung über mehrere Omics-Schichten hinweg ermöglicht. Allerdings sind die durch diese Technologien generierten Daten in der Regel sehr spärlich, was vor allem auf die begrenzte Sequenzierungstiefe professional Zelle sowie auf die unvollständige reverse Transkription und nichtlineare Amplifikation zurückzuführen ist, was dazu führt, dass stark exprimierte Gene die Sequenzierungskapazität dominieren und niedrig exprimierte Gene schwer zu erkennen sind 6.

Um die Datenknappheit und das Datenrauschen zu verringern, schlugen die Forscher Folgendes vor: „Metazelle“ Konzept, bei dem Zellen mit ähnlichen Expressionsprofilen zu einer einzigen repräsentativen Einheit – einer Metazelle – zusammengefasst werden, deren Expression durch die mittlere Expression ihrer konstituierenden Zellen definiert wird, wodurch das Sign verstärkt und das Rauschen reduziert wird. Bestehende Metazellenkonstruktionsmethoden führen jedoch häufig zu wesentlich unterschiedlichen Metazellenpartitionen und reagieren sehr empfindlich auf Hyperparametereinstellungen, insbesondere auf die durchschnittliche Metazellengröße 7. Dieser Mangel an Konsistenz macht es für Benutzer schwierig zu bestimmen, welche Metazellenpartition vertrauenswürdiger ist und inwieweit die resultierenden Metazellenprofile echte biologische Signale bewahren. Folglich wird die Robustheit nachgelagerter Analysen beeinträchtigt und das Potenzial von Metazellen als allgemeines Datenvorverarbeitungs-Framework für verschiedene Aufgaben und Omics-Modalitäten bleibt begrenzt.
Unser Naturkommunikation Papier 8 Bietet eine strenge statistische Definition einer Metazelle basierend auf einem zweischichtigen Modell von Einzelzell-Sequenzierungsdaten: Die obere Schicht erfasst die biologische Variation in der wahren Expression, während die untere Schicht den Sequenzierungsprozess modelliert, der aus der wahren Expression eine gemessene Expression generiert. Aufbauend auf dieser Definition entwickeln wir mcRigorein statistischer Rahmen für die Erkennung zweifelhafte Metazellen innerhalb einer bestimmten Partition und Auswahl der optimale Metazellenpartitionierungsmethode und Hyperparameter über Kandidaten-Methoden-Hyperparameter-Konfigurationen hinweg.
mcRigor erkennt und entfernt nicht nur zweifelhafte Metazellen (seine erweiterte Model, mcRigor zweistufigzerlegt zweifelhafte Metazellen weiter in einzelne Zellen und setzt sie wieder zu kleineren, zuverlässigeren zusammen), wodurch die Zuverlässigkeit nachgelagerter Analysen wie Gen-Koexpression und Enhancer-Gen-Regulation verbessert wird, aber auch eine datengesteuerte Auswahl der am besten geeigneten Metazellen-Partitionierungsstrategie für jeden Datensatz ermöglicht wird. Aufgrund seiner flexiblen Kompatibilität kann mcRigor problemlos auf transkriptomische Einzelzell-, Chromatinzugänglichkeits- und Multiomic-Daten angewendet werden (Abb. 2). Darüber hinaus bietet mcRigor ein einheitliches Bewertungskriterium für das Benchmarking verschiedener Metazellen-Konstruktionsmethoden und bietet Forschern eine zuverlässige Orientierungshilfe bei der Methodenauswahl.
Im ersten Teil unserer Arbeit 8stellen wir die Methodik von mcRigor zur Erkennung zweifelhafter Metazellen vor. Insbesondere quantifiziert mcRigor die interne Heterogenität jeder Metazelle mithilfe einer auf Merkmalskorrelation basierenden Statistik. mcDivdas die Abweichung der Merkmal-Merkmal-Korrelationen von der Unabhängigkeit misst. Der Grundgedanke ist, dass die Merkmale annähernd unabhängig sein sollten, wenn alle Mitgliedszellen die gleichen tatsächlichen Expressionsniveaus aufweisen und die beobachtete Variation zwischen ihnen ausschließlich aus dem Messprozess resultiert. mcRigor konstruiert dann a Nullverteilung für mcDiv unter Verwendung eines Romans doppelte Permutation Verfahren und identifiziert Metazellen, die deutlich von dieser Null abweichen, als zweifelhaft (Abb. 2a).
Sowohl in semi-simulierten als auch in realen PBMC-Datensätzen unterscheidet mcRigor genau vertrauenswürdige Metazellen von zweifelhaften (Abb. 2b – c). Wir demonstrieren außerdem die Wirksamkeit von mcRigor bei der Verbesserung der Zuverlässigkeit mehrerer nachgelagerter Analysen. Bei Zelllinien-Datenanalysen erhöht die Entfernung zweifelhafter Metazellen das Sign-Rausch-Verhältnis von Zellzyklus-Markergenen deutlich (Abb. second). In Datenanalysen zu COVID-19 im Vergleich zu gesunden Kontrollpersonen eliminiert mcRigor falsche Genkorrelationen, die durch zweifelhafte Metazellen verursacht werden, und zeigt eine stärkere Koexpression innerhalb adaptiver Immunantwortmodule (Abb. 2e). Bei scMultiome-Datenanalysen verbessert mcRigor die Erkennbarkeit von Enhancer-Gen-Assoziationen, indem es schwach unterstützte falsch constructive Ergebnisse herausfiltert und gleichzeitig Signale beibehält, die mit denen auf Einzelzellebene übereinstimmen (Abb. 2f).


Im zweiten Teil unserer Arbeit 8stellen wir die Methodik von mcRigor zur Bewertung von Metazellenpartitionen und zur Optimierung von Hyperparametern vor. Durch die Abwägung der Metazellen-Vertrauenswürdigkeit gegen die Datensparsamkeit weist mcRigor jeder Kandidatenpartition einen Gesamtbewertungswert zu und wählt automatisch die optimale Methoden-Parameter-Konfiguration unter allen Kandidaten aus, wodurch der empirische Prozess der Methoden- und Parameteroptimierung in eine datengesteuerte automatisierte Entscheidungsfindung umgewandelt wird (Abb. 3a).
Wir veranschaulichen den Nutzen dieser Optimierungsfunktionalität für verschiedene nachgelagerte Aufgaben. Beispielsweise stimmt der Nullanteil mcRigor-optimierter Metazellen weitgehend mit dem mit smRNA-FISH gemessenen Goldstandard-Nullanteil überein, was die Fähigkeit demonstriert, technische Nullen von biologischen Nullen zu unterscheiden (Abb. 3b). Bei der differentiellen Expressionsanalyse stimmen die auf mcRigor-optimierten Metazellen basierenden Ergebnisse besser mit denen aus Massen-RNA-seq-Daten überein, was auf eine verbesserte Zuverlässigkeit hinweist (Abb. 3c). In Zeitverlaufsdaten verbessern mcRigor-optimierte Metazellen die Trajektorienauflösung und zeigen eine klarere Genexpressionsdynamik, die mit experimentellen Beweisen übereinstimmt (Abb. 3d).
Das mcRigor R-Paket und On-line-Tutorials sind unter verfügbar https://jsb-ucla.github.io/mcRigor/
Vollständiges Papier verfügbar unter https://www.nature.com/articles/s41467-025-63626-5
Referenzen:
8. Liu, P. & Li, JJ mcRigor: eine statistische Methode zur Verbesserung der Genauigkeit der Metazellenpartitionierung in der Einzelzellendatenanalyse. bioRxiv (2024) doi:10.1101/2024.10.30.621093.
