Die Untersuchung der Genexpression in den Zellen eines Krebspatienten kann klinischen Biologen helfen, den Ursprung des Krebses zu verstehen und den Erfolg verschiedener Behandlungen vorherzusagen. Aber Zellen sind komplex und bestehen aus vielen Schichten. Daher hat die Artwork und Weise, wie der Biologe Messungen durchführt, Einfluss darauf, welche Daten er erhalten kann. Beispielsweise könnte die Messung von Proteinen in einer Zelle andere Informationen über die Auswirkungen von Krebs liefern als die Messung der Genexpression oder der Zellmorphologie.

Es spielt eine Rolle, wo in der Zelle die Informationen herkommen. Um jedoch vollständige Informationen über den Zustand der Zelle zu erhalten, müssen Wissenschaftler oft viele Messungen mit unterschiedlichen Techniken durchführen und diese einzeln analysieren. Methoden des maschinellen Lernens können den Prozess beschleunigen, aber bestehende Methoden fassen alle Informationen aus jeder Messmodalität zusammen, was es schwierig macht herauszufinden, welche Daten aus welchem ​​Teil der Zelle stammen.

Um dieses Drawback zu lösen, haben Forscher des Broad Institute of MIT und Harvard sowie der ETH Zürich/Paul Scherrer Institute (PSI) ein auf künstlicher Intelligenz basierendes Framework entwickelt, das lernt, welche Informationen über den Zustand einer Zelle über verschiedene Messmodalitäten hinweg geteilt werden und welche Informationen für einen bestimmten Messtyp einzigartig sind.

Durch die Ermittlung, welche Informationen aus welchen Zellteilen stammen, bietet der Ansatz eine ganzheitlichere Sicht auf den Zustand der Zelle und macht es für einen Biologen einfacher, das vollständige Bild der zellulären Interaktionen zu erkennen. Dies könnte Wissenschaftlern helfen, Krankheitsmechanismen zu verstehen und das Fortschreiten von Krebs, neurodegenerativen Erkrankungen wie Alzheimer und Stoffwechselerkrankungen wie Diabetes zu verfolgen.

„Wenn wir Zellen untersuchen, reicht eine Messung oft nicht aus, deshalb entwickeln Wissenschaftler neue Technologien, um verschiedene Aspekte von Zellen zu messen. Obwohl wir viele Möglichkeiten haben, eine Zelle zu betrachten, haben wir am Ende des Tages nur einen zugrunde liegenden Zellzustand. Indem wir die Informationen aus all diesen Messmodalitäten auf intelligentere Weise zusammenführen, könnten wir ein umfassenderes Bild vom Zustand der Zelle erhalten“, sagt Hauptautor Xinyi Zhang SM ’22, PhD ’25, ein ehemaliger Doktorand an der MIT-Abteilung für Elektrotechnik und Informatik (EECS) und Mitglied des Eric and Wendy Schmidt Middle am Broad Institute of MIT und Harvard, der jetzt Gruppenleiter bei AITHYRA in Wien, Österreich, ist.

Zhang wird in einem Vortrag über die Arbeit von GV Shivashankar unterstützt, Professor am Departement Gesundheitswissenschaften und Technologie der ETH Zürich und Leiter des Labors für Multiscale Bioimaging am PSI; und leitende Autorin Caroline Uhler, Professorin für EECS und das Institute for Information, Methods, and Society (IDSS) am MIT, Mitglied des MIT-Labors für Informations- und Entscheidungssysteme (LIDS) und Direktorin des Eric and Wendy Schmidt Middle am Broad Institute. Die Forschung erscheint heute in Naturinformatik.

Manipulation mehrerer Messungen

Es gibt viele Werkzeuge, mit denen Wissenschaftler Informationen über den Zustand einer Zelle erfassen können. Sie können beispielsweise die RNA messen, um zu sehen, ob die Zelle wächst, oder sie können die Chromatinmorphologie messen, um zu sehen, ob die Zelle mit externen physikalischen oder chemischen Signalen umgeht.

„Wenn Wissenschaftler eine multimodale Analyse durchführen, sammeln sie Informationen mithilfe mehrerer Messmodalitäten und integrieren sie, um den zugrunde liegenden Zustand der Zelle besser zu verstehen. Einige Informationen werden nur von einer Modalität erfasst, während andere Informationen von mehreren Modalitäten gemeinsam genutzt werden. Um vollständig zu verstehen, was in der Zelle passiert, ist es wichtig zu wissen, woher die Informationen stammen“, sagt Shivashankar.

Für Wissenschaftler besteht die einzige Möglichkeit, dies zu klären, oft darin, mehrere Einzelexperimente durchzuführen und die Ergebnisse zu vergleichen. Dieser langsame und umständliche Prozess schränkt die Menge der Informationen ein, die sie sammeln können.

In der neuen Arbeit haben die Forscher ein Framework für maschinelles Lernen entwickelt, das speziell versteht, welche Informationen sich zwischen verschiedenen Modalitäten überschneiden und welche Informationen für eine bestimmte Modalität einzigartig sind, aber nicht von anderen erfasst werden.

„Als Benutzer können Sie einfach Ihre Zelldaten eingeben und Sie erfahren automatisch, welche Daten geteilt werden und welche Daten modalitätsspezifisch sind“, sagt Zhang.

Um dieses Framework aufzubauen, überlegten die Forscher die typische Artwork und Weise, wie maschinelle Lernmodelle zur Erfassung und Interpretation multimodaler zellulärer Messungen konzipiert sind.

Normalerweise verfügen diese als Autoencoder bezeichneten Methoden über ein Modell für jede Messmodalität, und jedes Modell codiert eine separate Darstellung der von dieser Modalität erfassten Daten. Die Darstellung ist eine komprimierte Model der Eingabedaten, die alle irrelevanten Particulars verwirft.

Die MIT-Methode verfügt über einen gemeinsamen Darstellungsraum, in dem Daten kodiert werden, die sich zwischen mehreren Modalitäten überschneiden, sowie über separate Räume, in denen eindeutige Daten aus jeder Modalität kodiert werden.

Im Wesentlichen kann man es sich wie ein Venn-Diagramm von Mobilfunkdaten vorstellen.

Die Forscher verwendeten außerdem ein spezielles zweistufiges Trainingsverfahren, das ihrem Modell dabei hilft, die Komplexität zu bewältigen, die mit der Entscheidung verbunden ist, welche Daten über mehrere Datenmodalitäten hinweg gemeinsam genutzt werden. Nach dem Coaching kann das Modell erkennen, welche Daten geteilt werden und welche einzigartig sind, wenn es mit Zelldaten gefüttert wird, die es noch nie zuvor gesehen hat.

Daten unterscheiden

Bei Checks an synthetischen Datensätzen erfasste das Framework bekannte gemeinsame und modalitätsspezifische Informationen korrekt. Als sie ihre Methode auf reale Einzelzelldatensätze anwendeten, unterschied sie umfassend und automatisch zwischen der Genaktivität, die gemeinsam von zwei Messmodalitäten wie Transkriptomik und Chromatinzugänglichkeit erfasst wurde, und identifizierte gleichzeitig korrekt, welche Informationen nur von einer dieser Modalitäten stammten.

Darüber hinaus identifizierten die Forscher mit ihrer Methode, welche Messmodalität einen bestimmten Proteinmarker erfasste, der auf DNA-Schäden bei Krebspatienten hinweist. Zu wissen, woher diese Informationen stammen, würde einem klinischen Wissenschaftler helfen, zu bestimmen, welche Technik er zur Messung dieses Markers verwenden sollte.

„Es gibt zu viele Modalitäten in einer Zelle und wir können sie unmöglich alle messen, additionally brauchen wir ein Vorhersagetool. Aber dann ist die Frage: Welche Modalitäten sollten wir messen und welche Modalitäten sollten wir vorhersagen? Unsere Methode kann diese Frage beantworten“, sagt Uhler.

Zukünftig wollen die Forscher das Modell in die Lage versetzen, besser interpretierbare Informationen über den Zustand der Zelle zu liefern. Sie möchten außerdem zusätzliche Experimente durchführen, um sicherzustellen, dass zelluläre Informationen korrekt entwirrt werden, und das Modell auf ein breiteres Spektrum klinischer Fragestellungen anwenden.

„Es reicht nicht aus, nur die Informationen aus all diesen Modalitäten zu integrieren“, sagt Uhler. „Wir können viel über den Zustand einer Zelle lernen, wenn wir die verschiedenen Modalitäten sorgfältig vergleichen, um zu verstehen, wie verschiedene Komponenten von Zellen sich gegenseitig regulieren.“

Diese Forschung wird zum Teil vom Eric and Wendy Schmidt Middle am Broad Institute, dem Schweizerischen Nationalfonds, den US Nationwide Institutes of Well being, dem US Workplace of Naval Analysis, AstraZeneca, dem MIT-IBM Watson AI Lab, der MIT J-Clinic for Machine Studying and Well being und einem Simons Investigator Award finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert