Durch die Untersuchung von Veränderungen in der Genexpression lernen Forscher, wie Zellen auf molekularer Ebene funktionieren, was ihnen helfen könnte, die Entstehung bestimmter Krankheiten zu verstehen.
Aber ein Mensch verfügt über etwa 20.000 Gene, die sich gegenseitig auf komplexe Weise beeinflussen können, sodass es schon ein enorm kompliziertes Downside ist, zu wissen, welche Gengruppen angegriffen werden sollen. Außerdem arbeiten Gene in Modulen zusammen, die sich gegenseitig regulieren.
MIT-Forscher haben nun theoretische Grundlagen für Methoden entwickelt, die den besten Weg ermitteln könnten, Gene in verwandte Gruppen zusammenzufassen, damit sie die zugrunde liegenden Ursache-Wirkungs-Beziehungen zwischen vielen Genen effizient erlernen können.
Wichtig ist, dass diese neue Methode dies nur mithilfe von Beobachtungsdaten erreicht. Dies bedeutet, dass Forscher keine kostspieligen und manchmal undurchführbaren Interventionsexperimente durchführen müssen, um die Daten zu erhalten, die für die Ableitung der zugrunde liegenden Kausalzusammenhänge erforderlich sind.
Langfristig könnte diese Technik Wissenschaftlern dabei helfen, potenzielle Genziele zu identifizieren, um bestimmtes Verhalten genauer und effizienter auszulösen, und es ihnen möglicherweise ermöglichen, präzise Behandlungen für Patienten zu entwickeln.
„In der Genomik ist es sehr wichtig, den Mechanismus zu verstehen, der den Zellzuständen zugrunde liegt. Aber Zellen haben eine mehrskalige Struktur, daher ist auch der Grad der Zusammenfassung sehr wichtig. Wenn man herausfindet, wie man die beobachteten Daten richtig aggregiert, sollten die Informationen, die man über das System erhält, besser interpretierbar und nützlicher sein“, sagt Doktorand Jiaqi Zhang, Fellow am Eric and Wendy Schmidt Middle und Co-Hauptautor eines Buches Papier über diese Technik.
Zhang wird bei der Arbeit von Co-Hauptautor Ryan Welch unterstützt, der derzeit Masterstudent in Ingenieurwissenschaften ist; und die leitende Autorin Caroline Uhler, Professorin am Division of Electrical Engineering and Pc Science (EECS) und am Institute for Knowledge, Methods, and Society (IDSS), die außerdem Direktorin des Eric and Wendy Schmidt Middle am Broad Institute of MIT ist und Harvard sowie Forscher am Laboratory for Info and Determination Methods (LIDS) des MIT. Die Forschung wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Aus Beobachtungsdaten lernen
Das Downside, das die Forscher angehen wollten, besteht darin, Programme von Genen zu lernen. Diese Programme beschreiben, welche Gene zusammenarbeiten, um andere Gene in einem biologischen Prozess wie der Zellentwicklung oder -differenzierung zu regulieren.
Da Wissenschaftler nicht effizient untersuchen können, wie alle 20.000 Gene interagieren, verwenden sie eine Technik namens kausale Entflechtung, um zu lernen, wie verwandte Gengruppen zu einer Darstellung kombiniert werden können, die es ihnen ermöglicht, Ursache-Wirkungs-Beziehungen effizient zu untersuchen.
In früheren Arbeiten haben die Forscher gezeigt, wie dies bei Vorhandensein interventioneller Daten, bei denen es sich um Daten handelt, die durch Störvariablen im Netzwerk gewonnen werden, effektiv durchgeführt werden kann.
Die Durchführung interventioneller Experimente ist jedoch oft teuer, und es gibt Szenarien, in denen solche Experimente entweder unethisch sind oder die Technologie nicht intestine genug für den Erfolg der Intervention ist.
Mit nur Beobachtungsdaten können Forscher Gene vor und nach einem Eingriff nicht vergleichen, um herauszufinden, wie Gruppen von Genen zusammenarbeiten.
„Die meisten Forschungen zur kausalen Entflechtung gehen vom Zugang zu Interventionen aus, daher battle unklar, wie viele Informationen man allein mit Beobachtungsdaten entwirren kann“, sagt Zhang.
Die MIT-Forscher entwickelten einen allgemeineren Ansatz, der einen maschinellen Lernalgorithmus verwendet, um Gruppen beobachteter Variablen, z. B. Gene, effektiv zu identifizieren und zu aggregieren, wobei ausschließlich Beobachtungsdaten verwendet werden.
Sie können diese Technik verwenden, um kausale Module zu identifizieren und eine genaue zugrunde liegende Darstellung des Ursache-Wirkungs-Mechanismus zu rekonstruieren. „Während diese Forschung durch das Downside der Aufklärung zellulärer Programme motiviert battle, mussten wir zunächst eine neue Kausaltheorie entwickeln, um zu verstehen, was aus Beobachtungsdaten gelernt werden konnte und was nicht. Mit dieser Theorie können wir in zukünftigen Arbeiten unser Verständnis auf genetische Daten anwenden und Genmodule sowie ihre regulatorischen Beziehungen identifizieren“, sagt Uhler.
Eine schichtweise Darstellung
Mithilfe statistischer Techniken können die Forscher eine mathematische Funktion berechnen, die als Varianz für den Jacobi-Wert der einzelnen Variablen bezeichnet wird. Kausalvariablen, die sich nicht auf nachfolgende Variablen auswirken, sollten eine Varianz von Null haben.
Die Forscher rekonstruieren die Darstellung in einer Schicht-für-Schicht-Struktur, indem sie zunächst die Variablen in der untersten Schicht entfernen, die eine Varianz von Null haben. Dann arbeiten sie Schicht für Schicht rückwärts und entfernen die Variablen mit einer Varianz von Null, um zu bestimmen, welche Variablen oder Gengruppen miteinander verbunden sind.
„Die Identifizierung der Varianzen, die Null sind, wird schnell zu einem kombinatorischen Ziel, das ziemlich schwer zu lösen ist. Daher battle es eine große Herausforderung, einen effizienten Algorithmus zu entwickeln, der dieses Downside lösen könnte“, sagt Zhang.
Am Ende liefert ihre Methode eine abstrahierte Darstellung der beobachteten Daten mit Schichten miteinander verbundener Variablen, die die zugrunde liegende Ursache-Wirkungs-Struktur genau zusammenfasst.
Jede Variable stellt eine aggregierte Gruppe von Genen dar, die zusammenarbeiten, und die Beziehung zwischen zwei Variablen stellt dar, wie eine Gruppe von Genen eine andere reguliert. Ihre Methode erfasst effektiv alle Informationen, die zur Bestimmung jeder Variablenebene verwendet werden.
Nachdem die Forscher bewiesen hatten, dass ihre Technik theoretisch fundiert battle, führten sie Simulationen durch, um zu zeigen, dass der Algorithmus sinnvolle kausale Darstellungen allein anhand von Beobachtungsdaten effizient entwirren kann.
In Zukunft wollen die Forscher diese Technik in realen genetischen Anwendungen anwenden. Sie möchten auch untersuchen, wie ihre Methode in Situationen, in denen Interventionsdaten verfügbar sind, zusätzliche Erkenntnisse liefern oder Wissenschaftlern helfen könnte, zu verstehen, wie wirksame genetische Interventionen entwickelt werden können. In Zukunft könnte diese Methode Forschern dabei helfen, effizienter zu bestimmen, welche Gene im selben Programm zusammenarbeiten, was dabei helfen könnte, Medikamente zu identifizieren, die auf diese Gene abzielen, um bestimmte Krankheiten zu behandeln.
Diese Forschung wird zum Teil vom MIT-IBM Watson AI Lab und dem US Workplace of Naval Analysis finanziert.