
Caroline Uhler ist ein Andrew (1956) und Erna Viterbi Professor für Ingenieurwesen am MIT; Professor für Elektrotechnik und Informatik am Institut für Daten, Wissenschaft und Gesellschaft (IDSS); und Direktor des Eric und Wendy Schmidt Heart am Broad Institute of MIT und Harvard, wo sie auch Mitglied des Kerninstituts und des wissenschaftlichen Führungsteams ist.
Uhler interessiert sich für alle Methoden, mit denen Wissenschaftler die Kausalität in biologischen Systemen aufdecken können, die von der kausalen Entdeckung auf beobachteten Variablen bis hin zu Lernen von Merkmalen und Repräsentationslernen reichen. In diesem Interview diskutiert sie maschinelles Lernen in Biologie, Bereiche, die reif für Problemlösungen sind, und in der neuesten Forschung, die aus dem Schmidt-Zentrum stammen.
Q: Das Zentrum von Eric und Wendy Schmidt verfügt über vier verschiedene Schwerpunkte, die auf vier natürlichen biologischen Organisationsniveaus strukturiert sind: Proteine, Zellen, Gewebe und Organismen. Was ist in der aktuellen Landschaft des maschinellen Lernens jetzt zum richtigen Zeitpunkt, um an diesen spezifischen Problemklassen zu arbeiten?
A: Biologie und Medizin werden derzeit eine „Datenrevolution“ unterzogen. Die Verfügbarkeit großer, vielfältiger Datensätze-von Genomik und Multi-OMICS über hochauflösende Bildgebung und elektronische Gesundheitsakten-macht dies zu einer günstigen Zeit. Eine kostengünstige und genaue DNA -Sequenzierung ist eine Realität, die fortschrittliche molekulare Bildgebung ist zur Routine geworden, und die Genomik der Einzelzell ermöglicht die Profilierung von Millionen von Zellen. Diese Innovationen-und die massiven Datensätze, die sie produzieren-haben uns an die Schwelle einer neuen Ära in der Biologie gebracht, in der wir uns über die Charakterisierung der Einheiten des Lebens (z. Karte.
Gleichzeitig, im letzten Jahrzehnt, hat maschinelles Lernen bemerkenswerte Fortschritte bei Modellen wie Bert, GPT-3 und ChatGPT verzeichnet, die erweiterte Funktionen im Textverständnis und -erzeugung demonstrierten, während Imaginative and prescient-Transformatoren und multimodale Modelle wie Clip bei Bildungsaufgaben die Leistung auf Menschenebene erreicht haben. Diese Durchbrüche bieten leistungsstarke architektonische Blaupausen und Schulungsstrategien, die an biologische Daten angepasst werden können. Zum Beispiel können Transformatoren genomische Sequenzen modellieren, die der Sprache ähneln, und Imaginative and prescient -Modelle können medizinische und mikroskopische Bilder analysieren.
Wichtig ist, dass die Biologie nicht nur ein Nutznießer des maschinellen Lernens, sondern auch eine bedeutende Inspirationsquelle für neue ML -Forschung ist. Ähnlich wie in der Landwirtschaft und der Züchtung hat die Biologie das Potenzial, neue und vielleicht noch tiefere Wege der ML -Forschung zu inspirieren. Im Gegensatz zu Bereichen wie Empfehlungssystemen und Internetwerbung, in denen es keine natürlichen Gesetze gibt, und die Vorhersagegenauigkeit das endgültige Wert für Wert ist. In der Biologie sind Phänomene physisch interpretierbar und Kausalmechanismen sind das ultimative Ziel. Darüber hinaus verfügt die Biologie über genetische und chemische Instrumente, die störende Bildschirme in einer beispiellosen Skala im Vergleich zu anderen Feldern ermöglichen. Diese kombinierten Merkmale machen Biologie eindeutig geeignet, um beide stark von ML zu profitieren, und dienen als tiefgreifender Inspiration für sie.
Q: Welche Probleme in der Biologie sind immer noch sehr resistent gegen unser aktuelles Werkzeugsatz? Gibt es Bereiche, möglicherweise spezifische Herausforderungen bei Krankheiten oder Wellness, die Sie für reif für Problemlösungen sind?
A: Das maschinelle Lernen hat einen bemerkenswerten Erfolg bei prädiktiven Aufgaben über Bereiche wie Bildklassifizierung, Verarbeitung natürlicher Sprache und klinische Risikomodellierung gezeigt. In den biologischen Wissenschaften ist die prädiktive Genauigkeit jedoch häufig nicht ausreichend. Die grundlegenden Fragen in diesen Bereichen sind inhärent kausal: Wie wirkt sich eine Störung auf ein bestimmtes Gen oder Pfad auf nachgeschaltete Zellprozesse aus? Was ist der Mechanismus, durch den eine Intervention zu einer phänotypischen Veränderung führt? Traditionelle Modelle für maschinelles Lernen, die hauptsächlich für die Erfassung statistischer Assoziationen in Beobachtungsdaten optimiert werden, beantworten solche interventionellen Abfragen häufig nicht. Es besteht ein starker Bedarf an Biologie und Medizin, um auch neue Grundlagen im maschinellen Lernen zu inspirieren.
Das Feld ist nun mit Hochdurchsatzstörungstechnologien wie gepoolten CRISPR-Bildschirmen, Einzelzelltranskriptomik und räumlicher Profilerstellung ausgestattet, die unter systematischen Interventionen reichhaltige Datensätze generieren. Diese Datenmodalitäten erfordern natürlich die Entwicklung von Modellen, die über die Mustererkennung hinausgehen, um kausale Inferenz, aktives experimentelles Design und Repräsentationslernen in Einstellungen mit komplexen, strukturierten latenten Variablen zu unterstützen. Aus mathematischer Sicht erfordert dies die Bekämpfung von Kernfragen der Erkennung, der Probeneffizienz und der Integration kombinatorischer, geometrischer und probabilistischer Instrumente. Ich glaube, dass die Bewältigung dieser Herausforderungen nicht nur neue Erkenntnisse in die Mechanismen zellulärer Systeme freischalten, sondern auch die theoretischen Grenzen des maschinellen Lernens überschreiten.
In Bezug auf Fundamentmodelle besteht ein Konsens vor Ort darin, dass wir noch weit davon entfernt sind, ein ganzheitliches Fundamentmodell für die Biologie über die Skalen hinweg zu erstellen, ähnlich wie Chatgpt im Sprachbereich – eine Artwork digitaler Organismus, das alle biologischen Phänomene simulieren kann. Während neue Basis -Modelle quick wöchentlich auftauchen, waren diese Modelle bisher auf eine bestimmte Skala und Frage spezialisiert und konzentrieren sich auf ein oder einige Modalitäten.
Bei der Vorhersage von Proteinstrukturen aus ihren Sequenzen wurden signifikante Fortschritte erzielt. Dieser Erfolg hat die Bedeutung iterativer Herausforderungen für maschinelles Lernen wie CASP (Important Evaluation of Construction Prediction) hervorgehoben, die maßgeblich zum Benchmarking hochmoderner Algorithmen für die Proteinstrukturvorhersage und die Vorhersage ihrer Verbesserung beteiligt waren.
Das Schmidt -Zentrum organisiert Herausforderungen, um das Bewusstsein im ML -Feld zu schärfen und Fortschritte bei der Entwicklung von Methoden zur Lösung kausaler Vorhersageprobleme zu machen, die für die biomedizinischen Wissenschaften so wichtig sind. Angesichts der zunehmenden Verfügbarkeit von Ein-Gen-Störungsdaten auf Einzelzellenebene glaube ich, dass die Vorhersage des Effekts einzelner oder kombinatorischer Störungen, und welche Störungen einen gewünschten Phänotyp antreiben könnten, lösbare Probleme sind. Mit unserer CPPC (Cell -Störungsprüfungsvorhersage) (CPPC) möchten wir die Mittel zur objektiven Testen und Benchmark -Algorithmen zur Vorhersage der Wirkung neuer Störungen bereitstellen.
Ein weiterer Bereich, in dem das Feld bemerkenswerte Fortschritte gemacht hat, ist die Diagnostische Krankheitsdiagnostik und die Patienten -Triage. Algorithmen für maschinelles Lernen können verschiedene Quellen für Patienteninformationen (Datenmodalitäten) integrieren, fehlende Modalitäten erzeugen, Muster identifizieren, die für uns möglicherweise schwierig zu erkennen sind, und Patienten basierend auf ihrem Krankheitsrisiko zu helfen. Während wir vor potenziellen Verzerrungen in den Modellvorhersagen vorsichtig bleiben müssen, die Gefahr von Modellen, die Verknüpfungen anstelle von echten Korrelationen erlernen, und das Risiko einer Automatisierungsverzerrung bei der klinischen Entscheidungsfindung ist ich der Meinung, dass dies ein Bereich ist, in dem maschinelles Lernen bereits einen erheblichen Einfluss hat.
Q: Sprechen wir über einige der Schlagzeilen aus dem Schmidt Heart kürzlich. Welche aktuellen Forschungen sollten die Menschen Ihrer Meinung nach besonders aufgeregt sein und warum?
A: In Zusammenarbeit mit Dr. Fei Chen am Broad Institute haben wir kürzlich eine Methode zur Vorhersage des subzellulären Standorts der unsichtbaren Proteine entwickelt, die als Puppen bezeichnet werden. Viele vorhandene Methoden können nur Vorhersagen auf der Grundlage der spezifischen Protein- und Zelldaten treffen, nach denen sie trainiert wurden. Welpe kombiniert jedoch ein Proteinsprachenmodell mit einem Bildinstrumentmodell, um sowohl Proteinsequenzen als auch zelluläre Bilder zu verwenden. Wir zeigen, dass die Proteinsequenzeingabe die Verallgemeinerung auf unsichtbare Proteine ermöglicht, und die Zellbildeingabe erfasst die Einzelzellvariabilität und ermöglicht die Ermöglichung von Zelltyp-spezifischen Vorhersagen. Das Modell erfährt, wie related jeder Aminosäurerest für die vorhergesagte subzelluläre Lokalisierung ist, und kann Änderungen der Lokalisierung aufgrund von Mutationen in den Proteinsequenzen vorhersagen. Da die Funktion von Proteinen streng mit ihrer subzellulären Lokalisierung zusammenhängt, könnten unsere Vorhersagen Einblicke in mögliche Krankheitsmechanismen liefern. In Zukunft wollen wir diese Methode erweitern, um die Lokalisierung mehrerer Proteine in einer Zelle vorherzusagen und möglicherweise Protein-Protein-Wechselwirkungen zu verstehen.
Zusammen mit Professor GV Shivashankar, einem langjährigen Mitarbeiter bei ETH Zürich, haben wir zuvor gezeigt, wie einfache Bilder von Zellen, die mit fluoreszierenden DNA-interkalierenden Farbstoffen gefärbt sind, um das Chromatin zu kennzeichnen, in Kombination mit maschinellen Lernalgorithmen viele Informationen über den Zustand und das Schicksal einer Zelle bei der Erkrankung in Kombination maschineller Lernalgorithmen liefern können. Kürzlich haben wir diese Beobachtung weiterentwickelt und die tiefgreifende Verbindung zwischen Chromatinorganisation und Genregulation durch Entwicklung von Image2reg bewiesen, eine Methode, die die Vorhersage unsichtbarer genetisch oder chemisch gestörter Gene aus Chromatinbildern ermöglicht. Image2Rreg verwendet Faltungsnetze, um eine informative Darstellung der Chromatinbilder von gestörten Zellen zu erlernen. Es verwendet auch ein Graph-Faltungsnetzwerk, um eine Genbettung zu erstellen, die die regulatorischen Effekte von Genen erfasst, die auf Protein-Protein-Interaktionsdaten basieren, die mit zellstypspezifischen transkriptomischen Daten integriert sind. Schließlich lernt es eine Karte zwischen der resultierenden physikalischen und biochemischen Darstellung von Zellen, die es uns ermöglicht, die gestörten Genmodule auf der Grundlage von Chromatinbildern vorherzusagen.
Darüber hinaus haben wir kürzlich die Entwicklung einer Methode zur Vorhersage der Ergebnisse unsichtbarer kombinatorischer Genstörungen und der Identifizierung der Arten von Wechselwirkungen zwischen den gestörten Genen abgeschlossen. Morph kann das Design der informativsten Störungen für Labor-in-a-Loop-Experimente leiten. Darüber hinaus ermöglicht der aufmerksamkeitsbasierte Rahmen nachweislich unsere Methode, kausale Beziehungen zwischen den Genen zu identifizieren und Einblicke in die zugrunde liegenden Gent-Regulierungsprogramme zu geben. Dank seiner modularen Struktur können wir schließlich Morph auf Störungsdaten anwenden, die in verschiedenen Modalitäten gemessen wurden, einschließlich nicht nur Transkriptomik, sondern auch die Bildgebung. Wir freuen uns sehr über das Potenzial dieser Methode, um die effiziente Untersuchung des Störungsraums zu ermöglichen, um unser Verständnis von Zellprogrammen durch Überbrückung der kausalen Theorie zu wichtigen Anwendungen zu fördern, was sich sowohl auf die Grundlagenforschung als auch auf therapeutische Anwendungen auswirkt.
