
Mit maschinellem Lernen haben MIT -Chemieingenieure ein Rechenmodell erstellt, mit dem sich vorhersagen kann, wie intestine jedes Molekül in einem organischen Lösungsmittel auflöst – ein wichtiger Schritt in der Synthese nahezu jeder Pharmazeutika. Diese Artwork von Vorhersage könnte es viel einfacher machen, neue Möglichkeiten zur Herstellung von Arzneimitteln und anderen nützlichen Molekülen zu entwickeln.
Das neue Modell, das vorhersagt, wie viel von einem gelösten gelösten Stoff in einem bestimmten Lösungsmittel auflösen wird, sollte Chemikern helfen, das richtige Lösungsmittel für eine bestimmte Reaktion in ihrer Synthese zu wählen, sagen die Forscher. Gemeinsame organische Lösungsmittel umfassen Ethanol und Aceton, und es gibt Hunderte von anderen, die auch bei chemischen Reaktionen verwendet werden können.
„Die Vorhersage von Löslichkeit ist wirklich ein ratebeschränkender Schritt bei der synthetischen Planung und Herstellung von Chemikalien, insbesondere von Medikamenten. Daher hat es ein langjähriges Interesse daran, bessere Vorhersagen der Löslichkeit zu machen“, sagt Lucas Attia, ein MIT-Doktorand und einer der führenden Autoren der neuen Studie.
Die Forscher haben ihre gemacht Modell Frei verfügbar, und viele Unternehmen und Labors haben bereits begonnen, es zu verwenden. Das Modell könnte besonders nützlich sein, um Lösungsmittel zu identifizieren, die weniger gefährlich sind als einige der am häufigsten verwendeten industriellen Lösungsmittel, sagen die Forscher.
„Es gibt einige Lösungsmittel, von denen bekannt ist, dass sie die meisten Dinge auflösen. Sie sind wirklich nützlich, aber sie schädigen die Umwelt und schädigen für Menschen, so viele Unternehmen müssen die Menge der Lösungsmittel, die Sie verwenden, minimieren“, sagt Jackson Burns, ein MIT -Graduiertenstudent, der auch ein führender Autor der Zeitung ist. „Unser Modell ist äußerst nützlich, um das nächstbeste Lösungsmittel zu identifizieren, was hoffentlich viel weniger schädlich für die Umwelt ist.“
William Inexperienced, der Hoyt Hottel Professor für Chemieingenieurwesen und Direktor der MIT Vitality Initiative, ist der leitende Autor der Studiewas heute in erscheint in Naturkommunikation. Patrick Doyle, der Professor für Chemieingenieurwesen von Robert T. Haslam, ist auch Autor des Papiers.
Löslichkeit lösen
Das neue Modell entstand aus einem Projekt, an dem Attia und Burns zusammen in einem MIT -Kurs zur Anwendung maschineller Lernen auf Probleme mit dem chemischen Technik gearbeitet haben. Traditionell haben Chemiker die Löslichkeit mit einem Device vorhergesagt, das als Abraham -Solvatationsmodell bekannt ist und zur Schätzung der Gesamtlöslichkeit eines Moleküls durch Addition der Beiträge chemischer Strukturen innerhalb des Moleküls verwendet werden kann. Während diese Vorhersagen nützlich sind, ist ihre Genauigkeit begrenzt.
In den letzten Jahren haben Forscher begonnen, maschinelles Lernen zu verwenden, um zu versuchen, genauere Löslichkeitsvorhersagen zu treffen. Bevor Burns und Attia mit der Arbeit an ihrem neuen Modell begannen, battle das hochmoderne Modell zur Vorhersage der Solubilität ein Modell, das 2022 in Inexperienced Labor entwickelt wurde.
Dieses als SolProp bekannte Modell erfolgt durch Vorhersage einer Reihe verwandter Eigenschaften und kombiniert sie unter Verwendung der Thermodynamik, um letztendlich die Löslichkeit vorherzusagen. Das Modell hat jedoch Schwierigkeiten, Löslichkeit für gelöste Stoffe vorherzusagen, die es zuvor noch nicht gesehen hat.
„Für Arzneimittel- und chemische Entdeckungspipelines, in denen Sie ein neues Molekül entwickeln, möchten Sie in der Lage sein, im Voraus vorherzusagen, wie seine Löslichkeit aussieht“, sagt Attia.
Ein Grund dafür, dass vorhandene Löslichkeitsmodelle nicht intestine funktioniert haben, ist, dass es keinen umfassenden Datensatz gab, an dem sie geschult wurden. Im Jahr 2023 wurde jedoch ein neuer Datensatz namens BigSoldB veröffentlicht, der Daten aus quick 800 veröffentlichten Artikel zusammenstellte, einschließlich Informationen zur Löslichkeit für etwa 800 Moleküle, die etwa 100 organische Lösungsmittel gelöst wurden, die üblicherweise in der synthetischen Chemie verwendet werden.
Attia und Burns beschlossen, zwei verschiedene Arten von Modellen für diese Daten auszubilden. Beide Modelle repräsentieren die chemischen Strukturen von Molekülen unter Verwendung von numerischen Darstellungen, die als Emettdings bezeichnet werden und die Informationen wie die Anzahl der Atome in einem Molekül enthalten und an die Atome an die anderen Atome gebunden sind. Modelle können diese Darstellungen dann verwenden, um eine Vielzahl chemischer Eigenschaften vorherzusagen.
Eines der in dieser Studie verwendeten Modelle, bekannt als FastProp und von Burns und anderen in Inexperienced Labor entwickelt, enthält „statische Einbettungen“. Dies bedeutet, dass das Modell die Einbettung für jedes Molekül bereits kennt, bevor es irgendeine Artwork von Analyse durchführt.
Das andere Modell, ChemProp, lernt während des Trainings eine Einbettung für jedes Molekül, gleichzeitig lernt es, die Merkmale der Einbettung mit einem Merkmal wie Löslichkeit zu verknüpfen. Dieses Modell, das in mehreren MIT -Labors entwickelt wurde, wurde bereits für Aufgaben wie Antibiotika -Entdeckung, Lipid -Nanopartikel -Design und Vorhersage der chemischen Reaktionsraten verwendet.
Die Forscher schulten beide Arten von Modellen an über 40.000 Datenpunkten aus BigSoldB, einschließlich Informationen über die Auswirkungen der Temperatur, was eine wichtige Rolle bei der Löslichkeit spielt. Dann testeten sie die Modelle auf etwa 1.000 gelösten gelösten Stoffe, die aus den Trainingsdaten zurückgehalten worden waren. Sie fanden heraus, dass die Vorhersagen der Modelle zwei- bis dreimal genauer waren als die von Solprop, dem vorherigen besten Modell, und die neuen Modelle waren besonders genau bei der Vorhersage von Variationen der Löslichkeit aufgrund der Temperatur.
„Es battle ein wirklich positives Zeichen dafür, dass das Netzwerk eine zugrunde liegende Lösungsvorhersagefunktion korrekt gelernt hatte, wenn das übergeordnete experimentelle Rauschen sehr groß ist, um diese kleinen Variationen der Löslichkeit aufgrund der Temperatur genau zu reproduzieren, selbst wenn das übergreifende experimentelle Rauschen sehr groß ist“, sagt Burns.
Genaue Vorhersagen
Die Forscher hatten erwartet, dass das auf ChemProp basierende Modell, das in der Lage ist, neue Darstellungen zu erlernen, wie es geht, genauere Vorhersagen treffen kann. Zu ihrer Überraschung stellten sie jedoch fest, dass die beiden Modelle im Wesentlichen gleich funktionierten. Dies deutet darauf hin, dass die Hauptbeschränkung ihrer Leistung die Qualität der Daten ist und dass die Modelle basierend auf den von ihnen verwendeten Daten theoretisch möglich sind, sagen die Forscher.
„ChemProp sollte immer jede statische Einbettung übertreffen, wenn Sie über ausreichende Daten verfügen“, sagt Burns. „Wir waren weggeblasen, um zu sehen, dass die statischen und gelehrten Einbettungen in allen verschiedenen Untergruppen statistisch nicht zu unterscheiden waren, was uns anzeigt, dass die in diesem Raum vorhandenen Datenbeschränkungen die Modellleistung dominiert haben.“
Die Modelle könnten genauer werden, sagen die Forscher, wenn bessere Schulungs- und Testdaten verfügbar wären – idealerweise Daten, die von einer Particular person oder einer Gruppe von Personen erhalten wurden, die alle geschult wurden, um die Experimente auf die gleiche Weise durchzuführen.
„Eine der großen Einschränkungen bei der Verwendung dieser Artwork von kompilierten Datensätzen besteht darin, dass verschiedene Labors unterschiedliche Methoden und experimentelle Bedingungen verwenden, wenn sie Löslichkeitstests durchführen. Dies trägt zu dieser Variabilität zwischen verschiedenen Datensätzen bei“, sagt Attia.
Da das auf FastProp basierende Modell seine Vorhersagen schneller macht und Code enthält, die für andere Benutzer leichter anpassen können, beschlossen die Forscher, diesen, der als Fastsolv bezeichnet wird, der Öffentlichkeit zur Verfügung zu stellen. Mehrere Pharmaunternehmen haben bereits begonnen, es zu verwenden.
„Es gibt Anwendungen in der gesamten Arzneimittelentdeckungspipeline“, sagt Burns. „Wir freuen uns auch, außerhalb der Formulierung und der Drogenentdeckung zu sehen, wo Menschen dieses Modell verwenden können.“
Die Forschung wurde teilweise vom US -Energieministerium finanziert.
