Durch die Anpassung von Modellen der künstlichen Intelligenz, die als große Sprachmodelle bekannt sind, haben Forscher große Fortschritte bei ihrer Fähigkeit gemacht, die Struktur eines Proteins anhand seiner Sequenz vorherzusagen. Allerdings battle dieser Ansatz bei Antikörpern nicht so erfolgreich, was zum Teil auf die Hypervariabilität zurückzuführen ist, die bei diesem Proteintyp beobachtet wird.
Um diese Einschränkung zu überwinden, haben MIT-Forscher eine Rechentechnik entwickelt, die es großen Sprachmodellen ermöglicht, Antikörperstrukturen genauer vorherzusagen. Ihre Arbeit könnte es Forschern ermöglichen, Millionen möglicher Antikörper zu sichten, um diejenigen zu identifizieren, die zur Behandlung von SARS-CoV-2 und anderen Infektionskrankheiten eingesetzt werden könnten.
„Unsere Methode ermöglicht es uns, im Gegensatz zu anderen nicht zu skalieren, bis zu dem Punkt, an dem wir tatsächlich ein paar Nadeln im Heuhaufen finden“, sagt Bonnie Berger, Simons-Professorin für Mathematik und Leiterin der Pc- und Biologiegruppe am Pc des MIT Science and Synthetic Intelligence Laboratory (CSAIL) und einer der leitenden Autoren der neuen Studie. „Wenn wir dazu beitragen könnten, Pharmaunternehmen davon abzuhalten, mit dem Falschen in klinische Studien zu gehen, würde das wirklich viel Geld sparen.“
Die Technik, die sich auf die Modellierung der hypervariablen Regionen von Antikörpern konzentriert, birgt auch Potenzial für die Analyse ganzer Antikörperrepertoires einzelner Personen. Dies könnte nützlich sein, um die Immunantwort von Menschen zu untersuchen, die besonders intestine auf Krankheiten wie HIV reagieren, um herauszufinden, warum ihre Antikörper das Virus so effektiv abwehren.
Bryan Bryson, außerordentlicher Professor für Biotechnik am MIT und Mitglied des Ragon Institute of MGH, MIT und Harvard, ist auch ein leitender Autor des Artikels erscheint diese Woche in der Verfahren der Nationalen Akademie der Wissenschaften. Rohit Singh, ein ehemaliger CSAIL-Forschungswissenschaftler, der jetzt Assistenzprofessor für Biostatistik, Bioinformatik und Zellbiologie an der Duke College ist, und Chiho Im ’22 sind die Hauptautoren des Papiers. An der Forschung waren auch Forscher von Sanofi und der ETH Zürich beteiligt.
Modellierung der Hypervariabilität
Proteine bestehen aus langen Ketten von Aminosäuren, die sich zu einer enormen Anzahl möglicher Strukturen falten können. In den letzten Jahren ist die Vorhersage dieser Strukturen mithilfe von Programmen der künstlichen Intelligenz wie AlphaFold viel einfacher geworden. Viele dieser Programme, wie etwa ESMFold und OmegaFold, basieren auf großen Sprachmodellen, die ursprünglich zur Analyse großer Textmengen entwickelt wurden, um zu lernen, das nächste Wort in einer Sequenz vorherzusagen. Derselbe Ansatz kann für Proteinsequenzen funktionieren – indem man lernt, welche Proteinstrukturen am wahrscheinlichsten aus unterschiedlichen Aminosäuremustern gebildet werden.
Diese Technik funktioniert jedoch nicht immer bei Antikörpern, insbesondere bei einem Abschnitt des Antikörpers, der als hypervariable Area bekannt ist. Antikörper haben normalerweise eine Y-förmige Struktur und diese hypervariablen Regionen befinden sich an den Spitzen des Y, wo sie fremde Proteine, auch Antigene genannt, erkennen und daran binden. Der untere Teil des Y bietet strukturelle Unterstützung und hilft Antikörpern, mit Immunzellen zu interagieren.
Hypervariable Regionen variieren in der Länge, enthalten jedoch normalerweise weniger als 40 Aminosäuren. Schätzungen zufolge kann das menschliche Immunsystem durch Veränderung der Sequenz dieser Aminosäuren bis zu einer Trillion verschiedener Antikörper produzieren und so sicherstellen, dass der Körper auf eine große Vielfalt potenzieller Antigene reagieren kann. Diese Sequenzen unterliegen nicht den gleichen evolutionären Einschränkungen wie andere Proteinsequenzen, daher ist es für große Sprachmodelle schwierig zu lernen, ihre Strukturen genau vorherzusagen.
„Ein Grund dafür, dass Sprachmodelle die Proteinstruktur intestine vorhersagen können, liegt unter anderem darin, dass die Evolution diese Sequenzen auf eine Weise einschränkt, die es dem Modell ermöglicht, zu entschlüsseln, was diese Einschränkungen bedeutet hätten“, sagt Singh. „Es ähnelt dem Erlernen der Grammatikregeln, indem man sich den Kontext von Wörtern in einem Satz ansieht und so herausfindet, was sie bedeuten.“
Um diese hypervariablen Regionen zu modellieren, erstellten die Forscher zwei Module, die auf vorhandenen Proteinsprachmodellen aufbauen. Eines dieser Module wurde auf hypervariablen Sequenzen von etwa 3.000 Antikörperstrukturen trainiert, die in der Proteindatenbank (PDB) gefunden wurden, wodurch es lernen konnte, welche Sequenzen dazu neigen, ähnliche Strukturen zu erzeugen. Das andere Modul wurde anhand von Daten trainiert, die etwa 3.700 Antikörpersequenzen damit korrelieren, wie stark sie drei verschiedene Antigene binden.
Das resultierende Rechenmodell, bekannt als AbMap, kann Antikörperstrukturen und Bindungsstärken basierend auf ihren Aminosäuresequenzen vorhersagen. Um die Nützlichkeit dieses Modells zu demonstrieren, haben die Forscher damit Antikörperstrukturen vorhergesagt, die das Spike-Protein des SARS-CoV-2-Virus stark neutralisieren würden.
Die Forscher begannen mit einer Reihe von Antikörpern, von denen vorhergesagt wurde, dass sie an dieses Ziel binden, und erzeugten dann Millionen von Varianten, indem sie die hypervariablen Regionen veränderten. Ihr Modell battle in der Lage, die Antikörperstrukturen zu identifizieren, die am erfolgreichsten wären, und zwar viel genauer als herkömmliche Proteinstrukturmodelle, die auf großen Sprachmodellen basieren.
Anschließend unternahmen die Forscher den zusätzlichen Schritt, die Antikörper in Gruppen mit ähnlicher Struktur zu gruppieren. Sie wählten Antikörper aus jedem dieser Cluster aus, um sie experimentell zu testen, und arbeiteten dabei mit Forschern von Sanofi zusammen. Diese Experimente ergaben, dass 82 Prozent dieser Antikörper eine bessere Bindungsstärke aufwiesen als die ursprünglichen Antikörper, die in das Modell einflossen.
Die Identifizierung einer Vielzahl guter Kandidaten zu Beginn des Entwicklungsprozesses könnte Pharmaunternehmen dabei helfen, nicht viel Geld für die Prüfung von Kandidaten auszugeben, die später scheitern, sagen die Forscher.
„Sie wollen nicht alles auf eine Karte setzen“, sagt Singh. „Sie wollen nicht sagen, ich werde diesen einen Antikörper nehmen und ihn durch präklinische Studien führen, und dann stellt sich heraus, dass er toxisch ist. Sie möchten lieber eine Reihe guter Möglichkeiten haben und diese alle durchgehen, damit sie einige Möglichkeiten haben, falls eine davon schief geht.“
Vergleich von Antikörpern
Mit dieser Technik könnten Forscher auch versuchen, einige seit langem bestehende Fragen zu beantworten, warum verschiedene Menschen unterschiedlich auf eine Infektion reagieren. Warum entwickeln manche Menschen beispielsweise viel schwerere Formen von Covid und warum infizieren sich manche Menschen, die HIV ausgesetzt sind, nie?
Wissenschaftler haben versucht, diese Fragen zu beantworten, indem sie eine Einzelzell-RNA-Sequenzierung von Immunzellen von Individuen durchführten und diese verglichen – ein Prozess, der als Antikörper-Repertoire-Analyse bekannt ist. Frühere Arbeiten haben gezeigt, dass sich die Antikörperrepertoires zweier verschiedener Personen möglicherweise nur zu 10 Prozent überschneiden. Allerdings liefert die Sequenzierung kein so umfassendes Bild der Antikörperleistung wie strukturelle Informationen, da zwei Antikörper mit unterschiedlichen Sequenzen möglicherweise ähnliche Strukturen und Funktionen haben.
Das neue Modell kann zur Lösung dieses Issues beitragen, indem es schnell Strukturen für alle in einem Individuum gefundenen Antikörper generiert. In dieser Studie zeigten die Forscher, dass es bei Berücksichtigung der Struktur viel mehr Überschneidungen zwischen Individuen gibt als die 10 Prozent, die bei Sequenzvergleichen beobachtet werden. Sie planen nun, weiter zu untersuchen, wie diese Strukturen zur allgemeinen Immunantwort des Körpers gegen einen bestimmten Krankheitserreger beitragen können.
„Hier passt ein Sprachmodell sehr intestine, weil es die Skalierbarkeit einer sequenzbasierten Analyse aufweist, aber an die Genauigkeit einer strukturbasierten Analyse herankommt“, sagt Singh.
Die Forschung wurde von Sanofi und der Abdul Latif Jameel Clinic for Machine Studying in Well being finanziert.