Gene sind so wichtig, um das Immunsystem auszulösen, dass wir diese Gene verwenden können, um die Immunantwort einer Individual vorherzusagen. Hier werde ich nachweisen, wie die Krankheitsraten nur von Immungenfrequenzen geschätzt werden können. Alle Schritte von der Erlangung der Immungendaten bis zur Identifizierung von Ländern mit hohem Risiko und zur Beurteilung der Einschränkungen des Modells werden diskutiert und der vollständige Code ist bei verfügbaren Code verfügbar github.com/dawells/hla_spondylitis_rate.
HLA -Gene sind mit der Reaktion einer Individual auf Infektionen, Impfungen und oft sehr stark mit Autoimmunerkrankungen verbunden. So stark miteinander verbunden, dass wir in großen Gruppen Krankheitsraten von HLA -Genfrequenzen vorhersagen können. HLA -Frequenzen sind weit verbreitet und so häufig verfügbar, sodass wir die Raten von Autoimmunerkrankungen abschätzen können, die aufgrund der Herausforderungen der Diagnose fehlen oder ungenau sein können. In diesem Beitrag werden wir Studien kombinieren, um genaue Schätzungen der Immungenfrequenzen zu erzeugen und diese zur Vorhersage der nationalen Raten von Ankylosinus -Spondylitis vorherzusagen.
AlleleFrequencies.internet ist eine Datenbank mit Daten des menschlichen Immungens aus aller Welt, die eine offene Zugangs-, freie und öffentliche Ressource sind (Gonzalez-Galarza et al. 2020). Es kann jedoch schwierig sein, Daten aus mehreren Projekten herunterzuladen und zu kombinieren. Dies macht es schwierig, all diese Daten zu nutzen. Glücklicherweise HLAfreq ist ein Python -Paket, das es einfach macht, die neuesten Daten von allelefrequencies.internet zu erhalten und sie auf unsere Analyse vorzubereiten. (Vollständige Offenlegung, ich bin einer der Autoren von Hlafreq!).
Ankylosierspondylitis ist eine Type von Arthritis, und 90% der Patienten haben eine spezifische Model des HLA -B -Gens. Um die Häufigkeit dieser Model in verschiedenen Ländern zu erhalten, habe ich alle verfügbaren Häufigkeiten für dieses Gen und kombinierte Studien desselben Landes heruntergeladen, was nach Stichprobengröße gewichtet wurde. Kurz gesagt, die Kombination basiert auf der Dirichlet -Verteilung und wir können auch einen Bayes’schen Ansatz verwenden, um die Unsicherheit abzuschätzen. Singapur wird in der Abbildung unten als Beispiel verwendet (alle Abbildungen in diesem Artikel werden vom Autor generiert). Auf der Y-Achse sind verschiedene HLA-B-Genversionen (auch als Allele bekannt) mit ihrer Frequenz in Singapur auf der X-Achse gezeigt. Daten aus den ursprünglichen Studien in Singapur sind farbig und kombinierte Schätzungen in Schwarz. Ich habe mich auf den gewichteten Durchschnitt in dieser Analyse konzentriert, der durch die schwarzen Kreise gezeigt wird. HLAFREQ berechnet auch eine Bayes’sche Schätzung mit Unsicherheit, die durch die schwarzen Balken angezeigt wird.

Der Code zum Herunterladen, Kombinieren und Zeichnen der HLA-B-Allelfrequenzdaten für Singapur finden Sie unten.
# Obtain uncooked knowledge
base_url = HLAfreq.makeURL(“Singapore”, normal="g", locus="B")
aftab = HLAfreq.getAFdata(base_url)
# Put together knowledge
aftab = HLAfreq.only_complete(aftab)
aftab = HLAfreq.decrease_resolution(aftab, 1)
# Mix knowledge from a number of research
caf = HLAfreq.combineAF(aftab)
hdi = HLAhdi.AFhdi(aftab, credible_interval=0.95)
caf = pd.merge(caf, hdi, how="left", on="allele")
# Plot gene frequencies
HLAfreq.plotAF(caf, aftab.sort_values("allele_freq"), hdi=hdi, compound_mean=hdi)
Jetzt haben wir die nationalen Allelfrequenzen, die wir mit nationalen Krankheitsraten kombinieren können, um die Korrelation zu untersuchen. Ich habe die in Dean et al. 2014 angegebenen Krankheitsraten verwendet. Ich habe die Krankheitsrate, um sie regular verteilt, zu einer gewöhnlichen linearen Regression der kleinsten Quadrate zu machen. Wie erwartet gab es eine signifikante optimistic Korrelation; Länder mit höheren Frequenzen von HLA-B*27 hatten eine höhere Ankylosinus-Spondylitis-Price. Die Ausnahme struggle Finnland, das eine ungewöhnlich hohe Häufigkeit von HLA-B*27 hatte, aber eine mittelmäßige Krankheitsrate. Ich entfernte Finnland aus dem Modell als Ausreißer, eine Entscheidung, die durch „statistische Hebelwirkung“ unterstützt wurde. (Hebel bedeutet, dass dieser eine Punkt einen zu großen Einfluss auf das Gesamtmodell hatte. Wir möchten, dass das Modell uns über Länder im Allgemeinen, nicht über ein Land im Besonderen, erzählt.)
Wir können unser lineares Regressionsmodell verwenden, um die Raten von Ankylosinus-Spondylitis in Ländern vorherzusagen, in denen wir die HLA-B*27-Häufigkeit kennen. Dies sagt uns, dass Länder wie Österreich und Kroatien eine hohe ankylosierende Spondylitis -Raten haben. Die Verwendung dieser Vorhersagen erhöht die Anzahl der Länder mit Schätzungen der Krankheitsrate von 16 auf 52 und kann dazu beitragen, Länder zu identifizieren, die von einer zusätzlichen Überwachung profitieren könnten. In der folgenden Weltkarte sind Länder mit niedrigen oder vorhergesagten Raten von Ankylosinus -Spondylitis blau und hohe Raten in Gelb dargestellt. Länder mit bekannten Zinssätzen sind schwarz und Personen mit vorhergesagten Zinssätzen in Cyan oder Orange umrissen. Cyan wird für Länder im Bereich unseres Modells verwendet, und Orange wird für Länder außerhalb der Reichweite unseres Modells verwendet, siehe unten, warum dies wichtig ist.

Wir sollten vorsichtig sein, wenn wir die Krankheitsraten für Länder mit HLA-B*27-Raten außerhalb des Bereichs unseres Modells vorhersagen. Von den 36 Ländern, für die wir die Krankheitsraten vorausgesagt haben, haben 10 HLA-B*27 Frequenzen höher oder niedriger als jedes Land, das wir in unserem Modell verwendet haben. Daher können wir nicht sicher sein, dass das Modell genaue Vorhersagen für diese Länder abgibt. Insbesondere können Vorhersagen für Länder mit hohen HLA-B*27-Raten unzuverlässig sein. Wir wissen bereits, dass Finnland nicht zu unserem Modell passte. Dies könnte an einem nichtlinearen Pattern zurückzuführen sein, aber wir haben nicht genügend Daten, um diese hohen Frequenzen zu untersuchen.

Die Länder mit bekannten Krankheitsraten werden mit gefüllten Punkten dargestellt. Finnland, das aus dem Modell weggelassen wurde, ist rot aufgetragen. Die vorhergesagten Krankheitsraten werden als offene Kreise, Cyan für Länder des Modells des Modells und orange außerhalb davon dargestellt. Die Konfidenzintervalle des Modells werden als gestrichelte Linien angezeigt und die Vorhersageintervalle werden als graues Band angezeigt. Eine schnelle Erinnerung an den Unterschied: Wir erwarten, dass die tatsächliche Beziehung zu 95% der Fälle in die Konfidenzintervalle fällt, und wir erwarten, dass 95% der Datenpunkte in die Vorhersageintervalle fallen.
Es lohnt sich, sich einen Second Zeit zu nehmen, um uns daran zu erinnern, dass es trotz dieser Korrelation viele andere Faktoren gibt, die die Krankheitsraten beeinflussen. Offensichtlich wird die Likelihood eines Individuums, eine Ankylosinus -Spondylitis zu entwickeln, auch von ihrer Umwelt und anderen genetischen Faktoren beeinflusst. Wenn wir additionally wirklich genaue Vorhersagen der Krankheitsrate wollten, müssen wir diese anderen Variablen berücksichtigen. Angesichts der Sorge, wie einfach es ist, HLA -Frequenzdaten zu erhalten, ist es ein ziemlich beeindruckender Prädiktor für eine Krankheit, der die Diagnose Jahre dauern kann.
Abschluss
HLA -Gene haben einen starken Einfluss auf die menschliche Gesundheit durch Infektionen, Impfungen, Autoimmunerkrankungen und Organtransplantationen. Aufgrund dieser starken Beziehungen können wir weit verbreitete HLA -Frequenzdaten verwenden, um diese Gesundheitsmerkmale indirekt zu untersuchen. Ressourcen wie AlleleFrequency.internet Und Hlafreq Erleichtern Sie es einfacher, diese Beziehungen zu untersuchen, indem Sie diese Korrelationen direkt betrachten oder Allelfrequenzen als Proxy verwenden, wenn andere Daten fehlen. Ich hoffe, in diesem Beitrag werden Sie über Fragen nachdenken, die Sie mit HLA -Frequenzdaten stellen sollten.
Referenzen
Gonzalez-Galarza, FF, McCabe, A., Santos, Ejmd, Jones, J., Takeshita, L., Ortega-Rivera, ND,… & Jones, AR (2020). Allelfrequenznetzdatenbank (AFND) 2020 Replace: Goldstandard-Datenklassifizierung, Genotypdaten und neue Abfragetools öffnen. NukleinsäurenforschungAnwesend 48(D1), D783-D788.
Dean, LE, Jones, GT, MacDonald, AG, Downham, C., Sturrock, RD & MacFarlane, GJ (2014). Globale Prävalenz von Ankylosspondylitis. RheumatologieAnwesend 53(4), 650-657.
Wells, DA & McAuley, M. (2023). HLAFREQ: Obtain und kombinieren Sie HLA -Allelfrequenzdaten. Biorxiv, 2023-09. https://doi.org/10.1101/2023.09.15.557761
