
Wozu dient die Privatsphäre des Patienten? Im Hippokratischen Eid, der als einer der frühesten und bekanntesten Texte zur medizinischen Ethik der Welt gilt, heißt es: „Alles, was ich im Leben meiner Patienten sehe oder höre, sei es im Zusammenhang mit meiner Berufsausübung oder nicht, und worüber nach außen nicht gesprochen werden sollte, werde ich geheim halten, da ich alle diese Dinge als privat betrachte.“
Da die Privatsphäre im Zeitalter datenhungriger Algorithmen und Cyberangriffe immer knapper wird, ist die Medizin einer der wenigen verbliebenen Bereiche, in denen die Vertraulichkeit in der Praxis nach wie vor von zentraler Bedeutung ist und es Patienten ermöglicht, ihren Ärzten vertrauliche Informationen anzuvertrauen.
Aber ein Papier Das von MIT-Forschern mitverfasste Projekt untersucht, wie Modelle künstlicher Intelligenz, die auf nicht identifizierten elektronischen Gesundheitsakten (EHRs) trainiert werden, patientenspezifische Informationen speichern können. Die Arbeit, die kürzlich auf der 2025 Convention on Neural Info Processing Methods (NeurIPS) vorgestellt wurde, empfiehlt einen strengen Testaufbau, um sicherzustellen, dass gezielte Eingabeaufforderungen keine Informationen preisgeben können, und betont, dass Lecks im Gesundheitskontext bewertet werden müssen, um festzustellen, ob sie die Privatsphäre des Patienten erheblich beeinträchtigen.
Auf EHRs trainierte Basis-Modelle sollten normalerweise das Wissen verallgemeinern, um bessere Vorhersagen zu treffen und dabei auf viele Patientenakten zurückgreifen. Beim „Auswendiglernen“ greift das Modell jedoch auf eine einzelne Patientenakte zurück, um seine Ergebnisse zu liefern, wodurch möglicherweise die Privatsphäre des Patienten verletzt wird. Insbesondere Stiftungsmodelle sind bereits bekannt anfällig für Datenlecks.
„Das Wissen über diese Hochleistungsmodelle kann für viele Communities eine Ressource sein, aber gegnerische Angreifer können ein Modell dazu veranlassen, Informationen aus Trainingsdaten zu extrahieren“, sagt Sana Tonekaboni, Postdoktorandin am Eric and Wendy Schmidt Heart am Broad Institute of MIT und Harvard und Erstautorin des Artikels. Angesichts des Risikos, dass Stiftungsmodelle auch personal Daten speichern könnten, stellt sie fest: „Diese Arbeit ist ein Schritt, um sicherzustellen, dass es praktische Bewertungsschritte gibt, die unsere Group unternehmen kann, bevor Modelle veröffentlicht werden.“
Um Untersuchungen zu den potenziellen Risiken durchzuführen, die EHR-Grundlagenmodelle in der Medizin darstellen könnten, wandte sich Tonekaboni an den MIT Affiliate Professor Marzyeh Ghassemider leitender Ermittler am ist Abdul Latif Jameel Klinik für maschinelles Lernen im Gesundheitswesen (Jameel Clinic), Mitglied des Labors für Informatik und künstliche Intelligenz. Ghassemi, Fakultätsmitglied der MIT-Abteilung für Elektrotechnik und Informatik und des Instituts für Medizintechnik und Wissenschaft, leitet das Gesunde ML-Gruppedas sich auf robustes maschinelles Lernen im Gesundheitswesen konzentriert.
Wie viele Informationen benötigt ein böswilliger Akteur, um wise Daten preiszugeben, und welche Risiken sind mit den durchgesickerten Informationen verbunden? Um dies zu beurteilen, entwickelte das Forschungsteam eine Reihe von Checks, die hoffentlich den Grundstein für zukünftige Datenschutzbewertungen legen werden. Diese Checks sollen verschiedene Arten von Unsicherheit messen und ihr praktisches Risiko für Patienten bewerten, indem sie verschiedene Stufen der Angriffsmöglichkeit messen.
„Wir haben hier wirklich versucht, den Schwerpunkt auf die Praktikabilität zu legen. Wenn ein Angreifer das Datum und den Wert von einem Dutzend Labortests aus Ihrer Akte kennen muss, um Informationen zu extrahieren, ist das Schadensrisiko sehr gering. Wenn ich bereits Zugriff auf diese Ebene geschützter Quelldaten habe, warum sollte ich dann ein großes Fundamentmodell angreifen müssen, um mehr zu erhalten?“ sagt Ghassemi.
Mit der unvermeidlichen Digitalisierung medizinischer Unterlagen kommt es immer häufiger zu Datenschutzverletzungen. In den letzten 24 Monaten hat das US-Gesundheitsministerium Aufzeichnungen gemacht 747 Datenschutzverstöße von Gesundheitsinformationen, die mehr als 500 Personen betreffen, wobei die meisten als Hacking-/IT-Vorfälle eingestuft wurden.
Patienten mit besonderen Erkrankungen sind besonders gefährdet, da sie leicht zu erkennen sind. „Selbst bei nicht identifizierten Daten kommt es darauf an, welche Artwork von Informationen Sie über die Particular person preisgeben“, sagt Tonekaboni. „Sobald man sie identifiziert hat, weiß man viel mehr.“
In ihren strukturierten Checks stellten die Forscher fest: Je mehr Informationen der Angreifer über einen bestimmten Patienten hat, desto wahrscheinlicher ist es, dass das Modell Informationen preisgibt. Sie demonstrierten, wie man Modellverallgemeinerungsfälle von Fällen des Auswendiglernens auf Patientenebene unterscheiden kann, um das Datenschutzrisiko richtig einzuschätzen.
Das Papier betonte auch, dass einige Lecks schädlicher seien als andere. Beispielsweise könnte ein Modell, das das Alter oder die demografischen Daten eines Patienten offenlegt, als harmloserer Leak charakterisiert werden als das Modell, das sensiblere Informationen wie eine HIV-Diagnose oder Alkoholmissbrauch preisgibt.
Die Forscher stellen fest, dass Patienten mit besonderen Erkrankungen besonders gefährdet sind, da sie leicht zu erkennen sind und möglicherweise ein höheres Maß an Schutz erfordern. „Selbst bei nicht identifizierten Daten kommt es wirklich darauf an, welche Artwork von Informationen Sie über die Particular person preisgeben“, sagt Tonekaboni. Die Forscher planen, die Arbeit interdisziplinärer auszuweiten und Kliniker und Datenschutzexperten sowie Rechtsexperten hinzuzufügen.
„Es gibt einen Grund, warum unsere Gesundheitsdaten privat sind“, sagt Tonekaboni. „Es gibt keinen Grund für andere, davon zu erfahren.“
Diese Arbeit wurde vom Eric and Wendy Schmidt Heart am Broad Institute of MIT und Harvard, Wallenberg AI, der Knut and Alice Wallenberg Basis, der US Nationwide Science Basis (NSF), einem Preis der Gordon and Betty Moore Basis, einem Google Analysis Scholar Award und dem AI2050-Programm von Schmidt Sciences unterstützt. Die für die Vorbereitung dieser Forschung verwendeten Ressourcen wurden teilweise von der Provinz Ontario, der kanadischen Regierung über CIFAR und Unternehmen, die das Vector Institute sponsern, bereitgestellt.
