Gesundheitsgerechtigkeit ist weltweit ein großes gesellschaftliches Anliegen, wobei Ungleichheiten viele Ursachen haben. Zu diesen Ursachen gehören Einschränkungen beim Zugang zur Gesundheitsversorgung, Unterschiede in der klinischen Behandlung und sogar grundlegende Unterschiede in der Diagnosetechnologie. In der Dermatologie beispielsweise sind die Folgen von Hautkrebs für Bevölkerungsgruppen wie Minderheiten, Personen mit niedrigerem sozioökonomischen Standing oder Personen mit eingeschränktem Zugang zur Gesundheitsversorgung schlechter. Auch wenn die jüngsten Fortschritte beim maschinellen Lernen (ML) und der künstlichen Intelligenz (KI) großes Potenzial für eine Verbesserung der Gesundheitsversorgung bieten, muss dieser Übergang von der Forschung zum Krankenbett mit einem sorgfältigen Verständnis darüber einhergehen, ob und wie sie sich auf die gesundheitliche Chancengleichheit auswirken.
Gesundheitsgerechtigkeit wird von öffentlichen Gesundheitsorganisationen als faire Chancengleichheit für alle definiert, so gesund wie möglich zu sein. Wichtig ist, dass das Eigenkapital unterschiedlich sein kann Gleichwertigkeit. Beispielsweise müssen Menschen mit größeren Hürden bei der Verbesserung ihrer Gesundheit möglicherweise mehr oder andere Anstrengungen unternehmen, um diese faire Probability wahrzunehmen. Gleichermaßen gilt dies nicht für Gerechtigkeit Gerechtigkeit wie in der Literatur zu KI für das Gesundheitswesen definiert. Während KI-Equity häufig eine gleiche Leistung der KI-Technologie bei verschiedenen Patientenpopulationen anstrebt, steht dabei nicht das Ziel im Mittelpunkt, die Leistung im Hinblick auf bereits bestehende gesundheitliche Ungleichheiten zu priorisieren.
In „Gesundheitsgerechtigkeitsbewertung der Leistung maschinellen Lernens (HEAL): eine Rahmen- und Dermatologie-KI-Modell-Fallstudie„, veröffentlicht in Die Lancet eClinicalMedicineWir schlagen eine Methodik vor, um quantitativ zu bewerten, ob ML-basierte Gesundheitstechnologien eine gleichwertige Leistung erbringen. Mit anderen Worten: Funktioniert das ML-Modell intestine für diejenigen mit den schlechtesten Gesundheitsergebnissen für die Erkrankung(en), die das Modell behandeln soll? Dieses Ziel basiert auf dem Grundsatz, dass gesundheitliche Chancengleichheit die Modellleistung im Hinblick auf unterschiedliche Gesundheitsergebnisse priorisieren und messen sollte, was auf eine Reihe von Faktoren zurückzuführen sein kann, zu denen strukturelle Ungleichheiten gehören (z. B. demografische, soziale, kulturelle, politische, wirtschaftliche, ökologische und andere). geografisch).
Das Rahmenwerk für gesundheitliche Chancengleichheit (HEAL)
Das HEAL-Framework schlägt einen vierstufigen Prozess vor, um die Wahrscheinlichkeit abzuschätzen, dass eine ML-basierte Gesundheitstechnologie eine gleichwertige Leistung erbringt:
-
Identifizieren Sie Faktoren, die mit gesundheitlichen Ungleichheiten verbunden sind, und definieren Sie Leistungsmetriken für Instruments.
-
Identifizieren und quantifizieren Sie bereits bestehende gesundheitliche Ungleichheiten,
-
Messen Sie die Leistung des Instruments für jede Teilpopulation.
-
Messen Sie die Wahrscheinlichkeit, dass das Instrument die Leistung im Hinblick auf gesundheitliche Ungleichheiten priorisiert.
Die Ausgabe des letzten Schritts wird als HEAL-Metrik bezeichnet, die quantifiziert, wie antikorreliert die Leistung des ML-Modells mit Gesundheitsunterschieden ist. Mit anderen Worten: Funktioniert das Modell bei Populationen mit schlechteren Gesundheitsergebnissen besser?
Dieser 4-stufige Prozess soll zu Verbesserungen führen, um die Leistung des ML-Modells gerechter zu gestalten. Er soll iterativ sein und regelmäßig neu bewertet werden. Beispielsweise kann die Verfügbarkeit von Daten zu Gesundheitsergebnissen in Schritt (2) die Wahl der demografischen Faktoren und Klammern in Schritt (1) beeinflussen, und der Rahmen kann mit neuen Datensätzen, Modellen und Populationen erneut angewendet werden.
Mit dieser Arbeit machen wir einen Schritt in Richtung einer expliziten Bewertung der Überlegungen zur gesundheitlichen Chancengleichheit von KI-Technologien und fördern die Priorisierung von Bemühungen während der Modellentwicklung, um gesundheitliche Ungleichheiten für Teilpopulationen zu verringern, die strukturellen Ungleichheiten ausgesetzt sind, die zu unterschiedlichen Ergebnissen führen können. Wir sollten beachten, dass der vorliegende Rahmen keine Kausalzusammenhänge modelliert und daher nicht die tatsächlichen Auswirkungen einer neuen Technologie auf die Verringerung der Unterschiede bei den Gesundheitsergebnissen quantifizieren kann. Die HEAL-Metrik kann jedoch dabei helfen, Verbesserungsmöglichkeiten zu identifizieren, wenn die aktuelle Leistung im Hinblick auf bereits bestehende gesundheitliche Ungleichheiten nicht priorisiert wird.
Fallstudie zu einem dermatologischen Modell
Als anschauliche Fallstudie haben wir das Framework auf ein dermatologisches Modell angewendet, das ein Faltungs-Neuronales Netzwerk ähnlich dem in verwendet vorherige Arbeit. Dieses Beispiel-Dermatologiemodell wurde darauf trainiert, 288 Hauterkrankungen anhand eines Entwicklungsdatensatzes von 29.000 Fällen zu klassifizieren. Die Eingabe in das Modell besteht aus drei Fotos eines Hautproblems zusammen mit demografischen Informationen und einer kurzen strukturierten Krankengeschichte. Die Ausgabe besteht aus einer Rangliste möglicher passender Hauterkrankungen.
Mithilfe des HEAL-Frameworks haben wir dieses Modell bewertet, indem wir beurteilt haben, ob es die Leistung im Hinblick auf bereits bestehende Gesundheitsergebnisse priorisiert. Das Modell wurde entwickelt, um mögliche dermatologische Erkrankungen (aus einer Liste von Hunderten) auf der Grundlage von Fotos eines Hautproblems und Patientenmetadaten vorherzusagen. Die Bewertung des Modells erfolgt anhand einer Prime-3-Übereinstimmungsmetrik, die quantifiziert, wie oft die Prime-3-Ausgabebedingungen mit der wahrscheinlichsten Bedingung übereinstimmen, wie von einem Dermatologengremium vorgeschlagen. Die HEAL-Metrik wird über die Antikorrelation dieser Prime-3-Übereinstimmung mit der Rangliste der Gesundheitsergebnisse berechnet.
Wir verwendeten einen Datensatz von 5.420 Teledermatologie-Fällen, angereichert um Diversität in Bezug auf Alter, Geschlecht und Rasse/ethnische Zugehörigkeit, um die HEAL-Metrik des Modells retrospektiv zu bewerten. Der Datensatz bestand aus „Retailer-and-Ahead“-Fällen von Patienten im Alter von 20 Jahren oder älter von Hausärzten in den USA und Hautkrebskliniken in Australien. Basierend auf einer Durchsicht der Literatur haben wir beschlossen, Rasse/ethnische Zugehörigkeit, Geschlecht und Alter als potenzielle Ungleichheitsfaktoren zu untersuchen, und haben Stichprobenverfahren eingesetzt, um sicherzustellen, dass unser Bewertungsdatensatz alle Rassen/ethnischen Zugehörigkeiten, Geschlechter und Altersgruppen ausreichend repräsentiert. Um bereits bestehende Gesundheitsergebnisse für jede Untergruppe zu quantifizieren, stützten wir uns auf Messungen von öffentlich Datenbanken von der Weltgesundheitsorganisation empfohlen, wie z Verlorene Lebensjahre (YLLs) und Behinderungsbereinigte Lebensjahre (DALYs; verlorene Lebensjahre plus mit Behinderung gelebte Jahre).
HEAL-Metrik für alle dermatologischen Erkrankungen aller Geschlechter, einschließlich Gesundheitsergebnisse (DALYs professional 100.000), Modellleistung (Prime-3-Übereinstimmung) und Rankings für Gesundheitsergebnisse und Werkzeugleistung. (* Wie oben.) |