Gesundheitsgerechtigkeit ist weltweit ein großes gesellschaftliches Anliegen, wobei Ungleichheiten viele Ursachen haben. Zu diesen Ursachen gehören Einschränkungen beim Zugang zur Gesundheitsversorgung, Unterschiede in der klinischen Behandlung und sogar grundlegende Unterschiede in der Diagnosetechnologie. In der Dermatologie beispielsweise sind die Folgen von Hautkrebs für Bevölkerungsgruppen wie Minderheiten, Personen mit niedrigerem sozioökonomischen Standing oder Personen mit eingeschränktem Zugang zur Gesundheitsversorgung schlechter. Auch wenn die jüngsten Fortschritte beim maschinellen Lernen (ML) und der künstlichen Intelligenz (KI) großes Potenzial für eine Verbesserung der Gesundheitsversorgung bieten, muss dieser Übergang von der Forschung zum Krankenbett mit einem sorgfältigen Verständnis darüber einhergehen, ob und wie sie sich auf die gesundheitliche Chancengleichheit auswirken.

Gesundheitsgerechtigkeit wird von öffentlichen Gesundheitsorganisationen als faire Chancengleichheit für alle definiert, so gesund wie möglich zu sein. Wichtig ist, dass das Eigenkapital unterschiedlich sein kann Gleichwertigkeit. Beispielsweise müssen Menschen mit größeren Hürden bei der Verbesserung ihrer Gesundheit möglicherweise mehr oder andere Anstrengungen unternehmen, um diese faire Probability wahrzunehmen. Gleichermaßen gilt dies nicht für Gerechtigkeit Gerechtigkeit wie in der Literatur zu KI für das Gesundheitswesen definiert. Während KI-Equity häufig eine gleiche Leistung der KI-Technologie bei verschiedenen Patientenpopulationen anstrebt, steht dabei nicht das Ziel im Mittelpunkt, die Leistung im Hinblick auf bereits bestehende gesundheitliche Ungleichheiten zu priorisieren.

Überlegungen zur gesundheitlichen Chancengleichheit. Eine Intervention (z. B. ein ML-basiertes Instrument, in Dunkelblau angezeigt) fördert die gesundheitliche Chancengleichheit, wenn sie dazu beiträgt, bestehende Unterschiede bei den Gesundheitsergebnissen zu verringern (in Hellblau angezeigt).

In „Gesundheitsgerechtigkeitsbewertung der Leistung maschinellen Lernens (HEAL): eine Rahmen- und Dermatologie-KI-Modell-Fallstudie„, veröffentlicht in Die Lancet eClinicalMedicineWir schlagen eine Methodik vor, um quantitativ zu bewerten, ob ML-basierte Gesundheitstechnologien eine gleichwertige Leistung erbringen. Mit anderen Worten: Funktioniert das ML-Modell intestine für diejenigen mit den schlechtesten Gesundheitsergebnissen für die Erkrankung(en), die das Modell behandeln soll? Dieses Ziel basiert auf dem Grundsatz, dass gesundheitliche Chancengleichheit die Modellleistung im Hinblick auf unterschiedliche Gesundheitsergebnisse priorisieren und messen sollte, was auf eine Reihe von Faktoren zurückzuführen sein kann, zu denen strukturelle Ungleichheiten gehören (z. B. demografische, soziale, kulturelle, politische, wirtschaftliche, ökologische und andere). geografisch).

Das Rahmenwerk für gesundheitliche Chancengleichheit (HEAL)

Das HEAL-Framework schlägt einen vierstufigen Prozess vor, um die Wahrscheinlichkeit abzuschätzen, dass eine ML-basierte Gesundheitstechnologie eine gleichwertige Leistung erbringt:

  1. Identifizieren Sie Faktoren, die mit gesundheitlichen Ungleichheiten verbunden sind, und definieren Sie Leistungsmetriken für Instruments.

  2. Identifizieren und quantifizieren Sie bereits bestehende gesundheitliche Ungleichheiten,

  3. Messen Sie die Leistung des Instruments für jede Teilpopulation.

  4. Messen Sie die Wahrscheinlichkeit, dass das Instrument die Leistung im Hinblick auf gesundheitliche Ungleichheiten priorisiert.

Die Ausgabe des letzten Schritts wird als HEAL-Metrik bezeichnet, die quantifiziert, wie antikorreliert die Leistung des ML-Modells mit Gesundheitsunterschieden ist. Mit anderen Worten: Funktioniert das Modell bei Populationen mit schlechteren Gesundheitsergebnissen besser?

Dieser 4-stufige Prozess soll zu Verbesserungen führen, um die Leistung des ML-Modells gerechter zu gestalten. Er soll iterativ sein und regelmäßig neu bewertet werden. Beispielsweise kann die Verfügbarkeit von Daten zu Gesundheitsergebnissen in Schritt (2) die Wahl der demografischen Faktoren und Klammern in Schritt (1) beeinflussen, und der Rahmen kann mit neuen Datensätzen, Modellen und Populationen erneut angewendet werden.

Rahmen für die Gesundheitsgerechtigkeitsbewertung der Leistung maschinellen Lernens (HEAL). Unser Leitprinzip besteht darin, eine Verschärfung gesundheitlicher Ungleichheiten zu vermeiden. Diese Schritte helfen uns, Ungleichheiten zu erkennen und ungleiche Modellleistungen zu bewerten, um bessere Ergebnisse für alle zu erzielen.

Mit dieser Arbeit machen wir einen Schritt in Richtung einer expliziten Bewertung der Überlegungen zur gesundheitlichen Chancengleichheit von KI-Technologien und fördern die Priorisierung von Bemühungen während der Modellentwicklung, um gesundheitliche Ungleichheiten für Teilpopulationen zu verringern, die strukturellen Ungleichheiten ausgesetzt sind, die zu unterschiedlichen Ergebnissen führen können. Wir sollten beachten, dass der vorliegende Rahmen keine Kausalzusammenhänge modelliert und daher nicht die tatsächlichen Auswirkungen einer neuen Technologie auf die Verringerung der Unterschiede bei den Gesundheitsergebnissen quantifizieren kann. Die HEAL-Metrik kann jedoch dabei helfen, Verbesserungsmöglichkeiten zu identifizieren, wenn die aktuelle Leistung im Hinblick auf bereits bestehende gesundheitliche Ungleichheiten nicht priorisiert wird.

Fallstudie zu einem dermatologischen Modell

Als anschauliche Fallstudie haben wir das Framework auf ein dermatologisches Modell angewendet, das ein Faltungs-Neuronales Netzwerk ähnlich dem in verwendet vorherige Arbeit. Dieses Beispiel-Dermatologiemodell wurde darauf trainiert, 288 Hauterkrankungen anhand eines Entwicklungsdatensatzes von 29.000 Fällen zu klassifizieren. Die Eingabe in das Modell besteht aus drei Fotos eines Hautproblems zusammen mit demografischen Informationen und einer kurzen strukturierten Krankengeschichte. Die Ausgabe besteht aus einer Rangliste möglicher passender Hauterkrankungen.

Mithilfe des HEAL-Frameworks haben wir dieses Modell bewertet, indem wir beurteilt haben, ob es die Leistung im Hinblick auf bereits bestehende Gesundheitsergebnisse priorisiert. Das Modell wurde entwickelt, um mögliche dermatologische Erkrankungen (aus einer Liste von Hunderten) auf der Grundlage von Fotos eines Hautproblems und Patientenmetadaten vorherzusagen. Die Bewertung des Modells erfolgt anhand einer Prime-3-Übereinstimmungsmetrik, die quantifiziert, wie oft die Prime-3-Ausgabebedingungen mit der wahrscheinlichsten Bedingung übereinstimmen, wie von einem Dermatologengremium vorgeschlagen. Die HEAL-Metrik wird über die Antikorrelation dieser Prime-3-Übereinstimmung mit der Rangliste der Gesundheitsergebnisse berechnet.

Wir verwendeten einen Datensatz von 5.420 Teledermatologie-Fällen, angereichert um Diversität in Bezug auf Alter, Geschlecht und Rasse/ethnische Zugehörigkeit, um die HEAL-Metrik des Modells retrospektiv zu bewerten. Der Datensatz bestand aus „Retailer-and-Ahead“-Fällen von Patienten im Alter von 20 Jahren oder älter von Hausärzten in den USA und Hautkrebskliniken in Australien. Basierend auf einer Durchsicht der Literatur haben wir beschlossen, Rasse/ethnische Zugehörigkeit, Geschlecht und Alter als potenzielle Ungleichheitsfaktoren zu untersuchen, und haben Stichprobenverfahren eingesetzt, um sicherzustellen, dass unser Bewertungsdatensatz alle Rassen/ethnischen Zugehörigkeiten, Geschlechter und Altersgruppen ausreichend repräsentiert. Um bereits bestehende Gesundheitsergebnisse für jede Untergruppe zu quantifizieren, stützten wir uns auf Messungen von öffentlich Datenbanken von der Weltgesundheitsorganisation empfohlen, wie z Verlorene Lebensjahre (YLLs) und Behinderungsbereinigte Lebensjahre (DALYs; verlorene Lebensjahre plus mit Behinderung gelebte Jahre).

HEAL-Metrik für alle dermatologischen Erkrankungen in Subpopulationen von Rasse und ethnischer Zugehörigkeit, einschließlich Gesundheitsergebnissen (YLLs professional 100.000), Modellleistung (Prime-3-Übereinstimmung) und Rankings für Gesundheitsergebnisse und Toolleistung.
(* Höher ist besser; misst die Wahrscheinlichkeit, dass das Modell in Bezug auf die Achsen in dieser Tabelle eine gleichwertige Leistung erbringt.)

Unsere Analyse schätzte, dass das Modell mit einer Wahrscheinlichkeit von 80,5 % über alle Rassen-/Ethnizitäts-Untergruppen hinweg gleich intestine abschneidet und mit einer Wahrscheinlichkeit von 92,1 %, dass es über alle Geschlechter hinweg gleich abschneidet.

Obwohl das Modell insbesondere bei Krebserkrankungen über alle Altersgruppen hinweg wahrscheinlich eine gleichwertige Leistung erbrachte, stellten wir fest, dass es bei Nicht-Krebserkrankungen über alle Altersgruppen hinweg Raum für Verbesserungen gab. Beispielsweise haben die über 70-Jährigen die schlechtesten gesundheitlichen Ergebnisse im Zusammenhang mit nicht krebsbedingten Hauterkrankungen, doch das Modell hat die Leistung dieser Untergruppe nicht priorisiert.

HEAL-Metrik für alle dermatologischen Erkrankungen aller Geschlechter, einschließlich Gesundheitsergebnisse (DALYs professional 100.000), Modellleistung (Prime-3-Übereinstimmung) und Rankings für Gesundheitsergebnisse und Werkzeugleistung. (* Wie oben.)
HEAL-Metriken für alle krebsbedingten und nicht krebsbedingten dermatologischen Erkrankungen in allen Altersgruppen, einschließlich Gesundheitsergebnissen (DALYs professional 100.000), Modellleistung (Prime-3-Übereinstimmung) und Rankings für Gesundheitsergebnisse und Toolleistung. (* Wie oben.)

Dinge in einen Kontext bringen

Für eine ganzheitliche Bewertung kann die HEAL-Metrik nicht isoliert eingesetzt werden. Stattdessen sollte diese Metrik zusammen mit vielen anderen Faktoren kontextualisiert werden, die von Recheneffizienz und Datenschutz bis hin zu ethischen Werten und Aspekten reichen, die die Ergebnisse beeinflussen können (z. B. Auswahlverzerrung oder Unterschiede in der Repräsentativität der Bewertungsdaten zwischen demografischen Gruppen).

Als kontroverses Beispiel kann die HEAL-Metrik künstlich verbessert werden, indem die Modellleistung für die am meisten begünstigte Teilpopulation bewusst reduziert wird, bis die Leistung für diese Teilpopulation schlechter ist als für alle anderen. Betrachten Sie zur Veranschaulichung bei gegebenen Teilpopulationen A und B, bei denen A schlechtere Gesundheitsergebnisse als B aufweist, die Wahl zwischen zwei Modellen: Modell 1 (M1) schneidet für Teilpopulation A um 5 % besser ab als für Teilpopulation B. Modell 2 (M2) schneidet um 5 % ab. bei Subpopulation A schlechter als bei B. Die HEAL-Metrik wäre für M1 höher, da sie die Leistung einer Subpopulation mit schlechteren Ergebnissen priorisiert. Allerdings kann M1 absolute Leistungen von nur 75 % bzw. 70 % für die Teilpopulationen A und B aufweisen, während M2 absolute Leistungen von 75 % bzw. 80 % für die Teilpopulationen A und B aufweist. Die Wahl von M1 gegenüber M2 würde zu einer schlechteren Gesamtleistung für alle Teilpopulationen führen, da es einigen Teilpopulationen schlechter geht, während es keiner Teilpopulation besser geht.

Dementsprechend sollte die HEAL-Metrik neben a verwendet werden Pareto-Bedingung (wird im Artikel weiter besprochen), wodurch Modelländerungen eingeschränkt werden, sodass die Ergebnisse für jede Teilpopulation im Vergleich zum Establishment entweder unverändert oder verbessert sind und sich die Leistung für keine Teilpopulation verschlechtert.

Das HEAL-Framework in seiner aktuellen Kind bewertet die Wahrscheinlichkeit, dass ein ML-basiertes Modell die Leistung von Teilpopulationen im Hinblick auf bereits bestehende gesundheitliche Ungleichheiten für bestimmte Teilpopulationen priorisiert. Dies unterscheidet sich vom Ziel, zu verstehen, ob ML in der Realität die Unterschiede in den Ergebnissen zwischen Subpopulationen verringern wird. Insbesondere erfordert die Modellierung von Ergebnisverbesserungen ein kausales Verständnis der Schritte auf dem Pflegeweg, die sowohl vor als auch nach der Verwendung eines bestimmten Modells stattfinden. Zukünftige Forschung ist erforderlich, um diese Lücke zu schließen.

Abschluss

Das HEAL-Framework ermöglicht eine quantitative Bewertung der Wahrscheinlichkeit, dass Gesundheits-KI-Technologien die Leistung im Hinblick auf gesundheitliche Ungleichheiten priorisieren. Die Fallstudie zeigt, wie das Framework im dermatologischen Bereich angewendet werden kann. Sie weist darauf hin, dass die Modellleistung mit hoher Wahrscheinlichkeit im Hinblick auf gesundheitliche Unterschiede zwischen Geschlecht und Rasse/ethnischer Zugehörigkeit priorisiert wird, zeigt aber auch das Potenzial für Verbesserungen bei nicht krebsbedingten Erkrankungen im gesamten Alter auf. Die Fallstudie verdeutlicht auch Einschränkungen bei der Fähigkeit, alle empfohlenen Aspekte des Rahmenwerks anzuwenden (z. B. Abbildung des gesellschaftlichen Kontexts, Verfügbarkeit von Daten), und verdeutlicht so die Komplexität der Überlegungen zur gesundheitlichen Chancengleichheit ML-basierter Instruments.

Diese Arbeit ist ein vorgeschlagener Ansatz zur Bewältigung einer großen Herausforderung für KI und Gesundheitsgerechtigkeit und kann einen nützlichen Bewertungsrahmen nicht nur während der Modellentwicklung, sondern auch während der Vorimplementierungs- und Überwachungsphase in der realen Welt bieten, z. B. in Kind von Gesundheitsgerechtigkeit Dashboards. Wir sind davon überzeugt, dass die Stärke des HEAL-Frameworks in seiner zukünftigen Anwendung auf verschiedene KI-Instruments und Anwendungsfälle und seiner Verfeinerung im Prozess liegt. Abschließend erkennen wir an, dass ein erfolgreicher Ansatz zum Verständnis der Auswirkungen von KI-Technologien auf die gesundheitliche Chancengleichheit mehr als nur eine Reihe von Messgrößen sein muss. Dazu ist eine Reihe von Zielen erforderlich, die von einer Gemeinschaft vereinbart werden, die diejenigen repräsentiert, die am stärksten von einem Modell betroffen sein werden.

Danksagungen

Die hier beschriebene Forschung ist eine Gemeinschaftsarbeit vieler Groups bei Google. Wir danken allen unseren Co-Autoren: Terry Spitz, Malcolm Pyles, Heather Cole-Lewis, Ellery Wulczyn, Stephen R. Pfohl, Donald Martin, Jr., Ronnachai Jaroensri, Geoff Keeling, Yuan Liu, Stephanie Farquhar, Qinghan Xue, Jenna Lester, Cían Hughes, Patricia Strachan, Fraser Tan, Peggy Bui, Craig H. Mermel, Lily H. Peng, Yossi Matias, Greg S. Corrado, Dale R. Webster, Sunny Virmani, Christopher Semturs, Yun Liu und Po- Hsuan Cameron Chen. Wir danken außerdem Lauren Winer, Sami Lachgar, Ting-An Lin, Aaron Loh, Morgan Du, Jenny Rizk, Renee Wong, Ashley Carrick, Preeti Singh, Annisah Um’rani, Jessica Schrouff, Alexander Brown und Anna Iurchenko für ihre Unterstützung dieses Projekt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert