Gesundheitsdatensätze spielen eine entscheidende Rolle in der Forschung und medizinischen Ausbildung, es kann jedoch eine Herausforderung sein, einen Datensatz zu erstellen, der die reale Welt abbildet. Beispielsweise unterscheiden sich dermatologische Erkrankungen in ihrem Erscheinungsbild und ihrer Schwere und äußern sich je nach Hautton unterschiedlich. Allerdings mangelt es den bestehenden Dermatologie-Bilddatensätzen häufig an der Darstellung alltäglicher Erkrankungen (wie Hautausschläge, Allergien und Infektionen) und sie neigen zu helleren Hauttönen. Darüber hinaus fehlen häufig Informationen zu Rasse und ethnischer Zugehörigkeit, was uns daran hindert, Ungleichheiten einzuschätzen oder Lösungen zu finden.

Um diese Einschränkungen zu beheben, veröffentlichen wir die Datensatz des Pores and skin Situation Picture Community (SCIN). in Zusammenarbeit mit Ärzten der Stanford-Medizin. Wir haben SCIN so konzipiert, dass es das breite Spektrum an Anliegen widerspiegelt, nach denen Menschen on-line suchen, und die Arten von Erkrankungen ergänzt, die typischerweise in klinischen Datensätzen zu finden sind. Es enthält Bilder verschiedener Hauttöne und Körperteile und trägt so dazu bei, dass zukünftige KI-Instruments für alle effektiv funktionieren. Wir haben es geschafft der SCIN-Datensatz als Open-Entry-Ressource für Forscher, Pädagogen und Entwickler frei verfügbar und haben sorgfältige Maßnahmen ergriffen, um die Privatsphäre der Mitwirkenden zu schützen.

Beispielsatz von Bildern und Metadaten aus dem SCIN-Datensatz.

Zusammensetzung des Datensatzes

Der SCIN-Datensatz enthält derzeit über 10.000 Bilder von Haut-, Nagel- oder Haarerkrankungen, die direkt von Betroffenen stammen. Alle Beiträge wurden freiwillig und mit informierter Zustimmung von Einzelpersonen in den USA im Rahmen einer vom Institutional Assessment Board genehmigten Studie geleistet. Um einen Kontext für die retrospektive Dermatologen-Kennzeichnung zu schaffen, wurden die Mitwirkenden gebeten, Bilder sowohl aus der Nähe als auch aus etwas größerer Entfernung aufzunehmen. Sie hatten die Möglichkeit, demografische Informationen selbst anzugeben Bräunungsneigung (selbst angegebener Fitzpatrick-Hauttyp, d. h. sFST) und um die Beschaffenheit, Dauer und Symptome im Zusammenhang mit ihrem Anliegen zu beschreiben.

Ein bis drei Dermatologen haben jeden Beitrag mit bis zu fünf dermatologischen Erkrankungen gekennzeichnet und für jede Kennzeichnung einen Konfidenzwert angegeben. Der SCIN-Datensatz enthält diese einzelnen Labels sowie eine daraus abgeleitete aggregierte und gewichtete Differentialdiagnose, die für Modelltests oder -training nützlich sein könnte. Diese Bezeichnungen wurden nachträglich vergeben und sind nicht gleichbedeutend mit einer klinischen Diagnose, ermöglichen uns jedoch, die Verteilung dermatologischer Erkrankungen im SCIN-Datensatz mit vorhandenen Datensätzen zu vergleichen.

Der SCIN-Datensatz enthält überwiegend allergische, entzündliche und infektiöse Erkrankungen, während sich Datensätze aus klinischen Quellen auf gutartige und bösartige Erkrankungen konzentrieren Neoplasien.

Während sich viele bestehende Dermatologie-Datensätze auf bösartige und gutartige Tumoren konzentrieren und bei der Diagnose von Hautkrebs helfen sollen, umfasst der SCIN-Datensatz größtenteils häufige allergische, entzündliche und infektiöse Erkrankungen. Die meisten Bilder im SCIN-Datensatz zeigen Bedenken im Frühstadium – mehr als die Hälfte entstand weniger als eine Woche vor der Aufnahme des Fotos und 30 % traten weniger als einen Tag vor der Aufnahme des Bildes auf. Erkrankungen innerhalb dieses Zeitfensters treten im Gesundheitssystem selten auf und sind daher in vorhandenen Dermatologie-Datensätzen unterrepräsentiert.

Wir haben auch Schätzungen von Dermatologen zum Fitzpatrick-Hauttyp (geschätzter FST oder eFST) und Schätzungen von Laienbeschriftern erhalten Mönch-Hautton (eMST) für die Bilder. Dies ermöglichte einen Vergleich der Hautzustands- und Hauttypverteilungen mit denen in vorhandenen Dermatologie-Datensätzen. Obwohl wir nicht selektiv auf Hauttypen oder Hauttöne abzielten, weist der SCIN-Datensatz im Vergleich zu ähnlichen Datensätzen aus klinischen Quellen eine ausgewogene Fitzpatrick-Hauttypverteilung auf (mit mehr der Typen 3, 4, 5 und 6).

Selbstberichtete und vom Dermatologen geschätzte Fitzpatrick-Hauttypverteilung im SCIN-Datensatz im Vergleich zu vorhandenen, nicht angereicherten Dermatologie-Datensätzen (Fitzpatrick17k, PH², SKINL2Und PAD-UFES-20).

Der Fitzpatrick-Hauttyp Die Skala wurde ursprünglich als Fototypisierungsskala zur Messung der Reaktion von Hauttypen auf UV-Strahlung entwickelt und wird häufig in der dermatologischen Forschung eingesetzt. Die Monk-Hauttonskala ist eine neuere Skala mit 10 Farbtönen, die den Hautton und nicht den Hautfototyp misst und nuanciertere Unterschiede zwischen den dunkleren Hauttönen erfasst. Während keine der beiden Skalen für eine retrospektive Schätzung anhand von Bildern gedacht struggle, soll die Einbeziehung dieser Bezeichnungen zukünftige Forschungen zur Darstellung von Hauttyp und -ton in der Dermatologie ermöglichen. Der SCIN-Datensatz bietet beispielsweise einen ersten Maßstab für die Verteilung dieser Hauttypen und -töne in der US-Bevölkerung.

Der SCIN-Datensatz weist einen hohen Anteil an Frauen und jüngeren Personen auf, was wahrscheinlich auf eine Kombination von Faktoren zurückzuführen ist. Dazu könnten Unterschiede in der Inzidenz von Hauterkrankungen, die Neigung, on-line nach Gesundheitsinformationen zu suchen, und Unterschiede in der Bereitschaft, zur Forschung beizutragen, in verschiedenen demografischen Gruppen gehören.

Crowdsourcing-Methode

Zur Erstellung des SCIN-Datensatzes haben wir eine neuartige Crowdsourcing-Methode verwendet, die wir im Folgenden beschreiben Forschungsbericht Co-Autor mit Forschern bei Stanford-Medizin. Dieser Ansatz ermöglicht es Einzelpersonen, eine aktive Rolle in der Gesundheitsforschung zu spielen. Es ermöglicht uns, Menschen in einem früheren Stadium ihrer Gesundheitsprobleme zu erreichen, möglicherweise bevor sie formelle Pflege in Anspruch nehmen. Entscheidend ist, dass diese Methode Werbung auf Net-Suchergebnisseiten nutzt – dem Ausgangspunkt für die Gesundheitsreise vieler Menschen –, um mit den Teilnehmern in Kontakt zu treten.

Unsere Ergebnisse zeigen, dass Crowdsourcing einen qualitativ hochwertigen Datensatz mit einer niedrigen Spam-Fee liefern kann. Über 97,5 % der Beiträge waren echte Bilder von Hauterkrankungen. Nachdem wir weitere Filterschritte durchgeführt hatten, um Bilder auszuschließen, die außerhalb des SCIN-Datensatzes lagen, und um Duplikate zu entfernen, konnten wir quick 90 % der im achtmonatigen Studienzeitraum eingegangenen Beiträge freigeben. Die meisten Bilder waren scharf und intestine belichtet. Ungefähr die Hälfte der Beiträge enthält selbst gemeldete demografische Daten und 80 % enthalten selbst gemeldete Informationen zum Hautzustand, wie z. B. Beschaffenheit, Dauer oder andere Symptome. Wir fanden heraus, dass die Fähigkeit von Dermatologen, im Nachhinein eine Differenzialdiagnose zu stellen, mehr von der Verfügbarkeit selbstberichteter Informationen als von der Bildqualität abhängt.

Das Vertrauen der Dermatologen in ihre Etiketten (Skala von 1 bis 5) hing von der Verfügbarkeit selbst gemeldeter demografischer und symptomatischer Informationen ab.

Obwohl eine perfekte Anonymisierung der Bilder niemals garantiert werden kann, hatte der Schutz der Privatsphäre der Personen, die ihre Bilder beigesteuert haben, bei der Erstellung des SCIN-Datensatzes oberste Priorität. Durch die Einverständniserklärung wurden die Mitwirkenden auf mögliche Risiken einer erneuten Identifizierung aufmerksam gemacht und angewiesen, das Hochladen von Bildern mit identifizierenden Merkmalen zu vermeiden. Zu den Maßnahmen zum Schutz der Privatsphäre nach der Übermittlung gehörten manuelles Schwärzen oder Zuschneiden, um potenziell identifizierende Bereiche auszuschließen, umgekehrte Bildsuchen, um öffentlich verfügbare Kopien auszuschließen, und die Entfernung oder Aggregation von Metadaten. Der SCIN Datennutzungslizenz verbietet Versuche, Mitwirkende neu zu identifizieren.

Wir hoffen, dass der SCIN-Datensatz eine hilfreiche Ressource für diejenigen sein wird, die sich für die Förderung inklusiver dermatologischer Forschung, Bildung und Entwicklung von KI-Instruments einsetzen. Durch die Demonstration einer Different zu herkömmlichen Methoden zur Datensatzerstellung ebnet SCIN den Weg für repräsentativere Datensätze in Bereichen, in denen selbst gemeldete Daten oder eine nachträgliche Kennzeichnung möglich sind.

Danksagungen

Wir danken allen unseren Co-Autoren Abbi Ward, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, Pradeep Kumar S, Tiya Tiyasirisokchai, Sunny Virmani, Renee Wong, Yossi Matias und Greg S. Corrado , Dale R. Webster, Daybreak Siegel (Stanford Drugs), Steven Lin (Stanford Drugs), Justin Ko (Stanford Drugs), Alan Karthikesalingam und Christopher Semturs. Wir danken außerdem Yetunde Ibitoye, Sami Lachgar, Lisa Lehmann, Javier Perez, Margaret Ann Smith (Stanford Drugs), Rachelle Sico, Amit Talreja, Annisah Um’rani und Wayne Westerlind für ihre wesentlichen Beiträge zu dieser Arbeit. Abschließend danken wir Heather Cole-Lewis, Naama Hammel, Ivor Horn, Michael Howell, Yun Liu und Eric Teasley für ihre aufschlussreichen Kommentare zum Studiendesign und Manuskript.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert