
Jedes Jahr nehmen Tausende von Schülern Kurse, in denen sie beibringen, wie man künstliche Intelligenzmodelle bereitstellt, die Ärzten helfen können, Krankheiten zu diagnostizieren und geeignete Behandlungen zu bestimmen. Viele dieser Kurse lassen jedoch ein Schlüsselelement aus: Schulungen der Schüler, um Fehler in den Schulungsdaten zu erkennen, die zur Entwicklung der Modelle verwendet werden.
Leo Anthony Celi, leitender Forschungswissenschaftler am MIT Institute for Medical Engineering and Science, Arzt am Beth Israel Deaconess Medical Heart und Affiliate Professor an der Harvard Medical College, hat diese Mängel in einem dokumentiert Neues Papier und hofft, die Kurseentwickler davon zu überzeugen, die Schüler zu unterrichten, ihre Daten gründlicher zu bewerten, bevor sie in ihre Modelle einbezogen werden. Viele frühere Studien haben ergeben, dass Modelle, die hauptsächlich auf klinischen Daten von weißen Männern ausgebildet wurden, nicht intestine funktionieren, wenn sie auf Personen aus anderen Gruppen angewendet werden. Hier beschreibt Celi die Auswirkungen einer solchen Voreingenommenheit und wie Pädagogen sie in ihren Lehren über KI -Modelle ansprechen könnten.
Q: Wie kommt die Verzerrung in diese Datensätze und wie können diese Mängel angesprochen werden?
A: Alle Probleme in den Daten werden in jede Modellierung der Daten eingebunden. In der Vergangenheit haben wir Instrumente und Geräte beschrieben, die bei Personen nicht intestine funktionieren. Als Beispiel fanden wir das Pulsoximeter Überschätzen Sie den Sauerstoffgehalt für Farbigen, da nicht genügend Menschen mit Farben in den klinischen Studien der Geräte eingeschrieben waren. Wir erinnern unsere Schüler daran, dass medizinische Geräte und Geräte für gesunde junge Männer optimiert sind. Sie wurden nie für eine 80-jährige Frau mit Herzinsuffizienz optimiert, und dennoch verwenden wir sie für diese Zwecke. Und die FDA verlangt nicht, dass ein Gerät auf dieser vielfältigen Bevölkerung intestine funktioniert, auf der wir es verwenden werden. Alles, was sie brauchen, ist ein Beweis dafür, dass es bei gesunden Themen funktioniert.
Darüber hinaus ist das elektronische Gesundheitsaktensystem in keiner Kind als Bausteine von AI verwendet. Diese Aufzeichnungen wurden nicht als Lernsystem ausgelegt, und aus diesem Grund müssen Sie sehr vorsichtig mit der Verwendung elektronischer Gesundheitsakten eingehen. Das elektronische Gesundheitsaktensystem ist ersetzt, aber das wird nicht so schnell wie möglich passieren, additionally müssen wir schlauer sein. Wir müssen kreativer sein, wenn wir die Daten verwenden, die wir jetzt haben, egal wie schlecht sie sind, beim Aufbau von Algorithmen.
Ein vielversprechender Weg, den wir untersuchen, ist die Entwicklung von a Transformatormodell von numerischen Daten der elektronischen Gesundheitsakten, einschließlich, aber nicht beschränkt auf Labortestergebnisse. Modellierung der zugrunde liegenden Beziehung zwischen den Labortests, den Vitalfunktionen und den Behandlungen können die Auswirkung fehlender Daten infolge sozialer Determinanten der Gesundheit und des impliziten Anbieters abschwächen.
Q: Warum ist es wichtig, dass Kurse in KI die Quellen potenzieller Verzerrungen abdecken? Was haben Sie gefunden, als Sie solche Kurse inhalt analysiert haben?
A: Unser Kurs am MIT begann im Jahr 2016, und irgendwann erkannten wir, dass wir Menschen dazu ermutigten, um Modelle zu erstellen, die zu einem statistischen Maß für die Modellleistung übernommen werden, obwohl die Daten, die wir verwenden, mit Problemen, die Menschen nicht kennen. Zu dieser Zeit haben wir uns gefragt: Wie häufig ist dieses Downside?
Unser Verdacht battle, dass, wenn Sie sich die Kurse ansehen, in denen der Lehrplan on-line verfügbar ist, oder die On-line -Kurse, dass keiner von ihnen nur stört, um den Schülern zu sagen, dass sie über die Daten paranoid sein sollten. Und als wir uns die verschiedenen On-line -Kurse angesehen haben, geht es darum, das Modell zu erstellen. Wie bauen Sie das Modell auf? Wie visualisieren Sie die Daten? Wir fanden heraus, dass von 11 Kursen, die wir überprüft haben, nur fünf Abschnitte zu Verzerrungen in Datensätzen enthielten, und nur zwei enthielten eine signifikante Erörterung der Verzerrung.
Trotzdem können wir den Wert dieser Kurse nicht abnehmen. Ich habe viele Geschichten gehört, in denen Menschen sich selbst studieren, die auf diesen On-line-Kursen beruhen, aber gleichzeitig müssen wir uns, angesichts der Einflussnahme, wie beeindruckend sie sind, wie wirkungsvoll sie sind, dass wir sie wirklich verdoppeln müssen, um die richtigen Fähigkeiten zu vermitteln, da immer mehr Menschen von diesem AI-Multiversum angezogen werden. Es ist wichtig, dass sich die Menschen wirklich mit der Agentur ausstatten, um mit KI arbeiten zu können. Wir hoffen, dass dieses Papier diese große Lücke in der Artwork und Weise, wie wir jetzt KI beibringen, unseren Schülern ins Rampenlicht gerückt werden.
Q: Welche Artwork von Inhalten sollten Kurseentwickler einbeziehen?
A: Eine, die ihnen am Anfang eine Checkliste mit Fragen geben. Woher kamen diese Daten? Wer waren die Beobachter? Wer waren die Ärzte und Krankenschwestern, die die Daten gesammelt haben? Und dann ein wenig über die Landschaft dieser Institutionen lernen. Wenn es sich um eine ICU -Datenbank handelt, müssen sie fragen, wer es auf die Intensivstation schafft und wer es nicht auf die Intensivstation schafft, da dies bereits eine Auswahlverzerrung der Stichproben einführt. Wenn alle Minderheitenpatienten nicht einmal auf die Intensivstation aufgenommen werden, weil sie die Intensivstation nicht rechtzeitig erreichen können, werden die Modelle nicht für sie funktionieren. Für mich sollten für mich 50 Prozent des Kursinhalts die Daten wirklich verstehen, wenn nicht sogar mehr, da die Modellierung selbst einfach ist, sobald Sie die Daten verstanden haben.
Seit 2014 organisiert das MIT Crucial Information Consortium weltweit Datathons (Daten „Hackathons“). Bei diesen Versammlungen treffen sich Ärzte, Krankenschwestern, andere Gesundheitsarbeiter und Datenwissenschaftler zusammen, um Datenbanken zu durchlaufen und zu versuchen, Gesundheit und Krankheit im lokalen Kontext zu untersuchen. Lehrbücher und Journalpapiere präsentieren Krankheiten, die auf Beobachtungen und Versuchen basieren, die eine enge Bevölkerungsgruppe betreffen, die typischerweise aus Ländern mit Forschungsressourcen betreffen.
Unser Hauptziel, was wir ihnen lehren wollen, sind kritische Denkfähigkeiten. Und die Hauptzutat für kritisches Denken besteht darin, Menschen mit unterschiedlichem Hintergrund zusammenzubringen.
Sie können kritisches Denken in einem Raum voller CEOs oder in einem Raum voller Ärzte unterrichten. Die Umgebung ist einfach nicht da. Wenn wir Datathons haben, müssen wir ihnen nicht einmal beibringen, wie Sie kritisch denken. Sobald Sie die richtige Mischung aus Menschen bringen – und es kommt nicht nur aus verschiedenen Hintergründen, sondern aus verschiedenen Generationen – müssen Sie ihnen nicht einmal sagen, wie man kritisch denke. Es passiert einfach. Die Umgebung ist richtig für diese Artwork von Denken. Wir sagen jetzt unseren Teilnehmern und unseren Schülern jetzt, bitte beginnen Sie, ein Modell zu erstellen, es sei denn, Sie verstehen wirklich, wie die Daten entstanden sind, welche Patienten es in die Datenbank geschafft haben, welche Geräte wurden verwendet, und sind diese Geräte für Einzelpersonen konsequent genau?
Wenn wir auf der ganzen Welt Veranstaltungen haben, ermutigen wir sie, nach lokalen Datensätzen zu suchen, damit sie related sind. Es gibt Widerstand, weil sie wissen, dass sie feststellen, wie schlimm ihre Datensätze sind. Wir sagen, dass das in Ordnung ist. So beheben Sie das. Wenn Sie nicht wissen, wie schlimm sie sind, werden Sie sie weiterhin auf sehr schlechte Weise sammeln und sie sind nutzlos. Sie müssen anerkennen, dass Sie es beim ersten Mal nicht richtig machen werden, und das ist vollkommen in Ordnung. Mimic (die medizinischen Informationen, die für die intensive Pflegedatenbank im Beth Israel Deaconess Medical Heart gekennzeichnet sind) dauerte ein Jahrzehnt, bis wir ein anständiges Schema hatten, und wir haben nur ein anständiges Schema, weil die Leute uns sagten, wie schlecht Mimic battle.
Wir haben vielleicht nicht die Antworten auf all diese Fragen, aber wir können etwas bei Menschen hervorrufen, das ihnen hilft, zu erkennen, dass es so viele Probleme in den Daten gibt. Ich bin immer begeistert, die Weblog -Beiträge von Leuten zu betrachten, die an einem Datathon teilgenommen haben, die sagen, dass sich ihre Welt verändert hat. Jetzt sind sie mehr über das Feld aufgeregt, weil sie das immense Potenzial erkennen, aber auch das immense Risiko eines Schadens, wenn sie dies nicht richtig tun.
