Aufgrund der inhärenten Mehrdeutigkeit in medizinischen Bildern wie Röntgenbildern verwenden Radiologen häufig Wörter wie „Might“ oder „wahrscheinlich“, wenn sie das Vorhandensein einer bestimmten Pathologie wie Lungenentzündung beschreiben.

Aber die Wörter verwenden Radiologen, um ihr Konfidenzniveau genau auszudrücken, wie oft eine bestimmte Pathologie bei Patienten auftritt? Eine neue Studie zeigt, dass Radiologen, wenn sie Vertrauen in eine bestimmte Pathologie unter Verwendung einer Phrase wie „sehr wahrscheinlich“ ausdrücken, tendenziell übermütig und umgekehrt sind, wenn sie weniger Vertrauen mit einem Wort wie „möglicherweise“ ausdrücken.

Unter Verwendung klinischer Daten schuf ein multidisziplinäres Workforce von MIT -Forschern in Zusammenarbeit mit Forschern und Klinikern in Krankenhäusern, die mit der Harvard Medical College verbunden sind, einen Rahmen, um zu quantifizieren, wie zuverlässige Radiologen sind, wenn sie mit natürlichen Sprachbeginn Gewissheit ausdrücken.

Sie verwendeten diesen Ansatz, um klare Vorschläge zu liefern, die Radiologen helfen, Gewissheitsphrasen auszuwählen, die die Zuverlässigkeit ihrer klinischen Berichterstattung verbessern würden. Sie zeigten auch, dass dieselbe Technik die Kalibrierung von Großsprachenmodellen effektiv messen und verbessern kann, indem die Wörter, die Modelle verwenden, um das Vertrauen in die Genauigkeit ihrer Vorhersagen auszudrücken.

Durch die Unterstützung von Radiologen, die die Wahrscheinlichkeit bestimmter Pathologien in medizinischen Bildern genauer beschreiben, könnte dieses neue Rahmen die Zuverlässigkeit kritischer klinischer Informationen verbessern.

„Die Wörter, die Radiologen verwenden, sind wichtig. Sie beeinflussen, wie Ärzte eingreifen, in Bezug auf ihre Entscheidungsfindung für den Patienten. Wenn diese Praktiker in ihrer Berichterstattung zuverlässiger sein können, werden die Patienten die ultimativen Begünstigten sein“ Papier über diese Forschung.

Er wird von der leitenden Autorin Polina Golland, einer Professorin für Elektrotechnik und Informatik (ECECS), einer Hauptforscherin der MIT -Informatik und des Labors für künstliche Intelligenz (CSAIL), und Leiterin der medizinischen Visionsgruppe, auf dem Papier teil. sowie Barbara D. Lam, ein klinischer Stipendiat im Beth Israel Deaconess Medical Heart; Yingcheng Liu am MIT -Doktorand; Ameneh Asgari-Targhi, ein wissenschaftlicher Fellow bei Massachusetts Basic Brigham (MGB); Rameswar Panda, Forschungsmitarbeiter am MIT-IBM Watson AI Lab; William M. Wells, Professor für Radiologie bei MGB und Forschungswissenschaftler in CSAIL; und Tina Kapur, Assistenzprofessorin für Radiologie bei MGB. Die Forschung wird auf der Internationalen Konferenz über Lernrepräsentationen vorgestellt.

Dekodierung der Unsicherheit in Worten

Ein Radiologe, der einen Bericht über eine Röntgenaufnahme der Brust schreibt, könnte sagen, dass das Bild eine „mögliche“ Lungenentzündung zeigt, bei der es sich um eine Infektion handelt, die die Luftsack in der Lunge entzündet. In diesem Fall könnte ein Arzt einen CT-Scan für den Comply with-up bestellen, um die Diagnose zu bestätigen.

Wenn der Radiologe jedoch schreibt, dass die Röntgenaufnahme eine „wahrscheinliche“ Lungenentzündung aufweist, kann der Arzt sofort mit der Behandlung beginnen, z.

Der Versuch, die Kalibrierung oder Zuverlässigkeit mehrdeutiger natürlicher Sprache wie „möglicherweise“ und „wahrscheinlich“ zu messen, stellt viele Herausforderungen, sagt Wang.

Bestehende Kalibrierungsmethoden beruhen typischerweise auf den von einem KI -Modell bereitgestellten Konfidenzwert, das die geschätzte Wahrscheinlichkeit des Modells darstellt, dass seine Vorhersage korrekt ist.

Zum Beispiel könnte eine Wetter -App morgen eine Regenwahrscheinlichkeit von 83 Prozent vorhersagen. Dieses Modell ist intestine kalibriert, wenn es in allen Fällen, in denen es eine Regenwahrscheinlichkeit von 83 Prozent vorhersagt, ungefähr 83 Prozent der Fälle regnet.

„Aber Menschen verwenden eine natürliche Sprache, und wenn wir diese Phrasen einer einzigen Zahl abbilden, ist es keine genaue Beschreibung der realen Welt. Wenn eine Individual sagt, dass ein Ereignis„ wahrscheinlich “ist, denken sie nicht unbedingt die genaue Wahrscheinlichkeit, wie 75 Prozent“, sagt Wang.

Anstatt zu versuchen, Gewissheitsphrasen einem einzigen Prozentsatz abzubilden, behandelt der Ansatz der Forscher sie als Wahrscheinlichkeitsverteilungen. Eine Verteilung beschreibt den Bereich möglicher Werte und deren Wahrscheinlichkeit – denken Sie an die klassische Glockenkurve in Statistiken.

„Dies erfasst mehr Nuancen dessen, was jedes Wort bedeutet“, fügt Wang hinzu.

Bewertung und Verbesserung der Kalibrierung

Die Forscher nutzten frühere Arbeiten, bei denen Radiologen die Wahrscheinlichkeitsverteilungen erhalten hatten, die jeder diagnostischen Gewissheit entsprechen, die von „sehr wahrscheinlich“ bis „übereinstimmt“.

Da beispielsweise mehr Radiologen der Ansicht sind, dass der Ausdruck „übereinstimmend mit“ bedeutet, dass eine Pathologie in einem medizinischen Bild vorhanden ist, klettert seine Wahrscheinlichkeitsverteilung scharf auf einen hohen Peak, wobei die meisten Werte um den Bereich von 90 bis 100 Prozent zusammengefasst sind.

Im Gegensatz dazu vermittelt der Ausdruck „Might Repräsentation“ eine größere Unsicherheit, was zu einer breiteren, glockenförmigen Verteilung von rund 50 Prozent führt.

Typische Methoden bewerten die Kalibrierung, indem sie vergleichen, wie intestine die vorhergesagten Wahrscheinlichkeitswerte eines Modells mit der tatsächlichen Anzahl der positiven Ergebnisse übereinstimmen.

Der Ansatz der Forscher folgt dem gleichen allgemeinen Rahmen, erweitert ihn jedoch, um die Tatsache zu berücksichtigen, dass Gewissheitsphrasen eher Wahrscheinlichkeitsverteilungen als Wahrscheinlichkeiten darstellen.

Um die Kalibrierung zu verbessern, formulierten und lösten die Forscher ein Optimierungsproblem, das anpasst, wie oft bestimmte Phrasen verwendet werden, um das Vertrauen besser an die Realität in Einklang zu bringen.

Sie haben eine Kalibrierungskarte abgeleitet, die auf Gewissheitspunkte hinweist, die ein Radiologe verwenden sollte, um die Berichte für eine bestimmte Pathologie genauer zu gestalten.

„Wenn der Radiologe für diesen Datensatz jedes Mal, wenn der Radiologe sagte,“ anwesend „sagte, änderten sie den Satz auf“ wahrscheinlich anwesend „, dann würden sie besser kalibriert“, erklärt Wang.

Als die Forscher ihren Rahmen für die Bewertung klinischer Berichte verwendeten, stellten sie fest, dass Radiologen bei der Diagnose häufiger Bedingungen wie der Atelektase im Allgemeinen unterschrieben waren, jedoch mit mehr mehrdeutigen Erkrankungen wie einer Infektion überschachtet.

Darüber hinaus bewerteten die Forscher die Zuverlässigkeit von Sprachmodellen mithilfe ihrer Methode und lieferten eine nuanciertere Vertrauensrepräsentation als klassische Methoden, die auf Vertrauensbewertungen beruhen.

„Oft verwenden diese Modelle Phrasen wie ’sicher‘. Aber weil sie in ihren Antworten so zuversichtlich sind, ermutigt es die Menschen nicht, die Richtigkeit der Aussagen selbst zu überprüfen “, fügt Wang hinzu.

In Zukunft planen die Forscher, weiterhin mit Klinikern zusammenzuarbeiten, um Diagnosen und Behandlung zu verbessern. Sie arbeiten daran, ihre Studie um Daten aus Bauch -CT -Scans zu erweitern.

Darüber hinaus sind sie daran interessiert zu untersuchen, wie empfängliche Radiologen für kalibrierungsbedingte Vorschläge sind und ob sie ihre Verwendung von Sicherheitsphrasen psychological effektiv anpassen können.

„Die Expression der diagnostischen Gewissheit ist ein entscheidender Aspekt des Radiologieberichts, da sie bedeutende Managemententscheidungen beeinflusst. Diese Studie verfolgt einen neuen Ansatz zur Analyse und Kalibrierung, wie Radiologen diagnostische Gewissheit in Brust-Röntgenberichten ausdrücken, und bieten Suggestions zum Begriff der Verwendung und assoziierter Ergebnisse“, sagt Atul B. Shinagare, Affiliate Professor of Radiology Atharard Medical. „Dieser Ansatz hat das Potenzial, die Genauigkeit und Kommunikation der Radiologen zu verbessern, was zur Verbesserung der Patientenversorgung beiträgt.“

Die Arbeit wurde teilweise durch ein Takeda-Stipendium, das MIT-IBM Watson AI Lab, das MIT CSAIL WISTROM-Programm und die MIT Jameel-Klinik finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert