Mithilfe eines Datensatzes objektiver, evidenzbasierter medizinischer Wissensfragen auf Grundlage von Kahuns proprietärem Information Graph, der weltweit größten Karte des medizinischen Wissens, übertraf Claude3 GPT-4 in der Genauigkeit, doch menschliche medizinische Experten schnitten besser ab als beide KI-Modelle.
Kahundie beweisbasierte klinische KI-Engine für Gesundheitsdienstleister, veröffentlicht die Ergebnisse einer neuen Studie über die medizinischen Fähigkeiten leicht verfügbarer großer Sprachmodelle (LLMs). Die Studie verglich die medizinische Genauigkeit von GPT-4 von OpenAI und Claude3-Opus von Anthropic miteinander und mit menschlichen medizinischen Experten anhand von Fragen, die auf objektivem medizinischem Wissen aus Kahuns Information Graph basierten. Die Studie ergab, dass Claude3 GPT-4 in Bezug auf die Genauigkeit knapp übertraf, aber beide im Vergleich zu menschlichen medizinischen Experten und objektivem medizinischem Wissen blass abschnitten. Beide LLMs beantworteten etwa ein Drittel der Fragen falsch, wobei GPT4 quick die Hälfte der Fragen mit zahlenbasierten Antworten falsch beantwortete.
Einer aktuellen Studie zufolge, 91 Prozent der Ärzte äußerten Bedenken hinsichtlich der Auswahl des richtigen generativen KI-Modells und sagten, sie müssten wissen, dass die Ausgangsmaterialien des Modells von Ärzten oder medizinischen Experten erstellt wurden, bevor sie es verwenden. Ärzte und Gesundheitsorganisationen nutzen KI aufgrund ihrer Leistungsfähigkeit bei Verwaltungsaufgaben, aber um die Genauigkeit und Sicherheit dieser Modelle für klinische Aufgaben zu gewährleisten, müssen wir uns mit den Einschränkungen generativer KI-Modelle befassen.
Durch Nutzung seines proprietären Wissensgraphen, der aus einer strukturierten Darstellung wissenschaftlicher Fakten aus von Experten überprüften Quellen besteht, nutzte Kahun seine einzigartige Place, um eine gemeinsame Studie über die aktuellen Fähigkeiten zweier beliebter LLMs durchzuführen: GPT-4 und Claude3. Auf der Grundlage von Daten aus mehr als 15.000 von Experten überprüften Artikeln erstellte Kahun 105.000 evidenzbasierte medizinische QAs (Fragen und Antworten), die in numerische oder semantische Kategorien eingeteilt wurden und mehrere Gesundheitsdisziplinen umfassten und direkt in jedes LLM eingegeben wurden.
Numerische QAs befassen sich mit der Korrelation von Ergebnissen aus einer Quelle für eine bestimmte Abfrage (z. B. die Prävalenz von Dysurie bei weiblichen Patienten mit Harnwegsinfektionen), während semantische QAs die Differenzierung von Entitäten in bestimmten medizinischen Abfragen beinhalten (z. B. die Auswahl der häufigsten Demenzsubtypen). Entscheidend struggle, dass Kahun das Forschungsteam leitete, indem er die Grundlage für beweisbasierte QAs lieferte, die kurzen, einzeiligen Abfragen ähnelten, die sich ein Arzt in alltäglichen medizinischen Entscheidungsprozessen stellen könnte.
Das Forschungsteam analysierte mehr als 24.500 QA-Antworten und kam zu folgenden wichtigen Erkenntnissen:
- Claude3 und GPT-4 schnitten beide bei semantischen Qualitätssicherungsfragen (68,7 bzw. 68,4 Prozent) besser ab als bei numerischen Qualitätssicherungsfragen (63,7 bzw. 56,7 Prozent), wobei Claude3 bei der numerischen Genauigkeit die Nase vorn hatte.
- Die Forschung zeigt, dass jedes LLM von Eingabeaufforderung zu Eingabeaufforderung unterschiedliche Ergebnisse generieren würde. Dies unterstreicht die Bedeutung dessen, dass dieselbe QA-Eingabeaufforderung bei den einzelnen Modellen zu völlig unterschiedlichen Ergebnissen führen kann.
- Zu Validierungszwecken beantworteten sechs Mediziner 100 numerische Fragen und meisterten beide LLM-Prüfungen mit einer Genauigkeit von 82,3 Prozent. Zum Vergleich: Claude3 erreichte bei der Beantwortung derselben Fragen eine Genauigkeit von 64,3 Prozent und GPT-4 eine von 55,8 Prozent.
- Kahuns Forschung zeigt, wie intestine sowohl Claude3 als auch GPT-4 bei der semantischen Befragung abschneiden, untermauert aber letztlich die These, dass allgemein verwendbare LLMs noch nicht intestine genug ausgestattet sind, um Ärzten im klinischen Umfeld als zuverlässiger Informationsassistent zu dienen.
- Die Studie enthielt eine Possibility „Ich weiß nicht“, um Situationen widerzuspiegeln, in denen ein Arzt Unsicherheit eingestehen muss. Sie ergab unterschiedliche Antwortraten für jeden LLM (Numerisch: Claude3-63,66 %, GPT-4-96,4 %; Semantisch: Claude3-94,62 %, GPT-4-98,31 %). Es gab jedoch eine unbedeutende Korrelation zwischen Genauigkeit und Antwortrate für beide LLM, was darauf hindeutet, dass ihre Fähigkeit, mangelndes Wissen einzugestehen, fraglich ist. Dies deutet darauf hin, dass die Vertrauenswürdigkeit von LLM ohne Vorkenntnisse des medizinischen Bereichs und des Modells zweifelhaft ist.
Die QAs wurden aus Kahuns proprietärem Information Graph extrahiert, der über 30 Millionen evidenzbasierte medizinische Erkenntnisse aus von Experten überprüften medizinischen Veröffentlichungen und Quellen umfasst und die komplexen statistischen und klinischen Zusammenhänge in der Medizin abdeckt. Die AI Agent-Lösung von Kahun ermöglicht es medizinischen Fachkräften, fallspezifische Fragen zu stellen und klinisch fundierte Antworten zu erhalten, die in der medizinischen Literatur referenziert werden. Indem der AI Agent seine Antworten auf evidenzbasiertes Wissen und Protokolle verweist, stärkt er das Vertrauen der Ärzte und verbessert so die allgemeine Effizienz und Qualität der Versorgung. Die Lösung des Unternehmens überwindet die Einschränkungen aktueller generativer KI-Modelle, indem sie sachliche Erkenntnisse liefert, die auf medizinischen Beweisen beruhen, und so die Konsistenz und Klarheit gewährleistet, die für die Verbreitung medizinischen Wissens unerlässlich sind.
„Es struggle zwar interessant festzustellen, dass Claude3 GPT-4 überlegen struggle, aber unsere Forschung zeigt, dass allgemein verwendbare LLMs bei der Interpretation und Analyse medizinischer Fragen, mit denen ein Arzt täglich konfrontiert wird, immer noch nicht mit den Fähigkeiten von Medizinern mithalten können. Diese Ergebnisse bedeuten jedoch nicht, dass LLMs nicht für klinische Fragen verwendet werden können. Damit generative KI bei der Durchführung solcher Aufgaben ihr Potenzial voll ausschöpfen kann, müssen diese Modelle verifizierte und domänenspezifische Quellen in ihre Daten einbeziehen“, sagt Michal Tzuchman Katz, MD, CEO und Mitbegründer von Kahun. „Wir freuen uns, mit unserer Forschung weiterhin zur Weiterentwicklung der KI im Gesundheitswesen beizutragen und eine Lösung anzubieten, die die Transparenz und Beweise bietet, die für die Unterstützung von Ärzten bei medizinischen Entscheidungen unerlässlich sind.“
Den vollständigen Vorabdruck der Studie finden Sie hier: https://arxiv.org/abs/2406.03855.
Melden Sie sich für die kostenlosen insideAI Information an E-newsletter.
Folgen Sie uns auf Twitter: https://twitter.com/InsideBigData1
Folgen Sie uns auf LinkedIn: https://www.linkedin.com/firm/insideainews/
Folge uns auf Fb: https://www.fb.com/insideAINEWSNOW