Unter dem Deckmantel der Anonymität und der Gesellschaft von Fremden wächst die Attraktivität der digitalen Welt als Ort für die Suche nach psychologischer Unterstützung. Dieses Phänomen wird dadurch verstärkt über 150 Millionen Menschen in den Vereinigten Staaten leben in staatlich ausgewiesenen Gebieten mit Fachkräftemangel im Bereich der psychischen Gesundheit.

„Ich brauche wirklich Ihre Hilfe, da ich zu viel Angst habe, mit einem Therapeuten zu sprechen, und ich kann sowieso keinen erreichen.“

„Reagiere ich über, fühle ich mich verletzt, weil mein Mann sich vor seinen Freunden über mich lustig macht?“

„Könnten bitte einige Fremde Einfluss auf mein Leben nehmen und über meine Zukunft entscheiden?“

Bei den oben genannten Zitaten handelt es sich um echte Beiträge von Benutzern auf Reddit, einer Social-Media-Nachrichten-Web site und einem Discussion board, in dem Benutzer in kleineren, interessenbezogenen Foren, die als „Subreddits“ bekannt sind, Inhalte teilen oder um Rat fragen können.

Anhand eines Datensatzes von 12.513 Beiträgen mit 70.429 Antworten aus 26 Subreddits zum Thema psychische Gesundheit haben Forscher vom MIT, der New York College (NYU) und der College of California Los Angeles (UCLA) eine Studie entwickelt ein Rahmen um die Gerechtigkeit und Gesamtqualität von Chatbots zur Unterstützung der psychischen Gesundheit auf der Grundlage großer Sprachmodelle (LLMs) wie GPT-4 zu bewerten. Ihre Arbeit wurde kürzlich auf der 2024 Convention on Empirical Strategies in Pure Language Processing (EMNLP) veröffentlicht.

Um dies zu erreichen, baten die Forscher zwei lizenzierte klinische Psychologen, 50 zufällig ausgewählte Reddit-Beiträge auszuwerten, in denen um Unterstützung im Bereich der psychischen Gesundheit gesucht wurde, und jeden Beitrag entweder mit der tatsächlichen Antwort eines Reddit-Nutzers oder einer von GPT-4 generierten Antwort zu verknüpfen. Ohne zu wissen, welche Antworten actual waren oder welche von der KI generiert wurden, wurden die Psychologen gebeten, den Grad der Empathie in jeder Antwort zu bewerten.

Chatbots zur Unterstützung der psychischen Gesundheit werden seit langem als Möglichkeit erforscht, den Zugang zu Unterstützung zur psychischen Gesundheit zu verbessern, aber leistungsstarke LLMs wie ChatGPT von OpenAI verändern die Mensch-KI-Interaktion, da KI-generierte Antworten immer schwerer von den Antworten echter Menschen zu unterscheiden sind.

Trotz dieser bemerkenswerten Fortschritte haben die unbeabsichtigten Folgen der KI-gestützten Unterstützung der psychischen Gesundheit die Aufmerksamkeit auf die potenziell tödlichen Risiken gelenkt; Im März letzten Jahres starb ein Belgier durch Selbstmord infolge eines Austauschs mit ELIZA, einem Chatbot, der entwickelt wurde, um einen Psychotherapeuten mit einem LLM namens GPT-J nachzuahmen. Einen Monat später suspendierte die Nationwide Consuming Problems Affiliation ihren Chatbot Tessa, nachdem dieser begonnen hatte, Diättipps an Patienten mit Essstörungen zu verteilen.

Saadia Gabriel, eine junge Postdoktorandin am MIT, die jetzt Assistenzprofessorin an der UCLA und Erstautorin des Artikels ist, gab zu, dass sie anfangs sehr skeptisch struggle, wie effektiv Chatbots zur Unterstützung der psychischen Gesundheit tatsächlich sein könnten. Gabriel führte diese Forschung während ihrer Zeit als Postdoktorandin am MIT in der Wholesome Machine Studying Group unter der Leitung von Marzyeh Ghassemi durch, einer außerordentlichen Professorin am MIT in der Abteilung für Elektrotechnik und Informatik und am MIT Institute for Medical Engineering and Science, die dem MIT angegliedert ist Abdul Latif Jameel Clinic for Machine Studying in Well being und das Labor für Informatik und künstliche Intelligenz.

Was Gabriel und das Forscherteam herausfanden, struggle, dass GPT-4-Reaktionen nicht nur insgesamt einfühlsamer waren, sondern auch optimistic Verhaltensänderungen um 48 Prozent besser förderten als menschliche Reaktionen.

In einer Bias-Bewertung stellten die Forscher jedoch fest, dass die Reaktionsempathiewerte von GPT-4 bei schwarzen (2 bis 15 Prozent niedriger) und asiatischen Postern (5 bis 17 Prozent niedriger) im Vergleich zu weißen Postern oder Postern, deren Rasse unbekannt struggle, verringert waren.

Um die Verzerrung bei GPT-4-Antworten und menschlichen Reaktionen zu bewerten, haben die Forscher verschiedene Arten von Beiträgen mit expliziten demografischen Datenlecks (z. B. Geschlecht, Rasse) und impliziten demografischen Datenlecks einbezogen.

Ein expliziter demografischer Leak würde so aussehen: „Ich bin eine 32-jährige schwarze Frau.“

Ein impliziter demografischer Leak hingegen würde wie folgt aussehen: „Ich bin ein 32-jähriges Mädchen, das mein natürliches Haar trägt“, wobei Schlüsselwörter verwendet werden, um GPT-4 bestimmte demografische Merkmale anzuzeigen.

Mit Ausnahme der schwarzen weiblichen Poster wurde festgestellt, dass die Antworten von GPT-4 weniger von expliziten und impliziten demografischen Leaks beeinflusst wurden als menschliche Befragte, die tendenziell einfühlsamer reagierten, wenn sie auf Beiträge mit impliziten demografischen Vorschlägen antworteten.

„Die Struktur des Inputs, den Sie geben (das LLM) und einige Informationen über den Kontext, z. B. ob Sie (das LLM) im Stil eines Klinikers oder im Stil eines Social-Media-Beitrags agieren möchten oder ob Sie dies möchten Die Verwendung demografischer Merkmale des Patienten hat einen großen Einfluss auf die Reaktion, die Sie erhalten“, sagt Gabriel.

In der Arbeit wird darauf hingewiesen, dass die explizite Bereitstellung von Anweisungen für LLMs zur Verwendung demografischer Merkmale Vorurteile effektiv mildern kann, da dies die einzige Methode struggle, bei der Forscher keinen signifikanten Unterschied in der Empathie zwischen den verschiedenen demografischen Gruppen beobachteten.

Gabriel hofft, dass diese Arbeit dazu beitragen kann, eine umfassendere und durchdachtere Bewertung von LLMs zu gewährleisten, die in klinischen Umgebungen in allen demografischen Untergruppen eingesetzt werden.

„LLMs werden bereits zur patientenorientierten Unterstützung eingesetzt und in medizinischen Einrichtungen eingesetzt, in vielen Fällen zur Automatisierung ineffizienter menschlicher Systeme“, sagt Ghassemi. „Hier haben wir gezeigt, dass hochmoderne LLMs bei der Peer-to-Peer-Unterstützung für die psychische Gesundheit im Allgemeinen weniger von demografischen Verlusten betroffen sind als Menschen, sie jedoch keine gleichberechtigten Reaktionen auf die psychische Gesundheit in allen abgeleiteten Patientenuntergruppen bieten … wir.“ Wir haben viele Möglichkeiten, Modelle zu verbessern, damit sie bei der Verwendung eine bessere Unterstützung bieten.“

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert