Nehmen wir an, ein Umweltwissenschaftler untersucht, ob die Belastung durch Luftverschmutzung mit niedrigeren Geburtsgewichten in einem bestimmten Landkreis zusammenhängt.

Sie könnten ein maschinelles Lernmodell trainieren, um das Ausmaß dieses Zusammenhangs abzuschätzen, da maschinelle Lernmethoden besonders intestine darin sind, komplexe Zusammenhänge zu lernen.

Standardmethoden des maschinellen Lernens eignen sich hervorragend für die Erstellung von Vorhersagen und bieten manchmal Unsicherheiten wie Konfidenzintervalle für diese Vorhersagen. Allerdings liefern sie im Allgemeinen keine Schätzungen oder Konfidenzintervalle, wenn es darum geht, festzustellen, ob zwei Variablen zusammenhängen. Andere Methoden wurden speziell entwickelt, um dieses Assoziationsproblem anzugehen und Konfidenzintervalle bereitzustellen. Aber in räumlichen Umgebungen stellten MIT-Forscher fest, dass diese Konfidenzintervalle völlig daneben liegen können.

Wenn sich Variablen wie Luftverschmutzung oder Niederschlag an verschiedenen Standorten ändern, können gängige Methoden zur Generierung von Konfidenzintervallen ein hohes Maß an Konfidenz beanspruchen, obwohl die Schätzung in Wirklichkeit den tatsächlichen Wert überhaupt nicht erfassen konnte. Diese fehlerhaften Konfidenzintervalle können den Benutzer dazu verleiten, einem fehlgeschlagenen Modell zu vertrauen.

Nachdem die Forscher dieses Defizit identifiziert hatten, entwickelten sie eine neue Methode, die darauf ausgelegt ist, gültige Konfidenzintervalle für Probleme zu generieren, bei denen es um räumlich variierende Daten geht. In Simulationen und Experimenten mit realen Daten warfare ihre Methode die einzige Technik, die durchgängig genaue Konfidenzintervalle generierte.

Diese Arbeit könnte Forschern in Bereichen wie Umweltwissenschaften, Wirtschaft und Epidemiologie helfen, besser zu verstehen, wann sie den Ergebnissen bestimmter Experimente vertrauen sollten.

„Es gibt so viele Probleme, bei denen Menschen daran interessiert sind, Phänomene im Weltraum zu verstehen, etwa das Wetter oder die Waldbewirtschaftung. Wir haben gezeigt, dass es für diese breite Klasse von Problemen geeignetere Methoden gibt, mit denen wir eine bessere Leistung, ein besseres Verständnis der Vorgänge und vertrauenswürdigere Ergebnisse erzielen können“, sagt Tamara Broderick, außerordentliche Professorin am Division of Electrical Engineering and Pc Science (EECS) des MIT, Mitglied des Laboratory for Info and Resolution Methods (LIDS) und des Institute for Information, Methods, and Society, einem Tochterunternehmen vom Pc Science and Synthetic Intelligence Laboratory (CSAIL) und leitender Autor dieses Buches Studie.

Broderick wird bei der Arbeit von den Co-Hauptautoren David R. Burt, einem Postdoktoranden, und Renato Berlinghieri, einem EECS-Doktoranden, unterstützt. und Stephen Bates, Assistenzprofessor für EECS und Mitglied von LIDS. Die Forschung wurde kürzlich auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.

Ungültige Annahmen

Bei der räumlichen Assoziation wird untersucht, wie eine Variable und ein bestimmtes Ergebnis in einem geografischen Gebiet zusammenhängen. Beispielsweise möchte man vielleicht untersuchen, wie die Baumbedeckung in den Vereinigten Staaten mit der Höhe zusammenhängt.

Um diese Artwork von Drawback zu lösen, könnte ein Wissenschaftler Beobachtungsdaten von vielen Orten sammeln und diese verwenden, um den Zusammenhang an einem anderen Ort abzuschätzen, an dem keine Daten vorliegen.

Die MIT-Forscher erkannten, dass in diesem Fall bestehende Methoden häufig völlig falsche Konfidenzintervalle generieren. Ein Modell könnte sagen, dass es sich zu 95 Prozent sicher ist, dass seine Schätzung die tatsächliche Beziehung zwischen Baumbestand und Höhe erfasst, obwohl es diese Beziehung überhaupt nicht erfasst hat.

Nachdem sie dieses Drawback untersucht hatten, stellten die Forscher fest, dass die Annahmen, auf denen diese Konfidenzintervallmethoden basieren, nicht Bestand haben, wenn die Daten räumlich variieren.

Annahmen sind wie Regeln, die befolgt werden müssen, um sicherzustellen, dass die Ergebnisse einer statistischen Analyse gültig sind. Gängige Methoden zur Generierung von Konfidenzintervallen basieren auf verschiedenen Annahmen.

Erstens gehen sie davon aus, dass die Quelldaten, additionally die Beobachtungsdaten, die zum Trainieren des Modells gesammelt wurden, unabhängig und identisch verteilt sind. Diese Annahme impliziert, dass die Möglichkeit, einen Standort in die Daten aufzunehmen, keinen Einfluss darauf hat, ob ein anderer Standort einbezogen wird. Aber beispielsweise sind die Luftsensoren der US-Umweltschutzbehörde (EPA) mit Blick auf andere Luftsensorstandorte platziert.

Zweitens gehen bestehende Methoden oft davon aus, dass das Modell völlig korrekt ist, diese Annahme trifft jedoch in der Praxis nie zu. Schließlich gehen sie davon aus, dass die Quelldaten den Zieldaten ähneln, die geschätzt werden sollen.

In räumlichen Umgebungen können sich die Quelldaten jedoch grundlegend von den Zieldaten unterscheiden, da sich die Zieldaten an einem anderen Ort befinden als dem, an dem die Quelldaten erfasst wurden.

Beispielsweise könnte ein Wissenschaftler Daten von EPA-Verschmutzungsmonitoren verwenden, um ein maschinelles Lernmodell zu trainieren, das Gesundheitsergebnisse in einem ländlichen Gebiet vorhersagen kann, in dem es keine Monitore gibt. Aber die EPA-Verschmutzungsmonitore werden wahrscheinlich in städtischen Gebieten aufgestellt, wo es mehr Verkehr und Schwerindustrie gibt, sodass sich die Luftqualitätsdaten stark von den Luftqualitätsdaten in ländlichen Gebieten unterscheiden werden.

In diesem Fall leiden Assoziationsschätzungen unter Verwendung der Stadtdaten unter einer Verzerrung, da sich die Zieldaten systematisch von den Quelldaten unterscheiden.

Eine reibungslose Lösung

Die neue Methode zur Generierung von Konfidenzintervallen berücksichtigt diese potenzielle Verzerrung ausdrücklich.

Anstatt davon auszugehen, dass Quell- und Zieldaten ähnlich sind, gehen die Forscher davon aus, dass die Daten im Raum gleichmäßig variieren.

Beispielsweise würde man bei der Luftverschmutzung durch Feinstaub nicht erwarten, dass sich die Schadstoffbelastung in einem Stadtblock stark von der Schadstoffbelastung im nächsten Stadtblock unterscheidet. Stattdessen würden die Verschmutzungsgrade sanft abnehmen, wenn man sich von einer Verschmutzungsquelle entfernt.

„Für diese Artwork von Problemen ist diese Annahme der räumlichen Glätte angemessener. Sie passt besser zu dem, was tatsächlich in den Daten vor sich geht“, sagt Broderick.

Als sie ihre Methode mit anderen gängigen Techniken verglichen, stellten sie fest, dass sie die einzige warfare, die konsistent zuverlässige Konfidenzintervalle für räumliche Analysen erzeugen konnte. Darüber hinaus bleibt ihre Methode auch dann zuverlässig, wenn die Beobachtungsdaten durch zufällige Fehler verzerrt sind.

In Zukunft möchten die Forscher diese Analyse auf verschiedene Arten von Variablen anwenden und andere Anwendungen erkunden, bei denen sie zuverlässigere Ergebnisse liefern könnte.

Diese Forschung wurde teilweise durch einen Seed Grant des MIT Social and Moral Tasks of Computing (SERC), das Workplace of Naval Analysis, Generali, Microsoft und die Nationwide Science Basis (NSF) finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert