Bayesianische Schlussfolgerungen und frequentistische Bewertungen

Martin Forster, Marco Novelli und Charlie Welch haben kürzlich gepostet dieser Vorabdruckdas beginnt:

Wir verwenden Innovationen aus der Literatur zum frequentistischen und bayesianischen entscheidungstheoretischen sequentiellen experimentellen Design, um zu untersuchen, ob und wann die Rekrutierung für eine durch eine Pandemie unterbrochene klinische Studie wieder aufgenommen werden sollte. Wir betrachten vier frequentistische und zwei bayesianische Designs, von denen zwei neu sind, und wenden sie auf Daten aus der britischen „DISC“-Studie an, einer öffentlich finanzierten Studie, deren Rekrutierung durch die COVID-19-Pandemie erheblich beeinträchtigt wurde. Die von allen sechs Designs gelieferten Ergebnisse stimmen mit den Ergebnissen der DISC-Studie hinsichtlich der Behandlungsüberlegenheit überein. Sie tun dies jedoch aufgrund unterschiedlicher Empfehlungen zur Wiederaufnahme der Personalbeschaffung auf unterschiedlichem Informationsniveau. Unter Bezugnahme auf die Arbeit zu den sieben Tugenden guter statistischer Praxis überlegen wir, wie die Gegenüberstellung derselben experimentellen Daten mit einer Reihe statistischer Modelle politischen Entscheidungsträgern helfen könnte, die während einer zukünftigen Pandemie mit der Verwaltung nicht-pandemischer klinischer Studien betraut sind.

Christian Hennig hat mich darauf hingewiesen, weil es sich auf unsere bezieht Jenseits von Subjektivität und Objektivität in der Statistik Papier und unsere Liste der Tugenden:

Ich freue mich zu hören, dass unsere Festlegung der statistischen Praxis im Hinblick auf diese unterschiedlichen Tugenden im Gegensatz zu den (für mich) unklaren Charakterisierungen von Methoden als „subjektiv“ oder „objektiv“ für diese Forscher hilfreich conflict.

Ich habe nicht versucht, den Particulars von Forster et al. zu folgen. Deshalb werde ich nur einige allgemeine Gedanken zu ihrem Unterfangen darlegen, das darin besteht, frequentistische und bayesianische sequentielle Experimente in ihrem angewandten Kontext zu vergleichen.

Vor vielen Jahren wies Don Rubin darauf hin, dass Bayesianismus und Frequentismus zwar unterschiedliche Bedeutungen haben könnten Philosophien In der Statistik sind sie als Methoden nicht direkt vergleichbar. Die Bayes’sche Statistik ist ein Rahmen für produzieren Schlussfolgerungen aus Daten und Annahmen; Frequentistische Statistiken sind ein Rahmen für bewertend Schlussfolgerungen gegebene Annahmen. Die Annahmen in den beiden Ansätzen können unterschiedlich sein; Der entscheidende Punkt ist, dass bayesianische und frequentistische Ideen zusammenpassen können. Sie können Bayes’sche Methoden verwenden, um eine Schlussfolgerung zu erstellen (z. B. eine Schätzung oder einen Hypothesentest oder ein Konfidenzintervall oder eine probabilistische Vorhersage) und diese dann mithilfe frequentistischer Methoden auszuwerten. Oder Sie können nicht-Bayes’sche Methoden verwenden, um eine Schlussfolgerung zu erstellen, und diese dann mithilfe des Bayes’schen Rahmenwerks unter bestimmten Annahmen als ungefähre Bayes’sche Schlussfolgerung interpretieren.

Die Kombination bayesianischer und frequentistischer Ideen ist nicht erforderlich. Sie können ein Modell einrichten und Bayes’sche Schlussfolgerungen ohne weitere häufige Auswertung durchführen (über die automatische Eigenschaft von Bayes’schen Schlussfolgerungen hinaus, dass sie bei der Mittelung über die angenommenen Prior- und Datenverteilungen die richtigen Häufigkeitseigenschaften aufweisen). Umgekehrt können Sie eine häufige Auswertung einer Schlussfolgerung durchführen, die nicht auf der Grundlage eines Bayes’schen Modells erstellt wurde; tatsächlich kann man manchmal rein frequentistische Schlussfolgerungen ziehen, die von einem nicht-Bayes’schen Prinzip wie dem Minimax-Verlust abgeleitet sind.

Wenn Sie jedoch verschiedene Bayes’sche oder andere Schlussfolgerungen in Betracht ziehen, ist es sinnvoll, sich deren Frequenzeigenschaften anzusehen. Dies ist ein Punkt, den Rubin angesprochen hat sein klassisches Papier ab 1984.

Dies geschieht nicht automatisch. Genauso wie die Bayes’sche Inferenz keine einzelne Sache, sondern vielmehr ein Rahmenwerk ist (das heißt, die Inferenz hängt von Ihrem Prior- und Datenmodell ab, nicht nur von den beobachteten Daten); In ähnlicher Weise beinhaltet die frequentistische Bewertung Entscheidungen darüber, welche Häufigkeitseigenschaften betrachtet werden sollen (z. B. Unvoreingenommenheit wird oft als wünschenswertes Merkmal bei der Schätzung angesehen, macht aber für probabilistische Vorhersagen keinen Sinn, ein Punkt, den wir in Kapitel 4 der Bayesianischen Datenanalyse ansprechen; siehe das Beispiel auf Seite 94 von). BDA3) und welche Annahmen über das zugrunde liegende System und den Datenerfassungsprozess getroffen werden müssen. Bayesianische Methoden sind korrekt, wenn über die gemeinsame Verteilung von Parametern und Daten gemittelt wird, und die Häufigkeitsauswertung beinhaltet auch die Mittelung: Deshalb sage ich das Bayesianer sind Frequentisten.

Genauso wie ich nicht glaube, dass alle Bayes’schen Schlussfolgerungen intestine sind (Sie können ein Modell haben, das keinen Sinn ergibt, für das untersuchte Drawback ungeeignet ist oder mathematische Artefakte aufweist, die schwierig zu entdecken sein können, wie in Abschnitt 3 von dieses Papier), halte ich auch nicht alle frequentistischen Bewertungen für angemessen. Ich habe das Drawback bei der Anwendung des Konzepts der unvoreingenommenen Schätzung auf Vorhersageprobleme bereits erwähnt; Außerdem bin ich nachweislich ein genereller Gegner des sogenannten exakten Fisher-Exams (siehe Abschnitt 3.3 hier) mit der Begründung, dass es einer Datenverteilung entspricht – einem generativen Modell für Daten mit gegebenen Parametern –, die im wirklichen Leben quick nie anwendbar ist. Ich ähnlich magazine nicht klassische Mehrfachvergleichsmethoden, da sie darauf ausgelegt sind, die im Allgemeinen irrelevante Bedingung zu verhindern, dass alle wahren Effekte genau Null sind.

Es ist additionally nicht immer einfach, eine gute Bayes’sche Inferenz durchzuführen – Sie müssen ein generatives Modell aus Parametern und Daten konstruieren – und eine gute frequentistische Auswertung ist auch nicht immer einfach: Sie müssen darüber nachdenken, welches Modell sinnvoll ist, um die Datenverteilung zu mitteln, und einen Bereich plausibler Parameterwerte finden. Aber es ist möglich, und wenn man Methoden vergleichen möchte, muss es tatsächlich getan werden. Frequentistische Bewertung ist das einzige Spiel in der Stadt. Obwohl dies näherungsweise oder implizit erfolgen kann, beispielsweise durch Kreuzvalidierung oder externe Validierung von Vorhersagen, ohne jemals formal ein Modell einzurichten, über das gemittelt werden soll.

Bayesianische Schlussfolgerungen und frequentistische Bewertungen

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

So finden Sie die optimale Coding-Agent-Schnittstelle

Umfragestatistik: Spielzeugbeispiel für Energieausgleichsgewichte

Spekulative Dekodierung für 400 % schnellere LLMs

Wie unerfahrene Programmierer KI-Programme für militärische Anwendungen entwickeln können | MIT-Nachrichten

About

Categories

Tags

Recent Post

So finden Sie die optimale Coding-Agent-Schnittstelle

Umfragestatistik: Spielzeugbeispiel für Energieausgleichsgewichte

Bayesianische Schlussfolgerungen und frequentistische Bewertungen

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt