Nick Brown und ich haben kürzlich dieses Papier veröffentlicht, Wie statistische Herausforderungen und Fehlwerte der Literaturkombination eine nicht mehr mehr wiederholbare Wissenschaft erzeugen: Ein Beispiel aus der PsychologieIn der Zeitschrift, Fortschritte in Methoden und Praktiken in der psychologischen Wissenschaft, über einen veröffentlichten Artikel, in dem behauptet wurde, dass die Heilung von Blutergüssen durch die Manipulation des subjektiven Zeitgefühls der Menschen beschleunigt oder verlangsamt werden könnte. Der Artikel zur Diskussion hatten große Probleme – einschließlich der schwachen Theorie, einer fehlerhaften Datenanalyse und mehreren Fehlern bei der Zusammenfassung der Literatur – in dem Ausmaß, in dem wir nicht feststellten, dass ihre Behauptungen durch ihre Beweise gestützt werden.
So etwas passiert –Wir nennen es Jeden Tag Brot-und-Butter-Pseudowissenschaften. Der Punkt des neuen Papiers von Nick und mir struggle nicht so sehr, einen bestimmten Anspruch auf die Heilung von Geist-Körper zu fällen, sondern einige allgemeine Gründe für wissenschaftliche Fehler und Überbewusstsein zu untersuchen und zukünftige Forscher eine Vorlage zur Verfügung zu stellen, um diese Probleme in der Vergangenheit zu vermeiden die Zukunft.
Wir haben dies neulich auf dem Weblog gepostet (unter der Überschrift, 7 Schritte zur Junk -Wissenschaft, die weltlichen Erfolg erzielen können), und etwas kam in Kommentaren auf, etwas, an das ich vorher nicht gedacht hatte, und ich wollte mit Ihnen teilen. Der Kommentator Jean-Paul, darauf hingewiesen auf Ein Missverständnis, das bei der Anpassung von Multilevel -Modellen mithilfe einer Software program entstehen kann.
Notwendigkeit einer mehrstufigen Modellierung oder einer äquivalenten Anpassung für das Clustering in Daten
Hier struggle das Downside. Der fragliche Artikel schätzte die Behandlungseffekte mit einem Clusterdesign: Sie hatten drei Behandlungen an 33 Forschungsteilnehmer (in Psychologie -Jargon, „Probanden“) mit Daten, die von 25 Bewertern bereitgestellt wurden. Die Gesamtzahl der Messungen betrug 2425 (nicht ganz 3*33*25 aufgrund einiger fehlender Daten, was nicht der Punkt in dieser Geschichte ist).
Wenn Sie die Behandlungseffekte aus einem Cluster -Design schätzen möchten, müssen Sie ein mehrstufiges Modell anpassen oder eine äquivalente Anpassung vornehmen. Andernfalls sind Ihre Standardfehler zu klein. In diesem Fall sollten Sie Effekte für die Teilnehmer (einige haben in dieser Studie mehr prominente Blutergüsse als andere) und für Bewerter (die systematische Unterschiede in der Artwork und Weise haben, wie sie die Schwere eines Bluterguts unter Verwendung einer numerischen Bewertung charakterisieren).
Die Forscher wussten, dass sie dies tun, additionally passen sie zu einem mehrstufigen Modell. Zum Glück haben sie für mich das R -Programm LMer verwendet, mit dem ich vertraut bin. Hier ist die Ausgabe, die ich für Klarheit die Anzeigefunktion im ARM -Paket mit der Anzeigefunktion zeige:
lmer(system = Therapeutic ~ Situation + (1 | Topic) + (1 | ResponseId), information = DFmodel, REML = FALSE) coef.est coef.se (Intercept) 6.20 0.31 Condition28 0.23 0.09 Condition56 1.05 0.09 Error phrases: Teams Identify Std.Dev. Topic (Intercept) 1.07 ResponseId (Intercept) 1.22 Residual 1.87 --- variety of obs: 2425, teams: Topic, 33; ResponseId, 25 AIC = 10131.4, DIC = 10119.4 deviance = 10119.4
Additionally intestine. Wie erwartet sind die Teilnehmer- und Rater -Effekte groß – sie variieren nach mehr als den Größen der geschätzten Behandlungseffekte! Und die Haupteffekte sind atemberaubende Standardfehler von 2,4 und 11,1 von Null, ein großer Sieg!
Bedarf an unterschiedlichen Hängen, nicht nur unterschiedliche Abschnitte
Aber . . . warten Sie eine Minute. Der Punkt dieser Analyse besteht nicht nur darin, durchschnittliche Antworten abzuschätzen. Es ist die Schätzung der Behandlungseffekte. Und dafür müssen wir die Behandlungseffekte von Teilnehmern und Rater -Multilevel -Modellierungsbegleitern variieren lassen. Wir sollten die Hänge sowie Abschnitte zulassen, die variieren. Dies steht im Einklang mit dem bekannten allgemeinen Prinzip des Designs und der Analyse von Experimenten, dass der Fehlerbegriff für einen Vergleich auf der Analyseebene des Vergleichs liegen sollte.
Kein Downside, Lmer kann das und das tun wir! Hier ist das Ergebnis:
lmer(system = Therapeutic ~ Situation + (1 + Situation | Topic) + (1 + Situation | ResponseId), information = DFmodel, REML = FALSE) coef.est coef.se (Intercept) 6.18 0.39 Condition28 0.25 0.36 Condition56 1.09 0.37 Error phrases: Teams Identify Std.Dev. Corr Topic (Intercept) 1.71 Condition28 1.99 -0.71 Condition56 2.03 -0.72 0.65 ResponseId (Intercept) 1.24 Condition28 0.07 1.00 Condition56 0.13 -1.00 -1.00 Residual 1.51 --- variety of obs: 2425, teams: Topic, 33; ResponseId, 25 AIC = 9317.9, DIC = 9285.9 deviance = 9285.9
Die geschätzten durchschnittlichen Behandlungseffekte haben sich kaum geändert, aber die Standardfehler sind viel größer. Die angepassten Modelle zeigen, dass die Behandlungseffekte vom Teilnehmer stark variieren, nicht so sehr von Rater.
Sie könnten glücklich sein, weil die T-Statistik für eine der Behandlungsvergleiche immer noch 3 Standardfehler von Null entfernt ist, aber andere Probleme bleiben jedoch sowohl bei mehreren Vergleiche als auch mit der Interpretation der Daten, wie wir in Abschnitt 2.4 von Diskussionen diskutieren Unser Papier.
Es gibt eine Sache, die Sie möglicherweise bemerken, wenn Sie die obige Ausgabe genau ansehen, nämlich die geschätzte Kovarianzmatrix für die Ratereffekte degeneriert ist: Die Korrelationen liegen bei 1 und -1. Diese Artwork von Dingen passiert bei mehrstufigen Modellen viel, wenn Daten laut sind und die Anzahl der Gruppen klein ist. Es ist ein Thema, in dem wir besprochen haben Dieses Papier Ab 2014.
In der Praxis ist es hier keine große Sache: Die Entartung ist eine Folge einer sehr lauten Schätzung, die selbst entsteht Null (schauen Sie sich diese kleinen geschätzten Standardabweichungen der unterschiedlichen Hänge für Rater an). Aber das ist alles ziemlich subtil, nicht etwas, das in irgendeinem Lehrbuch ist, auch in keinem Lehrbuch unsere!
Diese solle Warnung am Laptop
Hier ist das Downside. Wenn Sie das variierende Pistenmodell passen, zeigt R eine Warnung im gruseligen roten Typ an:
Es ist möglich, dass die Forscher diese variierende Slope-Anpassung versuchten, die Singularität sahen, Angst hatten und sich auf das einfachere Modell mit unterschiedlichem Außenschnittern zurückgezogen hatten.
Nur um klar zu sein, ich sage nicht, dass dies ein Downside mit R oder mit LME4 ist. Wenn Sie in der R -Konsole Hilfe („issingular“) eingeben, erhalten Sie einige angemessene Ratschläge, von denen keiner alle unterschiedlichen Hänge wegwerfen soll. Die erste Choice deutete jedoch darauf hin, dass „in erster Linie übermäßig komplexe Modelle angepasst werden können“, die von den Benutzern missverstanden werden könnten.
Wenn Sie das Modell mit stan_lmer in seine Standardeinstellungen einfügen, funktioniert alles intestine:
household: gaussian (identification) system: Therapeutic ~ Situation + (1 + Situation | Topic) + (1 + Situation | ResponseId) observations: 2425 ------ Median MAD_SD (Intercept) 6.22 0.40 Condition28 0.26 0.34 Condition56 1.09 0.37 Auxiliary parameter(s): Median MAD_SD sigma 1.51 0.02 Error phrases: Teams Identify Std.Dev. Corr Topic (Intercept) 1.731 Condition28 2.015 -0.63 Condition56 2.056 -0.66 0.57 ResponseId (Intercept) 1.225 Condition28 0.158 0.33 Condition56 0.172 -0.51 0.04 Residual 1.509 Num. ranges: Topic 33, ResponseId 25
Diese Schätzungen sind durchschnittlich über die hintere Verteilung, so dass nichts an der Grenze, kein Downside. Und keine Überraschung, die Schätzungen und Standardfehler der Behandlungseffekte sind im Wesentlichen unverändert.
Das heißt, wenn Sie stan_lmer laufen, wird es auch in Rot gewarnt!
Diese Warnmeldungen sind ein großes Downside! Einerseits, ja, du willst die Leute warnen; Andererseits wäre es nur schrecklich, wenn die Warnungen so beängstigend wären, dass sie Benutzer dazu bringen, schlechte Modelle zu verwenden, die keine Warnungen ausspucken.
Ich habe auch versucht, das Modell mit BLMER anzupassen, was ich dachte, würde intestine funktionieren, aber das führte zu Warnmeldungen, die sogar mich erschreckten:
Standardmäßig verwendet BLME eine Entartungsvorbereitung, sodass so etwas überhaupt nicht passieren sollte. Wir sollten herausfinden, was hier los ist!
Zusammenfassung
1. Wenn Sie die Behandlungseffekte mithilfe von Clusterdaten schätzen, sollten Sie ein mehrstufiges Modell mit unterschiedlichen Abschnitten und Steigungen anpassen (oder die äquivalente Anpassung auf andere Weise durchführen, beispielsweise durch Boostrapping gemäß der Clusterstruktur). Variierende Abschnitte reicht nicht aus. Wenn Sie es falsch machen, können Ihre Standardfehler weit weg sein. Dies alles steht im Einklang mit dem allgemeinen Prinzip, um alle Designinformationen in der Analyse zu verwenden.
2. Wenn Sie eine kompliziertere Methode auf den Laptop anwenden und eine Warnmeldung erhalten, ist dies der Fall nicht bedeuten, dass Sie zu einer einfacheren Methode zurückkehren sollten. Kompliziertere Modelle können schwerer zu passen sein. Dies ist etwas, mit dem Sie sich möglicherweise auseinandersetzen müssen. Wenn es Sie wirklich stört, seien Sie in Ihrer Datenerfassung vorsichtiger. Sie können Studien entwerfen, die einfacher analysiert werden können. Oder Sie können eine gewisse Mittelung Ihrer Daten durchführen, die möglicherweise eine statistische Effizienz verlieren, aber Sie können einfachere statistische Methoden verwenden (z. Unser Papier).