Jemand, der sich Involved Cow nennt, schreibt:

Ich schreibe Ihnen anonym und frage Sie, ob Sie bereit wären, sich mit einer Reihe wichtiger statistischer Themen zu befassen ein kürzlich veröffentlichtes Nature-Papier„CD8⁺-T-Zell-Stammtest geht der Kontrolle der HIV-Virämie nach der Intervention voraus“, was offenbar einen lehrbuchmäßigen Analyseeinheitsfehler enthält.

Die zentralen Analysen des Manuskripts behandeln epitopspezifische T-Zell-Messungen als unabhängige biologische Replikate, auch wenn mehrere Antworten von derselben Individual stammen (z. B. 23–26 „Antworten“ von nur 7 Teilnehmern). Diese Pseudoreplikation vergrößert die effektive Stichprobengröße und lässt nicht signifikante Unterschiede auf Teilnehmerebene als hochsignifikant erscheinen.

Wenn die Daten auf Teilnehmerebene ordnungsgemäß aggregiert werden, sinken die gemeldeten p-Werte (z. B. wird p = 0,007 in Abbildung 2c zu ungefähr p = 0,14–0,39, und durch die Entfernung eines einzelnen Ausreißers werden alle behaupteten Effekte sogar noch weiter eliminiert). Diese Pseudoreplikation ist in mehreren Panels erkennbar (Abb. 1d, 2h, 2i, 4c-f). Darüber hinaus verschärft ein erheblicher Auswahlfehler in Abbildung 2h-j das Downside zusätzlich.

Das obige Bild zeigt sowohl die Pseudoreplikation als auch ein erhebliches Ungleichgewicht bei den epitopspezifischen Antworten professional Teilnehmer (z. B. 23–26 Antworten von 7 Personen, wobei eine Individual 5 Antworten beisteuerte), was die scheinbare Stichprobengröße erheblich erhöht und die gemeldete Signifikanz steigert. Bei richtiger Aggregation auf Teilnehmerebene verschwinden die Unterschiede.

Hier ist eine kurze, einseitige technische Zusammenfassung

Darin werden die statistischen Probleme dargelegt und erläutert, warum die berichteten Analysen die Schlussfolgerungen des Papiers (das ebenfalls beigefügt ist) nicht stützen können.

Ich weiß nichts über CD8⁺-T-Zellstammzellen, aber der Title „Involved Cow“ hatte etwas, das mich ansprach. Ich habe das unvernünftige Gefühl, dass jeder, der sich als „Besorgte Kuh“ ausgibt, ein guter Mensch sein wird.

Andererseits habe ich keinen guten Grund für dieses Gefühl, und auf jeden Fall machen gute Leute ständig wissenschaftliche Fehler – ich weiß, dass ich das tue! – deshalb sollten wir hier keine voreiligen Schlussfolgerungen ziehen.

An diesem Punkt könnte ich einfach aufgeben, da ich nicht vorhabe, mich über das Thema HIV-Virämie weiterzubilden, aber das obige Downside scheint rein statistischer Natur zu sein, additionally werde ich einen Blick darauf werfen. Ich habe ein gewisses Verständnis für Leute, die Probleme mit veröffentlichten Artikeln sehen. Ich denke, die Kuh sollte diese Bedenken auch posten auf Pubpeer.

Ich denke, das Hauptanliegen hier ist die Verallgemeinerung von nur 12 Personen. In einer medizinischen Studie kann man viel von nur einer Individual lernen, daher ist es nicht so, dass eine geringe Stichprobengröße disqualifiziert.

Der vielleicht hilfreichste Weg, diese Artwork von Studie zu betrachten, besteht additionally nicht darin, sie mit einer hypothetischen Studie an 1200 Personen zu vergleichen (bei der Sie wahrscheinlich auch bei einer zweifelsohne legitimen Analyse statistische Signifikanz erhalten sollten), sondern mit einer Studie an ein oder zwei Personen.

Was erhalten Sie aus N=12, was Sie aus N=1 oder 2 nicht herausholen würden? Meistens entsteht ein gewisses Gefühl der Variabilität. Die 12 Personen in Ihrer Studie werden sich in vielerlei Hinsicht unterscheiden – unterschiedliche Körper, unterschiedliche Altersstufen, unterschiedliche Stadien der Krankheit usw. Wenn alle 12 Personen bestimmte Reaktionen zeigen, sagt Ihnen das etwas. So unterschiedlich diese Antworten sind, sagt Ihnen auch das etwas.

Kann N=12 Ihnen verlässliche Informationen über das durchschnittliche Verhalten der Bevölkerung liefern? Machen wir eine kurze Berechnung. Angenommen, Sie vergleichen zwei Gruppen mit jeweils 6 Personen. Wenn die Standardabweichung Ihrer Ergebnisvariablen innerhalb jeder Gruppe Sigma ist, beträgt die Standardabweichung der Differenz zwischen den beiden Gruppenmittelwerten sqrt(sigma^2/6 + sigma^2/6) = sigma/sqrt(3) = 0,58*sigma. Wenn Sie additionally möchten, dass Ihr Vergleich ein Sign-Rausch-Verhältnis von 2 aufweist (so dass Sie in einem sauberen Experiment eine Probability von etwa 50 % haben, die konventionelle statistische Signifikanz zu erreichen), müsste Ihre zugrunde liegende mittlere Effektgröße mindestens 1,16*Sigma betragen. Das wäre ein riesiger Effekt. Nicht, dass es nicht passieren kann, sondern nur, dass es nur passieren wird, wenn:
(a) Der zugrunde liegende Effekt ist wirklich groß.
(b) Das Ergebnis variiert innerhalb jeder Gruppe nur sehr wenig, oder wenn es variiert, wird diese Variation durch in Ihrem Modell enthaltene Prädiktoren vor der Behandlung erklärt.
(c) Das Ergebnis ist bei jeder Individual stabil und wird genau gemessen. Nahezu jede Menge unkontrollierter Messfehler oder Schwankungen im Laufe der Zeit machen es für Sie schwierig, das Sign-Rausch-Verhältnis zu senken.
(d) Die Behandlung oder Exposition wird intestine gemessen. Eine Fehlklassifizierung oder Rauschen in der Behandlungsvariablen zerstören jede Probability, dieses hohe Sign-Rausch-Verhältnis beizubehalten.

Aus dieser Perspektive besteht eine der Schlüsselaufgaben einer N=12-Studie darin, die Variations- und Fehlerquellen in Ihrem Experiment zu identifizieren, damit Sie herausfinden können, wie Sie diese kontrollieren können. Oder, wo das nicht möglich ist, wie Sie sich darauf einstellen können.

Um es zu paraphrasieren das berühmte Sprichwort:
Gott schenke mir die Gelassenheit, mich auf die Dinge einzustellen, die nicht kontrolliert werden können; Der Mut, die Dinge zu kontrollieren, die kontrolliert werden können; Und die Weisheit, den Unterschied zu erkennen.

Um nun zur vorliegenden Studie zu kommen: Der wichtigste statistische Punkt ist, dass Sie aus drei Gründen ohnehin nicht nach statistischer Signifikanz in Ihren Daten suchen sollten, es sei denn, Sie sind sich ziemlich sicher, dass Sie die oben genannten Bedingungen (a), (b), (c) und (d) erfüllt haben:
1. Bei so viel Variabilität die Tatsache, dass ein beobachteter Unterschied besteht nicht Um statistische Signifikanz zu erreichen, sollte nicht davon ausgegangen werden, dass der zugrunde liegende Effekt Null oder sogar gering ist.
2. Bei statistisch signifikanten Unterschieden in den Daten handelt es sich wahrscheinlich um große Überschätzungen – das ist der Grund bekanntes Downside von Fehlern vom Typ M in verrauschten Studien.
3. Wenn Sie unter dem Druck stehen, statistische Signifikanz zu finden, besteht eine Motivation zum Betrügen. Das ist das Amstrong-Prinzip. Ich versuche nicht zu sagen, anzudeuten oder anzudeuten, dass die Autoren dieser speziellen Arbeit „geschummelt“ haben, sondern nur, dass sie durch die Angabe von Signifikanzniveaus in dieser kleinen Studie (unabsichtlich) Ärger herbeirufen.

Und tatsächlich treten diese Probleme hier auf. Zusätzlich zu einigen statistisch signifikanten Vergleichen (die oben von Cow angesprochen wurden) berichtet das Papier auch über einige fehlende Zusammenhänge, die auf nichtstatistischer Signifikanz basieren.

Was hätten die Forscher tun sollen?

In den meisten Diskussionsbeiträgen geht es um die technischen Particulars des Experiments und die damit verbundenen biologischen Prozesse. Es gibt auch viele Daten, auch auf der Ebene einzelner Patienten. Ich werde nicht versuchen, irgendetwas davon zu bewerten! Ich vermute, dass der Wert der Arbeit in all diesen Daten liegt und dass diese Ergebnisse bei der Gestaltung zukünftiger Studien nützlich sein könnten. Ich würde das nicht aufgrund der statistischen Signifikanz tun, das ist alles.

Ihnen ist vielleicht aufgefallen, dass ich nie dazu gekommen bin, die einzelnen von Involved Cow aufgeworfenen Fragen zu bewerten. Das liegt daran, dass ich in dieser Umgebung mit kleinen Stichproben und hoher Varianz keine statistische Signifikanz erwarten würde, wenn es keine Auswahl bei den Verzweigungspfaden gäbe. Das bedeutet einerseits, dass es mich nicht wundern würde, wenn die Bedenken der Kuh berechtigt wären; Andererseits spielt es in gewisser Weise sowieso keine so große Rolle, denn selbst wenn die Standardfehler nicht durch Clustering in den Daten ungültig gemacht würden, wäre ich immer noch besorgt.

Es ist möglich, dass die Autoren des veröffentlichten Artikels diesen Beitrag sehen. Wenn dies der Fall ist, empfehle ich ihnen, mehr darüber nachzudenken, wie sie Variationen kontrollieren und anpassen können, und keine statistischen Signifikanzschwellen zur Klassifizierung Ihrer Ergebnisse zu verwenden.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert