In Experimenten wird normalerweise die Häufigkeit eines Ereignisses (oder einer anderen Summenmetrik) nach Exposition (Behandlung) oder Nicht-Exposition (Kontrolle) gegenüber einer Intervention verglichen. Beispielsweise können wir die Anzahl der Käufe, die mit dem Ansehen von Inhalten verbrachten Minuten oder die Anzahl der Klicks auf einen Name-to-Motion vergleichen.
Auch wenn dieses Setup einfach, standardmäßig und üblich erscheint, ist es doch nur „gewöhnlich“. Es ist ein heikles Analyseproblem es sei denn Wir begrenzen die Zeitspanne nach der Belichtung, in der wir die Metrik berechnen.
Im Allgemeinen gelten für Metriken, die lediglich eine Metrik nach der Belichtung zusammenfassen („unbegrenzte Metriken“), die folgenden Aussagen NICHT:
- Wenn ich das Experiment länger durchführe, erreiche ich irgendwann eine Signifikanz, wenn das Experiment eine gewisse Wirkung hat.
- Der durchschnittliche Behandlungseffekt ist klar definiert.
- Bei der Berechnung der Stichprobengröße kann ich zur Berechnung der Experimentlänge normale Stichprobengrößenberechnungen verwenden.
Um herauszufinden, warum, nehmen wir an, wir hätten eine Metrik Y das ist die kumulative Summe von X, eine Metrik, die über eine einzelne Zeiteinheit definiert ist. X könnte beispielsweise die Anzahl der heute angesehenen Minuten sein und Y wäre die Gesamtminuten, die in den letzten t Tagen angesehen wurden. Nehmen Sie diskrete Zeit an:
Wo Y ist die oben beschriebene Experimentmetrik, eine Anzahl von Ereignissen, T ist die aktuelle Zeit des Experiments und ich indiziert die einzelne Einheit.
Angenommen, der Verkehr erreicht unser Experiment mit einer konstanten Price R:
Wo T ist die Anzahl der Zeiträume, in denen unser Experiment aktiv warfare.
Nehmen wir an, dass jeder X(i,s) ist unabhängig und weist eine identische Varianz auf (der Einfachheit halber; das gleiche Drawback tritt je nach Autokorrelation usw. mehr oder weniger stark auf), jedoch nicht unbedingt mit konstantem Mittelwert. Dann:
Wir fangen an, das Drawback zu erkennen. Die Varianz unserer Metrik ist im Zeitverlauf nicht konstant. Tatsächlich wird es immer größer.
In einem typischen Experiment erstellen wir einen t-Check für die Nullhypothese, dass der Behandlungseffekt 0 ist, und suchen nach Beweisen gegen diesen Nullwert. Wenn wir es finden, werden wir sagen, dass das Experiment ein statistisch signifikanter Gewinn oder Verlust ist.
Wie sieht additionally in diesem Fall der t-stat aus, sagen wir für die Hypothese, dass der Mittelwert von Y ist Null?
Einstecken n = rtwir können den Ausdruck in Type von schreiben T,
Wie bei jedem Hypothesentest möchten wir, dass die Teststatistik mit zunehmender Stichprobengröße größer wird, wenn die Nullhypothese nicht wahr ist, sodass wir die Nullhypothese ablehnen und uns für die Different entscheiden. Eine Folge dieser Anforderung ist, dass bei der Different der Mittelwert der t-Statistik bis ins Unendliche divergieren sollte. Aber…
Der Mittelwert der T-Statistik zu einem bestimmten Zeitpunkt T ist nur der Mittelwert der bisherigen Metrik T mal eine Konstante, die nicht mit der Stichprobengröße oder der Versuchsdauer variiert. Daher kann es nur dann ins Unendliche divergieren, wenn E(Y