Ein Nichtunterlegenheitstest beweist statistisch, dass eine neue Behandlung nicht um mehr als eine klinisch akzeptable Spanne schlechter als die Standardbehandlung ist
Als ich an einem aktuellen Downside arbeitete, stieß ich auf eine bekannte Herausforderung: „Wie können wir feststellen, ob eine neue Behandlung oder Intervention mindestens so wirksam ist wie eine Standardbehandlung?“ Auf den ersten Blick schien die Lösung einfach zu sein – vergleichen Sie einfach ihre Durchschnittswerte, oder? Aber als ich tiefer nachforschte, wurde mir klar, dass es nicht so einfach conflict. In vielen Fällen geht es nicht darum, zu beweisen, dass die neue Behandlung besser ist, sondern darum, zu zeigen, dass sie besser ist nicht schlimmer um mehr als einen vordefinierten Spielraum.
Hier ist Nichtunterlegenheitstests ins Spiel kommen. Mit diesen Checks können wir nachweisen, dass die neue Behandlung oder Methode „nicht um mehr als einen kleinen, akzeptablen Betrag schlechter“ ist als die Kontrolle. Werfen wir einen detaillierten Blick darauf, wie dieser Check durchgeführt wird und, was am wichtigsten ist, wie er in verschiedenen Szenarien zu interpretieren ist.
Beim Nichtunterlegenheitstest versuchen wir nicht zu beweisen, dass die neue Behandlung besser ist als die bestehende. Stattdessen wollen wir zeigen, dass die neue Behandlung erfolgreich ist nicht unannehmbar schlimmer. Der Schwellenwert für das, was als „unzumutbar schlimmer“ gilt, wird als „unzumutbar schlimmer“ bezeichnet Nicht-Minderwertigkeitsmarge (Δ). Wenn beispielsweise Δ=5, kann die neue Behandlung bis zu 5 Einheiten schlechter sein als die Standardbehandlung, und wir würden sie immer noch als akzeptabel betrachten.
Diese Artwork der Analyse ist besonders nützlich, wenn die neue Behandlung andere Vorteile haben könnte, etwa weil sie kostengünstiger, sicherer oder einfacher zu verabreichen ist.
Jeder Nicht-Minderwertigkeitstest beginnt mit der Formulierung zweier Hypothesen:
- Nullhypothese (H0): Die neue Behandlung ist um mehr als die Nichtunterlegenheitsspanne Δ schlechter als die Standardbehandlung.
- Alternativhypothese (H1): Die neue Behandlung ist nicht um mehr als Δ schlechter als die Standardbehandlung.
Wenn höhere Werte besser sind:
Wenn wir zum Beispiel etwas wie die Wirksamkeit von Medikamenten messen, wo Höhere Werte sind besserdie Hypothesen wären:
- H0: Die neue Behandlung ist um mindestens Δ schlechter als die Standardbehandlung (dh μnew − μcontrol ≤ −Δ).
- H1: Die neue Behandlung ist nicht um mehr als Δ schlechter als die Standardbehandlung (d. h. μnew − μcontrol > −Δ).
Wenn niedrigere Werte besser sind:
Andererseits, wann niedrigere Werte sind besserwie wenn wir Nebenwirkungen oder Fehlerraten messen, sind die Hypothesen umgekehrt:
- H0: Die neue Behandlung ist um mindestens Δ schlechter als die Standardbehandlung (dh μnew − μcontrol ≥ Δ).
- H1: Die neue Behandlung ist nicht um mehr als Δ schlechter als die Standardbehandlung (d. h. μnew − μcontrol < Δ).
Um einen Nichtunterlegenheitstest durchzuführen, berechnen wir die Z-Statistikder misst, wie weit der beobachtete Unterschied zwischen den Behandlungen von der Nichtunterlegenheitsspanne entfernt ist. Je nachdem ob Höhere oder niedrigere Werte sind besserwird die Formel für die Z-Statistik unterschiedlich sein.
- Wann Höhere Werte sind besser:
- Wann niedrigere Werte sind besser:
Dabei ist δ die beobachtete Mittelwertdifferenz zwischen der neuen und der Standardbehandlung und SE(δ) der Standardfehler dieser Differenz.
Der p-Wert sagt uns, ob der beobachtete Unterschied zwischen der neuen Behandlung und der Kontrolle im Zusammenhang mit der Nichtunterlegenheitsmarge statistisch signifikant ist. So funktioniert es in verschiedenen Szenarien:
- Wenn höhere Werte besser sindwir berechnen
p = 1 − P(Z ≤ berechnetes Z)
da wir testen, ob die neue Behandlung nicht schlechter ist als die Kontrolle (einseitiger Higher-Tail-Check). - Wenn niedrigere Werte besser sindwir berechnen
p = P(Z ≤ berechnetes Z)
da wir testen, ob die neue Behandlung niedrigere (bessere) Werte aufweist als die Kontrolle (einseitiger Decrease-Tail-Check).
Zusammen mit dem p-Wert Konfidenzintervalle bieten eine weitere wichtige Möglichkeit, die Ergebnisse eines Nicht-Minderwertigkeitstests zu interpretieren.
- Wann höhere Werte werden bevorzugtwir konzentrieren uns auf die untere Grenze des Konfidenzintervalls. Wenn es größer als −Δ ist, schließen wir auf Nichtunterlegenheit.
- Wann niedrigere Werte werden bevorzugtwir konzentrieren uns auf die Obergrenze des Konfidenzintervalls. Wenn es kleiner als Δ ist, schließen wir auf Nichtunterlegenheit.
Das Konfidenzintervall wird nach folgender Formel berechnet:
- wenn höhere Werte bevorzugt werden
- wenn niedrigere Werte bevorzugt werden
Der Standardfehler (SE) misst die Variabilität oder Präzision der geschätzten Differenz zwischen den Mittelwerten zweier Gruppen, typischerweise der neuen Behandlung und der Kontrolle. Es ist eine entscheidende Komponente bei der Berechnung der Z-Statistik und des Konfidenzintervalls bei Nichtunterlegenheitstests.
Um den Standardfehler für die Differenz der Mittelwerte zwischen zwei unabhängigen Gruppen zu berechnen, verwenden wir die folgende Formel:
Wo:
- σ_new Und σ_control sind die Standardabweichungen der Neu- und Kontrollgruppe.
- p_new Und p_control sind der Erfolgsanteil der Neu- und Kontrollgruppe.
- n_neu und n_control sind die Stichprobengrößen der neuen und Kontrollgruppen.
Beim Hypothesentest α (das Signifikanzniveau) bestimmt den Schwellenwert für die Ablehnung der Nullhypothese. Für die meisten Nicht-Minderwertigkeitstests gilt: α=0,05 (5 % Signifikanzniveau) wird verwendet.
- A einseitiger Check mit α=0,05 entspricht einem kritischen Wert Z-Wert von 1,645. Dieser Wert ist entscheidend für die Entscheidung, ob die Nullhypothese abgelehnt werden soll.
- Der Konfidenzintervall basiert ebenfalls auf diesem Z-Wert. Für ein 95 %-Konfidenzintervall verwenden wir 1.645 als Multiplikator in der Konfidenzintervallformel.
In einfachen Worten, wenn Ihr Z-Statistik ist größer als 1.645 für höhere Werte oder weniger als -1,645 für niedrigere Werte und die Grenzen des Konfidenzintervalls unterstützen die Nichtunterlegenheit, dann können Sie die Nullhypothese getrost ablehnen und daraus schließen, dass die neue Behandlung dies ist nicht minderwertig.
Lassen Sie uns die Interpretation des aufschlüsseln Z-Statistik Und Konfidenzintervalle in vier Schlüsselszenarien, basierend darauf, ob höhere oder niedrigere Werte bevorzugt werden und ob die Z-Statistik positiv oder negativ ist.
Hier ist ein 2×2-Framework:
Nichtunterlegenheitstests sind von unschätzbarem Wert, wenn Sie nachweisen möchten, dass eine neue Behandlung nicht wesentlich schlechter ist als eine bestehende. Wenn Sie die Nuancen der Z-Statistik, der p-Werte, der Konfidenzintervalle und der Rolle von α verstehen, können Sie Ihre Ergebnisse sicher interpretieren. Unabhängig davon, ob höhere oder niedrigere Werte bevorzugt werden, stellt der von uns besprochene Rahmen sicher, dass Sie klare, evidenzbasierte Schlussfolgerungen über die Wirksamkeit Ihrer neuen Behandlung ziehen können.
Da Sie nun über das Wissen zur Durchführung und Interpretation von Nichtunterlegenheitstests verfügen, können Sie diese Techniken auf eine Vielzahl realer Probleme anwenden.
Viel Spaß beim Testen!
Hinweis: Alle Bilder stammen, sofern nicht anders angegeben, vom Autor.