Warum Sie sich für sequenzielle Tests entscheiden sollten, um Ihr Experimentierprogramm zu beschleunigen
Beim Erreichen der statistischen Signifikanz in digitalen Experimenten kann die gewählte statistische Methode die Interpretation, Geschwindigkeit und Robustheit der Ergebnisse beeinflussen. Welcher Ansatz am besten geeignet ist, hängt von den Besonderheiten des Experiments, den verfügbaren Informationen und dem gewünschten Gleichgewicht zwischen Geschwindigkeit und Sicherheit ab.
Vollständige Bayes'sche Methoden sind für groß angelegte Online-Experimente ungefähr so nützlich wie ein chemischer Müllcontainerbrand. Bayes'sche Methoden bieten eine wahrscheinlichkeitsbasierte Perspektive, bei der Vorwissen und aktuelle Daten integriert werden. Wenn Sie die falsche Entscheidung treffen, z. B. im kritischen ersten Schritt, welche statistische Verteilung Sie als Prior setzen sollten, wird Ihr Online-Experiment so langsam wie Melasse sein .
Sequentielle Methoden können die Entscheidungsfindung beschleunigen, indem sie ein frühzeitiges Abbrechen ermöglichen. Die statistische Leistung sequenzieller Tests ist besonders gut für die Entdeckung schwer zu findender winziger Effekte und blitzschnell für die Entdeckung von Blockbuster-Effekten. Erfahren Sie mehr darüber, welche Testmethode Sie wählen sollten und wie sich dies auf Ihre Testergebnisse auswirkt.
Warum sequenzielle Tests der vollständig Bayes'schen Statistik überlegen sind
VollständigBayes'sche Statistiken verfolgen ein anderes Ziel als die frequentistischen Statistiken, die der Stats Enginezugrunde liegen , so dass sie nicht direkt miteinander verglichen werden können.
Bei Bayes'schen Experimenten geht es darum, zwei Informationsquellen zu kombinieren: das, was man über die Situation dachte, bevor man die vorliegenden Daten beobachtete, und das, was die Daten selbst über die Situation aussagen.
Die erste Quelle wird in Form einer priorisierten Wahrscheinlichkeitsverteilung ausgedrückt. Prior bedeutet, was Sie verstanden haben, bevor Sie die Daten beobachtet haben. Die zweite Quelle wird durch die Likelihood ausgedrückt. Dieselbe Wahrscheinlichkeit wird in der frequentistischen Statistik mit festem Zeithorizont verwendet.
Daher kann ein Experimentator, der mit einer guten Vermutung beginnt, viel schneller zu einer Entscheidung gelangen als ein Experimentator, der eine frequentistische Methode verwendet. Wenn die anfängliche Vermutung jedoch schlecht gewählt war, kann der Test entweder extrem lange dauern oder sehr hohe Fehlerquoten aufweisen.
Die fehlerhafte Bayes'sche Behauptung über "keine Fehler"
Ein vollständig Bayes'sches Testverfahren erhebt nicht den Anspruch, die Häufigkeit von falsch-positiven Ergebnissen zu kontrollieren. Stattdessen setzen sie ein Ziel für den erwarteten Verlust und quantifizieren das Risiko, das mit der Wahl einer Variante gegenüber einer anderen einhergeht.
Bayes'sche Methoden neigen dazu, mehr Gewinner zu entdecken, einfach weil sie keine strenge Kontrolle der Falschentdeckungsrate beinhalten, insbesondere bei Experimenten mit kontinuierlicher Überwachung.
Obwohl die Frequentist-Methoden, die Stats Engine zugrunde liegen, weniger flexibel sind, wenn es um die direkte Einbeziehung von Vorinformationen geht, bieten sie Fehlergarantien, die unabhängig von der Situation oder dem Vorwissen des Experimentators gelten. Zum Beispiel bietet Stats Engine eine starke Kontrolle der Falschentdeckungsrate für jedes Experiment, während Bayes'sche Methoden je nach der genauen Wahl der Vorabverteilung besser oder schlechter abschneiden können.
Mit der Stats Engine sind mehr Beweise erforderlich, um ein signifikantes Ergebnis zu erzielen, und die Experimentatoren können während der Laufzeit eines Experiments so oft nachschauen, wie sie möchten. Außerdem ist die Stats Engine so konzipiert, dass sie die statistische Signifikanz fortlaufend berechnet, so dass ein Experiment abgeschlossen werden kann, sobald sich genügend Beweise angesammelt haben.
Wie viel Aussagekraft bei einem sequenziellen Ansatz mit der Stats Engine im Vergleich zu einem Experiment auf der Grundlage traditioneller Tests mit festem Zeithorizont gewonnen oder verloren wird , hängt von der Leistung des jeweiligen Experiments ab.
Traditionelle Teststatistiken erfordern eine vorher festgelegte Stichprobengröße. Es ist nicht erlaubt, von der erhobenen Stichprobengröße abzuweichen. Sie können den Test nicht vorzeitig abbrechen oder ihn länger laufen lassen. Um mit traditionellen Statistiken kleinere, subtilere wahre Effekte zu erkennen, muss ein längeres Experiment durchgeführt werden.
Die wahre Rolle der Blockbuster-Verstärkung und der empfindlichen Signal-Superkraft von sequentiellen Tests
Die sequenzielle Analyse bietet mehrere wichtige zeitsparende Vorteile.
Erstens erfordert ein Experiment weniger Proben mit sequenziellen Gruppentests, wenn der Unterschied zwischen der Behandlungs- und der Kontrollgruppe groß ist, d. h. wenn die tatsächliche Erhöhung größer ist als der zu Beginn des Experiments festgelegte minimale nachweisbare Effekt (MDE). In solchen Fällen kann der Versuch vorzeitig abgebrochen werden, bevor die vorgegebene Stichprobengröße erreicht ist.
Wenn zum Beispiel die Verbesserung Ihres Tests um 5 Prozentpunkte größer ist als der von Ihnen gewählte MDE, läuft Stats Engine so schnell wie die Statistik mit festem Horizont. Sobald die Verbesserung den MDE um bis zu 7,5 Prozentpunkte übersteigt, ist Stats Engine fast 75 % schneller als ein Test mit herkömmlichen Methoden. Bei größeren Experimenten (>50.000 Besucher) sind die Gewinne sogar noch größer, wo Stats Engine ein schlüssiges Experiment bis zu 2,5 Mal so schnell ermitteln kann.
Ein weiteres Szenario, das weniger Stichproben bei sequenziellen Experimenten erfordert, ist, wenn die Konversionsrate der Kontrollgruppe weniger als 10% beträgt. In diesem Fall kann das sequenzielle Testen die Anzahl der Beobachtungen, die für ein erfolgreiches Experiment erforderlich sind, um 50 % oder mehr reduzieren.
Möchten Sie sehen, ob sequenzielle Tests scheitern können? Geben Sie ihm keinen Auftrieb.
Sequentielle Tests sind schneller, wenn es winzige Effekte zu finden gibt und wenn es riesige Steigerungen zu finden gibt. Wenn es keinen Effekt gibt, braucht ein sequenzieller Test länger, um zu einem Ergebnis zu kommen (statistische Signifikanz zu erreichen).
Es gibt also Situationen, in denen ein traditioneller statistischer Test einem sequenziellen Design vorgezogen werden kann. Erinnern Sie sich zunächst daran, dass ein Fehler vom Typ 1 bedeutet, dassSie auf einen überraschenden Unterschied zwischen der Testvariante und der Kontrolle/Basislinie schließen, obwohl es keinen wirklichen Unterschied zwischen den beiden gibt.
Wenn Sie Statistik nach alter Schule betreiben, erhalten Sie Typ-1-Fehler-Garantien zu einem einzigen Zeitpunkt. Das bedeutet, dass man eine bestimmte Stichprobengröße erhält. Das ist buchstäblich alles. Das ist der einzige Preis, den man gewinnt.
Das ist sehr nützlich für klinische Studien. Fragen Sie sich selbst: Entwickeln wir Medikamente für seltene Krankheiten für eine klinische Studie der Phase 1, die den strengen Auflagen der FDA entsprechen muss ? Soweit ich weiß, sind wir nicht in dieser Branche tätig. Wir haben mit anderen, aber nicht weniger komplexen wissenschaftlichen Anforderungen zu kämpfen.
Sequentielle Tests bieten Ihnen Schutz des Typs 1 für die gesamte Dauer des Experiments und für jede Art von Verkehr. Hört sich das nicht viel flexibler an?
Was um alles in der Welt ist dann so toll an dem "sequentiellen" Aspekt jeder sequentiellen Methode?
Größe der Stichprobe
- Eine feste Stichprobengröße ist in der Praxis nur schwer zu realisieren. Ressourcen und Zeitpläne ändern sich schnell und verschieben den Zeitplan für die Analyse.
- DieBerechnung des Stichprobenumfangs ist bei komplexen Modellen oft völlig unüberschaubar und hängt von vielen unbekannten Parametern ab (Noordzij et al, 2010 )
- Eine Abhilfemaßnahme besteht darin, eine Woche oder länger zu warten. Aber dann kennt der Analyst weder die erwartete Aussagekraft des Tests noch das Konfidenzintervall, das er ansetzen sollte. Der Analytiker könnte noch länger warten, aber dann steigt die Wahrscheinlichkeit eines Fehlers vom Typ I (d. h., er schreit den Wolf) wie ein Heißluftballon (Armitage et al., 1969, 1991, 1993).
Größe des Effekts
- Wenn die Effektgröße der Testvariation groß ist, können wir sie mit weniger Daten nachweisen, als wir ursprünglich für notwendig hielten.(Bojinov & Gupta, 2022)
- Gleichzeitig wollen die Unternehmen die Möglichkeit haben, den Effekt genau zu schätzen, auch wenn er relativ klein ist.
- Mit herkömmlichen statistischen Tests mit fester Stichprobengröße können beide Ziele nicht erreicht werden.
- Wenn die Stichprobengröße klein ist, werden im Experiment zwar große negative Effekte frühzeitig erkannt, aber es fehlt die Kraft, um kleine, interessante Unterschiede zwischen der Testvariation und der Ausgangslage zu erkennen.
- Wenn die Stichprobengröße groß ist, so dass das Experiment kleine Effekte erkennen kann, dann besteht ein hohes Risiko, dass große negative Effekte über einen gefährlichen Zeitraum hinweg auftreten, wodurch sich die Benutzererfahrung irreparabel verschlechtert.
Der Burger-King-Faktor - Mach, was du willst
- Praktischerweise muss sich der Experimentator nicht von vornherein auf eine feste Stichprobengröße festlegen. Stattdessen kann der Experimentator Daten sammeln, bis er zufrieden ist.
- Mit sequenziellen Tests können Sie Ihre Experimente überwachen UND das Experiment beenden, wenn sich die Unsicherheit in Bezug auf die prognostizierte Leistung der Testvarianten stabilisiert (z. B. wenn das Konfidenzintervall kleiner wird und die Interpretation einfacher ist).
Der Taco-Bell-Faktor - Live más
- Sequentielle Tests ermöglichen eine kontinuierliche Überwachung. Durch die kontinuierliche Überwachung können Sie Ihre Experimente automatisch und algorithmisch verwalten. A/B-Tests werden als Qualitätskontrolle für die kontrollierte Einführung neuer Funktionen und Änderungen eingesetzt. Dies ermöglicht die Skalierung von Experimenten als Teil Ihrer Experimentierkultur.
Was macht die sequenzielle Methode von Optimizely so interessant?
Stats Engine setzt einen neuartigen Algorithmus ein, den sogenannten Mixture Sequential Probability Ratio Test (mSPRT).
Er vergleicht nach jedem Besucher, um wie viel aussagekräftiger die Daten für eine Verbesserung / Nicht-Null-Verbesserung sind, im Vergleich zu Null / gar keine Verbesserung. Dies ist die relative Plausibilität der Veränderung(en) im Vergleich zur Basislinie.
Der mSPRT ist eine besondere Art von statistischem Test, der den sequentiellen Wahrscheinlichkeitsverhältnis-Test (SPRT) verbessert, der erstmals 1985 von dem theoretischen Statistiker David Siegmund in Stanford vorgeschlagen wurde. Dieser OG sequentielle Wahrscheinlichkeitsverhältnistest von Siegmund wurde entwickelt, um exakte, spezifische Werte des Auftriebs einer einzelnen Variation im Vergleich zu einer einzelnen Kontrolle zu testen, indem man die Wahrscheinlichkeit vergleicht, dass es eine Leistungsverbesserung ungleich Null durch die Variation gegenüber einer Leistungsverbesserung von Null gegenüber der Basislinie gibt.
Der mSPRT-Algorithmus von Optimizely bildet den Durchschnitt der gewöhnlichen SPRT über einen Bereich aller möglichen Verbesserungen (z. B. alternative Auftriebswerte).
Die Statistik-Engine von Optimizely verwendet auch eine Variante der empirischen Bayes'schen Technik. Sie verbindet das Beste aus frequentistischen und Bayes'schen Methoden, während sie die immer gültige Garantie für eine kontinuierliche Überwachung der Versuchsergebnisse beibehält.
Stats Engine benötigt mehr Beweise, um ein signifikantes Ergebnis zu erzielen, was es den Experimentatoren ermöglicht, während der Laufzeit eines Experiments so oft zu schauen, wie sie möchten. Stats Engine kontrolliert außerdem jederzeit die Falsch-Positiv-Rate, unabhängig davon, wann oder wie oft Sie einen Peek durchführen, und passt sich darüber hinaus an Situationen an, in denen Ihr Experiment mehrere Vergleiche hat (d. h. mehrere Metriken und Variationen).
Die Kontrolle der Falschentdeckungsrate bietet eine Möglichkeit, die Aussagekraft zu erhöhen und gleichzeitig eine prinzipielle Fehlerbegrenzung aufrechtzuerhalten. Anders ausgedrückt: Die Falschentdeckungsrate ist die Wahrscheinlichkeit, dass ein harmloser Befund als "Wolf" bezeichnet wird. Daher ermöglicht die Stats Engine eine kontinuierliche Überwachung der Ergebnisse mit stets gültigen Ergebnissen, indem sie die Falschentdeckungsrate jederzeit kontrolliert, unabhängig davon, wann oder wie oft der Experimentator die Ergebnisse ansieht.
Denken Sie daran...
Bei der Wahl zwischen einem Bayes'schen Test und einem sequentiellen Test ist es wichtig, die spezifischen Anforderungen Ihrer Situation zu berücksichtigen.
Bayes'sche a/b-Methoden eignen sich gut für Situationen, in denen Sie über Vorabinformationen zu den interessierenden Parametern verfügen und Ihre Überzeugungen zu diesen Parametern im Lichte neuer Daten aktualisieren möchten. Wenn Sie einen Bayes'schen Test frühzeitig abbrechen, müssen Sie wahrscheinlich ein negatives Ergebnis akzeptieren.
Sequentielle Tests können Ihnen helfen, die Konsistenz und Dominanz der Leistung einer Variante gegenüber der anderen (oder deren Fehlen) zu bewerten.
Wo können Sie noch mehr über die verschiedenen Testmethoden lesen? Hier finden Sie einige relevante Beiträge, die Ihnen den Einstieg erleichtern:
Ist die Bayes'sche Methode immun gegen Peeking?
Was Sie brauchen, um perfekte Experimente durchzuführen
Säulen für den Aufbau einer Experimentierkultur