Veröffentlicht am 04. März 2015

Bayessche vs. Frequentistische Statistik

So wie eine Hängebrücke und eine Bogenbrücke Autos erfolgreich über eine Lücke bringen, liefern sowohl Bayes'sche als auch Frequentistische statistische Methoden eine Antwort auf die Frage: Welche Variante hat in einem A/B-Testing am besten abgeschnitten?

Leonid Pekelis
von Leonid Pekelis
a large bridge over water

Statistiken sind ein wesentlicher Bestandteil des Verständnisses Ihrer A/B-Testing-Ergebnisse - Methoden zur Berechnung einer einzigen Zahl, die bestimmt, ob Sie Maßnahmen ergreifen können, um eine Variation gegenüber der Experiment-Kontrolle zu implementieren. Es gibt jedoch viele Möglichkeiten, diese Zahl zu ermitteln. Welche Methode sollten Sie verwenden?

Zwei gängige Methoden zur Berechnung der statistischen Signifikanz sind die Frequentistische und die Bayes'sche Statistik. In der Vergangenheit wurden in der Industrie für A/B-Testing in der Regel Frequentist-Methoden verwendet. Die Bayes'schen Methoden bieten jedoch eine faszinierende Methode zur Berechnung der Ergebnisse von Experimenten auf eine völlig andere Weise als die Frequentistik. In der Welt der Statistik gibt es Anhänger beider Methoden - ein bisschen wie bei der Wahl einer politischen Partei.

Im Januar haben wir Stats Engine veröffentlicht und eine gemäßigte Haltung eingenommen: Sie sollten in der Lage sein, Bayes'sche Elemente in Ihren Ergebnissen zu nutzen und sie zur Unterstützung Frequentistischer Prinzipien einzusetzen, die Stabilität und mathematische Garantien bieten.

In diesem Beitrag gehen wir auf die Vor- und Nachteile der beiden Methoden ein und erläutern, warum Optimizely sich entschieden hat, Elemente beider Methoden in unsere Stats Engine einzubauen.

Was sind Bayessche und Frequentistische Statistiken?

DieBayes'sche Statistik geht bei der Datenanalyse eher von unten nach oben vor. Das bedeutet, dass vergangenes Wissen über ähnliche Experimente in einem statistischen Instrument, dem so genannten Prior, kodiert wird. Dieser Prior wird mit den aktuellen Daten des Experiments kombiniert, um eine Schlussfolgerung für den vorliegenden Test zu ziehen.

a cat sitting on a couch

Die Frequentistische Statistik hingegen macht Vorhersagen über die dem Experiment zugrunde liegenden Wahrheiten, indem sie nur die Daten des aktuellen Experiments verwendet. Frequentistische Argumente sind eher kontrafaktischer Natur und ähneln der Art von Logik, die Anwälte vor Gericht verwenden. Die meisten von uns lernen frequentistische Statistiken in Statistikkursen für Anfänger. Ein t-Test, bei dem wir fragen: "Unterscheidet sich diese Variation von der Kontrolle?", ist ein Grundbaustein dieses Ansatzes.

Ziel eines A/B-Tests ist es, statistisch gesehen, festzustellen, ob die während des Experiments erfassten Daten den Schluss zulassen, dass sich eine Variante einer Website oder App messbar von der anderen unterscheidet. Bayesianische und Frequentistische Ansätze untersuchen dieselben Daten eines Experiments aus unterschiedlichen Blickwinkeln. Wie eine Hängebrücke und eine Bogenbrücke versuchen sie, dasselbe Ziel zu erreichen. Beide Strukturen dienen dem Zweck, eine Lücke zu überbrücken, und im Fall von A/B-Testing verwenden sowohl Bayes'sche als auch Frequentistische Methoden Experimentdaten, um dieselbe Frage zu beantworten: Welche Variante ist die beste?

Was sind die Vorteile beider Ansätze?

A/B-Testing-Plattformen wie Optimizely verwenden Frequentist-Methoden zur Berechnung der statistischen Signifikanz, weil sie zuverlässig mathematische "Garantien" für die zukünftige Leistung bieten: statistische Ergebnisse eines Experiments, die vorhersagen, ob eine Variante bei ausreichender Zeit tatsächlich besser sein wird als die Basislinie. Mit Frequentist-Garantien können wir zum Beispiel Aussagen machen wie: "Weniger als 5% der implementierten Variationen werden Verbesserungen außerhalb ihres 95%igen Konfidenzintervalls aufweisen."

Wenn Sie mehr über dieses Thema wissen möchten, laden Sie das eBook A Practical Guide to Statistics for Online Experiments herunter.

Bayes'sche Tests hingegen nutzen das Vorwissen, um die Ergebnisse von Experimenten zu berechnen. Der größte Vorteil der Bayes'schen Ansätze ist, dass sie das Vorwissen nutzen, das jeder Experimentator mitbringt. Wenn Sie alle Ihnen zur Verfügung stehenden Informationen nutzen, egal ob es sich um aktuelles oder vorheriges Wissen handelt, sollten Sie bei Ihren Experimenten so schnell wie möglich vorankommen. Unter der Voraussetzung, dass die Annahmen, die bei der Berechnung des statistischen Priors auf der Grundlage historischer Daten getroffen wurden, korrekt sind, sollte dies den Experimentierern helfen, schneller zu statistisch signifikanten Schlussfolgerungen zu gelangen.

Allerdings bieten Bayes'sche Methoden nicht immer die gleichen Garantien für die zukünftige Leistung wie Frequentistische Methoden. Würden wir sie automatisch so verwenden, als ob sie das täten, indem wir Frequentist-Sätze - wie den obigen für Konfidenzintervalle - auf Bayes'sche Berechnungen anwenden, könnten wir zu einer falschen Schlussfolgerung gelangen. Denn es besteht die Gefahr, dass das Wissen über frühere Experimente nicht mit der Art und Weise übereinstimmt, wie ein Effekt in einem neuen Experiment erzeugt wird, und es ist möglich, dass Sie in die Irre geführt werden, wenn Sie dies nicht berücksichtigen.

In einem Artikel der New York Times aus dem letzten Jahr, in dem Anwendungen der Bayes'schen Statistik beschrieben werden, betrachtet der Autor ein Beispiel für die Suche nach einem vermissten Fischer. Die Küstenwache war in der Lage, Daten über die örtliche Geografie und frühere Suchaktionen miteinander zu kombinieren, um Vorhersagen darüber zu treffen, in welchen Gebieten der vermisste Fischer mit größerer Wahrscheinlichkeit zu finden ist. Als mehr Informationen über die aktuelle Suche auftauchten, wurden diese Informationen mit dem Wissen über das frühere Verhalten der Natur kombiniert, um die Suche zu beschleunigen, was zu einem glücklichen Ende führte.

Der größte Fallstrick bei der Übertragung dieser Erfolgsgeschichte auf das A/B-Testing ist, dass die Einbeziehung früherer Überzeugungen, die nicht mit der Realität übereinstimmen, genau den gegenteiligen Effekt haben kann - eine falsche Schlussfolgerung und einen langsameren Weg zur richtigen Antwort. Ein Zweck von A/B-Testing ist es, aus Ihrem Experiment zu lernen, um zukünftige Maßnahmen zu ergreifen, sei es die Implementierung einer Variation oder die Durchführung weiterer Tests. Die Informationen, die Sie heute haben, sind in Zukunft möglicherweise nicht mehr in gleichem Maße anwendbar.

a group of people sitting on a grassy hillDas ist in etwa so, als würden Sie die Karte eines Labyrinths, das Sie zuvor durchlaufen haben, für die Navigation in einem neuen Labyrinth verwenden. Es könnte Ihnen helfen, das Labyrinth schneller zu durchqueren, oder es könnte Sie auf den falschen Weg führen, so dass Sie länger brauchen, um den Ausgang zu finden.

Letztendlich führt ein falsches Verständnis oder ein falscher Gebrauch von Statistiken zu schlechten Ergebnissen, ganz gleich, welche Art von statistischer Methode angewendet wird (Bayesianisch oder Frequentistisch). Aus diesem Grund sind solide Grundlagen für ein gutes A/B-Testing von entscheidender Bedeutung, und deshalb legen wir Wert darauf, eine robuste Version dieser Statistiken in unser Produkt einzubauen. Solide statistische Aussagen und ihre verständliche Darstellung sind für unsere Kunden von größerem Nutzen als das Herauspressen des letzten Quäntchens an Effizienz.

Wie sieht die Zukunft für die Verfechter von Frequentisten und Bayesianern aus?

Als wir jedoch ein statistisches Modell entwickelten, das besser auf die Art und Weise abgestimmt ist, wie die Kunden von Optimizely die Ergebnisse ihrer Experimente für ihre Entscheidungen nutzen (Stats Engine), wurde klar, dass die beste Lösung Elemente sowohl der Frequentist- als auch der Bayes-Methode kombinieren muss, um sowohl die Zuverlässigkeit der Frequentist-Statistiken als auch die Schnelligkeit und Agilität der Bayes-Methoden zu bieten.

Dieser Ansatz orientiert sich an einer etwas weniger bekannten dritten Denkschule in der Statistik. Sie nennt sich Empirical Bayes und basiert auf dem Grundsatz, dass statistische Methoden die Stärken sowohl der Bayes'schen als auch der Frequentistischen Ideologie vereinen und gleichzeitig die Schwächen der beiden abschwächen sollten.

Wie das Brückenkonzept kombiniert Empirical Bayes beide Ansätze, um eine innovative Lösung für die anstehenden Fragen zu bieten, und kann dazu beitragen, die Schwierigkeiten zu vermeiden, die mit der Wahl einer Bogen- oder Hängebrücke allein verbunden sind.

a bridge with lights at night

Wenn man das Beste aus Bogen- und Hängebrücke kombiniert, entsteht eine durchgehende Bogenbrücke, die das beste Ergebnis für eine gegebene Lücke liefern kann, wie hier bei der Sydney Harbor Bridge zu sehen.

Die Stats Engine von Optimizely enthält nämlich eine Methode, die direkt aus der Empirical Bayes-Denkweise stammt, so dass die Benutzer viele Ziel- und Variationskombinationen testen können, ohne dass die statistische Genauigkeit darunter leidet.

Der Benjamini-Hochberg-Ansatz kontrolliert eine Art von statistischem Fehler, der als False Discovery Rate (FDR) bezeichnet wird. FDR ist eine Messung, die der Tatsache Rechnung trägt, dass Ihnen viele Fehler unterlaufen können, wenn Sie mehrere A/B-Tests gleichzeitig durchführen. Dies ist typischerweise ein Problem, wenn Sie multivariate oder A/B/n-Experimente mit vielen Variationen durchführen oder viele Ziele in einem Experiment verfolgen.

Wie dieser Ansatz funktioniert und warum er die statistische Fehlerquote liefert, die für Unternehmen wirklich wichtig ist, erfahren Sie in unserem Blogbeitrag über Stats Engine und in einer ausführlicheren technischen Beschreibung. Wir haben außerdem kürzlich ein Webinar mit einem Beispiel für FDR in Aktion für A/B-Testing aufgezeichnet.

Der Benjamini-Hochberg FDR-Ansatz zur Kontrolle dieses Fehlers hat sich sowohl nach Frequentisten- als auch nach Bayes'schen Standards als erfolgreich erwiesen. Das Verfahren berücksichtigt nicht nur in angemessener Weise Daten aus früheren Experimenten, sondern liefert auch die Ergebnisse und die Frequentistischen statistischen Garantien, die Sie erwarten würden, ganz gleich, welche Perspektive Sie einnehmen.

Die schnelle und weitreichende Akzeptanz des Benjamini-Hochberg-Ansatzes im akademischen und medizinischen Umfeld ist darauf zurückzuführen, dass die Methode sowohl Bayesianer als auch Frequentisten von ihren Vorzügen überzeugt hat.

Sind wir also der Meinung, dass jeder wie ein Frequentist denken sollte? Ein Bayesianer? Ein Empirischer Bayesianer? Ganz und gar nicht. Sollten Sie sich beeilen, die Farben eines dieser Lager anzunehmen? Nein, natürlich nicht. Der Grund dafür, dass sich diese Ideologien hartnäckig halten, liegt darin, dass sie auf einer sehr grundlegenden Ebene alle eine gute Möglichkeit darstellen, aus Ihren Daten zu lernen.

Wir sind der Meinung, dass es für einen sachkundigen A/B-Tester, wie für einen informierten Wähler oder einen effektiven Bauingenieur, wichtig ist, die Möglichkeiten zu kennen, die Ihnen zur Verfügung stehen. Wir freuen uns darauf, nicht nur die besten Statistiken für die Art und Weise zu finden, wie Sie Daten nutzen, um Entscheidungen zu treffen und Maßnahmen zu ergreifen, sondern Sie auch in die Lage zu versetzen, diese zu nutzen.