Veröffentlicht am 20. Januar 2015

Die Geschichte hinter unserer Stats Engine

Leonid Pekelis
von Leonid Pekelis
text, letter

Klassische statistische Verfahren, wie der t-Test, sind das Fundament der Optimierungsbranche und helfen Unternehmen, datengestützte Entscheidungen zu treffen. Mit dem explosionsartigen Anstieg des Online-Experimentierens ist nun klar geworden, dass diese traditionellen statistischen Methoden für digitale Daten nicht geeignet sind: Die Anwendung der klassischen Statistik auf A/B-Testing kann zu Fehlerquoten führen, die viel höher sind, als die meisten Experimentierer erwarten.

Sowohl Experten aus der Industrie als auch aus der Wissenschaft sehen die Lösung in der Bildung. Schauen Sie nicht! Verwenden Sie einen Stichprobengrößenrechner! Vermeiden Sie es, zu viele Ziele und Variationen auf einmal zu testen!

Aber wir sind zu dem Schluss gekommen, dass es an der Zeit ist, dass sich die Statistik und nicht die Kunden ändern. Verabschieden Sie sich von dem klassischen t-Test. Es ist an der Zeit für Statistiken, die mühelos zu verwenden sind und mit der tatsächlichen Arbeitsweise von Unternehmen übereinstimmen.

In Zusammenarbeit mit einem Team von Statistikern aus Stanford haben wir Stats Engine entwickelt, ein neues statistisches Framework für A/B-Testing. Wir freuen uns, Ihnen mitteilen zu können, dass die Stats Engine ab dem 21. Januar 2015 für alle Optimizely-Kunden Ergebnisse liefert.

Dieser Blog-Beitrag ist sehr lang, denn wir möchten Ihnen ausführlich erläutern, warum wir diese Änderungen vornehmen und was sie für das A/B-Testing im Allgemeinen bedeuten. Bleiben Sie bis zum Ende bei uns, dann erfahren Sie es:

  • Warum wir Stats Engine entwickelt haben: Das Internet macht es einfach, die Ergebnisse von Experimenten jederzeit auszuwerten und Tests mit vielen Zielen und Variationen durchzuführen. Gepaart mit klassischen Statistiken können diese intuitiven Aktionen die Wahrscheinlichkeit, dass eine Variante fälschlicherweise als Gewinner oder Verlierer deklariert wird, um mehr als das Fünffache erhöhen.
  • Wie es funktioniert: Wir kombinieren sequentielle Tests und Kontrollen der Falschentdeckungsrate, um Ergebnisse zu liefern, die unabhängig von der Stichprobengröße gültig sind und die Fehlerrate, die wir melden, an die Fehler anpassen, die für Unternehmen wichtig sind.
  • Warum es besser ist: Stats Engine kann die Wahrscheinlichkeit, eine Gewinn- oder Verlustvariante fälschlicherweise zu deklarieren, von 30% auf 5% reduzieren, ohne dass die Geschwindigkeit darunter leidet.

Warum wir eine neue Stats Engine entwickelt haben

Herkömmliche Statistiken sind unintuitiv, leicht zu missbrauchen und lassen Geld auf dem Tisch liegen.

Um gültige Ergebnisse aus A/B-Tests zu erhalten, die mit klassischer Statistik durchgeführt werden, befolgen sorgfältige Experimentierer eine Reihe von strengen Richtlinien: Legen Sie im Voraus einen minimalen nachweisbaren Effekt und eine Stichprobengröße fest, schauen Sie sich die Ergebnisse nicht an und testen Sie nicht zu viele Ziele und Variationen auf einmal.

Diese Richtlinien können mühsam sein, und wenn Sie sie nicht sorgfältig befolgen, können Sie unwissentlich Fehler in Ihre Tests einbauen. Das sind die Probleme mit diesen Richtlinien, die wir mit Stats Engine angehen wollen:

  • Sich im Voraus auf einen nachweisbaren Effekt und eine Stichprobengröße festzulegen, ist ineffizient und nicht intuitiv.
  • Wenn Sie sich die Ergebnisse ansehen, bevor Sie diese Stichprobengröße erreicht haben, können Fehler in die Ergebnisse einfließen, und Sie könnten auf falsche Gewinner reagieren.
  • Wenn Sie zu viele Ziele und Variationen auf einmal testen, erhöht sich die Fehlerquote aufgrund falscher Entdeckungen erheblich - eine Fehlerquote, die viel höher sein kann als die Falsch-Positiv-Rate.

Die Festlegung auf eine Stichprobengröße und einen nachweisbaren Effekt könnte Sie ausbremsen.

Die Festlegung einer Stichprobengröße vor der Durchführung eines Tests hilft dabei, Fehler mit herkömmlichen statistischen Methoden zu vermeiden. Um eine Stichprobengröße festzulegen, müssen Sie auch den minimal nachweisbaren Effekt (MDE) oder den erwarteten Anstieg der Conversion Rate schätzen, den Sie mit Ihrem Test erzielen möchten. Wenn Sie sich bei Ihrer Schätzung irren, kann das große Auswirkungen auf Ihre Testgeschwindigkeit haben.

Wenn Sie einen kleinen Effekt festlegen, müssen Sie auf eine große Stichprobengröße warten, um zu wissen, ob Ihre Ergebnisse signifikant sind. Wenn Sie einen größeren Effekt festlegen, laufen Sie Gefahr, kleinere Verbesserungen zu verpassen. Das ist nicht nur ineffizient, es ist auch nicht realistisch. Die meisten Menschen führen Tests durch, weil sie nicht wissen, was passieren könnte, und sich im Voraus auf eine hypothetische Verbesserung festzulegen, ist nicht sehr sinnvoll.

Ein Blick auf Ihre Ergebnisse erhöht Ihre Fehlerquote.

Wenn Daten in Echtzeit in Ihr Experiment einfließen, ist es verlockend, Ihre Ergebnisse ständig zu überprüfen. Sie wollen einen Gewinner so schnell wie möglich implementieren, um Ihr Geschäft zu verbessern, oder einen nicht schlüssigen oder verlorenen Test so früh wie möglich abbrechen, damit Sie weitere Hypothesen testen können.

Statistiker nennen dieses ständige Beobachten "kontinuierliche Überwachung" und es erhöht die Wahrscheinlichkeit, dass Sie ein Gewinnerergebnis finden, obwohl gar keines existiert (natürlich ist die kontinuierliche Überwachung nur dann problematisch, wenn Sie den Test tatsächlich frühzeitig abbrechen, aber Sie verstehen schon). Das Auffinden eines unbedeutenden Gewinners wird als falsches Positiv oder Fehler vom Typ I bezeichnet.

Jeder Test auf statistische Signifikanz, den Sie durchführen, birgt eine gewisse Fehlerwahrscheinlichkeit. Wenn Sie einen Test mit einer statistischen Signifikanz von 95 % durchführen (mit anderen Worten, einen t-Test mit einem Alpha-Wert von 0,05), bedeutet dies, dass Sie eine 5 %ige Chance in Kauf nehmen, dass der Test ein signifikantes Ergebnis liefert, wenn es sich um einen A/A-Test ohne tatsächliche Unterschiede zwischen den Varianten handelt.

Um zu veranschaulichen, wie gefährlich eine kontinuierliche Überwachung sein kann, haben wir Millionen von A/A-Tests mit 5.000 Besuchern simuliert und die Wahrscheinlichkeit eines Fehlers bei verschiedenen Arten von Richtlinien zur kontinuierlichen Überwachung bewertet. Wir fanden heraus, dass selbst konservative Richtlinien die Fehlerraten von einem Targeting von 5% auf über 25% erhöhen können.

In unserer Untersuchung erklärten mehr als 57% der simulierten A/A-Testings mindestens einmal während ihres Verlaufs fälschlicherweise einen Gewinner oder Verlierer, und sei es auch nur kurz. Mit anderen Worten: Wenn Sie diese Tests beobachtet hätten, hätten Sie sich vielleicht gewundert, warum Ihre A/A-Testing-Ergebnisse einen Gewinner genannt haben. Der Anstieg der Fehlerquote ist auch dann aussagekräftig, wenn Sie nicht nach jedem Besucher schauen. Wenn Sie alle 500 Besucher überprüfen, erhöht sich die Chance auf eine Falschaussage auf 26%, während sich die gleiche Chance bei einer Überprüfung alle 1000 Besucher auf 20% erhöht.

AA-test

Diese Grafik des statistischen Signifikanzniveaus eines A/A-Tests im Zeitverlauf zeigt, wo der Experimentator ein signifikantes Ergebnis gesehen hätte, wenn er den Test kontinuierlich überwacht hätte.

Selbst wenn Sie sich dieses Problems bewusst sind, führen vernünftige "Korrekturen" immer noch zu hohen Fehlerquoten. Nehmen wir zum Beispiel an, Sie trauen einem signifikanten Ergebnis für Ihren A/B-Test nicht. Wie viele Optimizely-Benutzer verwenden Sie vielleicht einen Stichprobengrößenrechner, während Ihr Test bereits läuft, um festzustellen, ob Ihr Test lange genug gelaufen ist. Die Verwendung des Rechners zur Anpassung des Stichprobenumfangs während der Test läuft, wird als "Post-Hoc-Berechnung" bezeichnet und mindert zwar das Risiko einer kontinuierlichen Überwachung, führt aber immer noch zu Fehlerquoten, die sich um die 25% bewegen.

Bisher bestand die einzige Möglichkeit, sich vor diesen Fehlern zu schützen, darin, den Stichprobenumfangsrechner zu verwenden, bevor Sie mit dem Test beginnen, und dann zu warten, bis der Test Ihren Stichprobenumfang erreicht hat, bevor Sie Entscheidungen auf der Grundlage Ihrer Ergebnisse treffen.

Die gute Nachricht ist, dass es tatsächlich eine ziemlich einfache und doch elegante statistische Lösung gibt, mit der Sie jederzeit gültige Ergebnisse sehen können, ohne im Voraus auf einen nachweisbaren Mindesteffekt schließen zu müssen. Diese Methode nennt sich sequentielles Testen und wir werden sie später noch ausführlicher besprechen.

Das gleichzeitige Testen vieler Ziele und Varianten führt zu mehr Fehlern, als Sie vielleicht denken.

Ein weiterer Fallstrick der traditionellen Statistik ist das gleichzeitige Testen vieler Ziele und Variationen (dasProblem der"Mehrfachvergleiche" oder "Mehrfachtests"). Dies geschieht, weil die traditionelle Statistik Fehler kontrolliert, indem sie die Falsch-Positiv-Rate kontrolliert. Doch dieser Fehler, den Sie in Ihrer Signifikanzschwelle festgelegt haben, entspricht nicht der Wahrscheinlichkeit, eine falsche Geschäftsentscheidung zu treffen.

Die Fehlerrate, die Sie wirklich kontrollieren wollen, um das Problem der Mehrfachtests zu korrigieren, ist die Falschentdeckungsrate. Im folgenden Beispiel zeigen wir, wie die Kontrolle einer 10 %igen Falsch-Positiv-Rate (90 % statistische Signifikanz) zu einer 50 %igen Chance führen kann, aufgrund einer falschen Entdeckung eine falsche Geschäftsentscheidung zu treffen.

Stellen Sie sich vor, Sie testen 5 Varianten Ihres Produkts oder Ihrer Website, die jeweils 2 Ziele als Erfolgsmetrik haben. Eine dieser Varianten schneidet besser ab als die Basisvariante und wird zu Recht zum Gewinner erklärt. Allein durch Zufall würden wir erwarten, dass eine weitere Variante fälschlicherweise zum Gewinner erklärt wird (10 % der verbleibenden 9 Ziel-Varianten-Kombinationen). Wir haben jetzt 2 Varianten, die zu Gewinnern erklärt werden.

Obwohl wir eine Rate von 10 % falsch positiver Ergebnisse (1 falsch positives Ergebnis) kontrolliert haben, ist das Verhältnis von falschen zu guten Ergebnissen viel höher (50 %), was die Wahrscheinlichkeit einer falschen Entscheidung stark erhöht.

In this experiment, there are two winners out of ten goal-variation combinations tested. Only one of these winners is actually different from the baseline, while the other is a false positive.

In diesem Experiment gibt es zwei Gewinner von zehn getesteten Tor-Varianten-Kombinationen. Nur einer dieser Gewinner unterscheidet sich tatsächlich von der Basislinie, während der andere ein falsches Ergebnis ist.

Die Kontrolle der Falsch-Positiv-Rate ist gefährlich, weil der Experimentator unwissentlich dafür bestraft wird, dass er viele Ziele und Variationen getestet hat. Wenn Sie nicht aufpassen, gehen Sie ein größeres praktisches Risiko ein, als Ihnen bewusst ist. Um dieses Problem beim traditionellen A/B-Testing zu vermeiden, müssen Sie immer die Anzahl der laufenden Experimente im Auge behalten. Ein schlüssiges Ergebnis aus 10 Tests ist etwas anderes als eines aus 2 Tests.

Glücklicherweise gibt es eine prinzipielle Möglichkeit, die Fehlerquote Ihres Experiments an die Fehlerquote anzupassen, die Sie zu erhalten glauben. Stats Engine erreicht dies durch die Kontrolle von Fehlern, die als falsche Entdeckungen bekannt sind. Die Fehlerquote, die Sie in Ihrer Signifikanzschwelle mit Stats Engine festlegen, spiegelt die tatsächliche Chance wider, eine falsche Geschäftsentscheidung zu treffen.

Wie Stats Engine funktioniert

Stats Engine kombiniert innovative statistische Methoden, um Ihnen schneller vertrauenswürdige Daten zu liefern.

Wir haben in den letzten vier Jahren von unseren Kunden von den oben genannten Problemen gehört und wussten, dass es eine bessere Lösung geben musste als einen Stichprobenrechner und weitere informative Artikel.

Wir haben uns mit Statistikern aus Stanford zusammengetan, um einen neuen statistischen Rahmen für A/B-Testing zu entwickeln, der leistungsstark, genau und vor allem mühelos ist. Diese neue Stats Engine besteht aus zwei Methoden: sequenzielle Tests und Kontrolle der Falschentdeckungsrate.

Sequentielles Testen: Treffen Sie Entscheidungen, sobald Sie einen Gewinner sehen.

Im Gegensatz zum Fixed Horizon Testing, bei dem davon ausgegangen wird, dass Sie Ihre Experimentdaten nur zu einem bestimmten Zeitpunkt, bei einer festgelegten Stichprobengröße, auswerten, ist das sequentielle Testen darauf ausgelegt, die Experimentdaten auszuwerten, während sie gesammelt werden. Sequentielle Tests können jederzeit mit gültigen Ergebnissen abgebrochen werden.

Experimentierer haben selten eine feste Stichprobengröße zur Verfügung, und ihr Ziel ist es in der Regel, so schnell wie möglich eine zuverlässige Schlussfolgerung zu erhalten. Stats Engine erfüllt diese Ziele mit einer Implementierung von sequentiellen Tests, die jedes Mal, wenn ein neuer Besucher ein Ereignis auslöst, ein durchschnittliches Wahrscheinlichkeitsverhältnis berechnet - die relative Wahrscheinlichkeit, dass sich die Variation von der Basislinie unterscheidet. Der p-Wert eines Tests stellt nun die Chance dar, dass der Test jemals die von Ihnen gewählte Signifikanzschwelle erreicht. Er ist das Analogon eines traditionellen p-Wertes für eine Welt, in der Ihre Stichprobengröße dynamisch ist. Dies wird als Test der Potenz eins bezeichnet und ist für das Ziel von A/B-Testern besser geeignet als ein traditioneller t-Test.

sequential-testing-graphic

Das bedeutet, dass Sie verlässliche, gültige Schlussfolgerungen erhalten, sobald sie verfügbar sind, ohne dass Sie im Voraus einen minimalen nachweisbaren Effekt festlegen oder warten müssen, bis eine feste Stichprobengröße erreicht ist.

Kontrolle der Falschentdeckungsrate: Testen Sie viele Ziele und Variationen mit garantierter Genauigkeit.

Die Angabe einer Falschentdeckungsrate von 10 % bedeutet, dass "höchstens 10 % der Gewinner und Verlierer keinen Unterschied zwischen der Variation und der Grundlinie aufweisen", was genau der Wahrscheinlichkeit entspricht, eine falsche Geschäftsentscheidung zu treffen.

Mit Stats Engine meldet Optimizely jetzt Gewinner und Verlierer mit einer niedrigen Falschentdeckungsrate anstelle einer niedrigen Falschpositivrate. Je mehr Ziele und Variationen Sie zu Ihrem Experiment hinzufügen, desto mehr korrigiert Optimizely falsche Entdeckungen und wird konservativer bei der Benennung eines Gewinners oder Verlierers. Auch wenn insgesamt weniger Gewinner und Verlierer gemeldet werden (wir haben in unserer historischen Datenbank* etwa 20 % weniger gefunden), kann ein Experimentator sie in voller Kenntnis des damit verbundenen Risikos durchführen.

In Kombination mit sequenziellen Tests bietet die Kontrolle der Falschentdeckungsrate einen genauen Überblick über Ihr Fehlerrisiko, wann immer Sie die Testergebnisse betrachten. Die Kontrolle gibt Ihnen eine transparente Einschätzung des Risikos, dass Sie eine falsche Entscheidung treffen.

Das bedeutet, dass Sie mit garantierter Genauigkeit so viele Ziele und Varianten testen können, wie Sie wollen.

* Bei einer großen, repräsentativen Stichprobe historischer A/B-Tests von Optimizely-Kunden haben wir festgestellt, dass es etwa 20 % weniger Varianten mit einer Falschentdeckungsrate von weniger als 0,1 gab, verglichen mit der Falschpositivrate auf demselben Niveau.

Wie es besser ist

Die Stats Engine von Optimizely reduziert Fehler, ohne die Geschwindigkeit zu beeinträchtigen.

Wir haben 48.000* historische Experimente mit der Stats Engine erneut durchgeführt und die Ergebnisse sind eindeutig: Die Stats Engine liefert genauere und verwertbare Ergebnisse, ohne dass die Geschwindigkeit darunter leidet.

Haben Sie mehr Vertrauen in Ihre Gewinner und Verlierer.

Die Fixed Horizon-Statistiken ermittelten in 36 % der Tests einen Gewinner oder Verlierer (wenn der Test gestoppt wurde). In demselben Datensatz ermittelte Stats Engine in 22 % der Tests Gewinner oder Verlierer.

Stats Engine deckte 39% weniger schlüssige Testergebnisse auf als traditionelle Statistiken. Diese Zahl mag zwar alarmierend sein (und sie hat uns zunächst auch alarmiert!), aber wir haben festgestellt, dass viele dieser abgebrochenen Experimente wahrscheinlich zu früh abgebrochen wurden.

Um zu diesem Ergebnis zu kommen, haben wir eine ähnliche Methode angewandt, wie sie Kunden anwenden, wenn sie den Stichprobenumfangsrechner manipulieren, um festzustellen, ob ein Test nach seinem Start eine Power hat (die Wahrscheinlichkeit, dass Sie einen Effekt entdecken, wenn es ihn tatsächlich gibt) - eine Post-Hoc-Power-Berechnung. Die Durchführung von Tests mit zu geringer Aussagekraft deutet darauf hin, dass die Daten nicht genügend Informationen enthalten, um zwischen falsch-positiven und richtig-positiven Ergebnissen zu unterscheiden. Wenn wir 80 % als Standard für die Aussagekraft verwenden, waren die meisten (80 %) der Experimente, die Stats Engine nicht mehr als aussagekräftig einstufte, zu wenig aussagekräftig, während die meisten (77 %) der Experimente, die Stats Engine beibehielt, aussagekräftig waren.

Stabile Recommendations, denen Sie vertrauen können.

Fixed Horizon Statistics änderte in 44% unserer historischen Experimente die Aussage über Gewinner oder Verlierer. Stats Engine änderte die Erklärungen in 6% dieser Tests.

Mit der Fixed Horizon-Statistik konnten Sie an einem Tag einen Gewinner sehen und am nächsten Tag ein nicht eindeutiges Ergebnis. Die einzige gültige Deklaration war diejenige bei der von Ihnen festgelegten Stichprobengröße. Mit Stats Engine sind die Ergebnisse immer gültig und es ist unwahrscheinlich, dass sie ein schlüssiges Ergebnis ändern.

Mit Stats Engine sank die Falsch-Positiv-Rate von >20% auf <5%.>

Erinnern Sie sich an unsere A/A-Testing-Simulationen (jeder Test wurde mit 5000 Besuchern durchgeführt), als wir die Gefahren des Peepings besprachen. Bei diesen Simulationen haben wir Tests mit einer Signifikanz von 95% durchgeführt und festgestellt:

  • Wenn Sie sich die Ergebnisse nach jedem neuen Besucher des Experiments ansehen, besteht eine 57%ige Chance, einen Gewinner oder Verlierer zu ermitteln.
  • Wenn Sie sich die Ergebnisse alle 500 Besucher ansehen, besteht eine 26%ige Chance, dass Sie eine falsche Aussage treffen.
  • Wenn Sie alle 1000 Besucher nachschauen, liegt die Wahrscheinlichkeit einer Falschaussage bei 20%.
  • Bei sequentiellen Tests (nach jedem Besucher) sinkt diese Fehlerzahl auf 3%.

Wenn wir diese Simulationen mit höheren Stichprobengrößen durchführen (z.B. 10.000 oder sogar 1.000.000 Besucher), erhöht sich die Wahrscheinlichkeit einer Falschaussage mit der herkömmlichen Statistik (je nach Stichprobengröße leicht über 70%), unabhängig davon, wie oft Sie sich Ihre Ergebnisse ansehen. Bei sequentiellen Tests steigt diese Fehlerquote ebenfalls an, ist aber nach oben hin auf 5% begrenzt.

Es gibt keinen Haken: Genaue und verwertbare Ergebnisse müssen nicht auf Kosten der Geschwindigkeit gehen.

Wenn Sie so weit lesen, fragen Sie sich vielleicht: Wo ist der Haken? Es gibt keinen.

Und zwar aus folgendem Grund: Die Wahl einer angemessenen Stichprobengröße bedeutet, dass Sie sich im Voraus für einen minimalen nachweisbaren Effekt entscheiden müssen. Wie bereits erwähnt, ist das eine schwierige Aufgabe. Wenn Sie für jedes Experiment (bevor Sie es durchführen) den MDE innerhalb von 5% des tatsächlichen Auftriebs des Experiments festlegen, wird der sequentielle Test im Durchschnitt 60% langsamer sein.

In der Realität wählen Praktiker jedoch eine MDE, die niedriger sein soll als die beobachteten Hebungen. Er spiegelt die längste Zeit wider, die sie bereit sind, ein Experiment durchzuführen. Mit Stats Engine können Sie Ihren Test schneller aufrufen, wenn der tatsächliche Lift größer ist als Ihr MDE.

Wir haben festgestellt, dass Stats Engine so schnell wie die Fixed Horizon-Statistik läuft, wenn der Lift Ihres A/B-Tests 5 Prozentpunkte (relativ) höher ist als Ihr MDE. Sobald die Verbesserung den MDE um bis zu 7,5 Prozentpunkte übersteigt, ist Stats Engine fast 75% schneller. Bei größeren Experimenten (>50.000 Besucher) sind die Gewinne sogar noch höher und Stats Engine kann bis zu 2,5 Mal so schnell einen Gewinner oder Verlierer nennen.

Die Fähigkeit, Tests in einer angemessenen Zeit durchzuführen, ist eine der schwierigsten Aufgaben bei der Anwendung sequenzieller Tests auf A/B-Testing und Optimierung. Unsere große Datenbank mit historischen Experimenten ermöglicht es uns, Stats Engine auf der Grundlage früherer Informationen abzustimmen. Durch die Nutzung unserer umfangreichen Datenbank mit Experimenten kann Optimizely die theoretischen Vorteile von sequentiellem Testen und FDR-Kontrolle bieten, ohne praktische Kosten zu verursachen.

*Eine Anmerkung zu den Daten: Der von uns getestete Datensatz enthielt Experimente mit einem Median von 10.000 Besuchern. Tests mit einer geringeren Besucherzahl hatten sowohl bei Fixed Horizon Testing als auch bei Stats Engine eine geringere Anzahl von Deklarationen, eine ähnliche Anzahl von geänderten Deklarationen, aber wir sind schneller, wenn es darum geht, Geschwindigkeitsgewinne für sequentielle Tests zu zeigen.

Was dies für jeden Testlauf bis heute bedeutet

Lassen Sie uns eines klarstellen: Herkömmliche Statistiken kontrollieren Fehler mit der erwarteten Rate , wenn sie richtig eingesetzt werden. Das heißt, wenn Sie einen Stichprobenumfangsrechner verwenden und sich an dessen Empfehlungen halten, müssen Sie sich wahrscheinlich keine Sorgen um Tests machen, die Sie in der Vergangenheit durchgeführt haben. Wenn Sie dazu neigen, Geschäftsentscheidungen nur auf der Grundlage primärer Conversion Raten zu treffen, verringert sich auch der Unterschied zwischen Ihrer Falschentdeckungs- und Falschpositivrate. Für Optimizely-Benutzer, die diese Vorsichtsmaßnahmen bereits getroffen haben, bietet Stats Engine einen intuitiveren Arbeitsablauf und reduziert den Aufwand für die Durchführung von Tests.

Wir wissen auch, dass es eine Menge Leute da draußen gibt, die wahrscheinlich nicht genau das getan haben, was der Stichprobengrößenrechner Ihnen sagte. Aber digitale Experimentierer sind ein schlaues und skeptisches Völkchen. Vielleicht haben Sie eine bestimmte Anzahl von Tagen gewartet, bevor Sie die Ergebnisse abgerufen haben, haben länger gewartet, wenn die Dinge verdächtig aussahen, oder haben die Berechnung des Stichprobenumfangs jedes Mal neu durchgeführt, wenn Sie nachgeschaut haben, wie lange Sie noch warten müssen. All diese Maßnahmen tragen dazu bei, die Wahrscheinlichkeit eines Fehlers zu verringern. Ihre Fehlerquote ist zwar wahrscheinlich höher als 5%, aber sie liegt wahrscheinlich auch nicht über 30%. Wenn Sie zu dieser Gruppe gehören, befreit Sie Stats Engine von diesen Praktiken und liefert Ihnen stattdessen genaue Erwartungen über die zu erwartenden Fehlerquoten.

Ein kleiner Schritt für Optimizely, ein großer Sprung für die Online-Optimierung

Optimizely hat es sich zur Aufgabe gemacht, die Welt in die Lage zu versetzen, Daten in Taten umzusetzen. Vor fünf Jahren haben wir den ersten Schritt in diese Richtung getan, indem wir A/B-Testing mit unserem Visual Editor auch für Nicht-Ingenieure zugänglich gemacht haben. Inzwischen haben sich Zehntausende von Unternehmen die Philosophie zu eigen gemacht, Daten in jede Entscheidung einzubeziehen.

Heute wollen wir mit Stats Engine die Branche einen Schritt weiterbringen, indem wir eine weitere Hürde auf dem Weg zu einem datengesteuerten Unternehmen beseitigen. Indem wir jedem die Möglichkeit geben, Ergebnisse mit leistungsstarken Statistiken zu analysieren, wollen wir Unternehmen in die Lage versetzen, noch mehr wichtige Entscheidungen mit Daten zu unterstützen.

Um datengestützte Entscheidungen treffen zu können, ist die richtige Statistik unerlässlich, und wir sind bestrebt, unsere Statistiken weiterzuentwickeln, um unsere Kunden zu unterstützen. Wir können es kaum erwarten, mit Ihnen zusammenzuarbeiten, um das nächste Kapitel der Online-Optimierung zu schreiben.

Wir freuen uns auf Ihr Feedback und Ihre Gedanken zu Statistiken. Lassen Sie uns in den Kommentaren wissen, was Sie denken!

Möchten Sie mehr erfahren? Wir haben eine Reihe zusätzlicher Ressourcen erstellt, die Ihnen helfen, mit Optimizely in Sachen Statistik auf den neuesten Stand zu kommen: