A/A-Testing
Was ist A/A-Testing?
A/A-Testing verwendet A/B-Testing, um zwei identische Versionen einer Experiment-Basislinie gegeneinander zu testen. Der typische Zweck eines A/A-Testings ist die Validierung Ihres Experimentaufbaus.
Genauer gesagt handelt es sich bei einem A/A-Testing um ein Verfahren zur Datenzuverlässigkeit/Qualitätssicherung, mit dem Sie die Durchführung all Ihrer Experiment-Vergleiche bewerten können. Es wird empfohlen, A/A-Testings in halbjährlichen Abständen durchzuführen.
Als allgemeine Faustregel gilt, dass Sie sie vierteljährlich durchführen sollten. In den meisten Fällen sollten die Ergebnisse Ihrer A/A-Kalibrierungstests zeigen, dass die Verbesserung der Conversion zwischen den identischen Ausgangsseiten statistisch nicht beweisbar ist.
Warum identische Seiten testen?
In manchen Fällen möchten Sie die Conversions auf der Seite überwachen, auf der Sie den A/A-Test durchführen, um die Anzahl der Conversions zu verfolgen und die Conversion Rate zu bestimmen, bevor Sie einen A/B-Test oder multivariate Tests durchführen.
In den meisten anderen Fällen ist der A/A-Test eine Methode, um die Effektivität und Genauigkeit der A/B-Testing-Software doppelt zu überprüfen. Sie sollten darauf achten, ob die Software einen statistisch signifikanten (>95% statistische Signifikanz) Unterschied zwischen der Kontrolle und der Variation meldet. Wenn die Software meldet, dass es einen statistisch signifikanten Unterschied gibt, ist das ein Problem. Sie sollten überprüfen, ob die Software auf Ihrer Website oder Mobile App korrekt implementiert ist.
Die Daten des Kalibrierungstests können auch einen Einblick in Ihr Experimentieren geben. Die Verwendung eines A/A-Kalibrierungstests ist eine gute Möglichkeit, Ihre Analyseeinrichtung zu messen. Wenn Sie dieselbe Variante zweimal im selben Experiment ausführen, erhalten Sie einen Benchmark-KPI, an dem Sie sich orientieren können. Die Testdaten sollten zeigen, wie hoch Ihre durchschnittliche Conversion Rate ist.
Was Sie bei A/A-Tests beachten sollten:
Wenn Sie einen A/A-Test durchführen, sollten Sie beachten, dass es immer möglich ist, einen Unterschied in der Conversion Rate zwischen identischen Ausgangsseiten zu finden. Die statistische Signifikanz Ihrer Ergebnisse ist eine Wahrscheinlichkeit, keine Gewissheit. Das ist nicht unbedingt ein schlechtes Zeugnis für die A/B-Testing-Plattform, denn es gibt immer ein Element des Zufalls, wenn es um Tests geht.
Wenn Sie einen A/B-Test durchführen, sollten Sie daran denken, dass die statistische Signifikanz Ihrer Ergebnisse eine Wahrscheinlichkeit und keine Gewissheit ist. Selbst ein statistisches Signifikanzniveau von 95% bedeutet eine Wahrscheinlichkeit von 1:20, dass die Ergebnisse, die Sie sehen, auf einen Zufall zurückzuführen sind. In den meisten Fällen sollte Ihr A/A-Testing ergeben, dass die Conversion-Verbesserung zwischen der Kontrolle und der Variation statistisch nicht beweiskräftig ist - denn die zugrunde liegende Wahrheit ist, dass es keine zu finden gibt.
Wie wirkt sich das A/A-Testing auf die Conversion Rates aus?
Da die verschiedenen Versionen im Experiment nicht verändert werden, sollte es keine Auswirkungen auf die Conversion Rates haben. Wenn die Mehrheit Ihrer A/A-Testing-Ergebnisse einen (signifikanten) Unterschied bei den Conversion Rates zeigen, könnte dies auf ein Problem bei der Durchführung Ihres Experiments hinweisen, z.B. die Überprüfung aller Targeting-Regeln und der Dokumentation. Stellen Sie sicher, dass Sie alle Targeting-Regeln und die Dokumentation überprüfen, um falsch positive Ergebnisse zu vermeiden.
Sollten Sie eine zweite Baseline zu einem A/B-Test hinzufügen und damit einen A/A/B-Test erstellen?
Und was ist mit doppelten Baselines und doppelten Testvariationen, wie bei einem A/B/A/B-Test? Dies sind häufige Fragen. Eine Möglichkeit zur Validierung eines A/B-Tests könnte darin bestehen, dem Experiment ein Duplikat der A-Variante hinzuzufügen.
Aber nein. Das sollten Sie nie und nimmer tun. A/A-Kalibrierungstests müssen in einem separaten Bereich, einem eigenen Experiment, durchgeführt werden. Sie sollten eine breite Verteilung der Ergebnisse von A/A-Kalibrierungstests bewerten , anstatt die Leistung anhand eines einzigen Experiments zu beurteilen, das eine einzelne Baseline mit einer anderen einzelnen Baseline testet.
Wenn Sie mehrere Baselines mit Testvarianten kombinieren, benachteiligen Sie unnötigerweise die Leistung Ihrer Testvarianten. Anders ausgedrückt: Mehrere Baselines in Kombination mit Testvariationen kannibalisieren die Ergebnisse von Experimenten.
Wenn Sie bei einem A/B/A/B-Test mehr Baselines in einem Experiment verwenden, führt das nicht zu einem sichereren oder zuverlässigeren Erlebnis. Darüber hinaus setzen zwei oder mehr Grundlinien in Kombination mit einer beliebigen Anzahl von Testvariationen den Experimentator einem hohen Risiko der Voreingenommenheit aus: Sie geben dem erwarteten Ergebnis zu viel Bedeutung. Optimizely rät davon ab, neben den Testvariationen eine zweite Baseline hinzuzufügen, da es sich dabei oft um einen höchst unangebrachten Versuch von Experimentierern handelt, sich gegen Fehler abzuschirmen.
Warum es wichtig ist, falsch-positive Ergebnisse in A/B-Testing-Tools zu vermeiden
Die Durchführung von Experimenten kann für die Optimierung von Conversion Rates oder für die Beeinflussung anderer geschäftskritischer Metriken von großem Nutzen sein. Wenn Sie sich jedoch nicht darauf verlassen können, dass die Software die Testergebnisse genau nachverfolgt, verfehlt sie den Zweck der Testsoftware. Die Ergebnisse müssen sein:
-
Vertrauenswürdig: Können Sie darauf vertrauen, dass die Testergebnisse genau sind und die Realität widerspiegeln.
-
Genau: Sie müssen sicherstellen, dass die Stichprobengröße groß genug ist und die Ergebnisse stabil sind.
-
Signifikante Ergebnisse: Unterscheiden sich die Ergebnisse für Variante B signifikant und konsistent von denen der Variante A.
A/B-Tests und Software zum Experimentieren, mit der Sie mehr als nur A/B-Tests durchführen können, sollen Marketingfachleuten Vertrauen in ihre Testergebnisse geben. Die Durchführung eines A/A-Tests befasst sich mit den ersten 2 der oben genannten Punkte, so dass Sie wissen, dass die dritten, signifikanten Ergebnisse, genau sind und man ihnen vertrauen kann.
Wie A/A-Testing-Daten Ihrem Analysetool helfen können und umgekehrt
A/A-Tests sind eine hervorragende Möglichkeit, Ihre Analyseeinstellungen zu messen. Wenn Sie dieselbe Variante zweimal im selben Experiment ausführen, erhalten Sie einen Benchmark-Kpi, an dem Sie sich orientieren können. Die Testdaten sollten zeigen, wie hoch Ihre durchschnittliche Conversion Rate ist.
Welche Rolle spielt Ihr Analysetool dabei? Ihr Analysetool, wahrscheinlich Google Analytics, sollte Ihre Conversion Rates bereits verfolgen. Wenn Sie also einen A/A-Test durchführen, um Benchmark-Metriken zu messen, sollten diese dann nicht (fast) identisch sein? Richtig!
A/A-Testing ist eine gängige Praxis, um Tools mit sich selbst, aber auch mit anderen Anbietern zu vergleichen. Wenn Sie bereits wissen, dass Ihre Google Analytics Conversion Raten genau verfolgt werden, sollte Ihr A/A-Testing (fast) das Gleiche zeigen.
Hilfe! Meine A/B-Test-Tools und meine Analysetools zeigen nach einem A/A-Testing unterschiedliche Conversion Rates an
Stellen Sie sicher, dass Sie einige allgemeine Schritte zur Fehlerbehebung durchführen:
-
Überprüfen Sie die Stichprobengröße Ihres Tests. Obwohl dieser Test niemals eine statistische Signifikanz erreichen wird, da es keinen wirklichen Unterschied zwischen den 2 Varianten gibt, ist es dennoch wichtig, den Test mit einer großen Anzahl von Besuchern durchzuführen, um seine Genauigkeit zu überprüfen.
-
Überprüfen Sie die Targeting-Regeln für beide Tools. Da die meisten Regeln für das Experimentieren oben im Seitenkopf ausgeführt werden müssen oder serverseitig ausgeführt werden können und Ihr Analysetool möglicherweise in einem Programm wie dem Google Tag Manager ausgeführt wird, kann es sein, dass die Regeln, auf welchen Seiten beide Tools ausgelöst werden sollen, unterschiedlich sind. Stellen Sie sicher, dass Sie die Einstellungen und die Abdeckung beider Tools testen und überprüfen.
Gute Mindeststichprobengrößen für A/A-Tests
Für A/A-Kalibrierungstests sind nicht immer große Stichproben erforderlich, da Sie in den Varianten eigentlich nichts ändern. Es ist beispielsweise eine ausgezeichnete Idee, einen A/A-Kalibrierungstest auf der Startseite durchzuführen, da diese Seite bei vielen Websites zu den am häufigsten besuchten Seiten gehört undIhnen helfen könnte, Probleme mit Ihrer Einrichtungschnell zu erkennen. Die Verwendung einer unwichtigen Landing Page ist ebenfalls eine Option, aber berücksichtigen Sie immer auch externe Faktoren. Wenn die Besucherzahlen auf dieser Seite stark schwanken, z.B. aufgrund von bezahlten Budgets, ist sie vielleicht nicht die beste Seite, um den Test durchzuführen. Sie suchen nach einer Seite mit stabilen Conversion Rates, mit denen Sie den Test vergleichen können.
Optimizely Experiment Stats Engine und A/A-Testing:
Wenn Sie einen A/A-Test mit Web-/Feature-/Produkt-Experimenten durchführen, können Sie in den meisten Fällen davon ausgehen, dass die Ergebnisse des Tests nicht aussagekräftig sind, d. h., dass der Unterschied in der Conversion zwischen identischen Varianten keine statistische Signifikanz erreichen wird. Die Anzahl der A/A-Tests mit nicht eindeutigen Ergebnissen ist mindestens so hoch wie die in Ihren Projekteinstellungen festgelegte Signifikanzschwelle (standardmäßig 90%).
In einigen Fällen können Sie jedoch feststellen, dass eine Variante eine andere übertrifft oder dass es einen Gewinner für eines Ihrer Ziele gibt. Das schlüssige Ergebnis dieses Experiments ist rein zufällig und sollte nur in 10 % der Fälle eintreten, wenn Sie Ihre Signifikanzschwelle auf 90 % eingestellt haben. Wenn Ihre Signifikanzschwelle höher ist (z.B. 95%), ist die Wahrscheinlichkeit, dass Sie einen schlüssigen A/A-Test finden, noch geringer (5%).
Lernen Sie weiter
Sind Sie bereit, tiefer in die Welt des Experimentierens einzutauchen?
Das empfehlen wir Ihnen: