Veröffentlicht am 08. Mai 2019

Fragen Sie den Experten für Experimentieren: Hören Sie auf, den Umsatz als primäre Metrik zu verwenden

Wenn wir mit unseren Kunden zusammenarbeiten, um ihnen zu helfen, die Ergebnisse und Erkenntnisse eines Experiments zu verstehen, ist eine der wichtigsten Fragen, die wir hören, "Warum erreiche ich keine Signifikanz?" oder, genauer gesagt, "Warum ist dieses Experiment nicht schlüssig?" Wenn ich diese Frage höre, schaue ich mir als erstes an, welche Metriken festgelegt wurden und welche Erfolgskriterien für die Verbesserung der Conversion Rate mit diesen Metriken verbunden sind.

decorative yellow lines on background

Wenn wir mit unseren Kunden zusammenarbeiten, um ihnen zu helfen, die Ergebnisse und Erkenntnisse aus einem Experiment zu verstehen, ist eine der wichtigsten Fragen, die wir hören, "Warum erreiche ich keine Signifikanz?" oder, genauer gesagt, "Warum ist dieses Experiment nicht schlüssig?" Wenn ich diese Frage höre, schaue ich mir als erstes an, welche Metriken in Optimizely eingestellt sind, um den Erfolg eines Experiments zu messen. Und vor allem, was wurde als primäre Erfolgsmetrik festgelegt? Diese primäre Metrik soll diejenige sein, die unter den anderen Metriken des Experiments am stärksten gewichtet wird, um ein Experiment zum Gewinner zu erklären. Das ist nicht anders als bei den meisten Geschäftsentscheidungen! Eine führende Metrik mit unterstützenden richtigen Metriken.

Die Arbeit, um schlüssige Ergebnisse zu finden, beginnt lange vor dem Start Ihres Experiments. Sie beginnt, bevor Sie eine Ergebnisanalyse durchführen. Sie beginnt vor dem Testdesign. Sie beginnt, wenn Sie die Metriken identifizieren, die Sie durch Experimentieren beeinflussen können, und wenn Sie verstehen, wie diese Metriken miteinander interagieren.

Für die Kundenzufriedenheit sind der Umsatz, eine höhere Bindungsrate und die abschließende(n) Conversion(s) die Key Performance Indicators (KPIs), die durch Experimentieren verbessert werden sollen. Aber auch andere Kennzahlen könnten (und sollten) bei einzelnen Experimenten im Mittelpunkt stehen, je nachdem, welches Kundenproblem Sie lösen wollen. Die Metriken unterhalb Ihrer wichtigsten KPIs sind möglicherweise auch diejenigen, die am ehesten mit Ihren Experimenten zu tun haben. Diese Kennzahlen sind die Verhaltensweisen, die Sie am sichersten messen und für ein einzelnes Experiment verbessern können. Wenn Sie die Nadel bei diesen Verhaltensweisen bewegen, wird sich dies auf die wichtigsten KPIs auswirken.

Wenn Sie sich kurzfristig bei allen Experimenten nur auf den Umsatz konzentrieren, verpassen Sie mit Sicherheit Erfolge, Lernerfolge und Möglichkeiten, den Umsatz durch Iteration zu beeinflussen. Sie werden zweifellos Entscheidungen treffen und Experimente als erfolglos bezeichnen, obwohl sie in Wirklichkeit das Nutzerverhalten positiv beeinflussen und sich langfristig auf den Umsatz auswirken. Wenn Sie Ihre Experimente nicht richtig einrichten, um die Auswirkungen dieser Verhaltensweisen aufzudecken, lenken Sie auch davon ab zu lernen, was sich auf den Umsatz auswirkt.

Aber warten Sie. Wir interessieren uns nur für die Umsatzsteigerung durch A/B-Testing. Warum sollten wir den Erfolg nicht am Umsatz messen?

Sie sollten den Umsatz messen! Sie sollten ihn sogar bei jedem Experiment als sekundäre Kennzahl messen, wenn das für Ihr Unternehmen wichtig ist! Und nutzen Sie diese Kennzahl zusammen mit anderen Kennzahlen, um den Erfolg zu ermitteln. Was Sie jedoch nicht bei jedem Experiment kontrollieren können, sind die Auswirkungen, die es direkt auf den Umsatz und den Customer Lifetime Value haben wird.

Ihre Metrikdefinition für ein einzelnes Experiment sollte in diese drei Bereiche passen:

image showing impact of metrics on web experiments

Nehmen wir an, Sie haben ein sinkendes Engagement, einen durchschnittlichen Bestellwert und eine geringere Anzahl aktiver Nutzer auf Ihrer Homepage festgestellt, was ein Problem darstellt, da dies der Haupteinstiegspunkt für Ihre E-Commerce-Website ist. Eine Hypothese, die Sie haben, könnte lauten:

'Wenn unser Produktmarketing-Team ein Karussell anstelle eines statischen Hero Images verwendet, werden wir die Zahl der Käufe erhöhen, weil wir unseren Nutzern beim Einstieg mehr Angebote und Produktbotschaften bieten.'

Sie müssen bedenken, dass zwischen dieser Änderung und der endgültigen Conversion viele Schritte, Nachrichten, Verhaltensweisen und andere Einflüsse (auch außerhalb Ihrer Site!) auf Ihre Nutzer einwirken, die Sie nicht berücksichtigen können. Ein Beispiel: Eine Werbekampagne, die einen Nutzer auf die Homepage gebracht hat, könnte eine Reihe von Nutzern davon abhalten, später zu konvertieren, weil die Botschaften auf dem Weg zum Kauf nicht zueinander passen.

Die Quintessenz ist, dass Ihre primäre Metrik (und die Hauptmetrik in Ihrer Hypothese) immer das Verhalten sein sollte, das der Veränderung am nächsten kommt, die Sie in der von Ihnen eingesetzten Variante vornehmen. Die Hypothese sollte eigentlich lauten:

'Wenn wir ein Karussell anstelle eines statischen Hero Image verwenden, werden wir die Klicks auf die Hero Real Estate und die Aufrufe der Produktseite erhöhen, weil wir unseren Nutzern mehr Angebote und eine neue Produktbotschaft beim Einstieg bieten.'

Stellen wir uns nun ein anderes Szenario vor. Sie haben den oberen Teil Ihres E-Commerce Trichters gut optimiert. Aber beim Checkout haben Sie jetzt Probleme. Ihre Hypothese ist:

Wenn wir die Abschnitte mit den Formularfeldern auf der Checkout-Seite kollabieren lassen, werden wir die Zahl der Käufe erhöhen, weil wir alle Informationen, die wir von den Benutzern benötigen, Above the Fold in den Abschnittsüberschriften anzeigen.

Das lässt sich gut mit dem obigen metrischen Flussdiagramm vergleichen! Da wir mit dem letzten Schritt experimentieren (der einzige Zweck dieser Seite ist die Konvertierung von Nutzern), ist es sinnvoll, die Käufe oder den Umsatz als primäre Kennzahl zu verwenden. Das ist das Verhalten, das Sie durch die Änderungen, die Sie in der Variation vornehmen, am ehesten beeinflussen können.

Aber sollten wir bei unseren Experimenten im oberen Trichter (die weiter vom Kauf oder der endgültigen Conversion entfernt sind) nicht auch Auswirkungen auf den Umsatz erwarten?

"Sollten" ist vielleicht nicht das richtige Wort. Wir hoffen immer, dass sich Ihre vorrangigen Experimente auf den Umsatz auswirken werden. Sie müssen sich nur darüber im Klaren sein, dass Sie nicht bei jedem Experiment die direkte Auswirkung auf den Umsatz mit Sicherheit messen können.

Wenn Sie jedoch die Verhaltensweisen weiterentwickeln können, die Ihre Nutzer näher an die endgültige Conversion heranführen, die den Umsatz ankurbelt, haben Sie Auswirkungen auf den Umsatz. Wenn Sie diese führenden Verhaltensweisen zuerst messen und statistisch signifikante Verbesserungen erzielen, können Sie Ihren Fokus auf Experimente verlagern, die näher am Umsatz liegen.

Das macht Sinn. Aber nochmals. UMSATZ, UMSATZ, UMSATZ.

Zugegeben, fair. Das oben Gesagte ist konzeptionell. Aber wir haben uns alle Experimente mit unseren Kunden angesehen und festgestellt, dass dies tatsächlich der Fall ist! Wir haben festgestellt, dass der monatlich wiederkehrende Umsatz, wenn er in Optimizely als primäre Kennzahlfestgelegt wird , nur in 10 % der Fälle das statistische Signifikanzniveau des Projekts erreicht, verglichen mit allen anderen Zieltypen (Seitenaufrufe, Klick-Ereignisse, benutzerdefinierte Ereignisse), die als primäre Kennzahl festgelegt wurden. Auch wenn wir beim Experimentieren den Umsatz maximieren möchten, haben wir nicht bei jedem Experiment die vollständige Kontrolle darüber, und die Daten aus den Experimenten bestätigen dies.

Die besten Programme messen den Umsatz und andere wichtige Kennzahlen für jedes Experiment, um die zusätzlichen Auswirkungen des Experimentierens auf diese wichtigen KPIs zu verstehen.

Wie sollten Sie die primäre(n) und die sekundäre(n) Kennzahl(en) abwägen, um den Erfolg einzelner Experimente zu bestimmen?

Es hat sich bewährt, bei der Testplanung in der Gruppe zu besprechen, welche Kompromisse Sie bei der Leistung zwischen der Gesamtzahl der primären und sekundären Metrik(en) - in diesem Fall dem Umsatz - einzugehen bereit sind. Es ist interessant zu erfahren, dass dies in der Branche unterschiedlich ist. Einige Programme sehen eine statistisch signifikante Verbesserung der primären Kennzahl als einzigen Erfolgsfaktor für ein Experiment an. Andere Programme verlangen eine statistisch signifikante Verbesserung der sekundären Metriken (z.B. Umsatz, Käufe), damit ein Experiment als Erfolg gewertet wird.

Sie können im Vorfeld einen Entscheidungsrahmen für ein Experiment (oder für das Programm insgesamt) aufstellen, um einen gemeinsamen Ansatz für den Umgang mit diesen Szenarien zu finden. Dieser Rahmen kann sich im Laufe der Zeit ändern, aber er kann die Geschwindigkeit der Entscheidungsfindung und der auf den Ergebnissen basierenden Maßnahmen erhöhen. Wir empfehlen, dies so oft zu verwenden, wie es Debatten über Erfolgskriterien gibt!

images showing goals of successful experiment

Ein Best-in-Class-Entscheidungsrahmen besteht aus zwei wichtigen Teilen: Er hat ein angemessenes Delta der Auswirkungen auf den Umsatz UND akzeptiert oder verwirft, dass ein statistisch signifikanter Gewinn bei der primären Kennzahl notwendig ist. Dies kann ein Delta sein, das sowohl positive als auch negative Grenzen hat. An dieser Stelle kommen die Konfidenzintervallevon Optimizely ins Spiel. Mit den Konfidenzintervallen auf der Optimizely-Ergebnisseite erhalten Sie einen klaren Hinweis darauf, wo die "wahre Verbesserung" bei den Einnahmen liegen wird, wenn Sie den Gewinner implementieren. Achten Sie darauf, dass sich das Intervall nicht auf der Grundlage Ihres angemessenen Deltas erweitert.

Welche anderen Möglichkeiten gibt es, den Erfolg unseres Programms zu messen?

Der am meisten übersehene Teil des Aufbaus eines Programms zum Experimentieren ist die Messung, die man sich selbst auferlegt. Wir nennen diese Maßnahmen 'operative Metriken', die das Gesamtprogramm im Vergleich zu den spezifischen Tests betrachten. Diese Geschäftsmetriken sind Verhaltensweisen, von denen wir wissen, dass sie starke Indikatoren für ein gesundes Programm sind. Wenn wir der Meinung sind, dass unsere Methodik solide ist und zu Erkenntnissen führt, die unser Wissen über unsere bestehenden und neuen Kunden verbessern, sind diese Arten von Metriken gute Erfolgsindikatoren:

  • Velocity - Die Anzahl der gestarteten Experimente pro Woche, Monat, Quartal usw.
  • Conclusive Rate - Der Prozentsatz der Experimente, die einen statistisch signifikanten Zustand erreichen.
  • Gewinnrate - Der Prozentsatz der Experimente, die eine positive statistische Signifikanz erreichen.
  • Lernrate - Der Prozentsatz der Experimente, bei denen ein verwertbares Ergebnis erzielt wurde.
  • Wiederverwendbarkeitsrate - Der Prozentsatz der Experimente, die in andere Initiativen und Geschäftsziele einfließen.
  • Iterationsrate - Der Prozentsatz der Experimente, die als nächster Schritt iteriert werden.

Es gibt noch viele andere operative Kennzahlen, die Sie sich ausdenken können, und diese können durch alle Metadaten, die Sie zu Ihrem Programm aufbewahren (z.B. Art der Variationsstrategie, Quelle der Idee usw.) aufgeschlüsselt werden, um die Auswirkungen des Programms auf Ihr Unternehmen in einem bestimmten Zeitraum zu veranschaulichen.

Denken Sie daran...

Jedes Experiment ist anders! Vielleicht folgen Sie diesen Grundsätzen nicht genau, aber Ihr Programm sollte einen starken und konsistenten Standpunkt zur Definition der primären Metriken haben, um die Ergebnisse und Erkenntnisse Ihrer Experimente besser zu verstehen. Lassen Sie uns wissen, wie Sie die Sache anders angehen, was Sie bei der Definition Ihrer Experiment-Metriken als erfolgreich empfunden haben und wie Sie die Auswirkungen auf den Umsatz analysiert haben!