Veröffentlicht am 03. Mai 2018

Blog-Serie über die Fallstricke beim Experimentieren mit Produkten, Beitrag Nr. 1: Die Gefahren des Experimentierens mit den falschen Metriken

Dies ist der erste Beitrag in unserer Blogserie über die Fallstricke des Experimentierens mit Produkten, geschrieben vom Director of Product Management von Optimizely, Jon Noronha. Weitere Informationen zu dieser 5-teiligen Serie finden Sie hier. Höhepunkte: Die Messung der Ergebnisse von Experimenten ist relativ einfach, wenn Sie ein einfaches Ziel wie die Conversion anstreben. Wenn Produktteams die Optimierung für langfristige oder

von Jon Noronha

Höhepunkte:

Die Messung der Ergebnisse von Experimenten ist relativ einfach, wenn Sie ein einfaches Ziel wie die Conversion anstreben.
Wenn Produktteams auf langfristige oder weniger klar definierte Ziele hin optimieren, wie z.B. eine langfristige Kundenbindung oder die Bereitstellung eines großartigen Erlebnisses, kann es schwierig sein, eine konkrete Kennzahl zu finden, die ein unscharfes Ziel abbildet.
Die Lösung? Wählen Sie Metriken, die mit dem Geschäftserfolg korrelieren, iterieren Sie mit Ihren Metriken und scheuen Sie sich nicht, den Kurs zu ändern.

Experimentieren ist eine wirkungsvolle Technik, um Zahlen in die Höhe zu treiben. Solange Sie die richtigen Zahlen wählen, werden Sie einen transformativen Erfolg erleben. Wenn Sie jedoch die falschen Zahlen wählen, lenken Sie Ihr Produkt in genau die falsche Richtung. Mit den falschen Kennzahlen zu experimentieren ist so, als würden Sie sich mit einer sehr starken Waffe direkt in den Fuß schießen.

A/B-Testing ist einfach, wenn Sie eine einzige, ganz einfache Conversion haben, z.B. mehr Leads von einer Landing Page zu bekommen. Viel schwieriger wird es, wenn Sie auf ein subtileres Ziel hin optimieren, z.B. eine langfristige Kundenbindung oder ein optimales Erlebnis für den Benutzer. Je nachdem, welches Ziel Sie wählen, können Sie Ihr Produkt in ganz unterschiedliche Richtungen lenken. Airbnb und Booking.com zum Beispiel haben beide eine ausgeprägte Experimentierkultur, aber das Testen mit unterschiedlichen Kennzahlen hat zu sehr unterschiedlichen Erlebnissen geführt:

Die Schwierigkeit für Teams besteht oft darin, ein unscharfes Ziel mit einer konkreten, messbaren Kennzahl zu verknüpfen. Ich habe dies bei meiner Arbeit an Bing bei Microsoft am eigenen Leib erfahren. Das oberste Ziel unseres Teams war es, eine großartige Suchmaschine zu entwickeln, die glaubhaft mit Google konkurrieren kann. Das ist ein hervorragendes Unternehmensziel, aber es ist an sich keine quantifizierbare Kennzahl. Und doch wollten wir unbedingt eine Testkultur aufbauen, die der von Google ebenbürtig ist. Also suchten wir nach etwas Messbarem, mit dem wir die "Güte der Suchmaschine" und den Marktanteil im Rahmen eines A/B-Tests erfassen konnten.

Unser erster Versuch machte in der Theorie viel Sinn. Um unsere Qualität als Suchmaschine zu erfassen, beschlossen wir, die Gesamtzahl der Suchanfragen auf Bing zu messen. Wenn diese Zahl anstieg, mussten wir etwas richtig machen, denn dann würden mehr Nutzer unser Produkt häufiger verwenden. Damit hatten wir eine Nordstern-Metrik: Wir würden die Nutzer nach dem Zufallsprinzip auf verschiedene Testvarianten verteilen und dann den Gewinner ermitteln, indem wir die Gesamtzahl der Suchanfragen pro einzelnen Nutzer messen.

Wenn man vom Ziel aus rückwärts arbeitet, klingt jeder Schritt in dieser Kette logisch und harmlos. Aber in der Praxis führte dies zu einem Desaster in Zeitlupe.

Und so geschah es: Da die Teams anhand der Anzahl der Suchanfragen pro Benutzer gemessen wurden, begannen wir, Funktionen zu bevorzugen, bei denen Sie mehr suchen mussten, um das gleiche Ergebnis zu finden, und Änderungen zu bestrafen, die Sie mit weniger Sprüngen zur gleichen Antwort führten. Jahrelang hat mein Team fleißig an einer überfüllten Benutzeroberfläche getüftelt, die "verwandte Suchanfragen" und "Probieren Sie dies stattdessen" in den Vordergrund stellte - auf Kosten der eigentlichen Ergebnisse. Jedes Mal, wenn wir die eigentlichen Suchergebnisse weiter weg schoben, sahen wir unsere Experimente als Sieger und feierten sie ausgiebig. Und der Effekt war echt: Die Zahlen stiegen tatsächlich.

Es gab nur einen Haken: Die ganze Zeit über haben wir das eigentliche Problem nicht gelöst. Wenn Menschen eine Suchmaschine benutzen, dann deshalb, weil sie schnell Antworten finden wollen. Ich erinnere mich, wie eines Tages jemand bei Google damit prahlte, dass "wir die einzige Site auf der Welt sind, die versucht, Sie so schnell wie möglich loszuwerden!" Währenddessen haben wir bei Bing die Suche und nicht das Finden optimiert. Dies wurde durch qualitative Untersuchungen bestätigt. Obwohl unsere Kennzahlen stiegen, sagten uns unsere Nutzer nicht mehr, dass sie unsere Suchmaschine liebten. Wenn überhaupt, waren sie eher frustriert und wechselten weiterhin zu Google.

Nach langem Nachdenken veranlasste uns dieses Feedback schließlich, unser gesamtes Experimentieren neu auszurichten. Bei einer weiteren Analyse wurde uns klar, dass wir genau die falsche Kennzahl gewählt hatten, also änderten wir den Gang. Wir setzten uns zum Ziel, die Abfragen pro Sitzung zu reduzieren und stattdessen die Sitzungen pro Benutzer zu optimieren.

Der Leiter der Microsoft-Plattform für Experimentieren, Ronny Kohavi, erklärte dies in einem Artikel für die Harvard Business Review:

Es ist nicht einfach, zu einem OEC [Overall Evaluation Criteria] zu gelangen, wie die Erfahrungen von Bing zeigen. Die wichtigsten langfristigen Ziele von Bing sind die Erhöhung des Anteils an den Suchmaschinenanfragen und die Steigerung der Werbeeinnahmen. Interessanterweise führt eine Verringerung der Relevanz der Suchergebnisse dazu, dass die Nutzer mehr Suchanfragen stellen (und damit den Anteil der Suchanfragen erhöhen) und mehr auf Anzeigen klicken (und damit die Einnahmen steigern). Natürlich wären solche Gewinne nur von kurzer Dauer, da die Menschen schließlich zu anderen Suchmaschinen wechseln würden. Welche kurzfristigen Metriken sagen also langfristige Verbesserungen des Anteils der Suchanfragen und der Einnahmen voraus? In ihrer Diskussion über die OEC kamen die Führungskräfte und Datenanalysten von Bing zu dem Schluss, dass sie die Anzahl der Benutzeranfragen für jede Aufgabe oder Sitzung minimieren und die Anzahl der Aufgaben oder Sitzungen, die die Benutzer durchgeführt haben, maximieren wollten.

Wenn Benutzer Ihre Suchmaschine lieben, besuchen sie sie häufig und verlassen sie so schnell wie möglich, weil sie immer finden, was sie suchen. Die erste Metrik klang zwar richtig, aber erst diese zweite Version erfasste die wirkliche Wirkung, auf die es ankam. Und es ist kein Zufall, dass Bing jetzt eine blühende Experimentierkultur hat und Ende 2015 seine ersten Quartalsgewinne meldete.

Die Lösung

Überlegen Sie bei der Konzeption Ihrer Experimente sorgfältig, welche Kennzahlen Sie verwenden. Stellen Sie sich im Zweifelsfall eine Frage: Wären Sie zufrieden, wenn diese Kennzahl steigen würde und alles andere gleich bliebe? Dies kann Ihnen helfen, eine Kennzahl zu wählen, die mit dem Geschäftserfolg korreliert, und nicht nur eine, die leicht zu verschieben ist. Man kann es auch so formulieren: Welches schlechte Verhalten könnte diese Kennzahl einen Anreiz bieten? Oder anders gefragt: Wie würden meine Nutzer reagieren, wenn sie herausfinden würden, dass dies das Verhalten ist, zu dem ich sie bewegen möchte?

Scheuen Sie sich nicht, diese Metriken regelmäßig neu zu bewerten, denn Sie werden es nie beim ersten Mal richtig hinbekommen. Auch wenn es in einem datengesteuerten Beruf wie Ketzerei klingt: Vertrauen Sie auf Ihr Bauchgefühl! Wenn Sie das Gefühl haben, dass die Metriken Sie in die falsche Richtung führen, überdenken Sie die Metriken und nehmen Sie sich die Zeit, das richtige Ziel zu wählen. Andernfalls wird Sie das Experimentieren direkt von einer Klippe herunterführen.

Wichtigste Erkenntnisse

Um zu vermeiden, dass Sie mit den falschen Kennzahlen experimentieren:

Wählen Sie Metriken, die mit dem Geschäftserfolg korrelieren, und nicht nur solche, die sich leicht verschieben lassen.
Scheuen Sie sich nicht, die Metriken häufig neu zu bewerten und zu Metriken zu iterieren, die für Ihr Team funktionieren.
Wenn Sie das Gefühl haben, dass die Metriken Sie in die Irre führen, vertrauen Sie auf Ihr Bauchgefühl und überdenken Sie Ihre Metrikstrategie. Wenn Sie sich im Vorfeld mehr Zeit für die Auswahl des richtigen Ziels nehmen, sparen Sie langfristig Zeit.

Wenn Sie mehr über das Experimentieren bei Bing erfahren möchten, empfehle ich Ihnen den Artikel Sieben Fallstricke, die Sie beim Durchführen von Online-Experimenten vermeiden sollten. Es ist voller offener Lektionen wie dieser für den Aufbau einer erfolgreichen Experimentierkultur. Sie finden auch weitere Tipps von Optimizely zur Verbesserung wichtiger Kennzahlen.

Über den Autor

Jon Noronha

Lesen Sie auch

Februar 10 | 6 Minuten

10 Vorteile einer B2B-E-Commerce-Website

Artikel aktualisiert am 11.6.21. Die Erwartungen an digitale Erlebnisse sind so hoch wie nie zuvor. Daher finden Sie hier zehn entscheidende Vorteile für...