Veröffentlicht am 23. Dezember 2024

Lassen Sie uns über Metriken zum Experimentieren sprechen: Die neuen Regeln für die Skalierung Ihres Programms (In 2025)

Es gibt einen Grund dafür, dass manche Programme zum Experimentieren skalieren, während andere stagnieren. Der Unterschied liegt nicht in den Tools oder Talenten, sondern in den Kennzahlen, die sie messen.

von Mark Wakelin

Es gibt einen Grund, warum manche Programme zum Experimentieren skalieren, während andere stagnieren.

Letzten Monat habe ich mich mit einem VP für Digitales bei einem Fortune 500-Einzelhändler zusammengesetzt, der vor einer bekannten Herausforderung stand. Ihre Erfolgsquote? Über dem Branchendurchschnitt. Ihre Testgeschwindigkeit? Wächst von Quartal zu Quartal. Doch bei der vierteljährlichen Überprüfung stellte der CEO eine Frage, die das Unternehmen kalt ließ:

Wir führen mehr Tests durch als je zuvor, aber warum führt dies nicht zu einer Verbesserung unseres Ergebnisses?

Die meisten Programme zum Experimentieren scheitern, weil sie:

Oberflächliche Erfolge feiern (Sehen Sie, die Änderung der Tastenfarbe hat funktioniert)
Die Geschwindigkeit der Tests ohne die Auswirkungen verfolgen (Wir haben in diesem Quartal 50% mehr Tests durchgeführt)
Eitelkeitsmetriken sammeln (Unsere Gewinnrate liegt über dem Branchendurchschnitt)

Die Festlegung der richtigen Metriken ist eine ständige Herausforderung, bei der wir unseren Kunden helfen, insbesondere wenn sie versuchen, ihre Programme zum Experimentieren zu skalieren.

Lesen Sie in diesem Blog:

Welche Metriken tatsächlich das Programmwachstum vorhersagen
Wie führende Programme einen massiven ROI nachweisen (ohne das System zu manipulieren)
Ein praktischer Rahmen für die Entwicklung Ihrer Kennzahlen bei der Skalierung Ihres Programms
Die versteckten Metriken mit hoher Wirkung, die die meisten Programme übersehen

Gute Metriken zählen nicht nur, sie erzählen Geschichten, die das Wachstum fördern.

Häufige Fehler bei den Kennzahlen, die Sie vermeiden sollten

Drei häufige Muster, die die Skalierung großer Programme verhindern:

1. Die Besessenheit von der Gewinnrate

Programme feiern oft Erfolgsquoten, aber wenn man genauer hinsieht, handelt es sich bei diesen "Erfolgen" meist um kleine Verbesserungen mit minimalen Auswirkungen auf das Geschäft. Die Daten sagen uns, dass nur 12% der Experimente erfolgreich sind.

Win rate across industry

Quelle: Optimizely Evolution of Experimentieren Report

Sicher, die Erfolgsquote ist wichtig - vor allem, wenn Sie versuchen, zu Beginn Ihres Programms die Akzeptanz zu gewinnen. Aber um Ihr Programm auf die nächste Reifestufe zu bringen, müssen Sie darüber hinausgehen und anfangen, den Wert des Experimentierens als Uplift zu betrachten und die Gewinnraten in erwartete Auswirkungen pro Test umzurechnen.

Hätten Sie zum Beispiel lieber Tests, die in 10 % der Fälle erfolgreich sind, aber einen Uplift von einer Million Dollar bringen? Oder Tests, die in 50 % der Fälle erfolgreich sind, aber nur 100 Dollar an zusätzlichen Einnahmen bringen? (Diese Frage müssen Sie nicht wirklich beantworten.)

Jedes Experiment ist wertvoll - Tests, die nicht erfolgreich sind, verhindern schädliche Veränderungen, während nicht eindeutige Ergebnisse Ressourcen in Bereichen mit geringer Auswirkung sparen.

2. Die Geschwindigkeitsillusion

Die Anzahl der Tests allein sagt nichts über den Erfolg eines Programms aus. Die meisten erfolgreichen Programme führen nicht nur mehr, sondern auch bessere Tests durch. Sie:

Testen eine größere Anzahl von Varianten gleichzeitig
Sie verlagern sich nicht nur auf die Geschwindigkeit, sondern auch auf größere Änderungen und Auswirkungen
Sie nehmen größere Codeänderungen vor, die sich stärker auf das Erlebnis der Benutzer auswirken.

3. Das Problem der Oberflächenmetriken

Die meisten Programme verfolgen Dutzende von Metriken, haben aber Schwierigkeiten, Fragen zur Auswirkung auf das Geschäft zu beantworten.

Sie messen alles, nur nicht das, was wichtig ist:

Sie verfolgen Klicks, aber nicht die Auswirkungen auf die Customer Journey
Zählen von Seitenaufrufen, aber nicht die Kaufabsicht
Sie messen das oberflächliche Engagement, aber nicht das tiefe Benutzerverhalten.

FAQ: Welche häufigen Fehler machen Experimentier-Teams bei der Auswahl von Metriken?

Bei der Auswahl von Metriken werden häufig zwei kritische Fehler gemacht:

Falsch ausgerichtete Trichter-Metriken: Die Verwendung nachgelagerter Metriken (wie Umsatz) zur Bewertung vorgelagerter Änderungen (wie Homepage-Engagement) kann zu irreführenden Schlussfolgerungen führen.

Überlastung mit Metriken: Die Einbeziehung zu vieler Metriken führt zu einer Entscheidungslähmung. Konzentrieren Sie sich auf die Kernmetriken und die seitenbezogenen Metriken, die in Ihrem Testplan definiert sind.

Art der Metriken

Über 90% der Experimente zielen auf 5 gängige Metriken ab:

CTA-Klicks
Umsatz
Checkout
Registrierung
Hinzufügen zum Einkaufswagen

Allerdings haben 3 dieser Top-5-Kennzahlen eine relativ geringe erwartete Wirkung.

Abbildung: Metriken nach Einflussanteil

Es ist klar, dass Metriken mit hoher Wirkung übersehen werden. Obwohl sie nur in 1 % der Fälle getestet wird, weist die Suchoptimierung mit 2,3 % den höchsten erwarteten Einfluss auf.

Kunden, die suchen, konvertieren 2-3x mehr als Browser
Suchmuster offenbaren unmittelbare Umsatzchancen
Null-Ergebnis-Suchen zeigen Produktlücken auf

Metriken zur Reise

Eine weitere Möglichkeit, Ihr Experimentieren zu skalieren, besteht darin, die gesamte Customer Journey zu messen, anstatt sich auf die Metriken einzelner Seiten zu konzentrieren.

Denken Sie an Ihre eigene Produktreise. Ein Kunde trifft seine Entscheidung selten auf der Grundlage einer einzigen Seite oder Funktion. Er durchläuft eine Reihe von Interaktionen, von denen jede auf der letzten aufbaut. Dennoch optimieren die meisten Programme diese Berührungspunkte immer noch isoliert.

Ein großes SaaS-Unternehmen, mit dem wir zusammenarbeiten, ist kürzlich dazu übergegangen, nicht mehr nur die Conversion Rate seiner Preisseite zu optimieren, sondern die gesamte Consideration Journey zu messen. Ihr "erfolgreicher" Test der Preisseite führte in Wirklichkeit zu Reibungsverlusten weiter unten im Trichter. Durch die Umstellung auf die Messung der Customer Journey konnte das Unternehmen seine Conversion Rate steigern.

Wichtige Metriken zur Customer Journey, die Sie berücksichtigen sollten:

Seitenübergreifende Interaktionsmuster, die Aufschluss darüber geben, wie Benutzer tatsächlich durch Ihr Produkt navigieren
Abbruchpunkte in komplexen Abläufen, insbesondere bei mehrstufigen Prozessen wie Checkout oder Onboarding
Änderungen im Verhalten wiederkehrender Besucher, die langfristige Auswirkungen auf das Engagement signalisieren
Multi-Touchpoint-Attribution, um zu verstehen, welche Kombinationen zur Conversion führen

Zusammengesetzte Metriken

Sie können Metriken auch auf unerwartete Weise kombinieren. Anstatt die Warenkorbabbruchrate isoliert zu betrachten, können Sie sie mit Daten zum Customer Lifetime Value kombinieren. Potenzielle Kunden vergleichen oft Optionen, bevor sie sich für etwas Größeres entscheiden.

Hier finden Sie Beispiele für die Kombination von Kennzahlen, um mehr Wirkung zu erzielen:

Kundenakquisitionskosten in Verbindung mit dem Customer Lifetime Value zeigen den wahren ROI des Experimentierens.
Die Akzeptanz von Funktionen in Kombination mit Metriken zur Kundenbindung zeigt, welche Produktänderungen Bestand haben.
Die Analyse der Preissensibilität in Verbindung mit der Kaufhäufigkeit zeigt Ihnen die wertvollsten Optimierungsmöglichkeiten auf.

Denken Sie daran, dass die primären Metriken je nach Branche variieren, da sie sich in Bezug auf Ziele, Prioritäten und Funktionen zur Nachverfolgung unterscheiden.

Metrics share by industry

Quelle: Optimizely Evolution of Experimentieren Bericht

FAQ: Welche Metriken verfolgen unsere erfolgreichsten Unternehmenskunden?

Der Erfolg des Experimentierens hängt von zwei Arten von Metriken ab: Kerngeschäftsmetriken, die die Gesamtleistung widerspiegeln, und hypothesenspezifische Metriken, die auf jedes Experiment zugeschnitten sind.

Eine E-Commerce Site würde beispielsweise die gesamte Conversion als Kernkennzahl verfolgen und gleichzeitig die Interaktionen in der Suchleiste für ein auf die Suche ausgerichtetes Experiment messen.

Mehr Tests = mehr Wert. Selbst die Daten sagen, dass das nicht stimmt.

Ist es wirklich so einfach wie mehr Tests = mehr Wert?

Wenn Sie Ihr Programm zum Laufen bringen, z.B. in den ersten 12-18 Monaten, ja - führen Sie so viele Tests wie möglich durch. Das wird Ihnen helfen, eine Datenbank mit Erfolgsgeschichten aufzubauen, mit dem Ziel, mehr Ressourcen zu gewinnen und eine Experimentierkultur zu etablieren.

Wenn Sie die nächste Stufe erreichen, geht es jedoch nicht unbedingt darum, die Geschwindigkeit zu erhöhen. Es geht darum, sich auf die Komplexität zu konzentrieren und über kosmetische Änderungen hinauszugehen. Winzige Änderungen führen in der Regel zu winzigen Steigerungen. Unsere Untersuchungen haben gezeigt, dass die Experimente mit dem höchsten Uplift zwei Dinge gemeinsam haben:

Sie nehmen größere Änderungen am Code vor, die sich stärker auf das Erlebnis der Benutzer auswirken.
Sie testen eine größere Anzahl von Varianten gleichzeitig.

Komplexere Experimente, bei denen größere Änderungen am Erlebnis vorgenommen werden, z.B. Preisgestaltung, Rabatte, Checkout-Flow, Datenerfassung usw., führen mit höherer Wahrscheinlichkeit zu höheren Uplifts.

Die Rolle der Analytik

Um Metriken für die Reise zu verfolgen und zusammengesetzte Metriken zu erstellen, müssen Ihre Daten zusammenarbeiten. Die meisten Programme zum Experimentieren stehen jedoch vor einem grundlegenden Hindernis, da ihre Daten in Silos leben. Webanalysen an einem Ort, Kundendaten an einem anderen und die Ergebnisse des Experimentierens an einem ganz anderen.

An diesem Punkt ändert die Warehouse-native Analytik das Spiel.

Testen Sie gegen jede Kennzahl in Ihrem Warehouse, vom Umsatz bis zum Lifetime Value, ohne komplexe Datenpipelines.
Beantworten Sie anspruchsvolle Geschäftsfragen in Minuten, nicht in Tagen. Generieren Sie Kohorteneinblicke im Handumdrehen.
Führen Sie mit der Stats Engine Experimente über das Internet, E-Mail und CRM durch, die alle an einem Ort analysiert werden.
Behalten Sie sensible Daten in Ihrem Warehouse, während Sie anspruchsvolle Experimente durchführen.
Beenden Sie Metrikdebatten, indem alle mit denselben Warehouse-Daten arbeiten.

Sehen Sie, warum Warehouse-native Analysen die Gegenwart und Zukunft des datengesteuerten Experimentierens sind.

Außerdem sollten Ihre analytischen Funktionen über die reine Konsolidierung von Daten hinausgehen. Die Liste umfasst:

Heatmapping: Gehen Sie über die einfache Klickverfolgung hinaus, um zu verstehen, wie sich die Kundeninteraktionen über Ihre gesamte Customer Journey hinweg in Umsatz umwandeln.
Benutzerdefinierte Ereignisse: Lösen Sie sich von vordefinierten Ereignissen und verfolgen Sie jedes Benutzerverhalten, das für Ihr Unternehmen wichtig ist, einschließlich komplexer Interaktionssequenzen und mehrstufiger Conversions.
Multi-Touchpoint-Attribution: Verstehen Sie, wie sich Experimente auf die gesamte Customer Journey auswirken, verfolgen Sie geräteübergreifende Pfade und messen Sie die Auswirkungen einer verzögerten Conversion.
Statistische Signifikanz: Führen Sie ausgefeilte Analysen durch, ohne Abstriche bei der Geschwindigkeit zu machen, und nutzen Sie automatisierte Tests und sequenzielle Analysen, um schnellere und präzisere Entscheidungen zu treffen.

Mit diesen Funktionen wird Ihre Analyse-Engine von einem passiven Berichtssystem zu einem aktiven Generator von Erkenntnissen.

FAQ: Welche analytischen Integratoren bringen den größten Nutzen?

Zwei wichtige Integratoren:

Warehouse Native Analytics ist eine hervorragende Integration für Longtail-Kennzahlen (wie z.B. die Rücklaufquote) oder Ihre Kernkennzahlen, die sich in Ihrem Data Warehouse befinden.

Integrationen in die Verhaltensanalyse (z.B. Google Analytics) ermöglichen die Erforschung anderer Metriken, die von Ihrer Hypothese beeinflusst wurden, aber nicht Teil der Erfolgskriterien waren. Ein Beispiel hierfür wäre die Feststellung, dass Ihre Navigationsinteraktionen zurückgegangen sind, wenn Ihr Experiment darin bestand, die Suchleiste in Ihrer Kopfzeile stärker hervorzuheben.

Auswahl von Metriken in verschiedenen Programmphasen

Jedes erfolgreiche Experimentieren durchläuft verschiedene Phasen. Im Folgenden erfahren Sie, wie Sie Ihre Metrikstrategie in jeder Phase weiterentwickeln und erkennen, wann Sie bereit sind, eine höhere Stufe zu erreichen.

1. Frühe Phase: Aufbau der Grundlage

In dieser Phase geht es in erster Linie darum, zu beweisen, dass das Experimentieren funktioniert. Sie können mit zwei oder drei Kernmetriken und einem einfachen Dashboard beginnen.

Experimentation metrics checklist

Schwerpunktbereiche:

Grundlegende Metriken zur Conversion, die direkt mit dem Umsatz verbunden sind
Testgeschwindigkeit zum Nachweis der Programmdynamik
Einfache Gewinn/Verlust-Kennzahlen für die Kommunikation mit den Stakeholdern

Erfolgsindikatoren:

Konsistente statistische Signifikanz der Ergebnisse
Klare Dokumentation der Erkenntnisse aus den Tests
Einfache ROI-Berechnungen für wichtige Erfolge
Wachsendes Interesse der Stakeholder an den Ergebnissen

Beispiel: Conversion Rate, Testgeschwindigkeit, einfache Gewinn/Verlust-Verhältnisse

2. Wachstumsphase: Ausweitung der Wirkung

Dies ist der Punkt, an dem Ihr Programm beginnt, sinnvolle geschäftliche Veränderungen zu bewirken. Die Metriken, die Sie hierher gebracht haben, reichen nicht aus, um die nächste Stufe zu erreichen.

Wichtige Übergänge:

Gehen Sie vom Zählen der Tests zum Messen der Auswirkungen auf das Geschäft über
Verfolgen Sie den Umsatz pro Experiment
Führen Sie auf der Reise basierende Metriken ein
Gewinnen Sie tiefere Einblicke in das Nutzerverhalten

Warnzeichen, dass Sie nicht weiterkommen:

Zu viele kleine, oberflächliche Tests
Schwierige Verbindung zwischen Ergebnissen und Umsatz
Begrenzter Einblick in die User Journeys
Stakeholder stellen den Wert des Programms in Frage

Beispiel: Umsatzsteigerung, Auswirkung auf die Customer Journey, Conversion Rates mit mehreren Berührungspunkten

3. Fortgeschrittenes Stadium: Strategischer Treiber

In dieser Phase wird das Experimentieren zu einem zentralen Geschäftsfaktor. Ihre Metriken müssen diese strategische Rolle widerspiegeln.

Zu den fortgeschrittenen Metriken gehören:

Zusammengesetzte Metriken, die verborgene Chancen aufdecken
Teamübergreifende Lerngeschwindigkeit
Messungen der Ressourceneffizienz
Strategische Risikovermeidungsraten

Beispiel: Lerngeschwindigkeit, Ressourceneffizienz, strategische Risikovermeidungsrate

Leitfaden zur Implementierung

Fünf To Do's zur Bewertung Ihrer Kennzahlen:

Stellen Sie Ihre Metrik-Hierarchie dar: Unterscheiden Sie zwischen Input-Metriken (Benutzeraktionen) und Output-Metriken (Geschäftsergebnisse). Ein Einzelhandelskunde entdeckte, dass seine "erfolgreichen" Tests zwar die Klicks optimierten, aber die Käufe beeinträchtigten. Mehr darüber, wie Sie Ihre KPIs maximieren können.
Hinterfragen Sie jede Kennzahl: Fragen Sie bei jeder Kennzahl: "Warum gibt es diese Kennzahl?". Ein B2B-Kunde reduzierte seine Metriken von 47 auf 10 Kernmessungen und konnte feststellen, dass sich das Engagement der Stakeholder verdoppelte.
Prüfen Sie Ihre Datenquellen: Prüfen Sie, woher die Daten für jede Kennzahl stammen und wie sie erhoben werden. Häufige Fallstricke sind isolierte Daten und inkonsistente Verfolgung.
Überprüfen Sie die statistische Qualität: Überprüfen Sie Stichprobengrößen und Signifikanzraten. Warten Sie zu lange auf Ergebnisse oder treffen Sie Entscheidungen zu schnell?
Überprüfen Sie die geschäftliche Ausrichtung: Verbinden Sie jede Kennzahl mit einem bestimmten Geschäftsziel. Entfernen Sie Metriken, die keinen direkten Einfluss auf Entscheidungen haben.

So ging Carl Ras von der Verfolgung grundlegender Conversion-Kennzahlen zur Messung kompletter Customer Journeys über und entdeckte dabei unerwartete Zusammenhänge zwischen Produktentdeckung und Kaufverhalten. Das Ergebnis war ein Anstieg der Online-Verkäufe um 35% und ein 10% höherer durchschnittlicher Bestellwert.

Checkliste für die Implementierung von Metriken:

1. Schaffen Sie die Grundlage für Ihre Metriken

Wählen Sie 2-3 primäre Output-Kennzahlen
Definieren Sie unterstützende Input-Kennzahlen
Legen Sie klare Überwachungsschwellenwerte fest

2. Ermöglichen Sie teamübergreifenden Erfolg

Erstellen Sie gemeinsame Dashboards
Etablieren Sie Überprüfungsprozesse
Verfolgen Sie teamspezifische Auswirkungen

Drei wichtige Erkenntnisse auf einen Blick

Abschließend möchte ich Ihnen drei wichtige Erkenntnisse mit auf den Weg geben:

Die Verankerung einer Hypothese in Daten und die Messung der richtigen Metriken
beeinflussen die Art und Weise, wie Teams Ideenfindung und Design betreiben. Gehen Sie zur Messung der Customer Journey über, die das gesamte Erlebnis des Kunden erfasst.
Konzentrieren Sie sich auf zusammengesetzte Metriken, die verschiedene Datenpunkte kombinieren, um tiefere Einblicke zu erhalten, z.B. die Verknüpfung von Kundenakquisitionskosten und Lifetime Value.
Passen Sie die Metriken an die Reife Ihres Programms an. Beginnen Sie mit den wichtigsten Conversions, erweitern Sie dann die Metriken zur Customer Journey und gehen Sie schließlich zu strategischen Messungen über, die die Geschäftsentscheidungen vorantreiben.

All dies ist nur ein kleiner Vorgeschmack. Lesen Sie mehr über Experimente, Erkenntnisse, Techniken und Beispiele für die Skalierung eines erfolgreichen Experimentierprogramms.

Über den Autor

Mark Wakelin

Senior Consultant, Strategy and Value, Optimizely

Senior Consultant, Strategy and Value

Lesen Sie auch

März 25 | 8 Minuten

Wie du KI schon heute in der Produktentwicklung einsetzen kannst, ohne deinen bestehenden Prozess zu unterbrechen

Produkte werden oft ohne große Tests oder einfach zu spät auf den Markt gebracht. Hier erfährst du, wie der Produktentwicklungsprozess mit den kontinuierlichen...