Ordlista för optimering

Statistisk signifikans

Vad är statistisk signifikans?

Statistisk signifikans är ett mått på hur ovanliga resultaten av ditt experiment skulle vara om det faktiskt inte fanns någon skillnad i upplevelse mellan din variation och baslinjen och skillnaden i lyft berodde enbart på slumpen.

Det har blivit allt viktigare för onlineföretag, marknadsförare och annonsörer som kör A/B-testning (t.ex. testning av konverteringsgrader, annonstexter eller ämnesrader i e-post).

Att uppnå statistisk signifikans bidrar till att säkerställa att slutsatser som dras från experiment är tillförlitliga och inte baseras på slumpmässiga fluktuationer i data.

De flesta experiment misslyckas dock med att nå en betydande signifikansnivå. Här är varför:

  • Förändringarna är för små: De flesta förändringar i besökarnas upplevelse har ingen effekt och de når inte klinisk signifikans på grund av urvalsfel.
  • Låg baslinje konverteringsgrad: De flesta datauppsättningar använder mätvärden med låg baslinje som proxy, vilket ofta leder till att testresultaten visar betydande standardavvikelser.
  • För många mål: Ofta fokuserar inte team på viktiga mätvärden som är anpassade till deras hypotes. Detta resulterar i att forskningsresultaten inte når upp till signifikanströskeln.

Varför är begreppet statistisk signifikans viktigt?

Statistisk signifikans hjälper företag att fatta välgrundade beslut baserade på data snarare än slumpmässiga fluktuationer. Den är beroende av två nyckelfaktorer:

  1. Urvalsstorlek: Antalet deltagare i ditt experiment. Större urval ger i allmänhet mer tillförlitliga resultat. För tester på webbplatser innebär mer trafik snabbare och mer exakta resultat.
  2. Effektstorlek: Storleken på skillnaden mellan dina testvariationer. Den visar hur stor inverkan dina förändringar har haft.

Slumpmässig provtagning är avgörande för att överbrygga den statistiskt signifikanta skillnaden och få korrekta resultat. Om du inte distribuerar dina testvariationer slumpmässigt bland din målgrupp kan du införa partiskhet. Ett exempel: Om alla män ser version A och alla kvinnor ser version B kan du inte jämföra resultaten på ett rättvist sätt, inte ens med en 50-50-fördelning. Skillnader i beteende kan bero på kön, inte på dina testvariationer.

Exempel på påverkan i den verkliga världen: I branscher som läkemedelsindustrin kan statistisk signifikans i kliniska prövningar avgöra hur effektivt ett läkemedel är. Detta kan påverka investerarnas finansiering och en produkts framgång eller misslyckande.

Sammantaget hjälper statistisk signifikans dig att skilja mellan verkliga förbättringar och slumpen, vilket leder till bättre affärsbeslut.

Testning av dina hypoteser

Statistisk signifikans används mest praktiskt vid hypotesprövning. Du vill till exempel veta om fler människor kommer att klicka på en knapp på din webbplats om du ändrar färgen från röd till grön. Om din knapp för närvarande är röd kallas det för din "nollhypotes", som har formen av ditt experiments baslinje. Om knappen blir grön kallas det för "alternativhypotesen".

För att fastställa den observerade skillnaden i ett test av statistisk signifikans bör du vara uppmärksam på två utdata: p-värde och konfidensintervall.

  1. P-värde: P-värdet är sannolikheten för att se bevis som är lika starka eller starkare till förmån för en skillnad i prestanda mellan din variation och baslinjen, beräknat med antagandet att det faktiskt inte finns någon skillnad mellan dem och att alla observerade lyft helt beror på slumpen.
  2. Konfidensintervall: Konfidensnivå är ett uppskattat intervall av värden som sannolikt, men inte garanterat, inkluderar det okända men exakta värdet som sammanfattar din målgruppsinriktning om ett experiment replikeras många gånger.

Få alltid giltiga resultat med Stats Engine

Det krävs en strikt uppsättning riktlinjer för att få giltiga resultat från experiment som körs med klassisk statistik: ställ in en minsta detekterbar effekt och urvalsstorlek i förväg, kika inte på resultaten och testa inte för många mål eller variationer samtidigt. Dessa riktlinjer kan vara besvärliga och, om de inte följs noggrant, kan de ge statistikerna kraftigt förvrängda och tvivelaktiga testresultat.

Lyckligtvis kan du enkelt bestämma den praktiska signifikansen av dina experiment med Stats Engine, den avancerade statistiska modellen som är inbyggd i Optimizely. Så här beräknar du den beräknade varaktigheten för ditt experiment:

  • Totalt antal besökare som behövs = Provstorlek × Antal variationer
  • Beräknade dagar att köra = Totalt antal besökare som behövs ÷ Genomsnittligt antal besökare per dag

Stats Engine kombinerar sekventiell testning och kontroll av falsk upptäcktsfrekvens för att ge dig pålitliga resultat snabbare, oavsett urvalsstorlek och typ av data. Uppdatering i realtid, detta tillvägagångssätt möjliggör

  • Övervakning av resultat i realtid
  • Adaptiv testning som anpassar sig till den verkliga effektstorleken
  • Snabbare beslutsfattande utan att offra dataintegriteten

Med Stats Engine bör den statistiska signifikansen i allmänhet öka över tid i takt med att fler bevis samlas in. Dessa bevis kommer i två former:

  • Större skillnader i konverteringsgrad
  • Skillnader i konverteringsgrad som kvarstår över fler besökare

Kolla in den fullständiga rapporten från Stats Engine.

Bästa praxis för att nå statistisk signifikans

När du kör statistiska tester kan du stöta på utmaningar när det gäller att nå statistisk signifikans. Här är några bästa praxis som du kan följa:

  • Kör tester under minst en konjunkturcykel (7 dagar)
  • Välj primära och sekundära mätvärden med omsorg
  • Utforma experiment med betydande potentiell inverkan på användarupplevelsen

Ofta ställda frågor

F1: Varför minskade min statistiska signifikans?

S: Små fluktuationer kan uppstå på grund av data bucketing. Större minskningar kan utlösa en återställning av statistiken om Stats Engine upptäcker säsongsmässighet eller drift i konverteringsgrader, vilket upprätthåller experimentets giltighet.

F2: Hur länge ska jag köra mitt experiment?

S: Kör ditt experiment tills du når statistisk signifikans eller under minst en hel konjunkturcykel, beroende på vilket som är längst.

https://pixel.welcomesoftware.com/px.gif?key=YXJ0aWNsZT1jM2JlMmFkYWVhZGUxMWVlYTdlODhhODFjMzAyNjkxNQ==