Publicerad 21 april

Den enda guide du behöver för att välja en statistisk modell för ditt program för experimentering

En statistisk modell kan påverka tolkningen, hastigheten och robustheten i resultaten av din experimentering. Det bästa tillvägagångssättet beror på detaljerna i experimentet, tillgänglig information och den önskade balansen mellan snabbhet och säkerhet.

chart, histogram

De flesta råd om A/A-testning är helt fel...

Du har säkert hört det...

"Sekventiell testning är alltid bättre."

"Fasta tidshorisonter är guldstandarden."

"Bayesian är framtiden."

Jag har sett företag följa dessa råd och ändå fatta dåliga beslut.

Och sanningen? Det finns ingen metod som passar alla. Ditt statistiska tillvägagångssätt bör matcha din affärsverklighet, inte ett ideal från en lärobok. Det handlar inte om matematisk elegans, det handlar om att anpassa sig till dina specifika affärsbegränsningar, tidslinjebehov och beslutsfattarprocesser.

Idag ska jag visa dig exakt hur du väljer rätt statistiskt tillvägagångssätt för din specifika situation, inga universella proklamationer, bara praktiska beslutsramar som fungerar i den verkliga världen.

Vad den här guiden kommer att handla om

  • Centralastatistiska metoder och när varjemetod är bäst (inte vilken som är "bättre")
  • Verkliga affärseffekter av ditt statistiska val (det "så vad" som spelar roll)
  • Praktiskt beslutsramverk för val av metod (inget mer gissande)
  • Vanliga fallgropar och hur du undviker dem (lär dig av andras misstag)

I slutet av den här guiden kommer du att vara rustad för att göra rätt val för ditt program.

De två skolorna inom statistiskt tänkande

På högsta nivå finns det två grundläggande statistiska filosofier:

1. Frekventistisk statistik

Tolkar sannolikhet som den långsiktiga frekvensen av händelser. När någon talar om "p-värden","statistisk signifikans" eller "95% konfidensintervall" talar de frekventistiskt.

Detta är som att säga: "Om vi körde det här experimentet 100 gånger, skulle vi se det här resultatet eller något mer extremt färre än 5 gånger av ren slump."

Felkontroll i frekventistiska till vägagångssätt fokuserar på att hantera två typer av fel:

  • Typ I-fel (falskt positivt): Att dra slutsatsen att det finns en effekt när det inte finns någon. Som att säga att din nya funktion förbättrade konverteringen när den faktiskt inte gjorde det.
  • Typ II-fel (falskt negativt): Missar en verklig effekt. Som att dra slutsatsen att din funktion inte hade någon inverkan när den förbättrade konverteringen.

I praktiken kontrollerar frekvensister vanligtvis typ I-fel (inställt på 5% i de flesta experiment) medan typ II hanteras genom statistisk effekt (vanligtvis 80%).

2. Bayesiansk statistik

Behandlar sannolikhet som en grad av tro. Istället för att fråga "Vad är chansen att se dessa data om det inte finns någon effekt?" (frequentist), frågar man "Vad är sannolikheten för att det finns en verklig effekt, med tanke på dessa data?"

I Bayesianska termer är det som att säga: "Baserat på vad vi vet och vad vi har observerat är det 80 procents chans att den här varianten är bättre."

Felkontroll i Bayesianska metoder är fundamentalt annorlunda. I stället för att kontrollera felfrekvenser i hypotetiska upprepade experiment uttrycker bayesianerna osäkerhet direkt genom sannolikhetsfördelningar.

I stället för binära beslut med felfrekvenser kan bayesianerna säga t.ex: "Det är 95 procents sannolikhet att den verkliga effekten ligger mellan 2 och 5 procent", vilket ger ett mer intuitivt ramverk för beslutsfattande under osäkerhet.

De tre huvudsakliga metoderna för testning

Låt oss dela upp de viktigaste metoderna och när var och en av dem är bäst:

1. Test med fast tidshorisont: Den traditionella arbetshästen

Vad det är för något: Den statistik du lärde dig i skolan. Du beräknar en urvalsstorlek på förhand, kör tills du når den och tittar aldrig på resultaten förrän i slutet.

När den är som bäst:

  • Vetenskapliga/reglerade miljöer
  • Förutsägbara tidslinjer och trafik
  • Välförståeliga effektstorlekar
  • Kontexter med regelefterlevnad

Påverkan på verksamheten: Som att använda en slägga för att hänga upp en tavla. Pålitlig och effektiv för digital experimentering.

Vetenskapen bakom det: Kontrollerar falska positiva resultat (typ I-fel) till exakt 5 % om du följer reglerna perfekt. Men om du tittar tidigt eller förlänger testet kan din andel falska positiva resultat öka till 20-30% eller i vissa fall till och med 100%.

Ett exempel: Många vetenskapliga studier använder sig av fasta tidsramar, men även starkt reglerade branscher som läkemedelsindustrin införlivar ofta sofistikerade interimsanalyser i sina försöksplaner. Dessa interimsanalyser måste dock vara förplanerade och ta hänsyn till flera tester för att upprätthålla statistisk validitet.

2. Frekventistisk sekventiell: att göra "peeking" giltigt

Vad det är för något: En metod för testning som möjliggör kontinuerlig övervakning med statistiskt giltiga tidiga stopp. Även om vissa sekventiella metoder använder frekventistiska termer (p-värden, konfidensintervall) passar de inte in i det traditionella frekventistiska paradigmet.

När det skiner:

  • Digital experimentering med variabel trafik
  • När du behöver flexibilitet för att stoppa tester tidigt
  • När alternativkostnaderna för att köra onödigt långa tester är höga

Påverkan på verksamheten: Gör att du kan vara mer flexibel med ditt testprogram samtidigt som du upprätthåller statistisk noggrannhet.

Vetenskapen bakom det: Metoder som mSPRT justerar bevisgränserna baserat på hur ofta du kontrollerar resultaten och upprätthåller giltig felkontroll under hela experimentet.

Exempel: Ett e-handelsföretag kan snabbt avbryta ett test när ett nytt flöde för checkout visar att konverteringen sjunker avsevärt, vilket minimerar intäktsförlusten.

Avvägningen: Det tar längre tid att dra slutsatser när det verkligen inte finns någon effekt. Priset för flexibilitet när effekterna är verkliga.

3. Bayesiansk testning: Det intuitiva alternativet

Vad det är för något: En annorlunda metod som tar hänsyn till förkunskaper och direkt anger sannolikheten för att en variant är bättre.

När det är bäst:

  • Begränsade urvalsstorlekar
  • Historiska data tillgängliga
  • Förklara resultaten för intressenter

Påverkan på verksamheten: Mer intuitiva resultat ("80 % chans att variant B är bättre") och potentiellt snabbare beslut med bra förhandsinformation.

Vetenskapen bakom: Kombinerar förhandsuppfattningar med observerade data för att skapa sannolikhetsfördelningar om effektstorlekar. Kvaliteten på dina prioriteter påverkar resultaten dramatiskt.

Exempel: Ett produktteam med omfattande historiska data kan införliva den kunskapen i nya tester och fatta beslut med mindre urvalsstorlekar.

Missuppfattning: Varken bayesianska eller frekventistiska metoder eliminerar falska positiva resultat, de uttrycker osäkerhet på olika sätt och kan identifiera fler "vinnare" eftersom de använder olika felkontrollmekanismer.

Snabbreferens: Välj din metod

Behöver du fatta ett beslut snabbt? Här är din fusklapp:

Tillvägagångssätt När ska du använda Fördelar och Begränsningar
Fast horisont
  • Vetenskapliga/reglerade sammanhang
  • Väl förstådda effektstorlekar
  • Förutsägbara tidslinjer
  • Formella forskningsmiljöer
  • Väletablerad metodik
  • Starka teoretiska garantier
  • Allmänt accepterad inom den akademiska världen
  • Konceptuellt enklare
  • Inget tidigt stopp
  • Ineffektivt för digital experimentering
  • Kan inte justeras för oväntade händelser
  • Allt-eller-inget-strategi
Sekventiell
  • Digital experimentering
  • Behov av snabba beslut
  • Oförutsägbar trafik/tidslinjer
  • Upptäcka både små och stora effekter
  • Funktion för tidiga stopp
  • Kontinuerlig övervakning
  • Effektivitet för stora effekter
  • Flexibilitet för affärsbehov
  • Mer komplex implementering
  • Kräver specialiserade verktyg
Bayesiansk
  • Begränsade urvalsstorlekar
  • Bra förhandsinformation
  • Behov av sannolikhetsutlåtanden
  • Beslutsteoretiska ramverk
  • Intuitiv tolkning
  • Effektivt med bra prioriteter
  • Flexibelt ramverk för beslut
  • Naturlig hantering av osäkerhet
  • Viss beräkningsmässig overhead för standardmodeller
  • Mindre bekant för intressenter som är vana vid p-värden
  • Kan behöva förklaras för team som inte är vana vid Bayesianska koncept
  • Mer beräkningsresurser behövs för komplexa modeller

Beslutsram för ditt statistiska tillvägagångssätt

Glöm att fråga "Vilken metod är bäst?" Det är helt fel fråga.

Ställ istället dessa frågor för att hitta rätt metod för din specifika situation:

1. Vilka är dina affärsmässiga begränsningar?

  • Måste du upptäcka effekter så snabbt som möjligt?
  • Är din urvalsstorlek begränsad?
  • Hur viktig är tolkningsbarheten för icke-tekniska intressenter?
  • Hur avgörande är det att minimera exponeringen för potentiella negativa upplevelser?

2. Vilka datafördelar har du?

  • Har du tillförlitliga historiska data om liknande tester?
  • Hur varierande är dina mätvärden?
  • Hur många mätvärden och variationer testar du samtidigt?
  • Har du domänexperter som kan tillhandahålla informerade priors?

3. Vilka är dina prioriteringar för felkontroll?

  • Är det kritiskt för din verksamhet att begränsa antalet falska positiva resultat?
  • Är falska negativa resultat (missade möjligheter) mer kostsamma?
  • Behöver du sannolikhetsutlåtanden om effekter?
  • Vad är kostnaden för ett felaktigt beslut i endera riktningen?

4. Vad är ditt organisatoriska sammanhang?

  • Behöver du följa etablerade vetenskapliga protokoll?
  • Hur moget är ditt program för experimentering?
  • Vilka verktyg har du till ditt förfogande?
  • Vilken är den statistiska kompetensen hos dina intressenter?

Vanliga misstag som du kan undvika...

Jag har sett team göra samma misstag om och om igen med varje metod. Så här undviker du dem:

1. Testning med fast tidshorisont

  • Tittar på resultat innan du når din förutbestämda urvalsstorlek (detta ogiltigförklarar hela testet)
  • Förlänga tester utöver den planerade urvalsstorleken när resultaten inte är signifikanta ("valfri stoppning" ökar dramatiskt antalet falska positiva resultat)
  • Använda godtyckliga urvalsstorlekar i stället för korrekta effektberäkningar (leder till underdimensionerade eller onödiga tester)
  • Att bortse från affärsmässiga begränsningar till förmån för statistisk renhet (det perfekta är det godas fiende)

2. Sekventiell testning

  • Förväntar sig snabba resultat för tester med minimala eller inga effekter (sekventiell testning tar längre tid när det inte finns någon effekt)
  • Missförstå effektkonsekvenser för tester med små effekter (sekventiella tester har olika effektkarakteristika)
  • Övertro på tidiga resultat utan att beakta affärspåverkan (statistisk signifikans ≠ affärsmässig signifikans)
  • Använda fel sekventiell metod för dina specifika behov (alla sekventiella metoder är inte lika bra)

3. Bayesiansk testning

  • Tänk på priors som din informerade gissning innan du kör testet. Det är som att satsa med tidigare upplevelser i bakfickan.
  • Feltolkning av posteriora sannolikheter i affärssammanhang
  • Försumma känslighetsanalys av dina prioritetsval (hur mycket påverkar dina priors dina slutsatser?)

Ditt val av statistisk metod är dock bara grunden. Det finns tekniker som kan förbättra dina resultat.

  1. Minskning av variansen: Tekniker som CUPED (Controlled-experiment Using Pre-Existing Data) eller avvikelsehantering kan dramatiskt minska den provstorlek som behövs för alla metoder genom att införliva data från före experimentet. CUPED är metodagnostisk och kompatibel med metoder med fast horisont, sekventiella och bayesianska metoder.
  2. Korrigering av multipel testning: Om du testar flera mätvärden eller variationer samtidigt måste du ta hänsyn till den ökade risken för falska positiva resultat.

Det finns två huvudsakliga tillvägagångssätt:

  • Familjevis felprocent (FWER): Den kontrollerar sannolikheten för att göra en enda falsk upptäckt.
  • Falsk upptäcktsfrekvens (FDR): Den kontrollerar den förväntade andelen falska upptäckter bland alla upptäckter.

De olika metoderna har olika syften och innebär olika avvägningar när det gäller statistisk styrka. Nyckeln är att veta vilken som stämmer överens med dina företagsmål.

Optimizely's tillvägagångssätt...

Stats Engine använder en ny algoritm som kallas mixture sequential probability ratio test (mSPRT).

Den jämför efter varje besökare hur mycket mer indikativ data är för någon förbättring / icke-noll förbättring, jämfört med noll / ingen förbättring alls. Detta är variationens/variationernas relativa rimlighet jämfört med baslinjen.

mSPRT är en särskild typ av statistiskt test som förbättrar det sekventiella sannolikhetskvotstestet (SPRT), som först föreslogs av den teoretiska statistikern David Siegmund vid Stanford 1985. Det OG sekventiella sannolikhetskvotstestet från Siegmund var utformat för att testa exakta, specifika värden av lyftet från en enda variation i jämförelse med en enda kontroll genom att jämföra sannolikheten för att det finns en icke-noll förbättring av prestanda från variationen jämfört med noll förbättring av prestanda från baslinjen.

Specifikt medelvärdesbildar Optimizelys mSPRT-algoritm den vanliga SPRT över ett intervall av alla möjliga förbättringar (till exempel alternativa lyftvärden).

Optimizely's statistikmotor använder också en variant av Empirical Bayesian-tekniken. Den blandar det bästa av frekventistiska och bayesianska metoder samtidigt som den alltid giltiga garantin för kontinuerlig övervakning av experimentets resultat bibehålls.

Stats Engine tar mer bevis för att producera ett betydande resultat, vilket gör det möjligt för experimentörer att titta så många gånger de vill under en experimentering. Stats Engine kontrollerar också dina falskt positiva frekvenser hela tiden oavsett när eller hur ofta du tittar, och justerar ytterligare för situationer där ditt experiment har flera jämförelser (dvs. flera mätvärden och variationer).

Att kontrollera False Discovery Rate erbjuder ett sätt att öka kraften samtidigt som man upprätthåller en principiell gräns för fel. Sagt på ett annat sätt är False Discovery Rate chansen att ropa varg över ett oskyldigt resultat.

Därför tillåter Stats Engine kontinuerlig övervakning av resultat med alltid giltiga resultat genom att kontrollera den falska positiva frekvensen hela tiden oavsett när eller hur ofta experimentören tittar på resultaten.

För att sammanfatta...

Det finns inget "bästa" statistiska tillvägagångssätt, bara rätt verktyg för din situation.

De flesta företag behöver inte vara besatta av den perfekta statistiska implementeringen. Det de behöver göra är att:

  1. Välja en metod som passar deras affärsmässiga begränsningar
  2. Implementera den på rätt sätt
  3. Använda den konsekvent
  4. Fokusera på att ställa rätt frågor

Målet är inte statistisk renhet. Det är att fatta bra affärsbeslut på ett effektivt sätt baserat på tillförlitliga bevis.

Kom ihåg att ingen statistisk metod kan rädda dig från ett dåligt utformat experiment eller irrelevanta mätvärden. Den bästa statistiken i världen kan inte åtgärda ett test som inte spelar någon roll för dina användare.

Är du redo att planera ditt nästa experiment?

Prova vår kalkylator för urvalsstorlek för att säkerställa att du samlar in tillräckligt med data för tillförlitliga resultat.