Publicerad mars 04, 2015

Bayesiansk statistik kontra frekvensstatistik

Precis som en hängbro och en bågbro båda lyckas få bilar över ett gap, ger både Bayesian och Frequentist statistiska metoder ett svar på frågan: vilken variation presterade bäst i en A/B-testning?

Leonid Pekelis
av Leonid Pekelis
a large bridge over water

Statistik är en viktig komponent för att förstå resultaten av dina A/B-test - metoder för att beräkna ett enda tal som avgör om du kan vidta åtgärder för att implementera en variation jämfört med experimentets kontroll. Det finns dock många sätt att komma fram till den siffran. Vilken metod ska du använda?

Två vanliga metoder för att beräkna statistisk signifikans är Frequentist och Bayesian statistik. Historiskt sett har branschlösningar för A/B-testning tenderat att vara frekventistiska. Bayesianska metoder erbjuder dock en spännande metod för att beräkna resultat från experiment på ett helt annat sätt än Frequentist. I statistikvärlden finns det anhängare av båda metoderna - lite som att välja ett politiskt parti.

I januari släppte vi Stats Engine och intog en måttlig ståndpunkt: Du bör kunna dra nytta av Bayesian-element i dina resultat och använda dem för att stödja Frequentist-principer som ger stabilitet och matematiska garantier.

I det här inlägget kommer vi att täcka fördelarna och bristerna med varje metod och varför Optimizely har valt att införliva delar av båda i vår Stats Engine.

Vad är Bayesian och Frequentist Statistics?

Bayesiansk statistik tar en mer bottom-up-strategi för dataanalys. Detta innebär att tidigare kunskap om liknande experiment kodas i en statistisk enhet som kallas en prior, och denna prior kombineras med aktuella experimentdata för att dra en slutsats om det aktuella testet.

a cat sitting on a couch

Å andra sidan gör Frequentist-statistik förutsägelser om underliggande sanningar i experimentet med endast data från det aktuella experimentet. Frequentist-argument är mer kontrafaktiska till sin natur och liknar den typ av logik som advokater använder i domstol. De flesta av oss lär oss frekventistisk statistik i statistikkurser på startnivå. Ett t-test, där vi frågar: "Skiljer sig denna variation från kontrollen?" är en grundläggande byggsten i detta tillvägagångssätt.

Målet med en A/B-testning, statistiskt sett, är att avgöra om de data som samlas in under experimentet kan dra slutsatsen att en variation på en webbplats eller app är mätbart annorlunda än den andra. Bayesianska och Frequentist-metoder kommer att undersöka samma data från experimentet från olika synvinklar. Liksom en hängbro kontra en bågbro ovan strävar de efter att uppnå samma mål. Båda strukturerna tjänar syftet att korsa ett gap, och i fallet med A/B-testning använder både Bayesianska och Frequentist-metoder data från experiment för att svara på samma fråga: vilken variation är bäst?

Vilka är fördelarna med båda tillvägagångssätten?

A/B-testningsplattformar som Optimizely använder Frequentist-metoder för att beräkna statistisk signifikans eftersom de på ett tillförlitligt sätt erbjuder matematiska "garantier" om framtida prestanda: statistiska utdata från ett experiment som förutsäger om en variation faktiskt kommer att vara bättre än baslinjen när den implementeras, med tillräckligt med tid. Till exempel, med Frequentist-garantier, kan vi göra uttalanden som: "Färre än 5% av de implementerade variationerna kommer att se förbättringar utanför deras 95% konfidensintervall."

För mer kunskap om detta ämne, ladda ner e-boken, En praktisk guide till statistik för online-experiment.

Bayesianska tester, å andra sidan, använder sig av tidigare kunskap för att beräkna resultaten av experimentet. Den största fördelen med Bayesianska metoder är att de använder sig av den förkunskap som varje experimentering har. Genom att använda all information som står till förfogande, oavsett om den är aktuell eller tidigare, bör experimentet kunna genomföras så snabbt som möjligt. Förutsatt att de antaganden som görs med hjälp av historiska data för att beräkna den statistiska prioriteten är korrekta, bör detta hjälpa experimenteringarna att snabbare nå statistiskt signifikanta slutsatser.

Bayesianska metoder ger dock inte alltid samma garantier som Frequentist-metoder om framtida prestanda. Om vi automatiskt skulle använda dem som om de gjorde det, tillämpa Frequentist-meningar - som den ovan för konfidensintervall - till Bayesian-beräkningar, kan vi ledas till en felaktig slutsats. Detta beror på risken att tidigare experimentkunskap kanske inte faktiskt matchar hur en effekt genereras i ett nytt experiment, och det är möjligt att ledas vilse om du inte redogör för det.

I en artikel i New York Times från förra året som beskriver tillämpningar av Bayesiansk statistik tar författaren upp ett exempel med att söka efter en försvunnen fiskare. Kustbevakningen kunde använda data om lokal geografi och tidigare sökningar i kombination för att göra förutsägelser om vilka områden som var mer benägna att innehålla den saknade fiskaren. När mer information om den aktuella sökningen dök upp kombinerades dessa uppgifter med kunskap om naturens tidigare beteende för att påskynda sökningen, vilket resulterade i ett lyckligt slut.

Den största fallgropen när det gäller att extrapolera denna framgångssaga till A/B-testning är att införlivandet av tidigare övertygelser som inte stämmer överens med verkligheten kan få exakt motsatt effekt - en felaktig slutsats och en långsammare väg till rätt svar. Ett syfte med A/B-testning är att lära sig av ditt experiment för att göra framtida åtgärder, oavsett om det är att implementera en variation eller köra fler tester. Den förhandsinformation du har idag kanske inte är lika tillämplig i framtiden.

a group of people sitting on a grassy hillDetta är i praktiken som att använda en karta från en labyrint som du tidigare har gått igenom för att navigera i en ny. Det kan hjälpa dig att ta dig igenom labyrinten snabbare, eller så kan det leda dig in på fel väg och ta längre tid att hitta utgången.

I slutändan kommer missförstånd eller felaktig användning av statistik att ge dåliga resultat oavsett vilken typ av statistisk metod som tillämpas (Bayesiansk eller Frequentist.) Det är av den anledningen som starka fundament är avgörande för bra A/B-testning, och varför vi prioriterar att införliva en robust version av denna statistik i vår produkt. Solida statistiska uttalanden och att presentera dem på ett tillgängligt sätt är en större fördel för våra kunder än att pressa ut varje sista droppe effektivitet.

Hur ser framtiden ut för Frequentist- och Bayesian-förespråkare?

Men när vi utvecklade en statistisk modell som mer exakt skulle matcha hur Optimizelys kunder använder sina experimentresultat för att fatta beslut (Stats Engine), blev det klart att den bästa lösningen skulle behöva blanda element från både Frequentist och Bayesian metoder för att leverera både tillförlitligheten hos Frequentist-statistik och hastigheten och smidigheten hos Bayesian.

Detta tillvägagångssätt är i linje med en något mindre välkänd tredje tankeskola inom statistik. Det kallas Empirical Bayes och bygger på principen att statistiska metoder bör införliva styrkorna hos både Bayesian och Frequentist-ideologier, samtidigt som svagheterna hos någon av dem mildras.

I likhet med brokonceptet kombinerar Empirical Bayes båda metoderna för att ge en innovativ lösning på de aktuella frågorna och kan bidra till att undvika svårigheterna med att välja antingen en båge eller en hängbro ensam.

a bridge with lights at night

Genom att kombinera det bästa av en båg- och hängbrokonstruktion skapas en genomgående bågbro, som kan ge det bästa resultatet för en given öppning, som här med Sydney Harbor Bridge.

Faktum är att Optimizely's Stats Engine innehåller en metod direkt från Empirical Bayes tankegång, så att användarna kan testa många mål- och variationskombinationer utan att offra statistisk noggrannhet.

Benjamini-Hochberg-metoden kontrollerar en typ av statistiskt fel som kallas False Discovery Rates (FDR.) FDR är ett mått som tar upp det faktum att du kan göra många fel när du kör flera A/B-testningar samtidigt. Detta är vanligtvis ett problem om du kör multivariata eller A/B/n-experiment med många variationer eller spårar många mål i ett experiment.

Vi beskriver i detalj hur detta tillvägagångssätt fungerar och varför det ger den statistiska felfrekvens som företag faktiskt bryr sig om i vårt blogginlägg om Stats Engine och mer detaljerade tekniska beskrivning. Vi har också nyligen spelat in ett webinar med ett exempel på FDR i aktion för A/B-testning.

Benjamini-Hochberg FDR-metoden för att kontrollera detta fel har visat sig vara framgångsrik enligt både Frequentist och Bayesian-standarder. Förfarandet innehåller inte bara rimligt tidigare data från experimentet, utan ger också de resultat och Frequentist statistiska garantier du kan förvänta dig, oavsett vilket perspektiv du tar.

Den snabba och långtgående acceptansen av Benjamini-Hochberg-strategin i akademiska och medicinska miljöer kan hänföras till det faktum att metoden har övertygat både Bayesians och Frequentists om dess fördelar.

Så tycker vi att alla borde tänka som en Frequentist? En bayesian? En empirisk bayesian? Inte alls. Ska du skynda dig att ta upp färgerna i ett av dessa läger? Naturligtvis inte. Anledningen till att dessa ideologier består är att de på en riktigt grundläggande nivå alla är bra sätt att tänka på att lära sig av dina data.

Vi anser att för att vara en kunnig A/B-testare, precis som en informerad väljare eller en effektiv byggnadsingenjör, är det viktigt att känna till de val som finns tillgängliga för dig. Vi är glada över att inte bara hitta den bästa statistiken som passar det sätt på vilket du använder data för att fatta beslut och vidta åtgärder, utan också ge dig möjlighet att använda dem.

Om författaren