A/A-testning
Vad är A/A-testning?
A/A-testning använder A/B-testning för att testa två identiska versioner av en baslinje för ett experiment mot varandra. Det typiska syftet med att köra en A/A-kalibreringstestning är att validera din experimentuppställning.
Mer specifikt är en A/A-testning en procedur för datatillförlitlighet/kvalitetssäkring för att utvärdera genomförandet av alla dina experimentjämförelser. Vi rekommenderar att du utför A/A-kalibreringstester med jämna mellanrum.
Den allmänna tumregeln är att göra dem kvartalsvis. I de flesta fall bör majoriteten av resultaten från dina A/A-kalibreringstester visa att förbättringen av konverteringen mellan de identiska baslinjesidorna är statistiskt osäker.
Varför testa identiska sidor?
I vissa fall kanske du vill övervaka konverteringen på sidan där du kör A/A-testningen för att spåra antalet konverteringar och fastställa baslinjens konverteringsgrad innan du påbörjar en A/B-testning eller en multivariat testning.
I de flesta andra fall är A/A-testet en metod för att dubbelkontrollera effektiviteten och noggrannheten i programvaran för A/B-testning. Du bör kontrollera om programvaran rapporterar att det finns en statistiskt signifikant (>95% statistisk signifikans) skillnad mellan kontroll och variation. Om programvaran rapporterar att det finns en statistiskt signifikant skillnad är det ett problem. Du bör kontrollera att programvaran är korrekt implementerad på din webbplats eller i din mobilapp.
Data från kalibreringstest kan också ge insikt i ditt program för experimentering. Att använda ett A/A-kalibreringstest är ett bra sätt att mäta din analysuppsättning. Om du kör samma variant två gånger i samma experiment kan du få ett riktmärke KPI att spåra mot. Testdata bör visa vad din genomsnittliga konverteringsgrad till beat är.
Saker att tänka på med A/A-testning:
När du kör en A/A-testning är det viktigt att notera att det alltid finns en möjlighet att hitta en skillnad i konverteringsgrad mellan identiska baslinjesidor. Den statistiska signifikansen av dina resultat är en sannolikhet, inte en säkerhet. Detta är inte nödvändigtvis en dålig reflektion över A/B-testningsplattformen, eftersom det alltid finns ett element av slumpmässighet när det gäller testning.
När du kör en A/B-testning ska du komma ihåg att den statistiska signifikansen av dina resultat är en sannolikhet, inte en säkerhet. Även en statistisk signifikans på 95 % innebär en chans på 1 av 20 att de resultat du ser beror på slumpen. I de flesta fall bör din A/A-testning rapportera att förbättringen av konverteringen mellan kontrollen och variationen är statistiskt inkonklusiv - eftersom den underliggande sanningen är att det inte finns någon att hitta.
Hur påverkar A/A-testning konverteringsgraden?
Eftersom ingen faktisk förändring görs av de olika versionerna i experimentet bör det inte påverka konverteringsgraden. Om majoriteten av resultaten från din A/A-testning visar en (betydande) skillnad i konverteringsgrad kan det tyda på ett problem med genomförandet av experimentet, till exempel att du inte har kontrollerat alla regler för målgruppsinriktning och dokumentation. Se till att kontrollera alla regler för målgruppsinriktning och dokumentation för att förhindra falska positiva resultat.
Ska du lägga till en andra baslinje till ett A/B-test, vilket skapar ett A/A/B-test?
Och hur är det med duplicerade baslinjer och duplicerade testvariationer, som ett A/B/A/B-test? Det här är vanliga frågor. Ett sätt att validera en A/B-testning skulle kunna vara att lägga till en duplikat av A-varianten i experimentet.
Men nej. Du ska aldrig någonsin göra detta. A/A-kalibreringstester måste finnas i sitt eget separata utrymme, sitt eget experiment. Man bör bedöma en stor fördelning av A/A-kalibreringstestresultat, istället för att bedöma prestanda på ett enda experiment som testar en enda baslinje mot en annan enda baslinje.
När du kombinerar flera baslinjer med testvariationer, straffar du i onödan prestandan hos dina testvariationer. Annorlunda uttryckt kommer flera baslinjer kombinerade med testvariationer att kannibalisera resultaten av experimentet.
För en A/B/A/B-testning ger det inte en säkrare eller mer säker upplevelse att lägga till fler baslinjer i ett experiment. Dessutom utsätter två eller fler baslinjer i kombination med en mängd testvariationer experimentören för en hög risk för bekräftelsebias: de ger det förväntade resultatet för stor betydelse. Optimizely avråder alla från att lägga till en andra baslinje tillsammans med testvariationer eftersom det ofta är ett mycket missriktat försök av experimentering att skydda sig mot fel.
Förhindra falska positiva resultat i verktyg för A/B-testning och varför det är viktigt
Att köra experiment kan vara bra för att optimera konverteringsoptimering eller påverka andra affärskritiska mätvärden. Men om du inte kan lita på att programvaran håller reda på testresultaten på ett korrekt sätt, motverkar det syftet med att ha en programvara för A/A-testning till att börja med. Resultaten måste vara:
-
Tillförlitliga: Kan du lita på att testresultaten är korrekta och återspeglar verkligheten.
-
Exakta: Det är viktigt att se till att urvalet är tillräckligt stort och att resultaten är stabila.
-
Signifikanta resultat: Är resultaten för variant B meningsfullt och konsekvent annorlunda än A-varianten.
A/B-testning och programvara för experimentering, som gör att du kan köra mer än bara A/B-tester, är avsedda att ge marknadsförare förtroende för sina testresultat. Att köra en A/A-testning hanterar de två första av de ovannämnda punkterna så att du vet att den tredje, signifikanta resultat, är korrekta och går att lita på.
Hur data från A/A-testning kan hjälpa ditt analysverktyg och vice versa
Att använda en A/A-testning är ett utmärkt sätt att mäta din analysuppsättning. Genom att köra samma variant två gånger i samma experiment kan det ge dig ett riktmärke att jämföra med. Testdata bör visa vad din genomsnittliga konverteringsgrad till beat är.
Hur spelar ditt analysverktyg in i det? Ditt analysverktyg, sannolikt Google Analytics, bör redan spåra dina konverteringsgrader. Så om du kör en A/A-testning för att mäta riktmärken, borde de inte vara (nästan) desamma? Jo, det stämmer!
A/A-testning är en vanlig metod för att validera verktyg mot sig själva, men också mot andra leverantörer. Om du redan vet att dina konverteringsgrader i Google Analytics spåras korrekt bör din A/A-testning visa (nästan) samma sak.
Jag behöver hjälp! Mina verktyg för A/B-testning och analysverktyg visar olika konverteringsgrader efter ett A/A-test
Se till att du kör några vanliga felsökningssteg:
-
Kontrollera urvalsstorleken för ditt test. Även om det här testet aldrig kommer att uppnå statistisk signifikans, eftersom det inte finns någon verklig skillnad mellan de två varianterna att mäta, är det fortfarande viktigt att köra testet på ett betydande antal besökare för att validera dess noggrannhet.
-
Kontrollera reglerna för målgruppsinriktning för båda verktygen. Eftersom de flesta experimentationsregler måste köras högst upp på sidhuvudet eller kan köras på serversidan, och ditt analysverktyg kan köras i något som Google Tag Manager, kan det hända att reglerna för vilka sidor som ska avfyras båda verktygen kan skilja sig åt. Se till att testa och kontrollera inställningar och täckning för båda.
Bra minsta urvalsstorlek för A/A-testning
Stora urvalsstorlekar behövs inte alltid för A/A-kalibreringstester, eftersom du faktiskt inte ändrar något i varianterna. Det är till exempel en utmärkt idé att köra ett A/A-kalibreringstest på startsidan, eftersom det är en av de mest besökta sidorna på många webbplatser ochsnabbt kan hjälpa till att identifiera eventuella problem med din installation. Att använda en oviktig landningssida är också ett alternativ, men ta alltid hänsyn till externa faktorer. Om trafiken fluktuerar mycket på den här sidan, till exempel på grund av betalda budgetar, kanske det inte är den bästa sidan att köra testet på. Du letar efter en sida med stabila konverteringsgrader att jämföra med.
Optimizely One statistikmotor och A/A-testning:
När du kör ett A/A-test med Web/Feature/produktexperimentation kan du i de flesta fall förvänta dig att resultaten från testet inte är avgörande - vilket innebär att skillnaden i konvertering mellan identiska variationer inte kommer att nå statistisk signifikans. Faktum är att antalet A/A-testningar som visar ofullständiga resultat kommer att vara minst lika högt som den signifikanströskel som anges i dina projektinställningar (90 % som standard).
I vissa fall kan du dock se att en variant presterar bättre än en annan eller att en vinnare utses för ett av dina mål. Det slutgiltiga resultatet av detta experiment är en ren slump och bör endast inträffa i 10 % av fallen om du har ställt in signifikanströskeln till 90 %. Om din signifikanströskel är högre (säg 95%) är dina chanser att stöta på en avgörande A/A-testning ännu mindre (5%).
Fortsätt att lära dig
Är du redo att ta ett djupare dyk in i experimenteringens värld?
Här är vad vi rekommenderar: