Dit is een veel gestelde vraag onder e-mail marketeers. Om die reden hebben we 12 A/B-testen onder de loep genomen. Uit deze steekproef kwam een divers beeld naar voren. Soms gaf een test al na één uur een duidelijke uitslag en soms duurde het veel langer. Uiteindelijk concluderen we dat je A/B-test minimaal 12 uur moet duren als je de winnaarsmail automatisch verstuurt. Vind je 12 uur te lang, dan kan het korter als je de betrouwbaarheid van de uitslag checkt en je stilstaat bij het effect van je test op meerdere metrics. In dit artikel leggen we uit hoe je dat aanpakt.
Waarom is de lengte van de test belangrijk?
Laten we eerst antwoord geven op de vraag waarom de duur van je test belangrijk is. Kijk eens naar de volgende statistiek:
De winnaar van deze één uur durende A/B-test is de A-variant die met een open ratio van 5,7% beter scoorde dan de B-variant met 4,8%. De restgroep die bestond uit de helft van de database ontving automatisch de A-mailing. Toch kun je je afvragen of dat verstandig was. Kijk maar eens naar de volgende statistiek:
De test die duurde van 11.15 uur tot 12.15 uur wees variant-A als winnaar aan, maar op de testdag om 17.15 uur klom de B-variant voorbij de A-variant en dat bleef zo alle dagen erna. Had deze marketeer een testduur van -bijvoorbeeld- 24 uur gekozen dan was de B-variant als winnaar aangemerkt. De vraag is natuurlijk: hoe lang moet een A/B-test duren om te voorkomen dat de verkeerde variant als winnaar uit de bus rolt? Ons antwoord: laat het afhangen van de wijze van verzenden. Kies je voor automatische of handmatige verzending aan de restgroep?
Handmatig of automatisch verzenden?
Met een handmatige verzending aan de restgroep kun jezelf nog bepalen welke variant jij de beste vindt. Niet direct een populaire boodschap in tijden van marketing automation, maar misschien helpt het volgende lijstje:
A/B-testen: winnaarsmail handmatig of automatisch versturen? |
Handmatig | Automatisch |
Als je kiest voor een korte testduur | Als je kiest voor een testduur van minimaal 12 uur |
Als je inzicht wil krijgen in het effect van de test op verschillende metrics | Als je heel duidelijk test op óf opens óf kliks óf specifieke conversiekliks en je de winnaar uit de test altijd wil mailen |
Als je nadrukkelijk controle wil houden en er -voor nagenoeg- 100% zeker van wil zijn dat de juiste mail naar de restgroep wordt verzonden | Als de uitkomst van de test minder belangrijk is dan het inzicht en de learnings |
Testduur bij handmatig of automatisch verzenden
Het onderzoek onder de 12 A/B-testen leidt tot de conclusie dat 12 uur voldoende is voor een betrouwbare uitspraak. Meestal is al ruim voor het einde van de test duidelijk welke variant het gaat winnen. In 3 van de 12 testen was de testduur op enkele uren gezet en dat bleek achteraf te kort. In geen van de voorbeelden had de test meer dan 12 uur nodig. En er werd getest op opens en kliks.
Wil je voorkomen dat de verkeerde mailing als winnaar wordt aangemerkt, laat de test dan minimaal 12 uur duren. Zeker als je kiest voor automatische verzending. Kies je toch liever voor een kortere testduur, overweeg dan handmatige verzending. Spotler kan een notificatie versturen met de uitslag van de test. Blijken de verschillen tussen beide varianten erg klein te zijn, duik dan de mailingstatistiek in.
Testen op verschillende metrics
Ben je de mailingstatistiek eenmaal ingedoken dan kun je voor leuke verrassingen komen te staan. Kijk eens naar de volgende grafiek:
Na twee uur testen had de A-variant een open ratio van 31,9% en de B-variant zat op 32,2%. Spotler roept -natuurlijk terecht- de B-variant uit als winnaar. Maar het zit wel heel dicht bij elkaar. Onder bovenstaande grafiek was ook het volgende zichtbaar:
De marketeer testte op open ratio, maar de klikratio gaf na twee uur testtijd een veel duidelijker beeld. De klikratio van de A-variant bedroeg namelijk 9,0% en de B-variant kwam uit op 11,2%.
Is je testuitslag too close to call, kijk dan eens naar andere ratio’s dan de ratio waarop je testte. Wie weet, geeft dat meer inzicht.
Wil je het verschil statistisch onderbouwen, dan vind je op verschillende sites A/B-Test Calculators. Een voorbeeld van zo’n calculator vind je op Zettasphere. Voor een 95% betrouwbare test had de B-variant -van het bovenstaande voorbeeld- uit moeten komen op 34,8% of het verschil had minimaal 2,9 procentpunt moeten bedragen bij de gehanteerde testgroepgrootte van 2.037 adressen. Dit verschil bereikte de test na zes uur.
Toch had de marketeer in bovenstaande test gekozen voor een automatische verzending na een testduur van slechts twee uur. Na deze korte testduur werd aan 80% van de database (testgroepen waren 10% groot) een mailing gestuurd die met 0,3 procentpunt had gewonnen. En de totale database was wel 20.370 adressen groot.
Voor de veiligheid: kies óf voor een langere testduur óf voor handmatig versturen en kijk of andere ratio’s je meer houvast geven.
Streven naar 100% zekerheid
Wat uit onze steekproef van 12 A/B-testen naar voren komt, zijn de diverse tijdstippen waarop de testen plaatsvonden. Wat wij onze klanten vaak adviseren, is om het testmoment zoveel mogelijk te laten aansluiten op de reguliere verzendmomenten.
Toch kan geen enkele test 100% zekerheid garanderen. Als uit je A/B-test een verschil van 10 procentpunt naar voren komt, dan wil dat niet zeggen dat de restgroep eenzelfde score laat zien. Wel kun je omstandigheden zo inrichten dat ze zo min mogelijk de uitslag beïnvloeden. Zoals het verzendtijdstip van de A/B-test. Verder is het goed om op te merken dat ook deze steekproef geen 100% garantie geeft. Je zult net zien dat jouw A/B-test 14 uur nodig heeft voor een duidelijke winnaar. Houd die 12 uur aan als handige richtlijn.
Andere factoren die een rol spelen bij A/B-testen: de elementen die je test, de testgroepgrootte en de frequentie van je testen.
Whitepaper ‘Meer rendement met A/B-testen’
Wil je meer informatie over A/B-testen? Zoek je voorbeelden van verschillende A/B-testen, wil je weten hoe je onderwerpregels, snippets, copy, calls-to-action en je template kunt testen?