Verdieping

Experimenten beter valideren: professioneel aan de slag met metrics

0

Kun jij eigenlijk wel blind varen op die ene metric van een A/B-test? En kan een organisatie wel overeind blijven door eens niet naar bepaalde business metrics te kijken? In dit artikel ga ik in op verschillende metrics en de Overall Evaluation Criteria.

In het algemeen kun je stellen dat organisaties een sterke behoefte hebben aan metrics. Zonder de juiste meetinstrumenten zijn ze redelijk stuurloos. ‘Missen is gissen’ zeggen ze weleens. Dat geldt zeker voor commerciële bedrijven. Het bepalen van de juiste key metrics blijkt daar niet altijd eenvoudig en dat geldt zeker voor het krijgen van een interne consensus hierover. Key metrics kunnen uiteindelijk door en voor een organisatie zijn ‘opgelegd’ maar kunnen ook in het leven zijn geroepen om specifieke prestaties van een team of product te meten.

Hoe zit dat precies met online experimenten zoals A/B-testen? Welke metrics spelen een belangrijke rol bij het valideren van een hypothese? En hoe kun je die metrics dan weer valideren?

De strohalm waaraan je je kunt vastklampen

Metrics brengen structuur, zorgen voor focus en helpen je bij het nemen van de juiste beslissingen. Daarmee dragen ze bij aan verandering en geven ze een positieve bijdrage aan de strategie en richting van een organisatie. Zeker wanneer je in jouw organisatie datagedreven werkt, en experimenten gebruikt om ideeën te valideren, zijn ze onmisbaar om succes of verlies aan te tonen.

Maar zelfs wanneer uitkomsten van een A/B-test niet overtuigend in het groen of rood schieten, en er dus geen significant effect aangetoond kan worden, blijft een metric toch wel een fijne strohalm waaraan je je kunt vastklampen. Zeker als de hypothese van een experiment gericht is op het beïnvloeden van die metric.

Maar is dat terecht? Geeft zo’n metric je te allen tijde wel het juiste of volledige beeld?

Mogelijk niet altijd.

De onzichtbare metric

Met het valideren van een nieuw idee kan toch onbedoeld iets in het experiment zijn geslopen wat je van tevoren niet had voorzien. De variant kan bijvoorbeeld een andere (voor jou nog onzichtbare) metric negatief hebben beïnvloed en daarmee tegelijkertijd ook jouw belangrijkste metric.

Het gelijk blijven van bijvoorbeeld het aantal bezoekers met een order zou tegelijkertijd een toename van de gemiddelde orderwaarde (AOV) kunnen betekenen. Dit soort effecten kunnen we misschien nog wel verklaren (toeval, outliers) of enigszins onderbouwen. Maar er zijn altijd testresultaten die je verder wil onderzoeken omdat ze lastiger te duiden zijn.

Een niet-significant resultaat hoeft bijvoorbeeld niet altijd te betekenen dat je een slecht idee had. Slechte ideeën bestaan sowieso niet, want deze kunnen weer leiden tot de juiste ideeën.

Sometimes you win. Sometimes you learn.

Het punt dat ik hier wil maken is dat een negatieve of niet-significante uitslag ook een andere onderliggende oorzaak kan hebben gehad dan alleen de invloed van de metric waarvoor je aan het optimaliseren was.

Wat als de testpagina minder goed presteert door een langere laadtijd? Wat als complexere code niet goed wordt uitgevoerd in een bepaald type of versie van een browser? En wat als er meer terugkerend bezoek in de testvariant komt door een verkeerd ingerichte online campagne? Het zijn slechts voorbeelden van factoren die impact kunnen hebben op het resultaat. Tja, maar wat doe je dan?

Slow down experiments

Productteams in organisaties zijn vaak bezig om nieuwe functies voor de website of app te ontwikkelen. Dit wordt vaak gedaan met als doel om key metrics positief te beïnvloeden. De organisatie hamert bijvoorbeeld op meer orders. Of misschien is meer engagement wel wat men nastreeft. De kans bestaat in ieder geval dat men hierdoor uit het oog verliest dat nieuwe features ongemerkt meer kunnen beïnvloeden dan alleen de belangrijkste metrics die dienen voor succes. Of het kan averechts werken.

Het introduceren van wijzigingen hoeft niet meteen een betere ervaring en ook een betere conversie te betekenen. Je moet alles eerst valideren. We weten ook al jaren dat techniek en snelheid (of liever gezegd: traagheid) op alle fronten conversiekillers zijn. Er bestaan zelfs krachtige manieren om dit te testen in de vorm van slow down experiments.

Amazon heeft dit ooit gedaan en toonde met zo’n experiment aan dat een bewust ingebouwde vertraging van slechts 100 milliseconden resulteerde in een 1% verkoopdaling. Dat gaat bij Amazon om veel geld. Heel veel geld.

Dit is het bewijs dat ook niet-zichtbare elementen impact kunnen hebben op key metrics en dus ook op de hele business!

Goals & drivers en guardrails

Wanneer je al flink aan het experimenteren bent, werk je waarschijnlijk al veel met goal en driver metrics. Ik zet ze hieronder nog even op een rij om het verschil en de relatie tot elkaar aan te geven.

Goal metrics

Goal metrics zijn succes metrics en gaan over hoofddoelen (goals). Ze zijn doorgaans gekoppeld aan het mission statement van een organisatie en gaan over zaken die men écht belangrijk vindt. Het bekendste voorbeeld van een goal metric (ook wel key metric genoemd) is de order- of transactie-metric.

Driver metrics

Driver metrics geven een indicatie van dat we ons in de juiste richting aan het bewegen zijn om onze doelen te behalen. Ze dragen daarom direct bij aan de goal metrics en gaan veelal over user engagement, user retention en dergelijke. Voorbeelden van driver metrics zijn de net promoter score (NPS) en het aandeel terugkerende bezoekers of nieuwe registraties op de website.

Hoe kun je ervoor zorgen dat bovenstaande metrics betrouwbaar zijn? Guardrail metrics kunnen je hierbij helpen.

Guardrail metrics

Deze metrics hebben als hoofddoel je ondersteuning te bieden. Ze zorgen voor de betrouwbaarheid van het resultaat van de goal metric en waarschuwen als iets niet goed is. Ze dragen overigens niet bij aan de businesswaarde zoals een goal metric dat wel doet.

Door hun ‘gevoelige aard’ hebben guardrail metrics een lagere statistische variantie waardoor ze sneller voor significantie zorgen. Hierdoor zijn fouten sneller aan te tonen. Voorbeelden van guardrail metrics zijn SRM (Sample Ratio Mismatch) of metrics die bijvoorbeeld latency of laadtijd monitoren.

Guardrail metrics zijn cruciaal maar worden nog niet altijd omarmd door organisaties die aan het experimenteren zijn. En dit terwijl ze wel direct impact hebben op goal en driver metrics. Het gebruik van guardrail metrics hoort overigens wel bij een bepaalde mate van volwassenheid binnen een CRO-team of CRO-programma.

De grote techbedrijven, die het experimenteren tot kunst verheven hebben, hanteren soms wel tientallen tot honderden guardrail metrics per online experiment. Dan blijkt ineens dat wijzigingen in specifieke gevallen een onverwachte impact op de business kunnen hebben.

Overall Evaluation Criteria (OEC)

Wat zou het toch fantastisch zijn als we alles wat we doen kunnen vatten in één metric. Helaas is dat niet mogelijk. Een cockpit van een vliegtuig of een dashboard van een auto heeft tenslotte ook meerdere meetinstrumenten nodig. Het is onverantwoord om te vliegen, varen of rijden op slechts één metric.

Toch bestaat er een methode die je kunt toepassen om het succes van een online experiment beter te valideren dan door alleen maar naar een goal of key metric te kijken. Dit kun je doen door verschillende metrics samen te brengen in één metric.

In ons vakgebied wordt dit een OEC ofwel de Overall Evaluation Criteria van een experiment genoemd. Meerdere metrics worden betrokken en meegewogen in het resultaat van een A/B-test. Het eindoordeel op dit resultaat is hierdoor beter onderbouwd en geeft extra zekerheid voor de implementatie.

In een OEC zijn doorgaans één of meerdere key metrics samengebracht als één KPI en deze zijn aangevuld met enkele guardrail metrics. Het grote verschil tussen een OEC en een guardrail is dat een OEC wél bijdraagt aan de businesswaarde van een organisatie.

Een OEC opstellen

Het is echt van belang om intern bij je organisatie de belangrijkste metric(s) onder de aandacht te blijven brengen. Dat je dan tegelijkertijd een extra mate van betrouwbaarheid kunt garanderen, is nog eens heel mooi meegenomen. Echt niet iedereen in een organisatie is hier al mee bekend. Weten is meten! Ja ja, je leest het goed. Soms moet je echt even omdenken…

Daarnaast straalt dit ook af op jouw werk. Daar kan een organisatie alleen maar blij om zijn, toch? Daarom denk ik dat iedereen het bestaan van een goed ingerichte OEC uiteindelijk alleen maar kan toejuichen.