How to

Big data voor beginners: zijn mijn data wel geschikt? [checklist]

0

De geboorteplaatsen van je familieleden, de leeftijden van alle kinderen in Groep 4B van de basisschool of het aantal verkochte saucijzenbroodjes op het Centraal Station van Utrecht? Eerder schreef ik al dat je, om te beginnen met big data, vooral small moet starten.

De 4 V’s van Big Data

Maar let op: niet alle gegevens die je in een Excelletje op een rij kunt zetten, zijn geschikt voor een big data-analyse. Maar welke postzak vol gegevens is dan wel geschikt? Daar zijn een paar vuistregels voor. Als data voldoen aan de kenmerken ‘volume’, ‘variety’, ‘velocity’ en ‘value’, dan kunnen we ermee aan de slag. Puur big-datatechnisch gesproken dan.

Check 1: Big data hebben volume (‘volume’)

We produceren op dit moment meer gegevens in een minuut dan alle data die tot 2008 werden opgeslagen sámen. Het is dus hard gegaan. Zo’n big data-stapel gaat altijd om grote hoeveelheden informatie. Terabytes. Het voordeel van zoveel marktinformatie is natuurlijk dat – als de analyse methodologisch goed in elkaar zit – de kennis die eruit komt betrouwbaarder is dan wanneer je over een beperkte hoeveelheid gegevens beschikt.

big-data-volume-fotolia

Een voorbeeld. Terwijl vakantieparken in het verleden blij waren dat er een paar evaluatieformulieren werden ingevuld door huurders van een huisje, hebben we nu Zoover. Bijna alle vakantiegangers geven uitgebreide recensies van hun verblijf, waarin ze expliciet hun mening geven over de toiletten, de huisjes, het zwembad en de service. Dat levert een redelijk gewogen oordeel op over de service van een vakantiepark. Veel betrouwbaarder in iedere geval dan de paar formulieren waar de eigenaar het in 1995 mee moest doen. De 8,5 van Landal in Holten is gebaseerd op 620 beoordelingen. Een stap verder gaat de proef die we voor Landal in Duitsland hebben gedaan, waarbij we op basis van ratings van Duitse vakantieparken analyseerden. Zo vonden we de zwakke plek van de concurrent. Die bleek in kindvriendelijkheid te zitten. Een kans voor Landal om zich daar op te profileren!

Check 2: Big data zijn gevarieerd (‘variety’)

Ook essentieel voor een geschikte big data-stapel, is de vraag of de dataset wel gevarieerd genoeg is. Natuurlijk praten we niet over big data bij een overzicht van alle verkochte Big Macs. Dat verandert als er in de database ook reviews zitten van de speeltoestellen in alle vestigingen van McDonald’s. Er moeten verschillende soorten informatie in een big data-berg zitten die allemaal iets zeggen over een bepaald onderwerp, of die ermee samenhangen. Die gegevens hoeven overigens niet in hetzelfde bestand te zitten. Het mag ook gaan om gegevens uit externe databestanden (hoewel je dan wel een manier moet vinden om die gegevens aan elkaar te koppelen).

Diversiteit levert een veel rijkere voorspelling op als je database meer variatie heeft. Dat klinkt tegenstrijdig. Als je 200 variabelen kunt analyseren om het weer te voorspellen, dan is de voorspelling betrouwbaarder dan wanneer je het alleen met een simpele luchtdrukmeter op je dak moet doen. Als bol.com 20 factoren weet te isoleren die invloed hebben op het koopgedrag, dan is dat relevanter voor de marketeers dan wanneer je alleen iets afweet van de prijsbeleving. Durf op zoek te gaan naar variatie, ook al lijkt het op het oog ‘ver weg informatie’.

velocity-fotolia

Check 3: Big data hebben snelheid (‘velocity’)

Bij big data draait het ook om snelheid. De gegevens worden kort na een gebeurtenis geregistreerd en bij voorkeur vindt ‘de analyse’ en ‘de actie’ kort daarop plaats. Near realtime. Bij grote evenementen als Koningsdag beschikt de politie bijvoorbeeld over grote locatiestromen van smartphones. Daardoor maakt de politie snel een inschatting van plekken waar grote groepen mensen in de stad samenkomen. De politie kan zich hierdoor steeds beter voorbereiden op grote mensenstromen en passende maatregelen treffen. Zelf kun je daarmee experimenteren met sites als Coosto: scan op woorden die verbazing of afschuw uitdrukken, en plot ze op een kaartje. Dik kans dat daar iets aan de hand is.

Dynamic pricing is een nog beter voorbeeld. Door capaciteit, webverkeer en prijzen van de concurrentie realtime te analyseren, worden vliegtuigstoelen dynamisch geprijsd. Een piek in bezoekers stelt prijzen dan naar boven bij, om precies het evenwicht tussen vraag en aanbod te creëren.

Check 4: Big data moeten waarde genereren (‘Value’)

Tot slot moeten al die in de database verstopte gegevens ook iets opleveren. Er moet bijvoorbeeld een oplossing voor een bestaand probleem uitrollen, anders is het ‘data voor de data’. Kostenreductie, efficiency, churn reductie, of conversieverhoging zijn de logische value drivers.

KLM

Toen internet twintig jaar geleden los ging, surften mensen nog een avondje in het wilde weg over het net. Dat doen ze niet allemaal meer, de meesten zoeken in het kader van de ‘journey’ gericht naar een oplossing voor een probleem. Zo zit het ook met big data. Het kost KLM geld doordat reizigers te laat instappen. Big data-analyse werd ingezet om de schadepost te verminderen, door kennis van profielen van laatkomers en hun gedrag te verbinden. En daarop weer interventies te ontwikkelen om óp tijd gedrag te stimuleren.

Rijgedrag en verzekeringen

Ook een mooie case is dat verzekeraars het rijgedrag van mensen gaan koppelen aan de premie die ze moeten betalen. Voor deze beroepsgroep heeft big data enorm veel waarde. Overigens weet je niet van te voren of het waarde genereert. Dat blijft een competentie en a bit of luck: ‘distinguish the signal from the noise’ (aff.) schreef Nate Silver daar over. En zo is het maar net. Weak signal detection is een vak apart aan het worden, omdat het zo ongelooflijk belangrijk is, getuige de recente aanslagen in Parijs, en de rol die intelligence daarin speelt. Hoe waardevol was het geweest als de aanslagen voorkomen hadden kunnen worden, door de inzet van big data-analytics?

De 4 V’s van big data zullen een stem krijgen

Een database moet veel eigenschappen hebben, willen we het onder de noemer ‘big data’ scharen. Het moet om grote hoeveelheden gegevens gaan, de databak moet gevarieerd zijn, informatie moet snel beschikbaar zijn en na de analyse moet er daadwerkelijk een probleem opgelost zijn of waarde gecreëerd worden.

Ik voorzie dat op niet al te lange termijn data een ander V-kenmerk gaat krijgen, namelijk: wordt het daadwerkelijk gebruikt in organisaties en zo ja, door wie? Oftewel, krijgen big data een Voice? De voice of the customer hebben we al, de voice of big data laat niet lang meer op zich wachten.

De vraag is natuurlijk of je daar hoogdravende analyses voor moet uitvoeren, of met intuïtie en onderbuikgevoel een eind komt. Daar gaat mijn volgende artikel over.