Innovatie

Kunnen zoekmachines de toekomst voorspellen?

0 15 mei 2014 om 08:00 5 minuten lezen

In 2006 won ik de WK-voetbalpool van ons bedrijf door mijn voorspellingen te baseren op de koersen van de wedkantoren. Ik had net het boek The Wisdom of Crowds van James Surowiecki gelezen en geloofde daar heilig in. Ik paste een simpel algoritme toe: als Engeland tegen Paraguay moest spelen, vergeleek ik de odds dat Engeland wereldkampioen zou worden met die van Paraguay.

Waren die van Engeland aanzienlijk beter, dan liet ik Engeland de wedstrijd winnen; waren die van Paraguay beter dan kreeg Paraguay de punten; lagen ze binnen een zekere bandbreedte dicht bij elkaar dan vulde ik een gelijkspel in. Voor de doelpunten ging ik simpelweg uit van de meestvoorkomende voetbaluitslagen (1-0 voor winst, 0-1 voor verlies, 1-1 voor gelijkspel). Op die manier kreeg ik voor mijn voorspelling dat Engeland-Paraguay in 1-0 zou eindigen het maximale aantal punten.

Voorkeur van de massa

Vorige maand is Microsoft met zijn zoekmachine Bing een experiment begonnen dat op een vergelijkbare manier voorspellingen wil doen. Bing neemt daarbij echter niet de wijsheid van de massa als uitgangspunt, maar de voorkeur.

In de eerste iteratie van het experiment, dat overigens helaas alleen in Amerika wordt uitgevoerd, probeert Bing.com te voorspellen welke deelnemers aan programma’s als The Voice, American Idols en Dancing with the Stars de volgende ronde gaan halen en welke niet. Als je een van die programma’s, of een naam van een deelnemer als zoekterm in Bing opgeeft, krijg je op de resultatenpagina een carrousel met foto’s van deelnemers te zien met daarbij de inschatting of ze het gaan redden of niet.

Voorspellingen op Bing.com

Social search

Bing leunt daarbij naar eigen zeggen zwaar op zogeheten signals uit de sociale media, Facebook voorop. Niet voor niets hebben die twee al een aantal jaren geleden een samenwerkingsverband opgezet. Met deze vorm van predictive search geeft Bing verregaande invulling aan ‘social search’, dat als begrip ook al weer enkele jaren oud is, maar in het echte leven nog niet echt van de grond is gekomen.

Uit de summiere uitleg die Bing op zijn eigen blog geeft, kunnen we opmaken dat de Bing-zoekalgoritmen ervan uitgaan dat de sentimenten die over mensen, dingen en gebeurtenissen op internet gesignaleerd worden, tot een correcte voorspelling kunnen leiden van de toekomstige mening die mensen zullen hebben. Bing zegt daarbij rekening te houden met het sentiment van de zoekvraag, frequentie, sociale indicatoren en lokale factoren (maar legt helaas niet uit hoe).

Google Flu Trends

Ik hoor u denken; maar heb ik laatst niet ergens gelezen dat het experiment van Google Flu Trends mislukt is? Google lanceerde deze dienst alweer zes jaar geleden en trok daar toen nogal de aandacht mee. Google kreeg het zelfs voor elkaar dat het toonaangevende Nature er een hooggestemd artikel over plaatste.

Google Flu Trends gaat uit van een vast verband tussen zoekopdrachten die over griep gaan en een uitbraak van die griep. Lijkt logisch, maar nu is er een artikel in Science (14 maart 2014, Vol. 343) verschenen waarin uitgelegd wordt waarom het voorspellend en zelfs het beschrijvend vermogen van Flu Trends niet goed werkt. Zo had Google Flu Trends maar liefst 100 van 108 op rij gemeten weken (in 2011 en 2012) fout.

Belangrijkste oorzaken? Ten eerste dat Google wel big data gebruikt, maar niet de benodigde statistische analysemethoden. Ten tweede dat het eigen zoekalgoritme voortdurend verandert, waardoor de resultaten beïnvloed worden. Denk aan de zoektermvoorspelling die sinds enige tijd in Google zit. Dit werkt in de hand dat meer mensen dezelfde zoektermen gebruiken, waardoor Google Flu Trends vaker ten onrechte triggert.

De Heilige Graal van Big Data

Zowel doel als methode van Google Flu Trends zijn heel anders dan de aanpak die Bing kiest. Het experiment van Bing betreft nu alleen nog TV-programma’s. Er is weinig fantasie nodig om dit idee naast de entertainmentmarkt ook toegepast te zien op sportevenementen en verkiezingen. Maar mijn voorspelling is dat Microsoft op een hele andere markt aast.

Want denk eens na over de potentie als je dit kunt toepassen op je producten en diensten. Het doen van voorspellingen en daaraan automatisch gekoppelde beslissingen is de heilige graal in Big Data Analytics. We noemen dat nu prescriptive analytics en automated marketing; maar het zou wat zijn als je automated product management of automated sales had. Wat voor mogelijkheden zouden er zijn als je correct kunt voorspellen welke producten goed zullen verkopen en welke minder? Als je door deze voorspellingen je product ter plekke kunt aanpassen, of je aanbieding kunt verbeteren om je spullen beter verkoopbaar te maken?

Wat moet er anders?

Voordat het zover is doet het Bing-team van Microsoft er goed aan om niet dezelfde fouten te maken als Google Flu Trends. De auteurs van het hierboven aangehaalde artikel in Science zijn niet negatief over de toekomst en toepassingen van big data analytics in de online wereld, maar hebben wel duidelijke aanbevelingen die ik graag toelicht:

1. Transparantie en herhaalbaarheid

Big data analytics staat in de kinderschoenen en is in essentie een nieuwe (toegepaste) statistische wetenschap. De wetenschap stelt eisen aan transparantie en herhaalbaarheid van experimenten. Dat kan op gespannen voet staan met de bedrijfsbelangen van partijen als Google of Microsoft, en die moeten daar een weg in vinden.

Eén van de kritiekpunten op Google Flu Trends is dat ze bij Google wel aangeven dat het systeem triggert op 45 zoektermen, maar niet welke dat zijn. Bedrijven doen zichzelf daar tekort mee. Wetenschap is immers een kwestie van wereldwijde samenwerking en zelfs de gigant Newton zei het al: “Als ik verder heb kunnen kijken, is het omdat ik op de schouders van reuzen stond.”

Google Flu Trends

2. Gebruik Big Data voor het onbekende

Google zette met zijn Flu Trends eigenlijk een systeem op dat al bestond en wist dat niet te verbeteren. In Amerika heb je CDC, Centers for Disease Control and Prevention, die de griepgevallen al goed op landelijk niveau monitort. Google, zo luidt de kritiek van Science, had zijn inspanningen beter kunnen richten op lokale gegevens over griep, om die te combineren met de al beschikbare CDC-gegevens en zo te helpen een nieuw voorspellend systeem op te zetten.

3. Doorgrond de algoritmen

Google, Bing, Facebook, Twitter: al die zoekmachines en social media platforms zijn in constante ontwikkeling. Deels door de programmeurs zelf, maar voor een groot deel ook door de manier waarop de miljoenen gebruikers ermee omgaan. Wat we zoeken, hoe we zoeken, wat we vinden en wat we daar vervolgens mee doen, verandert in hoog tempo. Voor je je beslissingen baseert op deze big data analytics, moet je je daar in ieder geval rekenschap van gegeven hebben.

4. Het gaat niet alleen om Big Data

Alle aandacht lijkt momenteel uit te gaan naar de analyse van big data. Maar wat is er mis met small data? Waarom niet gewoon op de ouderwetse manier met een paar goed geformuleerde enquêtevragen gesteld aan de juiste doelgroep te weten komen wat je nodig hebt om je business verder te helpen? Science pleit voor een ‘all data revolution’ in plaats van een ‘big data revolution’ en dat lijkt me een nuchtere benadering.

Bij het EK van 2008 herhaalde ik mijn succesvolle strategie van het WK 2006. Mijn aanpak ging roemloos ten onder en ik eindigde diep in de middenmoot van de voetbalpool. Sindsdien pas ik een mixed data-aanpak toe, waarbij ik de big data van de wedkantoren meng met de kennis van een paar sportredacties van kranten, een paar TV-programma’s en de mening van de kenners onder mijn voetbalvrienden. Het succes blijft wisselend, maar de voorpret is er een stuk groter door.

Foto intro met dank aan Fotolia.

Lees 6 reacties

Over de auteur

Jan Willem van Wessel van KB

Jan Willem van Wessel is oprichter van PilesOfPics.com, Nederlands eerste niet-commerciële stockfotosite.

7 artikelen Meer over Jan Willem van Wessel

Lees meer over Innovatie

Data analytics

Fw+ NieuwsAlert Ontvang direct een e-mailalert als een nieuw artikel over Data analytics wordt gepubliceerd. Het door u ingevulde e-mail adres is niet correct.

Innovatie

Fw+ NieuwsAlert Ontvang direct een e-mailalert als een nieuw artikel over Innovatie wordt gepubliceerd. Het door u ingevulde e-mail adres is niet correct.

Marketing technology

Fw+ NieuwsAlert Ontvang direct een e-mailalert als een nieuw artikel over Marketing technology wordt gepubliceerd. Het door u ingevulde e-mail adres is niet correct.

Data driven marketing

Fw+ NieuwsAlert Ontvang direct een e-mailalert als een nieuw artikel over Data driven marketing wordt gepubliceerd. Het door u ingevulde e-mail adres is niet correct.

E-commerce

Fw+ NieuwsAlert Ontvang direct een e-mailalert als een nieuw artikel over E-commerce wordt gepubliceerd. Het door u ingevulde e-mail adres is niet correct.

Marketing automation

Fw+ NieuwsAlert Ontvang direct een e-mailalert als een nieuw artikel over Marketing automation wordt gepubliceerd. Het door u ingevulde e-mail adres is niet correct.

Algoritmes Analytics Big data Big data revolution Big data-analytics Bing Google Google algoritmes Google Flu Trends Predictive Analytics Prescriptive Analytics Search Semantiek Semantische analyse Tech Zoekmachines Zoeksuggesties

Reacties (6)

Reactie annuleren

Stefan Hoevenaar

15 mei 2014 om 12:21

Op http://www.zapaday.com kan je al zien wat er morgen en volgende week gaat gebeuren 🙂

En met onze zoekmachine FutureScan kan je kijken wat mensen online en in nieuwsmedia zeggen over de toekomst van elk onderwerp, voor volgende week of voor 2021.

0 likes

reageer
Leo Quax

15 mei 2014 om 13:02

JW, helemaal geweldig! Ik blijf je volgen!

0 likes

reageer
Jeroen

16 mei 2014 om 13:44

Grappig, heb net een ander artikel uit de frankwatching mail gelezen over storytelling. En ook jij vertelt een goed verhaal. Vooral de zin hoe zou het zijn dat je je produkt direct zou kunnen aanpassen op grond van de resultaten triggert mij.

Inzake het voorspellen van winnaars van verkiezingen, songcontesten etc speelt naar mijn mening ook nog iets anders mee. Dat is het uiterlijk of het charisma van een deelnemer. Je zult dan ook uiterlijke kenmerken van winnaars uit het verleden moeten mee nemen.

Voor de rest heb je het over de heilige graal van de Big Data. Waar we vooral voor moeten waken is de onjuiste interpretatie van de big data. Anders krijg je conclusies dat er meer mensen verdrinken als de verkoop van ijs stijgt, waardoor er een correlatie zou moeten zijn tussen het aantal verkochte ijsjes en het aantal verdrinkingen. Uiteraard snapt iedereen in dit voorbeeld dat het gaat om de correlatie met de buitentemperatuur. Hoe warmer het is hoe meer ijs er wordt gegeten, hoe meer mensen gaan zwemmen en dus kans hebben te verdrinken.

Helaas zullen er ook andere relaties gelegd worden en die door media klakkeloos worden overgenomen omdat de bron zo betrouwbaar leek te zijn.

Succes met de komende wedstrijd voorspellingen.

0 likes

reageer

JW van Wessel

16 mei 2014 om 15:26

Hi Jeroen,

Dank voor je reactie.
Eens met de spraakverwarring rond het begrip Big Data. Daar zou iemand eens een goed stuk over moeten schrijven…

Groet
Jan Willem

0 likes

reageer

Paul

19 mei 2014 om 13:06

Leuk artikel!!

Ik geloof wel in de voorspellende kracht op basis van “big data”! Jaren geleden deden we een onderzoek naar de verkiezingsuitslag door online en social media te monitioren.

Wat bleek? Clipit voorspelde de uitslag beter dan de onderzoeksbureaus:
http://www.clipit.nl/blog/social-media-voorspellen-uitslag-verkiezingen-als-beste/

0 likes

reageer

Jan Willem van WesselAuteur

19 mei 2014 om 13:15

Thanks, en leuke blog, ik kende dat verhaal niet.

0 likes

reageer

Er zijn geen resultaten gevonden voor "{{search_query}}"

Bedoelde je misschien:

{{filter.name}}

Er zijn geen resultaten gevonden voor "{{search_query}}"

Bedoelde je misschien:

{{filter.name}}

Kunnen zoekmachines de toekomst voorspellen?

Over de auteur

Agenda

Reactie annuleren

Er zijn geen resultaten gevonden voor "{{search_query}}"

Bedoelde je misschien:

Er zijn geen resultaten gevonden voor "{{search_query}}"

Bedoelde je misschien:

{{filter.name}}

Voorkeur van de massa

Social search

Google Flu Trends

De Heilige Graal van Big Data

Wat moet er anders?

1. Transparantie en herhaalbaarheid

2. Gebruik Big Data voor het onbekende

3. Doorgrond de algoritmen

4. Het gaat niet alleen om Big Data

Over de auteur

Agenda

Welkom