Zijn veel data betrouwbaarder dan weinig data?

Is de betrouwbaarheid van een setje Big Data groter dan een onderzoek onder 2000 mensen? Het is interessant wat je er nu eigenlijk mee kunt, met grote, ge-anonimiseerde datasets. En hoe zijn ze samengesteld? Dit onderzoekskritische artikel uit mijn archief laat zien dat grote databestanden niet zoveel vertellen over wat de Nederlandse of de wereldbevolking vindt. Ze leren veel over kleine groepen. Voor betrouwbare kennis heb je veel meer aan goed samengestelde, overzichtelijke datasets. En aan onafhankelijke onderzoekers.

Dit artikel is afkomstig uit mijn archief en is onder de titel ‘De 21 minuten vijver’ verschenen in: NRC – Wetenschap, 6/7 okt 2007. De PdF van het artikel vind je hier. Klik op het beeld van de visser.

Grote online-enquetes leren ons veel over kleine groepen

21 minuten.nl is een on-line opiniepeiling waaraan liefst 100.000 Nederlanders meedoen. Maar de basis is een onderzoek onder 2.000 mensen.

Internet zet de cultuurverschillen in de wereld van het opinie-onderzoek op scherp. Tegenwoordig kun je voor een spotprijs mensen rechtstreeks in hun woning bereiken. Het lijkt het einde van de brief op de deurmat met een degelijk briefhoofd en de formele zinsnede: ‘Een medewerker van ons zal binnenkort contact met u opnemen.’

En nu was er de flitsende reclamespot van 21minuten.nl die de burger oproept tot deelname. Uw mening, elk antwoord telt. Dit jaar peilt 21minuten.nl de Nederlandse democratie. Doel is om ‘Nederlandse beleidsvormers en opinieleiders op objectieve manier te informeren over oplossingen die de bevolking voorstelt voor enkele belangrijke maatschappelijke problemen.’

Als we een half uur per jaar aan gapen besteden, werft de commercial, waarom dan geen 21 minuten aan een onderzoek over de democratie? Het project, een initiatief van onderzoeksbureau McKinsey, krijgt door samenwerking met omroepen, Algemeen Dagblad en NRC Handelsblad veel aandacht. STER en RTL stelden zendtijd beschikbaar. Op de site staan bekende Nederlanders als Wim Kok, Ali B. en Agnes Jongerius.

Databestand en diepe dwarsdoorsnedes

Resultaat is een databestand met 100.000 respondenten. Dat is veel, maar hoe betrouwbaar zijn de bevindingen van deze volksraadpleging online? Meningen zijn geen feiten, vindt men bij het Centraal Bureau voor de Statistiek (CBS). Hans van Brussel van het CBS oordeelt over 21minuten.nl: „Straks is de beeldvorming in Nederland gebaseerd op verkeerd gepeilde meningen.“ Maar politici en beleidsmakers willen nu eenmaal graag de stemming van de burgers peilen. „We leven in een emotie-samenleving“, zegt Martijn Lampert van onderzoeksbureau Motivaction. Bovendien is snelheid in onderzoek geboden: “anders is het maatschappelijk klimaat weer omgeslagen.“

„Dit is het best denkbare middel om inzicht te krijgen in wat Nederland als geheel vindt“, zegt Wiebe Draijer, managing partner bij initatiefnemer McKinsey over het online onderzoek. „Een voordeel is dat we door het grote aantal over heel specifieke segmenten uitspraken kunnen doen. Over wat de gelukkigste gemeente in Nederland is. Of over ongetrouwde vrouwen in Amsterdam-Noord die op zoek zijn naar werk.“ Draijer spreekt enthousiast van „diepe dwarsdoorsnedes“ met „een ongelooflijke rijkdom aan inzichten“.

„Het onderzoek ziet er goed uit“, reageert ook survey-expert Joop Hox, hoogleraar methodenleer sociale wetenschappen aan de Universiteit Utrecht. „De vragenlijst zit goed in elkaar, de respondent kan terugbladeren. Wel is kritiek mogelijk op de volgorde: eerst de vragen over normen en waarden en dan de mening over de politiek. Dan beoordeel je al snel de politiek in termen van normen en waarden.“

Steekproef en surveys

De grote kracht van het onderzoek, vindt Hox, ligt in de uitspraken binnen specifieke groepen. Of de resultaten ook generaliseerbaar zijn naar de hele Nederlandse bevolking betwijfelt hij: „Liever 10.000 mensen in een a-selecte steekproef dan 100.000 op deze manier.“

Jelke Bethlehem, senior methodoloog bij het CBS en hoogleraar aan de Universiteit van Amsterdam is uiterst kritisch. „Je kunt op deze manier specifieke groepen opsporen. Je haalt zelfs een Uruzgansoldaat eruit“, zegt de steekproefspecialist, „Maar een representatief beeld?“ Hij vindt 21minuten.nl methodologisch een slecht onderzoek. „Ze moeten zich in allerlei bochten wringen om de uitkomsten zuiver te krijgen.“ De 100.000 mensen van 21minuten.nl zijn geen goede afspiegeling van de Nederlandse bevolking, vindt men bij het CBS. Bethlehem gebruikt de metafoor van de visvijver om de werking van on-line onderzoek boven water te krijgen: Stel, je moet de gezondheid van vissen in twee vijvers vaststellen. Bij de ene vijver kan je niet zien wat erin zit, en bij de andere vijver zie je alleen de vissen die spontaan boven het water uitspringen. De ene vijver staat voor niet- internetgebruikers. De andere vijver, met de spontane springers, staat voor de mensen die op eigen initiatief aan het onderzoek deelnemen. Wat weet je nu van de dode vissen op de bodem, de mensen die je niet ziet op het internet? En, kun je de kennis over de springerige types toepassen op de hele populatie?

En, kun je de kennis over de springerige types toepassen op de hele populatie?

De onderzoekers van 21minuten lossen deze selectieproblemen onder meer op door de respondenten te ‘wegen’. Iedereen telt mee, maar sommigen meer dan anderen. Wiebe Draijer van McKinsey noemt het voorbeeld van een man, 45 jaar oud, met een bovengemiddeld inkomen uit Amsterdam-Noord. Stel er komen in het onderzoek tien mensen van dit type voor, maar gezien de opbouw van de Nederlandse bevolking, bekend van CBS-gegevens, heb je er maar drie nodig. Dan worden de antwoorden van de tien mensen in het onderzoek met een factor 0,3 vermenigvuldigd.

Daarnaast is er weging voor de neiging om mee te doen aan surveys. Want de deelnemers doen op eigen initiatief mee aan een opinieonderzoek over democratie. Dat is actiever gedrag dan verwacht wordt van de doorsnee bevolking. Om voor deze ‘afwijking’ te controleren, meten de onderzoekers sociale betrokkenheid en motivatie. Dat gebeurt met een vraag als: ‘Doet u vrijwilligerswerk?’ En met stellingen als: ‘Ik vind het belangrijk om maatschappelijk hogerop te komen.’

Weegfactor en panel

Maar hoe weet je nu welke weegfactor je aan wie gaat toekennen? Hoe zit het met de gemiddelde actieve houding van de Nederlandse bevolking? Daarom spelen achter het megabestand van 100.000 mensen van 21minuten.nl twee andere groepen geïnterviewden een cruciale rol: een internetpanel en een steekproef, beide van onderzoeksbureau Motivaction. Het Stempuntpanel is een internetpanel dat Motivaction zo representatief mogelijk probeert te krijgen. Zowel dat panel als het 21minuten-bestand wordt geijkt aan een aselecte ‘ouderwetse’ steekproef van 2.000 aan huis bezochte mensen.

Maar deze extra visvijvers van Motivaction, waar je wel alle vissen goed kunt zien, stellen Bethlehem niet tevreden: „De betrouwbaarheid van de uiteindelijke uitkomsten van 21minuten.nl is niet groter dan het onderzoekje van 2.000 personen. Waarom zou je dan de moeite nemen om zo’n groot onderzoek te doen?“

Paul Schnabel is directeur van het Sociaal en Cultureel Planbureau (SCP) en lid van het comité van aanbeveling van 21minuten.nl. Hij bevestigt dat voor de wetenschap een onderzoek van 2.000 mensen genoeg zou zijn. En die 100.000 mensen dan? Schnabel: „Politiek en maatschappelijk is dat belangrijk, maar wetenschappelijk niet. De toetsingsgraad is de steekproef van 2.000 en daaromheen wordt gewogen. Het is meer een volksraadpleging. Algemene vragen zijn niet interessant. Maar als je iets wilt weten over jonge, etnische ondernemers, dan levert het interessante gegevens op.“

Informatie over wie er niet meedoet

De marktonderzoekssector zelf wordt overigens steeds alerter op de gevaren van zelfselectie. Het Nederlands Online Panel VergelijkingsOnderzoek (NOPVO) presenteerde in 2006 de structurele afwijkingen van negentien on-line panels die samen 90 procent van het panel onderzoek in Nederland uitmaken. Conclusies: vooral heavy users van internet blijken onderzoekbereidwillig. Niet-westerse allochtonen ontbreken praktisch volledig, kerkgangers en CDA-stemmers doen te weinig mee, en SP-kiezers teveel. Treedt die selectie ook niet op in traditioneel huis-aan-huis-onderzoek? Daar doen toch ook alleen de actieven die goed kunnen lezen aan mee? „Wij hebben tenminste nog informatie over wie er niet meedoet. Over hun woonwijk, het huis, de leeftijd, het geslacht van die personen“, pareert Bethlehem.

ELLIE SMOLENAARS

Met veel dank aan de geïnterviewden en de redacteuren van NRC Wetenschap.