Kijk dieper in de data

Door Caroline Williams

In de wereld van data zou je kunnen denken dat het allemaal om de cijfers gaat. Hoe vaak zag je een kop zoals “89% van de Nederlanders denkt X”? Heb je jezelf ooit afgevraagd: “Hoe weten ze dat?” Als je zo’n zin ziet, accepteer je die dan als de waarheid?

Het klinkt overtuigend en heel feitelijk, nietwaar? Dat 89% van de Nederlanders, je medeburgers, allemaal X denken. Misschien is het een mening over het klimaat, de kosten van energie, immigratie, minimumloon of een ander onderwerp in het nieuws. Ze kunnen allemaal X zijn.

Volgens het Centraal Bureau voor de Statistiek (CBS) woonden er op 31 december 2022 ongeveer 17.815.508 mensen in Nederland. Hoeveel is 89% van dat aantal? Dat zouden 15.855.802,12 mensen zijn. Heeft iemand de tijd genomen om al die mensen hun mening over X te vragen? Is dat hoe ze tot de resultaten van hun artikel zijn gekomen?

Hoe groot acht je de kans dat meer dan 15 miljoen mensen het erover eens zijn om over één onderwerp op dezelfde manier te denken? Vergeet niet dat het 89% van de bevolking is, dus dat betekent dat je nog steeds de hele bevolking van het land de vragen moet stellen die je onderzoekt. Hoe lang denk je dat dat zou duren? Laten we zeggen dat het een zeer korte vragenreeks is, duurt 5 minuten per persoon. Het zou je 89.077.540 minuten of 1.484.625,67 uur of 37,12 weken fulltime (40 uur) werk kosten.

Kun je je voorstellen dat dit elke keer werd gedaan als iemand een artikel wilde schrijven over een bepaald onderwerp en hoe wij burgers ons daarbij voelden? Als je begint te zeggen “Ik geloof niet dat ze dat zouden doen”, dan begin je al te denken als een datamens. Het eerste dat ieder van ons kan doen als we een grote verklaring zoals de genoemde zien, is onszelf afvragen: “Ik vraag me af welke gegevens ze gebruiken?”

Het stellen van vragen over waar de gegevens vandaan komen, is de sleutel. Iemand die goede datavaardigheden beoefent, zal in zijn artikel zijn gegevensbronnen vermelden. Dit omvat gegevens die ze gebruiken van derden zoals het CBS. Hiertoe hoort ook informatie over de omvang van de onderzoekspopulatie. Bijvoorbeeld het totale aantal mensen dat ze hebben geïnterviewd, en hun leeftijdscategorieën. Bijvoorbeeld dat ze voor het artikel 2000 volwassenen tussen de 18 en 64 jaar vroegen naar hun mening over X. Er is een groot verschil tussen 89% van de 2000 ondervraagden en 89% van de bevolking van Nederland. De eerste groep is 1780 mensen, de tweede de meer dan 15 miljoen van hierboven.

Neem ook de tijd om te kijken waar de data echt vandaan komt. Is dit allemaal uit gegevens die zelf zijn verzameld of is het samengevoegd uit een aantal bronnen? De belangrijkste factor bij data is context. Dit betekent inzicht in de omstandigheden en omgeving waaruit de gegevens worden verzameld. Het gebeurt dat gegevens uit veel verschillende bronnen worden samengevoegd in één allesbeheersend model en dat zijn over het algemeen gegevens die context missen.

Wanneer je een artikel leest of hoort dat verwijst naar statistieken en gegevens, neem dan een moment en stel enkele vragen over de gegevens. Help anderen om je heen ook om die vragen te leren stellen. Wanneer we dat als samenleving doen, is de kans groter dat we nauwkeurigere gegevens en informatie krijgen. Als iemand niet bereid is om informatie over zijn gegevensbronnen te delen, dan hebben ze iets te verbergen. De vraag is alleen wat.