Oversampling

Hoe om gaan met doelgerichte enquêtes zonder het grote plaatje te verliezen

Een veel gebruikte manier om informatie te vergaren over een onderwerp is het gebruik van enquêtes. Vroeger lag de uitdaging van het enquêteren aan het verkrijgen van een representatieve steekproef. Maar nu maakt de online wereld het vrij simpel om met een paar klikken een grote groep mensen te bereiken. Dit betekent niet dat er vandaag de dag geen vraagstukken meer zijn omtrent enquêtes. Wanneer bedrijven namelijk enquêtes laten afnemen is het nu vaak of voor een specifieke doelgroep of voor de algehele populatie. Stel je voor: je wilt voornamelijk informatie vergaren over een specifieke doelgroep én daarnaast conclusies kunnen trekken met betrekking tot de gehele populatie, zonder de kosten op te drijven. Hoe ga je als bedrijf om met deze discrepantie van interesse en populatie op de meest kostenefficiënte manier?

Een belangrijk detail is dat de algehele populatie ook de specifieke doelgroep bevat. Dus dat scheelt al een deel van de extra enquêtes voor het laatstgenoemde. Er zijn verschillende manieren die nu het meest gebruikt worden om de doelgroep alsmede de populatie te bekijken:

Het lijkt het wellicht een goed idee om zoveel mogelijk enquêtes te laten invullen door de doelgroep. Dit kan je doen door de hoeveelheid enquêtes die je afneemt te vergroten, want als je aantal respondenten vergroot, vergoot je ook je specifieke doelgroep. Wel betekent dit dat je de kosten snel omhoog jaagt. Een andere manier is om alleen de doelgroep te vergroten. Dit gaat dan gepaard met een relatieve afname van het aantal enquêtes voor de andere groepen. Om hiervoor te corrigeren zou je een deel van de doelgroepenquêtes kunnen gebruiken om een representatieve steekproef te krijgen (anders bestaat de steekproefpopulatie uit bijvoorbeeld 50% doelgroep en 50% niet doelgroep, en dat is niet hoe de populatie er normaal uitziet). Het nadeel hiervan is, is dat je informatie weggooit.

Oversampling:
Om deze nadelen weg te nemen kun je het beste gebruik maken van een samenstelling die alle extra doelgroeprespondenten gebruikt, maar hiervoor corrigeert. Dit wordt oversampling genoemd. Dit kan op een simpele manier, bijvoorbeeld welk cijfer geef je een product X, waar de mening van de doelgroep wordt gecorrigeerd met de oversampling rate (e.g. 2x zoveel respondenten van de doelgroep, waar de cijfers van de doelgroep dan worden vermenigvuldigd met een hal). Maar voor meer uitgebreide modellen, zoals “Hoe beïnvloeden de kosten, uitstraling en kleur van een product de keuze van de klant om het product te kopen?”, wordt het ingewikkelder.

Om een antwoord te geven op de hoofdvraag: ”Hoe ga je als bedrijf om met de discrepantie van interesse en populatie op de meest kostenefficiënte manier?” moet eerst de volgende vraag beantwoord worden: hoeveel kan je oversampelen met een vast aantal enquêtes?

Voorbeeld
In de geest van de verkiezingen: stel je voor dat je benieuwd bent naar de keuze van mensen voor bepaalde partijen en hoe dit beïnvloed wordt door verschillende facetten van de lijsttrekker (e.g. sex appeal, kledingstijl, debatten etc.). De algehele populatie vind je niet onbelangrijk, maar je wil vooral de mening van vrouwen tussen de 20 en 30 jaar weten, wat ongeveer 10% van heel
Nederland omvat. Je stelt een enquête op met de vraag over wat men wil stemmen alsmede de mening over verschillende facetten per lijsttrekker. Hoe kan je oversampling gebruiken om een zo duidelijk mogelijk beeld te krijgen van de invloed van de verschillende facetten en de stemkeuze van vrouwen tussen de 20 en 30 jaar, zonder dat je het beeld van de algehele populatie verliest? Hierbij rekening houdend met een budget van 500 enquêtes.

De oplossing?
Laat ik maar meteen zeggen: er is helaas niet een bepaald percentage dat de oplossing is. De beste oversamplingpercentage van de doelgroep hangt af van verschillende factoren: het aantal enquêtes dat gekocht/afgenomen kunnen worden, de relatieve grootte van de target groep tegenover de gehele populatie en de grootte van het model waarop de voorkeur getoetst wordt (dus het aantal variabelen om dit te schatten). Om verder te gaan op ons voorbeeld: we gebruiken gegenereerde data van 500 en 2000 enquêtes, 4 verschillende facetten (de meningen over de lijsttrekkers) en hetgeen we geïnteresseerd in zijn (in dit geval de stemkeuze). We oversampelen de doelgroep voor voor verschillende oversamplingrates (100-950%, waar bij 100% geen oversampling gebruikt wordt en waar bij 950% de steekproef voor 95% uit de doelgroep bestaat) en kijken naar de nauwkeurigheid van het effect van de geschatte variabelen (dus hoe dicht de schatting van het effect van de verschillende facetten op de stemkeuze bij de echte waarde zit (deze is gegenereerd, dus is bekend) voor 500 en 2000 enquêtes: