UNIVERSITEIT GENT FACULTEIT ECONOMIE EN BEEDRIJFSKUNDE ACADEMIEJAAR 2004-2005
De impact van ‘nonresponse bias’ op de verwerking en resultaten van enquêtes
Scriptie voorgedragen tot het bekomen van de graad van: licentiaat in de toegepaste economische wetenschappen
Bruno D’havé onder leiding van prof.dr. Patrick Van Kenhove
“Permission”
2
UNIVERSITEIT GENT FACULTEIT ECONOMIE EN BEEDRIJFSKUNDE ACADEMIEJAAR 2004-2005
De impact van ‘nonresponse bias’ op de verwerking en resultaten van enquêtes
Scriptie voorgedragen tot het bekomen van de graad van: licentiaat in de toegepaste economische wetenschappen
Bruno D’havé onder leiding van prof.dr. Patrick Van Kenhove
“Permission”
3
Woord vooraf De auteur wenst zijn promotor prof dr. Patrick Van Kenhove en zijn begeleidster, MarieHélène de Cannière te bedanken voor hun zeer gewaardeerde inbreng. Verder wenst de auteur nog het kledingbedrijf te bedanken voor het ter beschikking stellen van de klantendatabase. Tenslotte wordt ook het marktonderzoeksbureau bedankt voor het toestaan van een interview.
4
Inhoudsopgave 1. Inleiding 2. Het begrip nonresponse bias 2.1. Soorten nonresponse en nonresponse bias 2.1.1. Het gevaar van responsverhogende maatregelen 2.1.2. Wanneer kan men nonresponse negeren? 2.2. Redenen van nonresponse 2.2.1. Redenen van unit nonresponse 2.2.2. Noncontacts 2.2.3. Refusals 2.2.3.A. Leverage-salience theory 2.2.3.A.1. Het belang van interesse in het onderwerp 2.2.3.B. Uitgebreide theory of planned behaviour 2.2.3.C. Survey response propensity 2.3. Interpretatie nonresponse in het kader van deze thesis 2.4. Redenen voor inschatten nonresponse bias 3. Bestaand onderzoek 3.1. Algemeen 3.2. Specifiek in de marketing 3.2.1. Literatuur met nonresponse als centrale thema 3.2.2. Een analyse van de marketingliteratuur: schat men nonresponse bias in? 4. Hoe nonresponse bias inschatten? 4.1. De basismethoden 4.1.1. Technieken die gebruik maken van a priori beschikbare gegevens 4.1.1.A. Het gebruik van externe populatiechecks 4.1.1.B. Het gebruik van geografische/geaggregeerde gegevens 4.1.2. Technieken die gebruik maken van gegevens over nonrespondenten 4.1.2.A. Schattingen door de interviewer 4.1.2.B. Gegevens direct verkregen van nonrespondenten 4.1.3. Technieken die steunen op bewerking van gegevens over respondenten 4.1.3.A. Substitutie van nonrespondenten 4.1.3.B. Politz-Simmons aanpassing 4.1.3.C. Extrapolatie op basis van moeilijkheid (difficulty) 4.1.3.C.1. Wave analysis 4.1.3.C.2. Time trends 4.1.3.C.3. Method of concurrent waves 4.1.3.D. Aanpassing op basis van conversie 4.2. De PEDAKSI-methodologie (combinatie van voorgaande) 4.3. Haalbaarheid van de diverse technieken in een marketingcontext 4.4. Gebruik van de verschillende technieken: een analyse van de marketingliteratuur 5. Nonresponse in een commercieel marktonderzoek 6. Empirisch 6.1. Hypothesen 6.2. Beschrijving van de variabelen 6.3. Gegevensverzameling 6.4. Gegevensanalyse 6.5. Evaluatie van de hypothesen 7. Algemeen besluit
7 8 9 10 11 11 12 12 12 13 14 15 15 15 16 17 17 17 18 19 25 25 26 26 27 27 27 28 28 28 29 29 30 31 31 32 32 34 36 39 41 41 41 44 47 51 52
5
Lijst van tabellen 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Concrete voorbeelden van refusal, noncontact en onvermogen voor de verschillende datacollectiemedia (Groves et al., 2002, pp. 6) Inschatting van nonresponse bias in de geneeskunde en de politieke wetenschappen (enkele voorbeelden) Het belang van nonresponse bias in de marketingliteratuur Het belang van nonresponse bias in de B2C-marketingliteratuur Gemiddelde responsgraad in de marketingliteratuur Verdeling van de geselecteerde artikels over de verschillende datacollectiemethodes Verdeling van de geselecteerde artikels over de verschillende datacollectiemethodes (enkel B2C-studies) Responseverhogende maatregelen in de marketingliteratuur Responseverhogende maatregelen in de B2C-marketingliteratuur Technieken voor het inschatten van nonresponse bias Toegepaste technieken in de wetenschappelijke marketingliteratuur Toegepaste technieken in de wetenschappelijke B2C-marketingliteratuur Significante verschillen tussen respondenten en nonrespondenten Criteria voor indeling in early en late categorie Benaming van de verschillende logistische regressiemodellen
12 18 20 21 22 24 24 25 25 26 36 37 47 49 50
Lijst van figuren A
Methoden van wave analysis (Armstrong & Overton, 1977)
31
6
1. Inleiding
Bij wetenschappelijk onderzoek wordt voor de datacollectie vaak een beroep gedaan op enquêtes. Men trekt een steekproef van de populatie en dient de enquête toe aan alle leden van de steekproef. De resultaten van de enquête worden daarna meestal veralgemeend tot de volledige populatie. Nochtans zijn enquêtes als datacollectie-instrumenten onderhevig aan een aantal vertekenende effecten zoals steekproeffouten, meetfouten en nonresponse bias. Het geheel van deze vertekenende effecten kan ertoe leiden dat de betrouwbaarheid van de conclusies, voortvloeiende uit enquêtes, heel laag is. Het is dus belangrijk dat we deze vertekenende effecten ofwel inschatten, ofwel tot een minimum beperken. Als we even dieper ingaan op deze vertekenende effecten in een marketingcontext, merken we dat deze effecten hier heel sterk aanwezig zijn. Dit wordt mede veroorzaakt door de kostenefficiëntie waarnaar marketingonderzoek steeds streeft. Hierdoor opteert men er vaak voor met nietprobabilistische steekproeven te werken. Dit resulteert in een lagere representativiteit van de steekproef (De Pelsmacker & Van Kenhove, 2002). We wensen ons echter te concentreren op het vertekenend effect dat uitgaat van nonresponse. In de politieke wetenschappen en in de geneeskunde wordt in sterke mate rekening gehouden met de vertekenende invloed die nonresponse kan uitoefenen op de resultaten. In marketing, daarentegen, werd nog maar weinig onderzoek verricht naar nonresponse bias. Aangezien marketingonderzoek vaak geplaagd wordt door een heel lage responsgraad (veel lager dan in de politieke wetenschappen of de geneeskunde), lijkt het nochtans zinvol om hier dieper op in te gaan. De potentiële maximale nonresponse bias stijgt immers naarmate de responsgraad daalt. Men beperkt zich in de praktijk jammer genoeg vaak tot het maximaliseren van de responsgraad. Zelfs na allerlei responseverhogende ingrepen slaagt men er in een marketingcontext vaak niet in om een hoge responsgraad te bereiken. Men kan dus (zelfs indien men afwezigheid van eerder genoemde vertekenende effecten zoals steekproeffouten en meetfouten veronderstelt) ernstige bedenkingen hebben bij de betrouwbaarheid van de resultaten en conclusies van de meeste onderzoeksprojecten in het functionele domein van de marketing. Om inzicht te krijgen in deze problematiek is het dan ook zinvol om de nonresponse bias in te schatten door het toepassen van allerlei technieken.
7
Bij het inschatten van de nonresponse bias in een marketingcontext baseerde men zich steeds bijna uitsluitend op demografische gegevens. Men liet daarbij na te onderzoeken in welke mate andere variabelen een invloed kunnen uitoefenen op het responsgedrag. Deze thesis is een aanzet om dit hiaat op te vullen. Het is hierbij niet de bedoeling dieper in te gaan op specifieke responsverhogende maatregelen en hun effecten. Zij worden slechts zijdelings besproken. We zullen wel nagaan of het zinvol is om nonresponse bias in te schatten in een marketingcontext. We zullen m.a.w. nagaan in welke mate men de aanwezigheid van nonresponse bias mag verwachten in een marketingcontext. Hiervoor zullen we ook de invloed van niet-demografische variabelen op het responsgedrag onderzoeken. Deze data zijn in steeds grotere mate beschikbaar aangezien steeds meer bedrijven deze gedragsdata bijhouden in databases.
2. Het begrip nonresponse bias.
2.1. Soorten nonresponse en nonresponse bias. Wanneer een enquête wordt toegezonden aan een lid van de steekproef en deze persoon de vragenlijst niet of niet (volledig) ingevuld terugstuurt, noemen we dit nonresponse. Wanneer een vragenlijst niet of niet ingevuld teruggestuurd wordt, noemen we dit unit nonresponse. Wanneer een vragenlijst wordt teruggestuurd, maar enkele vragen (of items) blijven onbeantwoord, noemen we dit item nonresponse. Het probleem van item nonresponse is vrij gemakkelijk op te lossen via wiskundige technieken (imputatietechnieken). Het unit nonresponse probleem is veel moeilijker te verhelpen. Het gebruik van wiskundige technieken (bijvoorbeeld extrapolatie) kan helpen, maar reikt geen waterdichte oplossing aan. De relatie tussen nonresponse en schattingen op basis van een steekproef (survey estimates) is eenvoudig. De precieze impact van nonresponse op deze survey estimates is echter meestal onbekend.
8
We kunnen de relatie als volgt weergeven (Smith, 1983; Jackman 1999): Ygem = W1(Y1)gem + W2(Y2)gem = W1(Y1)gem + (1-W1)(Y2)gem
(1)
Ygem : steekproefgemiddelde van de variabele Y W1 : proportie respondenten in de steekproef (de responsgraad) W2 : proportie nonrespondenten (Y1)gem : gemiddelde van de variabele Y voor de respondenten (Y2)gem : gemiddelde van de variabele Y voor de nonrespondenten In de praktijk zal men vaak (Y1)gem gebruiken om conclusies te trekken in verband met Ygem. Men negeert dus de tweede term W2(Y2)gem. Hierbij veronderstelt men dus impliciet dat (Y2)gem niet significant verschilt van (Y1)gem. Indien deze gemiddelden wel significant verschillen, is er sprake van nonresponse bias. Strikt genomen is vergelijking (1) onvolledig. Normaal gezien zouden we er nog een extra term ε moeten aan toevoegen. Deze term zou dan de sampling error vertegenwoordigen. In een volledig aselecte steekproef (simple random sample) is de verwachtingswaarde van ε nul. We zullen er voor de berekening van de nonresponse bias van uit gaan dat er een volledig aselecte steekproef genomen is. Dit is eigenlijk een abstractie van de werkelijkheid, zeker in een marketingcontext. Marketeers maken immers vaak gebruik van niet-probabilistische steekproeven (bijvoorbeeld gemakkelijkheidssteekproeven en quotasteekproeven). We kunnen de nonresponse bias (b) dan als volgt berekenen (Jackman, 1999): b = (Y1)gem - Ygem = (Y1)gem - W1(Y1)gem - (1-W1)(Y2)gem = (1- W1) ((Y1)gem – (Y2)gem)
(2)
Hieruit volgt dan dat er geen nonresponse bias is (dus dat b = 0) in 2 specifieke gevallen: nl. als W1 = 1 of als (Y1)gem = (Y2)gem. In het eerste geval bedraagt de responsgraad 100 % en zijn er dus geen nonrespondenten. In werkelijkheid komt een responsgraad van 100 % bijna nooit voor. In het tweede geval is er geen verschil in gemiddelde van de variabele Y tussen respondenten en nonrespondenten. Hoe groter het verschil tussen (Y1)gem en (Y2)gem, hoe groter de mate van nonresponse bias. Hoe lager de responsgraad (W1), hoe groter de proportie nonrespondenten (W2), hoe significanter de nonresponse bias (Smith, 1983).
9
Indien de nonresponse bias significant is, kan dit er toe leiden dat er verkeerde conclusies getrokken worden met betrekking tot de variabele Y. Vaak probeert men dan ook om de nonresponse te beperken tot een minimum (bijvoorbeeld door het gebruik van voorgefrankeerde antwoordenveloppes, het garanderen van de anonieme verwerking van enquêtes, ...). Toch zal er in vele gevallen, zelfs na reductie van de nonresponse, nog een bepaalde nonresponse bias aanwezig zijn. De vraag is dan of deze nonresponse bias significant is. Het probleem dat zich hierbij stelt, is dat men vaak geen gegevens heeft van nonrespondenten met betrekking tot de variabele Y (m.a.w. (Y2)gem is niet gekend). We gaan verder in deze uiteenzetting (in paragraaf 3) dieper in op hoe we deze parameter (Y2)gem kunnen meten en bijgevolg de nonresponse bias kunnen inschatten. 2.1.1. Het gevaar van responsverhogende maatregelen. Onderzoekers streven vaak een hoge responsgraad na. Hiertoe gebruiken ze allerlei middelen om leden van de steekproef aan te moedigen om te participeren in het onderzoek. Deze responsverhogende maatregelen kunnen echter een invloed uitoefenen op de samenstelling van de steekproef en dus op het verschil in gemiddelden tussen respondenten en nonrespondenten. Uit de literatuur blijkt duidelijk dat men bijgevolg geen buitensporige inspanningen mag doen om personen die initieel weigeren mee te werken toch te overtuigen. Indien men dit toch doet, loopt men het risico “personen te recruteren die onverschillig zijn met betrekking tot het beantwoorden van de vragen” (Singer et al.,2000). Singer et al. (2000) stellen verder dat incentives die worden verstrekt voor de participatie aan de enquête (de zogenaamde prepaid incentives) de samenstelling van de steekproef niet beïnvloeden. Bij incentives die enkel worden verstrekt om zij die initieel weigerden mee te werken toch te overtuigen, is dit wel het geval. In bepaalde gevallen kunnen incentives bovendien effectiever zijn bij personen die reeds oververtegenwoordigd zijn in de groep van respondenten. Hierdoor wordt de oververtegenwoordiging van een bepaalde groep uit de populatie in de groep van respondenten zelfs nog versterkt (Groves et al., 2002, pp.197-211). 2.1.2. Wanneer kan men nonresponse negeren? Uit een lage responsgraad mag niet zonder meer afgeleid worden dat er sprake is van een significante vertekenende invloed van nonresponse. Als respondenten en nonrespondenten heel weinig van elkaar
10
verschillen met betrekking tot de bestudeerde variabelen, zal zelfs een heel lage responsgraad niet leiden tot significante nonresponse bias. In dit laatste geval spreekt men van negeerbare nonresponse. 2.2. Redenen van nonresponse. Een lid van de steekproef kan verschillende redenen hebben om zich als nonrespondent te profileren. De persoon kan niet thuis zijn. Dan is hij m.a.w. niet beschikbaar. Daarnaast is het mogelijk dat de persoon niet contacteerbaar is. Er is m.a.w. geen ander gezinslid aanwezig. Een derde mogelijkheid is dat de betrokken persoon wel thuis of contacteerbaar is, maar gewoonweg niet wil meewerken. Tenslotte is het ook mogelijk dat de persoon in kwestie mentaal of fysisch (bijvoorbeeld blinden of personen met een sterk verminderd gezichtsvermogen) niet in staat is om mee te werken(Smith, 1983; Groves et al., 2002 pp.6-7). Personen die niet kunnen gecontacteerd worden noemt men vaak noncontacts of not-at-homes. Personen die weigeren mee te werken worden vaak aangeduid met de term refusals. In de literatuur stelt men vaak dat jonge mannen en werkende personen minder beschikbaar zijn. Personen die alleen wonen zijn uiteraard moeilijker contacteerbaar. Hetzelfde geldt voor personen die woonachtig zijn in grote steden. Zij doen minder snel open als er gebeld wordt. Vaak leven zij op plaatsen die moeilijk toegankelijk zijn voor interviewers door bijvoorbeeld hekkens of parlofoons (Stinchcombe et al, 1981). 2.2.1. Redenen van unit nonresponse per datacollectiemethode. We kunnen voor de verschillende redenen van nonresponse concrete voorbeelden geven naargelang het medium dat gebruikt wordt voor de datacollectie. De concrete voorbeelden worden weergegeven in tabel 1. Hierbij moeten we wel opmerken dat het bij postale en elektronische datacollectie veel moeilijker (en vaak zelfs onmogelijk) is om een onderscheid te maken tussen niet-gecontacteerde personen, refusals en zij die mentaal of fysisch niet in staat zijn. Wanneer een bepaald lid van de steekproef de vragenlijst niet terugstuurt of niet naar een bepaalde website surft of terugmailt, heeft de onderzoeker het raden naar de reden van nonresponse. Bij telefonische datacollectie en bij datacollectie via interviews, daarentegen, kan de interviewer dit onderscheid wel maken.
11
Tabel 1: Concrete voorbeelden van refusal, noncontact en onvermogen voor de verschillende datacollectiemedia (Groves et al., 2002, pp. 6)
Medium Postaal Elektronisch
Telefonisch Persoonlijk
Reden van nonresponse Geen contact Refusal Onvermogen Geen contact Refusal Onvermogen Geen contact Refusal Onvermogen Geen contact Refusal Onvermogen
Voorbeeld Geen aflevering Mailing gelezen, maar genegeerd Analfabetisme E-mail niet ontvangen Eerste pagina geopend, dan website verlaten Computer kan niet downloaden Telefoon wordt niet opgenomen Lid van de steekproef hangt op Doofheid, taalbarrières Niemand antwoordt Lid van de steekproef wil niet meewerken Taalbarrières
Kost om nonresponse te verlagen Laag Hoog Hoog Laag Hoog Hoog Laag Hoog Hoog Laag Hoog Hoog
Nochtans kan het interessant zijn om dit onderscheid te maken, vermits de aanpak van not-at-homes en refusals sterk verschilt. Bovendien is er ook vanuit een kostenperspectief een sterk verschil tussen notat-homes en refusals. (Groves et al., 2002, pp.7) Het is veel goedkoper om respons te verkrijgen van not-at-homes dan om refusals te overhalen toch mee te werken (Groves et al., 2002, pp.7). 2.2.2. Noncontacts. Algemeen werd verwacht dat antwoordapparaten en telefoontoestellen die de beller identificeren zouden leiden tot een groter percentage noncontacts1. De twee betrokken technologieën vormen voorlopig echter nog geen grote hinderpaal voor enquête-gebaseerd onderzoek (Link & Oldendick, 1999). 2.2.3. Refusals. Eenmaal men er in is geslaagd een lid van de steekproef, moet men deze persoon ook nog overtuigen mee te werken aan de enquête. Hierbij is het belangrijk dat men een inzicht verwerft in het beslissingsproces van leden van de steekproef met betrekking tot het al dan niet participeren.
1
Men zou kunnen argumenteren dat het hier om verdoken refusals gaat.
12
We bespreken drie theorieën hieromtrent (Bosnjak et al.,2005): 1/ leverage-salience theory 2/ uitgebreide versie van de Theory of Planned Behaviour 3/ Survey response propensity 2.2.3.A. Leverage-salience theory. De leverage-salience theory (Groves et al., 2000) stelt dat de mate waarin een individueel lid van de steekproef bereid is mee te werken afhankelijk is van enerzijds de salience van de attributen van het aanbod om mee te werken en anderzijds de leverage van deze attributen bij deze persoon. Deze theorie stelt het aanbod om mee te werken voor als een geheel van attributen. Zo zullen bijvoorbeeld incentives, reminders, vermelding van de institutie van wie het onderzoek uitgaat, voorgefrankeerde antwoordenveloppe al dan niet deel uitmaken van dit aanbod. Het onderwerp van de enquête is ook een (heel belangrijk) attribuut. Door het aanbod aan te passen kunnen bepaalde attributen meer of minder opvallend gemaakt worden voor een individueel lid van de steekproef. Hoe opvallender een attribuut wordt gemaakt voor een bepaald lid van de steekproef, hoe hoger de salience van dit attribuut. De salience van een attribuut verschilt met andere woorden van onderzoek tot onderzoek, afhankelijk van het design van het onderzoek. Leden van de steekproef verschillen sterk van elkaar met betrekking tot het belang dat zij hechten aan de verschillende attributen in hun beslissing om al dan niet te antwoorden op een enquête. Hoe hoger het belang dat een lid van de steekproef hecht aan een bepaald attribuut, hoe hoger de leverage van dit attribuut. De leverage van een bepaald attribuut varieert van persoon tot persoon en kan zowel positief als negatief zijn. Meestal beschikken onderzoekers niet over directe maatstaven voor de leverage van de verschillende attributen. In vele gevallen kan men echter wel karakteristieken identificeren die correleren met de leverage. Ook de salience van een attribuut zal vaak indirect afgeleid worden, meer bepaald uit de aanof afwezigheid van experimentele manipulatie (Groves et al., 2000). Het hoofdeffect van een attribuut i op de beslissing van persoon j om al dan niet te participeren, is dan het product van de salience van attribuut i (de mate waarin atrribuut i opvallend is gemaakt in het aanbod om mee te werken aan de enquête) en de leverage die persoon j aan dit attribuut toekent.
13
Groves et al. (2000) nemen aan dat het effect van het verhogen van de salience van een topic met een sterke positieve leverage op de bereidheid om mee te werken aan de enquête logistisch van aard is. Naarmate de bereidheid om mee te werken groter wordt, neemt het effect van het verder verhogen van de salience van een attribuut met een positieve leverage dus af. We beschouwen nu gelijktijdig alle attributen van het aanbod om te participeren. Een onderzoeker kan een bepaald lid van de steekproef het best overtuigen om mee te werken door deze attributen waaraan de persoon de grootste leverage toekent het meest te doen opvallen in het aanbod om te participeren. Men moet zeker vermijden dat attributen waaraan de betrokken persoon een negatieve leverage toekent, opvallen. Bovendien kan het effect van het ene attribuut gecompenseerd worden door het effect van een ander attribuut met een leverage in de tegenstelde richting (positief i.p.v. negatief of vice versa). Deze theorie heeft een aantal belangrijke implicaties. Ten eerste zal het effect van responseverhogende initiatieven (cover letters, incentives, reminder cards,…) verschillen naargelang de subgroep en het design. Iedere subgroep zal een andere leverage hebben voor deze attributen. Bovendien zal de salience van het initiatief afhangen van het design van de studie. Ten tweede zullen toevoegingen van attributen aan het aanbod om te participeren, wijzigingen veroorzaken in de samenstelling van de steekproef. Subgroepen met een hogere leverage voor een nieuw attribuut zullen immers in sterkere mate reageren op de wijzigingen(Groves et al.,2000). 2.2.3.A.1. Het belang van interesse in het onderwerp. Eén van de belangrijkste attributen van het aanbod om te participeren is het onderwerp van de enquête (survey topic). Leden van de steekproef met meer interesse voor het specifieke onderwerp van de enquête hebben meestal andere waarden op de belangrijkste constructen en variabelen in die enquête dan zij die weinig of niet geïnteresseerd zijn. Bovendien hebben zij een hogere leverage voor het onderwerp en zijn zij dus meer geneigd te antwoorden (Groves et al., 2004). Personen die in grotere mate geïnteresseerd zijn in het onderwerp zullen dus oververtegenwoordigd zijn in de groep van respondenten. De mate waarin zij oververtegenwoordigd zijn is afhankelijk van de leverage en salience van het onderwerp bij zij die beslissen om al dan niet mee te werken in vergelijking met de leverage en de salience van de andere attributen van het aanbod om te participeren. Als er geen andere attributen zijn, zal het onderwerp de basis vormen van de beslissing om al dan niet mee te werken. Als leden van de steekproef ook andere attributen (naast het onderwerp) in beschouwing nemen; wordt het effect van interesse in het onderwerp afgezwakt (Groves er al., 2004).
14
Het is heel waarschijnlijk dat de oververtegenwoordiging van in het onderwerp geïnteresseerde personen leidt tot de aanwezigheid van significante nonresponse bias. De oververtegenwoordigde subgroep verschilt, zoals reeds eerder aangegeven, sterk van minder geïnteresseerde personen met betrekking tot de belangrijkste variabelen en constructen. 2.2.3.B. Uitgebreide Theory of Planned Behaviour. De Theory of Planned Behaviour is een model die het gedrag van personen verklaart in omstandigheden waarin zij geen volledige controle hebben over hun gedrag. Het model stelt dat de gedragsintentie van een persoon verklaart wordt door zijn attitude ten opzichte van een product of dienst, de gepercipieerde sociale druk en de gepercipieerde controle die men heeft over het gedrag. Bosnjak et al. (2005) voegen hier nog een vierde verklarende factor aan toe: mate waarin men zich moreel verplicht voelt om deel te nemen aan de enquête. De gepercipieerde sociale druk legt de nadruk op het gedrag dat anderen van de betrokken persoon verwacht. De vierde factor, geïnternaliseerde morele regels, hebben geen betrekking op de mening van anderen. Uit een empirische studie (Bosnjak et al., 2005) blijkt dat de attitude ten opzichte van het al dan niet deelnemen aan enquêtes en de gepercipieerde controle die men heeft over het eigen gedrag de meest significante invloed hebben op het al dan niet participeren. Als men refusals wil overtuigen toch mee te werken, moet men zich bijgevolg vooral op deze twee variabelen richten. Deze uitgebreide Theory of Planned Behaviour is tot nu toe nog maar één keer empirisch geverifieerd (Bosnjak et al., 2005). Verder onderzoek naar de predictieve kracht van deze theorie is dus nodig. 2.2.3.C. Survey response propensity. Bickart & Schmittlein (1999) constateerden dat sommige respondenten een neiging vertoonden om te antwoorden op enquêtes (response propensity). Dit kenmerk veranderde bovendien niet doorheen de tijd. Nonrespondenten zouden dit kenmerk niet bezitten. 2.3. Definitie van nonresponse in het kader van deze thesis. We weten nu wat in het algemeen bedoeld wordt met nonresponse en nonresponse bias en waarom mensen beslissen niet of onvolledig te antwoorden. We zullen nu concretiseren hoe we het begrip nonresponse hanteren in het kader van deze thesis.
15
Wanneer in deze uiteenzetting de term “nonresponse” wordt gebruikt, wordt hiermee steeds unit nonresponse (en dus niet item nonresponse) bedoeld, tenzij expliciet anders vermeld. Bij de bespreking van deze unit nonresponse zullen we geen opsplitsing maken in de refusals, de not-athomes en zij die fysisch of mentaal niet in staat zijn. Onderzoekers in het domein van de marketing beschikken voor hun projecten meestal over aanzienlijk minder middelen dan hun collega’s in bijvoorbeeld de geneeskunde en de politieke wetenschappen. Het lijkt in die optiek dan ook niet zinvol om deze schaarse middelen te alloceren aan de verdere opsplitsing van nonrespondenten in groepen volgens hun reden van nonresponse. Het is, in het kader van deze studie, vooral de bedoeling om na te gaan wat de invloed is van nonresponse op de resultaten van enquêtes. De opsplitsing van nonrespondenten zou hier weinig toe bijdragen. In de rest van deze uiteenzetting zullen we deze opsplitsing dan ook niet meer maken. Verder wensen we niet in te gaan op het effect van specifieke elementen met betrekking tot het design van het onderzoek (bijvoorbeeld al dan niet gebruiken van incentive, follow-ups, …) op de responsgraad. Deze materie wordt enkel in de eigen literatuuranalyse (paragrafen 3.2.2) zijdelings toegelicht. Hierbij zal de focus steeds liggen op nonresponse bias in een B2C-context. 2.4. Redenen voor het inschatten van nonresponse bias. Het kan heel zinvol zijn om de nonresponse bias in te schatten. Het kan ons toelaten geld en tijd uit te sparen. Bovendien leidt het tot een grotere betrouwbaarheid van de resultaten en conclusies van wetenschappelijk onderzoek aan de hand van enquêtes. In sommige onderzoeksprojecten zou men (indien men weet in welke mate er sprake is van nonresponse bias) zich kunnen tevreden stellen met een lagere responsgraad omdat dit weinig of geen invloed heeft op de resultaten. In het bijzonder bij een reeds hoge responsgraad, zijn vaak substantiële financiële inspanningen vereist om de responsgraad verder te verhogen. Het inschatten van de nonresponse bias kan dus kostenbesparend werken (Armstrong & Overton, 1977). Zeker in een marketingcontext, waar de financiële middelen vaak heel beperkt zijn, is dit een zinvol argument. Daarnaast heeft men meestal slechts een beperkte tijdspanne om een onderzoeksproject af te werken. Het behalen van een hoge responsgraad is heel moeilijk in zulke omstandigheden. Dan is het wenselijk om de nonresponse bias in te schatten (Armstrong & Overton, 1977). In marketingonderzoek vormt ook de beschikbare tijd vaak een restrictie.
16
Het ultieme argument voor het inschatten van nonresponse bias is uiteraard de grotere validiteit van de conclusies. Indien men de richting en de grootte van de nonresponse bias niet kent, kan weinig waarde gehecht worden aan de conclusies van een (op een steekproef uitgevoerd) onderzoek. Dit argument gaat zeker op in een marketingcontext. Marketingonderzoek worstelt immers meestal met een lage responsgraad. Bovendien worden vaak niet-probabilistische steekproeven gebruikt, wat de validiteit van de resultaten verder in het gedrang brengt.
3. Bestaand onderzoek naar nonresponse
3.1. Algemeen. Zoals reeds werd aangehaald, is er in de geneeskunde en de politieke wetenschappen al veel meer onderzoek verricht naar nonresponse bias dan in marketing. Deze onderzoeken in eerstgenoemde wetenschappelijke domeinen zijn vaak heel diepgaand en grondig. Meestal worden meerdere technieken aangewend om de nonresponse in te schatten. In tabel 2 (zie volgende bladzijde) wordt ter illustratie voor enkele artikels besproken hoe de auteurs nonresponse bias inschatten2. Uit tabel 2 blijkt duidelijk dat in de geneeskunde en de politieke wetenschappen veel meer belang wordt gehecht aan en rekening wordt gehouden met nonresponse bias. Zelfs bij de (in vergelijking met het functionele domein van de marketing) vrij hoge responsgraden twijfelt men in deze wetenschappelijke domeinen nog aan de representativiteit van de steekproef van respondenten voor de hele populatie. 3.2. Specifiek in de marketing. Ook in de marketing is er al onderzoek verricht naar nonresponse bias. Dit onderzoek is echter vooral te situeren tussen 1950 en 1980. De laatste 25 jaar is er weinig onderzoek verricht naar de vertekenende effecten van nonresponse. Toch bespreken we kort enkele belangrijke artikels met betrekking tot nonresponse uit de marketingliteratuur in paragraaf 3.2.1.
2
Voor de meeste technieken om response in te schatten die weergegeven worden in de laatste kolom van tabel 2 bestaan vaste benamingen zoals bijvoorbeeld extrapolatie. We vermelden deze namen hier niet. We gaan dieper in op de verschillende technieken en hun benamingen in paragraaf 4.
17
De recente marketingliteratuur bevat heel weinig onderzoek naar nonresponse bias. Bovendien wordt het inschatten van nonresponse bias in de marketing door vele marketeers over het hoofd gezien. We gaan hier dieper op in in paragraaf 3.2.2.
Tabel 2: Inschatting van nonresponse bias in de geneeskunde en de politieke wetenschappen (enkele voorbeelden)
Referentie artikel
Thema
Onderzoek bij … patiënten (ziekenhuis)
Spooner et al. (2003)
satisfactie
Barclay et al. (2002)
planning benodigde aantal huisdokters
huisdokters
Mott et al. (2001)
kenmerken van apothekers
apothekers
Inschatting nonresponse Vergelijking van respondenten met populatie: significant verschil qua lengte van het verblijf. Vergelijking van respondenten met nonrespondenten: significant verschil qua leeftijd, geslacht en derde betaler. Uit logistische regressie blijkt dat leeftijd, geslacht en derde betaler een significante invloed hebben op het al dan niet antwoorden. Vergelijking van respondenten met nonrespondenten: significante verschillen qua lidmaatschap van een orde van geneesheren, medische school, aantal jaren afgestudeerd, … Significante verschillen tussen wie snel en wie later antwoordt (early en late respondents): significante verschillen m.b.t. medische school en gemiddeld aantal jaren afgestudeerd. Logistische regressie toont aan dat er een significante invloed uitgaat van medische school, gemiddeld aantal jaren afgestudeerd en lidmaatschap van een orde van geneesheren. Geen significante verschillen tussen wie antwoordt voor en wie antwoordt na het versturen van een tweede kopie van de vragenlijst.
3.2.1. Literatuur met nonresponse als centrale thema. Het belangrijkste artikel rond nonresponse dat werd gepubliceerd in een marketingtijdschrijft is dat van Armstrong & Overton (1977). Uit een meta-analyse bleek dat men via lineaire extrapolatietechnieken3 betere resultaten bekwam met betrekking tot de inschatting van nonresponse bias dan via subjectieve schattingen van nonresponse bias.
3
Zie paragraaf 4.1.3.C voor een uitgebreide bespreking van de verschillende extrapolatietechnieken.
18
Indien marketeers nonresponse bias inschatten, gebeurt dit in meer dan de helft van de gevallen aan de hand van extrapolatietechnieken (zie ook paragraaf 3.2.2). Het artikel van Armstrong & Overton is hier in belangrijke mate verantwoordelijk voor. Ook naar het artikel van Dunkelberg & Day (1973) wordt nog vaak gerefereerd in de hedendaagse literatuur rond nonresponse bias. Dit artikel lichtte het verband toe tussen het aantal huisbezoeken en de mate waarin er nonresponse bias aanwezig was met betrekking tot een aantal demografische variabelen. Bovendien werd een methode aangebracht om het benodigde aantal huisbezoeken te berekenen voor een gegeven gewenst niveau van accuraatheid. Omgekeerd maakte deze methode het mogelijk om de verbetering in accuraatheid van elk bijkomend huisbezoek te berekenen. Beide artikels werden gepubliceerd in marketingtijdschriften. De context van het empirisch onderzoek in beide artikels was echter niet marketinggerelateerd.
3.2.2. Analyse van de marketingliteratuur: schat men nonresponse bias in? Om na te gaan in welke mate men in de marketing belang hecht aan en rekening houdt met nonresponse bias, werd een literatuuranalyse uitgevoerd. Deze analyse had betrekking op 3 jaargangen (2002, 2003 en 2004) van 5 belangrijke tijdschriften (Journal of Marketing, Journal of the Academy of Marketing Science, Journal of Marketing Research, Management Science, Marketing Science). Alle artikels met onderzoek op basis van enquêtes (met postale, telefonische, persoonlijke of elektronische datacollectie of een combinatie van deze datacollectiemethodes) in de betrokken tijdschriften werden opgenomen in de analyse. De analyse gebeurde echter niet op het niveau van de artikels, maar op het niveau van de studies.Dit was een bewuste keuze die het mogelijk maakt om B2C-studies af te zonderen van B2B-studies, ook als zij deel uitmaken van eenzelfde artikel. Alle analyses zullen 2 maal herhaald worden: een eerste maal voor alle studies en een tweede maal voor studies die zich enkel in een B2C-context situeren. Hierbij is het van belang te vermelden dat voor alle geselecteerde artikels uit Management Science werd nagegaan of het centrale thema betrekking had op het functionele domein van de marketing. Indien dit niet het geval was, werden zij geweerd uit de analyse. Verder werd ook experimenteel onderzoek geweerd uit de analyse. Met betrekking tot dyadic research4, werd enkel de eerste pool van de dyade beschouwd. Men kan immers stellen dat voor het onderzoek van de tweede pool geen steekproef meer genomen wordt.
4
Onderzoek van dyaden of gekoppelde waarnemingen.
19
We verduidelijken dit aan de hand van een voorbeeld. We beschouwen hiertoe het artikel van Jap & Anderson (2003). De auteurs wilden relaties tussen klanten en leveranciers (in een B2B-context) onderzoeken. Aan iedere klant werd in een postale enquête gevraagd contactgegevens van één belangrijke leverancier te verschaffen. De steekproef bevatte 400 ondernemingen. 275 van deze ondernemingen beantwoordden de enquête en verschaften contactgegevens van een leverancier. Hierna werd een enquête afgenomen van de 275 leveranciers waarvan men de contactgegevens had verkregen. Het is duidelijk dat enkel bij de eerste pool (de klanten) een steekproef werd getrokken. Voor de leveranciers was dit niet het geval. Men stuurde immers enkel enquêtes naar de leveranciers waarvan men de contactgegevens had. Voor de studies die op de hierboven uiteengezette wijze werden geselecteerd, werd nagegaan of men de nonresponse bias had besproken. Verder werd ook achterhaald in welke mate men poogde om de nonresponse bias in te schatten. Bovendien analyseerden we ook in welke mate men trachtte te corrigeren voor nonresponse bias. De resultaten van dit eerste deel van de literatuuranalyse zijn weergegeven in tabel 3. Tabel 3: Het belang van nonresponse bias in de marketingliteratuur
Aantal enquête-gebaseerde onderzoeken Aantal onderzoeken met bespreking van nonresponse bias (absoluut) Aantal onderzoeken met bespreking van nonresponse bias (procentueel) Aantal onderzoeken met inschatting van nonresponse bias (absoluut) Aantal onderzoeken met inschatting van nonresponse bias (procentueel) Aantal onderzoeken met vermelding van significante nonresponse bias Aantal onderzoeken met correctie voor nonresponse bias
2002 34 19
2003 46 21
2004 46 19
Totaal 126 59
55,58%
45,65%
41,30%
46,83%
16
19
16
51
47,06%
41,30%
34,78%
40,48%
1
1
2
4
0
0
0
0
Zoals verwacht merken we dat nonresponse bias voor vele marketeers geen issue is: in slechts 46,83% van de artikels werd iets vermeld rond nonresponse bias. In slechts 40,48% van de artikels tracht men de nonresponse bias in te schatten. In een aantal gevallen gingen auteurs er van uit dat de responsgraad zo hoog was dat nonresponse bias onmogelijk een probleem kon vormen. Dit verklaart het verschil tussen de twee percentages (6,35%). In slechts 4 gevallen werd een significante nonresponse bias geconstateerd. Deze nonresponse bias werd echter genegeerd. Men verzuimde om te corrigeren voor deze nonresponse bias. Een van de
20
redenen is dat deze nonresponse bias zich in alle vier de gevallen slechts manifesteerde op het niveau van één of enkele variabelen of constructen. Voor de meeste variabelen of constructen was er in de 4 betrokken studies geen significant verschil in gemiddelde tussen respondenten en nonrespondenten. Aangezien we ons in deze thesis voornamelijk willen richten op nonresponse in een B2C-context, werden de gegevens uit tabel 3 ook berekend voor die artikels die zich louter in een B2C-context situeren. De resultaten zijn weergegeven in tabel 4.
Tabel 4: Het belang van nonresponse bias in de B2C-marketingliteratuur
Aantal enquête-gebaseerde onderzoeken Aantal onderzoeken met bespreking van nonresponse bias (absoluut) Aantal onderzoeken met bespreking van nonresponse bias (procentueel) Aantal onderzoeken met inschatting van nonresponse bias Aantal onderzoeken met inschatting van nonresponse bias (procentueel) Aantal onderzoeken met vermelding van significante nonresponse bias Aantal onderzoeken met correctie voor nonresponse bias
2002 15 7
2003 23 8
2004 21 3
Totaal 59 18
46,67%
34,78%
14,29%
30,51%
5
6
3
14
33,33%
26,09%
14,29%
23,73%
0
1
0
1
0
0
0
0
Ook hier merken we dat de inschatting van nonresponse bias niet altijd plaatsvindt. Slechts in 30,51% van de studies wordt er iets vermeld met betrekking tot nonresponse. In 23,73% van de enquêtegebaseerde studies wordt de nonresponse ook ingeschat. Deze percentages liggen veel lager dan deze uit tabel 3. Hieruit kunnen we concluderen dat men bij studies in een B2B-context relatief gezien vaker een inschatting maakt van nonresponse. Dit verschil bevestigt de vermoedens die men logischerwijs zou hebben. Om de nonresponse bias te kunnen inschatten, moet men immers de gemiddelde waarde van de variabelen of constructen voor nonrespondenten kennen. Er bestaan verschillende methoden om deze waarde direct of indirect te verkrijgen (zie ook paragraaf 4). De directe methoden vereisen echter dat men contactgegevens heeft voor de nonrespondenten. Deze contactgegevens zijn veel gemakkelijker te verkrijgen voor bedrijven (of hun managers of werknemers) dan voor consumenten. Ook hier werd, bij inschatting van de nonresponse bias, op 1 geval na altijd geconcludeerd dat de verschillen in gemiddelden tussen respondenten en nonrespondenten niet significant zijn.
21
Uit het voorgaande blijkt duidelijk dat marketeers zich nog niet volledig bewust zijn van de mogelijke vertekeningen die nonresponse kan teweegbrengen. Nochtans zijn er redenen genoeg voor marketeers om meer aandacht te besteden aan nonresponse. We gaven reeds eerder aan dat in de marketing de responsgraden doorgaans lager zijn dan in de politieke wetenschappen en de geneeskunde. De gemiddelde responsgraad voor de geselecteerde artikels werd berekend. De resultaten zijn weergegeven in tabel 5. Deze cijfers lijken vrij hoog te zijn. Dit heeft een aantal oorzaken. Tabel 5: Gemiddelde responsgraad in de marketingliteratuur
Gemiddelde responsgraad Gemiddelde responsgraad (enkel B2C)
2002 36,17% 40,15%
2003 47,76% 43,94%
2004 39,49% 50,40%
Totaal 41,77% 44,83%
Het berekenen van een gemiddelde responsgraad is niet eenvoudig. Dit wordt immers aanzienlijk bemoeilijkt door de afwezigheid van standaarden voor de berekening van de responsgraad. Zulke standaarden bestaan nochtans wel in andere disciplines (AAPOR,2004). In de marketingliteratuur wordt men echter geconfronteerd met een brede waaier van interpretaties van het begrip responsgraad. In zijn meest elementaire vorm is de responsgraad het quotiënt van het aantal respondenten en de grootte van de steekproef. De concrete maatstaven voor de teller en de noemer van de responsgraad zijn voor discussie vatbaar. Eén van de heikele punten is voorafgaandelijke prescreening van leden van de steekproef. Hierbij bepaalt men voorafgaand aan de eigenlijke datacollectie of de betrokken potentiële respondent geschikt is voor de studie en/of bereid is mee te werken. De feitelijke datacollectie is dan gericht op zij die geschikt werden bevonden en/of bereid waren mee te werken. Vele auteurs definiëren dan de responsgraad als een quotiënt met in de noemer het aantal overblijvende leden van de steekproef na de voorafgaandelijke screening. In de teller staat dan het aantal respondenten bij de feitelijke datacollectie. Het is duidelijk dat deze responsgraad veel hoger is dan de werkelijke responsgraad als men via prescreening ook zij die niet bereid zijn mee te werken uitsluit. Het zou dan ook beter zijn de responsgraad in zo’n geval te berekenen als het quotiënt van het aantal afgewerkte enquêtes en het aantal geschikte personen in de ruwe steekproef5 (ongeacht of zij bereid zijn mee te werken of niet). 5
De ruwe steekproef is de steekproef getrokken uit het steekproefkader, voor de eliminatie van steekproefleden door prescreening.
22
Een tweede probleem zijn de item nonrespondents. Het is begrijpelijk dat zij geweerd worden uit de teller van de responsgraad, aangezien zij meestal niet gebruikt worden in de gegevensanalyse. Voor de inschatting van unit nonresponse bias is echter het aantal unit nonrespondents (en niet het aantal item nonrespondents) van belang. Een derde punt is het aantal niet-afgeleverde enquêtes (door adreswijzigingen, wijzigingen van telefoonnummer of e-mailadres). De personen in kwestie zijn ons inziens eigenlijk noncontacts en mogen dus niet afgetrokken worden van de noemer. Dit laatste punt is echter voor discussie vatbaar. Waar nodig worden (indien de benodigde informatie in het artikel verstrekt wordt) drie correcties aangebracht: 1. Het aantal geschikte personen dat niet bereid was mee te werken en geëlimineerd werd na prescreening, wordt terug opgeteld bij de noemer van de responsgraad. 2. Het aantal item nonrespondenten wordt terug opgeteld bij de teller van de responsgraad. 3. Het aantal onafgeleverde enquêtes wordt terug opgeteld bij de noemer van de responsgraad. Merk op dat het aantal niet-geschikte personen volgens bovenstaande redenering wel mag worden afgetrokken van de noemer van de responsgraad. Ter illustratie werd ook de verdeling van de geselecteerde artikels over de datacollectiemethoden berekend.. In tabel 7 staat voor elk datacollectiemedium het aantal studies weergegeven dat van dit medium gebruikt maakt, zowel absoluut als relatief. In tabel 8 vindt men dezelfde gegevens voor de studies in een B2C-context. In beide tabellen is een “combinatie of niet gegeven”categorie voorzien. Studies werden om verschillende redenen onder deze categorie geklasseerd: 1. Onderzoekers maken vaak gebruik van prescreening van de leden van de steekproef. Dit houdt in dat men de leden van de steekproef contacteert vooraleer men aan de eigenlijke datacollectie begint. Het is hierbij de bedoeling te bepalen of een lid van de steekproef geschikt is voor het onderzoek en/of bereid is mee te werken. Van zodra er sprake is van een prescreening die gebruik maakt van een ander datacollectiemedium dan deze die gebruikt werd voor de enquête, komt een studie in deze categorie terecht. 2. Minstens één van de waves, follow-up calls, callbacks maken gebruik van een ander datacollectiemedium dan deze die gebruikt werd voor de eerste wave van de enquête. 3. De eigenlijke datacollectie maakt gebruik van meerdere datacollectiemedia. 4. Uit het artikel blijkt niet duidelijk welke datacollectiemedia werden gebruikt.
23
Wanneer men echter een ander datacollectiemedium gebruikte dan dat van de enquête met het expliciete en enkelvoudige doel om na de eigenlijke datacollectie gegevens over nonrespondenten te verzamelen en zo de nonresponse bias in te schatten (ook wel nonresponse subsampling genoemd; zie ook paragraaf 4), werd de studie niet onder de “combinatie of niet gegeven” categorie gerangschikt.
Tabel 6: Verdeling van de geselecteerde artikels over de verschillende datacollectiemethodes
Datacollectiemethode
Totaal Aantal %a Postaal 57 48,72 Telefonisch 7 5,98 Persoonlijk 22 18,80 Elektronisch 13 11,11 Combinatie of niet gegeven 18 15,38 Totaal 117 100,00 a: het percentage van de geselecteerde artikels dat gebruik maakt van de betrokken datacollectiemethode Tabel 7: Verdeling van de geselecteerde artikels over de verschillende datacollectiemethodes (enkel B2Cstudies)
Datacollectiemethode
Totaal Aantal %a Postaal 21 39,62 Telefonisch 6 11,32 Persoonlijk 14 26,42 Elektronisch 7 13,21 Combinatie of niet gegeven 5 9,43 Totaal 53 100,00 a: het percentage van de geselecteerde artikels dat gebruik maakt van de betrokken datacollectiemethode
Een andere reden voor de hoge responsgraden is het frequent gebruik van responseverhogende maatregelen. De cijfers omtrent deze maatregelen zijn weergegeven in tabel 8 (voor alle studies) en tabel 9 (voor de studies in een B2C-context). Alle percentages zijn berekend ten opzichte van het totaal aantal geselecteerde studies dat gebruik maakt van het betrokken datacollectiemedium. Tabel 8: Responseverhogende maatregelen in de marketingliteratuur
24
Responsverhogende maatregel Cover letter Voorgefrankeerde antwoordenveloppe Monetaire incentive Klein geschenk als incentive Liefdadigheid Loterijen Anonimiteit of vertrouwelijkheid Samenvatting resultaten Totaal aantal studies met de betrokken datacollectiemethode
Postaal Aantal % 22 38,60% 17 29,82%
Telefonisch Aantal % nvt nvt nvt nvt
Persoonlijk Aantal % nvt nvt nvt nvt
2 3,51% 1 1,75% 1 1,75% 2 3,51% 12 21,05% 7 12,28% 57
0 0,00% 0 0,00% 0 0,00% 0 0,00% 1 14,29% 0 0,00% 7
4 18,18% 0 0,00% 0 0,00% 1 4,55% 5 22,73% 0 0,00% 22
Elektronisch Aantal % nvt nvt nvt nvt 0 0 0 1 1 0 13
0,00% 0,00% 0,00% 7,69% 7,69% 0,00%
Tabel 9: Responseverhogende maatregelen in de B2C-marketingliteratuur
Responsverhogende maatregel Cover letter Voorgefrankeerde antwoordenveloppe Monetaire incentive Klein geschenk als incentive Liefdadigheid Loterijen Anonimiteit of vertrouwelijkheid Samenvatting resultaten Totaal aantal studies met de betrokken datacollectiemethode
Postaal Aantal % 8 38,10% 7 33,33% 2 1 0 2 5 0 21
9,52% 4,76% 0,00% 9,52 23,81 0,00
Telefonisch Aantal % nvt 0,00% nvt 0,00% 0 0 0 0 1 0 6
0,00% 0,00% 0,00% 0,00 16,67 0,00
Persoonlijk Aantal % nvt nvt nvt nvt 5 0 1 2 3 0 14
Elektronisch Aantal % nvt nvt nvt nvt
35,71 0,00 7,14 14,29 21,43 0,00
0 0,00 0 0,00 0 0,00 0 0,00 1 14,29 0 0,00 7
Aangezien we het vooral willen hebben over unit nonresponse en niet zo zeer over specifieke responsverhogende maatregelen, gaan we niet dieper in op deze cijfers.
4. Hoe nonresponse bias inschatten?
4.1. De basismethoden. Wanneer we willen inschatten in welke mate er sprake is van nonresponse bias, beschikken we over een aantal basistechnieken. We delen deze technieken in in 3 groepen: 1/ Technieken die gebruik maken van a priori beschikbare gegevens
25
Met a priori beschikbare gegevens bedoelen we deze gegevens waarover de onderzoeker reeds kan beschikken nog voor hij daadwerkelijk is overgaan tot de datacollectie. 2/ Technieken die gebruik maken van gegevens over nonrespondenten De gegevens hebben betrekking op nonrespondenten. Dit wil echter niet noodzakelijk zeggen dat zij door de onderzoeker rechtstreeks van nonrespondenten zijn verkregen. 3/ Technieken die steunen op de bewerking van gegevens over respondenten In totaal zijn er 9 basistechnieken (Smith, 1983), die elk in één van deze 3 groepen thuishoren. Ze worden schematisch weergegeven in tabel 10.
Tabel 10: Technieken voor het inschatten van nonresponse bias
Op basis van welke gegevens? A priori beschikbare gegevens Gegevens over nonrespondenten
Gegevens over respondenten
Technieken Externe populatiechecks Geografische/geaggregeerde data Schattingen door de interviewer Gegevens direct verkregen van nonrespondenten Interviewen van nonrespondenten over hun nonresponse Nemen van een substeekproef van nonrespondenten Substitutie van nonrespondenten Politz-Simmons techniek Extrapolatie op basis van moeilijkheid Wave analysis Last wave method Last respondent method Projected respondent method Time trends Method of concurrent waves Aanpassing op basis van conversie
4.1.1. Technieken die gebruik maken van a priori beschikbare gegevens. We bespreken twee technieken die gebruik maken van gegevens die beschikbaar zijn voor het datacollectiestadium van het onderzoek: het gebruik van externe populatiechecks en het gebruik van geografische/geaggregeerde gegevens. 4.1.1.A. Het gebruik van externe populatiechecks Deze methode omvat het vergelijken van schattingen op basis van een steekproef (sample estimates) met geprefereerde sample estimates of met bepaalde gekende cijfers over de populatie. We geven enkele voorbeelden. Voor een onderzoek naar het onveiligheidsgevoel bij de Britten en de criminaliteit
26
kan men de sample estimates van het onderzoek vergelijken met deze van de BCS (British Crime Survey, een grote enquête op nationaal niveau over misdaad en het onveiligheidsgevoel). Voor bepaalde sample estimates van onderzoeken op nationale schaal in België zou men de vergelijking kunnen maken met gegevens uit de volkstelling. Het probleem van deze aanpak is dat het verschil tussen de sample estimate en de geprefereerde sample estimate (of het gekende cijfer uit de populatie niet alleen aan nonresponse bias te wijten is. Ook interviewer bias, social desirability bias, ... kunnen hiertoe bijdragen. Indien men enkel nonresponse wil bestuderen, is deze aanpak dus niet zo geschikt. Bovendien zijn voor de meeste variabelen geen superieure sample estimates beschikbaar. Het gebruik van deze methode is in de praktijk dan ook vrij beperkt (Smith, 1983). 4.1.1.B. Het gebruik van geografische/geaggregeerde gegevens. Als de geografische locatie van leden van de steekproef gekend is, kan men voor alle leden codes toekennen m.b.t. bepaalde geaggregeerde gegevens zoals bijvoorbeeld soort regio of stad, beschrijving van de buurt door de interviewer, beschrijving van de woonzone door de interviewer. Deze aanpak is uiteraard niet veralgemeenbaar naar attributen die gemeten worden op het individuele niveau (Smith, 1983). 4.1.2. Technieken die gebruik maken van gegevens over nonrespondenten. We onderscheiden hierbij enerzijds deze technieken die gebruik maken van gegevens die rechtstreeks verkregen werden van nonrespondenten en anderzijds schattingen door de interviewer (waarbij de gegevens op indirecte wijze worden verkregen). 4.1.2.A. Schattingen door de interviewer. Deze techniek doet een beroep op de interviewer: de interviewer moet schattingen en observaties maken met betrekking tot gezinnen of individuele respondenten. Het spreekt voor zich dat deze schattingen gevoeliger zijn voor fouten en vergissingen (errors) dan rechtsreeks verworven data (Smith, 1983). We geven een voorbeeld. Stel dat een interviewer langsgaat bij persoon X en dat deze verklaart niet bereid te zijn mee te werken aan een interview. In zo’n geval zou de interviewer bijvoorbeeld het inkomen van de nonrespondent kunnen inschatten door observaties te maken m.b.t. het huis (een
27
typische kleine arbeiderswoning of een immense villa), de wagen (een Mercedes of een Lada), de kledij, … van de nonrespondent. 4.1.2.B. Gegevens direct verkregen van nonrespondenten. Een eerste mogelijke techniek is het interviewen van nonrespondenten over de redenen van hun nonresponse (zie ook paragraaf 2.2). In een heel kort interview verzamelt men, naast de reden van nonresponse, nog enkele demografische gegevens. Het grote nadeel van deze techniek is dat men er niet in slaagt om substantiële informatie te verkrijgen. Vaak is het van vitaal belang om, naast de demografische informatie, ook informatie te verzamelen over de zogenaamde “study variables” (de variabelen die gerelateerd zijn aan het thema dat men onderzoekt). Zo is het volstrekt mogelijk dat respondenten en nonrespondenten demografisch weinig van elkaar verschillen, maar wel sterk verschillen met betrekking tot de study variables. Een tweede techniek die steunt op gegevens die rechtstreeks verkregen werden van nonrespondenten is het nemen van een substeekproef (subsample) van nonrespondenten. Hierbij trekt men een steekproef uit de populatie van de nonrespondenten. De leden van deze substeekproef tracht men dan te bereiken via media die in het algemeen een hogere responsgraad opleveren, zoals bijvoorbeeld telefoon of een persoonlijk interview. We gaan er in het kader van deze thesis van uit dat we niet geïnteresseerd zijn in een opsplitsing van nonrespondenten in refusals, not-at-homes en zij die fysisch of mentaal niet in staat zijn. Toch willen we aanstippen dat de meerderheid van zij die door subsampling overhaald kunnen worden om te antwoorden, waarschijnlijk not-at-homes zullen zijn. 4.1.3. Technieken die steunen op de bewerking van gegevens over respondenten. De technieken die we tot nu toe besproken hebben zijn allen gebaseerd op (direct of indirect verkregen) gegevens over respondenten. Er zijn echter ook technieken die gebruik maken van gegevens over respondenten om conclusies te trekken met betrekking tot nonrespondenten. 4.1.3.A. Substitutie van nonrespondenten. In de praktijk vervangt men soms nonrespondenten door andere leden van de populatie. Deze techniek noemen we substitutie. Helaas vertonen deze laatste meestal meer gelijkenissen met respondenten dan met nonrespondenten. Daarom is deze techniek minder geschikt voor de analyse van nonresponse bias (Smith,1983).
28
4.1.3.B. De Politz-Simmons techniek. Een aantal leden van de populatie is heel moeilijk te contacteren. Hun bereikbaarheid en contacteerbaarheid (zie ook paragraaf 2.2) is heel laag. De responsgraad bij deze subgroep van de populatie is doorgaans laag. Hierdoor is deze subgroep vaak ondervertegenwoordigd. Om dit te vermijden kan men de antwoorden van moeilijk bereikbare respondenten een hoger gewicht geven. Men vraagt dan aan elke respondent hoeveel maal hij thuis was gedurende de laatste x dagen. De inverse van dit cijfer vormt dan het gewicht van zijn antwoorden. Hoe kleiner de kans op beschikbaarheid van een respondent, hoe hoger dus het gewicht dat aan zijn antwoorden wordt toegekend. Deze techniek staat bekend als de Politz-Simmons techniek (Smith, 1983). Het grote probleem van de Politz-Simmons techniek is dat ten onrechte wordt uitgegaan van de assumptie dat nonresponse enkel voorvalt omdat een lid van de steekproef niet beschikbaar is. In realiteit spelen ook de contacteerbaarheid en de bereidheid om mee te werken een belangrijke rol. Deze techniek is dus eerder geschikt voor een analyse van de zogenaamde not-at-home bias dan voor de analyse van nonresponse bias (not-at-homes en refusals). 4.1.3.C. Extrapolatie op basis van moeilijkheid. De meest populaire technieken doen een beroep op het concept moeilijkheid. Moeilijkheid wordt gemeten door middel van één of andere maatstaf van hoe moeilijk het was een response te verkrijgen van een respondent. In de praktijk worden vele verschillende indicatoren van moeilijkheid gebruikt, zoals bijvoorbeeld het aantal mailings, het aantal telefonische contacten of het aantal bezoeken (bij persoonlijke interviews) nodig om een response te krijgen. Ook de tijd nodig om een response te verkrijgen, wordt vaak gebruikt. (Armstrong & Overton, 1977) Men kiest één van deze indicatoren en voert op basis van de gekozen indicator een extrapolatie uit. Deze extrapolatie is gebaseerd op de assumptie dat personen die minder snel antwoorden of meer moeten aangepord worden om te antwoorden (via reminders, extra mailings, …) meer gelijkenissen vertonen met nonrespondenten. We onderscheiden 3 soorten extrapolatietechnieken: 1/ Wave analysis 2/ Time trends 3/ Method of concurrent waves
29
Het voordeel van deze technieken is dat ze veralgemeenbaar zijn naar alle variabelen, inclusief de zogenaamde study variables. 4.1.3.C.1. Wave analysis Bij wetenschappelijk onderzoek tracht men vaak de responsgraad te maximaliseren. Dit kan op vele verschillende wijzen. Eén van de eenvoudigste manieren om een hogere responsgraad te bewerkstelligen is het toedienen van een extra stimulus aan deze personen die tot dan toe niet antwoordden. Voorbeelden van dergelijke stimuli zijn een reminder postcard en een tweede mailing van de vragenlijst. Een wave heeft dan betrekking op de response die gegenereerd wordt door een stimulus. Personen die behoren tot latere waves worden verondersteld te antwoorden door de extra stimulus. Van deze personen verwacht men dat ze meer gelijkenissen zullen vertonen met nonrespondenten (Armstrong & Overton, 1977). Wanneer men de extrapolatie uitvoert over verschillende waves heen, noemt men dit wave analysis. Er zijn drie manieren om wave analysis toe te passen: de last wave methode, de last respondent methode en de projected respondent methode. De last wave methode veronderstelt dat nonrespondenten antwoorden als de gemiddelde respondent van de tweede wave. De andere twee methoden projecteren de trend in de antwoorden over de eerste twee waves. De last respondent methode veronderstelt dat de nonrespondenten antwoorden als de geprojecteerde laatste respondent in de tweede wave. De projected respondent methode berust op de assumptie dat nonrespondenten antwoorden als de geprojecteerde respondent in het midden van de groep van nonrespondenten (dus van de derde wave). Deze drie methoden zijn grafisch weergegeven in figuur A.
30
Figuur A: Methoden van wave analysis (Armstrong & Overton, 1977)
4.1.3.C.2. Time trends Een tweede extrapolatiemethode is het berekenen van een tijdstrend. Hierbij veronderstelt men dat personen die later antwoorden meer gelijkenissen vertonen met nonrespondenten. In tegenstelling tot wave analysis is deze methode niet onderhevig aan een mogelijke bias door de introductie van een stimulus. Het berekenen van tijdstrends heeft echter een groot nadeel: het is heel moeilijk om de tijd te meten die verstreken is tussen het moment dat de respondent zich bewust is van de vragenlijst en het moment waarop hij de vragenlijst invult. (Armstrong & Overton, 1977). 4.1.3.C.3. Method of concurrent waves Een laatste extrapolatiemethode die we bespreken, is de method of concurrent waves (Armstrong & Overton, 1977). Hierbij verdeelt men de steekproef in willekeurig gekozen (randomly selected) subsamples. Men stuurt dezelfde vragenlijst naar alle subsamples. Meestal is er een grote variatie in de responsgraad over de verschillende subsamples heen. Men extrapoleert dan over de verschillende subsamples heen om zo de response in te schatten bij een responsgraad van 100 %. Deze methode wordt in de praktijk heel weinig gebruikt.
31
4.1.3.D. Aanpassing op basis van conversie. Men kan nonresponse eveneens analyseren aan de hand van convertibility. Convertibility omvat het vermogen om zij die weigeren mee te werken (de refusals) er toe te bewegen uiteindelijk toch mee te werken. De leden van de steekproef die na één of meerdere weigeringen kunnen overhaald worden om toch mee te werken, noemt men temporary refusals of converted refusals. Er zijn twee mogelijke manieren om nonresponse te benaderen vanuit een convertibility-perspectief. Ten eerste kan men zij die uiteindelijk weigeren mee te werken (de final refusals) simpelweg vervangen door de converted refusals. Hierbij maakt men de assumptie dat de final refusals sterk lijken op de converted refusals. Een tweede mogelijkheid bestaat er in een extrapolatie uit te voeren met de respondenten als eerste punt, de converted refusals als tweede punt en de final refusals als laatste punt. Hierbij maakt men de assumptie dat de final refusals sterker lijken op de temporary refusals dan op zij die onmiddellijk antwoorden (de cooperative respondents) (Smith, 1983). 4.2. De PEDAKSI-methodologie. In de praktijk beperkt men zich niet altijd tot één van de hierboven beschreven methodes. Vaak combineert men deze methodes. De PEDAKSI-methodologie is een goed voorbeeld van hoe men de verschillende technieken efficiënt kan combineren. PEDAKSI staat voor Pre-Emptive Doorstep Administration of Key Survey Items. Het centrale element in deze methodologie is de KIF (Key Items Form). Deze KIF is een kleine vragenlijst met vragen die enkel betrekking hebben op de belangrijkste kwesties van het onderzoek (de key survey items). De PEDAKSI-methodologie heeft enkel betrekking op surveys met datacollectie via persoonlijke interviews. Als de interviewer er van overtuigd is dat het interview niet volledig zal kunnen afgewerkt worden bij een bezoek, dient hij de KIF toe. Dit impliceert dat ook wie niet thuis is op het moment dat de interviewer langskomt, een KIF in de bus krijgt. Hetzelfde geldt voor wie een afspraak wil maken voor een interview op een later tijdstip. Deze personen zullen uiteindelijk niet allemaal nonrespondenten zijn. Velen van hen zullen dit echter wel blijken te zijn. Het is dus zinvol ook bij deze personen een KIF in de bus te steken (Lynn,2003). Een deel van de nonrespondenten op de volledige vragenlijst, zal toch antwoorden op de KIF. Men zal aan de hand van de KIF schattingen opstellen voor deze nonrespondenten. Deze schattingen zal men
32
dan vergelijken met de schattingen voor de respondenten (op basis van de volledige vragenlijst). Dit levert een rechtstreekse inschatting op voor de nonresponse bias (Lynn, 2003). De PEDAKSI-methodologie berust op twee belangrijke assumpties. Ten eerste veronderstelt men dat initiële nonrespondenten (op de volledige vragenlijst) die antwoorden op de KIF, representatief zijn voor alle initiële nonrespondenten. Men veronderstelt m.a.w. dat de KIF niet onderhevig is aan nonresponse bias. Ten tweede veronderstelt men dat de KIF-items valide meetinstrumenten zijn voor de equivalente items uit de volledige vragenlijst. Men veronderstelt m.a.w. dat op de KIF-items dezelfde antwoorden zullen bekomen worden als deze die zouden bekomen zijn op de equivalente items uit de volledige vragenlijst (Lynn, 2003). Om te onderzoeken of er geen sprake is van nonresponse bias met betrekking tot de KIF, moeten we auxiliary data verzamelen. Deze data kunnen afkomstig zijn van de sample frame (als deze een bevolkingsregister of een ander soort administratieve lijst is), geografische data (census van een kleine regio of consumer marketing data) of van observaties door de interviewer. Indien men observaties door de interviewer gebruikt, is het aanbevolen hiervoor voorafgaandelijk een eenvoudig en praktisch instrument te ontwikkelen. Men zal uit deze drie bronnen deze informatie verzamelen waarvan men verwacht dat ze gecorreleerd zal zijn met de kans om te antwoorden (de response propensity) en met de key survey items. Indien na het verzamelen van auxiliary data en de analyse van deze data zou blijken dat er sprake is van nonresponse bias met betrekking tot de KIF, zal men eerst corrective weighting toepassen. Hierna kan men dan overgaan tot het inschatten van de nonresponse bias met betrekking tot de volledige vragenlijst, aan de hand van de KIF (Lynn, 2003). Daarenboven moeten we nog nagaan of de KIF-items valide meetinstrumenten zijn voor de equivalente items uit de volledige vragenlijst. Aangezien er een subset bestaat van personen die zowel met betrekking tot de volledige vragenlijst als met betrekking tot de KIF respondenten zijn, is het mogelijk om de validiteit van de KIF-items in te schatten door vergelijking op individuele basis van de antwoorden op beide instrumenten. Lynn (2003) stelt voor om de volgende validiteitscoëfficiënt te gebruiken: rxy’ = rxy / (rxx x ryy)1/2 met rxy’: geschatte correlatie tussen het item uit de vragenlijst (X) en het item uit de KIF (Y) rxy: geobserveerde correlatie het item uit de vragenlijst (X) en het item uit de KIF (Y) rxx: betrouwbaarheidscoëfficiënt van het item uit de vragenlijst (X) ryy: betrouwbaarheidscoëfficiënt van het item uit de KIF (Y)
33
Bij het hanteren van deze formule wordt men echter geconfronteerd met een belangrijk probleem: de PEDAKSI-methodologie verschaft geen schattingen van de betrouwbaarheidscoëfficiënten rxx en ryy. Dit zou immers vereisen dat dezelfde items verschillende keren zouden worden voorgelegd aan dezelfde respondenten. De PEDAKSI-methodologie verschaft echter wel grenzen waartussen rxx en ryy zich moeten situeren. Zowel rxx als ryy moeten zich tussen de geobserveerde correlatiecoëfficiënt rxy en 1 bevinden. Men zou bijvoorbeeld kunnen veronderstellen dat rxx en ryy gelijk zijn en zich beiden in het midden van de range van mogelijke waarden bevinden: rxx = ryy = (1+rxy) / 2 Onderzoekers vrezen vaak dat het voorafgaandelijk toedienen van de KIF de response rate van de volledige vragenlijst zal verlagen. De PEDAKSI-methodologie werd toegepast op de BCS (British Crime Survey), een onderzoek op nationale schaal met betrekking tot misdaad en het onveiligheidsgevoel in Groot-Brittannië. De BCS wordt jaarlijks afgenomen in 800 afgebakende gebieden. Op willekeurige wijze werden 199 van deze 800 gebieden toegewezen aan de experimentele steekproef. In deze gebieden werd de PEDAKSI-methodologie toegepast. De andere 601 gebieden vormden de controlestreekproef. Uit vergelijking van de responsgraad op de volledige vragenlijst, blijkt dat deze zelfs iets hoger ligt in de experimentele dan in de controlesteekproef. Het toedienen van de KIF had dus in dit geval geen negatief effect op de uiteindelijke response rate van de volledige vragenlijst. Bovendien antwoordden 25% van de nonrespondenten (m.b.t. de volledige vragenlijst) op de KIF. De KIF verschaft dus informatie over een substantieel deel van de nonrespondenten. Hierbij moeten we verder nog aanstippen dat de BCS een response rate had van meer dan 80 %. Men kan dus veronderstellen dat het vrij moeilijk was om de kleine groep van nonrespondenten te overtuigen. We kunnen dus besluiten dat de PEDAKSI-methodologie effectief en informatief is (Lynn,2003). 4.3. Haalbaarheid van de verschillende technieken in een marketingcontext. Het is niet altijd evident om de technieken die we besproken hebben, toe te passen in een marketingcontext. In de geneeskunde en de politieke wetenschappen behoort het inschatten van de nonresponse bias tot de vaste gebruiken bij enquête-onderzoek. In het functionele domein van de marketing is dit niet het geval. Marketing verschilt op vele vlakken van geneeskunde en politieke wetenschappen. Zo zijn de budgetten waarover men in de marketing beschikt meestal kleiner. Dit zorgt er voor dat een aantal
34
technieken financieel niet haalbaar zullen zijn in een marketingcontext. Daarnaast is de tijdsdruk wel minder sterk in de marketing dan in bijvoorbeeld de politieke wetenschappen. Wanneer men bijvoorbeeld een poll afneemt over bepaalde verkiezingen, zijn de resultaten enkel betekenisvol als zij snel genoeg beschikbaar zijn. We kunnen dus (in het algemeen, althans) stellen dat marketeers over minder financiële middelen beschikken dan hun collega’s in vele andere wetenschappelijke domeinen. De tijdsbeperking speelt echter minder. We zullen nu nagaan in welke mate de verschillende technieken voor het inschatten van nonresponse bias bruikbaar zijn in een marketingcontext. De minst bruikbare techniek in een marketingcontext is waarschijnlijk het vergelijken met een gekend cijfer m.b.t. de populatie of met een superieure sample estimate. In een marketingcontext zal men meestal niet over superieure gegevens beschikken, zeker niet met betrekking tot de study variables. Het gebruik van geografische/geaggregeerde data is uiteraard niet geschikt voor variabelen die op het niveau van het individu gemeten worden. Vele van de belangrijke study variables in de marketing vallen onder deze noemer. Ook deze techniek heeft dus weinig praktische relevantie voor marketeers. Door de financiële beperkingen die aan marketeers wordt opgelegd, nemen zij meestal hun toevlucht tot postale of elektronische (via e-mail of pop-ups) datacollectie. Datacollectie via persoonlijke interviews is vaak te duur in een marketingcontext. Een aantal technieken, zoals schattingen door de interviewer en de PEDAKSI-methodologie, lijken ons dus minder bruikbaar in een marketingcontext. Het interviewen van nonrespondenten over de reden van hun nonresponse lijkt ons weinig zinvol in een marketingcontext. Rekening houdende met de financiële beperkingen en de benodigde extra investering, is het sterk de vraag of de opsplitsing van nonrespondenten volgens de reden van nonresponse de moeite loont. Indien men beslist deze opsplitsing niet te maken, is het uiteraard weinig zinvol om bij nonrespondenten te peilen naar de reden van hun nonresponse. Subsampling van nonrespondenten wordt in de praktijk vrij vaak toegepast door marketeers. Door het nemen van een substeekproef van de nonrespondenten daalt het aantal af te nemen interviews of het aantal telefoontjes die men moet maken. Toch blijft het, zeker als men een beroep doet op interviewers, een vrij dure techniek. Substitutie van nonrespondenten en de Politz-Simmons techniek, daarentegen, vereisen bijna geen bijkomende kosten. Deze technieken zijn dus zeker haalbaar voor marketeers. Het gebruik van deze
35
technieken is echter af te raden. De assumpties waarvan deze technieken uitgaan, maken ze vaak ongeschitk voor de analyse van nonresponse bias (zie ook paragrafen 3.1.3.A en 3.1.3.B). De meest bruikbare van alle technieken die we besproken hebben, is ongetwijfeld de extrapolatie op basis van moeilijkheid. Deze techniek vereist relatief weinig financiële middelen en is eenvoudig uit te voeren. Bovendien vinden we in de literatuur indicaties dat deze methode bijzonder effectief is (Armstrong & Overton, 1977). Ook extrapolatie op basis van convertibility is een vrij goedkope en relatief eenvoudige techniek. 4.4. Gebruik van de verschillende technieken: een analyse van de marketingliteratuur. In het kader van de literatuuranalyse, beschreven in paragraaf 3.2.2, gaven we reeds aan dat in 40,48% van de geselecteerde studies de nonresponse bias ingeschat werd. Als we ons beperken tot deze studies in een B2C-context, gebeurde dit in 23,73% van de gevallen. Hiermee hebben we echter nog geen inzicht in de frequentie waarmee de individuele technieken om nonresponse bias in te schatten, gebruikt worden. Daarom werd de analyse uitgediept om ook op deze vraag een antwoord te kunnen formuleren. De resultaten zijn weergegeven in tabellen 11 en 12. Tabel 11: Toegepaste technieken in de wetenschappelijke marketingliteratuur
Techniek Externe populatiechecks Geografische/geaggregeerde data Schattingen door de interviewer Interviewen van nonrespondenten over hun nonresponse Substeekproef van nonrespondenten Substitutie van nonrespondenten Politz-Simmons techniek Extrapolatie o.b.v. moeilijkheid Aanpassing o.b.v. conversie Klantendatabase Longitudinale vergelijking Methode niet gegeven Totaal aantal studies met inschatting nonresponse bias
Totaal Aantal % 5 9,80 0 0,00 0 0,00 1 1,96 7
13,73
0 0 33 0 2 2 10 51
0,00 0,00 64,71 0,00 3,92 3,92 19,61
36
Tabel 12: Toegepaste technieken in de wetenschappelijke B2C-marketingliteratuur
Techniek Externe populatiechecks Geografische/geaggregeerde data Schattingen door de interviewer Interviewen van nonrespondenten over hun nonresponse Substeekproef van nonrespondenten Substitutie van nonrespondenten Politz-Simmons techniek Extrapolatie o.b.v. moeilijkheid Aanpassing o.b.v. conversie Klantendatabase Longitudinale vergelijking Methode niet gegeven Totaal aantal studies met inschatting nonresponse bias
Totaal Aantal % 3 21,43 0 0,00 0 0,00 0 0,00 1
7,14
0 0 7 0 2 1 2 14
0,00 0,00 50,00 0,00 14,29 7,14 14,29
Uit beide tabellen blijkt duidelijk dat extrapolatie op basis van moeilijkheid veruit de populairste techniek is bij marketeers, zowel in het algemeen als specifiek in een B2C-context. In 64,71% van alle geselecteerde studies waarin nonresponse bias werd ingeschat wordt deze techniek gebruikt. In een B2C-context gebeurt dit in 50,00% van de gevallen. We stelden reeds eerder dat het in een B2Bcontext moeilijker is om informatie over nonrespondenten te verzamelen. Extrapolatietechnieken maken het mogelijk de nonresponse bias in te schatten zonder dat men over gegevens van nonrespondenten beschikt. Dit kan dus een mogelijke verklaring zijn voor het feit dat deze techniek relatief meer gebruikt wordt in een B2B-context dan in een B2C-context. Bij het gebruik van extrapolatietechnieken wordt steeds verwezen naar Armstrong & Overton (1977). Een tweede populaire techniek is het vergelijken met gekende populatieparameters of geprefereerde sample estimates. In ongeveer een vijfde van de B2C-studies waarin de nonresponse bias werd ingeschat, gebeurde dit aan de hand van deze techniek. Tabel 11 toont aan dat dit percentage veel lager ligt (nl. 9,80%) wanneer men ook B2B-studies in de analyse opneemt. Deze techniek wordt dus relatief gezien minder vaak gebruikt in B2B-studies. Zoals reeds eerder vermeld wordt het gebruik van deze techniek in het functionele domein van de marketing beperkt door het gebrek aan geprefereerde sample estimates of gekende populatieparameters voor gedragsvariabelen.
37
Daarnaast wordt ook het nemen van een substeekproef van nonrespondenten regelmatig gebruikt. Gegevens uit de klantendatabase bieden soms ook een oplossing. Tenslotte kan men bij longitudinaal onderzoek teruggrijpen naar data die verzameld werd in de vorige datacollectieperiode, om te kijken of er met betrekking tot bepaalde variabelen geen significant verschil is tussen respondenten en nonrespondenten in de huidige datacollectieperiode. Ook deze longitudinale vergelijking wordt slechts sporadisch toegepast. We bemerken dat substitutie van nonrespondenten en de Politz-Simmons techniek niet gebruikt werden. De Politz-Simmons techniek corrigeert (zoals reeds aangehaald in paragraaf 4.1.3.B) enkel voor not-at-home bias en niet voor refusals. Dit maakt deze techniek bijzonder ongeschikt voor het inschatten van nonresponse bias in zijn geheel. Substitutie van nonrespondenten door andere leden van de populatie steunt op enkele twijfelachtige hypothesen (zie ook paragraaf 4.1.3.A). Dit zou kunnen verklaren waarom beide technieken niet gebruikt worden. Het gebruik van schattingen door de interviewer komt niet voor in de geselecteerde studies. Ook het interviewen van nonrespondenten over de redenen van hun nonresponse komt amper voor: slechts in één van de geselecteerde studies en in geen enkele van de studies in een B2C-context. In zowel tabel 11 als tabel 12 werd een categorie “methode niet gegeven” opgenomen. Studies die onder deze categorie gerangschikt werden, bevatten geen duidelijke beschrijving van de manier waarop de data met betrekking tot nonrespondenten werd verkregen. Vaak bevatten deze artikelen enkel de beschrijving van de uitgevoerde statistische test(en) en de conclusie die men eruit kon trekken met betrekking tot de significantie van verschillen tussen respondenten en nonrespondenten. In enkele gevallen werd enkel vermeld dat er getest werd voor nonresponse bias, maar werd geen enkele informatie verstrekt over hoe dit precies gebeurde. Samenvattend kunnen we stellen dat extrapolatie op basis van moeilijkheid veruit het meest gebruikt wordt. Deze techniek is populairder bij B2C-studies dan bij B2B-studies. Daarnaast worden ook vergelijking met gekende populatieparameters en geprefereerde sample estimates en het nemen van een substeekproef van respondenten vaak gebruikt. De klantendatabase en gegevens uit vorige datacollectieperiodes (bij longitudinaal onderzoek) bieden in slechts enkele gevallen een oplossing. De andere technieken worden amper of helemaal niet gebruikt.
38
5. Nonresponse in commercieel marktonderzoek
Om meer inzicht te krijgen in commercieel marktonderzoek werd een interview afgenomen van een senior consultant van een marktonderzoeksbureau. We zullen hierbij meer bepaald aandacht besteden aan commercieel marktonderzoek met elektronische datacollectie. Deze datacollectie verloopt hetzij via pop-ups, hetzij via een internetpanel. We zullen nagaan hoe de datacollectie precies verloopt, hoe men nonresponse bias inschat en er eventueel voor corrigeert. Bij datacollectie via pop-ups ligt de responsgraad tussen 0,5 % en 50 %, afhankelijk van het onderwerp van de enquête. De gemiddelde responsgraad bedraagt ongeveer 10 %. De impact van incentives op deze responsgraad is bijzonder groot. Vaak worden onder de respondenten prijzen verloot. Het geven van een kleine geldsom aan liefdadigheid voor iedere persoon die de vragenlijst volledig invult, is ook een veel gebruikte praktijk. Vermits de gemiddelde responsgraad heel laag is, is het potentieel voor nonresponse bias heel groot. Bovendien heeft datacollectie via pop ups het grote nadeel dat men geen sluitende post-hoc controle heeft op de representativiteit van de steekproef. Als de data wordt verzameld via een internetpanel is het heel belangrijk dat de geselecteerde panelleden representatief zijn voor de populatie. Als we veronderstellen dat dit inderdaad zo is, moeten we nog steeds opletten voor eventuele significante verschillen tussen respondenten en nonrespondenten. Het potentieel voor nonresponse bias is echter veel kleiner dan bij datacollectie via pop-ups, aangezien de responsgraad bij internetpanels veel hoger ligt. Wanneer er een onderzoek is, worden de geselecteerde panelleden hiervan verwittigd via e-mail. Hierbij zullen enkele panelleden niet kunnen bereikt worden omdat zij hun e-mailadres wijzigden zonder het marktonderzoeksbureau hiervan op de hoogte te stellen. Daarenboven geven sommige panelleden hun tweede, minder belangrijke e-mailadres op. De e-mail van het marktonderzoeksbureau wordt dan vaak niet opgemerkt tussen een groot aantal spamberichten. Deze problemen van nietcontacteerbaarheid blijken echter heel beperkt te zijn. Het probleem van refusal is ook vrij klein. Panelleden hebben zich immers zelf ingeschreven in het panel, wat laat vermoeden dat zij meer gemotiveerd zullen zijn om deel te nemen aan enquêtes. Bovendien hebben zij de mogelijkheid de enquête in meerdere invulsessies in te vullen, wat een positieve invloed heeft op de responsgraad. In academisch onderzoek zal men bij inschatting van nonresponse bias steeds vertrouwen op statistische testen om de significantie van verschillen tussen respondenten en nonrespondenten in te schatten. In commercieel marktonderzoek blijkt dit echter niet zo te zijn. Om deadlines te halen en de
39
kosten te drukken, vertrouwt men vaak eerder op de eigen ervaring dan op statistiek om te bepalen of verschillen tussen respondenten en nonrespondenten significant zijn. Concreet gaat men als volgt te werk: men beschrijft de populatie aan de hand van een aantal belangrijke kenmerken uit verschillende bronnen. Vervolgens zorgt men er voor dat de panelselectie een volledige blauwdruk is van de populatie. Tenslotte vergelijkt men de respondenten met de populatie met betrekking tot een aantal kenmerken. De manier waarop men deze laatste vergelijking maakt, roept echter vragen op. De inschatting van nonresponse bias kan zowel tijdens als na de datacollectie gebeuren. Sommige marktonderzoeksbureaus beschikken over software die tijdens de datacollectie continu de kenmerken van respondenten bijhoudt en deze vergelijkt met de populatieparameters. De software zorgt er dan voor dat personen die beantwoorden aan een profiel waarvan er reeds genoeg respondenten zijn, een boodschap op zijn scherm krijgt dat het onderzoek afgelopen is. Alle personen die overeenkomen met een profiel waarvoor wel nog respondenten vereist zijn, kunnen wel nog deelnemen aan het onderzoek. Deze software mag dan wel beschikbaar zijn, hij wordt slechts sporadisch gebruikt. Meestal schat men de response dus na de datacollectie in. Dit gebeurt vaak op basis van een simpele spreadsheet. De onderzoeker beslist dan zelf op basis van ervaring of de verschillen tussen beide kolommen (de populatie of de sample frame enerzijds en de respondenten anderzijds) niet te groot zijn om voor vertekening te zorgen. Niet alleen wat de inschatting van nonresponse bias betreft is de werkmethode van marktonderzoeksbureaus niet altijd even nauwgezet. Ook de correctie voor nonresponse bias gebeurt niet altijd op de optimale wijze. Als men dan al beslist dat de verschillen tussen de populatieparameters en de parameters met betrekking tot respondenten te sterk van elkaar verschillen, gaat men meestal gemakshalve over tot herweging van de data. Hierbij kent men aan de antwoorden van bepaalde respondenten een groter gewicht toe. Dit komt dus neer op een substitutie van nonrespondenten door respondenten. De onderliggende assumptie dat deze respondenten gelijken op nonrespondenten is onrealistisch en kan de vertekening door nonresponse zelfs nog vergroten. Marktonderzoeksbureaus staan heel sceptisch ten opzichte van extrapolatietechnieken. De assumpties waarop deze technieken steunen zijn volgens hen onrealistisch. Nochtans is dit des te meer het geval bij substitutie. Wanneer bepaalde groepen oververtegenwoordigd zijn bij de respondenten, lost men dit op door het nemen van een aselecte steekproef uit deze groepen.
40
We kunnen dus concluderen dat men in commercieel marktonderzoek, in tegenstelling tot academisch onderzoek, het probleem van nonresponse niet altijd serieus neemt. Zowel met betrekking tot de inschatting van (de significantie van) nonresponse bias en het eventueel corrigeren voor significante nonresponse bias zijn de gebruikte methoden vaak onnauwkeurig.
6. Empirisch 6.1. Hypothesen. In deze studie zullen we op verschillende manieren nagaan of er sprake is van nonresponse bias in dit specifieke geval. Bovendien zullen we de conclusies op basis van de verschillende inschattingstechnieken vergelijken om na te gaan of deze consistent zijn. Hypothese 1: Nonrespondenten verschillen significant van respondenten. Uit de literatuur over nonresponse blijkt duidelijk dat er in het verleden reeds mooie resultaten geboekt zijn door de toepassing van extrapolatietechnieken (Smith, 1983; Armstrong & Overton, 1977). Vanuit die optiek nemen we, vertrekkende van hypothese 1, aan dat er significante verschillen in gemiddelden zullen zijn tussen early en late respondents. Hieruit zouden we dan normaliter (volgens de assumpties die aan de grondslag liggen van extrapolatie op basis van moeilijkheid) concluderen dat er significante verschillen zijn tussen respondenten en nonrespondenten. Hypothese 2: Early respondents verschillen significant van late respondents. Tenslotte gaan we er, opnieuw op basis van hypothese 1, van uit dat bepaalde variabelen een significante invloed hebben op het al dan niet antwoorden op de enquête. Hypothese 3: Er bestaan variabelen die een significante invloed uitoefenen op het al dan niet antwoorden op de enquête.
6.2. Beschrijving van de variabelen. De dataset bestaat uit RFM-variabelen (recency, frequency, monetary value), marketingvariabelen en moderating variables die betrekking hebben op de relatie met de klant.
41
De gegevens voor de meeste variabelen hebben betrekking op dezelfde referentieperiode. Deze referentieperiode loopt van 1 februari 2002 tot 31 januari 2004 en omvat 4 seizoenen: winter 2004, zomer 2003, winter 2003 en zomer 2002. 1/ Recency-variabelen De dataset bevat 3 variabelen (all_rec1_zomer2004, all_rec2_zomer2004 en all_rec2quadr_zomer2004) die maatstaven zijn voor de recency van de laatste aankoop van een klant. De variabele omvat het aantal dagen tussen de aankoop en de einddatum van de referentieperiode. We moeten hierbij opmerken dat deze variabele omgekeerd gecodeerd is. Als de aankoop recenter plaatsvond is de waarde voor de variabele dus kleiner. De variabele all_rec2quadr_zomer2004 omvat het kwadraat van de variabele all_rec2_zomer2004. De derde variabele wordt als volgt berekend:
all_rec1_zomer2004 = 1/(s1+1) met s1: het aantal seizoenen sinds de laatste aankoop We verduidelijken de berekening van de variabele all_rec1_zomer2004 met een voorbeeld: stel dat de laatste aankoop van een bepaalde klant 2 seizoenen geleden plaatsvond. De variabele all_rec1_zomer2004 zal dan de waarde 1/3 = 0,33 aannemen voor deze klant. De variabele all_rec1_zomer2004 kan 4 verschillende waarden aannemen: 1, 1/2, 1/3 en 1/4. 2/ Frequency-variabelen De dataset bevat 3 variabelen (all_freq1_zomer2004, all_freq2_zomer2004 en all_freq3_zomer2004) die maatstaven zijn voor de frequentie van aankoop van een bepaalde klant. De variabele all_freq1_zomer2004 meet het aantal keer dat de klant één van de winkels van het betrokken kledingbedrijf bezocht tijdens de referentieperiode. De variabele all_freq2_zomer2004 is gelijk aan het aantal seizoenen (tijdens de referentieperiode) waarin de klant een aankoop verrichte. Aangezien de referentieperiode slechts 4 seizoenen omvat, kan deze variabele maximaal de waarde 4 aannemen. De derde en laatste frequentie-variabele kan als volgt berekend worden: all_freq3_zomer2004 = 1/(t+1) met t: de gemiddelde tijd tussen 2 aankopen, uitgedrukt in dagen
42
3/ Monetary Value De variabelen all_MV1_zomer2004, all_MV2_zomer2004, all_MV3_zomer2004 en all_MV1log_zomer2004 zijn maatstaven voor de monetaire waarde die een klant vertegenwoordigd. De variabele all_MV1_zomer2004 omvat de som van alle uitgaven die de betrokken klant gedurende de referentieperiode in de winkels van het beschouwde kledingbedrijf maakte. Om te corrigeren voor de grote variantie van deze variabele, maakten we de variabele all_MV1log_zomer2004 aan. De waarde voor deze variabele wordt bekomen door het logaritme (met grondtal van 10) van de waarde voor de variabele all_MV1_zomer2004 te nemen. De variabele all_MV2_zomer2004 meet de uitgaven van de klant bij zijn laatste aankoop. De variabele all_MV3_zomer2004 meet de gemiddelde uitgaven van de klant tijdens de referentieperiode. 4/ Marketingvariabelen Naast deze gedragsvariabelen beschikken we ook over informatie met betrekking tot een aantal marketingvariabelen. We beschouwen meer bepaald de relationele en promotionele inspanningen van het betrokken bedrijf naar de klant toe. Met relationele inspanningen bedoelen we de mailings met algemene informatie met betrekking tot producten aangeboden in de winkel, mailings om nieuwe kaarthouders te verwelkomen, … Promotionele inspanningen omvatten alle mailings met bijzondere aanbiedingen zoals prijsreducties, uitnodigingen voor de opening van een nieuwe winkel en aankondigingen van soldenperiodes. Het onderscheid tussen beide soorten inspanningen werd gemaakt op basis van de marketingdatabase en werd daarna gedubbelcheckt met de verantwoordelijken van het bedrijf. Voor elk van de 2 marketingvariabelen werden 5 predictoren berekend. Predictor 1 (variabelen pred1_promo_Z2004 en pred1_rela_Z2004) heeft betrekking op de promotionele en relationele inspanningen tijdens de referentieperiode. Predictor 2 (variabelen pred2_promo_Z2004 en pred2_rela_Z2004) heeft betrekking op de inspanningen tijdens de winter van 2003, predictor 3 (variabelen pred3_promo_Z2004 en pred3_rela_Z2004) op deze tijdens de zomer 2003. Predictor 4 (variabelen pred4_promo_Z2004 en pred4_rela_Z2004) heeft betrekking op zomer en winter 2003 samen en is vertegenwoordigt dus de som van predictoren 2 en 3. Predictor 5 (variabelen pred5_promo_Z2004 en pred5_rela_Z2004) heeft betrekking op zomer 2004. 5/ Modererende variabelen
43
Naast de gedrags- en marketingvariabelen hielden we ook rekening met enkele modererende variabelen, nl. lengte van de relatie (LoR), stabiliteit van de relatie (CoR) en sterkte van de relatie (SoR). Deze variabelen worden als volgt berekend: LoR = het aantal dagen sinds de eerste aankoop met de klantenkaart CoR = k/p met k: aantal seizoenen met minimum 1 aankoop p: aantal seizoenen voorafgaand aan het bestudeerd toekomstig gedrag SoR = LoR x CoR 6/ Outcome variables Tenslotte bevat de dataset ook 2 outcome variables, nl. nrofvisits_all_zomer2004 en nrofprodtype_all_zomer2004. Deze variabelen omvatten respectievelijk het aantal bezoeken van de klant aan één van de winkels van het betrokken kledingbedrijf tijdens de zomer van 2004 en het aantal productcategorieën waarin een klant een aankoop verrichte tijdens de zomer van 2004. 6.3. Gegevensverzameling. Er werd een een empirisch onderzoek uitgevoerd bij een groot Belgisch bedrijf in de kledingsector. Ten eerste werd een kwalitatief onderzoek uitgevoerd om tot betrouwbare items voor de vragenlijst te komen. Ten tweede werd de vragenlijst voorgelegd aan een steekproef van klanten van het betrokken bedrijf. Ten derde werden de gegevens van de vragenlijst gecombineerd met gedragsdata, afkomstig van een klantendatabase, en dit zowel voor respondenten als voor nonrespondenten op de vragenlijst. In de eerste fase van het onderzoek werd de bestaande literatuur over satisfactie-onderzoek en de Theory of Planned Behaviour (beiden inclusief eventuele modererende variabelen) grondig geanalyseerd. Dit resulteerde in een selectie van betrouwbare schalen. Aangezien in de bestaande literatuur schalen bestonden voor alle onderzochte constructen, dienden geen nieuwe schalen ontwikkeld te worden. De bestaande schalen moesten echter wel aangepast worden aan de specifieke context (de kledingsector) Aan de hand van twee expertinterviews en vier focusgroepgesprekken werd informatie verkregen van zowel professionals uit de betrokken sector als van potentiële respondenten. De nadruk lag hierbij op het identificeren van drie elementen aangaande woordkeuze met betrekking
44
tot het tijdskader (een seizoen: winter of zomer) en de frequentie (eens per seizoen) van het bestudeerde gedrag. Een volledige vragenlijst met alle items met betrekking tot satisfactie, de theory of planned behaviour en de modererende variabelen werden voorgelegd aan 10 marktonderzoek professionals. Hun vragen en opmerkingen leidden tot het herformuleren van enkele items. De vragenlijst werd dan verzonden naar 200 willekeurig geselecteerde inwoners van een middelgrote Belgische gemeente. Dit leverde een response van 41 vragenlijsten op. De desbetreffende gegevens werden geanalyseerd met SPSS en de schalen werden getest op hun betrouwbaarheid. Alle schalen hadden een Cronbach’s alfa van minstens 0,70. De doelpopulatie van het onderzoek bestond uit de klanten van een Belgisch kledingbedrijf. Gedurende vier opeenvolgende dagen in februari 2004 (bij het begin van het zomerseizoen) werd een eerste vragenlijst persoonlijk uitgedeeld aan consumenten die 12 van de 71 winkels van het betrokken bedrijf bezochten. Deze vragenlijst bevatte alle items met betrekking tot satisfactie en de theory of planned behaviour en een selectie van de items met betrekking tot de modererende variabelen. De 12 winkels waren gelijkmatig verdeeld over het Vlaamse grondgebied. Zij werden geselecteerd door het top management van het betrokken bedrijf en vormden een representatieve steekproef van alle winkels van het betrokken bedrijf. De vragenlijsten werden uitgedeeld door 12 enquêteurs. Zij werden eerst in detail gebrieft over het belang van het genereren van respons en het belang van het benadrukken van het longitudinaal karakter van het onderzoek om fall out na de eerste fase van het onderzoek te vermijden. Gedurende de recruteringsperiode van 4 opeenvolgende dagen verrichten 1753 consumenten een aankoop in één van de 12 geselecteerde winkels. Er werden 2306 vragenlijsten uitgedeeld. Dit doet vermoeden dat bijna elke klant die één van de geselecteerde winkels bezocht, benaderd werd om deel te nemen aan het onderzoek en de vragenlijst mee naar huis nam. Samen met de vragenlijsten ontvingen klanten een brief die het academische en longitudinale karakter van het onderzoek benadrukte en een voorgefrankeerde antwoordenveloppe. Daarnaast konden respondenten deelnemen aan een wedstrijd met één prijs, op voorwaarde dat men deelnam aan alle drie de fasen van het onderzoek. 960 volledig ingevulde vragenlijsten werden ontvangen, wat neerkomt op een responsgraad van 42%. Aangezien de recruteringsmethode voor een oververtegenwoordiging van trouwe klanten zou kunnen zorgen, werden nog eens 2500 bijkomende klanten geselecteerd, die door het betrokken bedrijf als “koude klanten” werden geclassificeerd. Deze klanten hadden in het voorbije winterseizoen (september 2003 tot januari 2004) een bedrag tussen 0 en €50 gespendeerd in de winkels van het betrokken bedrijf. De vragenlijst en de begeleidende brief voor deze klanten waren vergelijkbaar met deze die in de winkels uitgedeeld werden. Samen met een voorgefrankeerde antwoordenveloppe
45
werden de vragenlijst en de brief opgestuurd naar de 2500 “koude klanten”. 266 klanten stuurden een volledig ingevulde vragenlijst terug. Dit komt overeen met een responsgraad van 11%. Aan elke respondent van de eerste fase van het onderzoek werd een uniek respondentnummer toegewezen. 1188 van de 1225 respondenten verschafte ons persoonlijke gegevens die ons in staat stelden om hen uit te nodigen voor de tweede en derde fase van het onderzoek. Op het einde van juni 2004 (einde van het zomerseizoen, begin van de soldenperiode) werd een tweede, gepersonalizeerde mailing gestuurd naar deze 1188 personen. Deze tweede mailing omvatte een tweede vragenlijst met uniek respondentnummer, een begeleidende brief die door de onderzoeker persoonlijk werd ondertekend en een voorgefrankeerde antwoordenveloppe. De vragenlijst bevatte alle items met betrekking tot satisfactie en de theory of planned behaviour en een nieuwe set van modererende variabelen. 831 van de 1188 personen stuurden een compleet ingevulde vragenlijst terug. Op het einde van augustus 2004 (einde van de soldenperiode, begin van het winterseizoen) ontvingen de 831 respondenten uit de tweede fase een derde mailing met een derde vragenlijst met uniek respondentnummer, een begeleidende brief en een voorgefrankeerde antwoordenveloppe. Deze vragenlijst bevatte opnieuw alle items met betrekking tot satisfactie en de theory of planned behaviour, samen met de uiteindelijke set van modererende variabelen. 706 klanten stuurden een compleet ingevulde vragenlijst terug. De data van de 3 fases van het onderzoek werden ingegeven in 3 SPSS data files. Elk bestand werd gecorrigeerd voor fouten bij de gegevensinvoer. Het unieke respondentnummer werd gebruikt om de bestanden samen te voegen. Daarenboven verschafte het kledingbedrijf ons gedragsdata uit de klantendatabase. De informatie in deze database gaat maximaal 10 jaar terug, aangezien het betrokken bedrijf 10 jaar geleden de klantenkaart invoerde. De klantenkaart wordt gebruikt bij de gegevensverzameling. Ze verschaft het bedrijf de nodige contactgegevens om de meerderheid van klanten een magazine op te sturen. Daarnaast worden interne analyses uitgevoerd om als input te dienen voor managementbeslissingen. Er wordt echter geen gebruik gemaakt van incentives en financiële beloningen. Winkelmanagers en het personeel worden uitgebreid gebrieft over het belang van het registreren van zoveel mogelijk transacties. Dit heeft tot gevolg dat ongeveer 90% van de transacties geregistreerd wordt. We ontvingen gedragsdata betreffende alle 1753 klanten van de 12 geselecteerde shops voor de persoonlijke recrutering en alle 2500 “koude klanten” die werden geselecteerd voor de mailing. Deze data gaan maximaal 10 jaar terug en beginnen op het tijdstip dat de klant de klantenkaart accepteerde.
46
Op basis van het uniek klantnummer dat ons direct of indirect (via de persoonlijke gegevens) verschaft werd, werden de data met betrekking tot de enquêtes gelinkt aan de gedragsdata uit de database. De persoonlijke gegevens en het uniek klantnummer werden vervolgens gewist uit de uiteindelijke dataset om zo volledig te voldoen aan de wetgeving van de EU inzake privacy. Aangezien 90% van de gedragsdata werd gecapteerd door middel van de klantenkaart, kunnen we veronderstellen dat minstens 90% van het koopgedrag van de respondenten werd gecapteerd in de verschafte gedragsdata. 6.4. Gegevensanalyse.
We zullen op 3 wijzen testen voor nonresponse bias. Ten eerste zullen we testen op significante verschillen tussen respondenten en nonrespondenten. Ten tweede zullen we testen of er significante verschillen zijn tussen early en late respondents. Ten derde zullen we testen of bepaalde variabelen een significante invloed uitoefenen op het al dan niet beantwoorden van de enquête. Voor alle variabelen werd een independent samples t-test uitgevoerd om te testen voor significante verschillen tussen respondenten en nonrespondenten. Hieruit bleek dat er een aantal significante verschillen waren. Deze significante verschillen zijn weergegeven in tabel 13. Tabel 13: Significante verschillen tussen respondenten en nonrespondenten
Variabele
Respondenten
Nonrespondenten
all_rec1_zomer2004
0,8010
0,5946
all_rec2_zomer2004
159,77
268,40
51624,39
100884,26
all_freq1_zomer2004
7,61
5,19
all_freq2_zomer2004
2,76
1,88
all_MV1log_zomer2004
5,82
4,98
80,66
73,10
Lor_zomer2004
1,23
1,19
CoR_zomer2004
0,692
0,510
SoR_zomer2004
0,85
0,61
12,88
9,59
pred_promo1_Z2004
4,25
3,63
pred_rela2_Z2004
4,14
3,21
pred_rela3_Z2004
2,94
2,44
pred_rela5_Z2004
3,08
1,49
all_rec2quadr_zomer2004
all_MV3_zomer2004
pred_rela1_Z2004
47
Respondenten blijken significant beter te scoren dan nonrespondenten met betrekking tot het aantal keer dat men een bezoek bracht aan één van de winkels van het betrokken kledingbedrijf en het aantal seizoenen waarin men een aankoop verrichtte.Ook wat betreft de recency scoren respondenten significant beter dan nonrespondenten. Bovendien vertegewoordigen de aankopen van respondenten een significant grotere monetaire waarde. Zoals te verwachten was, hebben respondenten een sterkere relatie met het kledingbedrijf dan nonrespondenten. Bovendien blijkt dat het betrokken kledingbedrijf signigficant meer relationele inspanningen deed gericht op respondenten. Vervolgens werd een extrapolatie (op basis van moeilijkheid) uitgevoerd. We vergeleken hierbij early en late respondents, in de veronderstelling dat deze laatste meer gelijkenissen vertoonden met nonrespondenten. Voor de uitvoering van deze extrapolatie werden alle respondenten met een missing value voor de variabele datum uitgefilterd. Om de gevoeligheid van de resultaten van de extrapolatie voor de wijze van indeling (dus de definitie van early en late respondents) te testen, voerden we de extrapolatie drie maal uit. De eerste maal werden de eerste 75% respondenten als early geclassificeerd, de rest als late. De tweede maal werden de eerste 50% respondenten als early geclassificeerd. De derde maal werden het eerste en laatste kwintiel vergeleken. Bovenstaande indelingen worden vaak gehanteerd in de marketingliteratuur. Hierbij dienen we echter wel te vermelden dat de percentages niet exact, maar benaderend werden toegepast in onze gegevensanalyse. De cumulatieve frequentieverdeling van de variabele datum6 noopte ons hier immers toe. De exacte percentages zijn weergegeven in tabel 14, samen met de afkapdatum. Alle enquêtes met een datum groter dan de afkapdatum werden als late geclassificeerd. Voor extrapolatie C werden alle enquêtes met een datum t.e.m. 30/08/04 als early geclassificeerd. Alle enquêtes met een datum vanaf 12/09/04 werden als late geclassificeerd. Voor alle 3 de indelingen werd getest voor significante verschillen tussen respondenten en nonrespondenten m.b.t. alle variabelen besproken in paragraaf 6.2. Geen van de drie extrapolaties leverde enig significant verschil op. Op basis van extrapolatie concluderen we dus dat respondenten en nonrespondenten niet significant van elkaar verschillen met betrekking tot de bestudeerde variabelen. Deze conclusie staat haaks op de vele significante verschillen tussen respondenten en nonrespondenten die (volgens de independent samples t-test) wel degelijk bestaan.
6
De variabele datum bestond uiteraard niet voor nonrespondenten. Daardoor kwam hij niet voor in de lijst van variabelen die we in paragraaf 6.2 beschreven. Deze lijst heeft immers betrekking op een dataset die enkel variabelen bevat die zowel voor respondenten als voor nonrespondenten beschikbaar waren. De variabele datum heeft als waarde de datum van de poststempel van de ingevulde enquête.
48
Tabel 14: Criteria voor indeling in early en late categorie
Extrapolatie A Extrapolatie B Extrapolatie C
Early respondents eerste 78,6% eerste 50,2% eerste 19,4%
Late respondents laatste 21,4% laatste 49,8% laatste 19,9%
Afkapdata 10/09/04 02/09/04 12/09/04 30/08/04
Tenslotte werd ook nog een logistische regressie uitgevoerd om na te gaan of de bestudeerde variabelen een significante invloed uitoefenden op het al dan niet antwoorden op de enquête. Hiertoe werd een nominale variabele “respons” aangemaakt, die de waarde 1 kreeg voor respondenten en de waarde 0 voor nonrespondenten. We wensten het effect van zowel de RFM-variabelen, de marketingvariabelen als de modererende variabelen op het al dan niet beantwoorden van de enquête na te gaan. Wat betreft de RFM-variabelen namen we enkel rec27, freq3 en MV1log op in de analyse. We gingen er hierbij van uit dat deze 3 variabelen de meest gevoelige RFM-maatstaven waren. Voor de marketingvariabelen namen we enkel pred1_promo en pred1_rela op in de analyse. We gingen er hierbij opnieuw van uit dat dit de meest gevoelige maatstaven waren (voor resp. de promotionele en relationele inspanningen). Met betrekking tot de modererende variabelen (LoR, CoR en SoR) werd beslist om enkel de variabele SoR op te nemen. Deze variabele is immers het product van de andere twee modererende variabelen. Bij de uitvoering van de logistische regressie werden 3 blokken gedefinieerd. Het eerste blok bevatte de 3 RFM-variabelen (rec2, freq3 en MV1log). Het tweede blok bevatte enkel de modererende variabele SoR. Het derde blok bestond uit de marketingvariabelen pred1_promo en pred1_rela. Voor alle blokken werd geopteerd voor de stepwise methode. Het gebruik van de entermethode zou immers kunnen leiden tot problemen in verband met de multicollineariteit. Als procedure werd gekozen voor de forward:Wald methode. Om een onderscheid te maken tussen de verschillende modellen, zullen we de terminologie hanteren die is weergegeven in tabel 15. In geen enkele van de modellen werden interactietermen opgenomen.
7
Om de tekst vlotter leesbaar te maken, laten we in het vervolg van de bespreking het prefix all en de suffixen zomer 2004 en Z2004 vallen uit de naam van de variabele.
49
Tabel 15: Benaming van de verschillende logistische regressiemodellen
Naam model
Opgenomen blokken
Opgenomen variabelen
RFM-model
enkel blok 1
enkel de RFM-variabelen
RFM-SoR-model
blokken 1 en 2
RFM-variabelen en SoR
RFM-SoR-marketing model
blokken 1,2 en 3
RFM-variabelen, SoR en marketingvariabelen
Uit de analyse van de output blijkt dat het nulmodel 63,7 % (R²count = 0,637) van de klanten juist classificeert. In het RFM-model zijn de 3 RFM-variabelen (rec2, freq3, MV1log) opgenomen. Deze 3 variabelen worden allen opgenomen in de regressievergelijking. De regressiecoëfficiënten van deze 3 variabelen zijn allen significant verschillend van nul. De -2LL van het RFM-model bedraagt 1225,901. Het RFMmodel resulteert in een significante verlaging (p < 0,001) van de -2LL met 131,441 (Model Chi-square = 131,441). Het RFM-model is dus een beter model dan het nulmodel. Het RFM-model slaagt erin 68 % (R²count = 0,68) van de klanten juist te classificeren. De Nagelkerke R² van het RFM-model bedraagt 0,163. Gezien de academische aard van het onderzoek, is dit een vrij goed resultaat. In het RFM-SoR-model wordt naast de 3 RFM-variabelen ook de SoR-variabele opgenomen. Deze SoR-variabele wordt ook opgenomen in de regressievergelijking. De regressiecoëfficiënt van alle opgenomen variabelen is uiteraard significant verschillend van nul. De -2LL van het RFM-SoR-model bedraagt 1217,282. Dit komt neer op een significante verlaging (p = 0,003) van de -2LL met 8,618 (Block Chi-square = 8,618) ten opzichte van het RFM-model. Het RFM-SoR-model is dus beter dan het RFM-model. Het RFM-SoR-model resulteert in een juiste classificatie van 68,2% (R²count = 0,682) van de klanten. De Nagelkerke R2 van het RFM-model bedraagt 0,176. De toevoeging van de sterkte van de relatie met de klant (SoR) als onafhankelijke variabele aan het regressiemodel zorgt dus voor de verklaring van een bijkomende 1,3 % van de variantie in de afhankelijke variabele. Aangezien de regressiecoëfficiënten van de variabelen pred1_rela en pred1_promo niet significant verschillend zijn van nul, worden zij niet toegevoegd. Als we dus naast blokken 1 en 2 ook blok 3 in beschouwing nemen verandert dit niets aan het model. We gaan dan ook niet dieper in op het RFMSoR-marketing-model. Op basis van de bovenstaande bespreking van het nulmodel, het RFM-model en het RFM-SoR-model opteren we voor het RFM-SoR-model. We gaan dan ook dieper in op de resultaten van dit model. Op basis van de output stellen we de logitvergelijking van het RFM-SoR-model op:
50
Z = -2,171 -0,002 rec2 -0,240 freq3 +0,297 MV1log + 0,918 SoR De kans op respons kan dan berekend worden door de waarde voor Z in te vullen in de vergelijking ez/(1+ez). We bemerken dus dat er een positief verband is tussen monetary value en de sterkte van de relatie enerzijds en de kans op respons anderzijds. Verder stellen we een negatief verband vast tussen de recencyvariabele rec2 en de frequentie enerzijds en de kans op respons anderzijds. Aangezien de recencyvariabele rec2 echter omgekeerd gecodeerd is, is er een positief verband tussen de recency en de kans op respons. Samenvattend kunnen we dus stellen dat klanten die recenter hun laatste aankoop verrichten, minder vaak een bezoek brengen aan de winkel, meer spenderen in de winkel en een sterkere relatie hebben met het betrokken bedrijf, meer geneigd zullen zijn te antwoorden. Deze resultaten liggen in de lijn van de verwachtingen: naarmate een klant meer spendeert in een winkel van een bepaald bedrijf, een sterkere relatie heeft met dat bedrijf en zijn laatste aankoop recenter was, zal hij meer vertrouwd zijn met een bedrijf. Het is vrij plausibel dat een klant die meer vertrouwd is met een bepaald bedrijf meer geneigd zal zijn te antwoorden op een enquête van dit bedrijf. Enkel het effect van de frequencyvariabele is niet in overeenstemming met de hypothese. Men zou immers logischerwijs verwachten dat klanten die vaker een bezoek brengen aan een winkel van een bepaald bedrijf, meer vertrouwd zouden zijn met dit bedrijf en dus meer geneigd zouden zijn te antwoorden op een enquête van dit bedrijf. Aan de hand van ons model kunnen we dus concluderen dat er wel degelijk variabelen zijn die een significante invloed uitoefenen op het al dan niet antwoorden op de enquête.
6.5. Evaluatie van de hypothesen. We vatten de resultaten van de gegevensanalyse nog even kort samen. Ten eerste blijkt uit de independent samples t-test dat er significante verschillen zijn tussen respondenten en nonrespondenten met betrekking tot 15 variabelen (rec1, rec2, rec2quadr, freq1, freq2, MV1log, MV3, LoR, CoR, SoR, pred_rela1, pred_promo1, rela_2, rela_3, rela_5). Hypothese 1 wordt dus aanvaard. Ten tweede worden op basis van extrapolatie geen significante verschillen gevonden tussen early en late respondents, ongeacht de wijze waarop respondenten aan één van beide groepen worden toegewezen. Hypothese 2 wordt dus verworpen.
51
Ten derde blijkt uit de logistische regressie dat de RFM-variabelen en de SoR-variabele een significante invloed uitoefenen op het al dan niet beantwoorden van de enquête. Hypothese 3 wordt dus aanvaard. Hieruit blijkt duidelijk dat de conclusies die men zou trekken uit extrapolatie tegenstrijdig zijn aan de conclusies op basis van de independent samples t-test en de logistische regressie (die gebruik maken van gegevens over nonrespondenten, in tegenstelling tot extrapolatie). Deze bevindingen zijn consistent met deze van Mott et al. (2001). Teitler et al. (2003) en Lin & Schaeffer (1995) stellen dat de respondenten die het moeilijkst waren om te overhalen om mee te werken (wat in grote mate, maar niet volledig overeenkomt met de late respondents) geen goed inzicht verschaffen in de kenmerken van nonrespondenten. De assumptie die aan de basis ligt van extrapolatie op basis van moeilijkheid blijkt dus niet altijd overeen te stemmen met de realiteit. Het is met andere woorden niet altijd zo dat personen die minder snel antwoorden of meer moeten aangepord worden om te antwoorden (via reminders, extra mailings, …) meer gelijkenissen vertonen met nonrespondenten. Dit is een heel onrustwekkende conclusie. Uit de literatuuranalyse (zie paragraaf 4.4) blijkt dat in meer dan de helft van de marketing-gerelateerde studies waarin de nonresponse bias wordt ingeschat, extrapolatietechnieken worden aangewend. Deze techniek dankt zijn populariteit mede aan het feit dat men geen informatie over nonrespondenten moet verzamelen. De extrapolatietechniek wordt met andere woorden gebruikt omwille van kostenoverwegingen, mede door de beperkte budgetten in vergelijking met bijvoorbeeld de geneeskunde en de politieke wetenschappen. Uit deze empirische studie blijkt echter dat marketeers een afweging moeten maken tussen de kostenbesparing enerzijds en het verlies aan accuraatheid ten opzichte van andere technieken anderzijds. De conclusies van dit onderzoek zijn echter niet zonder meer veralgemeenbaar. Verder onderzoek naar nonresponse bias met betrekking tot gedragsvariabelen moet een beter inzicht verschaffen in de omstandigheden die leiden tot niet-negeerbare nonresponse bias. Ook naar de omstandigheden waarin extrapolatietechnieken kunnen gebruikt worden moet nog verder onderzoek worden verricht.
52
7. Algemeen besluit.
Bij wetenschappelijk onderzoek wordt voor de datacollectie vaak een beroep gedaan op enquêtes. Men trekt een steekproef van de populatie en dient de enquête toe aan alle leden van de steekproef. De resultaten van de enquête worden daarna meestal veralgemeend tot de volledige populatie. Wanneer personen die niet antwoorden op de enqûete (nonrespondenten) significant verschillen van respondenten, leidt dit tot vertekenende effecten. Het vertekenend effect dat uitgaat van nonresponse noemt men nonresponse bias. De nonresponse bias met betrekking tot een bepaalde variabele is groter naarmate de responsgraad lager is en het verschil in gemiddelde voor deze variabele tussen respondenten en nonrespondenten groter is. Een lid van de steekproef kan verschillende redenen hebben om zich als nonrespondent te profileren. De persoon kan niet thuis zijn. Dan is hij m.a.w. niet beschikbaar. Daarnaast is het mogelijk dat de persoon niet contacteerbaar is. Er is m.a.w. geen ander gezinslid aanwezig. Een derde mogelijkheid is dat de betrokken persoon wel thuis of contacteerbaar is, maar gewoonweg niet wil meewerken. Tenslotte is het ook mogelijk dat de persoon in kwestie mentaal of fysisch (bijvoorbeeld blinden of personen met een sterk verminderd gezichtsvermogen) niet in staat is om mee te werken(Smith, 1983; Groves et al., 2002 pp.6-7). Het kan interessant zijn om nonrespondenten op te splitsen in zij die niet willen meewerken aan de enquête (de refusals) en zij die niet contacteerbaar zijn (de noncontacts of not-at-homes), vermits de aanpak van not-at-homes en refusals sterk verschilt. Bovendien is er ook vanuit een kostenperspectief een sterk verschil tussen not-at-homes en refusals. (Groves et al., 2002, pp.7) Het is veel goedkoper om respons te verkrijgen van not-at-homes dan om refusals te overhalen toch mee te werken (Groves et al., 2002, pp.7). Eenmaal men de potentiële respondent gecontacteerd heeft, moet men hem nog overtuigen om mee te werken. Hiertoe is het belangrijk inzicht te hebben in het beslissingsproces van potentiële respondenten. Er zijn 3 belangrijke theorieën die dit verschil trachten te verklaren. De eerste theorie is de leverage-salience theory. Deze theorie ziet het aanbod om te participeren als een bundel van attributen. Leden van de steekproef verschillen sterk van elkaar met betrekking tot het belang dat zij hechten aan de verschillende attributen in hun beslissing om al dan niet te antwoorden op een enquête. Hoe hoger het belang dat een lid van de steekproef hecht aan een bepaald attribuut,
53
hoe hoger de leverage van dit attribuut. De leverage van een bepaald attribuut varieert van persoon tot persoon en kan zowel positief als negatief zijn. Het effect van een attribuut wordt nu bepaald door het product van de salience van het attribuut in het aanbod om te participeren en de leverage die een persoon toekent aan dit attribuut. De tweede theorie is een uitgebreide versie van de Theory of Planned Behaviour. De Theory of Planned Behaviour is een model die het gedrag van personen verklaart in omstandigheden waarin zij geen volledige controle hebben over hun gedrag. Het model stelt dat de gedragsintentie van een persoon verklaart wordt door zijn attitude ten opzichte van een product of dienst, de gepercipieerde sociale druk en de gepercipieerde controle die men heeft over het gedrag. Men voegt echter nog een vierde factor toe aan de oorspronkelijke theorie: mate waarin men zich moreel verplicht voelt om deel te nemen aan de enquête. De gepercipieerde sociale druk legt de nadruk op het gedrag dat anderen van de betrokken persoon verwacht. De vierde factor, geïnternaliseerde morele regels, hebben geen betrekking op de mening van anderen. De derde theorie gaat er van uit dat personen een kenmerk (survey response propensity) bezitten dat er voor zorgt dat zij antwoorden op enquêtes. Nonrespondenten bezitten dit kenmerk niet. Dit kenmerk wijzigt niet doorheen de tijd. Uit een analyse van het op enquêtes gebaseerde onderzoek in de marketingliteratuur blijkt dat in slechts 40% van de studies de nonresponse wordt ingeschat. Wanneer we de analyse beperken tot deze artikels die zich enkel in een B2C-context bevinden, daalt dit aandeel zelfs tot 23%. Nochtans kan het heel zinvol zijn om de nonresponse bias in te schatten. Het kan ons toelaten geld en tijd uit te sparen. Bovendien leidt het tot een grotere betrouwbaarheid van de resultaten en conclusies van wetenschappelijk onderzoek aan de hand van enquêtes. Wat betreft de inschatting van nonresponse kunnen we een aantal methodes onderscheiden. De belangrijkste methodes zijn echter: vergelijking met een populatieparameter of een geprefereerde sample estimate, het nemen van een substeekproef van nonrespondenten waarvan men dan informatie tracht te verkrijgen en extrapolatie op basis van moeilijkheid. Deze laatste techniek vertrekt van de assumptie dat personen die minder snel antwoorden of meer moeten aangepord worden om te antwoorden (via reminders, extra mailings, …) meer gelijkenissen vertonen met nonrespondenten. Als maatstaf voor moeilijkheid wordt vaak de tijd die men nodig heeft om te antwoorden genomen. Aan de hand van deze maatstaf kan men een onderscheid maken tussen early respondents (zij die snel antwoorden) en late respondents (zij die later antwoorden). Wanneer uit een vergelijking van beide
54
groepen van respondenten blijkt dat er significante verschillen zijn, zal men op basis van de basisassumptie van extrapolatie concluderen dat nonrespondenten significant verschillen van respondenten. Gezien de beperkte budgetten waarover onderzoekers in de marketing beschikken, verkiezen zij vaak technieken die steunen op de bewerking van gegevens van respondenten. Vooral extrapolatie is bijzonder populair en wordt in meer dan de helft van de artikels waarin nonresponse wordt ingeschat gebruikt. In commercieel marktonderzoek, daarentegen wordt extrapolatie weinig toegepast. Helaas beperkt men zich al te vaak tot het vergelijken van kolommen in een spreadsheet zonder dat hier statistische testen worden op toegepast. Ook herweging van de data is heel populair. Tenslotte werd een empirisch onderzoek verricht bij klanten van een bedrijf in de kledingsector. De independent samples t-testen wezen uit dat er signifcante verschillen waren tussen respondenten en nonrespondenten met betrekking tot een 15-tal variabelen (zowel RFM-variabelen,als variabelen m.b.t. de sterkte van de relatie tussen de klant en het bedrijf, als marketingvariabelen die de promotionele en relationele inspanningen van het betrokken kledingbedrijf ten opzichte van een bepaalde klant meten). Uit de uitvoering van 3 extrapolaties (met telkens een andere afkapdatum tussen respondenten en nonrespondenten) bleken geen verschillen tussen early en late respondents. Uit de uitvoering van een logistische regressie bleek dat bepaalde RFM-variabelen (1 voor de recency, 1 voor de frequency en 1 voor de monetary value) en de sterkte vande relatie tussen het kledingbedrijf en een bepaalde klant een significante invloed hebben op het al dan niet beantwoorden van de enquête. Hieruit blijkt duidelijk dat de conclusies die men zou trekken uit extrapolatie tegenstrijdig zijn aan de conclusies op basis van de independent samples t-test en de logistische regressie (die gebruik maken van gegevens over nonrespondenten, in tegenstelling tot extrapolatie). Deze bevindingen zijn consistent met deze van Mott et al. (2001). Teitler et al. (2003) en Lin & Schaeffer (1995) stellen dat de respondenten die het moeilijkst waren om te overhalen om mee te werken (wat in grote mate, maar niet volledig overeenkomt met de late respondents) geen goed inzicht verschaffen in de kenmerken van nonrespondenten. De assumptie die aan de basis ligt van extrapolatie op basis van moeilijkheid blijkt dus niet altijd overeen te stemmen met de realiteit. Het is met andere woorden niet altijd zo dat personen die minder snel antwoorden of meer moeten aangepord worden om te antwoorden (via reminders, extra mailings, …) meer gelijkenissen vertonen met nonrespondenten.
55
Dit is een heel onrustwekkende conclusie. Uit de literatuuranalyse (zie paragraaf 4.4) blijkt dat in meer dan de helft van de marketing-gerelateerde studies waarin de nonresponse bias wordt ingeschat, extrapolatietechnieken worden aangewend. Deze techniek dankt zijn populariteit mede aan het feit dat men geen informatie over nonrespondenten moet verzamelen. De extrapolatietechniek wordt met andere woorden gebruikt omwille van kostenoverwegingen, mede door de beperkte budgetten in vergelijking met bijvoorbeeld de geneeskunde en de politieke wetenschappen. Uit deze empirische studie blijkt echter dat marketeers een afweging moeten maken tussen de kostenbesparing enerzijds en het verlies aan accuraatheid ten opzichte van andere technieken anderzijds. De conclusies van dit onderzoek zijn echter niet zonder meer veralgemeenbaar. Verder onderzoek naar nonresponse bias met betrekking tot gedragsvariabelen moet een beter inzicht verschaffen in de omstandigheden die leiden tot niet-negeerbare nonresponse bias. Ook naar de omstandigheden waarin extrapolatietechnieken kunnen gebruikt worden moet nog verder onderzoek worden verricht.
56
Bibliografie Armstrong J.S. en Overton T.S., 1977, “Estimating nonresponse bias in mail surveys”, Journal of Marketing Research, Vol.14, pp.396-402 Barclay S., Todd C., Finlay I., Grande G. en Wyatt P., 2002, “Not another questionnaire! Maximizing the respons rate, predicting non-response and assessing nonresponse bias in postal questionnaire studies of GPs”, Family Practice, Vol.19, Nr.1, pp.105-111 Bickart B, Schmittlein D, 1999,The distribution of survey contact and participation in the United States: Constructing a survey based estimate ,Journal of Marketing Research Vol.36, Nr.2, pp.286-294 Bosnjak M., Tuten T.L., Wittmann W.W., 2005, “Unit (non)response in web-based panel survey: an extended planned-behavior approach”, Psychology & Marketing, Vol.22, Nr.6, pp.489-505 Biggar R.J. en Melbye M., 1992, “Responses to anonymous questionnaires concerning sexual Behaviour: a method to examine potential biases”, Ameican Journal of Public Health, Vol.82, Nr.11 Curtin R., Presser S. en Singer E., 2000, “The effects of response rate changes on the index of consumer sentiment”, Public Opinion Quarterly, Vol.64 pp.413-428 De Pelsmacker P. en Van Kenhove P., 1994, “Marktonderzoek: methoden en toepassingen”, 836p. Dunkelberg W.C. en Day G.S., 1973, “Nonresponse bias and callbacks in sample surveys”, Journal of Marketing Research, Vol.10, pp.160-168 Groves R.M., Dillman D.A., Eltinge J.L., Little R.J.A., 2002, “Survey nonresponse”, 500 p. Groves R.M., Presser S., Dipko S., 2004, “The role of topic interest in survey participation decisions”, Public Opinion Quarterly, Vol.68, Nr.1, pp. 2-31 Groves R.M., Singer E. en Corning A., 2000, “Leverage-saliency theory of survey participation: description and an illustration”, Public Opinion Quarterly, Vol.64, pp.299-308 Jackman S., 1999, “Correcting surveys for non-response and measurement error using auxiliary information”, Electoral Studies, Vol.18, pp.7-27 Jap S.D., Anderson E., 2003, “Safeguarding interorganizational performance and continuity under ex-post opportunism”, Management Science, Vol.49, Nr.12, pp.1671-1683 Keeter S., Miller C., Kohut A., Groves R.M. en Presser S., 2000, “Consequences of reducing Nonresponse in a national telephone survey”, Public Opinion Quarterly, Vol.64, pp.125-148 Lin I.F., Schaeffer N.C. Using survey participants to estimate the impact of nonparticipation, Public Opinion Quarterly, Vol. 59, Nr.2, pp.236-258 Link M.W. en Oldendick R.W., 1999, “Call screening. Is it really a problem for survey research?”, Public Opinion Quarterly, Vol.63, pp.577-589
57
Lynn P., 2003, “PEDAKSI: Methodology for collecting data about survey non-respondents”, Quality and Quantity, Vol.37, pp.239-261 Mott D.A., Pederson C.A., Doucette W.R., Gaither C.A., Schommer J.C., 2001, “A national survey of US pharmacists in 2000: assessing nonresponse bias of a survey methodology”, AAPS PharmSci, Vol.3, Nr.4, article 33 Singer E., Van Hoewyk J. en Maher M.P., 2000, “Experiments with incentives in telephone surveys”, Public Opinion Quarterly, Vol.64, pp.171-188 Smith T.W., 1983, “The hidden 25 percent: An analysis of nonresponse on the 1980 general social survey”, Public Opinion Quarterly, Vol.47, pp.386-404 Spooner S.H., 2003, “Survey response rates and overall patient satisfaction scores. What do They mean?”, Journal of Nursing Care Quality, Vol.18, Nr.3, pp.162-174 Stinchcombe A.L., Jones C. en Sheatsley P., 1981, “Nonresponse bias for attitude questions”, Public Opinion Quarterly, Vol.45, pp.359-375 Teitler J.O., Reichman N.E. en Sprachman S., 2003, “Costs and benefits of improving response rates for a hard-to-reach population”, Public Opinion Quarterly, Vol.67, pp.126-138
58