STATISTIEK IN WOORDEN
© Noordhoff Uitgevers bv
Meerdimensionale schaaltechnieken Stel, je krijgt een afstandentabel waarin de onderlinge afstanden van 30 steden in een voor jou onbekend land staan aangegeven. Op grond van deze informatie wordt je gevraagd de landkaart van dat land te tekenen. In essentie is dit, wat beoogd wordt met meerdimensionale schaaltechnieken (vaak afgekort tot MDS): op grond van gegevens over afstanden, een ruimtelijke afbeelding maken die de werkelijkheid zo goed mogelijk weergeeft. Overigens wordt meestal gewerkt met gelijkenissen in plaats van afstanden, maar dat zijn twee kanten van dezelfde medaille: als twee objecten op elkaar lijken, is de (psychologische) afstand ertussen klein; als de afstand groot is, is de gelijkenis kleiner. Meerdimensionale schaalanalyse verloopt in drie stappen. Als eerste worden gelijkenisgegevens verzameld over alle mogelijke paren onderzoeksobjecten. Deze gelijkenissen worden vervolgens gebruikt om de objecten in een plaatje af te beelden. Ieder object correspondeert met een punt in die afbeelding, waarbij objecten die veel op elkaar lijken, dicht bij elkaar moeten komen te liggen. Ten slotte moet het resultaat geïnterpreteerd worden. Hoe komt men aan gelijkenisgegevens? De meest directe manier is om dit aan respondenten zelf te vragen. Bij een marktonderzoek krijgen de respondenten bijvoorbeeld 14 automerken steeds paarsgewijs ter beoordeling voorgelegd. Bij elk paar moeten zij op een zevenpuntsschaal aangeven in hoeverre de automerken op elkaar lijken. Er wordt niet gezegd hoe ze dat moeten beoordelen; iedere respondent zal dus zijn eigen beoordelingscriteria gebruiken. Een van de doelstellingen van het marktonderzoek is nu juist om uit te vinden welke criteria of dimensies voor de respondenten kennelijk belangrijk zijn bij de beoordeling van automerken. Het hoeft echter niet altijd om subjectieve oordelen te gaan. Kruispunten kunnen meer of minder op elkaar lijken in termen van het aantal ongelukken dat er gebeurt, het aantal bekeuringen dat er gegeven wordt, het aantal fietsers dat door rood licht rijdt of het aantal auto’s dat het kruispunt per uur passeert. Ook de correlatiecoëfficiënt kan als gelijkenismaat gebruikt worden. Stel dat men van een groot aantal steden gegevens verzameld heeft over de geografische ligging (noorderlengte en zuiderbreedte), aantal inwoners, aantal werklozen, aantal allochtonen, criminaliteitscijfers en dergelijke. Bij iedere stad hoort dus een rij cijfers. Men kan nu de cijfers van stad A vergelijken met die van stad B, door de correlatiecoëfficiënt te berekenen tussen A en B. Als (de cijfers van) A en B veel op elkaar lijken, zal de correlatiecoëfficiënt hoog zijn. Daarna moeten de gelijkenisgegevens afgebeeld worden.
166
Voorbeeld
© Noordhoff Uitgevers bv
MEERDIMENSIONALE SCHAALTECHNIEKEN
Neem als simpel voorbeeld onderstaande afstanden tussen drie steden A, B en C:
A – B : 20 km A – C : 10 km B – C : 15 km
of in matrixvorm:
A B C
A – 20 10
B 20 – 15
C 10 15 –
We willen dit zo afbeelden dat 10 mm op papier staat voor 10 km. Stad A wordt als een punt weergegeven op een willekeurige plaats in de ruimte. Daarna kunnen we stad B als een punt afbeelden op 20 km = 20 mm afstand van punt A, zoals in onderstaande linker figuur. B kan natuurlijk in iedere richting vanaf A liggen. Het gaat echter om de relatieve positie van de punten ten opzichte van elkaar, en daarvoor maakt het niet uit in welke richting we B tekenen. Nu stad C. C moet op 10 mm van A af liggen; dit betekent ergens op de cirkel met straal 10 rond A. Ook moet C op 15 mm van B af liggen, dat wil zeggen ergens op de cirkel rond B. In onderstaande rechterfiguur is een punt C getekend dat aan beide eisen voldoet.
C A
10
B 20
A
15
M B
Voor drie steden is dit proces eenvoudig: de afstanden in de tekening corresponderen exact met de afstanden in kilometers tussen de steden. Maar als er meer steden zijn, wordt het moeilijk ze allemaal zó af te beelden dat er recht gedaan wordt aan alle onderlinge afstanden. We kunnen stad D misschien nog wel op 40 mm van A en tegelijk 35 mm van B neerzetten, maar hoe zorgen we ervoor dat D ook tegelijk 20 mm van C afligt? Dat gaat ‘wringen’. Een computer moet dan zoeken naar de beste oplossing in díe zin, dat er zo veel mogelijk recht wordt gedaan aan alle onderlinge afstanden. Dat lukt nooit helemaal, zeker niet bij veel af te beelden objecten. De maat die aangeeft hoe goed – of eigenlijk hoe slecht – de bereikte oplossing de oorspronkelijke gegevens weergeeft, wordt stress genoemd. Die kan op een aantal verschillende manieren berekend worden. Een veel gebruikte stressmaat is die van Kruskal die loopt van 0 tot 1. 0 geeft daarbij een perfecte oplossing aan zoals in het voorbeeld van de drie steden: de afstanden in de afbeelding corresponderen precies met de afstanden (of gelijkenissen) in de oorspronkelijke gegevens. Een stress van 1 betekent dat de afbeelding absoluut niet lijkt op de oorspronkelijke gelijkenisdata. Hoe groter de stress, des te slechter is dus de oplossing. 167
MEERDIMENSIONALE SCHAALTECHNIEKEN
© Noordhoff Uitgevers bv
Bij MDS gaat het er om een afbeelding zó te maken dat de stress minimaal is, ofwel: het plaatje moet zo veel mogelijk lijken op de oorspronkelijke gelijkenisdata. Maar hoe definieer je ‘zo veel mogelijk lijken op’? Hiervoor bestaan verschillende methoden, die leiden tot verschillende typen MDS. In bovenstaand stedenvoorbeeld is er stilzwijgend vanuit gegaan dat stad B, die twee keer zo ver van A afligt als C, ook in de afbeelding twee keer zo ver van A moet afliggen. In feite ga je dan uit van een ratioschaal: een twee keer zo groot getal betekent ook twee keer zoveel van iets. Dit type MDS wordt metrische meerdimensionale schaalanalyse genoemd. Je kunt de eis ‘zo veel mogelijk lijken op’ ook wat soepeler formuleren: stad B ligt verder van A dan stad C, dus moet ook in het plaatje verder van A afliggen dan C. Hier moet alleen de rangorde van de afstanden of gelijkenissen bewaard blijven in de afbeelding: minder gelijkenis betekent verder weg, zonder aan te geven hoeveel verder weg. Dit geeft de computer meer vrijheid. We spreken dan van niet-metrische meerdimensionale schaaltechnieken. Bij het tekenen van een landkaart ligt het aantal dimensies vast: landkaarten teken je nu eenmaal in het platte vlak, dus in twee dimensies. Bij MDS is het aantal dimensies echter geen vast gegeven; vaak zullen er meer dimensies nodig zijn om de gegevens goed te kunnen weergeven. Om bij het stedenvoorbeeld te blijven: misschien biedt een globe (dus drie dimensies) een betere oplossing. Hoewel visueel moeilijk voor te stellen, is wiskundig gezien het aantal dimensies onbeperkt, vandaar de naam: meerdimensionale schaaltechnieken. Computerprogramma’s voor MDS geven altijd een aantal verschillende oplossingen, met meer of minder dimensies en de bijbehorende stress-maten. De keuze voor het ‘juiste’ aantal dimensies is aan de onderzoeker. K punten zijn altijd perfect in K-1 dimensies af te beelden. Er is dus altijd een oplossing te berekenen met een stress van 0. Maar dat verheldert weinig: we willen juist een overzichtelijke afbeelding, waarin echter niet te veel van de oorspronkelijke gegevens verloren mag gaan. Het aantal af te beelden objecten (meer objecten vereisen over het algemeen meer dimensies) en de interpreteerbaarheid van de oplossing spelen een rol bij de keuze van het aantal dimensies. Vaak is de bepaling van het aantal benodigde dimensies een belangrijk doel van de analyse. Beoordelen mensen auto’s bijvoorbeeld in wezen slechts op twee dimensies zoals de prijs en de veiligheid, of moet er een derde dimensie bij, zoals het uiterlijk? Met de hierboven gestelde vragen zijn we aangeland bij de interpretatie, de derde analysestap. MDS geeft de dimensies geen namen. Het geeft alleen een plaatje, zoals onderstaande figuur, waarin 14 automerken zijn weergegeven.
168
Voorbeeld
© Noordhoff Uitgevers bv
MEERDIMENSIONALE SCHAALTECHNIEKEN
Tweedimensionele afbeelding van automerken Dimensie 2
Bentley Jaguar Mercedes BMW Honda Opel Dimensie 1 Toyota
Ford Mazda
Hyundai
Fiat
Citroën
Lada
M
Renault
Het benoemen van de assen (de dimensies van de oplossing) is een taak van de onderzoeker. Hoewel er ook statistische hulpmiddelen voor zijn, gebeurt dat veelal op het oog: welke merken liggen dicht bij elkaar en wat is het gemeenschappelijke ervan? Welke liggen juist ver uit elkaar, en hoe kunnen we dat benoemen? In bovenstaande figuur kunnen we dimensie 1 zien als een landen-dimensie: de Europese auto’s liggen vooral rechts in de figuur, waarbij auto’s die uit hetzelfde land komen zoals Renault en Citroën, relatief dicht bij elkaar liggen. Alle niet-Europese auto’s liggen links, waarbij een ‘exotisch’ land als Korea (Hyundai) het verste weg ligt. Kennelijk beoordelen mensen auto’s in sterke mate op het land van herkomst. De tweede dimensie heeft iets met prijs of status te maken: de dure auto’s bovenaan, de goedkopere meer aan de onderkant van de figuur. In het stedenvoorbeeld ging het om de analyse van één tabel met gelijkenisgegevens. Soms heeft men echter per respondent een tabel met gelijkenisoordelen, zoals in het voorbeeld van de automerken; daar was immers aan iedere respondent gevraagd de auto’s steeds paarsgewijs te vergelijken. Meerdimensionale schaaltechnieken voor individuele verschillen geven naast de afbeelding van de objecten, ook een afbeelding van de respondenten. Personen wier oordeel op elkaar lijkt 169
MEERDIMENSIONALE SCHAALTECHNIEKEN
© Noordhoff Uitgevers bv
komen daarin dichter bij elkaar te liggen dan personen met een verschillend oordeel. Deze technieken leveren altijd twee afbeeldingen: een voor de objecten en een voor de personen. Bij een correspondentieanalyse kunnen personen en objecten in één figuur worden afgebeeld.
170