12. VARIANTIEANALYSE 12.1 Inleiding Dit hoofdstuk gaat over variantieanalyse (ook wel ‘ANOVA’, ANalysis Of VAriance) en is een compacte mix van ideeën en meningen van diverse auteurs, geselecteerd volgens onze smaak, en onze ideeën, en verwerkt op onze manier. Deze auteurs zijn allen deskundigen, maar helaas zijn ze het niet altijd met elkaar eens. Het zij zo. In elk geval hebben we ons laten inspireren door publicaties van achtereenvolgens Bradley (1968), Edwards (1968), Hays (1973), Hoel (1971), Kerlinger (1981), Kirk (1968), Koele en Van der Brink (1987), Meerling (1984) en Winer (1971). Wat betreft de notaties en terminologieën is het schipperen: consequent Nederlandse terminologie aanhouden zou prachtig zijn, maar dat is ons niet gelukt. Vaak zijn begrippen domweg niet goed vertaalbaar. Bovendien zou dat voorbijgaan aan het feit dat daarmee de merendeels Engelstalige literatuur nogal moeilijk toegankelijk wordt. Hoe zit dit hoofdstuk in elkaar? We beginnen zo meteen (paragraaf 12.2) met een drietal voorbeelden van onderzoek waarvan de uitkomsten getoetst kunnen worden met de ANOVA-techniek. De bedoeling van de paragraaf is je vertrouwd te maken met de toetsingstechniek, met de zo hier en daar wat afwijkende terminologie, en met de voorwaarden waaronder van de techniek gebruik mag worden gemaakt. In paragraaf 12.3 introduceren we de techniek op een meer intuïtieve wijze door in te gaan op de gedachtegang achter de toets. In paragraaf 12.4 leiden we een formele gedaante af voor de eenvoudigste toetsingsgrootheid. In de daaropvolgende paragrafen compliceren we die grootheid exemplarisch. Telkens wanneer je bij het bestuderen van die paragrafen een vastloper oploopt, geldt als welgemeend advies: terug naar paragraaf 2. Met de daarin aangedragen studeerstof moet je in staat zijn om de verdere paragrafen zelfstandig te bestuderen. Zoals te doen gebruikelijk besluiten we het hoofdstuk met een aantal opgaven. 12.2 ANOVA: enkele voorbeelden Variantieanalyse is, net als de t-toets, een statistische generalisatietechniek, dat wil zeggen: een instrument dat behulpzaam is, of kan zijn, bij de formulering van uitspraken omtrent de eigenschappen van populaties op basis van steekproefgegevens. Die uitspraken hebben betrekking op het al dan niet gelijk zijn van een aantal (twee of meer) populatiegemiddelden. In deze zin kan variantieanalyse dan ook opgevat worden als een soort uitgebreide t-toets. Echter, met behulp van variantieanalyse kunnen de gegevens van meer dan twee steekproeven gelijktijdig geanalyseerd worden. Bovendien is het mogelijk om de effecten van verschillende onafhankelijke variabelen simultaan in de analyse te betrekken. Kijk eens naar Tabel 12.1. In dit voorbeeld wordt het gemiddeld niveau vergeleken van neuroticisme van een drietal populaties, namelijk bewoners van laagbouw, middelhoogbouw en hoogbouwwoningen. Daaruit zijn drie even grote, aselecte steekproeven getrokken. Daarna is aan alle personen in de steekproef een neuroticismetest afgenomen.
224
Tabel 12.1. Bouwhoogte en neuroticisme (met een algemeen gemiddelde van 66.33).
Neuroticismescores
Gemiddelde Standaarddeviatie
Laag 60 65 50 30 43 80 30 51.14 18.55
Bouwhoogte Middelhoog 75 53 32 80 99 63 70 67.43 21.22
Hoog 45 83 97 66 98 99 75 80.43 20.11
Er zijn dus drie populaties onderscheiden aan de hand van één variabele, te weten de variabele bouwhoogte. ‘Bouwhoogte’ is in deze opzet een onafhankelijke variabele, en neuroticisme de afhankelijke variabele. De terminologie wijkt bij de variantieanalyse overigens af van de gebruikelijke (zoals bij de t-toets). Onafhankelijke variabelen worden factoren genoemd, en de schaalpunten ervan (dus in het voorbeeld de drie bouwhoogtes, laag, middelhoog en hoog) niveaus. Het aantal personen/respondenten of scores per steekproef worden het aantal replicatie genoemd. De groep replicaties bij een onderscheiden niveau heet een cel. Om nu te onderzoeken of de drie populaties verschillen wat gemiddelde neuroticismescore betreft zouden we drie t-toetsen uit kunnen voeren: voor een vergelijking van de groepen laag-middelhoog, laag-hoog en middelhoog-hoog. Daar kleven echter verschillende bezwaren aan. Eén ervan noemen we hier: iedere keer dat je de t-toets uitvoert loop je het risico op een alfa-fout (dus je verwerpt de H0 ten onrechte). Dat is bij één keer een ttoetsuitvoering een moedwillig ingecalculeerd risico.Bij zo’n repeterende t-toetsing (en om van vier groepen de gemiddelden te vergelijken, moet al zes keer een t-toets uitgevoerd worden!) vergroot je echter het risico zeer snel en cumuleert het werkelijke alfaniveau tot onaanvaardbaar hoog niveau. In het bovenstaande voorbeeld zou je om alle drie de condities te vergelijken drie ttoetsen uit moeten voeren. Voor elke toetsing heb je een kans om een α-fout te maken van 0.05. De kans dat je tenminste één foute beslissing neemt wordt nu, de kans dat je bij de vergelijking niveau ‘laag’ met niveau ‘middelhoog’ een foute beslissing neemt plus de kans dat je bij de vergelijking niveau ‘laag’ met niveau ‘hoog’ een foute beslissing neemt plus de kans dat je bij de vergelijking niveau ‘middelhoog’ met niveau ‘hoog’ een foute beslissing neemt plus de kans dat je bij beide vergelijkingen een verkeerde beslissing neemt. Je ziet, overall genomen wordt deze kans een stuk groter dan het α-niveau van vijf procent. Variantieanalyse biedt de mogelijkheid om op grond van één toetsing de houdbaarheid te onderzoeken van de nulhypothese: alle populatiegemiddelden zijn aan elkaar gelijk. Verwerping van deze nulhypothese impliceert overigens dat niet alle populatiegemiddelden aan elkaar gelijk zijn, maar verwerping geeft niet aan waar die verschillen te vinden zijn.
HOOFDSTUK 12: VARIANTIEANALYSE (Verdere analyse kan dus noodzakelijk zijn). Variantieanalyse kan dus het beste gekenschetst worden als een vrij globale generalisatietechniek, die in feite uitsluitend kan worden toegepast als men a priori geen specifieke voorspellingen kan of wil doen omtrent de verschillen tussen de populaties. Een variantieanalyse toegepast op de scores in Tabel 12.1 zal tot verwerping van de nulhypothese leiden; de gemiddelden zijn niet gelijk. Kan nu geconcludeerd worden dat verschillen in neuroticisme veroorzaakt worden door verschil in bouwhoogte van de woning? Hier is enige terughoudendheid op zijn plaats. Het is immers niet uit te sluiten dat de drie populaties niet alleen wat betreft bouwhoogte systematisch van elkaar verschillen, maar ook wat betreft andere factoren, die niet in het onderzoek opgenomen zijn. Bejaarden en gezinnen met kleine kinderen zullen bij voorbeeld vaker in laagbouw aangetroffen worden, en zo zijn er nog talloze alternatieve verklaring voor het verschil in gemiddeld neuroticisme te bedenken. Hieruit kunnen we de wijze les trekken dat vergelijkingen tussen populatiegemiddelden alleen mogelijk zijn wanneer de steekproeven niet op meerdere (en onbekende) niveaus systematisch verschillen. Kortom: de respondenten dienen aselect aan de condities toegewezen te worden (en de interne en constructvaliditeit dient in orde te zijn). Door middel van variantieanalyse toetsen we ‘alleen’ de kans dat gevonden verschillen aan toevallige steekproeffluctuaties moeten worden toegeschreven. Nog een voorbeeld. In Tabel 12.2 staan gegevens vermeld waarop dezelfde variantieanalyse-techniek als voor Tabel 12.1 kan worden toegepast. In het voorbeeld is sprake van factor schrijfcursus, met als niveaus: traditioneel schrijfonderwijs, schrijfonderwijs met expliciete instructies, en herschrijfonderwijs. Als afhankelijke variabele is het oordeel van een docent over de kwaliteit van de schrijfproducten gekozen. In de tabel zie je oordelen over schrijfproducten die zijn geschreven na één maand onderwijs volgens de desbetreffende methode. Tabel 12.2. Onderwijsvorm en kwaliteit van schrijfproducten (N.B. Het overall gemiddelde is 5.2
Kwaliteitsoordeel
Gemiddelde Standaarddeviatie
Traditioneel 5 7 3 6 4 5.0 1.6
Onderwijsvorm Instructie 5 7 4 4 8 5.6 1.8
Herschrijf 3 2 7 7 6 5.0 2.3
Als dit onderzoek net zo was opgezet als dat in Tabel 12.1 zou de interpretatie buitengewoon moeilijk zijn: eventuele significante verschillen zouden toegeschreven kunnen worden aan het feit dat de drie onderwijsvormen verschillende typen studenten aantrekken, waardoor geen causaal verband aangetoond kan worden tussen onderwijsvorm en prestatie. Wanneer echter de studenten – of meer algemeen: proefpersonen – aselect aan één van de drie onderwijsvormen zijn toegewezen (en andere validiteitbedreigende factoren
226 goed zijn gecontroleerd), kunnen we eventueel optredende verschillen interpreteren als een effect van het verschil in onderwijs – behoudens uiteraard het optreden van een alfafout. Het is de combinatie van aselecte toewijzing en ‘sophistication’ van variantieanalytische technieken die experimenteel onderzoek grote diensten kan bewijzen. Die ‘sophistication’ is niet gering en schuilt vooral in het feit dat variantieanalyse technieken biedt waarmee je de mogelijke invloed kunt nagaan van meer factoren, en alle mogelijke combinaties van die factoren, op een afhankelijke variabele. Het voorbeeld uit Tabel 12.3 maakt dit duidelijk. Het heeft betrekking op hetzelfde onderzoek als uit Tabel 12.2, maar er is een tweede onafhankelijke variabele (factor) geïntroduceerd, namelijk het geslacht van de docent. Tabel 12.3.Onderwijsvorm, geslacht van de docent en kwaliteit van schrijfproducten.
Sekse Docent
Man
Gemiddeld (sd)
Vrouw
Gemiddeld (sd) Overall Gemiddeld (sd)
Traditioneel 6 6 3 4 5 4.8 (1.3) 6 3 8 7 4 5.6 (2.1)
Onderwijsvorm Instructie 7 4 7 6 5 5.8 (1.3) 6 5 5 4 8 5.6 (1.5)
Herschrijf 3 5 5 7 6 5.2 (1.5) 7 8 6 6 2 5.8 (2.3)
Gemiddeld (sd)
5.2 (1.7)
5.7 (1.3)
5.5 (1.8)
5.5 (1.6)
5.3 (1.3)
5.7 (1.8)
Er zijn zo zes condities ontstaan, waaraan beschikbare studenten weer aselect toegewezen zijn. Het is mogelijk met behulp van variantieanalyse de houdbaarheid van drie hypothesen te onderzoeken: 1) verschillende onderwijsvormen leiden tot verschillen in gemiddelde score op de afhankelijke variabele (5.2 vs. 5.7 en 5.5.); 2) het geslacht van de docent is van invloed op de scores op de afhankelijke variabele (5.3 vs 5.7); 3) de mogelijke invloed van de ene factor is niet voor ieder niveau van de andere factor dezelfde (de celgemiddelden: 4.8, 5.8 en 5.2 voor mannelijke docenten en 5.6, 5.6 en 5.8 voor vrouwelijke docenten).
Deze laatste hypothese is nogal lastig geformuleerd, maar kan als volgt geïllustreerd worden. Het is denkbaar dat mannelijke docenten over het algemeen minder ‘succesvol’ zijn (in termen van gemiddelde op de afhankelijke variabele) dan vrouwelijke docenten (hypothese 2); dat sluit echter niet de mogelijkheid uit dat ze bij één van de specifieke onderwijsvormen ‘succesvoller’ zijn dan hun vrouwelijke collega’s. Toetsing van de derde hypothese geeft de mogelijkheid de aanwezigheid van dit soort nuances (de zogenaamde interactie-effecten; zie Hoofdstuk 5) na te gaan. Om de variantieanalyse te mogen toepassen moet aan een drietal voorwaarden zijn voldaan: 1) De scores in de verschillende groepen moeten normaal verdeeld zijn; 2) De verschillende groepen moeten een (nagenoeg) gelijke variantie hebben (dit impliceert overigens een gelijk aantal replicaties per cel); 3) De scores in de verschillende groepen moeten minimaal op intervalniveau zijn gerepresenteerd. In alle voorbeelden die hierna nog volgen kun je zien dat deze aannames worden gedaan. Overigens blijkt de tweede aanname in de praktijk – zeker bij grote steekproeven – wat minder belangrijk, en ook aan het belang van de eerste aanname wordt wel eens getwijfeld. Samenvattend: in deze paragraaf hebben we duidelijk willen maken dat variantieanalyse gebruikt wordt om populatiegemiddelden met elkaar te vergelijken, en dat die vergelijkingen bij bepaalde experimentele opzetten de basis kunnen vormen voor uitspraken omtrent de invloed van meer factoren en combinaties van die factoren op een afhankelijke variabele. 12.3 Een intuïtieve uitleg van de methode der variantie-analyse De bedoeling van experimenteel toetsend onderzoek is altijd: nagaan of verschillende groepen, c.q. condities van elkaar verschillen. In 12.2 hebben we gezien dat het vergelijken van meer dan twee groepen (steekproeven) het beste kan gebeuren door een variantieanalyse uit te voeren. We beschouwen de steekproeven als representaties van verschillende subpopulaties. Binnen alle onderscheiden subpopulaties doen we een aantal waarnemingen. Deze waarnemingen verschillen natuurlijk van replicatie tot replicatie. We kunnen dus binnen elke groep de variantie van de scores (waarnemingen) berekenen. We nemen dus nu aan dat in elke groep (steekproef uit de subpopulatie) de scores normaal verdeeld zijn, en dat alle groepen een gelijke variantie hebben, die we altijd S2 noemen. Wanneer we drie subpopulaties onderscheiden, zoals in Tabel 12.1, dan verkrijgen we drie scoreverdelingen. In Figuur 12.1 wordt hiervan een voorbeeld gegeven (we gaan er hier, en in alle andere gevallen, vanuit dat de scores op intervalniveau zijn gemeten).
228
Figuur 12.1. Drie frequentieverdelingen van de scores in drie subpopulaties.
A
A
B
B
C
Totaal
A
C
B
C
Totaal
Totaal
Naar deze figuur moet je eens wat langer kijken. Laten we beginnen me de eerste set van drie steekproeven (links: A, B en C). We zien dat de drie scoreverdelingen typisch normaal zijn verdeeld, en op grond van de drie configuraties mogen we verder aannemen dat de varianties in de drie subpopulaties gelijk zijn. Bovendien zien we dat de gemiddelde scores in de drie subpopulaties aan elkaar gelijk zijn. Nu valt op dat alles aan deze drie subpopulaties gelijk is; de normale scoreverdeling, de varianties voor de subpopulaties en de gemiddelde scores. Het lijkt dan ook niet zinnig meer om nog van drie verschillende subpopulaties te spreken zoals we aanvankelijk deden. We kunnen ook zeggen: de drie onderscheiden subpopulaties
HOOFDSTUK 12: VARIANTIEANALYSE vormen in feite één populatie, en onze groep scores komt ook in zijn geheel uit die éne populatie (zie: Figuur 12.1 Totaal). Goed, kijk nu eens de tweede (in het midden) en de derde set (rechts) van drie steekproeven. Ook hier zien we dat de drie groepen scores normaal verdeeld zijn, en dat de varianties in de drie onderscheiden subpopulaties gelijk zijn. Een belangrijk verschil echter met de eerste set betreft de verschillen in gemiddelden per subpopulatie. Zoals je ziet, zijn die aan elkaar ongelijk. Bij gevolg kunnen we nu niet stellen dat al onze waarnemingen uit één en dezelfde populatie komen; ze komen daarentegen daadwerkelijk uit drie verschillende populaties (we laten nog even in het midden waardoor die verschillen dan zijn veroorzaakt, maar uiteraard gaat het de onderzoeker erom aannemelijk te maken dat die verschillen systematisch samenhangen met de verschillende factorniveaus in zijn experiment). Deze geobserveerde verschillen in gemiddelde scores, hebben belangrijke consequenties voor de variantie van de totale populatie (zie de onderste figuren). We lichten dit toe en zetten uiteen wat de betekenis is van die consequenties. Naar aanleiding de drie meest linker plaatjes in Figuur 12.1 stelden we vast dat de drie subpopulaties in alle relevante opzichten gelijk waren en dat onze observaties bijgevolg uit één populatie afkomstig waren. Het zal je niet veel moeite kosten om in te zien dat de variantie van die éne (super)populatie gelijk is aan de variantie van de drie subpopulaties. Zo niet in de beide andere kolommen van Figuur 12.1. De variantie van de ‘totale populatie’ (we zetten hier aanhalingstekens omheen. Er is immers in feite geen sprake van één populatie) is hier niet dezelfde als in één der onderscheiden subpopulaties, maar veel groter! Dat verschil in variantie tussen de totale populatie en de subpopulatie wordt veroorzaakt – en dit is van het grootste belang – door de variantie die het gevolg is van de verschillen in de gemiddelde scores van de subpopulaties (zie Totaal in de middelste en de rechter kolom van Figuur 12.1). We kunnen nu een paar tussentijdse conclusies trekken. Allereerst wordt de variantie in de totale populatie gevormd door de varianties van de subpopulaties (die we gelijk veronderstellen) en door de variantie van de verschillende gemiddelde scores. Wanneer die gemiddelden niet van elkaar verschillen (zoals in de linker kolom van Figuur 12.1 I), dan is de ‘totale populatievariantie’ dus gelijk aan de ‘subpopulatievarianties’. Wanneer die gemiddelden wel verschillen, dan is de ‘totale populatievariantie’ groter dan de afzonderlijke ‘subpopulatievarianties’. We willen nog enige momenten stilstaan bij die ‘verschillen in gemiddelden’. Bekijk nog eens de gegevens uit Tabel 12.2, hier herhaald.
230
Tabel 12.2. Onderwijsvorm en kwaliteit van schrijfproducten (N.B. Het overall gemiddelde is 5.2 (herhaald)
Kwaliteitsoordeel
Gemiddelde Standaarddeviatie
Traditioneel 5 7 3 6 4 5.0 1.6
Onderwijsvorm Instructie 5 7 4 4 8 5.6 1.8
Herschrijf 3 2 7 7 6 5.0 2.3
We hebben al een paar maal gezegd dat experimenteel-toetsend onderzoek gericht is op de vraag of er tussen bepaalde groepen replicaties verschillen bestaan. De onderzoeker die het bovenstaande experiment heeft uitgevoerd wil natuurlijk nagaan of prestaties van leerlingen samenhangen met verschillen in onderwijsvorm. Hij wil – in bovenstaande termen – dus kijken of de drie groepen scores uit verschillende populaties afkomstig zijn. Om dat te kunnen nagaan, is hij uiteraard geïnteresseerd in de verschillen in de gemiddelde scores van de drie subpopulaties. Immers: op dat niveau heeft hij getracht verschillen tussen populaties teweeg te brengen. Wanneer hij de vraag ‘komen deze groepen scores uit verschillende populaties?’ positief beantwoord kan worden, dan zijn het drie verschillende populaties die de onderzoeker ook bewust heeft gecreëerd (uiteraard onder de aanname dat hij bij het toewijzen van scores aan condities aselect te werk is gegaan). We kunnen dan ook zeggen: de verschillen in gemiddelde scores zijn significant. Alvorens we daartoe in staat zijn, moet er getoetst worden: een ANOVA stelt ons derhalve tot zulke uitspraken in staat, maar we moeten hem wel eerst uitvoeren. Daarmee gaan we nu verder. Variantieanalyse is geheel gebaseerd op de analyse van de variantie van één populatie. Deze analyse moet uitwijzen waar die variantie ‘vandaan’ komt. In het bovenstaande voorbeeld naar aanleiding van Tabel 12.2 gaat het er dus om na te gaan welk deel van de variantie tussen respondenten toe te schrijven is aan verschillen in behandeling (niveaus van de factor). Als er geen verschillen tussen de niveaus van de factor aangetoond kunnen worden, dan zullen de varianties in de drie subpopulaties gelijk zijn aan de totale variantie. Zijn die verschillen er wel, dan zullen de varianties in de drie subpopulaties kleiner zijn dan de totale variantie. Aan het slot van deze paragraaf herhalen we nogmaals de essentie van de ANOVA. Naarmate een groter deel van de totale variantie toegeschreven kan worden aan de variantie tussen condities (en dus verhoudingsgewijs een geringer deel aan de
HOOFDSTUK 12: VARIANTIEANALYSE variantie tussen proefpersonen), zal er eerder sprake zijn van een significant effect. De toetsingstechniek is dus gebaseerd op de verhouding van varianties tussen condities en de variantie binnen condities is. Alle verschillen binnen condities zijn verschillen in individuele replicaties (proefpersonen) en kunnen nimmer als effect geinterpreteerd worden. Echter, alle verschillen tussen condities zijn gecreëerde verschillen, en kunnen derhalve mogelijk wel als een effect geïnterpreteerd worden. In het vervolg zullen we de begrippen ‘binnen’ en ‘tussen’ nog dikwijls tegenkomen. Soms zullen we ook gebruik maken van de Engelse benaming: ‘within’ en ‘between’. 12.4 Een meer formele gedaante van de F-toets In deze paragraaf leiden we de formele gedaante af van de variantieanalysetechniek. Dat wil zeggen, we zullen laten zien hoe de eerder (zie 12.3) geformuleerde gedachtegang algebraïsch kan worden gerepresenteerd, en hoe de toetsingsgrootheid valt te berekenen. We zullen laten zien dat de uiteindelijke Fratio (zo heet de uitkomst van een ANOVA) gedefinieerd kan worden als:
S F S =
2
tussencondities 2
,
(12.1)
binnencondities
en dat deze ratio een bekende verdeling heeft onder de aanname van gelijke populatiegemiddelden (en dat is altijd de nulhypothese; er vanuit gaande dat H0 juist is bereken je de kans om de verschillen te vinden die je gevonden hebt. En als die kans klein genoeg is verwerp je H0). Voor de afleiding van de formele gedaante van de toetsingsgrootheid, gaan we uit van een bepaald model voor een score. Stel dat we op grond van een bepaalde factor a populaties (de niveaus van de onafhankelijke variabele) worden onderscheiden. We nemen aan dat de variabele X normaal verdeeld is in elke subpopulatie dezelfde variantie. De score van observatie r in conditie i kunnen we nu schrijven als de mate waarin het gemiddelde van conditie i afwijkt van het algemeen gemiddelde en de mate waarin de score van replicatie r afwijkt van het conditie gemiddelde. Als we het algemene gemiddelde aangeven met μ. (mu), dan ziet de vergelijking er als volgt uit: XIr = µ + α i + eir
(12.2)
Dus: we ontleden elke score in een algemeen deel (μ.), een deel dat geldt voor conditie i (αi) en een deel dat inherent is aan observatie r (er).
232 Nu zijn drie varianties interessant: de variantie van (S2X), de variantie tussen de condities (S2α) en de variantie binnen condities (tussen replicaties: S2e). Wanneer we de gebruikelijke formule voor de variantie gebruiken krijgen we:
∑(X − X )
2
S
i
2 X
=
(12.2a)
N −1
∑ (α − α )
2
S
i
2
= α
(12.2b)
Condities − 1
∑ (e − e )
2
S
r
2 e
=
(12.2c)
N − Condities
Laten we ons eerst concentreren op de tellers in deze vergelijkingen. Deze noemen we kwadratensom (Sum of Squares, of afgekort: SS). Er geldt natuurlijk dat indien H0 waar is de totale kwadratensom gelijk is aan de kwadratensom van de verschillen tussen condities en de verschillen tussen replicaties. Immers, het enige wat we doen is elke score opdelen in verschillede elementen. Wanneer we dit uitschrijven in (geobserveerde scores) krijgen we:
∑ (X − X ) = ∑(X − X ) + ∑(X 2
i
2
i
ir
− X i )2
(12.3)
In woorden: de kwadratensom van de geobserveerde scores is gelijk aan de kwadratensom van de verschillen tussen condities plus de verschillen binnen condities. Als we de kwadratensommen delen door de respectievelijke vrijheidsgraden (degrees of freedom: df) dan krijgen we de variantie die met elk van deze (drie) bronnen verbonden is (zie Tabel 12.4). Om het ‘makkelijk’ te maken, noemen in variantieanalyse de variantie die met een bron geassocieerd is niet de variantie maar de gemiddelde kwadratensom (Mean Square: MS) Tabel 12.4. Kwadratensom (Sum of Squares: SS), vrijheidsgraden (df), en gemiddelde kwadratensom (Mean Square: MS). Bron Tussen Binnen Totaal
SS SSTussen SSBinnen SSTotaal
df Ncondities -1 N – Ncondities N–1
MS SSTussen / Ncondities-1 SSBinnen / (N - Ncondities) SSTotaal / (N – 1)
HOOFDSTUK 12: VARIANTIEANALYSE Nu zijn we eindelijk waar we moeten zijn, want nu kunnen we de toetsingsgrootheid F definiëren. SS(tussen) N(condities)-1 MS(tussen) F= = SS(binnen) MS(binnen) N-N(condities)
(12.4)
Dus: de toetsingsgrootheid F is gebaseerd op de verhouding van de variantie (MS) tussen condities en de variantie (MS) binnen condities. Hoe groter de variantie tussen condities (relatief) is, hoe groter de toetsingsgrootheid F, en hoe onwaarschijnlijker H0. Om de toetsingsgrootheid F te kunnen interpreteren hebben we nog, net zoals bij de t-toets het aantal vrijheidsgraden (df) nodig. Dat zijn er bij variantieanalyse twee: het aantalvrijheidsgraden van de teller (het aantal condities min 1) en het aantal vrijheidsgraden van de noemer (het aantal replicaties (observaties) – het aantal condities). Aan de hand van de toetsingsgrootheid en de beide vrijheidsgraden ligt de kans dat op deze specifieke steekproefuitkomst vast, onder de aanname dat H0 waar is. 12.5 Enkele experimentele opzetten Het één-factorexperiment In een één-factorexperiment is er één onafhankelijke variabele met verschillende niveaus. Het effect van de manipulatie van deze onafhankelijke variabele op de afhankelijke variabele wordt bestudeerd. Bij voorbeeld onderzoeker CJ ontwerpt drie versies van hetzelfde formulier, en legt deze versies aan evenzoveel groepen respondenten voor. Hij is geïnteresseerd in het effect van de manipulatie van de onafhankelijke variabele (type formulier, met drie niveaus) op het aantal correct beantwoorde vragen. Het gaat CJ in eerste instantie om het schatten van de houdbaarheid van de nulhypothese: er is geen verschil in gemiddeld aantal correct beantwoorde vragen tussen de drie condities (versies, H0: µ1 = µ2 = µ3) tegen de alternatieve hypothese dat niet alle drie de gemiddelden aan elkaar gelijk zijn. In het algemeen gaat het bij een één-factorexperiment om het schatten van de houdbaarheid van de nulhypothese H0 : µ1 = µ2 = ... = µi = µa, wat ook geschreven 2 kan worden als H0: S α = 0: de variantie in groepsgemiddelden is gelijk aan nul. Taalbeheerser CJ is geïnteresseerd in de kwaliteit van verschillende versies van het huursubsidieformulier. Hij laat daarom dertig mensen een van de drie versies van het huursubsidieformulier invullen op grond van dezelfde situatiebeschrijving. Vanzelfsprekend heeft CJ personen at random aan een van de drie versies van het
234 huursubsidieformulier toegewezen. In elk formulier telt hij het aantal fouten dat de invullers maken. Deze aantallen zijn in Tabel 12.5 weergegeven. Tabel 12.5.
Versie A 10 10 12 8 7 15 6 6 8 9 X1 = 9.1
Aantal fouten in drie versies van het huursubsidieformulier (N.B. Het algemeen gemiddelde is 10.87). Formulier Versie B 12 13 13 10 7 7 15 14 11 12 X2 = 11.4
Versie C 15 17 12 10 11 11 13 13 10 9 X3 = 12.1
Met behulp van de variantieanalyse kan nu worden nagegaan of de versie van het huursubsidieformulier invloed heeft op de toetsscores (het aantal fouten). Daarbij moet de taalbeheerser dan aannemen -- of eigenlijk; zij moet er zeker van zijn -dat de subpopulaties alle normaal verdeeld zijn met dezelfde variantie. We moeten om de hypothese te kunnen toetsen de F-ratio bereken. Deze is gebaseerd op MS (between) en MS (within). Om deze beide variantieschattingen te berekenen, starten we met het uitrekenen van de respectievelijke Sums of Squares (SS (between) en SS (within). Voor de SS (between) moeten we voor alle replica’s in alle cellen dus het celgemiddelde van het algemeen gemiddelde aftrekken, kwadrateren en dan op tellen (zie het tweede lid van vergelijking 12.4). Het celgemiddelde is voor alle replica’s in één cel natuurlijk hetzelfde. Om rekenwerk te besparen kunnen we dus voor elke cel net zo goed één keer het celgemiddelde van het algemeen gemiddelde afhalen, kwadrateren en vermenigvuldigen met het aantal replica’s in de desbetreffende cel. Dit toegepast op Tabel 12.5 levert: Versie A Versie B Versie C Totaal
2
10 * (9.1 - 10.87) = 2 10 * (11.4 -10.87) = 10 * (12.1 – 10.87)2 = SS (between)
31.3 2.81 15.13 49.27
+
Voor we verder gaan is het verstandig even te kijken naar de bijdragen aan de SS (between). Je ziet dat de grootste bijdrage komt van ‘Versie C’, dat ‘Versie A’ nauwelijks bijdraagt, en ‘Versie B’ tussen deze beide uitersten in ligt. We gaan verder met de SS (within). Deze is gedefinieerd als de verschillen binnen condities (zie derde lid vergelijking 12.4). We moeten dus nagaan in hoeverre
HOOFDSTUK 12: VARIANTIEANALYSE de individuele scores afwijken van het groepsgemiddelde: Trek van elke score het groepsgemiddelde af, kwadrateer dit en tel alle gekwadrateerde verschillen bij elkaar op. Dat levert: Versie A Versie B Versie C
(10 - 9.1)2 + (10-9.1)2 + (12-9.1)2 + … + (9-9.1)2 = 2 2 2 (12-11.4) + (13-11.4) + … + (12 – 11.4) = 2 2 (15 – 12.1) + (17 – 12.4) + … + (9-12.4)2 = SS (within)
70.90 66.40 58.89 192.19
Nu kunnen we de variantieanalytische tabel invullen: Bron Between Within
SS 49.27 192.19
df 3-1 30 - 3
MS 49.27 / 2 = 24.64 192.19 / 27 = 7.12
De gezochte F-ratio is dus 24.64 / 7.12 = 3.46, met 2 vrijheidsgraden voor de teller, en 27 vrijheidsgraden voor de noemer. De kans om deze F-waarde te vinden – onder de aanname dat H0 – juist is, is kleiner dan .05 (zie: Bijlage B). Opgemerkt zij dat het nu heel eenvoudig is om de populatie (of als dat nodig is de steekproef) schatting van de variantie uit te rekenen. Immers, die is gelijk aan: S2 = [SS (between) + SS (within)] / [N - 1] = [49.27 + 192.19] / 29 = 7.55 In Tabel 12.6 staan de resultaten van de variantie-analyse vermeld, zoals die veelal weergegeven worden. Tabel 12.6. Bron Between Within Totaal
Resultaten variantie-analyse op de gegevens van Tabel 12.5. SS 49.27 192.19 241.46
df 2 27 29
MS 24.64 7.12 7.55
F 3.46
P <0.05
Uit Tabel 12.6 blijkt dat de nulhypothese inderdaad verworpen kan worden. Niet alle populatiegemiddelden zijn aan elkaar gelijk, de versie van het huursubsidieformulier is inderdaad van invloed op de prestatie, c.q. het aantal gemaakte fouten. Het lijkt aannemelijk dat met name in Versie C meer fouten gemaakt worden dan bij beide andere versies (zie de gemiddelden in Tabel 12.5, en de verschillende bijdragen aan SS (between)). Voor het verschil in gemiddelde prestaties tussen Versie A en B is dit minder duidelijk. Een t-toets voor het verschil in gemiddelden voor onafhankelijke groepen zou uitkomst kunnen bieden. Overigens is het een gevestigd gebruik de resultaten van een variantieanalyse te presenteren zoals in Tabel 12.6.
+
236 Het twee-factorexperiment In de eerste paragraaf is al een voorbeeld gegeven van een twee-factorexperiment (zie Tabel 12.3), een experiment waarin men de mogelijke invloed kan nagaan van twee factoren én van de combinatie van niveaus van die factoren op een afhankelijke variabele. In de eerste paragraaf is al een globaal beeld gegeven van de effecten die in een twee-factorexperiment geanalyseerd kunnen worden. Dat waren in de eerste plaats de effecten van de beide factoren afzonderlijk, de zogenaamde hoofdeffecten. Er kan natuurlijk een hoofdeffect van factor A en van factor B zijn. Naast deze twee hoofdeffecten is er nog een derde effect dat in een twee-factorexperiment onderscheiden kan worden. Dat is het interactie-effect: het effect van een specifieke combinatie van niveau i van factor A en niveau j van factor B op de subpopulatie die door deze combinatie gekenmerkt wordt (zie ook paragraaf 7 van hoofdstuk 5). Er kunnen nu drie nulhypothesen geformuleerd worden: 2 1) H0: S α = 0 2 2) H0: S β = 0 3) H0: S2αβ = 0 Deze drie H0’s geven respectievelijk de afwezigheid van hoofdeffecten van factor A, hoofdeffecten van factor B, en het interactie-effect tussen factor A en B weer. De toetsing van deze drie effecten gebeurt net zoals bij een één-factorexperiment. We delen de totale variantie op in verschillende delen, alleen onderscheiden we nu vier delen, namelijk: een kwadratensom voor het hoofdeffect van factor A (SS (A)), een kwadratensom voor het hoofdeffect van factor B (SS (B)), een kwadratensom voor het interactie-effect van factor A en factor B samen (SS (AB)) en een kwadraten som voor het residu, of de error (SS (error)). Analoog aan het éénfactorexperiment is SS (A) gelijk aan de kwadratensom van de verschillen tussen de gemiddelden van de niveaus van factor A en het algemeen gemiddelde, SS (B) is gelijk aan de kwadratensom de verschillen tussen de gemiddelden van de niveaus van factor B en het algemeen gemiddelde, en SS (error) is gelijk aan de kwadratensom van de individuele scores en het celgemiddelde. SS (AB) voor het interactieeffect is gelijk aan de kwadratensom van de celgemiddelden minus het gemiddelde van het betreffende niveau van factor A minus het betreffende niveau van factor B plus het algemeen gemiddelde. In formulevorm:
∑(X − X ) = ∑( X − X ) + ∑( X − X ) + ∑( X 2
ij
2
a
2
b
ab
− X a − X b + X )2 +
∑(X − X ij
ab
)2
(12.5)
We ontleden de kwadratensom van geobserveerde gemiddelden dus in vier delen:
HOOFDSTUK 12: VARIANTIEANALYSE
∑ (X − X )
2
SS( factor A), met df = (A -1)
∑ (X − X )
2
SS (factor B), met df = (B – 1)
a
b
∑(X
ab
− Xa − X b + X )2 SS (interactie ab), met df = (A – 1)(B – 1)
∑(X
ijr
− X ab )2
SS (error), met df = N – AB.
De laatste term is natuurlijk de (sums of squares van de) variantie in elke combinatie van factor A en B. Het is dus een maat voor de verschillen tussen observaties binnen elke cel. Volledig analoog aan het een-factorexperiment definiëren we de verschillende F-ratio’s: SS(A) df (A) MS(A) = FFactor ( A) = MS(e) MS(e) df (e)
SS(B) df (B) MS(B) FFactor ( A) = = MS(e) MS(e) df (e)
(12.6)
SS(AB) df (AB) MS(AB) FFactor ( A) = = MS(e) MS(e) df (e)
voor het toetsen van de drie nulhypotheses. Bij alle drie de F-ratio’s is dus de vraag: stelt het verschil in gemiddelden iets voor ten opzichte van de verschillen tussen observaties (de verschillen tussen de replicaties in de cellen)? We zullen nu een voorbeeld geven van een twee-factorexperiment. Een onderzoekster wil nagaan of een managementtraining volgens een aantal specifieke nieuw ontwikkelde theoretische principes effectiever is dan een managementtraining volgens de gebruikelijke methode. Zij besluit daartoe de zich aangemelde managers aselect toe te wijzen aan één van de twee trainingsmethoden, en beide groepen een managementtest vóór en aan het einde van de training af te nemen. De verwachting is dat de gemiddelde toename in de experimentele groep groter zal zijn dan die in de gewone groep. Aan deze experimentele opzet kleeft echter een
238 bezwaar. De mogelijkheid bestaat namelijk dat de voormeting de aandacht van de managers op bepaalde aspecten van het eigen functioneren richt (zie: Hoofdstuk 5, en dat deze aandacht alleen al verantwoordelijk kan zijn voor een andere invulling van de test bij de nameting. Bovendien bestaat de mogelijkheid dat het optreden van dit effect -- het zogenaamde ‘prestest sensitization effect’ -- afhankelijk is van wat er tussen voor- en nameting plaats vindt, dus van het soort training dat men heeft ondergaan. Er moeten daarom nog twee groepen worden toegevoegd aan het experiment, zodanig dat een experimentele opzet ontstaat als in Tabel 12.7. Tabel 12.7. Een Solomon-vier-groepen-ontwerp. Trainingsmethode Experimenteel
Gewoon
Wel
X11
X12
Niet
X 21
X 22
Voormeting
Deze experimentele opzet staat bekend als het Solomon-vier-groepen-ontwerp. De managers worden aselect aan één van de vier groepen toegewezen, en door de scores op de nameting als afhankelijke variabele te gebruiken kan nu onderzocht worden of de voormeting, al dan niet afhankelijk van het soort training, de scores op de natoets beïnvloedt. In Tabel 12.8 staan de scores op de nameting vermeld. Tabel 12.8. Trainingsmethode, voormeting en managementskwaliteit. Trainingsmethode Experimenteel
Gewoon
Wel
9,9,10 7, 8 X11 = 8.6
6, 8, 8, 8, 5 X12 =7.0
X1. =7.8
Niet
5, 4, 7, 3, 5 X 21 = 4.8
5, 7, 6, 4, 7 X 22 = 5.8
X 2. =5.3
X .1 = 6.7
X .2 = 6.4
X = 6.55
Voormeting
Conform de eerdere notatie wordt de aanwezigheid van de voormeting factor A genoemd, en de trainingsprocedure factor B. Beide factoren hebben twee niveaus, en er zijn vijf replicaties per cel. We zijn in twee vragen geïnteresseerd: 1. beïnvloedt de voormeting de scores op de nameting, en 2. is een invloed van de voormeting voor beide trainingsprocedures hetzelfde. Een antwoord op beide vragen kan gegeven worden door toetsing van de twee variantie-analytische nulhypothesen:
HOOFDSTUK 12: VARIANTIEANALYSE
H: Sα2 = 0, en 2
H: Sαβ = 0 Dat daarbij ook nog na gegaan kan worden of de trainingsvormen tot verschillen in 2 gemiddelde op de nameting leiden (H: Sß = 0) is meegenomen, maar niet essentieel; we zijn tenslotte in eerste instantie geïnteresseerd in een verschil in gemiddelde toename tussen voor- en nameting, en die vraag kan, indien de variantieanalyse tot geruststellende resultaten leidt, op zich met een simpele t-toets voor twee steekproeven worden beantwoord. Om de drie F-ratio’s [F (A), F (B) en F (AB)] te kunnen bereken, moeten we eerst de respectievelijke Mean Squares en de Mean Square van de errorterm uitrekenen. Hiervoor moeten we weer eerst de vier Sums of Squares uitrekenen. Laten we dan daar mee beginnen. SS (A) is gedefinieerd als: de variantie tussen niveaus van factor S (de voormeting). Dus: trek voor elke replica in cel i. het algemeen gemiddelde van het celgemiddelde af, kwadrateer dit verschil, en sommeer de gekwadrateerde verschillen. Dit is natuurlijk weer hetzelfde als: bereken het verschil voor elke cel slechts één keer, kwadrateer dit, vermenigvuldig met het aantal replica’s in de cel, en sommeer pas daarna. Dit levert: Berekening SS(A) Niveau 1: Wel voormeting Niveau 2: Geen voormeting
2
10 * (7.8 – 6.55) = 10 * (5.3 – 6.55) 2= SS(Voormeting)
15.63 15.63 31.26
+
Het is natuurlijk geen toeval dat SS (A) uit twee gelijke delen bestaat. Waarom is dat eigenlijk? Hetzelfde doen we voor SS (B), want die is behoudens dat het om andere gemiddelden gaat op dezelfde wijze gedefinieerd als SS (A), te weten: het gekwadrateerde verschil tussen de niveaus van factor B en het algemeen gemiddelden (zie: Vergelijking 12.5). As we dat doen krijgen we Berekening SS(B) Niveau 1: Experimentele training Niveau 2: Gewone training
2
10 * (6.7 – 6.55) = 2 10 * (6.4 – 6.55) = SS(Trainingsmethode)
0.23 0.23 0.46
+
Nu voor het interactie-effect tussen de aanwezigheid van de voormeting en de trainingsmethode. We moeten dus SS(AB) uitrekenen. We moeten volgens vergelijking 12.5 van elke replicatie de gemiddelden van de betreffende factor er afhalen
240 en het algemene gemiddelde erbij optellen en daarna kwadrateren en optellen (Σ(Xab – Xa. - X.b + X..)2). Of je deze berekening volgt voor alle replica’s in een cel, of dat je het één keer doet en de uitkomst met het aantal replica’s vermenigvuldigt, maakt natuurlijk niets uit. Het scheelt alleen wat rekenwerk (en vermindert de kans op rekenfouten). Deze truc levert voor onze gegevens het volgende op: Berekening SS(AB) Niveau 11 Niveau 12 Niveau 21 Niveau 22
2
5 * (8.6 – 7.8 - 6.7 +6.55) = 2 5 * (7.0 - 7.8 - 6.4 + 6.55) = 2 5 * (4.8 - 5.3 - 6.7 + 6.55) = 2 5 * (5.8 - 5.3 - 6.4 + 6.55) = SS (AB)
2.11 2.11 2.11 2.11 8.44
+
Nu nog SS (error), dat wil zeggen: bereken Σ (Xijr – Xab)2. In woorden: trek van de score van elke replica het celgemiddelde af, kwadrateer dit en sommeer de gekwadrateerde verschillen. Helaas kunnen we hier het rekenwerk niet vereenvoudigen. Dus: Berekening SS(error) Cel 11 Cel 12 Cel 21 Cel 22
2
2
2
(9 - 8.6) + (9 - 8.6) + ... + (8 - 8.6) = (6 - 7.0)2 + (6 - 7.0)2 + ... + (5 - 7.0)2 = 2 2 2 (5 - 4.8) + (4 - 4.8) + ... + (5 - 4.8) = (5 - 5.8)2 + (4 - 5.8)2 + ... + (7 - 5.8)2 = SS (error)
5.2 8.0 8.8 6.8 28.8
+
Nu moeten we nog een deling uitvoeren om eerst de verschillende Mean Squares te krijgen en uiteindelijk de gewenste F-ratio’s.
Voormeting Trainingsmethode Voormeting * Training Error
SS 31.26 0.44 8.44 28.80
df 2-1 2-1 (2-1)(2-1) 20 – 2*2
MS 31.26 0.44 8.44 1.80
F 31.26 / 1.88 = 17.27 0.44 / 1.88 = 0.24 8.44 / 1.88 = 4.69
Als laatste stap zoeken we de overschrijdingskans op in Bijlage C. Dan vinden we dat het hoofdeffect van Voormeting significant is (F = 17.3; df = 1, 16; p < .01). Het hoofdeffect van Trainingsmethode is niet significant (F = 0.24; df = 1, 16; p > 0.25) en het interactie-effect tussen Voormeting en training is wel significant (F = 4.69; df = 1, 16; p < .05). De nulhypothese H: Sα2 = 0 kan verworpen worden: een blik op de gemiddelden in Tabel 12.9 laat zien dat de managers zonder voormeting gemiddeld een lagere score op de nameting halen dan de groep met voormeting. Dat betekent dat er inderdaad sprake is van een ‘pretest sensitization effect’. Ook het interactie-effect is significant; de nulhypothese Sαβ2 = 0 moet verworpen worden. Een vergelijking van de celgemiddelden in Tabel 12.9 toont aan dat
HOOFDSTUK 12: VARIANTIEANALYSE het effect van de voormeting bij de experimentele groep sterker is geweest dan bij de gewone groep. Dit alles betekent dat in dit experiment niet aangetoond kan worden dat de experimentele vorm op zich effectiever is dan de gebruikelijke trainingsprocedure. Een groot deel van de toename in managerskwaliteit moet worden toegeschreven aan het effect van de voormeting. Overigens moet men nu niet in de verleiding komen om te stellen: dan maar geen voormeting meer. Voormetingen bieden de mogelijkheid om (bij voorbeeld met behulp van covariantie-analyse) rekening te houden met systematische verschillen in basisniveau tussen de groepen proefpersonen, zodat scherpe analyses mogelijk zijn. Het ‘pretest sensitization effect’ moet door een uitgekiende experimentatie geëlimineerd worden, en het hier beschreven ‘Solomon-vier-groepen-ontwerp’ biedt de mogelijkheid te controleren of dat gelukt is. 12.6 . Het interactie-effect Een interactie-effect van twee factoren kan gezien worden als een indicatie voor de mate waarin de som van de afzonderlijke hoofdeffecten het verschil tussen een subpopulatiegemiddelde µij en het populatiegemiddelde µ.. niet verklaart. Naast de (eventuele) invloed van factor A en factor B is er bij een interactie-effect sprake van een gecombineerde invloed van beide factoren. Aan de hand van een voorbeeld uit Hays (1973) zal het belang van een juiste interpretatie van het interactie-effect worden geïllustreerd. In een onderzoek wordt de effectiviteit nagegaan van twee verschillende onderwijsmethoden. De afhankelijke variabele was een relevante prestatietaak, en geslacht van de leerling wordt als tweede onafhankelijke variabele gehanteerd: 50 meisjes en 50 jongens zijn aselect over beide methoden verdeeld. Een variantie-analyse van de resultaten levert een significant interactie-effect en een significant hoofdeffect van de onderwijsmethode op. Het zou in deze situatie bijzonder onverstandig zijn om zonder meer te stellen dat aangetoond is dat de ene onderwijsmethode beter is dan de andere -- het significante interactie-effect duidt er immers op dat het effect van de factor onderwijsmethode niet voor ieder niveau van de factor geslacht hetzelfde is. Een blik op Tabel 12.9 laat zien dat meisjes het beter doen bij onderwijsmethode II, en jongens bij onderwijsmethode I. Tabel 12.9. Gemiddelde op een prestatietaak.
Geslacht
Meisje
Onderwijsmethode I II X11 = 55 X12 = 65
X1. = 60
242 Jongen
X21 = 75 X.1 = 65
X22 = 45 X.2 = 55
X2. = 60 X.. = 60
Ook lijkt het alsof met onderwijsmethode I betere resultaten geboekt worden. Het gemiddelde van onderwijsmethode I is immers 65, en dat van onderwijsmethode II 55. Oppervlakkige interpretatie van deze gegevens zou dus leiden tot de conclusie dat Onderwijsmethode I superieur is. Dat is gek, want we weten al dat meisjes het beter doen bij onderwijsmethode II. Dat kan dus niet; onderwijsmethode I kan niet superieur zijn, terwijl meisjes juist bij methode II het goed doen. Meer algemeen: als een interactie-effect significant is, dan kun je de hoofdeffecten niet zinvol interpreteren. Laten we nu veronderstellen dat dit experiment nogmaals uitgevoerd wordt, maar nu de gemiddelden uit Tabel 12.10 opgeleverd. Tabel 12.10. Gemiddelde op een prestatietaak. Onderwijsmethode Geslacht
I
II
Meisje
X11 = 60
X12 = 60
X1. = 60
Jongen
X21 = 60
X22 = 80
X2. = 70
X.1 = 60
X.2 = 70
X.. = 65
Variantie-analyse leidt nu tot twee significante hoofdeffecten en een significant interactie-effect. Dat betekent dat ook nu weer bij de interpretatie van de hoofdeffecten voorzichtigheid geboden is. Een blik op de gemiddelden maakt duidelijk dat het voor meisjes nu niet uitmaakt welke onderwijsmethode ze gevolgd hebben, maar dat jongens veel baat hebben bij methode II. We interpreteren dus het interactie-effect, en laten de hoofdeffecten voor wat ze zijn. In een derde voorbeeld (Tabel 12.11) is sprake van twee significante hoofdeffecten, en geen (significant) interactie-effect.
HOOFDSTUK 12: VARIANTIEANALYSE
Tabel 12.11. Gemiddelde op een prestatietaak. Onderwijsmethode Geslacht
I
II
Meisje
X11 = 65
X12 = 87
X1. = 76
Jongen
X21 = 55
X22 = 75
X2. = 65
X.1 = 60
X.2 = 81
X.. = 70
Uit de gemiddelden blijkt dat jongens het bij beide onderwijsmethoden ongeveer evenveel slechter doen als de meisjes, en dat onderwijsmethode II zowel bij jongens als bij meisjes tot betere prestaties leidt dan methode I. Uit deze voorbeelden blijkt wel hoe belangrijk het is om bij de interpretatie van effecten steeds de steekproefgemiddelden -- ten slotte zuivere schatters voor de populatiegemiddelden -- te betrekken. Het meest inzichtelijk gebeurt dat misschien wel met behulp van een grafische voorstelling, een plaatje dus. Op de horizontale as van een coördinatenstelsel worden de niveaus van één van de factoren afgezet, en op de verticale as de schaalwaarden van de afhankelijke variabele. In het stelsel kunnen nu celgemiddelden gelokaliseerd worden, waarbij die van hetzelfde niveau van de tweede factor met elkaar verbonden worden. In Figuur 12.3 is een en ander voor de gegevens uit de Tabellen (12.)9, (12.)10 en (12.)11 uitgevoerd. Figuur 12.3. Grafische weergave van de gemiddelden uit de Tabellen 9, 10 en 11
80
90
75
80
61
Score
Score
Score
71
70
70
65
51
60 60
41
50
I
II Onderwijsmethode
I
II Onderwijsmethode
I
II Onderwijsmethode
12.7 Variantieanalyse in SPSS Variantieanalyse is een zoveel gebruikte techniek dat je deze in SPSS op diverse plaatsen tegenkomt. Soms, is variantieanalyse een optie, en soms is het de analysetechniek waar het om draait. Afhankelijk van je vraag, de data en je wensen is het de ene keer handiger de ene en de andere keer handiger de andere module in SPSS te gebruiken. We zullen er hier twee behandelen. Laten we beginnen met de gegevens uit Tabel 12.2.
244
Tabel 12.2. Onderwijsvorm en kwaliteit van schrijfproducten (N.B. Overall gemiddelde is 5.2
Kwaliteitsoordeel
Gemiddelde Standaarddeviatie
Traditioneel 5 7 3 6 4 5.0 1.6
Onderwijsvorm Instructie 5 7 4 4 8 5.6 1.8
Herschrijf 3 2 7 7 6 5.0 2.3
Als we deze scores in SPSS willen invoeren, dan moeten we drie variabelen definiëren: de respondent, in welke conditie deze respondent zat, en wat zijn of haar score is. In een data-file ziet dat er dan als volgt uit. Respondent 1 zit in conditie 1, en heeft de score 5; respondent 2 zit in conditie 1 en heeft de score 7; respondent 6 zit in conditie 2 en heeft de score 5, etc. Het is dus heel belangrijk dat je ook een variabele invoert waarmee de condities gedefinieerd zijn (ONDERWIJS). Je kunt bij zo’n variabele ook VALUE LABELS definiëren. Met deze VALUE LABELS geef je aan: de waarde 1 van de variabele ONDERWIJS betekent TRADITIONEEL, de waarde 2 betekent INSTRUCTIE, en de waarde 3 betekent HERSCHRIJF. In de output komen deze namen dan ook voor de condities te staan, hetgeen interpretatie een stuk versimpelt. Dat doe je als volgt: klik op VARIABLE VIEW (links onder), klik op VALUES (dat is de vijfde kolom), en dan kom je in het volgende schermpje. In dit schermpje typ je een 1 bij VALUE en de naam die hoort bij deze waarde bij VALUE LABEL. Daarna klik je op ADD, en je gaat door met de waarde 2. Als je alle drie de condities gedaan hebt, krijg je iets als in het volgende schermpje. Daarna is een klik op OK en een klik op DATA VIEW voldoende om weer naar het uitgangsscherm terug te keren. In de output worden nu de gegeven namen weergegeven.
HOOFDSTUK 12: VARIANTIEANALYSE Nu gaan we de variantieanalyse uitvoeren. Ga via ANALYZE en COMPARE MEANS naar ONE-WAY ANOVA. Dan kom je in het volgende schermpje. In het linkerdeel van het schermpje zijn de variabelen die gedefinieerd zijn in de data-file weergegeven. We moeten nu bij DEPENDENT LIST aangeven wat de afhankelijke variabele is, en bij INDEPENDENT LIST wat de onafhankelijke variabele is. Dus: de variabele SCORE gaat naar DEPENDENT LIST, en de variabele ONDERWIJS gaat naar INDEPENDENT LIST. Nu klikken we op OPTIONS..... En, in het schermpje dat dan komt klikken eerst op DESCRIPTIVE en dan op MEANS PLOT. Nu vervolgen we met eerst CONTINUE en dan OK. Waarna spss voor ons een variantie-analyse uitvoert met SCORE als afhankelijke en ONDERWIJS als onafhankelijke variabele. Het resultaat van deze analyse is hieronder weergegeven. Descriptives score
95% Confidence Interval for Std. N
Std.
Mean
Mean Deviation Error Lower Bound Upper Bound Minimum Maximum
1.00 Traditioneel
5
5.00
1.58
.71
3.04
6.97
3.00
7.00
2.00 Instructie
5
5.60
1.82
.81
3.34
7,86
4.00
8.00
3.00 Herschrijf
5
5.00
2.35
1.05
2.09
7.91
2.00
7.00
15
5.20
1.82
.47
4.19
6.21
2.00
8.00
Total
In het eerste deel van de output geeft SPSS de zogenaamde beschrijvende grootheden weer: het aantal observaties (N), de gemiddelden (Mean), standaarddeviatie etc. Van al deze gegevens zijn natuurlijk de eerste drie (met naam genoemde) grootheden het belangrijkste. We zien dat TRADITIONEEL en HERSCHIJRIJFONDERWIJS dezelfde gemiddelde score hebben. Als we dus een positief effect mogen verwachten dab kan dat alleen van de INSTRUCTIECONDITIE komen. De waarden bij Minimum en Maximum, alsmede het totale aantal observaties zijn nuttig voor een extra controle. We zien dat we 15 proefpersonen zijn. Dat klopt met de gegevens in Tabel 12.2. We zien ook dat de laagste score 2 en de hoogste score 8 is. Er zijn dus geen vreemde waarden, en we hebben geen reden om de data nog een keer te checken. Het tweede deel van de output, waarin de resultaten van de variantieanalyse weergegeven zijn staat op de volgende pagina.
246 ANOVA score Sum of Squares Between Groups
df
Mean Square
1.200
2
.600
Within Groups
45.200
12
3.767
Total
46.400
14
F .159
Sig. .855
In de ANOVA TABLE krijgen we de al bekende tabel van variantieanalyse, met Sums of Squares (SS), Degrees of freedom (df), Mean Squares (MS), F-ratio, en p-value (Sig.). We zien dat de SS tussen condities 1.2 is, met 2 vrijheidsgraden, en de MS is dus (1.2 / 2 =) 0.6. De variantie binnen groepen is de ratio van de SS (within) en het aantal vrijheidsgraden (45.2 / 12 =) 3.77. De F-ratio is dan (0.6 / 3.77 =) 0.16, met 2 en 12 vrijheidsgraden. De kans om een F-ratio van deze grootte te observeren als H0 juist is is 0.86. Er is dus geen enkele reden om aan de juistheid van H0 te twijfelen, laat staan om H0 te verwerpen ten gunste van H1. We concluderen dan ook dat de onderwijsvorm niet van invloed is op de kwaliteitsscore; in alle drie de condities wordt even goed (of even slecht) gepresteerd. Daarna geeft SPSS je nog een plaatje van de drie gemiddelden, met op de x-as de drie condities en op de y-as de scores. Als laatste punt bij deze procedure willen we je wijzen op de POST-HOC COMPARISONS. Dat is natuurlijk in dit voorbeeld omdat de gemiddelde scores in de drie condities niet verschillen (we mogen immers H0 niet verwerpen). Maar, stel dat het verschil wel significant was geweest, dan hadden we geweten dat de gemiddelde scores in tenminste twee condities van elkaar verschilden, maar waar het verschil precies zit weten we nog niet. En dat willen we nu precies weten. Om een POST-HOC COMPARISON uit te voeren gaan we via ANALYZE, COMPARE MANS naar ONE-WAY ANOVA, daar zien we ook een vakje Post-Hoc. We klikken op het vakje Post-Hoc en krijgen dan het volgende schermpje waar we BONFERRONI en/of SCHEFFE aanvinken. Na CONTINUE en OK levert dat de volgende output extra.
HOOFDSTUK 12: VARIANTIEANALYSE
Multiple Comparisons Dependent Variable: score (I) onderwijs 1. Traditioneel Scheffe
2. Instructie 3. Herschrijf 1. Traditioneel
Bonferroni
2. Instructie 3. Herschrijf
(J) onderwijs 2. Instructie 3. Herschrijf 1. Traditioneel 3.Herschrijf 1. Traditioneel 2. Instructie 2. Instructie 3. Herschrijf 1. Traditioneel 3.Herschrijf 1. Traditioneel 2. Instructie
Mean difStd. ference (I-J) Error -.60 1.23 .00 1.23 .60 1.23 .60 1.23 .00 1.23 .60 1.23 -.60 1.23 .00 1.23 .60 1.23 .60 1.23 .00 1.23 -.60 1.23
Sig. .88 1.00 .88 .88 1.00 .88 1.00 1.00 1.00 1.00 1.00 1.00
95% Confidence Interval Lower Upper Bound Bound -4.02 2.82 -3.42 3.42 -2.82 4.02 -2.82 4.02 -3.42 3.42 -4.02 2.82 -4.01 2.81 -3.41 3.41 -2.81 4.01 -2.81 4.01 -3.41 3.41 -4.01 2.81
In de eerste regel van de output wordt Traditioneel vergeleken met Instructie. Het gemiddelde verschil tussen deze beide condities is -.60. Dit verschil is niet significant (p = 0.88). In de tweede regel worst Traditioneel vergeleken met Herschrijf. Het gemiddelde verschil is precies 0.00, en natuurlijk niet significant. Hetzelfde geldt voor de overige vergelijkingen. Conform onze eerdere conclusie trekken we ook nu de conclusie dat de verschillen tussen condities toe te schrijven zijn aan steekproeffluctuaties. Een tweede methode om een One-way Anova uit te voeren is binnen ANALYZE, COMPARE MEANS en dan MEANS. Definieer eerst de afhankelijke (SCORE) en de onafhankelijke variabele (ONDERWIJS), klik dan op OPTIONS en vink linksonder ANOVA TABLE AND ETA aan. Dan krijg je dezelfde variantieanalytische tabel als we zoeven besproken hebben. Het enig verschil is dat we nu een maat voor de effectgrootte krijgen: eta. Het is natuurlijk altijd goed om ook de effectgrootte in ogenschouw te nemen. Eta-squared geeft aan hoeveel procent van de verschillen in de afhankelijke variabele verklaard worden door (verschillen in de) onafhankelijke variabele. Dat wil zeggen: welk proportie (of welk percentage als je dat makkelijker vindt) van de geobserveerde variantie verklaard wordt door de onafhankelijke variabele. In dit voorbeeld is dat (1.2 / 46.4 =) 0.026, of te wel 2.6%. Dus: 2.6% van de geobserveerde verschillen in kwaliteitscores valt te verklaren met de onafhankelijke variabele onderwijsvorm. Dat is niet veel. In dit voorbeeld is het makkelijk. De relatie tussen onderwijsvorm en kwaliteitscore is niet significant. We hoeven dus eigenlijk niet eens naar Eta en Eta2 te kijken. Pas als er een significante verschil in gemiddelden is, is het zinvol hiernaar te kijken. Eigenlijk willen we dan dat ook de grootte van de verschillen betekenisvol is.
248 Probeer nu zelf eens de volgende output te interpreteren. Het zijn de gegevens uit Tabel 12.5, dus je kan aldaar controleren of je interpretatie correct is. Je kan een eenwegsvariantie-analyse ook uitvoeren via ANALYZE, COMPARE MEANS en dan ONEWAY ANOVA. Vergeet dan niet om bij OPTIONS, om de beschrijvende grootheden (DESCRIPTIVES) te vragen, want anders is de zaak moeilijk interpreteerbaar. 2 Het enige dat je dan niet automatisch krijgt is Eta, en Eta . Je krijgt dus geen maat voor de grootte van het effect (als dat er is). Vandaar dat wij een lichte voorkeur hebben voor de procedure via MEANS, maar op zich levert ONEWAY dezelfde resultaten op. Probeer het maar eens. Case Processing Summary Cases Included N score * plaats
Excluded
Percent 30
100%
N
Total
Percent
N
0 .0%
Percent 30
100.0%
Report plaats
Mean
1 Bibliotheek
N
Std. Deviation
9.10
10
2.81
2 Trans
11.40
10
2.72
3 Thuis
12.10
10
2.47
Total
10.87
30
2.89
Sum of Squares score * plaats
Mean Square
Between Groups
49.27
2
24.63
Within Groups
192.20
27
7.12
Total
241.47
29
Measures of Association Eta score * plaats
df
.452
Eta Squared .204
F 3.46
Sig. .046
HOOFDSTUK 12: VARIANTIEANALYSE Tweewegsvariantie-analyse Met behulp van de Oneway Anova, en de procedure in Means (wat natuurlijk ook een Oneway Anova is), kunnen we niet het gecombineerde effect van verschillende onafhankelijke variabelen achterhalen. Dat wil zeggen: het interactie-effect kan niet op significantie getoetst worden. Daarvoor moeten we een andere procedure binnen spss aanroepen. We zullen dit demonstreren aan de hand van de gegevens in Tabel 12.5. In deze tabel wordt het effect van het type onderwijs uitgesplitst naar sekse van de docent. In de data-file die we moeten maken onderscheiden we vier variabelen: een nummer voor de proefpersoon (leerling), een variabele die de sekse van de docent aangeeft, een variabele die het type onderwijs indiceert, en een variabele voor de score van de leerling. Nadat we deze data-file gemaakt hebben, kunnen we de gegevens analyseren. We gaan via ANALYZE naar GENERAL LINEAR MODEL en kiezen dan UNIVARIATE. En, we komen dan in het volgende schermpje.
We geven aan dat onze variabele SCORE de onafhankelijke variabele is, en dat SEKSE_DO en ONDERWIJS de onafhankelijke variabelen zijn. We klikken op OPTIONS, en vinken DESCRIPITIVE STATITSTICS aan, waarna CONTINUE en OK aangeklikt worden. Dit levert ons in een fractie van een seconde de resultaten van de gewenste tweewegsvariantieanalyse op. De output staat op de volgende pagina weergegeven. De beschrijvende grootheden zijn dankzij de VALUE LABELS makkelijk te interpreteren. Between-Subjects Factors Value Label sekse_do
onderwijs
N
1
Man
15
2
Vrouw
15
1
Traditioneel
10
2
Instructie
10
3
Herschrijf
10
250 We zien dan het gemiddelde van mannelijke docenten 5.27 is, en het gemiddelde van vrouwelijke docenten 5.67 is. En, voor de drie onderwijsvormen varieert het gemiddelde tussen 5.2 en 5.7. Ook zien we dat de gemiddelden per cel behoorlijk variëren. Zo is het gemiddelde van mannelijke docenten die traditioneel lesgeven 4.8, terwijl vrouwen die traditioneel lesgeven een gemiddelde van 5.6 hebben. Bij Instructieonderwijs zijn de mannelijke docenten opeens beter dan de vrouwelijke docenten (5.8 vs. 5.7), die bij Herschrijfonderwijs weer licht in het voordeel zijn. Als we zo naar deze gemiddelden kijken dan zou er wel een interactie-effect kunnen zijn. Of, deze verschillen in de steekproeven aan steekproeftoevalligheden toegerekend kunnen/moeten worden, of dat er meer aan de hand is, moet toetsing uitwijzen. De resultaten van deze toetsing zijn in het tweede deel van de output weergegeven. Descriptive Statistics Dependent Variable:score sekse_do
onderwijs
1 Man
1 Traditioneel
4.80
1.30
5
2 Instructie
5.80
1.30
5
3 Herschrijf
5.20
1.48
5
Total
5.27
1.33
15
1 Traditioneel
5.60
2.07
5
2 Instructie
5.60
1.52
5
30 Herschrijf
5.80
2.28
5
Total
5.67
1.84
15
1 Traditioneel
5.20
1.69
10
2 Instructie
5.70
1.34
10
3 Herschrijf
5.50
1.84
10
Total
5.47
1.59
30
2.00 Vrouw
Total
Mean
Std. Deviation
N
HOOFDSTUK 12: VARIANTIEANALYSE
Tests of Between-Subjects Effects Dependent Variable:score Type III Sum of Source
Squares
df
Mean Square
F
Sig.
a
5
.773
.267
.927
Intercept
896.533
1
896.533
309.149
.000
sekse_do
1.200
1
1.200
.414
.526
onderwijs
1.267
2
.633
.218
.805
sekse_do * onderwijs
1.400
2
.700
.241
.787
Error
69.600
24
2.900
Total
970.000
30
73.467
29
Corrected Model
Corrected Total
3.867
a. R Squared = .053 (Adjusted R Squared = -.145)
Dan blijkt dat het effect van Sekse van de docent niet significant is (F = 0.41; df= 1, 24; p = 0.53). Hetzelfde geldt voor Onderwijsvorm (F = 0.63; df = 2, 24; p = 0.81) en voor de interactie tussen Sekse van de docent en Onderwijsvorm (F = 0.70; df = 2, 24; p = 0.79). Dus, de gemiddelden van mannelijke en vrouwelijke docenten verschillen niet. Ook de drie onderwijsvormen verschillen niet qua gemiddelden, en ook kan niet aangetoond worden dat mannelijke of vrouwelijke docenten met één van de drie onderwijsvormen beter uit de voeten kan dan docenten van de andere kunne. Voor de rest staat er in de output nog het één en ander wat niet interessant is. Bij INTERCEPT bijvoorbeeld wordt getoetst of het algemeen gemiddelde gelijk is aan 0.0. Dat is, als we bedenken dat de gegevens maximaal op intervalniveau gerepresenteerd zijn, natuurlijk een redelijk onzinnige toetsing. Het totaal is de som van alle Sums of Squaers, ook die van de rare Sums of Squares bij het Intercept. Als we nu willen weten wat de totale kwadratensom is zonder die van het intercept (gewoon de teller in de variantie-formule), dan kijken we naar CORRECETED TOTAL. En, van het Corrected Total zijn 3.87 sums of squares toe te schrijven aan de onafhankelijke variabelen (sekse docent, onderwijsvorm en de interactie tussen beide). Als laatste hebben we SPSS ook een plaatje laten produceren waarin de gemiddelden per conditie geplot zijn (Ga bij het schermpje van Univariate naar Plots, en geef aan dat je onderwijs op de horizontale as wilt, en aparte lijnen voor Sekse_Do, en klik dan op add). Zo’n plaatje is met name handig voor de interpretatie van de
252 resultaten. Het kan natuurlijk ook zonder, maar met zo’n plaatje is het een ‘ whistle of a penny’.
Voordat we nu verder gaan, willen we nog even terug naar het eerste schermpje bij UNIVARIATE. Daar zie je een subschermpje met COVARIATE(S). In veel onderzoek is het onmogelijk om groepen aselect aan condities tie te wijzen. Wat dan vaak gebeurt, is dat de condities achteraf, op statistische wijze gelijk gemaakt worden. Dat wil zeggen: op een (gemeten) variabelen worden de respondenten ‘gelijk’ gemaakt, en pas daarna wordt er een variantie-analyse uitgevoerd. Zo’n variabele waarop respondenten gelijk gemaakt worden, heet een covariaat. In het onderhavige voorbeeld zouden we bijvoorbeeld een intelligentiescore van de leerling als covariaat op kunnen nemen. Het schermpje bij Univariate ziet er dan als volgt uit (zie hiernaast).
HOOFDSTUK 12: VARIANTIEANALYSE
We hebben nu intelligentie (IQ) opgenomen als covariaat, waardoor eerst het effect van IQ geanalyseerd wordt, en pas daarna het effect van de onafhankelijke variabelen geanalyseerd wordt. Toepassing van IQ als covariaat levert de volgende resultaten. De relatie tussen IQ en score is duidelijk significant (F = 20.16; df = 1, 23; p <0.001). Nadat we IQ hebben opgenomen als covariaat, zien we dat er nog steeds geen verschillen zijn in de gemiddelde scores van mannelijke en vrouwelijke docenten (F = 0.37; df =1, 23; p = 0.55), maar wel tussen onderwijsvorm (F = 9.06; df = 2, 23; p = 0.001). En omdat het interactie-effect ook niet significant is (F = 0.53; df =2, 23; p = 0.60), kunnen we concluderen dat zowel mannelijke als vrouwelijke docenten bij de ene onderwijsvorm betere resultaten boeken dan bij de andere onderwijsvorm. Welke onderwijsvorm de beste van de drie is, en welke de slechtste, zal inspectie van de voor IQ gecorrigeerde celgemiddelden moeten leren (die kun je overigens bij OPTIONS opvragen). Als allerlaatste punt vragen wij je aandacht voor de wijze waarop hier telkens aangegeven is of een effect significant is of niet. We vermelden, tussen haakjes, de F-ratio, de bijbehorende vrijheidsgraden en de overschrijdingskans. (De relatie tussen IQ en de scores is duidelijk significant (F = 20.16; df = 1, 23; p <0.001). Dit zul je in het algemeen in de (internationale) literatuur ook aantreffen. Het is een bijzonder handige manier om zo’n hele variantieanalytische tabel in een tekst samen te vatten. 12.8 Opgaven 1) Carel Jansen en Michael Steehouder voeren een onderzoek uit naar de invloed van verschillende tekstuele varianten van instructieteksten op de mate waarin proefpersonen in staat zijn instructies correct uit te voeren. In de onderstaande tabel staan een aantal van de gegevens die zij verzamelden vermeld:
254 Tekstvariant A
B
C
D
Percentage correcte oplossingen
1.1
3.2
6.1
15.1
N
187
187
180
172
a. b. c. d.
Variantieanalyse leert dat F = 12.14 bedraagt. Welke H0 hebben Jansen en Steehouder (waarschijnlijk) getoetst? Van welk type experiment is hier sprake? Wat is de onafhankelijke, respectievelijk de afhankelijke variabele? Welke beslissing hebben Jansen en Steehouder t.a.v. hun H0 genomen (let wel: je moet hiervoor verschillende feiten uit de tabel afleiden. Je hebt echter niet alle gegevens daaruit nodig)?
2) Onderzoeker Sandra Okkerse is geïnteresseerd in het effect van geslacht op sekse-vooringenomenheid. Daartoe construeert ze een 40-tal afbeeldingen waarop één of twee mensen te zien zijn waarvan het geslacht niet zo 1 2 3 is te bepalen. Om nu de invloed na te gaan van sekse-aanwijzingen, werden de afbeeldingen voorzien van mannelijke, vrouwelijke en sekse-neutrale ‘cues’. Deze kaarten werden getoond aan 18 mannelijke en 18 vrouwelijke eerstejaars Algemene Letteren-studenten met de vraag of de afgebeelde persoon al dan niet een vrouw was. In de onderstaande tabel vind je de resultaten; de scores indiceren in hoeveel gevallen proefpersonen de vraag positief beantwoordden: Vrouwelijke cues
Mannelijke cues
Neutrale cues
29
14
22
35
8
23
Vrouwelijke
28
10
20
proefpersonen
36
5
25
33
7
30
38
16
32
25
3
18
31
8
15
Mannelijke
26
4
8
proefpersonen
35
5
7
32
9
11
34
6
10
HOOFDSTUK 12: VARIANTIEANALYSE a. b. c. d.
Wat is Okkerse’s 0-hypothese? Wat de alternatieve? Hoe zal ze dus toetsen? Van welk type experiment is hier sprake? Completeer de variantie-analyse, voer de F-toets uit. Doe dat eerst met de hand en daarna met behulp van spss. Geef aan wat Okkerse’s beslissing uiteindelijk zal zijn.
3) Voer een ANOVA uit op de navolgende data en toets de hypothese dat de gemiddelde scores aan elkaar gelijk zijn. Doe dit eerst met de hand en daarna met SPSSs. Conditie A 29
B 19
C 31
D 33
41
12
37
47
27
21
23
33
17
23
21
25
33
17
31
37
4) Voer een variantieanalyse uit op drie hypotheses naar aanleiding van de volgende data van een tweefactor experiment. Er worden in dit onderzoek twee factoren onderscheiden, beide met vier niveaus. Factor A I II Factor B III IV
1
2
3
4
26 25 26 24 44 27 36 28
30 33 25 33 36 32 37 42
25 23 27 17 30 24 37 33
28 30 27 26 31 26 39 25
256