Toetsende Statistiek Week 7. Verdelingsvrije toetsen • Chemicus • Ontwikkelde de Rank-Sum test en Signed-Rank test (1945)
MM&C, 15 Nonparametric Tests 15.1 2 Independent Samples 15.2 2 Dependent Samples NB tekst staat op CD bij het boek Frank Wilcoxon (1882-1965)
1
Introductie Niet-parametrische toetsen volgden vanaf 1945 na 1.
de grote samples correlatie aanpak (Pearson, 1896-)
2.
de klein samples aanpak (Gosset, Fisher 1908-)
als oplossing voor normaliteitsproblemen bij 1. en 2. Alternatieve oplossingen voor normaliteitsproblemen via 1.
Outlier verwijdering, maar ...
2.
Datatransformatie, maar ...
3.
Andere verdelingen (Weibull)
4.
Moderne technieken (Bootstrap, Permutatie test)
Niet-parametrische toetsen lossen het probleem op via een rangorde transformatie van de data. 2
Wilcoxon Rank Sum test: 2 independent samples Wat toetst de Wilcoxon Rank Sum test? H0: 2 populatieverdelingen zijn gelijk Ha: 2 populatieverdelingen zijn ongelijk Extra aanname: de 2 populatieverdelingen hebben dezelfde vorm Dan scherpere hypotheses: H0: mediaan 1 = mediaan 2 Ha: een- of twee zijdige hypothese over de mediaan Algemenere vorm H0: 2 populatieverdelingen zijn gelijk. Ha: De waarden in de ene verdeling zijn systematisch groter.
3
Voorbeeld 15.1a Onderzoek naar effect van wieden. Onderzoekshypothese: rank van aanpak G1 systematisch hoger dan rank van aanpak G2 G1 166.7 172.2 165.0 176.9 G2 158.6 176.4 153.1 156.0 Zet data om naar rangordes Score 153.1 156.0 158.6 165.0 166.7 172.2 176.4 176.9 Rang 1
2
3
4
5
6
7
8
NB geen ties Bepaal W = som van de rangscores voor G1 en G2 G1: G2:
W=23 W=13 4
Voorbeeld 15.1b Bepaal verwachte waarde en spreiding van W
n1 × ( N + 1) = 18 µW = 2 n1 × n2 × ( N + 1) = 3.464 σW = 12 z=
W − cc − µW
σW
23 − 0.5 − 18 = = 1.30 3.464
P(Z ≥ 1.30) = 0.0968
5
Wilcoxon Signed Rank Test: 2 dependent samples Voorbeeld 15.2a Gaat het navertellen beter met plaatjes (2) dan zonder (1)?
Kind 1 2 3 4 5 verhaal 2 0.77 0.49 0.66 0.28 0.38 verhaal 1 0.40 0.72 0.00 0.36 0.55 Verschil 0.37 −0.23 0.66 −0.08 −0.17
Absolute waarde 0.08 0.17 0.23 0.37 0.66 rang 1 2 3 4 5 NB geen ties W+=9 6
Voorbeeld 15.2b Bepaal verwachte waarde en spreiding van W
n × ( n + 1) µW = = 7.5 4 n × ( n + 1)(2n + 1) σW = = 3.708 24 z=
W − cc − µW
σW
9 − 0.5 − 7.5 = = 0.27 3.708
P(Z ≥ 0.27) = 0.394
7
Niet-parametrische toetsen: opmerkingen. power? ties? voordelen? nadelen? Of toch de parametrische toetsen
8
Overzicht Toetsende Statistiek. Basisidee: generaliseren Nulhypothesen beschrijven een eigenschap van de data als alleen toeval een rol zou spelen. In de toetsende statistiek worden de nulhypothese verworpen (of niet) op basis van de waarschijnlijkheid van een steekproefresultaat aangenomen dat de nulhypothese waar is. Toetsingsgrootheden hebben altijd de vorm van een gestandaardiseerd verschil tussen steekproefwaarde en hypothetische waarde. P-waarde en standaardfout geven het risico aan van het generaliseren 9
Overzicht Toetsende Statistiek: Instrumenten & Resultaten uit de Kansrekening Wat we moeten begrijpen van de kansrekening is alles dat ten dienste staat van begrip van de steekproevenverdeling. • Toevalsvariabele (waarden bepaald door uitslag toevalsproces) • Verdeling & kans (=oppervlakte onder verdeling) • Verdeling van som/verschil van toevalsvariabele • Onafhankelijkheid, voorwaardelijke kans/verdeling • Binomiaal als basis van alle steekproevenverdelingen • Normale verdeling, t-verdeling, F-verdeling,
χ2-verdeling
• Standaardfout hangt af van √n
10
Overzicht Toetsende Statistiek: Verschillende Soorten Inferentie Bij elk steekproefstatistiek hoort een betrouwbaarheidsmarge, die gebruik maakt van de kritische waarden z* of t* en de SE. • Significantietoets: kijk of toetsingsgrootheid groter is dan van te voren opgestelde kritische waarde. • Moderne toetsen: kijk of P-waarde
≤
gekozen
α-waarde (kan
soms alleen met software). • Om te kiezen tussen verschillende toetsen of verschillende varianten in design moeten we weten wat het onderscheidend vermogen (power) is. 11
Toetskeuze 1 Een therapeut behandelt een groep cliënten, mannen en vrouwen, voor depressie. Bij de intake van elke cliënt is de BDI-II afgenomen en na 12 sessies opnieuw. De therapeut vraagt zich een aantal zaken af. NB moet je nog iets extra’s weten om te beslissen? Vraag Hypothesen? Toets? • Wijkt de man-vrouw verhouding in mijn cliëntgroep af van die in de samenleving? • Is er bij de intake een verschil in de mate van depressiviteit van mannen en vrouwen? • Is er bij de intake een verschil in de variatie in depressiviteit van mannen en vrouwen? • Is mijn cliëntgroep als totaal gemiddeld minder depressief geworden? Of beter: heeft mijn behandeling effect gehad? 12
Toetskeuze 2 Om een aantal zaken in meer detail te kunnen bestuderen te houden, is uit een wachtlijstgroep een controlegroep gevormd, die op een aantal aspecten gematched is met de cliëntgroep (leeftijd, geslacht). Ook bij deze controlegroep is de BDI-II afgenomen. De therapeut vraagt zich nog een aantal zaken af. NB moet je nog iets extra’s weten om te beslissen? Vraag Hypothesen? • Zijn controle- en therapiegroep gelijk qua opleiding (Laag, Midden, Hoog)? • Is de mate van depressiviteit bij controleen cliëntgroep (bij intake) gelijk? • Is de mate van depressiviteit bij de cliëntgroep (bij exit) minder dan bij de controlegroep?
Toets?
13
Laatste opmerkingen Volgende week woensdag Tentamen. + SPSS vaardigheidstoets (=open boek-toets, dus geen … !) Dus geen practica meer inhalen! NB 5 minuten pauze tussen 2 toets-uren in zelfde zaal
Februari 2012 verder met Experimenteel & Correlationeel Onderzoek
14