Medische Statistiek Beschrijvende Statistiek- beschrijvende statistiek (toets 2) Hoorcollege 6 uitspraken over één populatiepercentage Statistische uitspraken over onbekende populatiepercentages. Betrouwbaarheidsinterval Situatie: Men onderzoekt de prevalentie van ziekte X in een grote populatie. Men neemt een aselecte steekrpef N=100 X= aantal zieken in de steekproef Uitkomst: X=25 Modellering X is binomiaal verdeeld met succeskans π. Wat te zeggen over ‘prevalentie’ π? Probleem: uitkomst x=25 afhankelijk van het toeval Stel π is gegeven. Door toeval zijn er meerdere waarden van de schatting p= x/n mogelijk. Omgekeerd: Als p=x/n =25/100= 0,25 dan zijn er dus meerdere waarden van π plausibel. De onnauwkeurigheid van het schatten geven we vaak aan met een betrouwbaarheidsinterval. Een 95% betrouwbaarheidsinterval voor π is een interval (L,R) waar de steekproeffuncties L en R zo zijn gekozen dat geldt: P(L<π
L=p-1.96*√𝑃(1 − 𝑃)/𝑛 en R= P+1.96*√𝑃(1 − 𝑃)/𝑛 zijn steekproeffuncties (uitrekenbaar) en kennelijk geldt: P(L<π< R)= 0.95 We hebben het 95%-betrouwbaarheidsinterval gevonden. De grenzen zijn P±1.96*√𝑃(1 − 𝑃)/𝑛 Bij een andere betrouwbaarheid krijg je een andere c In het voorbeeld: de grenzen zijn 0.25±1.96(√0.25 ∗ 0.75/100 = 0.25±0.085 95%-betrouwbaarheidsinterval voor π: (0.165, 0.335) Interpretatie van 95%- betrouwbaarheidsinterval voor π: als we herhaald met 95%betrouwbaarheidsinterval opgeven voor een (prevalentie) π, dan zal in gemiddeld 95% van de gevallen het interval de echte waarde van π bevatten. Toetsingsgrootheid (1) Men onderzoekt de prevalentie van ziekte Z in een grote populatie. Aselecte steekproef n= 100 X= aantal zieken in de steekproef Uitkomst: x=25 Stel nu dat 10 jaar geleden de prevalentie 20% was, hoe kunnen we bewijzen dat de prevalentie veranderd is? Probleem: P= x/n = 0,25 = 25%. Verschilt weliswaar van 20%, maar is behept met toeval. In de statistische toetsingstheorie definiëren we een nulhypothese en een alternatieve hypothese. bij het probleem: nulhyopthese: H0= π= 0.20 Alternatieve hypothese: H1=𝝅≠0.20 Stellingname 1: bij toetsen: we proberen H1 te bewijzen
Boek hoofdstuk5; sectie 5.1 uitspraken over één populatiepercentage De onbekende prevalentie in de populatie wordt aangeduid met π. P= x/n Gehele situatie: Populatie Prevalentie= Fractie ziekten=π
aselecte steekproef omvang n aantal zieken X
schatting p= x/n
Wat zegt p over π? π ligt vast, maar is onbekend. P hangt van het toeval af. Het toeval bepaalt welke personen er in de steekproef terecht komen, en dus de waarde van x en daarmee van p. Toetsen van hypothesen over π Nulhypothese H0 en π0 is waarde voor π
Als p te ver van π0 afligt is de nulhypothese niet meer compatibel met de gevonden waarden van p. in statistische termen: de nulhypothese H0 wordt verworpen. Omdat de mate waarin p kan afwijken van π0 onder de nulhypothese wordt bepaald door de grootte van de standaarddeviatie σp=√(𝜋0(1 − 𝜋0))/𝑛, genoteerd als sd(P), is het handig om te werken met het gestandaardiseerde verschil Z= (p-π0)/ sd(p) Als |Z| te groot is, wordt de nulhypothese verworpen. Rest dus te bepalen wat ‘te groot’ is. omdat Z uit p ontstaan is door standaardisatie en p bij benadering een normale verdeling volgt, geldt dat Z bij benadering standaardnormaal verdeeld is met μ=0 en σ=1 Pr(|Z|> 1.96) = 0.05=5% Een veel gehanteerde regel is om 1.96 te hanteren als drempelwaarde bij het toetsen, en de nulhypothese te verwerpen als |Z|> 1.96. De variabele Z wordt de toetsingsgrootheid genoemd en de drempelwaarde waarboven de nulhypothese wordt verworpen, wordt de kritieke waarde genoemd. absolute zekerheid is er bij zo’n statistische toets nooit. Zelfs als de nulhypothese waar is, kan p soms zover van π0 afliggen dat |Z|> 1.96 wordt. In dat geval is de nulhypothese ten onrechte verworpen. Men noemt dit een fout van de 1e soort. Fout van de 1e soort= nulhypothese verwerpen als deze waar is. De keuze van 1.96 als kritieke waarde impliceert dat de kans dat deze fout van de eerste soort gelijk is aan 5%. De kans wordt aangeduid met de term ‘onbetrouwbaarheid’ en genoteerd als α. Α= onbetrouwbaarheid= kans op fout van 1e soort. Ook wel significantieniveau. Wil men een andere waarde dan α hanteren, dan moet een andere kritieke waarde gekozen worden. de toetsingsprocedure gaat in het algemeen als volgt: - Kies vooraf de onbetrouwbaarheid α - Bepaal Zα zodanig dat Pr(|Z|> Zα)=α Verwerp de nulhypothese als voor de waargenomen Z geldt dat |Z|> Zα Zobs= geobserveerde waar van Z, corresponderend met de geobserveerde waarde Pobs Kans P wordt aangeduid als overschrijdingskans, of P-waarde. Als P<α wordt de nulhypothese verworpen bij onbetrouwbaarheid α. Als P zo klein is dat de nulhypothese kan worden verworpen wordt gesproken over een significant resultaat. Als P heel klein is spreekt men van een sterk significant niveau. Een kleine P-waarde geeft aanleiding om de nulhypothese te verwerpen. De waargenomen uitkomst is dan onder de nulhypothese zo extreem dat het niet meer plausibel is dat de nulhypothese waar is. een grote Pwaarde geeft aan dat er geen aanleiding is de nulhypothese te verwerpen; dat wil nog niet zeggen dat die dan ook waar behoeft te zijn. Onderscheidingsniveau Er is nog een andere fout mogelijk, namelijk dat de nulhypothese niet wordt verworpen terwijl die niet waar is. Dit wordt aangeduid als fout van de 2e soort.
H0 waar Werkelijkheid H0 niet waar
Uitspraak van de toets H0 niet verworpen Correcte uitspraak Kans 1-α Fout 2e soort Kans β
H0 verworpen Fout 1e soort Kans α Correcte uitspraak Kans 1-β
1-β = onderscheidingsvermogen = Pr(H0 wordt verworpen) als H0 niet waar is. Om de steekproefgrootte te kunnen vaststellen, moeten de volgende stappen genomen worden: 1. Vaststellen welke onbetrouwbaarheid α gehanteerd zal worden 2. Vaststellen welke waarde van π onderscheiden moet kunnen worden van de nulhypothesewaarde. 3. Vaststellen welk onderscheidingsvermogen gewenst is
Intuïtief is duidelijk dat hoe kleiner β gekozen wordt, des te groter dient n te zijn. Dit volgt ook direect uit de formule omdat bij kleinere waarde van β de waarde van Zβ groter wordt. In de praktijk volstaat men dan ook vak met een onderscheidingsvermogen van 1-β= 0.80, om de benodigde steekproefgrootte niet al te groot te laten worden. Naast de keuze van α en β is de waarde van π1, of eigenlijk het verschil tussen π1- π0, van grote betekenis voor de bepaling van n. Betrouwbaarheidsinterval Een andere manier om inzicht te krijgen van wat het nu betekent als de nulhypothese bij toetsing niet verworpen wordt, is om het zogeheten betrouwbaarheidsinterval voor π te bepalen. Dit komt neer op het bepalen van de waarden van π0 die als nulhypothese niet verworpen zouden worden, en dus ‘compatibel’ zijn met de geobserveerde waarde van p. H0: π=π0 niet verworpen wordt bij α= 0.05 Alle waarden van π0 die hieraan voldoen bij gegeven p, vormen samen het 95% betrouwbaarheidsinterval voor π. De standaarddeviatie √(𝑝 − (1 − 𝑝))/𝑛 wordt vaak aangeduid als standaardfout. Sd(p)= standaardfout Se(p)= werkelijke waarde (1-α)- betrouwbaarheidsinterval = schatting-Zα*SF< WW> schatting+Zα*SF Men dient voorzichtig te zijn bij de interpretatie van het verkregen betrouwbaarheidsinterval. Een onjuiste interpretatie is , dat de echte π met kans (1-α) in het geobserveerde betrouwbaarheidsinterval ligt. Dat is principieel onjuist: π is onbekend, maar staat vast. De toevalsvariatie zit niet in π, maar in de grenzen. Herhalingen van het experiment leiden telkens tot andere betrouwbaarheidsintervallen. Bij herhaald uitvoeren van het experiment zal het 95%betrouwbaarheidsinterval in 95% van de gevallen de echte waarde bevatten. Dit is algemeen waar. Uit de constructie van het betrouwbaarheidsinterval volgt dat bij herhaling van het experiment, het (1-α)- betrouwbaarheidsinterval de onbekende waarde in (1-α) 100% van de gevallen zal bevatten. Eenzijdig toetsen: Tot dusver is H0: π=π0 steeds getoetst wordt tegen het alternatief H1: π≠π0. De nulhypothese werd zowel verworpen als Z te klein was, als wanneer Z te groot was. Dit heet tweezijdig toetsen. Als wij a priori weten in welke richting π verandert, kunnen wij die informatie gebruiken om scherper te toetsen. eenzijdig toetsen. Als Pobs inderdaad >π0,, dan is Peenz.= ½ Ptweez. Eenzijdig toetsen is slechts toegestaan als bij de opzet van het onderzoek al een eenzijdig alternatief is geformuleerd. Hoorcollege 7 vergelijken van twee populatiepercentages Sectie 5.2 en 5.3 2 groepen patiënten met een hoge bloeddruk A (geneesmiddel) en B(placebo). Vraag: is de kans op bloeddrukverlaging gelijk voor beide partijen? Xa= aantal personen met lagere bloeddruk in A Xb = aantal personen met lagere bloeddruk in B Na= Nb=125 Ya=100 en Yb= 70 Nulhypothese: H0: πa-πb= 0 (Kans is gelijk voor A en B) Alternatief: H1: πa-π ≠0
1 𝑁𝑎
Standaardiseren we op de gebruikelijke manier, dan heeft (Pa-Pb)/ √𝜋 ∗ (1 − 𝜋) ∗ (
+
1 ) 𝑁𝑏
onder
de nulhypothese een standaardnormale verdeling. Toetsingsgrootheid Z vervangen voor (Xa+Xb)/ (Na+Nb) Chi-kwadraat X2= Σ(O-E)2/ E In kruistabel: Behandeling A Behandeling B Totaal kolom
andere toetsingsgrootheid dan Z* heeft dezelfde conclusie! Wel 25 55 80
Niet 100 70 170
Totaal rij 125 125
O= observed E= expected- de schatting van de bijbehorende verwachting, onder aanname van de nulhypothese P= 170/ 250= 0.68 Geschatte verwachting van vak A en bloeddrukverlaging is NaP= 125*0.68= 85 En 125*(1-0.68)= 40 Chi-kwadraat voor alle waarden berekenen, dan de som ervan. Wanneer verwerpen? Het voorschrift H0 verwerpen als Z< C of Z>C gelijkwaardig is met het voorschrift X2>C2n Df= vrijheidsgraad (hier 1 nemen) E= (rijtotaal* kolomtotaal)/ n Som van de verwachte aantallen is altijd gelijk aan het totaal, kolomtotaal en rijtotaal. yatescorrectie niet toepassen! Aantal vrijheidsgraden bij R rijen en K kolommen is (R-1)(K-1) Betrouwbaarheidsinterval Je wilt dat een onderzoeksresultaat geldt voor de gehele populatie, maar het is onmogelijk om uit alle mogelijke combinaties van elementen uit de populatie steeds maar weer hetzelfde resultaat te krijgen. Je mag dan ook niet stellen dat het gemiddelde zoals berekend uit de steekproef precies het gemiddelde is van de populatie. Er zit een bepaalde marge tussen hetgeen je meet (steekproefgemiddelde) en hetgeen feitelijk is (populatiegemiddelde). Om vanuit een resultaat uit een steekproef iets over de populatie te zeggen, hou je een betrouwbaarheidsmarge aan. Omdat je niet weet of het steekproefresultaat naar boven of naar beneden afwijkt, bereken je altijd de onderste en de bovenste waarde. Formule voor het berekenen van het betrouwbaarheidsinterval rondom een proportie: P= P±Zα/2 * √(𝑃(1 − 𝑃))/𝑛 Opmerkingen: 1) Indien je de betrouwbaarheid verhoogt, dan wordt het betrouwbaarheidsinterval groter. Immers, een verhoging van de betrouwbaarheid is een verhoging van de Zα/2 –waarde. Dit heeft tot gevolg dat de minimale score lager uitvalt en de maximale hoger. 2) Door het verhogen van het aantal onderzoekseenheden wordt het betrouwbaarheidsinterval kleiner. Logisch; door steeds meer elementen uit de populatie op te nemen in je steekproef, kom je steeds dichterbij de feitelijke waarde van de populatie.
Boek sectie 5.2 het vergelijken van twee populatiepercentages Het ligt voor de hand de toets te baseren op het waargenomen verschil Pa-Pb. Als dit verschil veel van 0, de verwachte waarde onder de nulhypothese, afwijkt zal er reden zijn de nulhypothese te verwerpen. Om vast te stellen wat een groot verschil is, moet Pa-Pb vergeleken worden met een standaarddeviatie van dit verschil. Omdat Pa en Pb statistisch onafhankelijk zijn, leert de kansrekening: Sd(Pa-Pb)= standaarddeviatie van (Pa-Pb)
√𝜋𝑎
1−𝜋𝑎
𝑛𝑎 + 𝜋𝑏 (1 − 𝜋𝑏)/𝑛𝑏
De natuurlijke schatting van deze standaarddeviatie wordt verkregen door de geschatte waarde van πa en πb, respectievelijk Pa en PB in bovenstaande formule in te vullen. Dit kan gebruikt worden om PAPB te standaardiseren. Het gestandaardiseerde verschil wordt aangeduid met Z. formule wordt: Z= (PA-PB)/ se(Pa-Pb) Onder de nulhypothese heeft Z bij benadering weer een normale verdeling. Die kan gebruikt worden om de overschrijdingskans (P-waarde) te bepalen P= Pr(|Z| >|Zobs|) met Z standaardnormaal verdeeld Een betrouwbaarheidsinterval geeft aan tussen welke waarden het verschil πa-πB redelijkerwijs kan liggen, gegeven de uitkomsten van het onderzoek. Indien blijkt dat het verschil (PA-Pb) statistisch significant is (0 niet in betrouwbaarheidsinterval), kan de medisch onderzoeker aan de hand van het betrouwbaarheidsinterval beoordelen of het verschil ook klinisch relevant is. Bij grote steekproeven is het mogelijk dat wel significantie optreedt, maar dat het gevonden verschil klinisch niet relevant is. bij kleine steekproeven andersom; geen significantie, maar wel klinisch relevant. Bij een juist steekproefgrootte kan bereikt worden dat significantie en klinische relevantie na genoeg samenvallen. Een iets afwijkende vorm voor bovenstaande toets wordt verkregen door de standaardfout van Pa-Pb op een iets andere manier te berekenen. Onder de nulhypothese πα-πβ kan de gemeenschappelijke waarde, zeg π, geschat worden door P= (Xa-Xb)/ (Na+Nb) 1
1
En de standaarddeviatie van Pa-Pb door se*(Pa-Pb)= √𝑃(1 − 𝑃)(𝑁𝑎 + 𝑁𝑏) Dat leidt tot een andere toetsingsgrootheid: Z*= (Pa-Pb)/ (se*(Pa-Pb) Conclusie blijft hetzelfde (natuurlijk), maar Z* is minder significant. Z* is conservatiever dan Z, d.w.z. dat Z* minder snel de nulhypothese verwerpt dan Z. anderzijds wordt de verdeling van Z* beter benaderd door een standaardnormale verdeling. 2X2 tabel Toets van H0: πa=πb is gebaseerd op de constructie van ‘geschat effect gedeeld door de standaardfout van het geschatte effect’. Een meer traditionele aanpak van hetzelfde probleem wordt verkregen door uit te gaan van een 2x2 tabel
Behandeling A Behandeling B Totaal
Aantal succes A C A+c
Aantal mislukking B D B+d
Link met hierboven beschreven toets wordt gegeven door: A= Xa C= Xb
Aantal totaal A+b C+D n
A+c= Xa+Xb B= Na-Xa D= Nb-Xb B+d= Na+Nb- (Xa-Xb) A+b=Na C+d= Nb N= Na+Nb De nulhypothese πa=πb kan in termen van de 2x2tabel anders worden geformuleerd, namelijk dat de kolomvariabele (= uitkomst succes/ mislukking) statistisch onafhankelijk is van de rijvariabele (= behandeling). Om H0 te toetsen wordt per cel het verschil beschouwd tussen het geobserveerde aantal O en het verwachte aantal E. onder de nulhypothese van onafhankelijkheid: E= rijtotaal* kolomtotaal N Volledige tabel van verwachte aantallen
A B
Succes (a+b)(a+c)/n (c+d)(a+c)/n
Mislukking (a+b)(b+d)/n (c+d)(b+d)/n
X2= Σ(O-E)2/ E Om een maat te hebben hoezeer de waargenomen aantallen O afwijken van de verwachte aantallen E berekent men: X2= Σ(O-E)2/E De randtotalen van O-tabel en E-tabel zijn identiek. Men zegt dat de 2x2 tabel met gegeven randtotalen één vrijheidsgraad heeft, genoteerd als df=1. Df= degrees of freedom. Als toetsingsgrootheid wordt nu x2 gebruikt. Als x2 te groot wordt, wordt Ho verworpen. Het aardige is dat X2=z*2 Omdat Z* bij benadering een standaardnormale verdeling heeft, is x2 dus bij benadering verdeeld als het kwadraat van een standaardnormale verdeling. P-waarden voor x2 zijn dus direct afleidbaar uit de standaardnormale verdeling. Merk op dat de nulhypothese alleen verworpen wordt als x2 te groot is en dat in die zin deze toets eenzijdig is . deze x2 toets is echter gevoelig voor afwijkingen van onafhankelijkheid in beide richtingen. Onderzoeksopzetten en interpretatie van de 2x2 tabel kan op verschillende manieren ontstaan. de uitvoering van een Z, Z* en x2 toets is steeds dezelfde, maar de interpretatie is afhankelijk van de onderzoeksopzet: twee steekproeven, enkele steekproef en case-controlopzet - Twee steekproeven opzet: men vergelijkt 2 groepen, die in de ideale situatie door randomisatie zijnverkregen. In beide groepen schat men de fractie personen (π) met een bepaalde eigenschap en vergelijkt dan de geschatte fracties om zo iets te kunnen zeggen over de verschillen tussen de kansen - Enkele steekproef: één steekproef uit de populatie nemen en kijken naar dichotome kenmerken. Bv. Geslacht (man/vrouw) en lijden aan hoofdpijn(ja/nee). De vraag is nu of deze kenmerken afhankelijk zijn. bij afhankelijkheid komen combinaties vaker (of minder vaak) voor dan op grond van de productregel voor kansen mag worden verwacht. Nagaan of er afhankelijkheid is of niet, komt dus neer op het vergelijken van voorwaardelijke kansen. - Case-controlopzet: gehanteerd bij onderzoek van factoren die van invloed kunnen zijn op het optreden van een zeldzame ziekte. Men vergelijkt een steekproef uit de ziektegevallen met een steekproef uit de gezonden en gaat na of ‘cases’ en ‘controles’ vergelijkbaar zijn. mocht
bijv. blijken dat bij de cases relatief meer mannen voorkomen dan bij de controles, dan kan men concluderen dat mannen een grotere kans hebben op de ziekte dan vrouwen. Hoe groot dat verschil is is niet op te merken. Odds ratio wel te schatten. Geeft een indicatie van het verschil. Steekproefgrootten Bij de experimentele proefopzet, maar daarbij niet alleen, speelt de vraag welke steekproefomvang in beide groepen nodig is om een bepaald onderscheidingsvermogen te halen. Als men bij het uitvoeren van een toets een onbetrouwbaarheid α hanteert, en een onderscheidingsvermogen 1-β wil bereiken indien de werkelijke waarden van de kansen in beide groepen gelijk zijn aan πa en πb, dan is het benodigde aantal per groep gelijk aan: Na=Nb= (Zα-Zβ)2(πa (1-πa)+ πb (1-πb)/ (πa-πb)2 Het blijkt dat de benodigde aantallen erg groot worden als men waarden van πa en πb wil onderscheiden die dicht bij elkaar liggen. De benodigde aantallen zijn kleiner als men een grotere waarde van β, dus een kleiner onderscheidingsvermogen hanteert. 5.3 het vergelijken van meer dan 2 populatiepercentages Analoog aan de situatie voor de 2x2 tabel kan men de x2- grootheid definieren die gebruikt kan worden om te toetsen of er enig verschil is tussen de behandelingen. Duidt men de kansen op succes per behandeling aan met πa, πb .πc dan luidt de nulhypothese nu: H0: πa= πb =πc. Deze hypothese wordt getoetst tegen het alternatief πa≠πb, πa≠πc of πb≠πc E nog steeds gegeven door rijtotaal x kolomtotaal/ totaal De kansverdeling van x2 onder de nulhypothese hangt af van het aantal rijen r en het aantal kolommen k en wel van het zogeheten aantal vrijheidsgraden, aangeduid met df. Df= (r-1)(k-1) Als significant is, dan verworpen. Een significant resultaat van de x2 toets zegt dat niet alle kansen gelijk zijn De x2 toets blijft hetzelfde als men de volgorde van rijen en/ of kolommen verwisseld en maakt dus geen gebruik van de aanwezige ordening. Hoorcollege 8
sectie 6.1
Central limietstelling (HC4) als steekproef niet normaal verdeeld is, kan steekproefgemiddelde bij benadering normaal verdeeld. Kleine steekproef geeft geen goede weergave van normale verdeling in histogram Normale Q-Q-plot werkt dan al wat beter. Se(Ẋ)= standaarderror van Ẋ = geschatte standaardafwijking van Ẋ T-verdeling: een plattere verdeling dan normale verdeling met bredere kritieke waarde. Links eenzijdig toetsen: bij gebruik van tabel kijken naar α=10% aangezien dan aan beide kanten 5% afwijking is. De rechterkant dan vergeten.
Boek 6.1 uitspraken over één populatiegemiddelde Een uitkomstvariabele die het resultaat is van een kwantitatieve meting (lengte, bloeddruk etc.) is een continue variabele. Het ligt voor de hand het populatiegemiddelde μ te schatten met het steekproefgemiddelde Ẋ, berekend volgens Ẋ=1/n *ΣXi Op basis van de waargenomen Ẋ kunnen uitspraken gedaan worden over de onbekende μ. Daarbij worden 3 gevallen onderscheiden: - X heeft een normale verdeling met bekende σ - X heeft een normale verdeling met onbekende σ - X heeft geen normale verdeling en σ is onbekend Om H0: μ=μ0 te toetsen, wordt Ẋ gestandaardiseerd. Dit leidt tot toetsingsgrootheid: Z=(Ẋ-μ0)/(σ/√𝑛) De stochastische variabele Z heeft exact een standaardnormale verdeling. De nulhypothese wordt verworpen als |Z| te groot is. Bij algemene onbetrouwbaarheid α verwerpen we de nulhypothese als |Z|> Zα waarbij Zα de kritieke waarde is van de standaardnormale verdeling. De P-waarde wordt gegeven door P=Pr(|Z|> |Zobs|)met Z standaardnormaal verdeeld Het aantal vrijheidsgraden bepaalt de nauwkeurigheid waarmee σ2 geschat wordt door S2 S2= 2σ4/ (n-1) Om nu bij onbekende σ toch de nulhypothese Ho: μ=μ0 te toetsen, vervangen we sd(Ẋ) door σ/√𝑛 door de schatting se(Ẋ)=s√𝑛 (se= standaard error= schatting van sd). Dit leidt tot toetsingsgrootheid: T= (Ẋ-μ0)/(s√𝑛) De verdeling van t (onder H0) wordt bepaald door het aantal vrijheidsgraden df= n-1 van S. Als df groot is (df>100) wordt σ zo nauwkeurig geschat dat de verdeling van t nagenoeg gelijk is aan die van Z. Voor kleinere waarden van df (zeker voor df< 30) is t sterker gespreid dan Z. De verschillen tussen Z en t zijn alleen substantieel als n<30. Indien aannemelijk is dat de populatieverdeling van X niet normaal is en verder weinig tot niets over de vorm van de verdeling bekend is, wordt het moeilijk om heel precieze kansuitspraken te doen. De Z-toets of de t-toets blijft goed bruikbaar, ook als X zelf gene normale verdeling heeft, mots de steekproefomvang niet al te klein is. de echte (on)betrouwbaarheid is niet meer exact vast te stellen maar ligt dichtbij de gewenste. De steekproefgrootheden Ẋ en S geven verder nuttige informatie: - Indien de verdeling van de waarnemingen zelf ( dus de populatieverdeling van X) bij redelijke benadering normaal is, ligt ruwweg 95% van de uitkomsten tussen Ẋ-2s en Ẋ+2s . dit geeft het bereik aan binnen de populatie en de onder- en bovengrenzen dienen als referentiewaarden om vast te stellen of een individuele waarneming afwijkt of niet. - Het 95% Bi voor het populatiegemiddelde wordt bij benadering gegeven door Ẋ-2s/√𝑛 < μ < Ẋ+2s/√𝑛. Dit geldt ook als X zelf niet normaal verdeeld is, mits n niet te klein is. De exacte betrouwbaarheid is niet altijd precies 95% maar ligt daar niet ver vanaf
Hoorcollege 9: vergelijken van twee populatiegemiddelden sectie 6.2&7.1 Toetsen: 1 steekproef toetsingsgrootheid Z= (p-π0)/sd(p) 2 steekproeven toetsingsgrootheid Z*= (Pa-Pb)/se(Pa-Pb) OF x2- toets toepassen 1 steekproef toetsingsgrootheid T= (Ẋ-μ0)/ se(Ẋ) Toets m.b.t. onbekende verwachting μ 2 steekproeven toetsingsgrootheid T= (Ẋ-Y)/se(x-y) H0: μx-μy=0 Gaat om een continue variabele
s/√𝑛 is standard error of the mean σ2 beter te schatten dan σ de gemeenschappelijke variantie σ2 wordt het beste geschat d.m.v. een gewogen gemiddelde van beide steekproefvarianties S2= (n-1)/(m+n-2) Sx2+ (m-1)/(n+m-2)SY2 Nulhypothese verwerpen als P <α Nulhypothese niet verwerpen als P> α Gepaarde meting Je rekent met het verschil, niet met oorspronkelijke data. In dit geval omdat de data afhankelijk zijn (de test is 2x door dezelfde persoon ingevuld) Opvatten als 2 steekproeven of als afhankelijke data Hoe wordt data gepresenteerd? Belangrijk voor het keuzeprobleem! Bij verschil gewoon de 1-steekproeftheorie toepassen Alleen continue verdelingen!
6.2. het vergelijken van 2 populatiegemiddelden X1….Xn: aselecte steekproef ter grootte n uit een verdeling met verwachting μx en standaardafwijking σx. Y1…Yn: aselecte steekproef ter grootte m uit een verdeling met verwachting μy en standaardafwijking σy. Hoe willen we μx met μy vergelijken? Dit kan door te toetsen H0: μx=μy of door een BI voor μx-μy te bepalen. We kunnen de volgende gevallen onderscheiden: - Normale verdelingen met bekende σx en σy - Normale verdeling met onbekende σx en σy, maar σx=σy=σ - Normale verdeling met onbekende σx en σy - Willekeurige verdeling met onbekende σx en σy, maar σx=σy=σ - Willekeurige verdeling met onbekende σx en σy In alle gevallen zullen onze conclusies gebaseerd zijn op het waargenomen verschil Ẋ-Y. S2 is een gewogen gemiddelde van SX2=Σ(Xi-X)2/ (n-1) en Sy2= Σ(Yi-Y)2/(m-1) Het aantal vrijheidsgraden van S2 is de som van het aantal vrijheidsgraden van Sx2 en dat van Sy2, dus df= (n-1)+ (m-1)= n+m-2 De normaliteit van de populatie-verdelingen van X en Y zijn minder belangrijk bij het uitvoeren van de t-toets. Het is veel meer van belang dat de populatiestandaardafwijkingen ongeveer even groot zijn. 7.1 de gepaarde t-toets Als de variabele waarmee de effectiviteit van de behandeling wordt gemeten, continu en bij benadering normaal verdeeld is, kan met Student’s t-toets worden nagegeaan of er een statistisch verschil is tussen de groepen. Als dat zo is, en de indeling in groepen door randomisatie tot stand is gekomen, kan het gevonden verschil alleen verklaard worden door een verschil tussen de behandelingen. De effectiviteit van behandeling/ medicijn wordt in een getal uitgedrukt en dat geeft twee getallen per individu, zeg X en Y. als er n personen in het onderzoek zijn, wordt de datastructuur dus (X1,Y1), (X2,Y2) etc. (gepaarde waarneming)
De statistiek moet weer een uitspraak doen over het verschil μx-μy. Op het eerste gezicht lijkt het alsof de toets van sectie 6.2 kan worden toegepast, maar dat is slechts schijn: omdat (Xi, Yi) aam dezelfde persoon i gemeten zijn, is het niet ondenkbaar dat Xi en Yi statistisch afhankelijk zijn. als persoon i goed op geneesmiddel A reageert, zal hij vermoedelijk ook goed op B reageren. De afhankelijkheid van Xi en Yi heeft tot gevolg dat ook Ẋ en Ẏ afhankelijk zijn. de standaarddeviatie van Ẋ-Ẏ kan dus niet afgeleid worden uit Sx en Sy. Om toch een teots voor H0: μx=μy te kunnen uitvoeren, kijken we per individu naar het verschil Vi, gedefinieerd door Vi= Xi-Yi Er geldt μv=μx-μy, ook als de waarnemingen X en Y afhankelijk zijn, zoals hier het geval is. als variabele V bij benadering normaal verdeeld is ligt het voor de hand om als toetsingsgrootheid te gebruiken: 𝛴(𝑉𝑖−Ṽ)2 𝑛−1
T= Ṽ/ Sv√𝑛 met Ṽ=ẊẎ en Sv= √
Deze toets heet de gepaarde t-toets. De toetsingsgrootheid t heeft onder H0 de t-verdeling met n-1 vrijheidsgraden. Door naar V te kijken hebben we het probleem gereduceerd tot het doen van uitspraken over één populatiegemiddelde. Het is belangrijk in de statistiek om er voortdurend op gespitst te zijn of waarnemingen gepaard zijn of niet. Gepaarde waarnemingen behoeven niet altijd hetzelfde individu te betreffen.