Statistiek Casus ‘Van het rechte pad’ Remco van der Hofstad∗ 6 mei 2003
Inhoudsopgave 1 Introductie 1.1 Soorten afwijkingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 2
2 Software
3
3 Beschrijvende statistiek 3.1 Kentallen . . . . . . . . . . . . . . . . 3.2 Boxplot . . . . . . . . . . . . . . . . . 3.3 Strooidiagram (Engels: Scatter plot) . . 3.4 Normal probability plot en density trace 3.5 Histogram . . . . . . . . . . . . . . . . 3.6 Software . . . . . . . . . . . . . . . . .
4 4 5 6 6 7 7
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
4 Kansrekening
8
5 Statistische modellering
11
6 Het toetsen op een verwachtingswaarde
12
7 Het vergelijken van steekproeven 7.1 Toetsen op gelijkheid van verwachtingswaarden . . . . . . . . . . . . . . . . . . 7.1.1 Toetsen van gelijkheid van verwachtingswaarden met gelijke varianties . 7.1.2 Toetsen van gelijkheid van verwachtingswaarden met ongelijke varianties 7.2 Toetsen op gelijkheid van varianties . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Toetsen op normaliteit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13 13 14 15 16 17
∗
Faculteit Wiskunde en Informatica, TU/e. E-mail:
[email protected]
1
. . . . .
. . . . .
. . . . .
Experiment 1
Experiment 3
Experiment 2 1
0 4,5
5
5,5
6
0 4,5 5 5,5 6 6,5 7
0 4
4,5
5
5,5
Figuur 1: Drie experimenten.
1 Introductie Bij het verrichten van metingen moeten we ons realiseren dat elke meting behept is met bepaalde onzekerheden of afwijkingen. Deze afwijkingen kunnen velerlei oorzaken hebben zoals afleesonzekerheden, onzekerheden van het apparaat en invloed van de omgevingstemperatuur. In deze notities zullen we aangeven hoe we bij het analyseren en rapporteren van meetgegevens met deze afwijkingen rekening dienen te houden. Door een goede rapportage bereiken we dat onze inspanningen om een experiment te doen resulteren in goede en bruikbare gegevens. Statistische methoden spelen hierbij een belangrijke rol. Naast analyse achteraf van data is het ook belangrijk om vooraf rekening te houden met onzekerheden in metingen. Het is zeer vervelend als achteraf blijkt dat onze metingen te onnauwkeurig zijn om tot gewenste conclusies te komen. Daarom dient een onzekerheidsanalyse een vast onderdeel van een experiment te zijn. Hierbij speelt met name kansrekening een belangrijke rol.
1.1 Soorten afwijkingen Hieronder zijn in een figuur de waarden van metingen weergegeven van een drietal experimenten. Het betreft hier herhaalde metingen. De echte waarde is 5. We zien in experiment 1 dat de waarden redelijk netjes verspreid rond de werkelijke waarde 5 liggen. De gemiddelde waarde ligt niet ver van de echte waarde 5 af. In experiment 2 is ook sprake van een spreiding van de resultaten maar met dit verschil dat het gemiddelde hiervan sterk verschilt van de werkelijke waarde 5. De waarnemingen lijken systematisch naar rechts verschoven te zijn. 2
In experiment 3 zien we metingen die hetzelfde gedrag vertonen als in experiment 1, behalve e´ e´ n waarneming rond 4,2 die duidelijk afwijkt van de overige metingen. Om beter over zulke situaties te kunnen praten en daarna onderbouwde kwantitatieve analyses te kunnen uitvoeren, gaan we nu dieper in op verschillende soorten afwijkingen in meetgegevens. We onderscheiden drie soorten afwijkingen: toevallige afwijkingen, systematische afwijkingen en uitschieters. We zullen deze nu stuk voor stuk bespreken. Toevallige of statistische afwijkingen (Engels: indeterminate of random errors). Dit zijn afwijkingen die zowel positief als negatief kunnen zijn. Deze treden op bijvoorbeeld bij het aflezen van meetapparatuur, balans, etc. Ook temperatuursfluctuaties en andere omgevingsinvloeden hebben invloed op de werking van apparatuur. Toevallige afwijkingen zijn dus altijd aanwezig, en we kunnen hiervoor dan ook niet direct corrigeren. Door een meting meerdere malen uit te voeren en dan de gemiddelde uitkomst te nemen, vallen positieve en negatieve toevallige afwijkingen geheel of gedeeltelijk weg. Op deze manier kunnen we het effect van toevallige afwijkingen op een statistische manier verminderen. Systematische afwijkingen (Engels: determinate of systematic errors). Dit zijn afwijkingen die zich grotendeels in e´ e´ n richting manifesteren, of steeds positief of steeds negatief. Een voorbeeld is een pipet van 25,00 ml die na kalibratie 24,90 ml blijkt te zijn. In experiment 2 is ook sprake van een of meer systematische afwijkingen, omdat de meetwaarden allemaal groter (veel) groter zijn dan de werkelijke waarde. In het algemeen kunnen systematische afwijkingen ge¨elimineerd worden door kalibratie van meetapparatuur. Uitschieters (Engels: outliers). Afwijkingen kunnen ook ontstaan als gevolg van slordigheden, zoals overschrijffouten, rekenfouten, afleesfouten, gebruik van verkeerde hoeveelheden, etc. Deze grove afwijkingen worden uitschieters genoemd. Experiment 3 in Figuur 1 is waarschijnlijk een uitschieter. Uitschieters zij vaak ook toevallige afwijkingen of systematische afwijkingen, of zelfs een combinatie van beiden. Omdat zij een belangrijke rol spelen in de statistische analyse, bespreken we ze toch apart.
2 Software Om het statistische rekenwerk en de toetsen te doen, moeten de studenten het rekenwerk natuurlijk niet handmatig doen. Specifieke software kan helpen bij het doen van toetsen en het berekenen van statistische grootheden als gemiddelden en steekproefvarianties en betrouwbaarheidsgebieden. Dit kan in Matlab door gebruik te maken van het toolbox Statistics. Daarnaast is het pakket StatGraphics een eenvoudig computerprogramma waarin door enig klikken alle boven genoemde procedures gedaan kunnen worden. StatGraphics kan worden verkregen via Outlook → Software → Standaard Software → Mathematische Applicaties → Statgraphics. Voor StatGraphics hebben we een aantal van de links weergeven voor toetsen en grafische weergaven. Dezelfde toetsen en grafische weergaven kunnen echter ook gedaan worden via Matlab. Tot slot merken we op dat ook in Excel ook 3
een aantal statistische procedures voorhanden zijn via Excel → Tools → Add-Ins → Analysis Toolpak.
3 Beschrijvende statistiek In deze paragraaf gaan we een kwantitatieve onderbouwing geven van de begrippen uit de vorige paragraaf. We gaan er van uit dat we n metingen x1 , . . . , xn hebben uitgevoerd. De werkelijke waarde is xt . Deze waarde kan bekend zijn vanuit theoretische overwegingen of andere, zeer nauwkeurige experimenten. In de praktijk is deze echter meestal onbekend. We zullen nu eerst een paar kentallen van een steekproef geven. Hierna zullen we ingaan op grafische methoden om een steekproef weer te geven. In StatGraphics kan men de hier besproken kentallen en grafische weergaven van de data vinden via Describe, Numeric Data, One-variable analysis.
3.1 Kentallen In het volgende zullen we de geordende steekproef x1 , x2 , . . . , xn , waarbij n het aantal observaties is in de steekproef, weergeven als x(1) , x(2) , . . . , x(n) . Deze geordende observaties x(i) worden de order statistics genoemd. Er geldt dus dat x(1) de kleinste en x(n) de grootste observatie zijn. Het steekproef gemiddelde x¯ is de meest gebruikte indicatie van de echte waarde van het experiment. Deze echte waarde wordt ook wel de lokatie van de steekproef genoemd. Het steekproefgemiddelde is gelijk aan Pn xi x1 + x2 + · · · + xn x¯ = = i=1 . (1) n n Een andere maat van de lokatie van de steekproef is de steekproef mediaan M ed = M ed(x1 , . . . , xn ) die gelijk is aan ½ x((n+1)/2) als n oneven is, M ed = (2) (x(n/2) + x((n/2)+1) )/2 als n even is. De mediaan is de middelste order statistic als de steekproefgrootte oneven is, en het gemiddelde tussen de twee middelste order statistics als de steekproefgrootte even is. Als de steekproef groot is, dan is de mediaan dichtbij het gemiddelde. Het voordeel van de mediaan is dat deze minder gevoelig is voor uitschieters, die mogelijk komen door typefouten, afleesfouten, storingen en dergelijken. Om de spreiding van de steekproef weer te geven gebruiken we s2 , de steekproefvariantie die gelijk is aan Pn ´ ¯)2 1 ³ 2 2 2 2 i=1 (xi − x (3) s = = (x1 − x¯) + (x2 − x¯) + . . . + (xn − x¯) . n−1 n−1 De steekproefvariantie is de gemiddelde (kwadratische) afwijking tussen de data en het gemiddelde van de data. De wortel uit de steekproefvariantie, s, heet ook de steekproef standaardafwijking. Tot slot noemen we als alternatieve maat van de spreiding van een steekproef de interkwartielafstand (Engels: Inter Quartile Range) (IQR). Om dit kental te kunnen defini¨eren, hebben we eerst een ander kental nodig. Het a%-quantiel is een getal zodanig dat a% van de metingen kleiner is. Er is een precieze definitie die de problemen bij kleine aantallen waarnemingen opvangt door interpolatie. Merk op dat het 50%-quantiel niet anders is dan de mediaan. Het 25%-quantiel wordt ook wel 1ste quartiel genoemd, terwijl het 75%-quantiel het derde quartiel genoemd wordt. In StatGraphics worden 4
salary (Kf)
120
100
80
60
40
20
0 N=
63
56
75
56
trade
industry
education
other
sector of employment
Figuur 2: Boxplot voor de verdeling van het inkomen van vrouwen over de verschillende sectoren.
de namen lower and upper quartile gebruikt. Nu kunnen we ook de naam interkwartielafstand (IQR) begrijpen: IQR = 3de quartiel − 1ste quartiel. (4) Al de hierboven besproken kentallen kunnen in StatGraphics berekend worden via Describe, Numeric Data, One-variable analysis. In de Tabular Options (gele icoontje) moet dan Summary Statistics worden aangevinkt. Dit geeft een venster met dezelfde naam. Met de rechter muisknop en Pane Options kunnen vervolgens een aantal van de kentallen gekozen worden.
3.2 Boxplot De term boxplot, of ook wel box-and-whiskers plot, is uitgevonden door de Amerikaanse statisticus John Tukey. De boxplot combineert informatie over de mediaan, de spreiding en symmetrie van de data set, alsmede de uitschieters. Het bevat dus op een grafische wijze vele van de bovenstaande kentallen. De boxplot bestaat uit een doos, de ‘box’, die loopt tussen de twee kwartielen, en door midden gedeeld wordt door de mediaan. Ligt de mediaan niet in het midden van de doos, dan is dit een aanwijzing dat de data niet symmetrisch verdeeld zijn. Omgekeerd mag men niet meteen concluderen dat de waarnemingen symmetrisch verdeeld zijn als de mediaan in het midden van de doos ligt. Vanuit deze doos worden twee lijnen getrokken (the whiskers) naar grote waarden in de data, waarbij we de extreem grote waarden (de uitschieters of outliers) niet meenemen. Deze twee horizontale lijnen beginnen bij het eerste resp. derde quartiel en de lengte van deze lijnen is 1 12 keer de interquartielafstand. Waarnemingen die hierbuiten vallen zijn uitschieters. Page 1worden De boxplot kan gebruikt worden om een data set weer te geven, maar kan ook goed gebruikt om verschillende data sets met elkaar te vergelijken. In de casus kunnen we de boxplot bijvoorbeeld 5
100
80
60
sector of employment
40
salary (Kf)
other education
20
industry 0 20
trade 30
40
50
60
age (years)
Figuur 3: Strooidiagram voor de relatie tussen inkomen en leeftijd voor vrouwen in de verschillende sectoren.
gebruiken om de gemeten hoogteverschillen met de twee verschillende meetmethoden met elkaar te vergelijken op het gemiddelde en de spreiding. In Figuur 2 staat een voorbeeld waarin inkomens van vrouwen werkend in verschillende sectoren worden vergeleken. Het laat duidelijk zien dat vrouwen werkend in de ‘andere’ sectoren minder verdienen dan de vrouwen die in de industrie en het onderwijs werken.
3.3 Strooidiagram (Engels: Scatter plot) Het strooidiagram is een methode om de afhankelijkheid tussen twee variabelen weer te geven door de twee variabelen als co¨ordinaten in het vlak weer te geven. een voorbeeld is weergegeven in Figuur 3. In dit strooidiagram zien we dat de relatie tussen inkomen en leeftijd ongeveer lineair is voor alle 4 groepen. Het strooidiagram zou in de casus gebruikt kunnen worden als we metingen hebben van hoogteverschillen tussen punten met verschillende tussenafstanden.
3.4 Normal probability plot en density trace Een normal probability plot is een grafische methode om visueel te controleren of een data set uit een normale verdeling komt. Zonder op de precieze methode van het berekenen van een normal probability plot in te gaan, zullen we in deze sectie beschrijven hoe een normal probability plot ge¨ınterpreteerd kan worden.1 In een normal probability plot staat een referentielijn, en daarnaast een aantal punten Page 1 1
Om precies te zijn wordt in de normal probability plot de inverse verdelingsfunctie van de normale verdeling met dezelfde verwachting en variantie als de data set losgelaten op de empirische verdelingsfunctie.
6
die samenhangen met de data punten uit de steekproef. Als de data set uit een normale verdeling zou komen, dan liggen alle weergegeven punten dichtbij de referentielijn. Afwijkingen ten opzichte van de lijn kunnen dus opgevat worden als afwijkingen van de data set ten opzichte van een normale verdeling met vergelijkbare verwachtingswaarde en variantie. De plek waar de punten afwijken ten opzichten van de referentielijn zeggen ook nog iets over wat het verschil is tussen de data set en de normale verdeling, zoals dat er meer of minder grote waarnemingen zijn dan we voor een normale verdeling zouden verwachten. Bijvoorbeeld, als de punten links onder de referentielijn liggen, dan zijn er minder kleine waarnemingen, terwijl als de punten boven de referentielijn liggen dan zijn er meer kleine waarnemingen dan we zouden verwachten als de data set uit een normale verdeling zou komen. Een veelgebruikte methode om data weer te geven is een histogram. In veel gevallen is een histogram echter niet zo geschikt, met name wanneer wij te maken hebben met continue data. Een histogram is een uitstekend middel om discrete data weer te geven. Voor continue data kan men beter een boxplot gebruiken, of, als een meer direct alternatief voor een histogram, een schatter voor de dichtheid als een density trace. Een histogram wordt gemaakt door het bereik van de uitkomsten in een aantal even brede vakken (offici¨ele naam: klassen, Engels: bins) te verdelen en dan te tellen hoeveel waarnemingen in elke klasse vallen. Het nadeel van deze methode is dat de vorm van een histogram sterk afhangt van de gekozen klassenbreedte. Een betere grafische weergave is de zogenaamde density trace (ook wel naive density estimator genoemd), een soort glijdend histogram. M.a.w., bij een density trace is elk punt middelpunt van een klasse; de functiewaarde in dat punt is het aantal punten in die klasse gedeeld door het totaal aantal waarnemingen maal de klassenbreedte. Bij een histogram is er een vast aantal disjuncte klassen, bij een density trace zijn er dus oneindig veel elkaar overlappende klassen. De normal probability plot en de density trace kunnen in de casus gebruikt worden om visueel te inspecteren of de gemeten hoogteverschillen redelijkerwijs uit een normale verdeling kunnen komen. Na een eerste grafische controle (die natuurlijk subjectief is) kan een objectieve controle uitgevoerd worden via een statistische toets zoals de toets van Shapiro-Wilks (zie paragraaf 7.3 hieronder).
3.5 Histogram Een veelgebruikte methode om data weer te geven is een histogram. In deze casus is een histogram echter niet zo geschikt, aangezien wij altijd te maken hebben met continue data. Een histogram is een uitstekend middel om discrete data weer te geven. Voor continue data kan men beter een boxplot gebruiken, of, als een meer direct alternatief voor een histogram, een schatter voor de dichtheid.
3.6 Software Alle boven beschreven grafische methoden kunnen gemaakt worden door statistische software (zie ook paragraaf 2 hierboven). In StatGraphics kunnen we deze krijgen via Describe, Numeric Data, Onevariable analysis. In de Graphical Options (blauwe icoontje) moeten dan de gewenste grafische weergaven gekozen worden. Deze worden dan in verschillende vensters weergegeven. Met de rechter muisknop en Pane Options kunnen vervolgens een aantal van de kentallen gekozen worden.
7
Density Trace
Normal Probability Plot
0,3
99,9 99 95 80 50 20 5 1 0,1 -3,3
percentage
density
0,25 0,2 0,15 0,1 0,05 0 -3,3
-1,3
0,7
2,7
4,7
-1,3
0,7
2,7
4,7
Figuur 4: Voorbeeld van een density trace en een normal-probability plot. Deze steekproef lijkt normaal verdeeld te zijn, maar heeft zwaardere staarten dan een normale verdeling.
4 Kansrekening We hebben gezien dat toevallige afwijkingen zowel positief als negatief kunnen zijn. Dat wordt namelijk bepaald door het toeval. We zullen ons dus moeten verdiepen in hoe we deze toevalligheden kunnen beschrijven. De wiskundige theorie die zich bezig houdt met toeval heet kansrekening (Engels: probability theory). We hebben enige kennis van deze theorie nodig om kwantitatieve onderbouwingen kunnen te geven van de eerder behandelde begrippen. Laat X de uitkomst van een meting zijn. Een wiskundig model voor toevallige uitkomsten van een meting leggen we vast door de (cumulatieve) verdelingsfunctie van X te geven: F (t) = P (X ≤ t). (5) In de kansrekening wordt X een stochast genoemd. Aangezien metingen in de werktuigbouwkunde meestal continu zijn (binnen een bepaald bereik kan elke waarde aangenomen worden), geldt dat P (X = t) = 0 voor elke afzonderlijke waarde t. Dit verklaart bovengenoemde keuze voor de verdelingsfunctie om de uitkomsten van een stochast te beschrijven. In de praktijk is het vaak handig om naast de verdelingsfunctie ook de afgeleide te beschouwen. Deze afgeleide heet de dichtheidsfunctie (afgekort: dichtheid): d (6) f (t) = F (t). dt
8
Density Trace
Density Trace 0,15
0,4
0,12
density
density
0,3
0,09
0,2
0,06
0,1
0,03 0
0 -2,9 -1,9 -0,9 0,1 1,1 2,1 3,1
-2
0
2
4
6
8
Figuur 5: Voorbeelden van density traces uit normale data en uit tweekoppige data.
Indien men de dichtheid kent, kan de verdelingsfunctie terugvinden door te integreren: Z t F (t) = f (s)ds.
(7)
−∞
Een grafische interpretatie is dat men kansen kan vinden als oppervlakte onder de dichtheid. Er zijn veel kansverdelingen bekend. Het blijkt echter dat in veel gevallen toevallige afwijkingen met een zogenaamde normale verdeling (ook wel Gaussverdeling genoemd) beschreven kunnen worden. De verklaring hiervoor is dat de som van een groot aantal toevallige afwijkingen zich, ongeacht de verdeling van deze afwijkingen, bijna gedraagt als een toevallige afwijking met een normale verdeling. De precieze wiskundige formulering van dit feit heet Centrale Limietstelling. Een mooie demonstratie van de Centrale Limietstelling is te zien op http://www.maths.soton.ac.uk/˜sml/ma120/SamplingApplet.html. De dichtheid van een normale verdeling heeft een bekende klokvorm met als formule f (t) = √
1 2πσ 2
e−
(t−µ)2 2σ 2
.
(8)
Merk op dat de normale verdeling afhangt van twee parameters. De parameter µ is de verwachting van de verdeling. Dit is een theoretisch gemiddelde waarde. Aangezien de dichtheid van een normale verdeling symmetrisch rond µ is, verwachten we evenveel en even grote waarden groter en kleiner dan µ. De parameter µ wordt om deze reden een locatieparameter genoemd. De parameter σ is een maat voor de spreiding. Om wiskundige redenen is het gebruikelijk σ 2 i.p.v. σ als parameter te beschouwen. Let bij het gebruik van software altijd op de gebruikte conventie om een normale verdeling te specificeren, 9
m.a.w. wordt σ 2 of σ gebruikt. Een grote waarde van σ leidt tot een grote kans op uitkomsten die ver weg liggen van µ. Om beter vertrouwd te raken met deze begrippen, zijn de volgende Java applets beschikbaar: http://www.win.tue.nl/˜marko/statApplets/functionPlots.html en http://www-stat.stanford.edu/˜naras/jsm/NormalDensity/NormalDensity.html. Hoe moeten we nu zo’n kromme interpreteren? Het totale oppervlak binnen deze kromme is derhalve 1 of 100%. D.w.z. dat elke nieuwe meting valt met een waarschijnlijkheid van 100% in dit gebied. Andere waarden kan men opzoeken in tabellen over de normale verdeling. Hierbij dient men te weten dat de normale verdeling met µ = 0 en σ 2 = 1 de standaard normale verdeling heet. De standaard normale verdeling wordt vaak aangegeven met de letter Z. Als X normaal verdeeld is met parameters µ en σ 2 , dan is (X −µ)/σ standaard normaal verdeeld. De overgang van X naar (X −µ)/σ heet standaardiseren. Een applet die dit illustreert is te vinden op http://psych.colorado.edu/˜mcclella/java/normal/normz.html. Belangrijke concepten uit de kansrekening zijn de verwachtingswaarde en variantie van een verdeling. De verwachtingswaarde is een soort gemiddelde waarde, en kan voor continue random variabelen berekend worden door Z ∞ E[X] = xf (x)dx. (9) −∞
Voor een normale verdeling is de verwachtingswaarde gelijk aan µ. De variantie van een continue random variabele wordt gegeven door Z ∞ 2 Var(X) = E[(X − µ) ] = (x − µ)2 f (x)dx. (10) −∞
De wortel uit de variantie is de standaardafwijking en is een mate van spreiding van de stochast. De variantie van de normale verdeling is σ 2 . Standaardiseren is dus de verwachtingswaarde en variantie op 0 en 1 zetten. We geven tot slot wat rekenregels voor zogenaamde lineaire combinaties van stochasten Xi met verwachting µi en variantie σi2 . Een lineaire combinatie is een som a1 X1 + . . . + an Xn . Rekenregel 1: De verwachting van a1 X1 + . . . + an Xn is a1 µ1 + . . . + an µn , ofwel E(a1 X1 + . . . + an Xn ) = a1 E(X1 ) + . . . + an E(Xn ).
(11)
Voor varianties ligt de zaak iets ingewikkelder. Dit komt omdat varianties gedefinieerd zijn in termen van kwadraten. Indien de stochasten Xi echter onafhankelijk zijn (d.w.z., de verschillende metingen be¨ınvloeden elkaar niet), dan geldt er wel een eenvoudige formule. Rekenregel 2 (onafhankelijke stochasten): De variantie van a1 X1 + . . . + an Xn is a21 σ12 + . . . + a2n σn2 , ofwel (12) Var(a1 X1 + . . . + an Xn ) = a21 Var(X1 ) + . . . + a2n Var(Xn ). Rekenregel 2 is van groot belang voor de statistiek. Immers, het geeft aan dat de variantie van het steekproefgemiddelde gelijk is aan ¯ = Var(X)
1 σ2 1 Var(X ) + . . . + Var(X ) = , 1 n n2 n2 n 10
(13)
ofwel, de variantie van het steekproefgemiddelde neemt af als 1/n keer de variantie van elk van de metingen. Dit effect wordt ook wel eens het verschil tussen ‘standaardafwijking’ en ‘standaardafwijking in het gemiddelde’ genoemd. Het geeft aan waarom het nuttig is om meerdere metingen te doen. Als Xi normale verdeling hebben, dan heeft lineaire combinatie dat ook. Komt omdat normale verdeling zelf al limiet is van som van vele effecten. Uit bovenstaande rekenregels volgt dat als Xi onafhankelijke normale verdelingen zijn met verwachting µi en varaintie σi2 , dat dan a1 X1 + . . . + an Xn een normale verdeling heeft met verwachting a1 µ1 + . . . + an µn en variantie a21 σ12 + . . . + a2n σn2 . 2
Voorbeeld: Steekproefgemiddelde heeft normale verdeling met verwachting µ en varaintie σn . Er zijn natuurlijk nog veel meer rekenregels uit de kansrekening, maar aan deze rekenregels zullen we in deze casus voldoende hebben.
5 Statistische modellering In de voorgaande paragraaf is de kansrekening aan bod gekomen. De kansrekening geeft een theoretisch model voor toevallige fenomenen. We kunnen bijvoorbeeld de normale verdeling nemen als statistische model voor de uitkomst van een meting. Het probleem is echter dat dit model niet vastligt, omdat we de parameters in het model niet kennen. Bijvoorbeeld, als we de normale verdeling gebruiken als model voor een meetexperiment, dan weten we meestal niet wat de verwachtingswaarde µ en de variantie σ 2 zijn. De rol van statistiek is onder meer om hier zinnige uitspraken over te doen. We moeten ons dus realiseren dat er in een statistisch model theoretische grootheden zijn die we niet kennen, en ook niet te weten kunnen komen. We kunnen echter wel experimenten doen, en op basis van deze experimenten proberen om deze grootheden te benaderen. In het voorbeeld van de normale verdeling kunnen we de steekproefvariantie s2 gebruiken om de theoretische variantie σ 2 te benaderen, en het steekproefgemiddelde x¯ om de theoretische verwachtingswaarde µ te benaderen. In deze notities zullen we consequent de griekse letters (zoals µ en σ) gebruiken voor theoretische grootheden, en gewone letters (zoals x¯ en s2 ) voor de steekproefgrootheden. Het onderscheid tussen deze twee is essentieel in de statistiek. Om iets te kunnen zeggen over de theoretische grootheden µ en σ 2 zullen we statistische methoden gebruiken als het betrouwbaarheidsinterval en de statistische toets. Een betrouwbaarheidsinterval geeft aan hoe ver de steekproefgrootheid van de theoretische grootheid kan afliggen. Het is een toevallig interval waarin de theoretische grootheid met een voorgeschreven kans of betrouwbaarheid ligt. Het betrouwbaarheidsinterval kunnen we berekenen op basis van het statistische model en de steekproef. Een statistische toets kunnen we doen om te bekijken of een afwijking statistisch significant is. Bijvoorbeeld, als we twee metingen hebben gedaan, kunnen we kijken of de twee steekproefgemiddelden significant van elkaar verschillen. Hierbij gaan we uit van een bepaalde hypothese, de nulhypothese, die bijvoorbeeld kan zijn dat de twee verwachtingswaarden gelijk zijn. We onderzoeken dan of dit aannemelijk is ten opzichte van de alternatieve hypothese die bijvoorbeeld zegt dat deze twee verwachtingswaarden van elkaar verschillen. Een toets wordt gedaan op basis van een toetsingsgrootheid die berekend wordt op basis van de steekproef. Om te zien of de afwijking significant is, dienen we te weten wat de verdeling van de toetsingsgrootheid is als de nulhypothese waar is. Hiervoor is kansrekening nodig. In de casus zullen 11
jullie alleen toetsen doen waarvoor de verdeling van de toetsingsgrootheid bekend is. Aangezien we te maken hebben met toevallige data, en metingen niet elke keer dezelfde uitkomst geven, is het zo dat we soms grote afwijkingen hebben ten opzichte van wat we zouden verwachten, zelfs al is de nulhypothese waar. We zullen dus een grens moeten stellen aan wat nog wel redelijk is, en wat niet meer. Deze grens wordt gegeven door de significantie, die vaak wordt geschreven als α. Meestal wordt hiervoor 0.05 gebruikt, een enkele keer 0.01 wanneer de gevolgen van het verwerpen van de nulhypothese groot zijn. De nulhypothese wordt dan verworpen als de afwijking zodanig is dat de kans op een dergelijke afwijking onder de nulhypothese (de p-waarde) niet groter dan α is. In het algemeen zijn er 4 mogelijkheden: H0 waar H0 niet waar
H0 verworpen Type I fout Goede beslissing
H0 niet verworpen Goede beslissing Type II fout
De Type I-fout hebben we meestal in de hand, aangezien de nulhypothese de parameters specificeert. De kans op een Type I fout is α en wordt meestal 5% of 1% genomen. De Type II fout hebben we meestal niet in de hand, omdat als de nulhypothese niet waar is, we niet weten wat de parameters dan wel zijn. De Type II fout wordt groter naarmate de echte parameter dichter bij de waarde in de nulhypothese ligt. In de praktijk kan het zijn dat we een statistisch significant verschil vinden. Zeker als er een groot aantal metingen wordt gedaan, kan dit verschil zeer klein zijn. Misschien is het dus niet technisch significant. Dit laatste kan inhouden dat het verschil geen invloed heeft op werking van het apparaat in kwestie. Alle toetsen die in deze notities besproken worden, kunnen gedaan worden door standaard software te gebruiken (zie paragraaf 2).
6 Het toetsen op een verwachtingswaarde In deze paragraaf zullen we een toetsen beschrijven die een toets doet voor de verwachtingswaarde. In StatGraphics is deze toets te vinden via Describe, One-Variable Analysis. In gele icoontje Hypothesis Test aanvinken. De nulhypothese van deze toets is H0 : µ = 0, waarbij wordt aangenomen dat de steekproef uit de normale verdeling komt. De alternatieve hypothese is standaard H1 : µ 6= 0. Via rechtermuisknop op het scherm Hypothesis Test en Pane Options, gekozen worden om de significatie α (standaard 5%) te wijzigen, of de alternatieve hypothese µ < 0 of µ > 0 te kiezen. Ook kan als nulhypothese een andere waarde dan H0 ; µ = 0 worden gekozen. Deze keuzen zijn afhankelijk van de precieze vraagstelling in het statistische probleem. We bespreken nu in meer detail wat theoretische achtergrond van deze toets. We toetsen de hypothese H0 : µ = 0
versus
H1 : µ 6= 0.
¯ Uit de rekenregels in paragraaf 4 volgt dat X ¯ ∼ N (µ, σ 2 /n). We schatten σ 2 We schatten µ door X. door de zogenaamde steekproefvariantie n
1 X ¯ 2. σ ˆ =s = (Xi − X) n − 1 i=1 2
2
12
Het is bekend uit de kansrekening dat de verdeling van T =
¯ −µ X √S n
een t-verdeling heeft met n − 1 vrijheidsgraden. We verwerpen de nul-hypothese als ¯ |X| > tα/2 (n − 1), S
(14)
waarbij α de significantie van de toets is. De Student t-verdeling is een belangrijke verdeling uit de statistiek, waarvan veel bekend is. Daarnaast gebruiken we de notatie tα (n) voor die waarde van t waarvoor de t-verdeling met n vrijheidsgraden groter is dan t met kans α. tα (n) wordt ook een kritieke waarde genoemd. Het (1 − α)-betrouwbaarheidsinterval wordt gegeven door s s (¯ x − tα/2 (n − 1) √ , x¯ − t1−α/2 (n − 1) √ ), n n
(15)
¯ en S berekend uit de steekproef. waarbij de kleine letters x¯ en s worden gebruikt voor de waarden van X Veel andere toetsen uit de statistiek die gaan over het toetsen omtrent verwachtingswaarden, gebruiken dezelfde t-verdeling. We zullen hierna bespreken hoe we twee verwachtingswaarden met elkaar kunnen vergelijken.
7 Het vergelijken van steekproeven In deze paragraaf zullen we een aantal toetsen beschrijven die twee steekproeven met elkaar vergelijken. In StatGraphics zijn deze toetsen te vinden via Compare, Two Samples, Two-Sample Comparison.
7.1 Toetsen op gelijkheid van verwachtingswaarden In deze paragraaf zullen we ons bezighouden met het toetsen of twee verwachtingswaarden aan elkaar gelijk zijn wanneer we te maken hebben met een steekproef uit een normale verdeling (normale data). Daarnaast zullen we formules geven voor het betrouwbaarheidsinterval voor het verschil van twee verwachtingswaarden. Men dient bij Tabular Options (het gele icoontje) de optie Comparisons of Mean aan te vinken. Dit geeft een venster waarin een toets wordt gedaan om de verwachtingswaarden van twee steekproeven met elkaar te vergelijken. Met de rechter muisknop en Pane Options kunnen we vervolgens de significantie instellen (meestal op 5%), en aangeven of we gelijke of ongelijke variantie veronderstellen (Assume Equal Sigmas aanvinken of niet). Ook kan hier gekozen worden om een eenzijdige dan wel een tweezijdige toets te doen. In dit venster staan vervolgens de betrouwbaarheidsintervallen en de uitkomsten van de toetsingsgrootheid en de conclusie van de toets. In de volgende twee paragrafen bespreken we de theoretische achtergronden van deze twee toetsen.
13
7.1.1 Toetsen van gelijkheid van verwachtingswaarden met gelijke varianties In deze paragraaf zullen we een toets beschrijven om te toetsen of twee verwachtingwaarden gelijk zijn als we mogen aannemen dat de varianties gelijk zijn. Daarnaast zullen we ook een betrouwbaarheidsinterval voor het verschil van verwachtingswaarden geven. We toetsen de hypothese H0 : µ1 = µ2
versus
H1 : µ1 6= µ2 .
We kunnen dit herschrijven door H0 : µ1 − µ2 = 0. We schatten het verschil door D = Y¯1 − Y¯2 . Uit de rekenregels in paragraaf 4 volgt dat Y¯1 ∼ N (µ1 , σ 2 /n1 ) en Y¯2 ∼ N (µ2 , σ 2 /n2 ), waarbij n1 en n2 het aantal metingen van Y1,i en Y2,i zijn, krijgen we uit rekenregel 1 E(D) = 0 als H0 waar is, We schatten σ 2 door de zogenaamde gepoolde variantie σ ˆ2 =
(n1 − 1)S12 + (n2 − 1)S22 , n1 + n2 − 2
waarbij S12 en S22 de steekproefvarainties zijn: n
S12 =
1 1 X (Y1,i − Y¯1 )2 . n1 − 1 i=1
Het bovenstaande geeft ook een schatting voor Var(D): 2 SD =
(n1 − 1)S12 + (n2 − 1)S22 1 1 ( + ). n1 + n2 − 2 n1 n2
We verwerpen de nul-hypothese van gelijke verwachtingswaarden als |D| > tα/2 (n1 + n2 − 2), SD
(16)
waar we gebruiken dat SDD een Student t-verdeling met n1 + n2 − 2 vrijheidsgraden heeft, en waarbij α de significantie van de toets is. De Student t-verdeling is een belangrijke verdeling uit de statistiek, waarvan veel bekend is. Daarnaast gebruiken we de notatie tα (n) voor die waarde van t waarvoor de kans dat een t-verdeling met n vrijheidsgraden groter is dan t met kans α. tα (n) wordt ook een kritieke waarde genoemd. Het (1 − α)-betrouwbaarheidsinterval wordt gegeven door (d − tα/2 (n1 + n2 − 2)sD , d − t1−α/2 (n1 + n2 − 2)sD ),
(17)
waarbij de kleine letters d en sD worden gebruikt voor de waarden van D en SD berekend uit de steekproef. 14
7.1.2 Toetsen van gelijkheid van verwachtingswaarden met ongelijke varianties In deze sectie zullen we een toets beschrijven om te toetsen of twee verwachtingwaarden gelijk zijn als we niet mogen aannemen dat de varianties gelijk zijn. We benadrukken dat in dit geval de varianties wel gelijk kunnen zijn, maar dat we dit niet bij voorbaat weten. Daarnaast zullen we ook een betrouwbaarheidsinterval voor het verschil van verwachtingswaarden geven. Deze situatie is lastiger, omdat de precieze verdeling van de toetsingsgrootheid onbekend is. We toetsen de hypothese H0 : µ1 = µ2
versus
H1 : µ1 6= µ2 .
We kunnen dit herschrijven door H0 : µ1 − µ2 = 0. We schatten weer het verschil door D = Y¯1 − Y¯2 . Omdat we weten dat Y¯1 ∼ N (µ1 , σ12 /n1 ) en Y¯2 ∼ N (µ2 , σ22 /n2 ), waarbij n1 en n2 het aantal metingen van Y1,i en Y2,i zijn, krijgen we uit rekenregel 1 weer dat E(D) = 0 Uit rekenregel 2 volgt dat
als
H0
waar is.
σ12 σ22 Var(D) = + . n1 n2
We schatten Var(D) door
S12 S22 + , n1 n2 waarbij weer S12 en S22 de steekproefvarianties zijn: 2 SD =
n
S12
1 1 X (Y1,i − Y¯1 )2 . = n1 − 1 i=1
We verwerpen de nul-hypothese van gelijke verwachtingswaarden als |D| > tα/2 (ν), SD met
¡ S12 ν= ¡
n1
S12 /n1
¢2
n1 +1
+ +
S22 ¢2 n2
¡
S22 /n2
(18)
¢2 − 2
(19)
n2 +1
waarbij deze waarde naar beneden wordt afgerond indien zij niet geheel is. Hier gebruiken we dat SDD bij benadering een Student t-distribution met ν vrijheidsgraden heeft, en waarbij α de significantie van de toets is. Het (1 − α)-betrouwbaarheidsinterval wordt bij benadering gegeven door (d − tα/2 (ν)sD , d − t1−α/2 (ν)sD ),
(20)
waarbij weer de kleine letters d en sD worden gebruikt voor de waarden van D en SD berekend uit de steekproef. 15
7.2 Toetsen op gelijkheid van varianties Om dit in StatGraphics te doen, kiezen we weer Compare, Two Samples, Two-Sample Comparison. Men dient bij Tabular Options (het gele icoontje) de optie Comparisons of Standard Deviations aan te vinken. Dit geeft een venster waarin een toets wordt gedaan om de standaardafwijkingen van twee steekproeven met elkaar te vergelijken. Met de rechter muisknop en Pane Options kunnen we vervolgens de significantie instellen (meestal op 5%). Ook kan hier gekozen worden om een eenzijdige dan wel een tweezijdige toets te doen. In dit venster staan vervolgens de betrouwbaarheidsintervallen, de uitkomsten van de toetsingsgrootheid en de conclusie van de toets. We bespreken nu de theorie achter de toetsen of de varianties van twee steekproeven significant van elkaar verschillen als deze steekproeven uit een normale verdeling komen. Dit gaat als volgt. Voor elk van de meetmethoden weten we uit de theorie dat (n − 1)S 2 ∼ χ2 (n − 1), σ2
(21)
waarbij χ2 (n − 1) een χ2 -verdeling is met n − 1 vrijheidsgraden. Deze verdeling speelt een zeer belangrijke rol bij data uit normale verdelingen. Daarnaast nemen we aan dat de verschillende steekproeven onafhankelijk zijn. Dit geeft dat met S12 = S 2 berekend uit de steekproef 1 en S22 = S 2 berekend uit steekproef 2, F =
S12 ∼ F (n1 − 1, n2 − 1), S22
(22)
waarbij een F -verdeling optreedt als ratio tussen twee onafhankelijke χ2 -verdelingen. De F -verdeling is essentieel om de varianties van twee steekproeven met elkaar te vergelijken. We willen toetsen of σ12 6= σ22 . Dus, H0 : σ12 = σ12 ,
versus
σ12 6= σ22 .
(23)
We verwerpen H0 als F > Fα/2 (n1 − 1, n2 − 1)
F < F1−α/2 (n1 − 1, n2 − 1),
of
(24)
waarbij α de significantie van de toets is, en Fα (n1 − 1, n2 − 1) de kritieke waarde van de F -verdeling met n1 − 1 en n2 − 1 vrijheidsgraden. Er geldt dus dat een F -verdeling met n1 − 1 en n2 − 1 vrijheidsgraden met kans α groter is dan Fα (n1 − 1, n2 − 1). Bovenstaande toets wordt een tweezijdige toets genoemd, omdat we alleen ge¨ınteresseerd zijn in de vraag of σ12 en σ22 significant van elkaar verschillen. We kunnen ook willen weten of σ12 significant groter is dan σ22 . We willen dan toetsen of σ12 > σ22 . Dus, H0 : σ12 = σ12 ,
versus
σ12 > σ22 .
(25)
We verwerpen H0 als F > Fα (n1 − 1, n2 − 1).
16
(26)
7.3 Toetsen op normaliteit In het voorgaande hebben we steeds aangenomen dat de metingen komen uit normale verdelingen. In paragraaf 3.4 hebben we een grafische methode, de normal probability plot, gegeven om dit visueel te inspecteren. In deze sectie zullen we iets zeggen over hoe normaliteit getoetst kan worden. Na een eerste grafische controle zoals beschreven in paragraaf 3.4 (die natuurlijk subjectief is) kan een objectieve controle uitgevoerd worden via een statistische toets. De toets van Shapiro-Wilks is een uitstekende toets. In StatGraphics is deze toets te vinden via Describe, Numeric Data, Outlier Identification. Men dient dat bij Tabular Options (het gele icoontje) de optie Tests for Normality aan te vinken. De overige toetsen zijn niet specifiek bedoeld om normaliteit mee te toetsen en dienen daarom niet gebruikt te worden. In het bijzonder is de tekst van de StatAdvisor in StatGraphics verwarrend. Deze toets werkt als volgt: 1. is de p-waarde kleiner dan of gelijk aan 0.01, dan is de data hoogstwaarschijnlijk niet normaal verdeeld 2. is de p-waarde groter dan 0.01, dan is er geen reden om aan normaliteit van de data te twijfelen. Normaliteit kan bij kleine aantallen waarnemingen verstoord worden door e´ e´ n enkele waarneming. Zo’n waarneming is vaak te zien in bovengenoemde weergaven. In de praktijk moet zo’n enkele waarneming onderzocht worden en weggelaten als er iets afwijkends geconstateerd wordt. Om objectief te toetsen of e´ e´ n of meerdere waarnemingen uitschieters zijn, kan men de toets van Dixon gebruiken. Dit kan alleen als n = 3, . . . , 30. Grotere steekproeven kan het programma niet aan. Grubbs toets werkt wel voor elke steekproefgrootte. Het is verstandig om uitschieters uit de data te verwijderen bij verdere analyse. In StatGraphics kan men de toets van Dixon vinden via Describe, Numeric Data, Outlier Identification. Het is belangrijk te beseffen dat deze toets gebaseerd is op de aanname dat de waarnemingen normaal verdeeld zijn (dit kan ook via dit menu door een extra optie aan te vinken bij Tabular Options. De toets van Dixon mag dus pas gebruikt worden, nadat we gecontroleerd hebben dat de data normaal verdeeld is. De toets van Dixon kan gewoon gebruikt worden met een significantie van 5M.a.w., uitkomsten met een p-waarde kleiner dan 0,05 geven aanleiding tot de conclusie dat er e´ e´ n of meerdere uitschieters zijn. Als data niet normaal verdeeld is, dan werkt de hierboven beschreven niet meer. Echter, de t-toets is vrij robuust, wat betekent dat deze toets ook een zinnig antwoord geeft als de data niet precies normaal verdeeld is, maar er niet al te zeer van afwijkt. Dit laatste hangt weer samen met Centrale Limiet Stelling. Een algemene vuistregel is dat als data niet normaal verdeeld is, dat er dan zijn meer metingen nodig zijn. Tot slot merken we op dat er is algemenere statistische theorie is voor andere statistische modellen dan normale, maar dat is teveel om nu op in te gaan. Als we uitgaan van normale data, dan kunnen we ook toetsen of een observatie een uitschieter is.
17