Onderafdeling der Wiskunde
Toegepaste Statistiek
SYLLABUS VAN HET COLLEGE VAN PROF. DR.
H:C. HAMAKER
VOORJAARSSEMESTER 1967
TECHNISCHE HOGESCHOOL EINDHOVEN
---~~-------------------····-·-
TECHNISCHE HOGESCHOOL EINDHOVEN
Afdeling Algemene Wetenschappen
Onderafdeling der Wiskunde
TOEGEPASTE STATISTIEK
Syllabus naar het college van
Prof. Dr. H.C. Hamaker
Voorjaarssemester 1967
Onderafdeling der Wiskunde
TOEGEPASTE
STATISTIEK
Syllabus van het college van Prof. dr.
H.C.
Hamaker
voorjaarssemester 1967
Technische i ,
..
Hogeschool
E
n d h o v e n
Inhouds beschrijving TOEGEPASTE STATISTIEK H.C. Hamaker voorjaarssemester 1967
Gewenste voorkennis. Definities en symbolen Bewerking van een uitgebreide waarnemingsreeks in een frequentietabel
1
4 6 Twee-dimensionale waarnemingsreeksen 9 Formules voor het toevoegen, weglaten of wijzigen van waarnemingen 12 Uitzetten van een kleine reeks waarnemingen 14 De normale verdeling 15 Populatie en steekproef 17 Praktijkmoeilijkheden bij aselect trekken 22 De centrale limietstelling 23 Parameters, schatters en schattingen 24 Betrouwbaarheidsintervallen voor 11 28 Betrouwbaarheidsintervallen Voorbeelden van betrouwbaarheidsintervallen aan de hand van Tabel 27 32 37 Discrete verdelingen "'- = 0, 1, 2, ... 41 Toepassingen van betrouwbaarheidsintervallen bij tellingen 42 Het toetsen van hypothesen 44 Enige gangbare toetsen 47 Steekproefkeuringen 56 Practische aspecten 57 De x2-verdeling en haar toepassingen 58 De verdeling van s 2 59 Het vergelijken van fracties of percentages 67 Grafische methoden 69 Kruisjeskaarten 73 De x- en R-kaarten 79 Variantie analyse 83 De F-toets 84 Regressie analyse 89 Foutendiscussies en de wet van de voortplanting van fouten 92 Voorbeelden JdG, 24 Juli 2005
j (·
( '•
f;, '
'
~··· ',\_
'
Eaqute
Naaa en Toerlettere · · C3.eboorte datUii · Studie-richting Le:Dgte Gewicht· Grootte . TU het geziD waartoe U·behoort, Usel.f meegerekend Totaal: Jongenel Meisjes:
.
' ~
Rookt U ja, neen · Zo ja hoeveel per dag
Waarnellingen
f
I
l
tt : t2
. t3 .
Tan
.sigaretten sigaren . Pijpen
:
.
de secondewijzer
' .
't:l+' : .t5 .: t6 : . Welke aiddagen heeft U Trij Toor practicUm:
Ma, Di, Wo, Do, Vr,
( I
• '
1
--------------------------------
...•~.
Toegepaste Statistiek 1965.
1
Gewenste voorkennis: Aanvullingsdiktaat Wiskunde IV; kansberekening, Bij dit kollege behoren: 1, Een statistisch compendium, bewerkt door A,J, Bosch en J .H.L. Kamps.
f
2, Vraagstukken met oplossingen, bewerkt door A.J. Bosch, beide verkrijgbaar bij de Administratie.
t
Aanbevolen boekwerken: 1, H,W, Alexander: Elements of.Mathematical Statistica. 2, P.G. Hoel: Introduetion to Mathematical Statistica,
beide ca. f 35,-- uitgegeven door Wiley and Sons, New York, eventueel gezamelijk bestellen door tussenkomst van Sunya.
Definities en symbolen
1; Een populatie: Een verzameling gelijksoortige objekten of elementen. 2. Een statistische populatie: Een verzameling metingen die men aan de elementen van een populatie zou kunnen· verrichten.
•i (
3. Een steekproef: Een deel van een populatie waaraan daadwerkelijk metingen worden verricht.
{ I.
)
.~
"'I
.
4• Een reeks waarnemingen: De waarnemingen aan een steekproef uitgevoerd. 5. ab) De steekproefgrootte } n ) Het aantal waarnemingen
6, De individuele waarnemingen
xi' i= 1, ••• ,n~
7.
x, - E. i
x., J.
x
=
nx. ,
Hun som
8. Het gemiddelde
x.
9• De ·kwad:mtensom
KS = f(xi-
=
i, ) 2
10, De variantie
s 2 = KS/(n-1 ),
11 • De s tandaardafwU king
s =
12. Aantal vri.iheidsgraden
v = (n-1 ),
13. De spreidingsbreedte
R • xmax - xmin'
14. De mediaan
11! l'J
(
rsz:
= middelst·e waarnemingen = het gemiddelde van het
als n oneven is. 15. Het afrondingsinterval
•
als n even is; middelste paar ·
:· a = kleinste positieve verschil tussen de afgeronde waarnemingen.
2
16. Toelaatbare e!ronding
1
s voor xi: a< Jn of a<2•
R voor x en s: a <2n- of 2
voor a : a<
s a< 2fn '
2
2~ •
17. Een getal met een 5 als laatstè cijfer e!ronden op ·een even cijfer.
(xi-c) 18, Koderen: Het vel"''angeri van xi door y1 • a ter vereenvoudiging 2 2 van de waamemingen en de berekeningen i • o + s.y, s 2x .. s. s y •
f I.
f •
Oefenmateriaal Dikten van 75 hardpapieren schijfjes in mikrens
3085
2988
3041
3118
3069
3080
3059
3032
3091
3098
3096
3045
3041
3107
3041
3068
3030
3080
3083
3053
3068
3073
3115
3088
3040
3077
3065
3087
3087
3050
3050
3041
3005 3016
3093
2948
2999
3071
3039
3078
3089
3041
3033
3088
3067
3065
3131
3030
3083
3058
3058
3050
3059
3097
3061
3080
3081
3005
3028
3115
3048 . 3085
3072
3058
3073 3082
3059 . 3023
3078
3093
2923
3090
3057
3095 3110
Gewichten van dezelfde 75 schijfjes in dezelfde velgorde in · miligrammen 1141
1110
1107
1146
1130
1131
1124
1102
1141
1130
1126
1116
1112
1139
1131
1129
1094
1128
. 1145
1103
1138
1119
1130
1144
1116
'
~·
11:<7
1126
1141
1092
1155
1105
1139
1097
1114
. 1145
1141
1109
1125
1122
1131.
1136
1135
1092
1142
1109
1144
1136
1131
1150
1129
f
1154
•
11)4
1116 11,30 1164 1134 1146
1128 1100 1132 1148 11,54
1154 1133 1139 1130 1134
1135 1134 1085 1140 1140
1132 1124 1144
i. _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __
1. Bewerking van een uitgebreide. waarnemingereaks in een frequentie tabel Regels: a~ b c d
Waarnemingen vooraf niet afronden, Aantal klassen bij voorkeur >5 en <16, Ondubbelzinnige klassegrenzen, Bij voorkeur een oneven aantal malen de laatste decimaal per klasse. ·
Tabel 1. 4•
~,requentietabel
van de dikten van 30 hardpapieren schijfjes
uit tabel 1.3.
Klasse grenzen
frequentie f
Turfstaat
y
1.1
I
2938 - 2962
2963 - 2987
fy
fy2
1
-5
-5 .
25
0
-4
0
0
2988 - 3012
11
2
-3
-6
18
3013 3038 3063 3088
I lil tf/.1. 111
4
-2
-8
16
8
-1
-8
8
11
0
0
0
2
1
2
2
2
2
4
8
-21
77
-
3037 3062 3087
1'f.l.l. tf.l.l. I
11 11
3112
3111 - 3137
Berekening:
50 m.
~
y
-21130
D
30
=
-0.70
=
62.3
2
KS
82
y
Hieruit
=
y
-
21 77 - 30
~ 29
a
2.14 '
n
=
30
x
=
3075 + 25( -0.70)
s x = 25• 1.46
Toelaatbare afronding voor
x en s:
a <
a
1.46.
=
y
"'
3057-51.1
=
36.6 1.1.
22.& '
2"00
=
.
3·3 1.1 •
We kunnen dus met n = 30, i .. 3058 1.1, a • 37 1.1 volstaan.
!
% 40
.
30
-
20
.
n = 30
.
fin% 10
~
~ wI~ .
.
'
l
·~ 10
.
.
I
~~ ·~~ ~~~ ~ ~ ~~
-5
I
.
WlJl .
0
2950
•
•
3000
3100
3050
3150
0
f
l
J.L
---4x·
Fig. I,5,A,
Histogram van de dikten van 30 hardpapieren schijfjes uit Tabel I,4
Voorbeeld van een histogram met ongelijke klassen. ~
klassen om
fin%
% 30
< 150
0.02
150 - <155 .155 -<16d
0.07
160 -< 165
2. 70
165 - <170
10.68
170 - <180 > 180
54-25 31.82
0.46
100.00 n
a
89 571
Tabel en Fig. I.5.B.
~ ~ ~ r . .-..!%~ ~ n • 89571
1<150 : 0.02%
20
150 -..;;155:0.07%
""180: 31.82%
f in %
rT':":"
0
0
150
•
160
170
180
om
____,. .e
Lengten van rekruten in 1963, Bron: Statistisch zakboek 1964.
Regels bi.j het construeren van Histogrammen
•
a~ Steeds. het totaal. aantal •aarnemingen vermelden • b Frequentie f bij voorkeur in % voor onderlinge vergelijkbaarheid. o Het oppervlak van de kolom boven een klasse interval is evenredig met de frequentie! (van belang bij verschillende klasse breedten) d) Onvolledig gedefinieerde klassen ("' of<) niet tekenen doch frequenties apart vermelden.
Algemene regels voor rabellen.en Figuren a) Goede tabellen en figuren moeten gemn.kk:elijk leesbaar en begrijpelijk zijn. Zij .moeten steeds van een duidelijk onderschrift zijn voorzien •. b) Men moet zich vaak de moeite getroosten figuren en tabellen enige malen over te maken ten einde een zo sprekend mogelijk resultaat te verkrijgen. c) Dimensies van de schalen moeten steeds worden vermeld. Voorbeelden van het nut van histogrammen 1o Kopshulzen (AKU). Tweetoppige verdeling. 2. Staalstaaf 6 mm ~. Twee partijen met verschil in spreiding. Verband met toleranties. 3o Afgeknotte verdelingen bewijzen sortering. Twee-dimensionale waarnemingareaksen i • 1, ••• ,n
s2 enz. zijn nu nog van belang: X·2
•L
(x 11.. -i 1. )(x2 -i2• ) i.
0
1
x ,. x 2•
~
• Li x 11. xzi -
n
2o cov(x. 1 ,x 2 ) = PS/(n-1) cov(x ,x ) 2 3o de correlatie coëfficient r = . Vvar x*var x ' 1
•
PS VKS
X1
2
KS
i
X2
Voorbeeld. Dikten en gewicht van 6 bardpapieren schijfjes. x1i :x. 21
-
3085
3080
3096
3068
3068
3CJT7
1141
1131
1126
1129
1138
1127 mgr.
Zet eerst x en x 1
2
ll•
tegen elkaar uit.
ll
3100.
•
.
0
3080-
•
r
•
•
x
• 3060 0
1120 ---~x
Fig. !.6.
1130 2
I
1140
mgr.
De dikte x , van 6 hardpapierèn schijfjes uitgezet tegen het ~~:ewicht. x 1 •
Berekening met gecodeerde 119.&2'2lemingen
; ·;r,"-
x, -
72 • x
~000
-
1100 •·
2 -
1
1
1
85
80
96
68
77 11•
41
~1
26
~8
27 mgr.
1
1
1
Met afronden ia enige voorzichtigheid geboden. Berekening met een rekenmachine.
(850000041)
2
-
7225 0006790 0001681
6400 0004960.0000961 . . . . . . . . . . .. . . . . ---------------optellen
(8000000~1)
2
-
.
4740000192
38018 0030192
0006~32
.
.
.E
Matrix va.n ruwe productsommen
Yo 6
.Yo y1 y
Y,
y2
474 38018
192 15096 6~.32
?
Matrix va.n .
Y, y1
572
y2
Hieruit volgt: x 1 • = ~000 + 47 4/6 = 3079 11
·i2"
1100 + 192/6 ~ 1132 mgr.
=
var x = 572/5 = 114.4 11 2 , 1 var x = 188/5 = ~7.6 mgr2• 2
cov(x ,x ) = -72/6 = -12.0 ll•mgr• 1
• •
.r =
2
-12.0 0 18 = - • V~7. 6N 114. 4
y2
-72 '188
r.a
Tabel
I.a.
Een twee-dimensionale frequentietabel.
Dikten en gewichten van 30 hardpapieren schijfjes uit Tabel. Gewicht in mgr.
Dikten in microns
x x
y~2j
1
1105- 11201119 . 1134
10901104
2
0
11351169
2
1
3
n.
1
1
3
2
2
5
3
I:n.jy . j_ l 2J
l•
2930 - 2964
0
nij
29~5-2999
1
2
3000 - 3034
2
3
1
1.
3035 - 3069
3
2
2
3
4
11
20
3()(0 - 3104
4
1
5
3
9
20
3105 - 3139
5
1
1
2
5
30
5
6
10
9
12
14
36
29
n"j
~ nij
Y1i
=
y1
KS(y )= 1
n .. Y . y . = 173 l.J 1l. 2J .
l.J
.
I: ni,Y1i =
L. .
I:n .y . 'J 2J
91
-
3·03
y2
PS(y ,y ) 1
=
2
r(x ,x )
a
2
2
=
36.6,
12. 2. 173 - 2H'2~ 30 =
r(y ,y ) 1
PS(x ,x)= 12.2 1
53 '
- 1.77.
KS(y ) 2
39·0
1
=
2
*
..
12 ' 2 V39o0-w-36,6'
35* 15
= 6405 iJ.
=
0.32
mgr.
Formules voor het toevoegen, weglaten of wi.j:ll.igen van waarnemingen
Samenvoegen van twee reeksen: n • n
+n
1
x=nx +ni
2
1 1
KS • KS
2 2
1
+ KS
2
nn + ...L2. (i -i ) 2 , n
1
2
Weglaten van n waarnemingen: n
=n·-n
1
-
x,- -
2
-
nn
nx-n x
2 2
n
KS
1
Toevoegen van één waarneming, x ------· n
n1 + 1 ,
a
- --4 (i 2 2 n
i) 2
I
1
+
n 11:.1
-
n 1x+ x+ 1 n 1 n+1
-
x
1
= KS - KS
KSaKS
1
1
n + ----L (x
n +1 1
n+1
-i 1) 2
Weglaten van één.waarneming, xn'
-
nx-x n
1
x1 =
• n - 1
n
KS
n-1
Wijzigen van één waarneming
ni-XJc+XJ::
KS 1
n
~
in
• KS - ....!!... (x - i) n-1 n ·
2
•
~
2 - ....!!... n-1 (x.K- i) + ....!!... n-1 (x.'K i• )~
KS
•
1
De KS voor een serie van twee waarnemingen is n
(x 1
KS
2
-
x 2 )2
2
~oor
twee-dimensionale reeksen
~lden
n
n +n ' 2 1
+~
n
a
1
n n
= n
- n2'
PS
,
PS
=n + 1 1 1
=n
PS
- 1
PS
= PS 1
=PS a
1
1
=
PS
+PS
2
- PS 2 1
+
PS -
de formules:
nn >Cx 2•1 -x- 2,2 ) , x -xn C 1o1 ,,2 nn ~ (i -i)(i -i) , n 1t2 1 2,2 2 n1 ----L (x -i )(x -i ) n 1 +1 1'nt +1 1' 1 2 'n+1 2, 1 t n (x ,,n-i 1 )(x2,n-i2 ). n-1
,
10
De nonnale verdeling: ~~I! +_ie;
· ~:is N~!l•o).
(x-u )2
=
~ e.
202
cv 271 Compendium Tabel 1.1.
dx.
Aanpassing bij een histogram
1:1= i
=
3058 micron, s = 37 micron, Ax = 25 micron.
u x
3058
=
-! ..
-
X,
o. 59
x ~ 1.0s x ! 1.5s x ±, 2.0s x ! 2. 5s
-
x-
! 3.0s
3040 ' 3076 3021 3095 3113 3003 2984 3132 2966 3150 3169 2947
micron 11
" 11 11 11 11
+ .. - 0.5 ! 1.0 :!: 1.5 ! 2.0 :!: 2.5 :!: 3.0
~?v(u)
0.399 0.352 0.242 0.1.30 0.054 0.018
0.270 27.0% 0.238 23.8 ··~ 0.163 = 16.3 11 0.088 = 8,8 11 0.036 = 3.6 11 0.012 a 1. 2 11
0.004
0.003
=
.
o. 3
11
Met deze gegevens kan in Fig. 1. 5.A de kromme worden ingetekend.
Uitzetten van een kumulatieve verdeling op lineaire waarschi.inli.ikhe:hdsschaal Tabel 10. Gegev.ens van Tabel I. 4• Klasse midden f 2950 2975 33000 3025 3050 3075 3100 3125
1 0 2 4 8 11 2 2
F
F%
1 1
3·3 3.3 10.0 23.1 50.0 86.5 93;2 100,0
3 7 15 26 28 30
u
klasse grens -1.84 . 2962.5 -1.84 2967.5 -1.28 3012. 5 -0.74
o.oo 1.10 1. 49
3037.5 3062.5 3087.5 3112. 5
micron
Methode A met klassegrenzen
2F 1
F•%
1
1.7
~2
J> 3.3
4 10 22
6.6 16.7
41 54 58 60 !ethode
u -2.12 -1.84 -1. 51
-0.95 36·5 -0.35 67.0 +0.44 90.0 1.28 96.2 1. 77
Klasse midden 2950 2975 3000 3025 3050 3075 3100 3125 micron
B
met klassemiddens
Methode B verdient de voorkeur; z1J geeft een meer symmetrische behandeling en één punt meer op de grafiek van Fig. 11,,
11
2.0
% 99 98
• Met klassegrenzen \ . x Met klass~middens
95 90 1.0
-----~------------
80 70 60
o.o +----------'---,----.7f-''----7-----t 50 .. 40 30
•
20
- 1.0
10
u
5
I
- 2.0
I
•
I
2
x
1 2950
F%
3000
~100
I
J
micron.
I
-----+X .
I
x .,; 3056 mierent •-
2s =
_I
3094- 3014 = 80 micron. s = 40 micron. '
',
Fig. 11. De gegevens van Tabel 10 uitgezet op lineaire waarschijnlijkheidsschaal. Bij het trekken van een rechte moeten de punten aan de uiteinden niet tu zw zwaar in rekening worden gebracht. i en s kunnen uit de figuur worden afgelezen .als aangegeven. . . . ( Grafisch papier met een schaal voor F.in% als rechts aangegeven, worden uitgegeven door de drukkerij'Mercurius te Wormerveer. Uitzetten op waarschijnlijkheidasehaal kan ook geschieden met onvolledige . . gegevens. Voorbeeld: de lengten van rekruten gegeven in Tabel 1.5.B. Uit een grafiek Uit een grafiek vond ik · x = 177.• 5 cm , s a 7. 0 cm. Deze.gegevens zijn uit fabel 1.5.B niet te berekenen.
12 ·Uitzetten van_een kleine reeks wa.e.rnemingen . ·
x.~
. n.~7. Gerangschikt na.e.r grootte F • 100
-
1141
1131
1126
1129
1.138
1127
1105 mgr •
1105
1126
1127
1129
1131
1138
1141 mgr.
7.1
21.4
35·7
50.0
64.3
78.6
92.8
-1.47
-0.79
-0.34
. o.oo
0.34
0,79
1.47·
2.
i
1128 mgr.
1.0
s -
x!~ •
H% n
u=
a
12
Berekening geeft
i - 1128.2 mgr.
OI
s .. 11.6
...
0~0
.
'
•
-1.0 -2.0
1100 Fig. 12.
1125
1150 mgr.
Een reeks van 7 waarnemiDgen uitgezet op no:rma.le waarschijnlijkheidsschaal.
Voor de berekening van de kumulatieve grequentie F bestaan verschillende formules: . .. F .
,.
100
H, n
•. 100
F
i
.
n+f ,
F
..
.
100
'i-i li+f %.
De laatste twee. berusten O)l theoretische overwegingen waarop we hier.niet · in kunnen gaan, Bij grote aantallen waarnemiDgen is· het verschil. gering; bij kleine aant.allen zijn de statistische f'luctU:S.ties ze! groot dat het er weinig toe doet welke formule men gebruikt. · Voorbeeld van een logarithmisch normale verdeling Tabel 12.
Aantallen auto's geparkeerd op 60 parkeerterreinen rondom de Philipsfabrieken op een weekdag in oktober 1963, ·
22
126
5
42
2
12
109
14
41
97
39 38
18
47 28
4 23
24 12
4
24
12
49 82
7 25 28
4 5 22
27
13 32
77 47
44 93 27
.
8 .....
-
35 70
109
21
20
22
14
19.
77
44 17 13
63 18
187 16 59 80
137
12 21
13
Deze gegevens afgeturft. Tabel 13. A. op lineaire schaal
B, op geometrische schaal
Klassen
Klassen.
0- 24 .
1WIIII1fll.lfll.fHlrl/.l
4 8
25 - 49 50 - 74 .· 75 - 99 100 - 124
1111 1111.1111 I
I/
17 - 32
1.25 ... 149'
H
33- 64 65 -128
3 .
111 11/J/
/111 .
5 9 - 16
150- 174 175 - 199
/' lil
2
1111111/
11(1Nl 11/l 1111 1JII.I U
1HOIIl 11
129 -256
I
.
x
100
50
0
.·. 200.
1 0
2.0 / • lineair 1.0 /".
;·
o.o
. 1
-1.0
u
'
x
logarithmisch
;·
i
-2.0 (
~--------~----------~~~ 2.0
Fig. 13. Gegevens van Tabel 12 uitgezet met lineaire en logarithmische .schaal.
I'
De log. normale verdeling komt veel voo.r bij economische problemen bijv.·· si!.l.arissen, en het electrici.teitsverbrtiik per abonnee. Ook in de techniek komt men haar soms tegen: deeltjesgrootte van gemalen poeders, elektronen in radiobuizen of transistoren, ·Er is een apart boek aan deze verdeling gewijd: J •.Aitcliison en J ;A.C. Brown, The log. normal distribution.
Cambridge Univarsity Prees 1957. 1.
14 De normale
(aanTUlling)
verd~ling:
De normale verdeling speelt in de techniek een grote rol omdat producten onder homogene omstandigheden geproduceerd in hun eigenschappen_ veelal een norm11le verdeling bezitten. Da'~- geldt:
68 ~ 95 ~ 99 1 7
van de producten ligt tuesen van de producten ligt tussen ~van de producten ligt tussen
~
±.
(J. '
~
+
2a,
~
+
3a,
De waarde van ais in hoge mate bepalend voor de tol~rantie eisen die aen kan stellen. Kennis van a is voor goed kwaliteitsbelei-d esse<:~tieel. Bij een normàle verdeling kan men a ot S op eenvoudige wijze sqhatten uit de gemiddelde spreidingsbreedte lh benaderd s
= n
'rf"rl
exacter s = A(n)R, A(n) uit compendium tabel 8,3 Hierbij is n de serie grootte; de formules zijn toepasbaar voor n.; 12. Een grote serie kan men. splitsen in een aantal kleinere; mits dit op aselecte wijze geschiedt. Een loterij-probleem ·Een loterij van een Buurt-Tel'eninging leverde 70 prijzen op. De winnende nummers waren. · 26 52 63 101 189 285 356 468 476 •••• 4621 De onderlinge afstanden _zijn tussen deze nummers:· 26 26 11 38 88 96 71 112 8 •••• Tabel 14: Frekwentietabel van. de onderlinge aZstailden tussen de prijswinnende ·nummers:
Klasse .
0 20 40 60 80 100 120 140
"'ff('
- 19 - 39 ~jt - 59 ~ - 79 - 99 - 119 - 139 - 159 211 I 477 j/ .
1111 !IQ !t
f
2( 1-:FY 140
15 17
125 93 69 52 37 26 18 10
7
'u
;PI
l(ll/1
I
10 5 6 2 6 1 1
3 1
(1-F}~
89~2
66.3 49.3 37.2 26.5 18.6 12.8' 7.1 2.1
O.?
l
elog(1-F) '
l
4,50 4.19 3.88 3.61 3.26 2.92 2.55 1.95 0.74 0.37
j
-
15 Stel de kans op een prijs p dan is p<<1 nl. ongeveer 70/4621 = 0.015 of 1,5%. De kans op een rij van x nieten geTolgd door een prijs is dan bij benader:ing. - e -xp P• ( 1-p·) x p ~ x= 1,2,_ •••. en de afstanden tussen de prijswinnende nummers volgt bij benadering een exponentiële verdeling. P(x-:;x:
.F = P(:: < x) =
1 - e -px
of 1 - F
log· (1-F)= -px. In boTenstaande frekwentietabel zijn de waarden van (1-F) in% en be_; horende bij de klasse-middens uitgerekend en daaruit elog(1-F). Uitgezèt tegen x geeft Fig. 15:"
f . 4~o I·,,
5.,;.0 .
.
;
l 3.0
.'
(1-F) = e -0.016:li:%
'~
1
!
2.0 8
log ( 1-F)% , 1.0 i I !
4,0
·t
3.0
i·
2.0
f
1.0
,,
''
o.o,~·----~----~----~------~--------+ o.o 0
100
200
. 400
Fig. 15
-1.0
elog (1-F) uit-gezet tegen afstand a
-2.0 .-3.0
Aan een .-_. ~onentiele verdeling wordt goed 'voldaan, Alleen de hoogste waarde x.= 477 wijkt sterk af. De kans op een waarneming x:A77 is ongeveer e-3 = 1/20%, De kans op minstens &én derge~ijke waarneming in een serie v~ 70 is da~ ongeveer 70 x 1/20 = 3,5%. Populatie en steekproef. 1. Een eindige Populatie
=
een verzameling gelijksoortige objecten of. elementen. 2. Een eindige statistische ~o~ulatie = een verzameling metingen die aan de elementen van een populatie kunnen worden uitgevoerd.
16
= een
3. Een oneindige populatie
meetprocédé dat ili principe onbeperkt kan worden herhaald, · ·
4. Een steekproef - een deel van een p.opulatie wuraan aetincen worden verr_icht. · de waarnemingen aan een· -.teeqroef. ~~tgé voerd.
5. Een steekproef
) Een seriè waarnemingen)
6. Omvang van de populatie
ll,
7. Steeltproef grootte)
n.
Serie grootte
)
= de
8. De.steekproef-populatie
verzameling van aile·Diogelijke steeltproeven.
9· De steeltproef-populatie omvat: . bij trekken zonder terugleggen: ( 1f ) elemente'll de volgorde niet meegeteld n . ·.. "
of
(:..~) 1 elementen de volgord~. w.et meegeteld '
.• :S:!1:3
·:· .·
en bij trekken met terug legging: .. ~:i:~al·3s
10~
oJ~
.~
· -
If elemenUat·,4e ;•ölgörde telt·· steéds mee. Trekken aet terugleggen = treltlten uit een oneindige
populatie. Bij trekken met teruglegging zijn waarnelllingen aan . vuechillende elementen van cl.e steekproef steeds ·onderling onethaadelljlt •
. Een asecleette trekking = een trekking zodanig dat ieder element vali de •.·h • ·.et•eeli:proefpopulatie d~zêlfde kans bezit te worden getrokken. Uit. een genWIII!lerde populatie wordt aselect getrokken met behulp van aselecte getallen; Compendium Tabel 8,4 Voorbe('lld: treklt:i.ng van een steekproef uit de 365 dagen van een jaar. Tabel 8,4, pag~ 3. Kolom 13, rij 16 van boven naar beneden! geeft de getallen rij:
.
11 137 343 101 500 828 .931 329 123 443 853 De steekproef bestaat uit de dagem met rangnUIIII!.ers.
J~11
137 343 101 135 x
x
329 123 78
x
Het getal 000 en getallen> 730 worden weggelaten; getallen< 730 maar > 365 worden met 365 verminderd~ Dit· is trekking met teruglegging; trekking zonder terugleggi.ng krijgt men door nummers die meerdere malen voorkomen slechts 56n maal mee te rekenen. Bij populaties met minder dan 100 elementen kin trekken zo~der terugleggen ook worden uitgevoerd met behulp van de aselecte permutaties. van Tabel 8.5. · Met behulp van aselecte getal.l.en rijen kan men uit jodere willekeurige verdel.ing trekkingen verrich.ten. Het principe ligt r:Lg. 1'7 toe.
17
7 • F(x) •
L
i'(t) dt
____,.x Fig. 17 Trekkingen uit een verdeling met kansdichtheid t'(x) dx met behulp van aselect~·getàllen. We vatten groepen van bijv. 4 a:s.electe getallen op als· decimale breuken. Tabe.l 8,4 pag. 2 kolom 11 en 12· van onder naar boven gelezen·geven de bre'Uken.:
o.84o6 0.0143 0.4165 0.5599 0.0556 o.4499 enz. Beschouwen wè .dit als waarnemingen van een sto: ,atische variabele l dan bezit y pràktische een standaard rechthoekige verdeling d.w.z. P(y < l < y + d y) = d y , o "; y "; 1 Wij zetten nu de kumulatieve verdeling F(x) al.s in Fig. 17 uit en zoeken met behulp van deze kromme bij een l de bijbehorende waarde van x. Dan geldt: P( x< x< X+ d x) = P(y < l < y+ d y) F (x) dx = 1' (x) dx
= dy
Bij een discrete verdeling is F (x) een diacontinue trapfunctie doch ia de methode even goed toepasbaar. Voorbeelden: naspelen, van een dobbelspel, trekkingen uit een Poisson verdeling, uit een normale verdeling (Tabel 8.6) en uit een exponentiele verdeling (Tabel 8.7) Pràktijk moélijkheden bij aselect trekken. De relatie tussen populatie en steekproef.•
'i{
toegelicht aan een enquête betreffènde: geboorte datum, lengte, gewicht, gezinssamenstelling, rookgewoonten en tijdwaarnemingen. Trekken uit een kaartsysteem met ongelijke aantallen elementen per kaart (gezinnen) •
18.'
Gegeven1 ~·
k •1,2, ... ,
i_ • ,Ei ai~ , .! •
E~) •~'Je• var~ • ~. Ej b~j'
dan is
E(y) .,1"I:aiE~) •Eai11i'
(18,1 )
var ;y: '• ta~ var .
(18,2)
~ + ili E l! a.ai 1 cov ~·!:!.• ), I l.
.:ca~ var~+ 2 :C :C aiai, oov ~,!:i_ 1 ), i
(18,3)
(1 8,4) E(!) en var !. volgen uit (18, 1) en (18 1 2). In (18,4) is voor
!i •,:s.j,
c~v (~,.:s_j) • var~·
Deze formules vormen de basis van vele statistische analysemethoden.
Voorbeelden A. Stànden van de secondewijzer
_;,, ~. ~· !,· ~· !,· _;,, ~ geveer Model1
en~
90
kort na elkaar, .!5-en min. na i, .
•A+e -o i, • A +·T
+ !., ,
.i.., •A+T
+e,
1. met
± 15 min. tussenpauze,
~
on-
t
-o '
-
10
..
-
20
'
(1 8,6)
-2
! . de "ware" aanvangestand T10 , T2 0 •.de tijden verlopen tussen de waarnemingen_;,, ~· en_;,, .!!.o• !., , ~ • toevallige waarnemingsfouten waarvoo;- we onderstellen I
~·
19.
(19, 1 ) Dan .is .
. _d
21
• t
.
'
-a
~
t · .. T
~
. 20
.
.:. T
1o
+ e_ - e · .
-z
-.,
en
(19, 3 ) .
2
• -o0 •
(19, 4 )
B. Bij
grotere intervallen tuisen de aflezingen moeten we rekening houden
met verschil in loopsnelheid der horloges. Voor model
! 3,
~
en
~
wordt het
(19, 5 ) wàa.rin 11_ nu een faotor is die ongeveer 1 .• 00 zal bedragen, maar tussen de horloges aan toevallige variaties onderheVig ._is. We vinden nu
en 2
+ 2a, 0
en evenzo voor Verder bijv.
~
en
!,• 2
-a0.• Enzovoort.
(19, 6 )
I
(19, 7 )
20.
c•. Afrondingsfouten var x • -a
met een afrondigsinterval a hebben een varrantie:
iia . ·2
J -ia
1a
:i
t dt • L
12 . •
(20, 1 )
Een variantie a 2 v66r afronden wordt .. 0''
2
•
0'
2
a2
+ 12
na. afronden.
Is a < ta dan is
a' 2
< 1. 02 a
2
en
a' < 1. 01 a.·
Hierop is ll.e keuze van een afrondigainterval gebaseerd; vergelijk pag. 2 no 16.
.
.
D. Met een eindige statistische populatie ~,
k • 1,;•• ,N,
11. I: ~/N.
(20, 2)
. 0"'"2 • I: (~ - 11)2 /(N-1 ), korrespondeert een oneindige statistische populatie gedefinieerd door
P(as • ~) • 1/N, E(as) • 11 • I: ~/N,
a2 •
I: (~ ..
(20, 3 )
11)2/N.
Zij ~'
i•1, ..• ,n
eerr steekproef getrokken zonder teruglegging en waarin de volgordè der elementen wordt meegerekend dan bestaat de steekproefpopulatie uit NI /(N-n)l elementen. Vatten we de steekproef op als een trekking !!f!i teruglegging van element uit deze steekproefpopulatie dan geldt 1
I '
~~n
21.
p~ • \;) •
1/N,
p~
• \:• .!j • . 2
1
X;) • N(N-1) .
(21, 1 )
var x . • a , -:1.
cov ~•.!j) •
2
N--a,, •
Hieruit volgt E (a:,. )
• nj.L,
.
E(î.') • llo 2
1
var .!• • na* ('ii -
'1) N,
.... a* 1 1 var -x:. • -N)' n - (-.n . 2 2 E,! •a*.
Deze formules gelden bij trekken zonder teruglegging. Formules ·voor ' 2 2 trekken !!!!! terugl_e§ging volgen hieruit door N .. oo en a* • o te stellen; dus dan gsldtz .
2
var !.• • na , 2
a var x- • • ,
-
n
2 -
0.
c21, :n
22
De centrale limietstelling
Deze zegt: Een steekproefsom of een steekproef gemiddelde heeft in goede benadering een normale verdeling, ook al is de verdeling binnen de populatie niet normaal. Voorbeelden: A. De som van de worpen met drie of meer dobbelstenen, B. Steekproeven van 10 elementen uit de zeer scheve log. normale verdeling van Tabel 12.
c.
Een binomiale verdeling wanneer np > 5, n(1-p) > 5•
De centrale limietstelling geldt strikt voor de limiet n -~ doch de convergentie is zeer snel, zoals de voorbeelden tonen. Theoretische toelichting Door de transformatie z =(~-~)/a kan iedere v~riabe.le ~worden omgezet in een variabele z waarvoor E(z) = 0, var z • E(z ) a } . Dan definiëren we ~ 3
~1 = E(z ) 4
en
~
=
,;,-f! ) 3
E(
~2 - E(z )
a
E(
2 y1 = ~1
,
y2
a
.;-lt.) 4 a
-
Ji3
a
3
(22.1)
~4 4 a
(22.2)
= ~ 2 - ).
(22.))
=
en y 1 zijn een maat voor de scheefheid van een verdeling; voor een symmetrische verdeling is ~ = 0, y = 0. 1
1
~2
1
en y 2 zijn maten voor de z.g. scherpstoppigheid of platvoetigheid. Fig. 23 geeft enige voorbeelden, die de betekenis toelichten. Waarden van deze coëfficiënten kan men voor gangbare verdelingen afleiden uit de tabel in het Compendium pag. 11~
23
o.6 .
0.2 f
-3
1
0
-1
-2
2
--'----+x· :fig. 23· 1•
4 verdelingen met
De normale verdeling:
2. De rechthoekige
= o, o,
!i
~1
a = 1,
R
1 0,
verdelmg:~ =
~2
= 3.
~2
a
1.8,
3· Een scherptoppige verd.:p 1 = 0, p2 = co, 4• Een scheve verdeling: Algemeen geldt nu bij onafhankelijke waarnemingen n (x;) ..,,_.
= "1n (x.)=~~-',(x)/{n,
p2(x.) -
a
~
(i.) = 2-
p2(z.) -
n
+ 3
--=-1 n
n
2
~ (z..) ... 0 en ~ (e_.) ... 3·
Ook hieruit zien we dat voor n - ""•
1
Parameters. schattiers, en schattingen 11 en a 2 of a zijn twee belangrijke parameters van een populatie. In de praktijk is men meestal niet in de volledige populatie geïnteresseerd, maar alleen in deze parameters. Doel van een steekproef is dan deze parameters . numeriek te bepalen. Uit een steekproef kan men echter de exacte waarde niet vinden; men kan de parameters alleen schatten. De formules l:(x. -i) X
R
2
--:1. -
( 23.3)
(n-1)
noemt men daarom schatters voor de parameters 11 en
2 a ;
de waarden
24
z(x.1 -i) -,ens= x - ----1. (n..,1) n
-
I: x.
2
2
uit een gegeven steekproef becijferd heten schattingen van die parameters. Schatten zijn stochastische variabelen met een bepaalde steekproefpopula- . tie; schattingen zijn numerieke getallen. Daar.
E(i) = ~ ,
-
2
E(s )
en
-
= a
2
(24.2)
noemt men i en ~2 zuivere schattingen van ~en onzuivere schatting van a.
2
a ,
Daar E(~)<
à
is ~een
Naast ~ en a kent men nog andere parameters, bijv. ~ en· p of. de mediaan maar die spelen een ondergeschikte rol en we zullen Jr gee~ aandacht aan besteden. De begrippen schatter, schatting, en zuiverheid zijn ook bij deze van toepassing, Betrouwbaarheidsintervallen voor
~
Op grond van de centrale limietstelling kan men in goede benadering aannemen dat
-
~
~
=
J.L
.r..
+ !!. a1vn , n
*
•
nN N:n •
in woorden: het steekproefgemiddelde, ofwel de schatteri heeft een normale verdeling met verwachting = ~ en standaardafwijking a/~. Dan is P{ ~ - u a a/Vn.; (24.4) < i < ~ + u a a/Vn.. } = 1 - a, . of ook P {
i -u -
a/Vn* < ~
a
+u a/Vn*} • 1 - a. a
(24.4.A)
De kans 1 - a noemt men de betrouwbaarheid, de kans a de onbetrouwbaarheid,
en de grenzen i + u a/W betrouwbaarheidegrenzen voor de onbekende paramea ter .~· Bij een gegevên a kan men de bijbehorende waarde van ua aflezen uit Compendium Tabel 1.1, of uit de tabel op de omslag afgedrukt. Het door (24.4.A) gegeven interval heet een tweezijdig betrouwbaarheidsinterval met betrouwbaarheid (1-a). Daarnaast onderscheid men éénzijdige intervallen gegeven door p { i - u a/Vn" < I!} m 1 - a, a (24.5) en P { fL < i + u a/Vn"'} = 1 - a. a . Bij gegeven a: behoort dan echter een andere wàa.rde van u bijv. a: i
<J!, tweezijdig is en voor a • <J!, eenzijdig is voer.' a •
De waarde ua • 1.96 behoort bij a • 2.<jf, ~énzijdig, enz; Doorgaans kent men a niet, doch néemt men aan dat bij benadering a •
s
( 25.1 )
mag worden gesteld. Wanneer s bepaald is uit ten minste 30 vrijheidsgraden is dit in ieder geval toelaatbaar, Toepassingen
27 Tabel 27 Resultaat gewichten en wegingen bij de enquête. A Opgeg_even gewicht zonder kleren ~igen ppgave
74 84 59 72 76 70 73 80 71 80 81 83
867
903 68493 542 49·.3
~3213
572 52.0 n
-
x
s
Controle
69 82 57 72 75 65 70 78 69 70 80 80
12 72.2 1·4 XI
Opgegeven gewicht met kleren
B
Verschil
Eigen opgave
77 80 87 60 71 79 65 76 76 62 71 86
882 65608 781 71.0
890 66838 830 75· 5 12 74.2 8.7
12 -0.7 0.9
x
d34
-2 -2 0 -1 -5 -3 -2 -2 -10 -1 -3
12 75· 2 7.0
12-
-3.0 2.7
12 73·5 8.4
x
d
x3
2
12
-1 -1 -2 -1 -1 0 -1 -1 +1 +1 -1 -1
4
Resultaat Lengten: n zonder schoenen met schoenen
18 4
-
x
Verschil
76 79 85 59 70 79 64 75 77 63 70 85
-5
-36 186 78 7.1
Controle
s
KS
s
180.6 184.2
5-9 4·9
582.3 72.7
cm
cm
cm'·
0
2
34.2 24.2 cm2
-8 14 . 8.67 o. 79
kg 11
28
Betrouwbaarheidsintervallen
Parameter
.
Algemeen: 1
11
2
111- 112
Tabel . Comp.
..
Interval
Centrale Limietstelling
i :!: ~!3/Vn
'
Omslag
- -x -'J: x . u s v1 - + 11 2 avtj
"'
x -x +u 1 2- a
"
- -
...
Voorwaarden
n
n
1
(]
a s
1
1
~
1
~a
1
~
s
=
0' 2~ -
s
fa
a2r;:,
s,_
Normale populaties
4
i:!:
11
2.1
t v,a s/Vn
5 ' 11 1 - 11
-+ t x- -x s f1 1 2 - v ,a n
6
a s 1
a
,
2
7 ~ 2 02
2 s ...1.
V
s~
2
"
a s 2
1
--v;F
+1' n 1 2
a
1
=a
2
3.2
,
2 F 2 ...1. V 1 62 ' V
6
4
2
a verdubbelen! Binomiale populaties ,
::
' ,,,
p
p +u
9
"
2 u p + na
10
"
:}_ , n
11
"
a,
8
-
'
,,
' •'
12
{M n (i-:P) :!:
, •
+
m
'
ua
v i9.'
x/n ,
Omslag
11
a2 n
6.3
a
5-3
2
\} p •
q = (1-p).
n
np > 50 ,
np > 5
,
nq > 50
nq > 5
p < 0.10
• •'
q p2~ p -p -u .:..L:l.+-1 2 a .· n 1 n 2 •
p1-p2
a
:P
Omslag
---------------------------------------------------
.
.
n1p1 > 5 , n2p2 > 5 n1 q1 > 5 , n2~ > 5;
29
Parameter
Po~sson
14
"
15
"
Voorwaarden
verdeling; n waarnemingen, x. =
Ex.
x. • x.fn.
:x.+uvi.' -
.
Tabel .Comp._
Interval
a. n
+_u { i."
1._2 x. + 2U a.
a. n
Omslag
x. > 50
"
x. > 5
6.3 Omslag
16.
Poiss.on proces; ·geteld x , •• ,x , inT, ••• ,T, 1 n 1 n x. = Ex., T. = m .. ]. ].
.& + u
17 18
T.
a.
f"E!:'
Omslag
T•
.&
"
11
T.
x. > 50
x. > 5
u
19
Noot: Hebben we in de formules 13-19 slec:hts ~én wa.arnem_~ng, x, dan is
n De
formule~
~
1 ,
x.
c
x.
~
x
blijven toepasbaar.
30
Toelicht.ini 1,2,3, Aan de voorwaardes~ o is redelijk voldaan wanneer v > 30, M:en gebruikt de formules echter ook vaak als eerste benadering bij kleinere aatallen waarnemingen. Heeft men een aantal reeksen waarnemingen met eenzelfde o dan kunnen de schattingen s. worden samengevoegd volgens: ~
"
s~
=
Men gebruikt dan verder alleen deze eindwaarde en vergeet de afzonderlijke s. 1 s. ~
Bij trekking zonder teruglegging. moet n door n• worden ver;rangen:
•
n
nN
= N-n •
4 - 7. Altijd geldt t
V,
a
>u
IX
, doch lim
V -oo
t
~
u .
V t C(
a
v is het aantal vrijheidsgraden van s, n het aantal waarnemingen in i. Bij een normale verdeling zijn en s o<'.afha..'lkelijk. Het doet er dus niet toe of en s uit de.zëlfde of v.it Yersohillende waamemingsreeksen zijn geschat.
!:,,
x
x
De a-waarden bij Compendium Tabel 4 Z.iJn éénzijdig. Voor een tweezijdig interval moeten zij worden verdubbeld. In F
"a ~
geeft v
a
het aantal vrijheidsgraden in de teller, "
in è.e noemer. Bij het gebruik van Tabel 8-12.
b
dat
4 is dit belangrijk.
' Heeft men een aantal steekpraeYen uit één binomiale verdeling dan kunnen de formules 8 en 9 worden toegepast op x. c I:xi. en n. ::.:c En .• ~
9 is een vereenvoudigde vorm va.n da formule 2 p + u ti! 12n:!: u Vjlqjn + u 2 /~ a a 1 + u~n gegeven op pag. 17 van het Compendiu.:n, Deze laatste formule is voor de praktijk te gecompliceerd, 13-16. Deze fornrules onderstellan n waarnemingen x. uit één Poisson verdeling. Hebbe.'1 we slechts één waarneming dan l:s i:. c x er. blijvan de formules van toepassing. 14 is een vereenvoUdiging va..l'l
i:.
+
u (J.2 /2n -+u 0:
vi./n
+ u"/4n fX
De Compendium Tabel pag. 17. geeft deze laatste formule voor n = 1.•
17-19. Deze formules ZJ.Jn o.m. van toepassing bij Geiger tellingen! Men lette erop dat zij gebaseerd zijn op de sommen· x. 'T. • ·
~~------------------------------------------------
----
32
Voorbeelden van betrouwbaarheidsintervallen aan de hand van Tabel 27 A. s
o • Centrale limietstelling
(t:j
Voor- gemiddelde lengtil zonder schoenen. 180.6:!: 1.96
* 5.9/fiä = 1·'r7.8 .. 183.4-Cm;
180.6 ! 2.58 t! 5.9/fië = 177.0 .. 184.2cm; 180.6 - 1.64
ll!
5.9/fië ~ 178.3cm < fl
= 5%
(tweezijdig),
(32.1)
IX •
1%
(tweezijdig),
(32.2)
IX •
5%
(eenzijdig).
(32.3)
IX
B. Normale verdelingen; o . = o • 1
2
Gemiddelde lengte met schoenen. 184.2 :!: 3.18
11
4.9/f4 = 176.3 .. 192!1cm;
IX •
5%
(tweezijdig).
Beter de s 2 -en voor zonder en met schoenen samenvoegen:
s
17•5·9
2
-
s
=
5· 7 cm;
v •
2
+3-*4·9 17 + 3
2
20.
Hiermee voor de gemiddelde lengte zonder schoenen, 180.6 ± 2.09 • 5·7/fië = 17'7.8 .. 183.4-Cm; a-
'ffo,
voor de gemiddelde lengte met schoenen 184.2- t 2.09
* 5.7/f4
= 178.2 .. 190.2cm;
IX=
'Jto,
en voor het verschil met schoenen - zonder schoenen 184.2 - 180.6 :!: 2.09 x 5.7-.J
i- +fll
a
-3.0 .. + 10.2cm;
IX •
5%.
(32.8).
Voor de gewichten vinden we evenzo
S
•
7•9 kg,
V
c
22.
(32.9)
en hiermee voor het verschil in gewicht met en zonder kleren 73•5 -72.2:!: 2.08
* 7•9*
iïf+ri • -5.2.. + 7.8kg;
IX=
5% •
(32.10)
van
Een nauwkeuriger bepaling
dit verschil verkrijgen we uit d 12 = x 1
-
x2
in Tabel 27, nl. (33~ 1)
3•0 t 2.20 • 2.7ffi2 = +1,3- 4·7 kg; a= ~ Op i
en i
1
uit Tabel 27 mag men een betrouwbaarheidsinterval in de
2
vorm (32.8) of (3?..1èl) niet toepassen, omdat de waamemingsreeksen van x
1
en x
2
niet onafhankelijk zijn!
In de reeks voor d
12
~~n
komt
uitschieter voor, -10kg. Laten we deze
weg dan vinden we i.p.v. (33.1) een verschil
2~4± 2•23
lil
= +1.3 ..
1.6/{11
3.5 kg; a
=~ •
Mogelijk is dit beter, maar of we die uitschieter zo maar mogen weglaten is niet met zekerheid te zeggen. Eventueel moet men beide intervallen (33,1) en(33•2) vermelden. Leiden beide grenzen van een betrouwbaarheidsinterval tot eenzelfde conclusie .dan weten we genoeg; leid!l!l zij tot verschillende conclusies dan zijn er meer waarnemingen gewenst.
Intervallen voor
C, Normale verdeling •.
Lengten zonder schoenen: s
a
1
ligt tussen O. 7 5
!k
1
= 5.9cm,
5· 9 =
en 1, 50 • 5·9 L~en
a
2
met schoenen:
S
o, 57
2
=
en 3· 37 x 4. 9
•
en
2 • a2Ja • 2
Tabellen, 3· 2 en 4,1-4. 4•
v = 17. 1
4·4 cm } 8,8 cm
= 4•9 cm,
x 4·9
ligt tuss.en
a,
V
2
2.8 cm·
.
16 • 5 cm
a
}
a=~
3. a=~·
Onder aan Tabel 3,2.toevoegen: Benadering voor v > 30: ;-
.....
!. = a + .)!af/2v, ·
waaiuit volgt a
1
=
ik
V2v +ua
a
2
=
(33.5)
~4 •,. \
Wil men a· schatten met een nauwkeurigheid dan moet·
i;
b en onbetrouwbaarheid ct
~+u . Cl
~-u. Cl
wa.aruit volgt V •
Verder
2
.....L F17 .3
~ < a~ < F3 '2 2 17 82
2
~ , s~
a2
of 2
2 2 _j_ ~< ~ < 4·01 ~ 14.~ 2 2 2
4·9
,
Tabel 4· 2,
.
4·9
a2
of
Cl ~
2
.X
0.025
a
5%
11
De onbetrouwbaarheden a bij Tabel 4,1 4•4 zijn éénzijdig. Dit bij.de Tabellen vermelden.
(:34.2)
35
-xi.
Twee series van ieder n waarnemingen x1j x2j
J
59·4 60,1
58.1 58.4
59.6 59.6
58,0
60.40
59· 75 0.7
58.25 0,3
59.60
58.60 1.2
D
- -
x,j d.
60,0 60,8
=
-
o.a
59·2
o.o
59.02 59.62
De interpretatie kan geschieden volgens verschillende. modellen. a
+ ~j ,
a
var.!
Model I: 0 '
=
o2 ,
cov(e,e 1 )
=
( 35.1 )
o.
.De beide reeksen vormen samen één reeks onafhankelijke waarnemingen uit één populatie,
-
s = o. 91
x •• = 59.32
Bewerking:
~
V =
9
betrouwbaarheidegrenzen voor ~·
i .. ±
t
9, ex
..
±vn ..
59.32:!: 2.26.
~1o1 - 58.67++ 59·97;
0
<X a
~.
Model II: var.! ~:z o 2
= 0 ,
,
cov (e e')
a
(35.2)
o.
De beide reeksen komen uit twee verschillende populaties met gemiddelden !1 2
=~+a.
2
Voorbeelden: De metingen x . en x . zijn uitgevoerd aan telkens n producten 1J 2J vervaardigd uit twee verschillende partijen grondstoffen of op twee verschil~ lende machines enz. a , a vertegenwoordigen de verschillen tussen de par1 2 tijen grondstoffen of de machines.
x1,
x , = 59.62 en door samenvoegen 2 9~ betrouwbaarheidsintervallen ~~, voor 59.02 + 2.31 !11
Bewerking:
11
" !12
59.62
~2
-
• 59,02 ,
~
1:
:!: 2.31
59.62 - 59.02
t
•
{5
...
0.84
{5
2.31 • o.a4 ...
v 15
+ ""J",
S
=
0,84,
V
a
8,
;6 Model III A:
bJ· ~...
~
•
+ b.J + ""'l.J e ..
(36.1)
=0
E(.2,)
var .2. = o2 ,
,
cov(.!l.•-2.') .. 0
De waarnemingen vormen duplo 1 s. De schatting van I:d~ __J_ 2n • S
Hiermee voor 11
:t
9~
0, 51
•
,
60.40 ± 2. 57 •
~+b:
59· 75 + 2, 57 •
2
Model III B:
•
is
0• 266
• 2*5 • V
2
5•
betrouwbaarheidsintervallen:
+ b : 1
2 66
0
-
x .. ""'l.J
=
.H
0 1
~~1 i 2
,
enz.
b. + e .. ll + -;) ""'l.J
E(.2,) = 0 ' var.!!_=a 2 ' cov(.!l.•-2.') " 0 2 E(b) = 0 • var P. "ob , cov(:2., b 1 ) -o
(36.2)
Dit is een variant van III A. De P.j's worden nu opgevat als een serie· van n onafhankelijke trekkingen uit een populatie met verwachting E(:2.) • 0 en var P. = o~. Voorbeeld: de n paren waarnemingen zijn n chemische analyses in duplo uitgevoerd aan n monsters uit een partij van een chemische grondstof. De b.'s vertegenwoordigen dan verschillen tussen deze monsters ten gevolge J van inhomogeniteit van de partij. Geldt Model III B dan kunnen we voor ~ een betrouwbaarheidsinterval conatX'Ii~eren, door de n gemiddelden x. . als n originele waarnemingen te beschouwen. J Dit geeft S = 0, 88 , V = 4• Xoo = 59,32 95% betrouwbaarheidsinterval voor ll: . 0 88 59.32:!: 2.78,. = 58.23 ... 60.41; ex
{5
Model .IV:
bJ· -...
=
= ~.
ll + a.l. + b.J + ""'l.J e .. ,
E(.!l,) = 0 , var .!l. • o2 , cov(.!l, .§.') • 0. Bij dit model nemen we systematische effecten a. en b. aan in beide: richtingen. l. J Voorbeeld: de twee series van n waarnemingen betreffen twee partijen grondstoffen. De waarnemingen werden paarsgewijze. op n verschillende dagen uitgevoerd, omdat men slechts 2 waarnemingen per dag kan uitvoeren. Tussen dagen treden verschillen b op, bijv. ten gevolge van vochtigheidsfluctuaties.
36.a
We vinden nu een schatting van s
2
uit de verschillen d. =x . -x . volgens .]
2J
1J
I:(dj-d.)2 a
(36.a.1)
2(n-1)
en hiennee een betrouwbaarheidsinterval voor het verschil a 2
-
a1
= _J.L·d·i (36.a.2)
- 0,60
± 2.78
11
~ '* -::::? 11
..
,_
vf + ~
=- 0.18 .. + 1.38; a=
'jf..
37 Discrete
0,1,2, •••
verdelingen;~=
Ook deze kunnen op grond van de centrale limietstelling vaak door een normale verdeling worden benaderd. Dan gelden de volgende formules:
(37 .1)
(37.2)
P(~ -x) •
enz. Hierin is ~(u) de cumulatieve normale •erdeling Comp.Tabel 1.1; ~en a zijn de toepasselijke waarden van deze parameters.
Voorbeelden: 2 1) Voor ~~n dobbelsteen geldt~ = 3.5, a ~ 2,92. Voor de som ~ van de worpen met 3 dobbelstenen geldt dan
~
: ."·'
10.50 ,
a= V3 ,..2,92
=
2.95.
Daarmee wordt benaderd 10 • 5 ) =
P(~<6)
I
=
(exact 0.0925)
=
(exact 0,0462)
. waaruit P(~=6) • 0,0869- 0.0455
=
0,0414
(exact 0,0462),
2) Voor de binomiale verdeling met n = 20, p = 0.40 geldt ~ • np = 8 , a= Vnp(1-p) = 2.2 en dus benaderd P(x",;12) -
D
1!>(2.05)
a
0.9798
(exact 0.9790).
Overschrijdingskansen Is x een waarneming van een variabele x met een bekende verdeling f(x) dan noemen we de linker overschri.jdingskans van x =
a_e
=
P(~",;x) =
L" x
r(r,) d r,,
en de rechter overschri.idingskans van x = I
: .•
a = P(x;;. x) = r -
J
f(!;) d r,.
( 37. 4)
In principe kunnen we deze overscl,rij din.';sb:moen op twee manieren definiëren, bijv. a als r
38
(38.1) Is .! een continue variabele dan maakt dit geen verschil, omdat P(,! .. x) ..
Q,
Is x discreet dan maakt het wel verschil en hebben we de keuze uit twee defÎni ties: (38.2) en
Kan de discrete verdeling van .! door een normale verdeling worden benaderd dan geldt
a~,
.
~(x+ i.; u) .
0
daarentegen a~,
..
a
r
a
1 - ~(.!..:..!!-),
o
en dns ook ar +
a~,
(38.6)
> 1 ,
De definitie (38.2) is de meest gebruikelijke, maar heeft het grote nadeel dat men bij het berekenen van betrouwbaarheidegrenzen steeds een correctie van + ! of - ! moet aanbrengen, hetgeen de formules onnodig compliceert. De definitie berust op een conventie. In feite is (38.3) een logischer de"' finitie (zie(38,6)) en bovendien in de praktijk eenvoudiger. De in deze · syllabus gegeven betrouwbaarheidsintervallen voor discrete verdelingen zijn allen op de definitie (38.3) gebaseerd, De definitie (38.2) wordt echter in vele leerboeken over wiskundige statistiek toegepast. Een betrouwbaarheidsinterval voor 11 wordt bepaald door die twee grenswaarden 11 en 11 waarvoor, bij een gegeven reeks waarnemingEn,de rechter resp. de lirtker oterschrijdingska.ns gelijk wordt aan ia. Fig. 38 licht dit 'toe.
x
Fig. 38.
I
Principe van betrouwbaarheidegrenzen voor 11.
39
Ook bij een binomiale verdeling of een Poisson verdeling is ditzelfde principe algemeen toepasbaar. De situatie is eenvoudiger omdat we in deze gevallen slechts met 66n onbekende parameter, p of 1.11 te maken hebben . waardoor de verdeling geheel wordt. bepaald. Voor np > 5
en
( }9.1 )
n(1-p) > 5
kan een binomiale verdeling redelijk door een normale worden benaderd. Dan is a = Vnp(1-p), 1.1 • np,
en met de definities (38.3) en (38.5) wordt het betrouwbaarheidsinterval voor p gegeven door
x:-:
x- np
~p
-·-u
Vnp (1-p ) 1
ex
'
Vnp (1-p ) 2
1
•
+u ·a '
(39·3)
2
waarbij u
tweezijdig moet worden gekozen. ex De grenzen p en p zijn de wortels van de vergelijking 1
2
(x-np)
2
=
u 2 np(1-p), ex
te weten +u Vp(1-p)/n + u 2 /4n 2 1} = ri ex ex 2 p2 1 + u /n ex = x/n = de fractie p in de steekproef waargenomen,
p + u 2 12n
p
p Formule (39.4) is te onhandig voor practische gebruik. Een goede benadering waarin is p
p
1
}
a
p +
2
(t-:P) uex2/n +u ex Vp(1-:P)/n.
(39.5)
Deze formule geeft redelijke resultaten wanneer x= np > 5 ,
en
n- x= n(1-p) > 5·
(39.6)
en
n-x • n(1-p) > 50
(39·7).
Voor x = np >
50
.
kan men de 2e term nog zonder bezwaar weglaten· en vereenvoudigen tot p P
1
}
=
2
p ;u {:P(1-fi)/n. . ex
(39.8) '
Dit is de formule die ve=eweg het meest. wordt toegepast. p(1-p) is een ,lj:,Qllatting van c 2 , en (39.8) is een directe toepassing van de formule i± u s/Vn voor een populatiegemiddelde. ex De formules voor een Peissen verdeling volgen vit dienvoor een binomiale verdeling uit de limietovergang 1.1 = np, n- ~. (39.5) geeft 1.1
Vx,
x+tu 2 +u ex- ex 2 bruikbaar voor x> 5 en (39.8) geeft 1.1
1
}
=
40
(40.1) bruikbaar voor x > 50. Voor x
=
o, 1, ••• , 20 ·zijn
betrouwbaarheidsgrenzen· .a ,. a
in de Compendium Tabel 5. 3· Deze kunnen voor
p
1
2
voor fl. direct gegeven
< 10 ook als benadering voor
de binomiale verdeling worden gebruikt. Dan zijn de grenzen voor p
1:,
a ,
...1. • n
Tabel
:/.3·
(40.2)
41
Toepassingen van betrouwbaarheidsintervall.m bi.J
~~l_li.ll.i:\:<:'E.•
1, Is een steekproef van n = 20 producten uit een grote partij worden 4 exemplaren. gevonden die niet aan de gestelde eisen voldoen. Gevraagd een 90% betrouwbaarheidsinterval voor p = het percentage foute producten in de partij. Tabel geeft de resultaten volgens verschillende formulen. Tabel 41 90% betrouwbaarheidsintervallen voor p bij· n • 20, x • 4. P1%
P2%
8,8 9.4 8.4 5·3 8.3
37.0 ·, 37.8 37.8 34·7 42.3
exaèt, Tabel 5.3 Formule ~39.4~ 39.5 11 p9.8) "11 40.2-)
Formule (39.5) is een goede benadering en veel eenvoudiger dan (39.4); (40,2) is goed bij de benedengrens p 1 maar niet bij p 2 • (39.8) geeft een interval·van de juiste breedte maar naar beneden verschoven. 2, In 1963 en 1964 werden 96515 en 98324 rekruten gekeurd en hiervan werden respectievelijk 22.64% en 22.30% afgekeurd. Is het verschil tussen deze percentages zuiver toevallig of niet? _ 5 2 De variantie voor beide percentages is ongevee2 0.16 x 10 = 0.016(%) • De. variantie voor het verschil is dan 0,032(%) en een 95% betrouwbaarheidsinterval: 22.64 - 22.30 .:t 2V0,032 = -0.02..,. +0, 70%; a = 5%. Het venneeden dat men in 196~ iets strenger keurde dan in 1964 is dus gerechtvaardigd; doch het is niet helemaal zeker of dit vermoeden juist is. 3• Uit twee grote partijen producten, I en II, heeft men steekproeven van 200 en van 150"sttiks genomen en hierin resp. 6 en 9 foute producten waargenomen. Bewijst dit· een verschil in kwaliteit? · P, (1-p,) 2 n 1 = 20Q, x 1 = 6, p1 0.030 3.0%. 200 . = 1.5(%) '
Het 95% betrouwbaarheidsinterval voor p 2 - p 1 is 6.o - 3.0 Men
mag
.:t
2V1.5 + 4.0
=
-1.6 tt + 1.6%; a= 5%.
dus nog niet tot een verschil besluiten.
4• Komen beide partijen van eenzelfde productieproces dan geldt voor deze produc" "· op grond van beide steekproeven samen: n
=
350, x
=
of met Tabel 6,3:
p·=.ê..J2= 1 350
15, en dasruit met de normale benadering voor p een interval:·
42
5,
Een radioaètief preparaat geeft voor een· Geigerteller 251 pulsen in· 8 minuten, Voor het aantal pulsen per minuut, it, geldt een üiterval,
Het toetsen van &vpothesen, Nauw verwand aan betrouwbaarheidsintervallen is het toetsen van nypothesen. Een voorbeeld: Voor 18 TRE-studenten vonden we voor de lengten zonder schoenen: n
=
18,
·X= 180,6 cm,,
Sa
5,9 cm,
V0or ,:t 90,000 rekruten werd in 1964 een gemiddelde lengte gevonden van
176,0 cm. Bewijst dit gegeven dat T,H,E,-studenten gemiddeld langer zijn dan de rekruten?
Gaan we uit van de hypothese dat voor de TRE-studenten geldta H
0
1 ::
= 176,0 cm,,
dan is het gemiddelde i in goede benadering een waarneming uit een normale veredeling met '' = 176.0 cm,,o- = s/Vii = 5.9/VfS • 1,4 cm, Dit geeft x x -" = a-
x
en hieruit
a
r
180.6 - 176.0 1,4 =
=
3.3,
o.os%.
Het waargenomen gemiddelde heeft ·een rechter overschrijdingskans van slechts 0.05%. Dit is z6 klein dat men de waarneming i strijdig acht met de hypothese 11 = 176,0 cm,, en men deze nypothese verwe:r;pt. Algemeen gaat men als volgt te werk, 1) Men maakt onderstellingen over de populatie waaruit een steekproef is waar-genomen.
'
,
2) Men berekent uit de steekproef een karakteristieke grootheid (i, ~. e), 3 ) Men bepaald van de waargenomen grootheid de overschrijdingskansen in de door de onderstellingen bepaalde steekproefpopulatie, 4) Is één van de overschrijdingskansen klein dan acht men de waarnemingen in strijd met de onderstellingen, Meestal is men geinteresseerd in een bepaalde populatieparameter en voert de toets uit met behulp van een steekproefkenmerk, dat daarmee overeenkomt, men toetst een waarde van 11 met een gemiddelde i, en een waarde van a met een standaardafwijking s,
4J
Men onderscheidt 'dienovereenkomstig bijkomstige onderstellingen en d.e .nulh,ypothese die men wenst te toetsen. In het beschouwde voorbeeld gaan we uit van de onderstelling. dat de 18 lengten een onderling onafhankelijke serie waarnemingen vormen uit een populatie met een standaardafwijking a= s m 5.9 cm., en dat de centrale limietstelling van toepassing is, De nulhypothese is
H0 I
~ •
176.0 cm, .
Verder kiest men·dikwijls een kritische drempelwaarde a voor- de overschrijdingskans, en beschouwt een waargenomen i in strijd met de nulhypothese; wanneer ~~n van de overschrijdingskansen van i kleiner is dan a, Men zegt dan dat de waarneming significant afwijkt van de hypothese bij een signifikantieniveau a of bij een onbetrouwbaarheidsdrempel a • Verder onderscheidt men: de tweezi,jdige h,ypothese I ~ a ~ 0 en de ~~nzijdige hypothesen:~~ ~ 0 , .
en· I_!J.
...
;oo-
~
0 0
•
De tweezijdige hypothese (43.1) kan worden verworpen zowel wanneer i> ~ · als 0 wanneer i < ~ 1 de 6~nzijdige ~othese (43.2) kan alleen worden verworpen 0
wanneer i> ~ó' en (43.3) alleen wanneer
i<
~0 •
Bij een significantie niveau a verwerpt men de tweezijdige hypothese (43.1) wanneer ar
0
het betrouwbaarheidsinterval met onbetrouwbaarheid a. E6n- en tweezijdige betr-ouwbaarheidsintervallen omvatten al die waarden van ~ 0 die bij corresponderende ~~n- of tweezijdige toets niet worden verworpen. Toetsen komt dus neer op het vaststellen of de waarde ~ al of niet in een bepaald betr-ouwbaarheids0 interval ligt. · Waar toepasbaar verdienen betr-ouwqaarheidsintervallen de voorkeur omdat zij een volledig beeld geven van de interpretaties die e'en gegeven serie waarnemingen toelaten. Betrouwbaarheidsintervallen bestaan echter alleen, wanneer we slechts met één enkèle' onbekende parameter (~,a,p) te maken hebben. Daarnaast komen vele situaties. voor waarbij meerdere onbekende parameters optreden, en dan kan men wel toetsen, maar meestal geen eenvoudig betrouwbaarheidsinterval construeren. Voorbeelden volgen later. '
.• ••
Hieronder volgt een samenvatting van een aantal veel voorkomende toetsen, ponderend met de betrouwbaarheidsintervallen van Tabel 27 •
aorres~
44 Tabel Enige gangbare toetsen. Hypothese 1
Toetsingsgrootheid u ..
I.L = I.L0
(i- I.Lo)
Onderstellingen
C.L. stelling; s
~
~
CJ
s/'fn
' tV =
11
2
X-I.L0
Normale verdeling
s/Vn
-
3
u =
I.L1 - I.L2
x1 -x2 2 Vs 1/n 1 +s!fn 2
- -
11
4
5
6
7
CJ
2 1
t
.;;o
2 2
p = p
0
p1 •
p2
V
I.L
= I.Lo
x -x 2 1 sV1/n 1+ 1/n 2
V
F 1
v2
.
u-
= s
ï s 22
p- p0 Vp0 ( 1-p0 )/n
u= p
8
=
B
u=
Il, - p2
x, - llo '
..
111
D
112
-
0
s ... o
Normale verdelingen o, = 02 Normale verdelingen
Binomiale verdeling np0 > 5
Binomiale verdeling
Peissen verdeling I.L o. > 5
x1. -x2' Vx,(1/n +1/n ) 1 2 x +x x, = nl' +n 2' 2 1
u=
~
Vp(1-p)(1/n +1/n ) 1 2 x +x 2 I n +n 2 1
Vi.L/n
9
8
C.L. stelling;
• Peissen verdeling
1 2
45.
Toelichting De toetsingsgrootheid is de grootheid waarmee de overschrijdingskans kan worden afgelezen uit de betreffende tabellen; Tabel 1.1 voor u, Tabel 2,1 voor t 'J , en Tabel 4 voor F. Men kan de. toetsen ook zó uitvoeren, dat men de waarde ,van.:u, t,.·.of E>.:die uit de .waarnemingen .vol:gen.vergelijkt . met ·de tabel waarden correspo~met een gegeven drempel a. De hypothese !1 = !lo wordt dan bijv·. verworpen wanneer ju I >u a (tweezijdig), de hypothese !1 ~ !1o wanneer u > u a; en de hypothese !1 > !1o wanneer u < -u a. ( 6~nzij dig). I
De toetsen 1, 2, 3, en 4 spreken verder voor zichzelf, en komen direct overeen met de betrouwbaarheidsintervallen van Tabel 27. Wat de toetsen voor fracties 6 en 7 betreft is er een klein verschil. Door ook de var i = p0 ( 1-p0 )/n vast, .en deze passen ·we de hypothese p = p0 ligt . toe in de noemer van de toets. · dan is de beste schatting van deze f:r'acLuidt de hypothese p 1 = p 2 = p . tie p = (x +x )/(n +n ) en voor de variantie van het verschil 1
2
1
2
en deze schatting is gebruikt in de noemer van toets .7. Bij een betrouwbaarheidsinterval gaan we er van uit dat p ~ p kan zijn, en dan gebruiken we als schatting . 1 . 2 ·
p (1-p ) 1
1
n
1
n
2
Het is een principieel verschil. In praktijkgevallen geven (45·1 ) en (45· 2) nagenoeg dezelfde numerieke uitkomst. Wat de variantie betreft is (5) verreweg de belangrijkets toets. Er doet zich in de z.g. variantie-analyse veelvuldig de situatie voor dat· we twee varianties s~ en s 2 wensen te vergelijken, terwijl 1 2 en waar men .wil beslissen tussen de twee mogelijkheden, Men toetst dan de é~nzijdige hypothese H
0
: cr
2 1
~ o2
2'
,
(45·3)
en wanneer deze hypothese wordt verworpen beschouwt men te hebben aangetoond dat o~ > o~. Is s~ < s~dan is een toets overbodig; is s~ > s~ dan toetst men met behulp van F "1 (45· 4) 'J2
I
'
46 V
Waarden van Fv 1met een voorgeschreven éérizijdige overschrijdingskans zijn . 2 in Tabel 4 gegeven. Wil men de tweezijdige hypothese o~ =.o 2 toetsen dan neemt men als toetsingsgrootheid 2 V
I s2
2
wanneer s2 > s2 2 1
s2 /s2 2 1
wanneer s2 > s2 2 1
F 1 = s2 1 v2 en
V
F 1 V 2
a
(46.1)
De overschrijdingskansen uit Tabel 4 moeten dan echter worden verdubbeld, omdat we nu een tweezijdige toets uitvoeren. Het onderscheid tussen één- en tweezijdig toetsen is een wiskundige verfijning die in de praktijk vaak verwarrend werkt. De gemiddelde lengte van 18 THE-studenten, 180,6 cm, wijkt significant af van de Nederlandse rekruten, 176.0 cm, met een éénzijdige overschrijdingskans van a = o.~ (t-toets). Bij een tweezijdige toets noemt men dit significant bfj een drempel van a = 1%; men houdt daarbij rekening met !1et feit dat een even grote significantie zou zijn geconstateerd wanneer een gemiddelde van 171.4 cm voor de. studenten was geworden. Voor practisch ingastelden is het helemaal niet duidelijk dat het zin heeft met dit al ternatief rekening te houden. Een eenvoudige oplossing is, bij een gegeven waarnemingsresultaat de éénzij dige overachrij dingskans te vermelden, en aan de hand daarvan een oordeel te vellen, Wie tweezijdig wil toetsen kan de kans dan altijd zelf verdubbelen. i.
•
De termen "significant" en "het verwerpen van een hypothese" Zl.Jn verder weinig zeggend en kan men beter vermijden. Heeft men voldoende waarnemingen, dan wordt zelfs het kleinste verschil tussen gemiddel significant. Het woord significant geeft dus geen enkele aanwijzing over de orde van grootte van de waargenomen verschillen. Ook de overschrijdingskans heeft niet de scherpe kritische betekenis, die men er in de wiskundige statistiek aan toekent. Een overschrijdingskans van ongeveer ~ wil zeggen dat de waarnemingen en de nul-hypothese, en dat men dus eens na dient te gaan of hiervoor een verklaring is te vinden. Soms zal men bij een overschrijdingskans van 1% toch zijn hypothese ·handhaven omdat men uit vroeger ervaring in deze hypothese een groot vertrouwen heeft. In andere gevallen,-bijv. wanneer men het percentage successen met een bepaalde opexatie in een bepaald ziekenhuis vergelijkt met het landelijk gemiddelde-zal men zelfs bij een overachrij dingskans van 1 af. of 2o{o toch tot een nader onderzoek naar mogelijke oorzaken van het waargenomen verschil overgaan, omdat het hier om mensenlevens gaat,. Algemeen dient men toetsen te beschouwen als. een internationale beoordelingsnarm waarmee men bepaalde veelvuldig voorkomende vragen op uniforme wijze beantwoord. De uniformiteit van oordelen is daarbij het waardevolle element. Of een onbetrouwbaarheidsdrempel a exact ~ of alleen van de orde van grootte van ~ is doet niet ter zake, zolang als de uniformiteit van ons handelen niet door een verschil van mening hierover in gevaar wordt gebracht.
47
Steekproefkeuri~
Toetsen van èen hypothese wordt als routine toegepast bij keuringen van partijen producten. Stel men ontvangt een partij staaldraad waarvoor ia voorgea~hreven dat de gemiddelde treksterkte groter moet zijn dan 140 kg/mm2 ; stel verder dat we op grond van vele vroegere metingen weten dat de standaa.rdafwijking van een trekvastheidebapaling o = 5.7 kg/mm 2 bedraagt, en dat men doorgaans goed materiaal geleverd krijgt. Voor alle zekerheid wordt niettemin uit iedere geleverde partij een steekproef onderzocht en de partij wordt afgekeurd wanneer hieruit blijkt dat ll < 140 kg/mm 2 • Daartoe toetst men dan de hypothese H0 : ll;;. 140 .kg/mm2 met een drempelwaarde a en keurt een partij af wanneer deze hypothese wordt verworpen. Ia de centrale limietstelling van toepassing, hetgeen praktisch steeds het geval ia, dan luidt het krit'erium: Afkeuren wanneer
<
-u
a,
of x
< ·llo - ua o/rn.
of nog eenvoudiger i < G,
(47 .1) (47 .2)
waarbij G een waarde heeft die afhangt van n en a. Bijv. voor 2 2 , o m 5.7 kg/mm , a = 5%( éénzij dig) en n = 1 0 is ll 0 = 140 kg/mm ' G =
140 - 1. 645 x 5.1 j{1o = 137.0 kg/mm2 •
Is het ware partijgemiddelde gelijk aan ll dan is de goedkeurkana, Pg' gegeven door P = P(x>G) a1-~ (SL=.il.) .f' g OyJl
Voor het beschouwde numerieke geval ia Pg in Fig. 48 uitgezet als functie van ll• Een dergelijke kromme heet het onderscheidingavermogen van de toets, of de keuringekarakteristiek. Bij het ontwerpen van ste.ekproefkeuringen ~pelen de keuringakarakteristieken een beslissende rol,- .omdat zij oven:icht~llijk in beeld brengen wat een voorgenomen keuring presteert. De keuze llo = 140 kg/mm 2 en a = 5% heeft' tot gevolg dat een partij met een gemiddelde treksterkte van 140 kgjmm2 een kans van 5% heeft te worden afgekeurd. Fig. 48 laat zien dat een steekproefkeuring geen scherpe scheiding maakt tussen goed en slecht; er ia een geleidelijke overgang van par.·'en met 11 < 134 kgjmm die praktisch steeds worden afgekeurd, naar ll > 1,;.J kg/mm 2 die praktisch staede worden goedgekeurd. De steilheid waarmee. ,.de karakteristiek verloopt hangt af van de standaardafwijking van i : o/vn. Voor n = 40 vinden we bijv. G = 1,38. 5 kg/mm 2 en de steilere kromme in Fig. 48, I I
.. .
48
,a =
5· 7 Eis:
Eis: i> 137 n = 10 }
i> 138.5 { n = 40
pg
o.o-+--r----.--=r:~~
r
1 0
140 kg/mm2
135
--~J.L
Fig. 48· Keuringskarakteristieken of het onderscheidingsvermogen van twee toetsen.
Soms stelt men twee grenzen vast waar i tussen moet liggen; een partij wordt goedgekeurd wanneer G < i < G • Dan krijgen we twee krommen als die 1 2 in Fig. 48, die samen de keuringskarakteristiek bepalen; zie Fig. 48.a, die overeenkomt met een tweezijdige toets van de hypothese J.L 0 c 140 kg/mm2 , met· a = 1o% (tweezijdig).
,
1.U-,-----------------------~--~-,~-----------------------, ......... n
m
a =
40
5· 7
Eis:
o.
138.5
--~J.L
Fig. 48.a. Keuringskarakteristiek bij een tweezijdig kriterium 138·5
(48.1)
Nu moeten we echter met variaties van J.L en a beide rekening houden; de keurings-·· karakteristiek is dan een functie van J.L en a en kan niet meer door een eenvoudige kromme worden weergegeven. Keuringen als hierboven beschouwd, gebaseerd op metingen, staan bekend als keuringen op variabelen. In de praktijk maakt men ook gebruik va.~ een keuring op attributen, Daarbij worden de producten uitsluitend onderscheiden
49
in goede en defektieve. Defektieven zijn producten die niet aan de gestelde kwaliteitaaiden voldoen. Het percentage defektieve producten in een partij heethet uitvalpercentage, of ook de kwaliteit van de parti.j, De eenvoudigste attributenkeuring bestaat uit een enkelvoudig steekproefschema. Men keurt een steekproef van n producten en keurt de partij goed indien hierin c of minder defektieven worden aangetroffen, Worden meer dan c dElfaktieven gevonden, dan wordt de partij afgekeurd. n heet de steekproefgrootte, c het goedkeurkriterium. Ds keuringskarakteristiek geeft nu de goedkeurkans P als functie van het g uitvalpercentage p. Daar p doorgaans kleiner is dan 1C/% kan de keuringskarakteristiek uit de Poissonverdeling worden bepaald. Tabel 49 geeft een voorbeeld, Tabel 49. Constructie van een keuringskarakteristiek van het enkelvoudig steekproefschema n = 80, c = 3 9 met behulp van Compendium Tabel 6,2, Jl
= np=
1. 0
2.0
3.0
4o0
5.0
6.0
7.0
8.o
p"' =
0.98
0,86
0.65
Oo43
0.26
0.15
o.oa
0.04
p
1.25
2. 50
3· 75
5.00
6.25
7.50
8.75 10.0C/%
=
n =
80
c = 3
..
• Tabel 6.2 + Tabel 8.1
0
·Fig. 49· Een keuringskarakteristiek voor een percentage defektieven p.
••
Deze keuringskarakteristieken kan men ook doelmatig construeren met behulp van Tabel 8.1 , die waarden van 11 = np geeft bij gegeven waarden van P en g c•
50
Tabel 50. Berekening van de keuringskarakteristiek voor het enkelvoudig steekproefschema n = 80, c = 3, met behulp van Compendium Tabel 8.1. p
np p
g
=
0.90
0.75
0.25
0.10
a
1.745
2.535
5.109
6.681
=
2.2
3.2
6.4
8.3
%
Dit geeft de kruisjes .in Fig. 49. Fig. 50 brengt in beeld hoe de keuringskarakteristiek veranderd bij-variaties van n en Co { n = 320
c = 12
= 80 = 3
0.5 n = 80 c = 1} ... p
•
r:.o 0
10%
5 p
"
Fig. 50. Verloop van keuringskarakteristieken bij veranderingen van n en c.
Houdt men n vast en neemt c toe dan verschuift de karakteristiek naar rechts; houdt men de verhouding c/n konstant dan blijft de kromme ongeveer op dezelfde plaats doch wordt steiler naarmate '•n toeneemt. Ook een attributenkeuring kan men zien als het toetsen van een hypothese. Bij n = 80, c = 3 is de benedengrens van een éénzijdig 95% betrouwbaarheidsinterval p = 1.4%. Het keuringsecbeman = 80, c = 3 keurt die partijen af waarvan 1 met een betrouwbaarheidedrempel van 5% is aangetoond dat het uitvalpercentage hoger is dan 1.4%. Naast enke· .voudige kent men dubbele, en meervoudige steekproef schema's. Een dubbel schema werkt àls volgt. Men keurt eerst een eerste steekproef van n stuks, 1 is x het aantal defektieven hierin gevonden, dan wordt 1 de partij goedgekeurd wanneer x .,. c , 1
"
"
afgekeurd
"
x > c 2
51
Is c <x .;: c -1
1
dan wordt een tweede steekproef van n
2
2
stuks genomen en uit-
eindelijk de partij goedgekeurd wanneer x 11
' 11
11
af gekeurd
x
1 1
+x
.;: c , 3 +x > c • 2
2
3
Het voordeel is dst men uitgesproken goede of uitgesproken slechte partijen reeds bij de eerste steekproef onderkend, en alleen in twijfelgevallen een tweede steekproef neemt, Men spaart daardoor wa.a.xnemingen uit. Een nadeel is dst het aantal te verrichten waa=emingen niet van te voren vast ligt en ten dele van toevallige omstandigheden af~t. De formule van de goedkeurkans luidt nu P
~ P(x-, =i) .L ~=c2+1
P(x
=
g
-1
P(x Eöc -i) -2
( 51.1 )
3
en de gemiddelde steekproefgrootte is . c
E(!!,)
=
+n
n
'
'
L
i=c 2 +1
P(~1 =i).
~ 51.2)
De kansen P kunnen in het algemeen uit de Poieson verdeling worden afgelezen. Tabel 51. Voorbeeld van de berekening van een ke'llringskarakteristiek en van E(n) voor een dubbel steekproefschema •
... ··•
Schema:
pf.
n 1 ."
n~ =
50,
c, ..
o,
c2
m
2,
3·
P(x < 0) + P(x =1) x P(x .;;2) + P(x = 2) x P(x.;; 1) -1 -1 ° ""'2 -, 2
2
0.3679
+
0.3679 x 0.9197
+
0,1839
x
o. 7358
4
0.1353
+
0.2707 x 0.6767
+
0.2707
x
0.4060
6
0.0498
+
0.1494 x 0.4232
+
0.2240
x
0.1991
a
0.0183
+
0.0733 x 0.2381
+
0.1465
x
0.0961
pf.
n1
+
n
2
x
{P(x = 1) + P(x • 2)} 2 1 '
m
-.. -
p
g
0.841 0.428 0.158
z
0.059.
-
E(B)
2
50
+
50 x
{ 0.3679
+
0.1839}
..
4
50
+
50 x
{ 0.2707
+
0.2707}
-
6
50
+
50 x
{ 0.1494
+
0.2240}
=
8
50
+
50 x
{ 0,0733
+
0,1465}
.
:. '·'
c~ "
-
77-6 77.1 68.7 61.0
De keuringskarakteristiek heeft eenzelfde vorm als in de Figuren 49 en· 50.
Fig. 52 geeft E(~) weer als functie van p.
E(~)
1
50
0
1o%
5 p
Fig.52 E(~) als functie van p, E(~) gaat als functie van p door een maximum, Zeer goede en zeer slechte partijen vereisen slechts een eerste steekproef, en dus E(n) = 50. Bij p a ~ ligt ·het maximum; daar komen het meeste twijfelgevallen voor, die
een tweede steekproef verlangen. I
Door een juiste keuze van de steekproefg:rç>otten, n , n , en de kri terl.a, 1
2
c , c , en c , kan men dubbele steekproefschema's construeren die praktisch 1 2 3 . dezelfde keuringskarakteristieken bezitten als enkelvoudige echema 1·s, en déze dus zonder meer kunnen vervangen. Globaal kan men door gebruik van eén dubbel schema 2o% à 2~ op het aantal waarnemingen besparen. ' ' Eén mêérvoudig steekproefschema verloopt in meer dan t~ee ~tappen. Na lédere
steeltproef neemt men één van } beslissingem goedkeurèn, afkeuren, of êél1 volgende steekproef nemen.
.
'
-.....,,
Een steeds verdere verfijning leidt tot de z.g. sequente steekproefmethode. Hiarbij ligt de steekproefgrootte niet vast, Men keurt de producten één voor één en zet stap voor stap tegen elkaar uit, het totaal aantal gekeurde producten, en het aantal gevonden defektieven. Dit geeft een trapvormig omhooggaande ·serie punten als in Fig. 52.a. In dit diagram worden nu twee evenwijdige lijnen getrokken en de partij die wordt onderzocht wordt goedgekeurd indien het toevalspad dat door de keuring wordt beschreven de lijn G het eerst snijdt, en afgekeurd indien de lijn A het eerst wordt gesneden. Men kan bewijzen dat deze methode van keuren een gegeven keuringskarakteristiek gemiddeld met.het kleinst mogelijke aantal waarnemingen kan realiseren. Voor de industrie is deze methode echter onpraktisch omdat de steekproefgrootte te variabel is. De methode vindt wel toepassing bij medisch onderzoek naar het effect van een geneesmiddel; daar ligt dit voor de hand omdat de patiënten zich één voor één aanmelden • .A
G
x
1
•
)C'
)C.
•
n
JC
•
•
•
•
•
Een goede partij
i·
Fig.52.a. Principe van een· sequente steekproefkeuring. n·- aantaL gekeurd, x = aantal defektieven.
53
Een keuring op variabelen kan steeds worden uitgevoerd als een keuring op attributen. In plaats van de eis te stellen dat een steekproefgemiddelde i boven een gegeven grens a moet liggen, als in Fig. 50, kan men bijv. eisen dat vanden waarnemingen°er niet meer dan~ beneden een.andere grens a 1 . mogen liggen. Men definieert dan;producten WI3.8.Z"'OOr x < G1 als defektieven. Het is ·niet moeilijk voor deze methode van keuren een keuringskarakteristiek te berekenen. De fractie producten p waarvoor x
en met behulp van de binomiale verdeling of een van haar benaderingen kan men met deze waarde de goedkeurkans P berekenen; Tabel en Fig.53. a 1 werd bij dit g
voorbeeld z6 gekozen dat wederom, als in Fig.50, . Tabel 53
.
P
g
=
0.95 voor
f.L
= 140
Voorbeeld van berekening van de karakteristiek van een variabelenkeuring uitgevoerd als attributen keuring • .
Schema: p
n
=
40 ,
np Tabel 8.1
g
c
=
3 I
rP/o
ondersteld:
0 =
-uo Tabel 1.1
.
5·7·
a, a. 1
- uo = 129.6
0.95
1. }66
}.42
- 1.82
10.4
140.0
0,90
1.7 45
4.)6
- 1. 71
9·7
139·3
o. 75
2.535
. 6.34
- 1. 53
8.7
138.3
0,50
3.672
9.18
- 1. 33 .
7.6
137.2
0.25
5.109
12.77
- 1.14
6.5
136.1 .
0.10
6.681
16.70
- 0.97
5· 5
135.1
0.05
7,754
19.38
- 0.86
4·9
134·5
1.0-r----------------~------~~--.
Attributenkeuring n = 40 c = 3 Eis: x > 129.6 p
n =
40
:..Eis: x>138o5 Variabelen keuring
g
1 135 140 Fig.53. Vergelijking van een keuring op variabelen met een attributenkeuring. f.L
2
kg/mm.
54
We zien u1t deze figuur dat de attributenkeuring veel minder efficient. is dan de keuring op variabelen. De steekproefgrootte is dezelfde, doch de keuringskarakteristiek loopt veel minder steil. De attributenkeuring met n • 40, c m 3 is. niet veel beter dan de variabelen keuring met n • 10 uit Fig.50. Niettemin wordt in de industrie in de meeste gevallen een attributenkeuring toegepast. Bij een variabelenkeuring is. de keuringskarakteristiek alleen berekenbaar als de vorm van de verdeling van de gemeten grootheid bekend is. Wanneer·men eóhter niet weet onder welke omstandigheden een partij producten is vervaardigd is iedere onderstelling over de vorm van de verdeling riskant. · Voorts kan een attributenkeuring worden uitgevoerd met behulp van kalibers; zij vereist een eenvoudiger instrumentarium en minder geschoold personeel en dat weegt voor een groot deel op tegen het nadeel van een geringere efficiëntie. We maken. er nog op attent dat de karakteristiek voor attributenkeuring in Fig. 53 nadrukkelijk een normale verdeling onderstelt, terwijl de variabelenkeuring alleen op de geldigheid van de centrale limietstelling is gebaseerd. Men kan · de karakteristiek voor attributen ook uitzetten tegen het percentage defektiE.VGll, d.w.z. het percentage produkten waarvoor x
c
het uitvalspercentage met een goedkeurkans van 9'7fo·
2) het risicopunt van de afnemer = p '
c
10
=
het uitvalpercentage met een goedkeurkans van 1 CJ%.
De leverancier of producent weet dat hij weinig moeilijkheden met afgekeurde partijen zal krijgen zolang de kwaliteit van de geleverde partijen beter is dan p • De afnemer weet dat partijen waarvoor p > p slechts zelden door de 95 . 10 keuring heen zullen glippen. Schrijft men voor P
= 2,CJ%,
• 9J
p
10
= 6,CJ%, dus
'~ p 95
=
3.0
dan volgt een bijpassend enkelvoudig steekproefschema uit Tabel 8,1, Uit de laatste kolom zien we dat c = 7 het eerste schema is waarvoor p fp < 3.0. 10
.f
Kiezen we c = 7 dan volgt uit p · = ~. n = 199 en uit p 95 . ' 10 de praktijk zal men dit afronden tot n = 200 en is n = 200 , c = 7 het gezochte enkelvoudige steekproefschema. Dat men p
95
en p
10
95
= 6%, n = 196, In
kiest is puur conventi~, doch algemeen gebruikelijk.
55
Een andere nuttige
p~rameter
controlepUnt. a
p
50
is het
a
het uitvalpercentage met een goedkeurkans van 5D7'·
Dit houdt zowat het midden tussen wat men beschouwt als goede en slechte partijen. Tussen p50. , n, en c bestáat een eenvoudige relatie (zie Tabel 8.1) . ( 55.1)
np50 = c .+ 2/3. Is p50 gegeven dan blijft nog een zekere vrijheid in de keuze van n en o over en dit is in de praktijk vaak nuttig. Een andere veel toegepaste parameter is de ~
= Acceptable Quality Level
a
Pa
a
het verlangde kwaliteitsniveau. Hieronder verstaat men het gemiddeld uitvalpercentage dat men in geleverde partijen toelaatbaar acht.
a. stelt een eis aan de productie, het is niet een eigenschap van een keuringskarakteristiek zoals p , p , en p • Is p .gegeven, dan zal men steeds een 95 50 10 a . steekproefkeuring kiezen die bij p • pa een hoge waarde voor de goedkeurkans geeft, doch deze waarde van Pg is niet strikt voorgeschreven, en dit is een practisch voordeel.
p
;i!<
Tenslotte noemen we de AOQL •
Average Outgoing QuaJ.ity Limit
=
pm =
het maximaal gemiddeld-doorgelaten uitvalpercentage. Hierbij wordt ondersteld dat afgekeurde partijen aan een 1oo% keuring worden onderworpen en dat daarbij alle defektieve producten worden geëlimineerd, Nemen we verder aan dat alle gekeurde partijen eenzelfde uitvalpercentage, p, bevatten dan zal het gemiddeld uitvalpercentage in de· doorgelaten partijen E(a) = Pg ~ P + ( 1 - Pg)
* o • Pg *
p, ..
bedragen, afgezien van een kilsin aantal defektieven dat in de steekproeven van de goedgekeurde partijen wordt gevonden. Dit gemiddeld doorgelaten uitvalpercentage, gegeven door het gearceerde oppervlak in Fig. H, gaat als functie van p door een maximum: het maximaal gemiddeld-doorgelaten uitvalpercentage,
Pm·
Kromme moet gladder verlopen. Er zit een ongewenste knik in het midden. p
g
Fig. 55· Illustratie bij het begrip maximaal gemiddeld-doorgelaten uitvalpercentage.
pm geeft een conservatieve grens, omdat men aanneemt dat alle partijen een zelfde uitvalpercentage p bevatten, en dat deze p de meest ongunstige waarde aanneemt. Practische àspecten Een keuringskarakteristiek ligt practisch voldoende vast indien voor twee van de 4 parameters:
een numerieke waarde wordt voorgeschreven. Vervolgens kan een steekproefschema worden geconstrueerd, dat aan deze numerieke eisen voldoet. In de praktijk werkt men echter bij voorkeur met standaard tabellen, waaruit het te gebruiken steekproefschema ·direct kan worden afgelezen als functie van a) de grootte van de partij, en b) ~~n van de boven besproken parameters. Compendium Tabel 8,2 geeft een dergelijke tabel bij Philips in gebruik en gebaseerd op partijgrootte en p50 • Voor, partijen van 1000 of minder prodakten worden enkelvoudige, voor grotere partijen dubbele steekproefschema's voorgeschreven, Een volledig stel keuringskarakteristieken is toegevoegd, en kan geraadpleegd worden bij het bepalen van onze keuze. Een. hulptabel op pag. 67 geeft tevens de bij ieder schema behorende waarden van p en p • 95
10
Een andere zeer veel gebruikte Tabel is de ·!!'
·•
t
Mili ta.ry Standard 105 D u.s. Government Printing Office Washington D.C. 10402, $0.40. Deze tabel geeft steekproefschema's als functie van partijgrootte en AQL. ·zij bevat bovendien equivalente tabellen met enkelvoudige, dubbele, en meervoudige schema's. De Mil.Std. 105 D is ontworpen in onderlinge samenwerking door de ministeries van oorlog van Amerika, Canada, en Engeland, ten behoeve van de keuring van legergoederen. Deze standaard wordt echter ook uitgebreid toegepast in de industrie voor andere keuringen. Deze en andere tabellen gaan meestal begeleid door uitvoerige instructies voor hun gebruik. Men moet er zich echter voor wachten hieraan een te absolute waarde toe te kennen, want de practische toepassing van steekproefkeuringen berust steeds op het vinden van een compromis tussen wensen en mogelijkheden. Daarbij spelen naast statistische ook vele technische overwegingen een rol, Men móet bijv. rekening houden a) met de mate waarin slechte partijen voorkomen; b) met de kosten van de keuring; c) met het aantal man-uren dat voor keuringawerk beschikbaar is; d) met de wijze van behandeling van afgekeurde partijen; e) met de aard en ernst van de fouten die men in de defekte producten aantreft; en f) met de omvang van aanwezige voorraden. Een steekproefkeuring laat zich in de praktijk dan ook niet volgens strakke wetten voorschrijven; soepelheid moet steeds worden betracht. Voor details verwijzen we naar leerboeken op dit gebied; bijv. A.H. Schaafsma en F.G. Willemze, Modern Kwaliteitsbeleid Philips Technische Bibliotheek.
57 2
.
De x - verdeling en haar toepass:fng'illl Is~
1 i
a
1, ••• ,v
een reeks van v standaard nomale variabelen dan is per definitie
(57 .1) 2
.l.v • de som der kwadraten van v onafhankelijke standaard-nomale variabelen. De parameter v = het aantal vrijheidsgraden. De verdeling van
z.2V
r(~)
is 2
1
dx! .. A(x!)h- exp {--?}
Compendium Tabel 3.1 geeft waarden van dingskansen, bijv. ·
l
d~,
o ~x!<"".
(57.2)
met voorgeschreven overschrij-
P(.x: <9.24) = 0.90, P(z.! > 1,61) • 1 - Oo10 a 0.90' P(1.15 < -s x2 < 11.1) - 0.90. Tabel 3.1 speelt in de toegepaste statistiek een zeer belangrijke rol. Uit de defini t:Le: volgt
E(~)
..
! E(~)
•
v,
( 57 ·3) varCz!)
•
E var(u~) • 2v, i
--:1.
',j'
Voor grote waarden van v is de x2 -verdeling praktisch normaal. Een nog betere benadering is
+
Hieruit volgt bijv. voor v = 30
58
P{16,B<:J/30 <47•3} a Oo95 terwijl tabel 3.1 als grenzen geeft 16.8 en 47.0. Uit de definitie (57.1) volgt verder
~+~+ 1
+~
•••
2
2
~ 1+v 2+. • •Vk
•
k
(58.1)
• 2
De som van een aantal onafhankelijke .x2 -variabelen is weer een x -variabele; met een aantal vrijheidsgraden gelijk aan de som van de vrijheidsgraden der componen.ten. De omgekeerde stelling luidt: Besta&t tueaan dan zijn
~ ,~ 1
, ••••
z!
de betrekking (58.1)
onderling onafhankelijk. k
2
z2 -variabelen
,
.
Het bewijs y~t buiten het bestek van dit college •. De stelling speelt in de z.g. varia.ntiè analyse een belangrijke rol. .
2
De verdeling van s • Is
.!:i -a-
i= 1, ••• ,n
11 + ~a ,
een aselecte steekproef uit een normale verdeling dan is 2
' ( 58.2)
Vervangen we 11 door i dan kan worden bewezen dat
-
V !!2
2
JO-.
=
-2 a
a
a
2
J.; '
( 58.})
v • n-1 •
82
Hiermee is de verdeling van
=- en dus ook van §}a gegeven. Zo is bijv.
v • 8. (Tabel 3.1)
a
2
voor
en dus ook p'(f! ~ of
17~5
P (0.6B[!
28.18) =
=
0.95'
0.95.
Dit zijn de betrouwba.arheidsgrenzen voor a gegeven in Tabel 3· 2; deze tabel is dus rechtstreeks uit Tabel 3.1 afgeleid, volgens de formules
a.,
59.
De benaderingsformules
ik~'
(59.1)
~(!)ia
volgen uit de benadering (57.4). Uit de formule ( 58.1 ) volgt verder dat een s 2 volgens ( 30~ 1) verkregen door 2
..
samenvoegen van een aantal varianties, wederom een X: -verdeling bezit.
Het vergelijken van fracties of percentages Veelvuldig komt het voor dat we een uit een aantal steekproeven fracties of percentages pA ,p , ••• ,p hebben gevonden en dat we étfn van de hypothesen 1
2
H : p1 - p 0 2
of
H
I
of
H
I
0
0
p1 - p2
V
-...
-... p
i
.
1 m
pk • p~,
m
pk
.. p•
(p; gegeven)
(p: gegeven)
i
(59·4)
willen toetsen. Dit geschiedt dan doorgaans met b~ulp van de x2 -toets. De volgende voorbeelden lichten dit toe. ·~
A. Een tollende gulden valt vaker met "munt" naar bov.en dan met "kruis". Tabel 59 geeft het resultaat van een experiment met 4 verschillende guldene.
;~
Tabel 59. Tollen met 4 guldens; toetsen van de hypothese; pi = p Muntstuk Aan.tal worpen Aantal"Munt"
d.
~
-
xi
pi -i
20 19 28 32
15 20 20 25
+ 5 - 1 + 8
D
30 40 40 50
Totaal.
160
99
80
+ 19
ni
A B
c
De
E(~)· nipo
waarnemingen~
0
at. ui
xi~nipi
+
7
+ 1.82
- 0.}2 + 2.53 + 1.98
zullen een binomiale verdeling bezitten en op grond
van de normale benadering zullen de grootheden xi - nipi ~nipi ll-pi)' een onafhankelijke steekproef uit een standaard normale verdeling vormen. De waarden ui corresponderend met de nulhypothese
( 59· 5)
60
zijn gegeven in de laatste kolom. Hiermee vinden we
Er is dus goede redenen aan de juistheid van de hypothese (59.5) te twijfelen, · We kunnen deze hypothese doelmatig in twee delen splitsens
=
p0 '
( 60.1)
•
-§-,
(60.2)
en H": p 0
0
H' kunnen we .apart toetsen door de berekeningen van Tabel 59· uit te 0
.
voeren met de sçhatting p0
•
~
0.62
•
(60.3)
die uit de totalen in Tabel 59·volgt. Dit geeft Tabel 60. Tabel 60. Tollen met 4 munten. Toetsen van de hypotheses p. • p , i l.
0
a
Muntstuk Aantal worpen Aantal "Munt"
1, ••• ,4; p
0
onbekend.
E(xi) =nipa Po = 0,62 A
di
ui
m
ni
xi
A
30
20
18.6
+ 1.4
+ 0.53
B
40
19
24.8
c
40
28
24.8
- 1.89 + 1.04
D
50
32
31.0
- 5.8 + 3.2 + 1.0
160
99
. 99.2
- 0.2
Totaal
xi -nipa
I
+ 0.30
Het vereohil met tabel 59 is dat nu, op a.frondingsfouten na, de som der verwachtingen gelijk is aan de som der waaru:amingen; d.w.z. E nip0
E
Ex.l.
of
Door deze aanpassing wordt l kleiner, maar dit kan correct in rekening worden gevracht door het aantal vrijheidegraden met 1 te verminderen. Dus nu vinden we
l3
=
(0.53) 2 + (1.89) 2 + (1.04)2 + (0.30) 2
•
Er is dus geen redenen aan hypothese (60.1) te twijfelen.
5.021
a r
:= 20/>.
61
De hypothese (60.2) kunnen we nu afzonderlijk toetsen op grond van de totalen. Dit geeft volgens
u.l. of
- - v1 oxixi' t~
..
x,2
De hypothese p
80
(~. 01 ) •
0
i
2
..
+
9.1
~.01
, .ar • 0.13%,
'
ar • 0.26%.
is dus moeilijk te handhaven.
Dit voorbe~ld toont verder dat een u-toets gelijkwaardig is met een x~-toets.
l 1 het teken. verloren en de lfénzijdige overschrijdingskans . gelijk aan de tweezijdige overschrijdingskans bij de u-toets.
Alleen gaat bij '
bij x~ is E.
Een enigszins andere situatie doet zich voor in Tabel 61, Tabel 61
120 worpen met 'én dobbelsteen. Toetsen van de hypothese pi= 1/6; i • 1, ••• ,6. Aantal ogen
Frekwentie
E(~) •
1!.
di
~/npi
npi. xi
"::5" .. 4..
15 26 21 10
"5" 11611
27 21
11111
112"
120
Totaal
x2 =
pi - 1/6
20 11
.u 11 11 11
1.25 1.80
-5 +6 +1 . -10 +7 +1
0.05 5.00 2.45 0.05
0
10.60·
120
~ Het verschil met het voorgaande geval is dat nu de som
van te voren vast ligt. De waarnemingen
~
zijn niet onafhankelijk; zij
bezitten samen een mul tinomiale verdeling. Dit brengt twee correcties met zich mee: 1 ) het aantal vrijheidsgraden moet met 1 worden verminderd. •.ft
2) de bijdrage van iedere rij_, in tabel 61; tot 2
llx ..
l
moet worden berekend volgens
(xi- npi)2
(61.1)
62
de factor ( 1-p.J. ) in de noemer komt te vervallen. Het bewijs kan hier niet worden gegeven. Tavel 61 geeft aldus
x: - 10.60 ' De juistheid van de hypothese pi • 1/6 is dus aan twijfel onderhevig; er is een aanwijzing dat de dobbelsteen niet zuiver is. Uit Tabel 61 zien we dat vooral de frekwentie van het ogental "4" te laag i&o
In hoeverre we inderda&d aanvaarden dat deze dObbelsteen Vals is~zal er· Va.n afhangen of we al of niet reden hebben valsheid te vermoedeu.
c.
Formules. Het is nuttig de formules die voor de berekening van x2 werden toegepast duidelijk te onderscheiden. ' k
Tabel 59:
•
2 xk
- L: ia1 k
Tabel 60:
2
xk-1
- Li-1 k
Tabel 61:
2
xk-1
- L: i=1
(xi -riipo)2 nipo( 1 -po) (xi -niiH~t" 2- : nipo( 1-,flo)
p
0
gegeven
ft.
(xi -npi? npi
De laatste formule is de meest gangbare die in alle leerboeken voorkomt. Ook de Tabellen 59 en 60 kunnen met deze formule. behandeld worden mits we naast de waameming xi voor "Munt" ook de waarneming (ni- xi) voor "Kruis" in rekening brengen. Tabel 63 licht dit nader toe voor het geval van Tabel 60.
( 62.1 )
(62.2)
6:;
Tabel 63
Muntstuk
A B
c
D
Berekening van
Aantal worpen ni 30 40 40 50
x
voor Tabel 60 met behulp van fonnule.
!!i
·"Munt"· "Kruis" Waarn, Verwachting Waarn. Verwachting :rii ti1 hiti2 x, i x2i 18,6 24.8 24.8 31.0
20 19 28 32
10 21 12 18
"Munt"
"Kruis"
0.11 1.35 0.41 0.03
11.4 15.2 15o2 19.0
0.1.7 2.21 0.67 0.05
~ = 5.00
X3
.
x2
is nu opgebouwd uit 8 bijdragen. De waarnemingen x 1 i en x 2 i m~eten echter aan 4 voorwaarden voldoen:
x 1 i + x2 i
=
n.~ , i
~
1 , ••• , 4.
Daannee gaan 4 vrijheidsgraden verloren. De 5de vrijheidsgraad verliezen we omdat ti 1 = 0,62 en ti 2 totalen werden geschat,
i
'.
..
~
1 - ti 1
= 0.38 uit .de
Do Tabel 63 .is een speciaal voorbeeld van een algemener geval, de z.g. mx n verwandschapstabel, waarvan Tabel 64 een voorbeeld geeft. Deze Tabel bevat de aantallen E,N,W en T-studenten die bij een wiskunde tentamen in 1961 resp. niet deelnamen, een voldoende, en een onvoldoende\c:iljfer behaalden, De vraag is nu, is het gedragspat:Ipon wat d~r·É;if,w en T studenten betreft eender of zijn er significante verschillen,. Om dit na te gaan schatten we uit de rand totalen de kansen ti. en p .• Is het gel.•
•J
dragapstroon onafhankelijk van de studierichting dan is de verwachting in de cel i,j,
•
Met deze fonnule zijn de tussen haakjes geplaatste verwachtingen berekend, en de bijdrage tot x2 gegeven door.
(63.2)
•
·•
!
64
Tabel 64, Gedragspatroon van E, N, W, en T-studenten bij een. wiskunde tentamen. Studierichting
Niet deelgenomen
E(x .) ..
-1J
1!.-l
N
61 (60.1)
( 52.0)
o.oo
0.01
0.02
E(~j)
l!.·l
45
163
51
( 51.0)
31
x2j
..
Tota.ail.
Onvoldoende
pi• .
51
x,j E
'-Voldoende
-
(163.1)
93
17
(25. 9)
(40o7)
(26.4)
1.00
0.45
3·35
0.327
0.166
(93.0)
.
T
E(~j)
!!.l
Totaal A
P,j
(34,9)
(54.6)
2.60
o:ro 56
49
x4j
w.
61
25
x3j
E(~j)
I
0.223
(125.2)
(35· 5) Oo35 52
(44.4)
(69.6)
(45·1)
!!.l
0.46
1.93
1,36
Totaal
156 0.279
245 Oo438
159 0.264
:P. j
125
39
159
0,264
(159.1)
' 560
•
:Óe verwachtin€en zijn nu zo aangepast dat de marginale sommen xi• en x, j gelijk zijn aan hun verwachtingen Ef x ) en E(x . ) , en dat ook de som x •• gelijk is aan \.:::fo
-J
E(15.. ). Bevat de tabel m rijen en n kolommen, dan zijn de verwachtingen voor m+ n + 1 rand totalen aan de waamemingen aangepast •. Daar echter steeds geldt I!xi•
a
I! x, j
.. x..
kunnen van deze m+n+1 waarden er slechts m+n-1 worden aangepast, de-resterende 2 zijn dan vanzeJ.f goed. De aanpassing omvat derhalve m+-n.-1 vrijheidsgraden en er blijven voor.... · - ' -· -
•
mn- m- n + 1
a
(m-1)(n-1)
vrijheidsgraden over. In het geval van Tabel 64, (4-1)(3-1) Tellen we de bij dragen aan
x2 op
dan resulteert
(64.1) a
6,
65
a
=
r
5%.
Dit wijst erop dat enige twijfel aan de hypothese van onafhankelijkheid gerechtvaardigd is, maar de afwijkingen zijn niet overtuigend. Wil men een eventuele afhankelijkheid verklaren, dan dient d~ ail.ndacht te worden gericht op die cellen die de hoogste bijdragen leveren tot x • Het valt dan op dat bij de N-studenten relatief weinig onvoldoendes zijn gemaakt, en dat rela- · tief we:lnig T-a tudenten niet aan het tentamen hebben deelgenomen.
2
.
.
E, De x -toets vindt ook toepassing wanneer we willen nagaan in hoeverre een waargenomen frekwentie verdeling met een bepaalde theoretiso~e verdeling klOpt. 2
Toetsen van een normale verdeling mat de x -toets. Gewichten in 111gr. van pag. 3·
Tabel 65.
Klassen
Frekwentie
ui bij de klasse-
xi
--
1090 - 99
1 4} 5
- 2.19 - 1.61
1100 - 09
7
- 1.03 .;. 0.45 0.12
-1080 - 89
A~i
~enzen
!S"
npi
pi =
4\i ---
0.0143
0.0143
1.1
0.0537 0.1515
0.0395 0.0978
3.0
d.326/f o. 5478
0.17 49 0.2214
13. ?~.f..16.6
1·3
1110 - 19 1120 - 29
7 "' - '' 11'1
1130 - 39 1140 - 49
24
0.70
o. 7580
0.2102
15.8
15
1.27
0.8980
0,1400
10.5
1.85
0.9678
o.o69o
~}
1150- 59 1160 - 69 mgr. x
=
x -
2
+
5.2 6 }7· 2.4
0.0322 s ·.·... 17.3 mgr.
1127.5 mgr. ( 2-4·1l 4·1
2 4
6
}4·1
lz-z.~l
2
7·3
2 '-+ • 0. + (6-z.6l 7.6
m
11.5
ar
D
2o 5%
Pag. 3 geeft een tabel met de gewichten van 75 hardpapieren schijfjes. De eerste twee kolommen van Tabel 65 geven een frekwentietabel op deze gegevens gebaseerd. Hieruit volgt
i
t '
. •
=
1127. 5 mgr. ,
s
.
'
(
O.H7.3 mgr.
Met deze waarden berekenen we de waarden ui corresponderen met de bovengrenzen van de klassen; ~-bijv. voor de 2e klasse: 1099,2 - 1121.2 . 11·3
..
_1 61 •
66
enz. Met deze waarden van ui zoeken we vervolgens· de bijbehorende waarden van de kumulatieve normale
ve~deling ~i
in Tabel 1.1, en daaruit voor iedere klasse
het verschil
met q; = 0, en ~ = 1. Deze verschillen geven de kansen dat de waal:'!lemingen uit de aaRgepaste no'èma.le verdeling in .de betreffende· klassen zullen vallen. ·DOor vermenigvuldiging met :het ·totaal. aä.t!tal waarnemingen li ·verkrijgen we de verwachtingen npi in de laatste kolom. De x2 -toets is gebaseerd op de onderstellingen dat de binomiale verdeling van de waarnemingen ]i door'normale verdelingen mogen worden benaderd. Bij de verwachtingen van 1.1 eli 2.4. in de eerste en laatste klasse is dit niet toelaatbaar. Daarom worden de eerste twee en de laatste twee · klassen paarsgewijze bijeengevoegd tot twee klassen met verwachtingen van 4.1 en 7.6 resp. Het totaal aantal klassen verminderd hierdoor van 9 tot 7. Uit de waarnemingen xi en de verwachtingen npi volgt nu
ar
ca
2.~.
.
l
Deze bezit slechts 4 vrijheidsgraden omdat de verwachti~waarden in 3 opzichten aan de waarnemingen zijn aangep~t, en wel voor n, x, eh s. Iedere aanpassing .geeft een vermindering van x die door vermindering met één vrijheidsgraad moet worden gecompenseerd. Dit geldt algemeen. De overschrijdingskans is vrij gering en de conclusie gerechtvaardigd dat de waargenomen frekwentie verdeling niet geheel bevredigend door een normale verdeling kan woi-d.en beschreven. Vooral in de klasse 1130 - 1139 mgr. is de waargenomen frekwentie abnormaal hoog.
·'
'
I
f ~
i. I.
67
Grafische·methoden Tabel68 geeft het aantal 1ste jaars studenten in Delft in de jaren 1945 1960 en de percentages W; B; E; enT-studenten onder hen. We kunnen nu bv. de hypothese
'~..
/1'· .,
~· ~ rlr
;'~
.J'
'·.··.-. ··;" ..•..
•.
': 1 :V.
•
r ·,
I '
( 67.1 )
= p = konstant, w
'\
dus de hypothese dat het percentage W-studenten in deze jaren niet varieerde, grafisch toetsen als in de Figuren In Fig. 1 zijn om het totale gemiddelde
6~
en 69
uitgevoerd •
(67.2) 9~
intervallen geconstrueerd. Gemiddeld zal dan 1 op de 20 waargenomen percentages buiten deze grenzen vallen. In werkelijkheid vallen 4 van de 16 waarnemingen er buiten en dit is een duidelijke indicatie dat de hypothese (6~1) niet kan worden gehandhaafd. De kans dat 4 of meer punten bui ten deze grenzen zullen vallen is ongeveer 0. ~. In Fig. 69 is voor iedere waarneming afzonderlijk een 9~ betrouwbaarheidsinterval getekend. De vraag is nu of de horizontale lijn p 7 20.9% al deze of bijna al deze, intervallen snijdt. De lijn gaat niet door 4 van deze intervallen, correspondere~d met dezelfde 4 punten die in Fig. 1 buiten de 9~ grenzen vallen. Ook dit is een duidelijke aanwijzing dat de hypothese (67~) niet. deugt. 2 Men kan dèze hYPothese ook toetsen met x , dit geeft
l
•
•
De toets is een scherper gedefinieerd kri terium, doch de grafische toets met behulp. van Fig.68 of Fig.69 is voor de niet-statisticus begrijpelijker, en geeft bovendien een inzicht in de aard van de afwijkingen. Het percentage W-studenten.gaat in de jaren '53- '54 duidelijk door een maximum en neemt daarna vrij duidelijk af. Uit één enkele waarde van l is dit niet te zien. De practische vraag is dan bv, of men voor een dergelijk verloop een verklaring kan vinden, of er maatregelen bestaan waarmee men de toeloop van W-studenten kan beinvloeden, en, zo ja, hoe en wanneer men daarvan gebruik dient te maken.
Tabdl o8.Aantal ~erstejaars student~n in D~lft v~n 1954 - 1960 en% W, B, E en N studenten onder hen.
Jàar
Aantal
.Pw %.
PB%
PE
1945
2355 1357 1092 980 908
20.8 20.0 21.8 21.9. 21.3
6.6 6.0 4·2 6.6 6.5
15.4 17 ·3 17.6 21.6 21.3
4·2 5.2 5.1 5·9 6.5
50 51 52 53 54
870 660 642 665 773
. 22.6 22.9 24.6 23.0 22.5
8.2 6.7 8.1 7.1 7.2
16.6 18.6 13.9 14.0 14·4
7.2 8.2
55 57 58 59
9.47 1123 1050 1091 1051
19.8. 24.1 19.2 18.9 n.1
8.9 7·3 9·5 9·2 9.2
18.6 17.5 14.1 14-3 15.1
8.7 9·3 11.8 14·3 15.9
60
1196
18.0
10.3
14.4
13.9
Totaal .
16760
. 20.9%
46 47 . 48.
49
~%
%
-
56
.
Het totale. percentage werd bepaald met de formule . het is dus een gewogen gemiddelde
Pw
1·8
I
8.0
9·1
=I:
ni Pwi· I I: n • . i•
% 25_
-• • •
•
----~~----
• • ~------·--·~·~-------------------+-20.9%
•
20_
•
•
pW
...---- -----•
95%
interval.
om Pw
t 15~~--------~-------r-------·~ ,i5 5o" 55 60 I
I
1
I
Fi#. 68. Grafische analyse van de gegevens voor Pw uit Tabel 68. Toetsing van .de hypothese Pw
=
constant
=
20.9%
69
% 30 I
... ·.
..::.
25
-
.
i"''
20
-
.
-
'45 Fig. 69
-
·~o
I
~5
•Go
Grafische analyse van· de gegevens voor
2e methode; iedere waarneming interval.
Pw
Pw van Tabel66
met een eigen betrouwbaarheids-
Kruis .i eekaarten Een soortgelijk probleem doet zich vaak voor bij de controle van een doorlopende massaproductie. Men neem regelmatig, bv. om het uur of om het halve uur, een steekproef uit de productie en bepaald hierin het aantal defektieven, d.w.z. het aantal producten dat niet aan de gestelde kwaliteitseisen voldoet. Aan de hand van deze gegevens wenst men dan de hypothese p • konstant, te toetsen, waarbij p =het uitvalpercentage dat wordt geproduceerd. Zo gauw er aanwijzingen zijn dat de hypothese ( 69 ,) niet langer op gaat, en dat p is opgelopen bv. door slijtage ven het gereedschap, zal men dan het proces stoppen en opnieuw bijstellen.
•
Het gaat hi.er steeds om kleine percentages en de theorie is daarom steeds gebaseerd op de Poisson verdeling. Als illURtratie-materiaal
70
geeft Tabel70 series van ~0 waamemingen uit Poisson ve~delingen ' met ~ • 0.4, 0.6, 0.8, en 1.0 respectievelijk. Stel nu we nemen om het halve uur een steekproef van 20 stuks en het productieproces loopt met een uitvalpercentage van 2%. Dan geeft de serie A in Tabel70 een beeld van de waarnemingen die men zal verkrijgen. In ~0 steekproeven neemt men in totaal 16 defectieven waar, en hieruit volgt een geschat foutenTabel 70. Series van
~
= 0.4
waarnemingen uit 4 Poisson verdelingen.
~0
0 0
1 0
1 0
0 2
1 1
0 1
A
~
..•
= 0.6
1 0
~
1
0 1
1
2
1 0
'
2 0
1 2
2 2
2
11 = 1. 0
0 1
D
I
2 0
1
1 1
0 0
0 1
0 0
1 1
0. 1
0 0
1
0 0
1 0
0 2
1
0 0
1 1
0 0
1
0 2
2 0
1
1 2
1 1
0
2
0 0
1 0
2 0 0 0 0 0 x • • 16
1 0
1 0
0
0 0
0 2
1 1
2
1
1
0 1
1 1
0 1
x.
= 28
1
•
!·~~· ~ ,.'~·
0 0
x. - 25
0 0
c ,,,
1 2
0.8
~ =
1 1
x. '"' 16
B
"!;,
0 0
~
0 1
0
0
percentage van 16 600 ~ 0.027 = 2.7%
i:~
\';,
'
~
ijl'
'
'·
:~
• •
11 = 20 X 0.027 a 0, 54• en Heeft het proces bevredigend gelopen dan zal men concluderen dat men met een dergelijk uitvalpercentage moet rekenen. Teneinde het proces regelmatig onder controle te houden zet men nu de waargenomen aantallen dofactieven naast elkaar grafisch uit als in Fig. 71 is uitgevoerd. Dit · heet algemeen een kruisj eska.a..rt • Hierin trekt men nu twee horizontale lijnen; een Waarschuwingslijn, en een Actielijn. In het geval van Fig.71 ligt de Waarschuwingalijn tussen 1 en 2, de Actielijn tussen 2 en ~ defectieven. Komt een waarneming boven de Aotielijn, dan is dit een duidelijke aanwijzing dat er iets
71
J··. ··i;·
mis is; men stopt de productie en steJ t bij. Komt een punt tussen de Waarschuwings- en de Actielijn terecht, dan is dit een waarschuwing dat men op moet letten. Men kan dan bv. voorschrijven dat direct nog een steekproef wordt genomen en de pràductie wordt gestopt en bijgesteld indien .in dèze 2de steekproef één of meer defectieven worden gevonden. Men kan dan verder weer een werkkarakteristiek berekenen die de kans op "actie" weergeeft als functie van het uitvalpercentage. Fig.71ageeft de karakteristiek behorend bij het zojuist beschreven voorschrift. Steekproefgrootte n • 20 per
3 2
uur.
~------~-------------------------------------Actie ~
1 0
i
---
XX X
x
·X
Waarsch.
X
X
X XX
XX X
XX XXXXXX
X X
10 20 15 Nr. van de steekproef Fig. 71 • Principe van een "kruisjes kaart".
5
XX XX
25
0.5 PA
r
o.o 0
5
10
15
20%
p
Fig.71a Werkkarakteristiek voor een kruisjeskaart.
•
n 1 • 20 , n·2 = 20. "Actie"
72
Deze figuur laat duidelijk zien dat een dergelijk systeem niet snel reageert. Bij een p
a
1 ~ is de kans op "Actie" 0. 40. Dit is echter
niet zo erg omdat men een half uur later weer een steekproef neemt. Is de kans op "Actie" pA dan zal men gemiddeld na
20
15 x 0 0 x 0 x <:: Q)
5;
.....
x 10
+> 0
x 0 00000
....
Q)
x
(I)
~~1ll
'd r-f
"}
x
"'
+>
"'
~
r-f
~
x 0
5 x 0 0
+> 0
8
r
x 0 x 0 10 5 Steekproef Nr.
15
20
25
Fig. 72· Serie A van Tabel70 cumulatief uitgezet. 1
/PA steekproeven tot "Actie" overgaan. Een p = 1o% komt dus gemid-
deld na 2! steekproef, dus na 1
uur aan het licht.
Een kruisjeskaart reageert alleen snel op grove storingen. Wil men een nauwkeuriger controle dan zijn grotere steekproeven noodzakelijk. Daartoe kan men bv. de steekproeven die in de loop van de dag genomen zijn aan het eind van de dag bijeen voegen tot. een dagresultaat, en
73
5-dag resultaten kunnen weer tot een week totaal worden samengevoegd. Dergelijke totaalcijfers zijn dan vooral voor de bedrijJUeiding van belang.
·~·
Verder wordt een kruisjeskaart doo~e~ans ook voorzien van systematische aantekeningen over de aard van .de geconstateerde fouten, zodat men ook een inzicht krijgt in welke fouten het meest voorkomen en in welk opzicht dus naar verbetering kan worden gestreefd, Een andere wijze om de gegevens van Tabel 70 in beeld te brengen is door z.e z.g. cum U·latief uit te zetten. In Fig. 72 is dit uitgevoerd, wederom voor serie A. De helling waannee ·de cumulatieve waarnemingen omhoog lopen geeft een maat voor het uitvalpercentage. Uit de Figuur leest men direct of dat in 25 steekproeven 14 defectieven zijn waargenomen. Bij een steekproefgrootte van 20 stuks correspondeert de getrokken lijn met 2% uitval, en men kan een dergelijke lijn bv, in de Figuur aangeven als een aansporing om te tmchten beneden deze lijn te blijvm • De i. en R-kaarten Kruisjeskaarten zijn van toepassing wanneer we alleen een attributenkeuring uitvoeren. Bij een variabelenkeuring, dus metingen, bereikt
•
<,;~ !~
..
men het zelfde deel met z.g. i- en R- kaarten. Als voorbeeld nemen we een partij '..Uranium oxyd tabletten, geleverd in 120 dezen van ieder 75 stuks, dus 9000 in totaal aan het Reactor Centrum in Petten. Van 5 stuks uit iedere doos werd het gewicht bepaald. De metingen voor de eerste 3 dozen geven de uitkomsten: Doos 1 8191 8261 8292 8220 8277 mgr., Doos 2 8015 7976 7990 7960 7978 mgr.' !i:> os 3
8051
We vinden hieruit
8081
n=
8024
8043
7939
mgr ••
99 mgr., ~20 mgr.
De waarnemingen kunnen dus zonder bezwaar op 10 mgr. worden afgerond. Ze zijn daarna geco~ceerd volgens
x =( x-f~ 00 )x
0.01 gr.
Dè aldus gecodeerde waarnemingen voor de eerste 15 dezen zijn weergegeven in Tabel 74 • Voor iedere doos werd gemiddelde, en de spreidingabreedte berekend, en daaruithet totaal gemiddelde i, ent!. We gaan nu uit van de veronderstelling dat we met 15 steekproeven uit no:nnil.le verdelingen te doen hebben. i- en R-kaa.rten dienen dan in wezen voor een grafische toets van de hypothesen (74.1) en
Ho :
rl.l.
= a',
(74-2)
dus dat alle dezen eenzelfde gemiddelde, of eenzelfde standaa.rdafwijking hebben. Uit t! = 9.1 volgt ~ = ~.9 en daar deze waarde uit vele waarnemingen is afgeleid mogen we in eerste benadering ook t = ~·9 aannemen •.op grond van de verdeling van ~· die dan kan worden berekend kunnen we grenzen aangeven waarbinnen~ met voorgeschreven kans (1-~) zal liggen. Voor~ zijn de waarden~ en 0.1% gebruikelijk. De grenzen kunnen dan direct uit t! worden berekend met de coëfficiënten in Compendium Tabel 8.) gegeven. Tabel 74• De gecodeerde gewichten voor de eerste 15 de~ en. Doos 1 2
22
~
25
4
2~
5
16 22
6 7 8 9 10 11 12 13 14 15
•
R
~9
25 24 21 18 20 17 17 14 1)
49 18 28 7 15 20 26 19 24 21
46
48
42
19 22 26
16
18
24 25 17 19 26 28
14 27 17 20
24 23 25 21 22
19 23 20
25 24 17 10
17 8
9 6
•
24 26 23 17 23 13 -1
·.
19 22
44·8 18.6
9 6
23.6 21.6 17.8 20.8 24.2 22.8
14 20
24 26 18 18 10
23.2 20.8 18.4 16.0
14 8
13·4 6.8
2~.0
=
X=
9 4 7 9 3 8 6 6 13 8 14
21.05
ii- 9.1 x
=
(x-7800)/ 10 in 0.01 gr.
75
Deze z.g. controlegrenzen voor R zijn
voor a
c
5%
( 75· 1 )
R 1 = 0.16
if 9.1 = 1.5
voor a = 0.1%:
De
5%
(75.2)
controlegrenzen zijn in Fig. 75 getekend tezamen met de 15
waarden van R. 30
Ix I
20
I
..·. • 10
,,
r •
• •
R
lr,k·
x
•
•
·- --
•
x
I
•
•
--XX
x
I
x
x
x
• •
x.
x
x
--X-----
-X--
0~.---~.-------.------.L------r------+-------~1
5
10
15
.20
25
30
Doos Nr. Fig. 75· Een R-kaart gebaseerd op de gegevens van Tabel 74· De krui_sjes
~:
geven de R-waarden voor nog 15 dozen. De waarde R = 20 voor doos nr. 4 ligt vrij ver bui ten de
5%
grenzen en
doet vermoeden dat de waarneming x = 7 in deze doos een uitschieter is. Over het geheel liggen de R-waarden redelijk binnen de grenzen en wat l"betreft schijnt de partij vrij goed onder controle. We kunnen de 5% grenzen nu doortrekken en ook voor de verdere dozen de R-waarden uitzetten. De kruisjes in Fig. 75 geven de waarden voor de
•
dozen 16 - 30. Ook hier zijn bij de dozen
nr. 16 en 28 vrij sterke
76
afwijki~gen
.
~.·
'~j.
•
•
zichtbaar. Deze bleken evenals bij doos nr. 4 aan een enkele abnormaal lage uitkomst te wijten. Dit maakt aannemelijk dat we hier met een specifieke storing te doen hebben, bv. doordat soms een schilfer van de brosse tabletten is afgesprongen •
17
Naast de R-kaarten, die dienen om te toetsen in hoeverre de standaardai rljking van een proces beheerst of onder contrOle is, d.w.z. in hoeverre de hypothese (7 4,2) kan worden gehandhaafd, kennen we i-kaarten die dienen als controle op de hypothese (74.1). ·
Do grenzen voor i vinden we eveneens met coëfficiënten gegeven in Tabel 8.3. Voor de gegevens van Tabel 7 4 zijn deze grenzen:
X.± A0 , 025 H- lr
a
x.± A0 • 00 1~
= 21. 0
!1.
21,0 ' 0.38
= 17,6
24,5
9 <.i . • 1 5· 7
26. 4
9,1
.± o. 59
In Fig. 77a zijn de 15 gemiddelden met de 5% grenzen getekend. Het eerste gemiddelde i, valt ver buiten de grenzen en de laatste 3 gemiddelden eveneens en in toenemende mate. Lateg we i 1 en i 5 bui ten beschouwing dan daalt het totaal gemiddelde tot x a 20.3 en je krijgen nu Fig.77.b. Wel is waar liggen de laatste 2 gemiddelden nu nog buiten de grenzen, doch de afwijkingen zijn niet zo ernstig als in Fig. 77.a. Een verklaring voor de afwijkingen zou kunnen zijn dat men bij doos 1 de machine waarop de tabletten op de juiste maat werden geslepen nog net goed had ingesteld, en dat bij doos no. 12 of 13 een verloop in het procédé begint op te treden en bijstellen dus gewenst is. Fig. 77b geeft dan een redelijker beeld van wat het· proces . onder goede controle kan presteren. t
x
=
Na weglaten van
21.0
x en x 1
15
40
30
--·---·--• • • • ----"l -
x 20
_,_
-~- _.-
-
--
- - : --- _yr.=
•
•
•
• • • •
· - · - - --$-
--
- .!_- _ .._ - - - - - - -~-,-
•
B
r10 0 Doos
1 10 15 5 Fig. 77.a. Controle kaarten voor i van Tabel 74= A met alle 15 waarden; B met weglating van i = 44.8 en i 15 1
5
1
•
•
1
= 6.8
1,.,-·
------
r5%
•
78 '
.. f',,
40
•
30
...
ex
m
"1/o
·-·-- -- -- ---------I---------- ----•
0
0
_ -'- __ -•- _______ -•...: -
.
-
• •
-·~·, 1:: .o:.
I
Jl lL LA
)(
..J'___ - ·-ll - , - - . XX
•
•I
I
•
~
01~~-----r------~------~~----.-------r-----~r-10 20 5 15 25 30 Doos no. Fig. 78. Controlekaart voor i voor Tabel 74 en de gemiddelden voor nog 15 dozen. De grenzen zijn bepaald op grond van Tabel 7 4 alleen.!:.·· ..:. l .. · Of men daarbij i 14 wel of niet mee wil rekenen is een. vraag die men op grond van technische overwegingen dient te beslissen. Dat hangt er van af of men het onderste uit de kan wil halen of niet. Indien men te hoge eisen stelt leidt dat in de praktijk tot moeilijkheden, In Fig. 78 zijn de grenzen uit Fig. 77. b. doorgetrokken en de gemiddelden van nog 15 dozen erbij uitgezet. Vanaf doos 16 is het proces weer goed beheerst, maar bij doos 28 treedt opnieuw een duidelijke storing op. Inplaats van i kan men ook een controle kaart construeren op grond van de mediaan M of op grond van de individuele waarnemingen xij. In dit laatste geval zet men de 5 waarnemingen in iedere rij ven Tabel 7 4 samen op een verticale lijn uit.o ·. Voor M of voor de individuele waarnemingen kan men dan weer grenzen construeren met een overschrijdingskans van "1/o of 0.1%. De. benodigde formules en coëfficiënten zijn eveneens in Tabel 8.3 opgenomen. Voor de Mediaan geldt in.goede benadering dat d'M• 1.25 i' De mediaan is dus minder nauwkeurig dan het gemiddelde doch heeft het voordeel dat zij geen rekenwerk vereist.
•
Kruisjes kaarten en i -, M1, R-kaarten worden veel toegepast voor de regelmatige controle van een lopend productieproces. De ~en worden daarbij zichtbaar bij de machine opgehangen •. Daarbij wordt dan ook op de kaart aangetekend welke wijzigingen in het proces zijn aangebraohts wa.ruieer een nieuwe partij grondstof in gebruik is genomen, wanneer de machine is bij geregeld, enz. Uit het verloop dat op kaart grafisch in beeld wordt gebracht kan men dan zien of en in hoeverre deze wijzigingen van invloed zijn geweest.
79
Variantie analyse In Tabel 74 vonden we !!: • 9.1 en daarai t (79.1) Dit is een schatting van de standaardafwijking binnen dozen. ):.aten Wê in de gemiddelden in· Tabel i en i 5 buiten beschouwing en dan vinden we uit 3 groepen van 4 gemiddeld
xrx,,
Ri • 5· 8 , 3. 4 , 7. 2 BX •
tfi • 5· 5 en
waa.rait
RX
Q, 4Hf
a
(79· 2)
2, 7 •
Op grond van de spreiding binnen dezen verwachten we .
~
i
BX =
rr-
1. 7•
=
DU.s de standaardafwijking (79.2) uit de gemiddelden zelf bepaald ie hoger dan we uit de binnen dezen variaties kànnen verklaren. Het vermoeden ie daarom gerechtvaardigd dat systematische verschillen optreden tuesen de doosgemiddelden. We komen zo tot het model1 •·,,
(79· 4) waarin a. de variaties van doos tot doos weergeven, en !ij de variaties binnen [Ö dozen. We kunnen daarbij zonder bezwaar E(!i)
a
(79·5)
0 , E(!ij) • 0
stellen en definiëren verder E(~~)
= a~ = de
E( !i~) = a~
a
tussendozenvariatie,
(79.6)
de binnendozenvariatie,
terwijl we tevens onderstellen dat afhankelijk zijn.
~i
en de !ij's alle onderling on. ·
Een elementaire beschouwing leert dan dat a2
a!!.x • a d + ~ n 2
(79.7)
wanneer !i het gemiddelde is van n elementen per doos. De waarde (79.3), s1. van o:b/.r x • 1.7, is een schatting · · vn en de waarde (79.2), sx • 2.7 eën schatting van a- als gegeven deo,.(79•7). Stellen we de schattingen x gelijk aan de verwaÖhtingen dan vinden we A
o:b
,,
~d
a
eb -2.7,
= " 2. 7
- 1. 7 - 2. 1
80
We hebben daarmee de totale variantie die in Tabel 74 optreedt in twee variantie componenten, a~ en
a!,
ge~plitst.
Bij vele industriële toepassingen is een dergelijke spli t~ling uiterst belangrijk. Inplaats van een component binnen-en tussen-dozen onderschei&·t men dan bv.' componE-nten binnen-dagen en tussen-dagen, binnen-machines en tussen-machines, enz. Dè variantie binnen-machines· geeft een maat 'roor de nauwkeurigheid waarmee één machine produceert, de variantie tussen machines geeft een inzicht in de mate waa·rin versobillende machines op het zelfde gemiddelde niveau zijn afgesteld. Evenzo geeft een variantie tussen-dagen een inzicht in de mate waarop het niveau van één machine van dag tot dag aan varianties onderhevig is. De waarden (79.8) zijn slechts 'schattingen en dientengevolge áa.n fouten onderhevig. Bij industriële toepassingen kan men doorgaans over zeèr vele waarnemingen beschikken en de variantie componenten daaruit met voldoende nauwkeurigheid bepalen. Meestal heeft men er dan geen behoefte aan die nauwkeurigheid nog nume.riek vast te leggen. Een bepaling van variantie componenten is technisch van groot belang. Is bv. de oomponent tussen~me.chines groter dan die binnen-machines, dan zal men door de afstelling van de machines beter te verzorgen, een homogener product kunnen maken. In hèt omgekeerde geval kan men op deze wijze weinig bereiken en dient men, zo verbetering van de productie gewenst is, de machines zelf te verbeteren. Meestal kan men bij een productieproces verscheidene varianten componenten onderscheiden en een bepaling van deze is dan van belang voor een juiste beoordeling van het procédé, voor het vast stellen van realistische · toleranties, en voor het beantwoorden van de vraag of verbeteringen mogelijk zijn. Een statistisch meer geraffineerde methode met hetzelfde doel ·staat bekend ais de variantie analyse I wij lichten dit toe aan de hand van de gegevens ·· van doos 2 tot en met 14 uit Tabel 74; doos 1 en 15 laten we weer wegens de afwijkende gemiddelden buiten beschouwing. In Tabel 81 zijn de gecodeerde waarnemingen nog eens weergegeven. De berekening loopt nu als volgt. We berekenen eerst de sommen Xy voor· iedere rij en de totale som x •• ·, en dan de grootheden A, B, en C als onder Ta'Qel 81 aangegeven; Een tafelrekenmachine is daarbij een belangrijk hulpmiddel. De variantie analyse ziet er dan als volgt uit .
•
e1 ;·:: .....
'
0_~t
~-:v,
.·.:r· .
Tabel 61. Berekeningen voor een variantie analyse van de gegevens voor doos no. 2 tot 14 uit Tabel 74: --~)
j • 1 , • ... k
xi
xij
i
22
16
19
16
16
93
25
26
22
24
14
113
23
7
26
25
27
108
16
15
24
17
17
69
22
20
23
19
20
104
25
26
25
26
19
121
24
19
21
26
22
114
21
24
22
24
24
115
16
21
25
26
26
116
20
19
24
23
16
104
17
23
17
17
16
92
17
20
10 .
23
10
60
14
17
9
13
14
67
1 ,ett, r
x •• - 1316 Berekening: A•
fi
B•
L xLJk • 2
C• x
•
••
2
x1 j •' 26094 27261
J= • 26644
82
Tabel 82. · Variantie analyse van Tabel.81. I In formules:
r rijen,
.
k koloDDDen
KS•
Variatiebron
Kwadr&tensom Totaal
KS/u
ab + ka~ + Juot,L
2/
r - 1
KS/~
ab + kad
.Jk
r(k-1)
KS/~
ab
x•~ kr
Binnen rij en P:: x~j - I: x~
KS
Variatiebron Totaal
c
~
2
2
2
E(GK)
GK
ab + 5a~ + 2
1
617
12
51·4 ab + 5ad
(of dozen) Binnen rijen A-B • 833
52
16.1
a
c
26644
2
2
26644
(of dozen) Tussen rij en B-e .
E(GK)
1
x2óf=
Tussen rijen l.>2f jl;x~ k-
,-
GK ,. Aantal Gemiddvrij:.Kwarbeids!Jr. draat
2
67}
2
2
ab
Het principe dat bieraan ten grondslag ligt is bet volgende. Overeenkomstig het Model:
(82.1) ·.
worden de waarnemingen gesplitst in 3 componenten: x1 . • i + (i:. .;.i ) + (xij-i. ) , (82.2) J ;. 1; ;e 1• met een overeenkomstige splitsing van de aantallen vrijbeidsg:radsn behorend bij deze componenten rk = 1 + (r-1) + r(k-1 ),
..
(82.3)
De oomponenten in (82,3) zij~ orthogolll1.al; d.w.z. hun productsommen zijn steeds nul, bv.
:E: ij
i .. (xi.-ii.)
a
0, enz.
J
Dientengevolge geldt: , 2 , " Lxij • Lx-2•• + L-
ij
ij
ij
c-xi -x-•• •
·\2 1
, <.xij-xi - >2 + Lij •
(83.2)
en dit is de splitsing in 3 kwadraatsommen die bij de variantie am.lyse wordt uitgevoerd. De Gemiddelde Kwadraten zijn dan telkens de Kwad.raien-_ sommen gedeeld door het bijbehorenQ aantal vrijheidsgraden. Is het Model (82.1) van kracht dan zullen bij herhaling van het gehele experiment de ai 1 s en de e .. 1 s andere waarden aannemen en we dus ook -
-l.J
onder G.K.~n vinden. Onder het Model (82.1) zijn de G.K.~en stochastische variabelen en de wae.rden.E(GK) in de laatste kolom geeft de verwaohtingswaarden. Een schatting van de parameters ob en ad krijgen we door deze verwachtingawaarden gelijk te stellen aan de numerieke waarden die het experiment heeft opgeleverd. Dit geeft:
.
A2
ob
a
en
16.1 51.4- 16.1
(83.3)
5 A
De waarde van ob stemt vrijwel overeen met sb volgens (79.8), ad iP wat groter dan in (79.8) gevonden. Dit is niet zo vreemd, want bij de berekening van sd werd het gemiddelde voor doos no. 14,
H.: die in feite gelijkwaardig is met Ho:
(85.4) ~·
J.
=
constar.t.
De F-toets is gebaseerd op de onderstelling d.'it de Ya.riaties e .. binnen-~J...!
dozen een normale verdeling bezc.t'''":. De ti,eorie leert dat, warmeer de hypothese (83. 4) juist is de gemiddelde kwadxateü b-innen rijen en tussen rijen onafhankelijke scr.a.t.tlngen zi;jn van de varianti9 a~. H•.m verhouding bezit dan een F-verdeling.De hypothese (il3. 4) k&.n. met behul.p van compendium Tabel 4 worden getoets .
•
84.
(,·>
;: '
·~*:':~.t . 'h',,•'•
We .vinden uit Tabel 82:
We verwerpen de hypothese en beschouwen daarom als aangetoond dat . 2 . . . De toets ia kennelijk een éénzijdige omdat ad
1,.• I\.
(V"
Regressie analyse Nauw verwant aan de variantie analyse is de regressie analyse. Hierbij beschikken we over n paren waarnemingen = xi' yi ' i • 1, ••••.n en we vragen ons af in hoeverre y. kan worden geschreven als lineaire .functie van x. Het model luidt: ( 84.1 )
~=a+~xi+-%,
E(e) = o, E(e~) = a 2 •
-
•
-~
Uit de gegeven waarnemingen krijgen we een schatting van de parameters en ~ volgens de methode der kleinste kwadraten. D.w.z. we kiezen a en~" zo dat
a
·•
(84.2)
-------------------------------------
---
85
Differentieren naarageert
i. •
Y• - ex - 13
•
m.a.w. de lijn door ex en 13 van de puntenwolk.
( 85.1 )
0 ,
gegeven gaat door het zwaartepunt i.,
y.
Met (85.1) vereenvoudigt (84.2) tot l:{yi - Ye - ' (xi en door differentieren naar
13
-iW ..
(85. 2)
minimum
vinden we
l: (xi-i.) (yi-y.) (85.3 E
(xi.:i/
Stellen we ( 85. 4) dan wordt de zg.
~ kwadratenso~.
{E
(xi-i.) (yi-y.)Y (85.5)
(xi-i. )2 De:z:e rest bezit nu (n-2) vrijheidsgraden omdat twee constanten a en 13 bij de waarnemingen zijn aangepast.
dan zijn de waarnemingen yi weer gesplitst in
3 orthogona.J.e
co~o
nenten, met een splitsing van de vrijheidsgraden in n • 1 + 1 + (n-2)
(85. 7)
Als numeriek voorbeeld kiezen we de gewichten uit Tabel 27A. We noemen bij de controle gevonden gewichten x en de eigen opgave y. Voor de 1
berekening is het doelmatig nog een grootheid x
0
toe te voegen die de
constante waarde 1 bezit. De waarnemingen en de gang van de berekeningen zijn in Tabel 86 weergegeven •
•
Tabel S6 ana~se.
Berekeningen voor een regressie
x0
x,
y
1 1 1 1 1 1
74 84 59 72 76
69 82 57 72 75 65
10
A
x0
1 1. 1 1 1 1
x1
73 80 71 80 81. 83
Matrix der ruwe prodruktsommen • .
x0 xo x
12
1
y
y
x1
867 903 68493 65760 63213
-~·-···
B
Matrix der gecorrigeerde produk:tsommen.
x,
x,
y
543
519 573
y
C.
Rest kwadratensom voor y.
y
17
y
D.
•
Regressie konstanten en vergelijking •
Y 867/1{~.,72.25, X. a
•
~
=
903/12
519/543 0J956 • ~= 77/to = 7.7 , v= 12-2 a
tr= 72.75
=
75.25
D
=
+ 0.956 (x- 75.25)
10 =
0.31 + 0.956 x.
y
. 70 78 69
10 80 80
87
Onderstellen we dat bij een herhaling van het experiment de waarden van xi hetzelfde blijven doch de fouten ~ toevallige veranderingen ondergaan. Dan zullen en stochastische grootheden zijn. Het ~ dan worden bewezen dat
f
i•
E(i.)
a
a +
~i. 2
'
en
(i. , A)
cov
, er'
i.• ~ , (87 .1)
ol
".~ = ~(xi -~2
•
= 0.
Uit de gegevens van Tabel 86 vinden we bijvoorbeeld
, 1-:-i!.• = o.8o en
t1l.. 2 hl Grp = 543
= 0,014
, i:= ~
0.12.
Men zou verwachten dat ~ = 1.00, namelijk dat het opgegeven gewicht en het waargenomen gewicht gelijk opgaan. Onderetellen we dat de fouten ~ normaal verdeeld zijn dan kunnen we de hypothese ·~ = 1.00 toetsen met de t-toets. 0.956-:1.000 • _3 • 7 , 0.12
lt. .
De hypothese
~
V
=12 ,
~=
= 1.00 is dus aan ernstige twijfel onderhevig.
80
70 y
60
•
Fig. 87 .
o.2%.
d~ puntenwo~k
voor '"abel en de regressielijn.
88
.,,-,/;
In. fig. 67 zijn de waarnemingen van x, en y tegen elkaar uit~et. Ook hier geldt dat naast berekening een grafische voorstelling voor sen juist inzicht noodzakelijk is. We zien bijvoorbeeld, dat één punt, x1 = 60, y •
10, stuk afwijkt. Dientengevolge liggen slechts 3 van de 12 punten bene-
den en 9 punten boven de regressielijn. Het vermoeden ligt daarom voor de hand dat we hier met een uitschieter te doen hebben en het heeft zin de regressie analyse ook nog eens uit te voeren met weglating van dit punt, en dan de hypothese pa 1.00 opnieuw te toetsen. Ten slotte zij erop gewezen dat het model tl'tl} nadrukkelijk onderstelt dat alleen de waarneming y met fouten ~ behebt is en dat de waarneming x zonder fouten is, of althans dat de fÖuten in x te verwaarlozen zijn t.o.v. die in y. Is,dit·niet het geval dan zou het model luiden ( 88.1)
maar de bespreking van dit model valt buiten het kader van dit college en. stuit statistisch op bepaalde moeilijkheden. Niettemin is in vele gevallen waarin het model ~41) niet exact opgaat de regressie analyse als hierboven gegeven toch van nut. De methode der kleinste kwadraten heeft een praktische waarde geheel afgezien van de statistische interpretatie •
;,(;
•t"'
v.
.
1 .
;·'.t.: .
r '
.
'
•
-------------------
-----
89
Foutendiscussies en de wet van de voortplanting van fouten. Wanneer men in cj.e oheaie een oplossing titreert, of in de natuurkunde het gewicht of volUIIIen van een lioha.a.m bepaalt, heeft de gemeten grootheid in principe een ware wa.a:cde • 11 : -
0
het ware gehalte, gewicht, volume. Voeren we herhaald metingen x. uit, dan stemmen deze onderling niet exact '' l.
overeen. We vatten een serle metingen xi daarom steeds op ~s een aselecte steekproef uit een populatie van mogelijke metingen,, b
waarvoor we als model nemen
E(-2) • o,~
populatiegemiddelde~. ~
is het
de
toevall~ge
(89.2) waarnemingsfout.
In vele gevallen is 11 ~ 11 1 dan noemen we 0
'.:. '
'
(89.3)
' • 110 - 11 • de systematische fqut
in de metingen.· In het angels noemt men dit.. vaak de "acouracy". Het is de oorrectie die moet woclen aangebracht om uit het ~emingsgemiddelde 11 de wa.re waarde 11 te vinden: 11 • 11 + & • -· 0
0
Verder wordt· het resultaat van een natuurkundig, chemisch, of ander experiment vaak gevonden in de vorm Y.- f(:t.'
~· .;.3),
waarbij :t., ~· .;_3 gemeten grootheden zijn en Y. dEi grootheid die we willen weten. Een soortgelijk gewicht vinden·we ale het quotiänt van een gemeten gewicht en een gemeten volllllle:
z • :t. /~;
een specifieke weerstand als het product weerstand
x doorsnede gedee~d door een lengte; Y. • :t.~/.;_3 ; enz. De" vraag rijst dan hoe groot zijn de syetuatiecihe en toevallige fouten in Z• ·: · We schrijven daartoe :t. • 1110 - b1 + ~ 1
,
enz,
en ontwikkelen de functie f in het punt 11
,,
In vele gevallen. zijn b en
~
10
,
11
20
,
11 30 in
~en
Taylor reeks.
klein zodat kwadratische temen in deze grootheden ·
kunnen worden verwaarloosd. Dan geldt Y.- f 0 + f''b + f'b + tib + rïe + f!.2.., + f!.2.3 ' 1 1 2 2 3 3 1"'1 ~ ~ ~
(89-4)
Uit (
) volgt:
E_'V-I-' • !0
+ !'b + !'b + f'b 11 22 33
Meestal zullen we aamlemen dat de "ware" waarde ·van y gegeven wordt door !
0
,
De systema.tische fout in y is dan (ol).1) ' '
Verder volgt uit (
) 1
2! 11!
· In vele gevallen vallen de temen aet de . oovarianties weg oll!da.t· ,; onai'ha.nkelijk van elka.a.r worden bepaald. Formule (
2
1
oo·1'x x ) + ~1-2
, ,; ,
2
en ,;
3
) staat bekend a.ls de wet
van de voortplanting van fouten. Bovenstaande formules gelden alleen wanneer we.ons in de Taylor reeks (
)
tot de lineaire temen 1110gen beperken. Zó nodig kan men ook verder gaan en tevens
..
de kwadratische temen meerekenen, doch de formules worden dan gecompliceerd. . We vermelden slechts Mn speciaal geval I zijn de waarnemingen ,;
1
,
,;i
en ,; vrij 3
van systematische fouten dan geldt \
E'-) .. i'0 + ..1. I.L 21
{r•• 11
var =1 x
~i''' 22
var ""2 x + f'' var x 33 -3
De verwaohtingswaa.rde vanz is dan niet gelijk aa.n f
0
(90. 2)
doch bezit een systema-
tische !out die van de varianties en covaria.nties a.fha.ngt, Vaa.k beschrijft men de nauwkeurigheid van waarnemingen niet door de st.ande.ardafwijking a maar door de variantiecoäi'ficUnt ·.• V • .!! of • 100 .!! 11
11
%.
In vele gevallen is men meer in deze relatieve fout ge!nteresseerd dan in de
standaardafwijking zelf. Voor een Peiseon verdeling bijv. is
a • .r;: VIl
en
V•
..1. • {i;
De sta.ndaa.rda.fwijking a neemt evenredig met -{"; toe, doch· de variatie _coëfficiënt V neemt omgekeerd evenredig met
•
{i; a.r.
-
De variatie coäfficiänt is vooral van waarde wanneer we met een betrekking
91
van .de algeliene vom ( 91.1 )
te maken hebben. Zijn ~, ~ en ~ ozia..f'ha.nkelijk dan leidt de wet van de voort~ planting van fouten nu tot de relatie
(91.2) dlis nu een &dditieve betrekking tussen de kw&draten van de variatie coäfiioiilnten,
•
Voorbeelden A, Heeft ~ een Poisson verdeling, dan is in eerste benadering
De variantie van V~ is dus een konstante onafhakslijk van 11· In tweede benadering ia
E(.!)- V11(1 - ~11).
:a.
Voor!., geldt Ec_5) • ..,, var
fv
a
2)1
Hieruit volgt in eerste benadering,
var lv • -l ' dua een konstante onafhankelijk van v,
c·,
Stel we hebben twee radioactieve bronnen met intensiteiten A.1 en À 2 en we wensen het verschil A. - A te bepalen. Voor bron~ tellen we x1 deeltjes
2
1
in een tijd T en voor bron II, x 1
2
in tijd T • Dan is de schatting voor A.1 2
'\ t'
en ver
{t1
(a)
Is de totale beschikbare waarnemingstijd T - T1 + T2
( b)
gegeven, dan is het het voordeligst T en T2 z6 1 1r0rdt onder de voorwaarde (b),
te kiezen dat (a) minimaal
Met de methode van Lagrange moeten we À1 T
1
À2
(
.
+ T + k T1 + T2 - T) minimaal 2
maken als .functie van T , T2 , en k. 1 Dit geeft
•
•'
•
À2
'N of
(o)
D, Is het ons niet om het verschil maar om de verhouding
À
1
fo. 2
te tioen, dan
vinden we
(d)
en wanneer we ( d) minimaal maken onder de voonaarden (
b ) resultaat. (e)
De gunstigste verdeling van de waarnemingstijd h&ngt dus d
van ,de vraag
waarvoor we ons inter:resseren, en ie voor het verschil A1 - A2 een andere dan voor de verhouding A / A • 1 2 Natuurlijk kan men van de formules· ( C ) en ( e ) alleen gebruik maken wanneer men A en A
ongeveer kent, doch een voorlopige sohatting is vol2 doende, 11'8Jlt zo naUllkeurig komt het er niet op aan, 1
E~
Voor de lenzen proef geldt, 1 1 1 -=-+-of f •bv f'
••
b
bfl'
V
waaruit volgt 2
2
b dv + v db df=
(b +
V)
2
(f)
en verder b
42 22 a v + 2b v
(b
"_)-
oov~,.!:
42 + v a.f,
(g)
,
* v)4
Indien men wil uitmaken wat de optimale keuze vp b en v is, dient men er nu echter rekening mee te houden dat
a! en a; van b en v afhankelijk kxL~~n
zijn, Men moet dus eerst de instelfouten van b en v experimenteel voor verschillende waarden van b en v bepalen, Ook kan in dit geval, al naar de methode van werken een oorrelatie tussen
•
b en v bestaan, die dan natuurlijk in rekening moet worden gebracht,
Tot slot zij er ook op gewezen dat de scheiding tussen systematische en toevallige fouten geen absolute scheiding is. Voert men een chemische analyse ateeds uit met 44n en hetzelfde pipet, dan zal een fout in het volume van deze pipet optreden als een systematische foutJ gebruikt men steeds andere pipetten dan treden volume fouten op als toevallige fouten. Statistische methoden geven geen informatie over 4~n en-kele aystematische fout, Door "''trgelijk van resultaten met verschillende pip!i·èten bereikt kan de statistische analyse ons wel leren of verschillen tussen pipetten onderling bestaan. Zij leert ons echter niet of de verzameling beschikbare pipetten als geheel beschouwd e~n systematische fout bezit.
'. >
.,