Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Algemene informatie
Studiemateriaal
http://www.win.tue.nl/wsk/onderwijs/2S195
• Boek Statistical methods for the Social Sciences third edition, 1997 Alan Agresti & Barbara Finlay Prentice Hall International, INC isbn 0-13-622515-2
College en instructies • College: woensdag uur 1-2 HG6.96 • Instructies maandag uur 5-6 HG6.09 Auditorium noodgebouw, unit 2
• SPSS voor Regulier Onderwijs • Statistisch Compendium, nr. 2218 • Software: SPSS 11.5
• Opdrachten: opgaven uit boek en dictaat
http://www.win.tue.nl/wsk/onderwijs/2S195
• Datasets
• Voorbereiden: collegestof bestuderen en huiswerkopdrachten maken
http://www.win.tue.nl/wsk/onderwijs/2S195
• Notebook
1
2
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Inleiding Classificatie van variabelen - meetniveaus
Afrekening • Schriftelijk tentamen, 3 uren Toegestaan: rekenmachine en Compendium (onbeschreven) Stof: hoofdstukken 8 t/m 12, extra onderwerpen
Kwalitatief (categorisch) • Nominaal – beperkt aantal waarden – iedere waarde (categorie) is alfanumeriek – ongeordend – mathematische operaties hebben geen betekenis (zelfs bij genummerde categoriën)
Adressen – J. van Gellecum HG 8.14 Tel 4767 e-mail:
[email protected]
voorbeelden bloedgroep: geslacht: sector:
– A. de Jong HG 8.08 Tel. 4074 e-mail:
[email protected] – G. Mooiweer HG8.12 Tel. 4277 e-mail:
[email protected]
3
A - B - AB - O man - vrouw high Tech - metaal - bouw - overheid.
4
1
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Inleiding
Inleiding Kwantitatieve variabelen
•
Ordinaal – beperkt aantal waarden – iedere waarde (categorie) is alfanumeriek – geordend: iedere waarde is groter of kleiner dan alle andere waarden – mathematische operaties hebben geen betekenis (zelfs bij genummerde categoriën)
•
Interval – veel waarden, integer of real – waarden zijn geordend en duiden een afstand aan. een lichaamstemperatuur van 41°C is 4°C meer dan een lichaamstemperatuur van 37°C – sommige mathematische operaties zijn zinvol: optellen-aftrekken.
Voorbeelden Rendement: zeer hoog - hoog - normaal -laag -zeer laag Tentamenresultaat: 1 - 2 – 3 - …. -10
42°C is twee graden hoger dan 40°C ? – nulwaarde is willekeurig: aan nul refererende operaties zijn zonder betekenis. (vermenigvuldigen, delen) Is 40°C tweemaal zo warm als 20°C ?
5
•
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Inleiding
Inleiding
Ratio – – – –
6
Inhoud college
veel waarden, integer(discreet) of real(continu) waarden zijn geordend en duiden een afstand aan 0 is een natuurlijke locatie ‘alle’ mathematische operaties zijn zinvol
Verbanden tussen grootheden • kwalitatief - kwalitatief ===> kruistabellen – bestaat er een verband tussen favoriet merk kattenvoer en geslacht kat ? – zo ja, hoe sterk is dat verband ?
discreet ° gezinsgrootte ° jaarlijks aantal internetklanten ° aantal vacatures in november 1999
• Kwantitatief - kwalitatief ===> variantie-analyse – zijn er verschillen in frisdrankconsumptie tussen de seizoenen ? – zo ja, waar zitten de verschillen en hoe groot zijn ze ? – zijn er nog andere factoren (land, inkomensklasse) ? – zijn er storende invloeden ?
continu ° huizenprijs ° gewicht ° hemoglobineconcentratie
• Kwantitatief - kwantitatief
===> regressie, correlatie
– is er een verband tussen de AEX index en Dow Jones index ? – zo ja, wat is de aard ervan ? (lineair, kwadratisch,…) – hoe sterk is het verband ? – voorspellen – zijn er nog andere factoren ? (Nikkei, Han Seng, DAX, dollarkoers) 7
8
2
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwantitatieve variabelen
Associaties tussen kwantitatieve variabelen
Correlatie
Definitie Steekproefcovariantie tussen X en Y
cov( x, y ) =
Veronderstel: X en Y paarsgewijs waargenomen continue stochastische variabelen in een aselecte steekproef van omvang n
1
n
∑ ( xi − x )( yi − y ) n − 1 i =1
cov(x, y ) < 0
cov( x, y ) > 0
na translatie
cov(x, y ) = 0 • cov(x,y) < 0 negatieve associatie • cov(x,y) > 0 positieve associatie • cov(x,y) = 0 geen (lineaire) associatie 9
10
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwantitatieve variabelen
Associaties tussen kwantitatieve variabelen
Definitie Correlatiecoëfficiënt
voorbeelden n
rXY =
cov( x, y ) oftewel r = XY s X sY
∑ ( xi − x )( yi − y )
i =1 n
n
i =1
i =1
2 ∑ ( xi − x ) ∑ ( yi − y )
2
rXY beschrijft de mate van lineaire samenhang tussen twee paarsgewijs waargenomen continue stochastische variabelen X en Y.
• -1 ≤ rXY < 0 negatieve associatie • 0 < rXY ≤ 1 positieve associatie • rXY = 0 geen (lineaire) associatie
11
12
3
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwantitatieve variabelen
Associaties tussen kwantitatieve variabelen
Generalisatie naar populatie Steekproef-correlatiecoëfficiënt
Correlatietoets Veronderstel X en Y zijn normaal verdeelde stochastische grootheden
n
rXY
cov(x, y ) = s X sY
∑ ( xi − x )( yi − y )
i =1
rXY =
n
n
i =1
i =1
2 ∑ ( xi − x ) ∑ ( yi − y )
•
2
Hypothesen
H 0 : ρ XY = 0
Populatie-correlatiecoëfficiënt
ρ XY =
E ( X − μ X )(Y − μ Y )
•
Toetsingsgrootheid
σ XσY
R n−2
V=
Eigenschappen
1 − R2
Onder H0: V ~ tn – 2
−1 ≤ ρ ≤ 1
• −1 ≤ r ≤ 1
(X en Y zijn onderling onafhankelijk)
H1 : ρ XY ≠ 0 ρ XY > 0 ρ XY < 0
• | ρ |= 1 dan exact lineair verband (Y = a + bX ) | r |= 1 puntenwolk colineair
•
Beslissingscriterium Verwerp H0 als | v | > tn− 2,α / 2 (tweezijdig) v > tn− 2,α (rechtseenzijdig) v < −tn − 2,α (linkseenzijdig) of equivalent als p-value < α
•
Opmerking: toesten van H 0 : ρ XY = ρ0
• ρ = 0 dan geen lineair verband, X en Y ongecorreleerd r = 0 chaos • ρ ( aX + b, cY + d ) = ± ρ ( X , Y )
kan ook
13
14
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwantitatieve variabelen
Associaties tussen kwantitatieve variabelen
Voorbeeld: In 61 steden in Engeland en Wales werd onderzocht: • gemiddeld jaarlijks sterftecijfer over de jaren 1958-1964 per 100.000 mannelijke inwoners • de hardheid van het drinkwater (calciumconcentratie in deeltjes per miljoen)
Hardheid van water in GB 2000
r = –0.66
1800
1600
1400
Hardheid van water in GB Sterftecijfer
2000
1800
1200
1000 0
1600
20
40
60
80
100
120
140
100
120
140
Calciumconcentratie
Hardheid van water in GB
1400
Sterftecijfer
2000
1200 1800
1000 0
20
40
60
80
100
120
140
1600
Calciumconcentratie 1400
v=
−0.66 61 − 2 1 − 0.662
= −6.65
Sterftecijfer
is er een lineair verband ? r = –0.66
onder H0: V ~ t59 p-value = 2P(t59 < – 6.65) = 2P(Z < – 6.65) ≈ 0
1200
1000 0
20
40
60
80
Calciumconcentratie
15
16
4
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwantitatieve variabelen
Associaties tussen kwantitatieve variabelen
Schattingen van de coëfficiënten
Kleinste kwadraten methode n
S ( a , b) = ∑ ( a + bxi − yi )
Veronderstel lineair verband Y=α+βX
2
i =1
∂S ∂a ∂S ∂a
∂S
n
= 2 ∑ ( a + bxi − yi )
∂b ∂S
i =1
=0⇔
∂b
n
= 2 ∑ xi ( a + bxi − yi ) i =1
=0⇔ n
a = y − bx
b=
∑ ( xi − x )( yi − y )
i =1
n
=
2 ∑ ( xi − x )
i =1
=
dus:
βˆ =
cov(x , y ) s x2
en
cov(x, y ) s x2
ˆ αˆ = y − bx
Verband tussen helling en correlatiecoëfficiënt
βˆ =
cov(x, y ) cov(x, y ) . s y r. s y = = dus sx s y sx sx sx2
βˆ = r.
sy sx
17
18
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwantitatieve variabelen
Associaties tussen kwantitatieve variabelen
Voorbeeld
Lineaire regressie
Hardheid van water in GB
doel Onderzoek naar het verband tussen één continue variabele en één of meer continue variabelen • opbrengst per hectare - hoeveelheid kunstmest • huizenprijs - aantal kamers, bouwjaar • ijsconsumptie - temperatuur
2000
1800
1600
Sterftecijfer
1400
Vragen • Is er een verband tussen de ijsconsumptie op een bepaalde dag en de buitentemperatuur op die dag ? • Zo ja: wat is de aard van dit verband ? - lineair ? - kwadratisch ? - .........… • Valt de ijsverkoop op een bepaalde dag te voorspellen a.d.h.v. de weersverwachting voor die dag ? • Hoe betrouwbaar is deze voorspelling ? • Zijn er mogelijk nog andere factoren in het spel ? inkomen ? prijs ? .................................
1200
1000 0
20
40
60
80
100
120
140
Calciumconcentratie
skalk = 38.094
gem. kalk = 47.18
ssterfte = 187.67
gem. sterfte = 1524.15
r = −0.66
βˆ = r.
sy sx
= −0.66 *
187.67 = −3.25 38.094
ˆ = 1524.15 − −3.25* 47.18 = 1677.5 αˆ = y − bx aangepaste lijn: y = 1677.5 − 3.25 x 19
20
5
Statistiek 2 voor TeMa
Statistiek 2 voor TeMa
Associaties tussen kwantitatieve variabelen
Associaties tussen kwantitatieve variabelen
Algemener
Enkelvoudige lineaire regressie
• Is er een verband tussen een te meten (kwantitatieve continue) responsvariabele en één of meerdere instelbare (kwantitatieve) variabelen ?
Uitgangspunt Een lineair verband tussen een continue responsvariabele en één continue onafhankelijke variabele
• Zo ja, is dit verband te modelleren ?
Voorbeeld: Is er een lineaire relatie tussen ijsconsumptie en temperatuur ?
• Zo ja, hoe betrouwbaar is het model ?
IJsconsumptie in liters per persoon Gemeten over 30 perioden van vier weken van 18-03-1951 tot 11-07-1953
• Kunnen toekomstige waarden van de responsvariabele worden voorspeld ? • Bij welke instellingen is de waarde van de responsvariabele optimaal ?
Gemeten zijn de volgende variabelen consump : ijsonsumptie in liters per persoon prijs : prijs in guldens per liter inkomen : gemiddelde inkomen in guldens per week temp : buitentemperatuur in graden Celsius
• Verbetert de kwaliteit van het model na toevoeging of weglating van een of meerdere factoren ?
21
22
6