Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek Peter de Waal (gebaseerd op slides Marjan van den Akker, Peter de Waal)
00394756520584654261849505028761647595030. . . Joepie, ons computerprogramma levert output. . .
Departement Informatica Beta-faculteit, Universiteit Utrecht
Joepie, we hebben gegevens uit onze enquete. . . Q: Wat doen we hiermee?
Lecture 1:
1 / 49
Output gegevens
1 2
2 / 49
Kansrekening en statistiek in de informatica
Valideren Ordenen: 1 Tabellen 2
Lecture 1:
Randomized algorithms Data-mining
Grafieken
Bayesiaanse netwerken voor medische diagnose
‘Statistieken’ Mogelijke conclusie definieren: 1 Relaties en verschillen 3
3
2
4
Planning met verstoringen Modellen voor bewegende karakters in spellen Testen computer-games
Gebaseerd op je onderzoeksvraag, maar eventueel andere interessante fenomenen.
Hypotheses toetsen en analyseren mbv. Statistiek.
Lecture 1:
3 / 49
Lecture 1:
4 / 49
Materiaal
Wat is statistiek?
Nel Verhoeven. Statistiek in stappen. Boom Lemma Uitgevers, 2013. ISBN 978 90 5931 9639.
‘Leer en methode om door middel van cijfers inzicht te krijgen in massale verschijnselen, .. (van Dale) ‘De wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van gegevens. (Wikipedia)
Gedeeltelijk gebaseerd op slides van Wetenschappelijke Onderzoeksmethoden (INKU Bachelor)
Lecture 1:
5 / 49
Kansrekening en Statistiek
Beschrijvende statistiek: Hoofdstuk 2 + 3
I
Toetsende statistiek: Hoofdstuk 5, 6, + 9
Lecture 1:
6 / 49
Vandaag: Beschrijvende statistiek
Kansrekening: I Theoretische basis: Hoofdstuk 4 Statistiek: I Theoretische basis: Hoofdstuk 4 I
Lecture 1:
There are three kinds of lies: lies, damn lies, and statistics (Mark Twain)
7 / 49
Lecture 1:
8 / 49
Enquetes
Onderzoek
Bron: nos.nl Lecture 1:
9 / 49
Onderzoek
Lecture 1:
10 / 49
Lecture 1:
12 / 49
Definities
Bron: De Pers, 19-09-2011 Lecture 1:
11 / 49
Vertekenende plaatsje
Statistiek kan veel. . .
Maar wees nauwkeurig! Manieren om fouten te maken: Garbage data Slechte steekproef Wisselende of onduidelijke definities Vertekenende plaatjes Verkeerde gevolgtrekkingen ... Bron: UU Jaarbeeld 2012 Lecture 1:
13 / 49
Lecture 1:
14 / 49
Definities: Populatie en steekproef Populatie: verzameling van alle personen, objecten of gebeurtenissen waar een vraagstelling of onderzoek betrekking op heeft Steekproef: selectie van elementen uit de populatie
DATA VERVALSEN IS FRAUDE
Variabele: te meten/bepalen karakteristiek van persoon, object. . . Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit? Variabele: aantal uitgaansavonden per maand Populatie: alle studenten ingeschreven voor de opleiding Informatica Utrecht. Steekproef: Remco, Maxime, Jelle, Jeanine, Timo, Falco, Bram, Jona, Rutger
Lecture 1:
15 / 49
Lecture 1:
16 / 49
Definities: meetniveaus van variabelen
Meetniveau: nominaal Nominaal meetniveau: Indeling in categorieen Indeling: I Uitsluitend (mutually exclusive)
Nominaal
I
Ordinaal
Uitputtend (exhaustive)
Voorbeeld:
Interval Ratio
of Informatica of Gametechnologie Lecture 1:
17 / 49
Meetniveau: ordinaal
Interval meetniveau: Rangorde, maar zegt ook iets over grootte van het verschil, afstand (geen natuurlijk nulpunt)
Indeling in rangorde Voorbeeld: hoogste niveau van genoten vervolgopleiding: Middelbare school
2
HBO
3
Universiteit
Lecture 1:
18 / 49
Meetniveau: interval
Ordinaal meetniveau:
1
Lecture 1:
Voorbeeld: Temperatuur in Celsius
19 / 49
Lecture 1:
20 / 49
Meetniveau: ratio
Welke schaal?
Likert schaal:
Ratio meetniveau
Op een bewering wordt gereageerd in termen van eens / oneens
rangorde, zegt iets over afstand en over verhouding, Gevolg: Natuurlijk nulpunt, geen negatieve waarden. Voorbeeld Lichaamslengte Gewicht Looptijd algoritme
Lecture 1:
21 / 49
Traveling Salesman probleem
Lecture 1:
22 / 49
Descriptieve maten uit steekproef
Achtergrond voor pizza-koeriers. Steekproef e´ e´ n variabele: X1 , X2 , X3 , . . . , XN
Gegeven zijn N steden en hun onderlinge afstanden. Vind de kortste route waarbij je elke stad precies n keer bezoekt.
Verhoudingsmaten Centrummaten
Variabelen:
Spreidingsmaten
Looptijd algoritme
Steekproef twee variabelen: X1 , X2 , X3 , . . . , XN en Y1 , Y2 , Y3 , . . . , YN
Lengte route Vraag:
Relatiematen
Welke schaal? Nulpunt?
Lecture 1:
23 / 49
Lecture 1:
24 / 49
Verhoudingsmaten
Frequentietabel
Absolute frequenties:
4 5 6 7 8 9 10 totaal
7 (van de 12) Relatieve frequenties: 3 op de 100 3% 0.03
Lecture 1:
25 / 49
Frequentieverdelingen: bar chart
Frequentie 14 15 19 22 24 19 10 123
Percentage 11.38 12.20 15.45 17.89 19.51 15.45 8.13 100
Lecture 1:
Cumul. perc. 11.38 23.58 39.02 56.91 76.42 91.87 100.00 100.00
26 / 49
Frequentieverdelingen: histogram 10 tot 20 groepen met even groot domein.
Lecture 1:
27 / 49
Lecture 1:
28 / 49
Scoreverdelingen: percentiel(score)
Frequentietabel
De score van het ne percentiel (Pn ) is de score waarbij tenminste n% in de verdeling lager of gelijk scoort, en tenminste 100-n% hoger of gelijk. Bijvoorbeeld P90 = 189 kan betekenen dat 90% van alle Nederlanders een lengte ≤ 189 cm heeft. Het meest gebruikte percentiel is de mediaan P50 : 50% van de observaties liggen links van de mediaan. Soms wordt ook nog gebruikt: I P 25 (heet ook eerste kwartiel), I
P75 (heet ook derde kwartiel).
4 5 6 7 8 9 10 totaal
Frequentie 14 15 19 22 24 19 10 123
Percentage 11.38 12.20 15.45 17.89 19.51 15.45 8.13 100
Cumul. perc. 11.38 23.58 39.02 56.91 76.42 91.87 100.00 100.00
Wat is de mediaan? 7
Pas op bij frequenties groter dan 1.
Wat is P25 ? 6
Lecture 1:
29 / 49
Centrummaten: modus Modus (“Eng: Mode”): de waarde in de distributie die het meest voorkomt; de categorie met de hoogste frequentie
Lecture 1:
30 / 49
Centrummaten: mediaan Het punt dat de waarnemingen door midden deelt, of Ook mogelijk: Bimodaal (kameelverdeling) Multimodaal
De waarde die, in de ordening van laag naar hoog, hoort bij de middelste, of Het punt waarbij tenminste 50% lager of gelijk scoort, en tenminste 50% hoger of gelijk scoort. Voorbeeld A: 1, 2, 3, 5, 6 Voorbeeld B: 1, 2, 3, 5, 6, 7 Sorteer van klein naar groot: Bij oneven aantal getallen: kies middelste Bij even aantal getallen: kies gemiddelde van middelste 2 (Excel) Of kies het hele interval ([3,5]) in Voorbeeld B als mediaan.
Lecture 1:
31 / 49
Lecture 1:
32 / 49
Centrummaten: gemiddelde
Test
Indicatie van het evenwichtspunt van de meetwaarden. Q: Op welk meetniveau kunnen de centrummaten toegepast worden? Student Jesse Jasper Jordy Jorrit Jarno Gemiddelde
De som van alle waarden, gedeeld door het aantal waarden Populatie: PN µ=
i=1 Xi
N
Gevulde koeken 2 4 4 3 2 X=3
Als Xi heeft frequentie fi , dan P fi Xi X= n
Steekproef: Pn Xi X = i=1 n
Lecture 1:
Interval? (Modus, mediaan, gemiddelde)
Modus Gemiddelde
33 / 49
Ratio? (Modus, mediaan, gemiddelde)
Lecture 1:
34 / 49
Spreidingsmaten
1
2
2
3
5
6
7
8
11
Gemiddelde = ? 5
Bereik
Mediaan = ? 5 Voorbeeld B:
Ordinaal? (Modus, mediaan)
Mediaan
Q: Welke centrummaat is gevoelig voor outliers (uitbijters)?
Voorbeelden
Voorbeeld A:
Nominaal? (Modus)
1
Variantie 2
2
3
5
6
7
8
Standaarddeviatie
20
Gemiddelde = ? 6 Mediaan = ? 5
Lecture 1:
35 / 49
Lecture 1:
36 / 49
Spreidingsmaten: Populatievariantie
Spreidingsmaat: bereik of “range”
Gemiddelde kwadratische afwijking van het gemiddelde 2
σ =
Hoogste waarde minus laagste waarde in een distributie Zegt niets over hoe het aantal scores verdeeld is binnen dat bereik.
Lecture 1:
Schatting voor populatievariantie σ 2 Gemiddelde kwadratische afwijking van het gemiddelde 2
s =
Pn
− X)2 n−1
i=1 (Xi
Standaarddeviatie s Pn 2 i=1 (Xi − X) s= n−1
Student Jesse Jasper Jordy Jorrit Jarno
Gevulde koeken 2 4 4 3 2
N
Student Jesse Jasper Jordy Jorrit Jarno
Gevulde koeken 2 4 4 3 2
Lecture 1:
38 / 49
Herinnering: P25 = eerste kwartiel (Eng: quartile) P75 = derde kwartiel IQR = Interquartile range = P75 − P25 .
(2−3)2 +(4−3)2 +(4−3)2 +(3−3)2 +(2−3)2 4 4 4
− µ)2
Spreidingsmaten: Interquartile range
s2 =
=
i=1 (Xi
Standaarddeviatie s PN 2 i=1 (Xi − µ) σ= N
37 / 49
Spreidingsmaten: Steekproefvariantie
PN
=
=1
Vrijheidsgraden df = n − 1
Lecture 1:
39 / 49
Lecture 1:
40 / 49
Relaties tussen twee of meer variabelen
Relatiematen
Voor twee nominale variabelen: Kruistabel:Tweedimensionaal frequentiediagram.
Twee variabelen: X en Y, met I Gemiddelden: X en Y
Voorbeeld
I
Standaarddeviaties: sX en sY
Covariantie: P (Xi − X)(Yi − Y) cov(x, y) = n−1 Correlatie: r=
Lecture 1:
41 / 49
Correlatie: voorbeeld
Jesse Jasper Jordy Jorrit Jarno
Correlatiematrix uit Excel
Gevulde koeken 2 4 4 3 2
Regels Code 153 196 52 252 301
Cola vs code
300 Regels code
Regels code
350
250 200 150 100
150 100 50 0
1
2
3 Blikjes cola
Lecture 1:
4
5
6
300
200 150 100
0
1
2
3
4
250 200 150 100 50 0
0
1
2
3
4
r Cola Koeken Code
200
0
250
5
6
0
1
Blikjes cola
250
50
350
0
Koeken vs code
300
Koeken vs code
300
50
Cola vs code
0
42 / 49
Regels code
Blikjes Cola 3 4 1 5 6
Lecture 1:
Regels code
Student
cov(x, y) , (−1 ≤ r ≤ 1 sx · sy
2
3
4
5
Gevulde koeken
Cola 1 -0.5198 0.9995
Koeken
Code
1 -0.5398
1
5
Gevulde koeken
r dicht bij 1 of -1: lineair verband 43 / 49
Lecture 1:
44 / 49
Verband 6= correlatie
Correlatie 6= Causaliteit
Redbull vs code 300
Regels code
250 200 150 100 50 0
0
1
2
3
4
5
6
Blikjes redbull
“Kwadratisch” verband. Correlatie r = 0. Lecture 1:
45 / 49
Correlatie 6= Causaliteit (2)
Lecture 1:
46 / 49
Correlatie 6= Causaliteit (2)
Figure 2: The relationship between broadband speed and household income 10 Japan
Broadband speed (Mbps)
8 Germany France Italy Spain 6
UK
US
Sweden
South Africa Brazil
Mexico China (urban)
4 India 2 0
20,000
40,000
60,000
Annual household income (USD PPP)
Lecture 1:
47 / 49
Lecture 1:
48 / 49
Samenvatting
Variabelen Meetniveaus Beschrijvende statistiek Volgende keer: Theoretische kansverdelingen Z-scores Normale verdeling Steekproefverdeling Centrale limietstelling
Lecture 1:
49 / 49