Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek. Output gegevens. Kansrekening en statistiek in de informatica

Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek Peter de Waal (gebaseerd op slides Marjan van den Akker, Peter de Waal)

00394756520584654261849505028761647595030. . . Joepie, ons computerprogramma levert output. . .

Departement Informatica Beta-faculteit, Universiteit Utrecht

Joepie, we hebben gegevens uit onze enquete. . . Q: Wat doen we hiermee?

Lecture 1:

1 / 49

Output gegevens

1 2

2 / 49

Kansrekening en statistiek in de informatica

Valideren Ordenen: 1 Tabellen 2

Lecture 1:

Randomized algorithms Data-mining

Grafieken

Bayesiaanse netwerken voor medische diagnose

‘Statistieken’ Mogelijke conclusie definieren: 1 Relaties en verschillen 3

3

2

4

Planning met verstoringen Modellen voor bewegende karakters in spellen Testen computer-games

Gebaseerd op je onderzoeksvraag, maar eventueel andere interessante fenomenen.

Hypotheses toetsen en analyseren mbv. Statistiek.

Lecture 1:

3 / 49

Lecture 1:

4 / 49

Materiaal

Wat is statistiek?

Nel Verhoeven. Statistiek in stappen. Boom Lemma Uitgevers, 2013. ISBN 978 90 5931 9639.

‘Leer en methode om door middel van cijfers inzicht te krijgen in massale verschijnselen, .. (van Dale) ‘De wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van gegevens. (Wikipedia)

Gedeeltelijk gebaseerd op slides van Wetenschappelijke Onderzoeksmethoden (INKU Bachelor)

Lecture 1:

5 / 49

Kansrekening en Statistiek

Beschrijvende statistiek: Hoofdstuk 2 + 3

I

Toetsende statistiek: Hoofdstuk 5, 6, + 9

Lecture 1:

6 / 49

Vandaag: Beschrijvende statistiek

Kansrekening: I Theoretische basis: Hoofdstuk 4 Statistiek: I Theoretische basis: Hoofdstuk 4 I

Lecture 1:

There are three kinds of lies: lies, damn lies, and statistics (Mark Twain)

7 / 49

Lecture 1:

8 / 49

Enquetes

Onderzoek

Bron: nos.nl Lecture 1:

9 / 49

Onderzoek

Lecture 1:

10 / 49

Lecture 1:

12 / 49

Definities

Bron: De Pers, 19-09-2011 Lecture 1:

11 / 49

Vertekenende plaatsje

Statistiek kan veel. . .

Maar wees nauwkeurig! Manieren om fouten te maken: Garbage data Slechte steekproef Wisselende of onduidelijke definities Vertekenende plaatjes Verkeerde gevolgtrekkingen ... Bron: UU Jaarbeeld 2012 Lecture 1:

13 / 49

Lecture 1:

14 / 49

Definities: Populatie en steekproef Populatie: verzameling van alle personen, objecten of gebeurtenissen waar een vraagstelling of onderzoek betrekking op heeft Steekproef: selectie van elementen uit de populatie

DATA VERVALSEN IS FRAUDE

Variabele: te meten/bepalen karakteristiek van persoon, object. . . Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit? Variabele: aantal uitgaansavonden per maand Populatie: alle studenten ingeschreven voor de opleiding Informatica Utrecht. Steekproef: Remco, Maxime, Jelle, Jeanine, Timo, Falco, Bram, Jona, Rutger

Lecture 1:

15 / 49

Lecture 1:

16 / 49

Definities: meetniveaus van variabelen

Meetniveau: nominaal Nominaal meetniveau: Indeling in categorieen Indeling: I Uitsluitend (mutually exclusive)

Nominaal

I

Ordinaal

Uitputtend (exhaustive)

Voorbeeld:

Interval Ratio

of Informatica of Gametechnologie Lecture 1:

17 / 49

Meetniveau: ordinaal

Interval meetniveau: Rangorde, maar zegt ook iets over grootte van het verschil, afstand (geen natuurlijk nulpunt)

Indeling in rangorde Voorbeeld: hoogste niveau van genoten vervolgopleiding: Middelbare school

2

HBO

3

Universiteit

Lecture 1:

18 / 49

Meetniveau: interval

Ordinaal meetniveau:

1

Lecture 1:

Voorbeeld: Temperatuur in Celsius

19 / 49

Lecture 1:

20 / 49

Meetniveau: ratio

Welke schaal?

Likert schaal:

Ratio meetniveau

Op een bewering wordt gereageerd in termen van eens / oneens

rangorde, zegt iets over afstand en over verhouding, Gevolg: Natuurlijk nulpunt, geen negatieve waarden. Voorbeeld Lichaamslengte Gewicht Looptijd algoritme

Lecture 1:

21 / 49

Traveling Salesman probleem

Lecture 1:

22 / 49

Descriptieve maten uit steekproef

Achtergrond voor pizza-koeriers. Steekproef e´ e´ n variabele: X1 , X2 , X3 , . . . , XN

Gegeven zijn N steden en hun onderlinge afstanden. Vind de kortste route waarbij je elke stad precies n keer bezoekt.

Verhoudingsmaten Centrummaten

Variabelen:

Spreidingsmaten

Looptijd algoritme

Steekproef twee variabelen: X1 , X2 , X3 , . . . , XN en Y1 , Y2 , Y3 , . . . , YN

Lengte route Vraag:

Relatiematen

Welke schaal? Nulpunt?

Lecture 1:

23 / 49

Lecture 1:

24 / 49

Verhoudingsmaten

Frequentietabel

Absolute frequenties:

4 5 6 7 8 9 10 totaal

7 (van de 12) Relatieve frequenties: 3 op de 100 3% 0.03

Lecture 1:

25 / 49

Frequentieverdelingen: bar chart

Frequentie 14 15 19 22 24 19 10 123

Percentage 11.38 12.20 15.45 17.89 19.51 15.45 8.13 100

Lecture 1:

Cumul. perc. 11.38 23.58 39.02 56.91 76.42 91.87 100.00 100.00

26 / 49

Frequentieverdelingen: histogram 10 tot 20 groepen met even groot domein.

Lecture 1:

27 / 49

Lecture 1:

28 / 49

Scoreverdelingen: percentiel(score)

Frequentietabel

De score van het ne percentiel (Pn ) is de score waarbij tenminste n% in de verdeling lager of gelijk scoort, en tenminste 100-n% hoger of gelijk. Bijvoorbeeld P90 = 189 kan betekenen dat 90% van alle Nederlanders een lengte ≤ 189 cm heeft. Het meest gebruikte percentiel is de mediaan P50 : 50% van de observaties liggen links van de mediaan. Soms wordt ook nog gebruikt: I P 25 (heet ook eerste kwartiel), I

P75 (heet ook derde kwartiel).

4 5 6 7 8 9 10 totaal

Frequentie 14 15 19 22 24 19 10 123

Percentage 11.38 12.20 15.45 17.89 19.51 15.45 8.13 100

Cumul. perc. 11.38 23.58 39.02 56.91 76.42 91.87 100.00 100.00

Wat is de mediaan? 7

Pas op bij frequenties groter dan 1.

Wat is P25 ? 6

Lecture 1:

29 / 49

Centrummaten: modus Modus (“Eng: Mode”): de waarde in de distributie die het meest voorkomt; de categorie met de hoogste frequentie

Lecture 1:

30 / 49

Centrummaten: mediaan Het punt dat de waarnemingen door midden deelt, of Ook mogelijk: Bimodaal (kameelverdeling) Multimodaal

De waarde die, in de ordening van laag naar hoog, hoort bij de middelste, of Het punt waarbij tenminste 50% lager of gelijk scoort, en tenminste 50% hoger of gelijk scoort. Voorbeeld A: 1, 2, 3, 5, 6 Voorbeeld B: 1, 2, 3, 5, 6, 7 Sorteer van klein naar groot: Bij oneven aantal getallen: kies middelste Bij even aantal getallen: kies gemiddelde van middelste 2 (Excel) Of kies het hele interval ([3,5]) in Voorbeeld B als mediaan.

Lecture 1:

31 / 49

Lecture 1:

32 / 49

Centrummaten: gemiddelde

Test

Indicatie van het evenwichtspunt van de meetwaarden. Q: Op welk meetniveau kunnen de centrummaten toegepast worden? Student Jesse Jasper Jordy Jorrit Jarno Gemiddelde

De som van alle waarden, gedeeld door het aantal waarden Populatie: PN µ=

i=1 Xi

N

Gevulde koeken 2 4 4 3 2 X=3

Als Xi heeft frequentie fi , dan P fi Xi X= n

Steekproef: Pn Xi X = i=1 n

Lecture 1:

Interval? (Modus, mediaan, gemiddelde)

Modus Gemiddelde

33 / 49

Ratio? (Modus, mediaan, gemiddelde)

Lecture 1:

34 / 49

Spreidingsmaten

1

2

2

3

5

6

7

8

11

Gemiddelde = ? 5

Bereik

Mediaan = ? 5 Voorbeeld B:

Ordinaal? (Modus, mediaan)

Mediaan

Q: Welke centrummaat is gevoelig voor outliers (uitbijters)?

Voorbeelden

Voorbeeld A:

Nominaal? (Modus)

1

Variantie 2

2

3

5

6

7

8

Standaarddeviatie

20

Gemiddelde = ? 6 Mediaan = ? 5

Lecture 1:

35 / 49

Lecture 1:

36 / 49

Spreidingsmaten: Populatievariantie

Spreidingsmaat: bereik of “range”

Gemiddelde kwadratische afwijking van het gemiddelde 2

σ =

Hoogste waarde minus laagste waarde in een distributie Zegt niets over hoe het aantal scores verdeeld is binnen dat bereik.

Lecture 1:

Schatting voor populatievariantie σ 2 Gemiddelde kwadratische afwijking van het gemiddelde 2

s =

Pn

− X)2 n−1

i=1 (Xi

Standaarddeviatie s Pn 2 i=1 (Xi − X) s= n−1

Student Jesse Jasper Jordy Jorrit Jarno

Gevulde koeken 2 4 4 3 2

N

Student Jesse Jasper Jordy Jorrit Jarno


Lecture 1:

38 / 49

Herinnering: P25 = eerste kwartiel (Eng: quartile) P75 = derde kwartiel IQR = Interquartile range = P75 − P25 .

(2−3)2 +(4−3)2 +(4−3)2 +(3−3)2 +(2−3)2 4 4 4

− µ)2

Spreidingsmaten: Interquartile range

s2 =

=

i=1 (Xi

Standaarddeviatie s PN 2 i=1 (Xi − µ) σ= N

37 / 49

Spreidingsmaten: Steekproefvariantie

PN

=

=1

Vrijheidsgraden df = n − 1

Lecture 1:

39 / 49

Lecture 1:

40 / 49

Relaties tussen twee of meer variabelen

Relatiematen

Voor twee nominale variabelen: Kruistabel:Tweedimensionaal frequentiediagram.

Twee variabelen: X en Y, met I Gemiddelden: X en Y

Voorbeeld

I

Standaarddeviaties: sX en sY

Covariantie: P (Xi − X)(Yi − Y) cov(x, y) = n−1 Correlatie: r=

Lecture 1:

41 / 49

Correlatie: voorbeeld

Jesse Jasper Jordy Jorrit Jarno

Correlatiematrix uit Excel


Regels Code 153 196 52 252 301

Cola vs code

300 Regels code

Regels code

350

250 200 150 100

150 100 50 0

1

2

3 Blikjes cola

Lecture 1:

4

5

6

300

200 150 100

0

1

2

3

4

250 200 150 100 50 0

0

1

2

3

4

r Cola Koeken Code

200

0

250

5

6

0

1

Blikjes cola

250

50

350

0

Koeken vs code

300

Koeken vs code

300

50

Cola vs code

0

42 / 49

Regels code

Blikjes Cola 3 4 1 5 6

Lecture 1:

Regels code

Student

cov(x, y) , (−1 ≤ r ≤ 1 sx · sy

2

3

4

5

Gevulde koeken

Cola 1 -0.5198 0.9995

Koeken

Code

1 -0.5398

1

5

Gevulde koeken

r dicht bij 1 of -1: lineair verband 43 / 49

Lecture 1:

44 / 49

Verband 6= correlatie

Correlatie 6= Causaliteit

Redbull vs code 300

Regels code

250 200 150 100 50 0

0

1

2

3

4

5

6

Blikjes redbull

“Kwadratisch” verband. Correlatie r = 0. Lecture 1:

45 / 49

Correlatie 6= Causaliteit (2)

Lecture 1:

46 / 49

Correlatie 6= Causaliteit (2)

Figure 2: The relationship between broadband speed and household income 10 Japan

Broadband speed (Mbps)

8 Germany France Italy Spain 6

UK

US

Sweden

South Africa Brazil

Mexico China (urban)

4 India 2 0

20,000

40,000

60,000

Annual household income (USD PPP)

Lecture 1:

47 / 49

Lecture 1:

48 / 49

Samenvatting

Variabelen Meetniveaus Beschrijvende statistiek Volgende keer: Theoretische kansverdelingen Z-scores Normale verdeling Steekproefverdeling Centrale limietstelling

Lecture 1:

49 / 49

Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek. Output gegevens. Kansrekening en statistiek in de informatica

Recommend Documents