A binomiális és a hipergeom. elo. összehasonlítása
Valószínőségszámítás és statisztika elıadás info. BSC/B-C szakosoknak
0.4 0.35 0.3
p
0.25 Hip.geom (N=20,M=10) Binomiális (p=0.5)
0.2 0.15
3. elıadás Szeptember 26
0.1 0.05 0 0
1
2
3
4
5
6
7
8
9
10
k
Tulajdonságok
Teljes eseményrendszer
Ha X diszkrét valószínőségi változó, f :R→R tetszıleges függvény, akkor f (X) is diszkrét valószínőségi változó. Példa: X a gyártott termék hossza mm-ben. Tegyük fel, hogy P (X=18)=…= =P (X=22)=1/5. T.f.h. az ideális a 20 mm. Ekkor a d=|X-20| eloszlása: P (d=0)=1/5, P (d=1) = P (d=2) = 2/5.
Ha X diszkrét valószínőségi változó, akkor az Ai={ω:X(ω)= xi} események teljes eseményrendszert alkotnak.
Példák, szimulációk
Valószínőségi változók függetlensége
• Mintavétel Monty-Hall szimuláció
függetlenek, ha
P ({X = xi }∩ {Y = yk})=P (X = xi )P (Y = yk) teljesül minden i,k értékre. (Azaz az X-hez és
• Kocka-érme kísérlet
X feltételes eloszlása A eseményre vonatkozóan: qi :=P (X=xi|A). Ez is eloszlás: ∑ qi =∑ P( X i
i
X és Y diszkrét valószínőségi változók
= xi | A) =∑ i
P ( X = xi ∩ A) =1 P( A)
az Y-hoz tartozó teljes eseményrendszerek függetlenek.) Megjegyzés:
az elfajult eloszlású valószínőségi változó minden valószínőségi változótól független. Önmagától csak az elfajult eloszlású valószínőségi változó független.
1
A matematikai statisztika tárgya
Következtetések levonása adatok alapján
Ipari termelés Mezıgazdaság Szociológia (közvéleménykutatások) Természettudományok
Pénzügyi adatok stb.
Az a sokaság, aminek a jellemzıire kiváncsiak vagyunk. Példák:
Gyártmányok Magyarország szavazópolgárai A Ft/Euro árfolyam napi változásai
Legtöbbször nincs mód teljes körő (100%-os) adatfelvételre.
Függetlenek-e?
A napi középhımérséklet Budapesten az idén október 2-án és jövıre ilyenkor A sajtóhibák száma egy könyv két különbözı oldalán Két háztartás áramfogyasztása ugyanazon a napon Két beteg vérnyomása Egy beteg vérnyomása két különbözı vizsgálatnál
Táblázatokat a biztosítók már többszáz éve használnak Maga a tudomány fiatal tudomány, alig 100 éves a múltja
Meteorológia (pl. klímaváltozás) Genetika (chiptechnológia)
Populáció
Történet
Angliai mezıgazdasági alkalmazások voltak az elsık
Fejlıdése felgyorsult az utóbbi évtizedekben (számítógépek jóvoltából)
Minta
A populációból kiválasztott részhalmaz, amelyre vonatkozóan az adatok rendelkezésre állnak. Mivel a mintavétel véletlen, ezért a mintaelemek valószínőségi változók. Fontos szempont a reprezentativitás. Gyakorlatban legtöbbször feltesszük, hogy a mintaelemek függetlenek.
Adatok
Mintavétel a populációból: eredménye a (statisztikai) minta A mintavétel módja is lényeges (legegyszerőbb eset: bármelyik elem ugyanakkora valószínőséggel kerül a mintába) A mintavétel eredménye: (statisztikai) minta: x1,x2,…,xn számsorozat, az X1,X2,…,Xn valószínőségi változó-sorozat realizációja.
2
Matematikai statisztika helye a tudományok között
Matematikai tudomány, mert a valószínőségszámítás eredményeire épül. Ugyanakkor a statisztika mindennapi alkalmazása nem mindig kellıen precíz (teljesülnek-e a feltételek?) Ezért lényeges, hogy a valószínőségszámítási eredményeket alkalmazva fogalmazzuk meg következtetéseinket. (Párhuzamosan fogjuk tanulni a valószínőségszámítást.)
Statisztikai elemzés lépései
Tervezés (mit vizsgálunk, hogyan győjtjük az adatokat) Adatgyőjtés Kódolás (ha szükséges) Ellenırzés: leíró statisztikákkal Elemzés: matematikai statisztika módszereivel
Adatok típusai (skálák)
Nominális: csak gyakoriságot tudunk számolni (pl. nem, nemzetiség) Ordinális (rendezett): pl. értékelés szavakkal (rossz-közepes-jó), sorrend egyértelmő, kvantilisek számolhatók Intervallum (pl. hımérséklet: különbség egyértelmő, de hányados nem) Arány (itt minden matematikai mővelet értelmes), ez szerencsére a leggyakoribb
Példák Egy hónapban 10 hurrikánt figyeltünk meg. Mit gondolunk, mennyi hurrikán lesz jövıre ugyanebben a hónapban? Egy közvéleménykutatás során azt kaptuk, hogy 1000 emberbıl 400 választaná az adott pártot. Mások szerint a párt 50%-ot fog kapni. Elıfordulhat-e ez? Mekkora eséllyel?
1.
2.
Leíró statisztika
Nem a véletlen hatását vizsgálja, hanem a konkrét minta
megjelenítése, jellemzıinek kiszámítása
a feladata. Adatok elrendezhetık táblázatban (fontos: forrás feltüntetése), illetve ábrázolhatók grafikusan.
Grafikus megjelenítés
Ne legyen túl bonyolult! Példák: oszlopdiagram
Heti forgalom, MFt, XXZZ áruház
X tengely: csoportok, típusok Y tengely: gyakoriságok, értékek
kördiagram
35 30 25 20 15 10 5 0 S/R
S/N
T/R
T/N
Forgalom (Mio.Ft)
S/N S/R T/N T/R
3
Pontszámok grafikus ábrázolása
Példák 40
Hisztogram
Frequency
20
30
Túl sok osztály (ha az eloszlás alakjára vagyunk kiváncsiak)
0
Adatainkat osztályokba soroljuk (mindegyiket pontosan egybe, pl. az i-edik osztály: ai≤x
10
20
30
40
50
60
70
80
pontszám
Pontszámok grafikus ábrázolása
Frequency
200
Frequency
150 0
50
100
(ha az eloszlás alakjára vagyunk kiváncsiak)
20
30
40
50
60
70
80
200 150 100
Jó osztályszám (ha az eloszlás alakjára vagyunk kiváncsiak) Nincs általános érvényő képlet az osztályok számára, általában n1/3 –nal lehet arányos
250
Túl kevés osztály
50
Példák
300
Példák
0
350
Pontszámok grafikus ábrázolása
90
20
30
40
50
60
70
80
pontszám
pontszám
Hallgatói adatok
Középértékek Te stsúly
25 0 5
170
180
190
200
40
50
60
70
80
cm
kg
Cipım é re t
Ta nulá s he te nte
90
100
110
40 20 0
0
10
20
Frequency
60
30 40
160
Frequency
15
Frequency
20 5 10 0
Frequency
35
Ma ga ssá g
36
38
40
42
44
46
48
0
5
10
15
20
25
óra
Frequency
x :=
0
20 40 60 80
30
Frequency
0 10
Sörök he te nte
50
Uta zá s na ponta
Figyeljük meg az eloszlások alakját!
x1 + ... + xn n ha az egyes értékek (li) gyakoriságai (fi) adottak: f l + ... + f k lk x := 1 1 n Medián: a sorbarendezett minta középsı eleme (ha páros sok eleme van: a két középsı átlaga). Kvartilisek: negyedelıpontok (1/4-3/4, illetve 3/4-1/4 arányban osztják fel a rendezett mintát) Az átlag érzékeny a kiugró értékekre, a medián viszont nem.
Mintaátlag:
0
100
200 perc
300
400
0
5
10
15
20
25
30
35
üveg
4
boxplot
Hallgatói adatok V1 Min. :160.0 1st Qu.:172.0 Median :178.0 Mean :177.2 3rd Qu.:182.0 Max. :198.0 V6 Min. : 0.0 1st Qu.: 60.0 Median : 92.5 Mean :104.1 3rd Qu.:120.0
V2 Min. : 45.00 1st Qu.: 64.00 Median : 72.00 Mean : 72.18 3rd Qu.: 80.25 Max. :110.00 V7 Min. : 0.000 1st Qu.: 0.000 Median : 1.000 Mean : 3.527 3rd Qu.: 5.000
Max.
Max.
:360.0
V3 Min. :36.00 1st Qu.:41.00 Median :43.00 Mean :42.28 3rd Qu.:44.00 Max. :48.00
Gam2
V4 F:95 N:17
Az egyes dobozok az alsó kvartilistól a felsı kvartilisig T5 tartanak. Középvonal a medián. Norm A vonalak a teljes terjedelmet felölelik, ha ez Uni05 az egyes irányokban nem nagyobb a kvartilisek közötti -4 -2 0 2 4 különbség 1.5szeresénél. Ha ezen kívül is vannak pontok, azokat külön-külön jeleníti meg.
V5 Min. : 1.000 1st Qu.: 2.000 Median : 5.000 Mean : 6.036 3rd Qu.: 8.000 Max. :24.000
:34.000
6
A hallgatói adatok nemenkénti bontásban
Példa adatbázis: Napi középhımérséklet 1951-1988 között Január 1-i középhõmérsékletek
Testsúly
90 kg
70 50
cm
5
160 170 180 190
110
Ma gasság
Férfiak
Nık
Férfiak
Tanulás he tente
óra
Vajon melyik esetben szignifikáns az eltérés?
36
5
40
10 15 20
0
44
48
Cipıméret
Nık
Férfiak
Nık
Férfiak
35 25 üveg Nık
Férfiak
Nık
Kompolt
Becslések
15 0 5
perc
100 200 300 0
Férfiak
Budapest
Nık
Sörök he tente
-5
Uta zás naponta
A mintából kiszámolt értékek tekinthetıek a vizsgált populációra vonatkozó közelítéseknek. Ezek tulajdonságait (mennyire pontosak/megbízhatóak) a valószínőségszámítás eszközeivel tudjuk vizsgálni.
Binomiális eloszlás alkalmazása
Visszatevéses mintavétel más realizációja: független kísérletek azonos körülmények között. P(A)=p esemény, végezzünk n (rögzített számú) független kísérletet. X: az A bekövetkezésének gyakorisága (pontosan hányszor jött ki az A). X eloszlása binomiális (n,p). X= X1 + X2 … + Xn ahol Xi az i-edik kísérletnél az A esemény indikátora. Ezek az indikátorok függetlenek is!
5