6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás tétel A mintaközép szórása (standard hiba, SEM)
Vereb György, DE OEC BSI, 2012. október 12.
A normális eloszlás
12 October 2012
2
A normális eloszlás: egy példa Egy normális eloszlást követő valószínűségi változó átlaga 10 és standard deviációja 2,5. Mennyi annak a valószínűsége, egy véletlenszerűen kiválasztott egyed 15-nél nagyobb értéket vesz fel? 0.18 0.16 0.14
f(x)
0.12 0.1 0.08
10, 2.5
0.06 0.04 0.02 0
12 October 2012
10
15
x
3
A normális eloszlás: egy példa 0.45 0.4 0.35
f(x)
0.3 0.25 0.2
0, 1
0.15 0.1 0.05 0
0
2
x
15 10 x P ( X 15) 1 P ( X 15) 1 F (15) 1 1 2,5
1 (2) 1 0,9772 0, 0228 A gyakorlatban ritkán akarjuk tudni, hogy egy véletlenül kiválasz4 12 October 2012milyen valószínűséggel esik egy adott intervallumba tott elem
Statisztikai tervezés és analízis
A vizsgálat tárgya leggyakrabban egy adott tulajdonsággal rendelkező populáció A paraméter az adott populáció egy számszerűen jellemezhető sajátossága. Mintát veszünk a populációból, hogy az adott paraméterre nézve információhoz jussunk. Két módon juthatunk következtetésre:
12 October 2012
Megbecsüljük a paraméter értékét Két alpopuláció paramétereit összehasonlítjuk statisztikai teszt segítségével. 5
Becslés, mintavételezés Mintát veszünk a populációból, hogy az adott paraméterre nézve információhoz jussunk, és abból a paraméter értékét megbecsülhessük
populáció
minta
12 October 2012
6
A becslés célja, lépései
A becslés célja, hogy megjósoljuk egy paraméter értékét és egy hibát rendeljünk hozzá – megmondjuk mennyire pontos a becslésünk.
12 October 2012
Pl. Megkérdezünk 100 embert, hogy tetszett-e a “Bosszúállók” című film. Tegyük fel, hogy az emberek 74%-ának tetszett. Megbecsüljük, vagy kiszámoljuk a mérés hibáját is, pl. legyen 3%-os. Ez esetben a paraméter igazi értéke valahol 71 és 77% között lehet. 7
Megfelelő minta – reprezentatív mintavétel
12 October 2012
Fontos, hogy a minta jól reprezentálja a vizsgálandó populációt. Random mintavétel. A populáció minden eleme azonos eséllyel kerülhet a mintába. Ez a reprezentatív minta Általában igaz, hogy a nagyobb minta pontosabb becslést szolgáltat a populáció paramétereire.
8
A Statisztika mint változó
12 October 2012
A statisztika segít nekünk, hogy következtetéseket vonjunk le a populáció paramétereire nézve. Miután mintát vettünk, a statisztika értékét meghatározzuk (pl. a minta átlag). Ha egy másik mintát vennénk, a statisztika értéke nagy valószínűséggel különbözne. A statisztika (Pl. átlag, arány) is egy valószínűségi változó, amely mintárólmintára különböző értékeket vesz fel. 10
A becslés fajtái
12 October 2012
Pont becslés – egy számérték, amely a tozó populáció valamely paraméterét becsli. A mintavételi változó sűrűségfüggvényéből annak szórására is lehet következtetni Ennek alapján konfidencia intervallum is meghatározható 11
Paraméter - statisztika Jelölés Populáció (paraméter)
Minta (Statisztika)
(mű)
x (x-vonás)
Variancia
2
S2 (SD2)
Standard deviáció
(szigma)
S (SD)
p
k/n
Mennyiség
Átlag
Arány 12 October 2012
12
A
populáció átlag torzítatlan becslése x , a mintaközép, torzítatlan becslést szolgáltat a re. Ez azt jelenti, hogy a minta nagyságának növelésével az x mintaközepek egyre jobban közelítik a populáció átlagot (és a középértékek szórása is tart nullához) N
sX 12 October 2012
i 1
Xi
, N
N 0, N
13
A populáció σx szórásának torzítatlan becslése
SD(n) paraméter, SD(n-1) viszont statisztika SD( n )
SD( n 1)
2 ( x X ) i
n
(x X ) i
n 1
2
x
2 ( x ) i
N
A mintán belüli variabilitást méri Egy paraméter, mely a mintát jellemzi Valószínűleg eltér minden egyes, azonos populációból vett minta esetén Általában nem is érdekel minket… A minta adataiból becsli a populáció variabilitását, a σx populáció szórás torzítatlan becslése Ez egy statisztika Valószínűleg eltér minden egyes, azonos populációból vett minta esetén, tehát értéke a σx körül ingadozik
Szükségünk van rá, de nem akarjuk a populáció összes elemét megmérni, és a σx paramétert kiszámítani
A mintaközép eloszlása
Tegyük fel, hogy egy adott populációban a szérum koleszterin koncentráció várható értéke μ és standard deviációja σ. Véletlenszerűen kiválasztunk egy n elemű mintát a populációból, és kiszámítjuk a minta átlagot x1 Ezután egy másik n elemű mintát veszünk és ismét kiszámítjuk a minta átlagot x2 Végtelen sokszor megismételjük az eljárást – minden lehetséges n elemű mintát kiválasztunk, és kiszámítjuk a minta átlagot. Az x-ot egy valószínűségi változónak tekinthetjük, melynek elemei:
x1 , x2 , x3 , x4 stb 12 October 2012
15
A centrális határeloszlás tétel
A centrális határeloszlás tétel: Vegyünk egy véletlenszerű n elemű mintát egy populációból, melynek átlaga
és
standard deviációja . Ha n elég nagy akkor az
x mintavételi változó eloszlása
a várható érték körül (ami ),
n
szórást mutat. 12 October 2012
16
A centrális határeloszlás tétel mintaközép
kis elemszám
nagy elemszám
f(x)
populáció
12 October 2012
x
17
A centrális határeloszlás tétel: egy példa
Egymástól független 64 elemű mintákat vettek Kaliforniában a pillangókból. A szárny hosszúság átlaga (μ) 4 cm, a varianciája (σ2) 25 cm2. Mennyi annak a valószínűsége, hogy egy véletlenszerűen kiválasztott 64 elemű minta átlaga 3,5 cm és 4,5 cm között lesz?
12 October 2012
18
A centrális határeloszlás tétel: egy példa
Az eredményekből látjuk, hogy az átlagértékek egy olyan normális eloszlást követnek, melynek átlaga 4 cm és standard deviációja (5/8). P (3,5 X 4,5) P ( X 4,5) P ( X 3,5) X 4,5 4 X 3,5 4 P P 5 5 64 64 n n P(Z 0,8)-P(Z -0,8) 0,788-0,212 0,576 Ez azt jelenti, hogy a 57,6% annak a valószínűsége, hogy az átlagos szárnyhosszúság 3,5 és 4,5 cm között lesz.
12 October 2012
19
A centrális határeloszlás tétel: egy példa terület: P(3.5 XEz a4.5) 0.576
12 October 2012
20
Standard Deviáció (SD) vs. a Középérték Közepes Hibája (SEM)
A standard deviáció nem a statisztika standard hibája! A standard deviáció (SD) a populáció, vagy a minta egyes értékeinek az átlag körüli ingadozását méri. Középérték Közepes Hibája, Standard Error of the Mean (SEM) a statisztika pontosságát méri.
SD
2 ( x X ) i
n 1
X
SD X SEM n n
becslés
becslés
X