Területi sor Terület megnevezése
Magyarok száma 2011.01.01.
Kárpát medence
13 820 000
Magyarország
10 600 00
Nyugat-Európa
1 340 000
HIV prevalence (%) in adults in Africa, 2005
2.5
Daganatos halálozás (KSH adatok) 100 000 lakosra számítva (kerekítve) 1995
333
1996
339
344
1997
338
340
1998
340
1999 2000 2001
342 337 338
342
338 336 334 332 330 328 1995
1996
1997
1998
1999
2000
2001
Myocardialis infarctusa van
Myocardialis infarctusa nincs
Összesen
Cukorbeteg
20
80
100
Nem cukorbeteg Összesen
35
865
900
55
945
1000
A myocardialis infarctus RR-a cukorbetegségre vonatkozóan: RR: (20/100)/(35/900) = 0,20/0,039 = 5,13
OR: =((20/80)/(35/865) =0,25/0,04 = 6,10
VALÓSZÍNŰSÉGSZÁMÍTÁSI ALAPOK
Valószínűség • Azt a számot, amely körül egy esemény relatív gyakorisága ingadozik, az illető esemény valószínűségének nevezzük. • Egy esemény bekövetkezésének vagy be nem következésének mértékbeli megadása. • A valószínűség, mint mérték 0 és 1 közötti szám. • A jelölés a latin probabilitas, valószínűség szó kezdőbetűjéből ered.
• 1654: a valószínűségszámítás mint matematikai elmélet születési éve. • Fermat és Pascal: egyik ilyen témájú levelének kelte. • Maga a „valószínűség” (probabilitas) szó Jakob Bernoulli (1654–1705) Ars conjectandi (A találgatás művészete, 1713.) c. munkájában fordul elő először.
Kolmogorov-féle valószínűségi mező: (I, , P)
Valószínűségi alapfogalmak 1. Valószínűség: Eseményeken értelmezett számértékű függvénymérték. Jelölésben P(A)=p Kolmogorov axiómák: •0 P(A) 1 •P(O)=0 és P(I)=1 •Ha AB = O P(A+B) = P(A) + P(B) 2. Valószínűségszámítás: klasszikus valószínűségi modell P ( A) p
k kedvező események száma n összes események száma
3. Statisztikai próba (teszt): A mért adatokon értelmezett függvény. 4. Szignifikancia értelmezése : p < 0.05
Relatív gyakoriság • Ha sokszor elvégezzük ugyanazt a kísérletet, és jegyezzük, hogy adott esemény ennek során hányszor következett be, akkor a kísérletet egyre többször végezve az adott esemény relatív gyakorisága (azaz az esemény bekövetkezései számának és a kísérletek számának hányadosa) egyre inkább megközelít egy számot: az esemény valószínűségét.
• Eseménynek nevezünk mindent, amiről a kísérlet elvégzése után eldönthető, hogy bekövetkezett-e, vagy sem (elemi esemény). • Valamely kísérlet összes kimenetele egy halmazt alkot. Ezt nevezzük eseménytérnek (). • Biztos eseményről akkor beszélünk, ha a kísérlet során biztosan (minden kimenetelnél) bekövetkezik. • Azt az eseményt, mely akkor és csak akkor következik be, ha az A esemény nem következik be, az A esemény ellentett eseményének nevezzük ( ) .
A
Valószínűségeloszlás • Egy teljes eseményrendszer valószínűségeinek sorozatát valószínűségeloszlásnak, vagy röviden eloszlásnak nevezzük. • Olyan függvény, mely leírja, hogy egy valószínűségi változó milyen valószínűséggel vehet fel egy bizonyos értéket. • Eloszlásfüggvénye minden valószínűségi változónak létezik.
Valószínűség axiómája
• Adott P: [0, 1] valószínűségi függvény. A P kielégíti az alábbiakat: • 1. P(I)=1 • 2. Ha A1, A2, A3,… A , és AiAj = O akkor igaz a -additívitás (ha n, akkor véges additivitás):
P ( A ) P ( A ) i
i
i
i
Feltételes valószínűség P(AB) P(AB) = P(B)
Teljes valószínűség tétele
Ha B1 , B2, B3 ,……., Bn események teljes esemény rendszert alkotnak és P(BI) 0, akkor egy tetszőleges A esemény valószínűsége N
P(A)= P(ABi) P(Bi) i=1
Bayes elmélet
Ha a B1 , B2, B3 ,……., Bn események teljes esemény rendszert alkotnak és P(Bi) 0, valamint egy tetszőleges A eseményre igaz, hogy P(A) 0, akkor a Bi eseményekre igaz
posteriori valószínűség
P(ABi) P(Bi) P(BiA) = N
P(ABk) P(Bk)
k=1
a priori valószínűség
Markov-egyenlőtlenség •
Legyen pozitív valószínűségi változó véges M() várható értékkel. Ekkor tetszőleges > 0 valós számra igaz az alábbi egyenlőtlenség:
1 P( M())
Csebisev-egyenlőtlenség • Legyen tetszőleges valószínűségi változó, melynek van szórása. Ekkor > 0 esetén igaz:
( ) D P ( M () ) 2
2
• Ha ismeretlen (várható érték és szórás igen), akkor felső korlátot tudunk megadni a várható érték körüli szimmetrikus intervallumokba esés valószínűségeire.
A nagy számok törvénye • A törvény azt mondja ki, hogy egy kísérletet sokszor elvégezve az eredmények átlaga egyre közelebb lesz a várható értékhez (µ): ha X1 , … , Xn azonos eloszlású független valószínűségi változók véges E(Xi) = μ várható értékkel, akkor
• A törvénynek van egy gyenge és egy erős változata attól függően, hogy pontosan mit értünk konvergencia alatt.
Gyenge törvény • A gyenge változat szerint sztochasztikus konvergenciát, azaz
teljesül minden pozitív ε –ra.
Nagy számok Bernoulli-féle gyenge törvénye
• Legyen binomiális eloszlású valószínűségi változó, mely xk=k (k=0, 1, 1, …,n) értéket vesz fel, ha az A esemény az n kísérlet során k-szor k következett be. Legyen n az A esemény relatív gyakorisága, P(A) = p az esemény valószínűsége. • Ekkor > 0 esetén igaz: q 1 p P(A) P(
k pq p ) 2 n n
P(
k pq p ) 1 2 n n
Erős törvény • A törvény pedig 1 valószínűségű ( biztos) konvergenciát állít:
Változókról (véletlen) Egy statisztikai változó akkor jól definiált, ha: Ismert az értékkészlete (mik a lehetséges értékei a változónak) Minden megfigyelési egységhez hozzárendelhető a változó egy, és csakis egy értéke. A megfigyelési egység kiválasztása a statisztikában jellemzően véletlenszerűen történik: így a változó adott kísérletben bekövetkező értéke is véletlenszerű. A statisztikai változókat véletlen változóknak is nevezzük.
A valószínűség eloszlása Egy megfigyelési egység véletlenszerű kiválasztásakor a vizsgálandó változónak bekövetkezik valamilyen értéke, ami egy eseménynek tekinthető. A változó értékei tehát események, melyekre igaz, hogy egymást kölcsönösen kizáró (diszjunkt) események, és hogy ezen diszjunkt események uniója a biztos eseményt (I) adja. Ha a populációból véletlenszerűen kiválasztunk egy megfigyelési egységet, akkor a változó különböző értékei bizonyos
valószínűséggel következnek be. A változó értékei valószínűségének összege 1 lesz.
A valószínűség eloszlása Ahhoz, hogy egy statisztikai változót pontosan ismerjünk, ismernünk kell az adott változó eloszlását, azaz azt, hogy milyen módon oszlik meg az egységnyi valószínűség a változó különböző értékei között. A változók eloszlása elméletileg végtelen sokféle lehet, azonban szerencsére a gyakorlatban kezelhető számú speciális, jól definiált eloszlás valamelyike jellemző a változók túlnyomó többségére.
Diszkrét változók valószínűségi eloszlása Egy statisztikai változót akkor tekinthetünk diszkrétnek, ha csak véges (kis) számú, egymástól jól elkülönülő értéket vehet fel. Diszkrét változók esetén a változó eloszlását ismerni annyit jelent, mint ismerni az adott változó értékeit és az értékekhez tartozó valószínűségeket. Például, ha ismert egy populációban a nemek aránya, ezáltal relatív gyakorisága, vagyis valószínűsége, akkor azt mondhatjuk, hogy tökéletesen ismerjük a biológiai nem változót.
Diszkrét eloszlások Binomiális n
pk = P( = k) = ( k)pkqn-k M() = n · p D() = n · p · q Poisson k pk = P( = k) = e- k! M() = D() =
A Binomiális eloszlás Tekintsük az alábbi, gyakori kísérleti elrendezést: n számú kísérletet, vagy próbát végzünk Minden kísérlet eredménye sikerként vagy kudarcként fogható fel A siker valószínűsége, p, próbáról próbára állandó Az egyes próbák egymástól függetlenek Az ilyen kísérleti elrendezés esetén a változó Binomialis eloszlást követ n és p paraméterekkel. Jelölése: B(n,p). A különböző paraméterekkel jellemezhető binomiális eloszlások egymástól különbözőek lesznek.
A Binomiális eloszlás Példa: pénzérmét dobunk egymás után négyszer
Kérdés: hányszor lesz fej a dobás eredménye a négy dobásból? Ez a kérdésfeltevés egy statisztikai változót definiál, amit nevezhetünk például ‘fejek száma’ változónak.
Lehetséges kimenetek: 0, 1, 2, 3, 4 Mi a valószínűsége ezeknek a kimeneteknek?
A Binomiális eloszlás Annak, hogy 4-szer lesz fej a 4 dobásból p(4)=1/16 a valószínűsége. Ez a kimenet csak egyféleképpen fordulhat elő. 3 fej valószínűsége már p(3)=4/16 mert 3 fej négyféle elrendezésben fordulhat elő. 2 fej valószínűsége már p(2)=6/16 lesz, mert ez a kimenet hatféleképpen eshet meg. Ugyanígy a további kimenetekre is kiszámolható, hogy milyen valószínűséggel fordulhatnak elő. n n x p( x ) p x 1 p x
A Binomiális eloszlás A binomiális eloszlásnak tehát két fontos paramétere van, a próbák száma, n és az egyes próbák esetén a siker (azaz a bennünket érdeklő kimenet) valószínűsége, p. Ahogy n nő, úgy nő a lehetséges kimenetek száma, úgy oszlik meg egyre több érték között a valószínűség. Amennyiben p = 0.5 a binomiális eloszlás szimmetrikus lesz, egyéb esetekben pedig aszimmetrikus, annál aszimmetrikusabb, minél inkább eltér a valószínűség 0.5-től 0 vagy 1 irányába. Fontos, hogy az egyes kimenetek diszjunkt események, uniójuk pedig a teljes eseményt adja, azaz uniójuk valószínűsége 1.
Példánkban a binomiális eloszlás a következőképpen adható meg:
fejek száma valószínűség (X; x = 0, 1, 2, 3, 4) p(X = x) 0
0.0625
1
0.25
2
0.375
3
0.25
4
0.0625
A B(4, 0.5) eloszlás grafikus reprezentációja
0.20 0.15 0.10 0.05 0.00
p
0.25
0.30
0.35
B(4,0.5)
0
1
2
3
4
Kumulatív valószínűség
Az egyes értékek valószínûsége mellett a kumulatív valószínûség is meghatározható, ami egy adott érték vagy annál kisebb érték bekövetkezésének valószínûségét adja meg. A kumulatív valószínûség nagyon fontos szerepet játszik a statisztikában, pontosabban a statisztikai hipotézisvizsgálatok során. A következő dián a példánkban szereplő Binomialis eloszlás esetén az értékek kumulatív valószínűségei láthatók.
A B(4, 0.5) eloszlás kumulatív valószínűségei
kumulatív fejek száma valószínűség valószínűség (X; x = 0, 1, 2, 3, 4) p(X = x) p(X ? x) 0
0,0625
0.0625
1
0,25
0,3125
2
0,375
0,6875
3
0,25
0,9375
4
0,0625
1
A B(4, 0.5) eloszlás kumulatív valószínűségei grafikusan
0.0
0.2
0.4
p
0.6
0.8
1.0
B(4,0.5)
0
1
2
3
4
Néhány Binomiális eloszlás grafikus reprezentációja: B(10, 0.5)
B(10,0.5) 1.0
0.0
0.0
0.2
0.2
0.4
0.4
p
p
0.6
0.6
0.8
0.8
1.0
B(10,0.5)
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
B(10, 0.25)
B(10,0.25) 1.0
0.0
0.0
0.2
0.2
0.4
0.4
p
p
0.6
0.6
0.8
0.8
1.0
B(10,0.25)
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
B(10, 0.75)
B(10,0.75) 1.0
0.0
0.0
0.2
0.2
0.4
0.4
p
p
0.6
0.6
0.8
0.8
1.0
B(10,0.75)
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
Kumulatív valószínűségi táblázat és használata A különböző binomialis eloszlások értékeihez tartozó kumulatív valószínűségek megtalálhatók táblázatba foglalva, illetve kiszámíthatóak például az R statisztikai szoftver használatával. Táblázatok használatakor meg kell keresni azt a táblázatot, amelyik a keresett paraméterekkel rendelkező binomiális eloszláshoz tartozik, és ebben meg kell keresni a kérdéses értékhez tartozó kumulatív valószínűségi értéket.
Az R szoftver esetén a pbinom(érték,n,p) parancs alkalmazásával kaphatjuk meg az ‘érték’-hez tartozó kumulatív valószínűséget, az n és p paraméterekkel leírható Binomiális eloszlás esetén.
Poisson eloszlás Az úgynevezett „pontelhelyezkedési problémák” eloszlása. Például: Egy dimenzióban: egy hivatalban bizonyos idő alatt megjelenő ügyfelek száma, kirakodásra / tankolásra váró járművek száma
Két dimenzióban: gyomnövények száma adott területen, mikroszkóp látómezőjén levő baktériumok száma Három dimenzióban: adott térfogatban levő méreten túli darabok száma, vitaminszemcsék száma egy tablettában
Példa • Egy szabályos tömegeloszlású pénzdarab ugyanolyan valószínűséggel esik fejre, mint írásra. Minél többször dobjuk fel, annál valószínűbb, hogy aránylag a dobások felében kapunk fejet. • A tétel egy gyakori félreértése, különösen a szerencsejátékosok körében, hogy az következne belőle, hogy a véletlen események valamiképpen kiegyenlítik egymást . • Például: ha sokszor egymás után piroson állt meg a rulett, akkor a következőkben sokszor kell feketén megállnia, hogy a pirosok és a feketék száma megint nagyjából egyenlő legyen. Valójában ennek az ellenkezője igaz: az idő előrehaladtával egyre nagyobb abszolút eltérés várható az eredmények összege és a várható érték n-szerese között, azonban ez az eltérés lassabban nő, mint n, így a relatív eltérés csökken.
Normál eloszlás A természetben nagyon sok változóról elmondható, hogy normál eloszlást (vagy legalábbis jó közelítéssel normál eloszlást) követ. Ennek oka, hogy számtalan változó nagyszámú faktor átlagos hatásának eredményeként alakul ki. Ennek tudományos alapjául a centrális határeloszlás elmélet szolgál, mely szerint ha sokszor veszünk megfelelően nagy, azonos elemszámú mintát, akkor a minták átlagai mindig normál eloszlást követnek, függetlenül az eredeti eloszlástól.
Standardizálás, z-értékek Tehát, ha adott egy normál eloszlású véletlen változó, X, (X ~ N( µ, σ) ) akkor ezen X változó egy x értékéhez tartozó z érték a következőképpen számolható:
z
x
Ha egy normál eloszlást követő változó minden értékét standardizáljuk, akkor az így kapott z értékek normál eloszlást fognak követni 0 átlaggal, és 1 szórással, függetlenül az eredeti normál eloszlás paramétereitől. A 0 átlagú, 1 szórású normál eloszlást standard normál eloszlásnak nevezzük, és N(0,1) –el jelöljük.
Standardizálás, z-értékek Visszatérve kiinduló példánkhoz, a következőket ismerjük: statisztika
anatómia
átlag
xs = 60 µs = 50
xa = 70 µa = 55
szórás
σs = 5
σa = 10
nyers pontszám
x s 60 50 z xs s 2 s 5
p=0.9772
x a 70 55 z xa a 1.5 a 10
p=0,9331
Tehát a példában szereplő diák statisztikából teljesített jobban.
Az eloszlás alakjának jellemzése • Ferdeség (skewness, normális eloszlás=0 körüli érték) • Csúcsosság (kurtosis, normális eloszlás=0 körüli érték)
Pearson-féle mutatószáma • Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul. • A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A 0, jobb oldali, balra elnyúló aszimmetria esetén A 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal.
A
x Mo
F mutató • Az aszimmetria másik mérőszáma, az F mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb. • E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.
F
(Q 3 Me) ( Me Q 1 ) (Q 3 Me) ( Me Q 1 )