2014.10.03.
Valószínűség számítás
Valószínűségszámítás és a statisztika
Matematikai statisztika
Alkalmazott statisztika
?
közgazdasági statisztika
népesség statisztika
orvosi statisztika
Stb.
Példa: vércsoportok
Az eloszlás Vércsoportok eloszlása Magyarországon
P(AB)
AB A B
P(A) P(B) P(0)
0
Elemi esemény: A, B, AB, 0 Teljes eseményhalmaz. Valószínűségek: P(A), P(B), P(AB), P(0) Egymást kizáró események, tehát:
45% 40% 35% 30% 25% 20% 15% 10% 5% 0% A
B
AB
0
„Be van fejezve a nagy mű, igen. A gép forog, az alkotó pihen.”
P( A) P( B) P( AB) P(0) 1 Összetett esemény pl.: megtalálható az A antigén: valószínűsége = P(A)+P(AB) Egy és csak egy antigén található:
Hogyan juthatunk ilyen információhoz? Mennyire megbízható?
?
Elméleti úton (nagyon ritka) (pl. kocka feldobás: minden elemi esemény valószínűsége: 1/6.)
Tapasztalati úton (kísérletet végzünk. Kísérlet: mérés, megfigyelés, kikérdezés stb.)
valószínűsége = P(A)+P(B)
1
2014.10.03.
Mintavétel alapelvei
Populáció és minta Ideális, ha minden lehetséges esetet megvizsgálunk.
Következtetés nagyobb elemszámú minta – kisebb eltérések, megbízhatóbb eredmény.
Populáció (alapsokaság) Alapsokaság, olyan vizsgálni kívánt egyedek, vagy más tetszőleges elemek véges vagy végtelen összessége, amelyeknek közös megfigyelhető jellemzői vannak. Elméleti összesség is lehet, potenciálisan megfigyelhető elemekkel. •Lehetőleg minél nagyobb elemszám. (Az ésszerűség határain belül.) Minta A populáció relatíve kis méretű kiragadott része valamilyen előírás szerint válogatva.
Abból adódik, hogy nem az alapsokaságot, hanem csak egy részét (minta) vizsgáljuk.
•Orvosi kiegészítés. Ha nincs semmi kizáró ok, akkor legyen véletlen.
A becslés
A hiba forrásai Mintavételi hiba
•Véletlen mintavétel.
Nem mintavételi hiba Milyen magas a fa?
Adatfelvételi hiba pl.: válaszadási hiba, feldolgozási hiba stb. Kb. 7 m magas.
A statisztika módszereivel elemezhető, számba vehető! Nőgyógyászat
Extrém példa: Férfiak és nők aránya a társadalomban. (Teljesen hibás minta!)
Kérem a következőt!
A becslés olyan eljárás, amely hiányos, többnyire tapasztalati adatok alapján, egy adott esetre, adott változóhoz egy becsült értéket rendel.
2
2014.10.03.
A jó becslés fontosabb tulajdonságai
A becslés típusai Pontbecslés Egyetlen értékkel történő közelítés.
Intervallumbecslés Egy intervallummal (amiben nagy megbízhatósággal megtalálható) történő közelítés.
Körözés … kb. 175 cm magas …
Körözés … 170-175 cm magas …
Torzítatlan:
A becslés várható értéke minden minta-elemszám esetén éppen a keresett paraméter. (Körülötte ingadoznak a becslések)
Hatásos:
A becslésnek a paramétertől való közepes négyzetes eltérése minimális. ( Azaz a szórása kicsi.) Két egyaránt torzítatlan becslés közül az a hatásosabb, amelyre a közepes négyzetes eltérés a kisebb.
Konzisztens: becsléssorozat, amelyben a becslések torzítatlanok és közepes négyzetes eltérésük a zérushoz közeledik, (sztochasztikusan) konvergál a paraméter valódi értékéhez. Ingadozása n növekedésével csökken. Elégséges:
Egy valószínűség becslése
Kategoriális változó Kísérlet: kiválasztunk egy embert és elvégezzük a vizsgálatot.
Kiválasztunk elegendő számú embert. n: elemszám.
Minta: a kiválasztott n számú ember a sokaságból.
Kimenetel: A vagy B vagy AB vagy 0.
Olyan becslés, amely az összes információt tartalmazza a paraméterre, amit a mintából kaphatunk. (Pl. a normális eloszlásra középérték és a szórás elégséges statisztika).
vércsoport
gyakoriság
A
kA
B
kB
AB
kAB
0
k0
P(A) az A vércsoport előfordulásának valószínűsége. Az A vércsoport előfordulásának a várható értéke n.P(A) .
Az n.P(A) becslése a minta alapján: kA A P(A) pontbecslése: kA /n.
Rendben van, de egy másik mintából más érték származik. Mennyire megbízható ez az érték?
3
2014.10.03.
A relatív gyakoriság hibája Binomiális eloszlás (vagy A, vagy nem A vércsoportú). várható érték: np variancia: np(1-p)
n elemű minta: k elem A vércsoportú, (n-k) nem.
Ennek segítségével megadhatunk egy intervallumot. (intervallumbecslés)
k sk / n n
(no lám! Valószínűség számítás?)
A kA érték szórásának becslése:
Konfidencia intervallum
sk/n érték a k/n szórása, vagy standard hibája.
sk nP( A)1 P( A)
68%-os konfidencia (megbízhatósági) intervallum, amihez 68%-os konfidencia szint tartozik.
Jelentése: Ha nagyon sok mintán megismételjük a megfigyelést, akkor a konfidencia intervallumok 68%-a tartalmazza a P(A)-t. Vagyis az intervallumbecslés megbízhatósága 68%
A kA/n érték szórásának becslése:
sk / n
nP( A)1 P( A) n
P( A)1 P( A) n
P(A) helyett a kA/n-t használjuk!
Folytonos változó Példa: testmagasság
Helyes kijelentés?
testmagasság: 172 cm.
Nem! • Pontos mérés nem lehetséges, • végtelen pontosságú eszköz kellene.
Az eseménytér végtelen nagy! Véges elemszámú minta. Nincs két azonos elem. (gyakoriság értékek: 1 vagy 0)
Mintavétel folytonos változó esetében Helyes kijelentés: A testmagasság (x):
Egy meghatározott érték helyébe, egy intervallum (osztály) lép. (Továbbiakban a diszkrét eloszláshoz hasonlóan használjuk)
171,5 x 172,5 cm
Hamis következtetés, gyakorlatban nem kivitelezhető. pj – annak a valószínűsége, hogy: x az adott osztályba tartozzon.
4
2014.10.03.
A minták eloszlása
A m és a s
Mindegyik xi-edik elem eltér egymástól. Egy eloszlás rendelhető hozzá.
A s az adatok szóródását jellemzi a m körül. Az adatoknak kb. 68%-a a m körüli 2s széles intervallumban van.
Az xi-k eloszlása megegyezik az alapsokaság eloszlásával.
m s 68% m 2s 95% m ?
M ( xi ) m
A várható érték becslése
Az átlag várható értéke és varianciája x
Ez egy egyszerű összeadás.
1 xi n i
1 1 M ( x ) M ( xi ) (nm ) m n i n 1 D2 (x) 2 n
1 s2 i D 2 ( xi ) n 2 (ns 2 ) n
és D 2 ( xi ) s 2
A várható érték becslése az átlag. M ( x) xf x dx
p x j
j
j
Torzítatlan becslés, mert: pj-t közelítsük a kj /n relatív gyakorisággal!
kj
n j
xj
1 1 k j x j n i xi n j
M (x ) m
Az átlag várható értéke azonos az alapsokaságéval, varianciája annak n-ed része.
5
2014.10.03.
Korrigált tapasztalati szórás s 2 M s 2
Az eltérés az átlag és a várható érték különbségéből fakad.
s2 2
s*
A standard hiba
s2 Az átlag varianciája:
n
n 1 M s2 n n 2 s n 1
n
2
sx
Az átlag szórása: n
s* 2
(x
i
x)
s n
s
x m 2 M x m
s a jó becslése a s-nek.
s2
Ez tehát az átlag szórása, vagy standard hibája.
2
i
De általában a s sem ismert.
n 1
s2 A továbbiakban s-el jelöljük a korrigált tapasztalati szórást.
n A minták közötti eltérések varianciája.
A várható érték konfidencia intervalluma
Az intervallum becslés sajátosságai Hát növelhetjük, pl.: a következő esetében kb. 95% a konfidencia szint, de az információ kevesebb.
68%? Nem kevés egy kicsit?
Hasonlóan a P becsléséhez, a standard hiba ismeretében megadhatjuk a várható érték konfidencia intervallumát.
x 2 sx
x sx Ez az intervallum kb. 68% megbízhatósággal tartalmazza mt.
A pontos összefüggés: intervallum
megbízhatóság
információ
x t
p
sx
ahol tp: az (n-1)-ed fokú t-eloszlás esetében a p valószínűséghez tartozó érték. (a megbízhatósági szint (1-p))
6
2014.10.03.
Normál értékek
Kapcsolat a paraméterek között n
∞
Mit jelentenek?
férfiak
nők
kálium
3,5-5 mmol/l
3,5-5 mmol/l
minta
populáció
WBC
4-10.109/l
4-10.109/l
átlag
várható érték
HCT
42-54 %
38-50 %
szórás
elméleti szórás
standard hiba
0
De ha nem ismerem a valódi értékeket?...
Ezért van szükség a statisztikára!
Normális eloszlású változó esetében lásd az ábrát! (A m és s helyett általában nagy elemszámú mintából becsült értékeket használnak). Egyébként pedig az az intervallum, amelynek mindkét oldalán „kieső” rész együttesen 5%.
Egyéb elnevezések: normál tartomány, referencia tartomány.
7