Valószínűség számítás
Valószínűségszámítás és a statisztika
Matematikai statisztika
Alkalmazott statisztika
?
közgazdasági statisztika
népesség statisztika
orvosi statisztika
Stb.
Példa: vércsoportok A
Az eloszlás
P(AB)
AB B
P(A) P(B)
0
Elemi esemény: A, B, AB, 0 Teljes eseményhalmaz. Valószínűségek: P(A), P(B), P(AB), P(0) Egymást kizáró események, tehát:
P(0)
Vércsoportok eloszlása Magyarországon
Hogyan juthatunk ilyen információhoz? Mennyire megbízható?
45% 40% 35% 30% 25% 20% 15% 10% 5% 0% A
B
AB
0
„Be van fejezve a nagy mű, igen. A gép forog, az alkotó pihen.”
P( A) + P( B) + P( AB) + P(0) = 1 Összetett esemény pl.: megtalálható az A antigén: valószínűsége = P(A)+P(AB) Egy és csak egy antigén található: valószínűsége = P(A)+P(B)
?
Elméleti úton (nagyon ritka) (pl. kocka feldobás: minden elemi esemény valószínűsége: 1/6.)
Tapasztalati úton (kísérletet végzünk. Kísérlet: mérés, megfigyelés, kikérdezés stb.)
Kísérlet
P(N) = 0,75 P(F) = 0,25
P(N) = 0,5 P(F) = 0,5
A minta elemszáma: 2
0,6
0,6
0,5
0,5
0,4
nő férfi
0,3
0,2
rel. gyak.
Példa: a férfiak és nők aránya. Az eseménytér két elemű: férfi, nő Valószínűségek: P(F) és P(N). Igaz, hogy: P(F)+P(N) = 1
rel. gyak.
Kérem a következőt!
0,1
0,4
nő férfi
0,3
0,2
0,1
0
0 2F
FN
2N
2F
FN
2N
0,45
0,4
0,4
0,35
A minta elemszáma: 4
P(N) = 0,75 P(F) = 0,25
0,3
0,25
nő férfi
0,2
0,15
rel. gyak.
P(N) = 0,5 P(F) = 0,5
rel. gyak.
0,35
Milyen nemű a belépő páciens?
0,3
nő férfi
0,25
0,2
0,15
0,1 0,1
Kimenetel: F(érfi) vagy N(ő)
0,05
0 4F
0,8
F3N
4F
4N
0,5
nő férfi
0,4
0,3
A minta elemszáma: 6
3FN
2F2N
F3N
4N
0,4
0,35
0,3
0,6
rel. gyak.
0,2
rel. gyak.
rel. gyak.
nő férfi
0,3
2F2N
0,35
0,7
0,4
3FN
0,25
0,2
nő férfi
0,15
0,1
0,2
rel. gyak.
0,6
0,5
A minta elemszáma: 1 (azaz 1 kísérlet)
0,05
0
0,3
0,25
nő férfi
0,2
0,15
0,1
0,1 0,05
0,1
0
0 F
N
Mintavétel alapelvei Következtetés nagyobb elemszámú minta – kisebb eltérések, megbízhatóbb eredmény.
0,05
0 F
N
0 6F
5FN
4F2N
3F3N
2F4N
F5N
6N
6F
5FN
4F2N
Populáció és minta Ideális, ha minden lehetséges esetet megvizsgálunk.
Populáció (alapsokaság) Alapsokaság, olyan vizsgálni kívánt egyedek, vagy más tetszőleges elemek véges vagy végtelen összessége, amelyeknek közös megfigyelhető jellemzői vannak. Elméleti összesség is lehet, potenciálisan megfigyelhető elemekkel. •Lehetőleg minél nagyobb elemszám. (Az ésszerűség határain belül.) •Véletlen mintavétel. •Orvosi kiegészítés. Ha nincs semmi kizáró ok, akkor legyen véletlen.
Minta A populáció relatíve kis méretű kiragadott része valamilyen előírás szerint válogatva.
3F3N
2F4N
F5N
6N
Mintavételi hiba Abból adódik, hogy nem az alapsokaságot, hanem csak egy részét (minta) vizsgáljuk.
Nem mintavételi hiba Adatfelvételi hiba pl.: válaszadási hiba, feldolgozási hiba stb.
A statisztika módszereivel elemezhető, számba vehető!
Nőgyógyászat Kérem a következőt!
A becslés Milyen magas a fa?
Kb. 7 m magas.
A becslés olyan eljárás, amely hiányos, többnyire tapasztalati adatok alapján, egy adott esetre, adott változóhoz egy becsült értéket rendel.
Egy szélsőséges példa: Nem véletlenszerű mintavétel! (az előző példában)
A becslés típusai Pontbecslés
Intervallumbecslés
Egyetlen értékkel történő közelítés.
Egy intervallummal (amiben nagy megbízhatósággal megtalálható) történő közelítés.
Körözés … kb. 175 cm magas …
Körözés … 170-175 cm magas …
A jó becslés tulajdonságai
Kategoriális változó Kísérlet: kiválasztunk egy embert és elvégezzük a vizsgálatot.
Torzítatlan:
A becslés várható értéke minden minta-elemszám esetén éppen a keresett paraméter. (Körülötte ingadoznak)
Hatásos:
A becslésnek a paramétertől való közepes négyzetes eltérése minimális. ( azaz a szórása kicsi) Két egyaránt torzítatlan becslés közül az a hatásosabb, amelyre a közepes négyzetes eltérés a kisebb.)
Kiválasztunk elegendő számú embert. n: elemszám.
Minta: a kiválasztott n számú ember a sokaságból.
Konzisztens: becsléssorozat, amelyben a becslések torzítatlanok és közepes négyzetes eltérésük a zérushoz közeledik, (sztochasztikusan) konvergál a paraméter valódi értékéhez. Ingadozása n növekedtével csökken. Elégséges:
Olyan becslés, amely az összes információt tartalmazza a paraméterre, amit a mintából kaphatunk. (Pl. a normális eloszlásra középérték és a szórás elégséges statisztika).
Egy valószínűség becslése
Kimenetel: A vagy B vagy AB vagy 0.
Binomiális eloszlás. várható érték: np variancia: np(1-p)
A
kA
B
kB
AB
kAB
0
k0
n elemű minta: k elem A vércsoportú, (n-k) nem.
(no lám! Valószínűségszámítás?)
Az n.P(A) becslése a minta alapján: kA
A kA érték szórásának becslése:
sk = nP( A)(1 − P( A) ) Rendben van, de egy másik mintából más érték származik. Mennyire megbízható ez az érték?
gyakoriság
A relatív gyakoriság hibája
P(A) az A vércsoport előfordulásának valószínűsége. Az A vércsoport előfordulásának a várható értéke n.P(A) .
A P(A) pontbecslése: kA /n.
vércsoport
A kA/n érték szórásának becslése:
sk / n =
nP( A)(1 − P( A) ) = n
P( A)(1 − P( A) ) n
P(A) helyett a kA/n-t használjuk.
sk/n érték a k/n szórása, vagy standard hibája.
Konfidencia intervallum Ennek segítségével megadhatunk egy intervallumot. (intervallumbecslés)
⎛k ⎞ ⎜ ± sk / n ⎟ ⎝n ⎠
68%-os konfidencia (megbízhatósági) intervallum, amihez 68%-os konfidencia szint tartozik.
Folytonos változó Példa: testmagasság
Helyes kijelentés?
testmagasság: 172 cm.
Az eseménytér végtelen nagy! Véges elemszámú minta. Nincs két azonos elem. (gyakoriság értékek: 1 vagy 0)
Jelentése: Ha nagyon sok mintán megismételjük a megfigyelést, akkor a konfidencia intervallumok 68%-a tartalmazza a P(A)-t. Vagyis az intervallumbecslés megbízhatósága 68%
Hamis következtetés, gyakorlatban nem kivitelezhető.
Nem! • Pontos mérés nem lehetséges, • végtelen pontosságú eszköz kellene.
Mintavétel folytonos változó esetében Helyes kijelentés: A testmagasság (x):
Egy meghatározott érték helyébe, egy intervallum (osztály) lép. (Továbbiakban a diszkrét eloszláshoz hasonlóan használjuk)
171,5 ≤ x < 172,5 cm
A μ és a σ A σ az adatok szóródását jellemzi a μ körül. Az adatoknak kb. 68%-a a μ körüli 2σ széles intervallumban van.
(μ ± σ ) ≈ 68% (μ ± 2σ ) ≈ 95% pj – annak a valószínűsége, hogy: x az adott osztályba tartozzon.
(μ ± ∞ ) = ?
Az átlag várható értéke és varianciája
A minták eloszlása Mindegyik xi-edik elem eltér egymástól. Egy eloszlás rendelhető hozzá.
x=
Ez egy egyszerű összeadás.
Az xi-k eloszlása megegyezik az alapsokaság eloszlásával.
M (x) =
D2 (x) =
M ( xi ) = μ
1 n2
1 ∑ xi n i
1 1 ∑ M ( xi ) = n (nμ ) = μ n i
∑D
2
( xi ) =
i
σ2 1 ( nσ 2 ) = 2 n n
Az átlag várható értéke azonos az alapsokaságéval, varianciája annak ned része.
és D 2 ( xi ) = σ 2
A várható érték becslése
Becslés folytonos változó esetében
M ( x) = ∑ p j x j
Az eloszlás jellemzői: várható érték és az elméleti szórás. Definíciók:
A várható érték becslése az átlag.
j
Torzítatlan becslés, mert: pj-t közelítsük a kj /n relatív gyakorisággal! Várható érték:
M ( x) = ∫ xf ( x)dx
∑p x j
j
j
kj
Elméleti szórás:
D ( x) = ∫ [x − M ( x)] f ( x)dx 2
2
∑ p (x j
j
j
− μ )2
∑n j
xj =
1 1 ∑ k j x j = n ∑i xi n j
M (x ) = μ
Jó becslés?
Az elméleti szórás becslése Előzőleg láttuk, hogy:
∑ p (x j
j
pj-t közelítsük a kj /n relatív gyakorisággal!
− μ )2
j
∑ p (x j
j
j
− μ )2 = ∑ j
kj n
( x j − μ )2 =
1 ∑ ( xi − μ ) 2 n i
1 1 ∑ k j ( x j − μ ) 2 = n ∑i ( xi − μ ) 2 n j
σ2 μ= ?
>
Ez egy torzított becslés!
?
Korrigált tapasztalati szórás σ 2 = M (s 2 ) +
σ
Az átlag varianciája:
n
(x − μ )2
[
2
A standard hiba
2
n −1 σ2 = M (s 2 ) n 2 n 2 s* = s n −1
M (x − μ )
σ2 n Az átlag szórása:
s* = 2
∑ (x − x)
2
i
i
n −1
σ2 n A minták közötti eltérések varianciája.
A továbbiakban s-el jelöljük a korrigált tapasztalati szórást.
s a jó becslése a σ-nek.
sx =
s n
σ n
]
Átlagoljunk nagyon sok n-elemű mintára! (várható érték)
1 ⎡ ⎤ M ∑ ( xi − x ) 2 ⎥ n ⎢⎣ i ⎦
Általában nem ismert, csak közelítő értéke, az átlag.
1 ∑ ( xi − x ) 2 n i
Az eltérés az átlag és a várható érték különbségéből fakad.
1 ∑ ( xi − x ) 2 n i
>
De általában a σ sem ismert.
Ez tehát az átlag szórása, vagy standard hibája.
A várható érték konfidencia intervalluma Hasonlóan a P becsléséhez, a standard hiba ismeretében megadhatjuk a várható érték konfidencia intervallumát.
[x ± s x ] Ez az intervallum kb. 68% megbízhatósággal tartalmazza μ-t.