8. Valószínűségszámítás ESEMÉNYEK Események formális leírása, műveletek Feladatok A VALÓSZÍNŰSÉG FOGALMA A valószínűség tulajdonságai Mintapéldák Feladatok VALÓSZÍNŰSÉGI VÁLTOZÓK Valószínűségi változók jellemzői Feladatok NEVEZETES ELOSZLÁSOK Egyenletes eloszlás Binomiális eloszlás Geometriai eloszlás Hipergeometriai eloszlás Poisson-eloszlás Normális eloszlás Eloszlások számítógépen Feladatok ALKALMAZÁSOK Becslés Hipotézisvizsgálatok Korreláció és regresszió Állapotmódszer Feladatok ÖSSZEFOGLALÁS Ellenőrző kérdések
Click here to get your free novaPDF Lite registration key
174 175 176 177 178 179 181 182 184 187 187 187 188 190 191 193 194 196 198 198 198 202 208 212 214 214 217
8. Valószínűségszámítás
Hogy a valószínűszínűségszámítás igazán gyakorlati tudomány, az kialakulásának történetéből is kiviláglik, hiszen gyökerei a matematikának a szerencsejátékokban történő alkalmazásáig nyúlnak vissza. Feljegyzések szerint Toscana hercege fordult Galileo Galileihez a következő kérdéssel: Hogyan lehetséges, hogy három kockát feldobva, az összeg gyakrabban lesz 10 mint 9, miközben mindkét szám hat módon állhat elő „kocka-számok” összegeként? Összeg: 9 1+2+6 1+4+4 2+3+4
Összeg: 10 1+3+5 2+2+5 3+3+3
1+3+6 2+2+6 2+3+5
1+4+5 2+4+4 3+3+4
De Méré lovag Pascalt kereste meg szintén egy kockajáték kapcsán felmerülő kérdéssel: A játékos egy kockával játszik a bank ellen. A bank nyer, ha a játékos négy dobásból legalább egy hatost dob. A kérdés az, hogy ez a feltétel kifizetődik-e a banknak? A szerencsejátékok törvényszerűségeinek megfigyeléséből vált nyilvánvalóvá, hogy az események egymáshoz viszonyított (relatív) gyakoriságai nagy számú kísérlet esetén stabilitást mutatnak. A nyerési esélyek kiszámítása azt a gyakorlati alapon nyugvó gondolatot sugallta, hogy egy esemény valószínűségének definícióját az esemény bekövetkezésének relatív gyakoriságára építsék. Például a 32 lapos (magyar) kártyacsomagból a piros ász kiválasztásának valószínűsége 1/32, ha feltételezzük, hogy egyenlő eséllyel választhatjuk bármely lapot. (A valószínűségnek ez a most említett definíciója korlátozott érvényű – mint a későbbiekben részletesen kitérünk rá – csak az ún. klasszikus valószínűségi mező esetén érvényes.) A valószínűség elméletének tudományos megalapozása két 17. századi matematikus, Pascal és Fermat nevéhez fűződik. A valószínűségelmélet matematikailag egzakt, axiomatikus felépítését elsőnek A. N. Kolmogorov valósította meg A valószínűségszámítás alapfogalmai című, 1933-ban megjelent művében. 1. példa
J. E. Salk amerikai bakteriológus 1953-ra fejezte be a II. világháborút követő évek egyik legszörnyűbb betegsége, a járványos gyermekbénulás elleni vakcina kifejlesztését. Az ezt követő években az évszázad legnagyobb kísérlete zajlott le a hatékonyság tesztelésére. Az oltóanyagot iskolás gyermekeken próbálták ki, a gyermekek egy része a kezelési, a másik a kontroll csoportot alkotta. Összesen közel 2 millió kísérleti személyt vontak be a vizsgálatba. A vizsgálat célja természetesen az volt, hogy az eredményekből az egész népességre vonatkozó következtetést lehessen levonni. A betegség előfordulási aránya a kontroll csoportban 0,057-nek, a beoltott csoportban 0,016-nak adódott. Elegendő alapot nyújt-e ez a különbség ahhoz, hogy az oltóanyagot széles körben bevezessék? A különbség az oltóanyagnak köszönhető-e, vagy a véletlen ingadozás megnyilvánulása? Tekintettel arra, hogy az 1947 és 1952 közötti években a gyermekbénulásos megbetegedések száma évente 10000 főtől 60000 főig terjedt, a kísérlet idején tapasztalt csökkenés adódhatott „véletlenül” is. Arra a kérdésre, hogy egy új gyógyszer hatásos-e, a valószínűségelméleten alapuló matematikai statisztika adhatja meg a választ. 2. példa
Az úgynevezett véletlen számok (melyeket valamilyen módszerrel véletlenszerűen választanak) számtalan helyen alkalmazhatók. Például: a) Szimuláció. Ha egy számítógépet valamilyen természeti jelenség utánzására akarunk használni, akkor véletlen számokra van szükség ahhoz, hogy a folyamatok a valóságnak
2007.02.04.
Click here to get your free novaPDF Lite registration key
173
8. Valószínűségszámítás
megfelelően működjenek. Szimulációra sok helyen lehet szükség, pl. a nukleáris fizika vizsgálatánál (amikor az egyes részecskék véletlenszerűen ütköznek egymással), vagy az operációkutatásban (ahol, mondjuk, az emberek véletlen időközökben érkeznek egy bankfiókba). b) Mintavétel. Egy termék-sorozatban gyakran lehetetlen minden darabot egyenként megvizsgálni. Ilyenkor egy véletlen minta segíthet a teljes tétel minőségének megítélésében. c) Számítógép-programozás. Számítógép-algoritmusok hatékonyságát, működését jól ellenőrizhetjük, ha adatforrásnak véletlen számokat választunk. d) Szórakozás. Kockázás, kártyázás, rulettezés stb. sokak számára élvezetes időtöltés. A véletlen számok ezen felhasználása sugallta a „Monte Carlo-módszer” elnevezést minden olyan eljárásra, amely véletlen számokkal dolgozik. A téma számítástechnikai fontosságát jelzi, hogy D. E. Knuth „A számítógép-programozás művészete” című alapművében többszáz oldalt szentel a véletlen számok előállításának, ellenőrzési módjainak.
Események A valószínűségszámítás a véletlen folyamatoknak azon alapvető sajátosságát ragadja meg, hogy egyetlen véletlen esemény kimenetele sem jósolható meg, de vannak olyan tulajdonságai, amelyek viszonylag állandóak. A népességből egyetlen embert kiválasztva semmit sem mondhatunk előre testmagasságának nagyságáról, de ha az egész népesség testmagasságának eloszlása ismert, akkor ennek alapján adott magassághatárok közötti egyének aránya pontosan megadható. Vizsgálódásunk során véletlen tömegjelenségekre szorítkozunk. Véletlen tömegjelenségeknek azokat a véletlen jelenségeket nevezzük, amelyek nagy számban megfigyelhetők, megismételhetők lényegében azonos körülmények között. Véletlen tömegjelenség például a lottóhúzás. A valószínűségelmélet alapvető, definiálatlan alapfogalma az esemény. Az esemény a véletlen kísérlet, jelenség lehetséges kimeneteleinek egyike. A lottóhúzás kapcsán beszélhetünk például arról a véletlen eseményről, hogy a jövő heti számok mindegyike páros lesz. A bevezetőben említett „három kocka” problémája esetén egy esemény, hogy a dobott számok összege 10. E példák is mutatják, hogy az események egy része több módon is megvalósulhat, hiszen a 10-es összeg kijöhet 1+4+5, de 3+3+4 módon is; a páros lottószámokat megkaphatjuk a 2, 4, 6, 8, 10, vagy például a 32, 46, 50, 80, 90 sorozattal is. Emiatt célszerű megkülönböztetnünk az elemi és az összetett eseményeket. Az elemi esemény fogalmára formális definíció nem adható. Nagyjából úgy fogalmazhatnánk, hogy az elemi esemény egyike azoknak a lehetőségeknek, amelyekben végződhet a kísérlet. Az összetett esemény elemi eseményekből áll. Az elemi esemény fogalma megragadásának nehézségére mutat rá a három kocka példája. Toscana hercege vélhetően arra gondolt – ha nem is ezzel a szóhasználattal –, hogy a kísérletben az elemi esemény a 1, 2, ..., 6 számokból álló rendezetlen számhármasok előfordulása. Ez felel meg annak, amit három teljesen egyforma kocka feldobásakor megfigyelhetünk. Vele szemben Galilei a rendezett számhármasokat tekintette elemi eseményeknek. (Ez annak az esetnek felel meg, hogy a kockák akkor is különböznek, ha mi
2007.02.04.
Click here to get your free novaPDF Lite registration key
174
8. Valószínűségszámítás
nem tudjuk megkülönböztetni őket.) Ezért Galileinél például a 1+4+5 összeg nem egy, hanem 6 elemi eseményt jelent, s a 3+3+4 összeg 3 elemi eseményt képvisel. (Miért?) Általában egy konkrét véletlen jelenség elemi eseményeit úgy célszerű megadni, hogy azok a lehető legegyszerűbb események legyenek. Mindig ki kell azonban elégíteniük három feltételt: 1. A véletlen jelenség megfigyelése után bármelyik elemi eseményről egyértelműen eldönthető, hogy bekövetkezett-e vagy sem. 2. Semelyik kettő elemi esemény sem következhet be egyidejűleg. 3. Az elemi események közül egy mindig bekövetkezik. A véletlen tömegjelenségek leírásakor általában nem célszerű valamennyi elemi eseményt felsorolni. El kell döntenünk, hogy melyek azok az elemi események, melyek számunkra egyforma következménnyel járnak, s azokat valamilyen közös jelöléssel látjuk el. Az így kialakult összetett eseményeket a továbbiakban a véletlen jelenség, kísérlet kimeneteleinek fogjuk nevezni. (A kimeneteleknek természetesen szintén ki kell elégíteniük a fenti három feltételt.) Így a három kocka problémájánál kimenetelnek tekinthetjük a dobott számok összegét, tehát a kimenetelek halmazát a 3, 4, ..., 18 számok alkotják. Események formális leírása, műveletek Az eseményeket a továbbiakban nagybetűkkel jelöljük: A esemény, B1, B2 események stb. Az elemi események halmaza a H eseménytér. Az összetett esemény fogalma rávilágít arra, hogy az esemény halmaz, az eseménytér egy részhalmaza. Az elemi eseményeknek az eseménytér egyelemű részhalmazai felelnek meg, az összetett eseményeknek a többelemű részhalmazok. Mivel az események halmazok, ez utóbbiak ábrázolásában bevált Venndiagramokkal az események közötti kapcsolatok is megjeleníthetők. Az eseményeken végrehajtható műveletek szabályai, az eseményalgebra tehát egyenértékű egy halmazalgebrával. Az A esemény maga után vonja B-t, ha az A-nak megfelelő halmaz részhalmaza B-nek. Jelölése: AB. Például kockával egy páros szám dobása (A esemény) egyben azt is jelenti, hogy egynél nagyobb számot dobtunk (B esemény). A biztos esemény olyan esemény, amely a kísérlet elvégzésekor minden alkalommal bekövetkezik, tulajdonképpen azonos az eseménytérrel. (Szokásos jelölése: I.) Nevezzük A eseménynek, hogy a 32 lapos magyar kártyából pirosat húzunk. Ekkor az A kiegészítő, ellentett vagy komplementer eseménye a zöld, tök, vagy makk húzása, azaz a „nem A” (jele: A') esemény. A bevezetőben említett, de Méré lovag nevéhez fűződő példában szereplő esemény (a játékos négy dobásból legalább egy hatost dob) komplementer eseménye, hogy egyetlen hatost sem fog dobni. A biztos esemény ellentett eseménye a lehetetlen esemény, melynek jele: . Az A+B esemény legalább az egyik esemény (vagy az A, vagy a B, vagy mindkettő) bekövetkezését jelenti. Használatos még a műveletre az AB jelölés is. Legyen az A esemény az, hogy kockával páros számot dobunk, a B esemény pedig az, hogy négynél nagyobb számot dobtunk. Ekkor az A+B eseményt a 2, 4, 5, 6 számok egyikének dobása jelenti. Az AB=AB (halmazelméleti jelöléssel AB) jelenti az A és B események együttes bekövetkezését. Legyen az A esemény, hogy a magyar kártyából pirosat húzunk, a B pedig az ász húzása. Ekkor az AB esemény nyilván a piros ász kihúzását jelenti. Az eseményalgebrában tehát két művelet van, melyek tulajdonságait az alábbi táblázatban foglaljuk össze:
2007.02.04.
Click here to get your free novaPDF Lite registration key
175
8. Valószínűségszámítás
Összeadás A+B=B+A (A+B)+C=A+(B+C)
Szorzás AB=BA (AB)C=A(BC) A(B+C)=AB+AC AA=A AA'= AI=A A=
A+A=A A+A'=I A+I=I A+=A
Elnevezés kommutativitás asszociativitás disztributivitás idempotencia
Kényelmi okok miatt szokás definiálni események különbségét is: A–B=AB'. (Tehát az A–B eseményről akkor beszélünk, ha az A esemény bekövetkezik, de a B nem.) Legyen az A esemény az, hogy kockával páros számot dobunk, a B esemény pedig az, hogy négynél nagyobb számot dobtunk. Ekkor az A–B eseményt a 2, 4 számok egyikének dobása jelenti. Ha a két esemény szorzata a lehetetlen esemény, (AB=) akkor azt mondjuk, hogy a két esemény kölcsönösen kizárja egymást, azaz az egyik esemény bekövetkeztével egyidőben a másik nem fordulhat elő. Nyilván kizáró eseménypár például egy esemény és az ellentettje. Több esemény is lehet (páronként) kölcsönösen kizáró, például vércsoport meghatározásánál az A, B, AB, 0 vércsoportba tartozás eseménye. Ha az egymást kizáró események együtt az egész eseményteret kitöltik, az eseményeket együtt teljes eseményrendszernek nevezzük. (Például magyar kártyából történő húzás esetén a „piros, zöld, tök, makk lap húzása” kimenetelek együtt teljes eseményrendszert alkotnak). Másképpen: Definíció: Az A1, A2, ..., An események teljes eseményrendszert alkotnak, ha a) egyikük biztosan bekövetkezik, azaz n
A I, i
és ha
i 1
b) egymást páronként kizárják, azaz Ai A j (ij) Az eseménytér összes lehetséges elemi eseménye teljes eseményrendszert alkot. Feladatok 8.1. Jelentse A azt az eseményt, hogy egy pakli magyar kártyából kihúzott lap piros, B jelentse azt, hogy figura (alsó, felső, stb.). Mit jelent az A+B, AB, A–B esemény? 8.2. Jelentse A azt az eseményt, hogy egy dobókocka a páros oldalára esik, B azt, hogy négyesnél kisebbre, C azt, hogy ötösre. Mit jelent A+B+C? 8.3. Bizonyítsuk be, hogy bármely A, B, C eseményekre a) (A–B)–C = (A–C)–(B–C) b) AB–C = (A–C)(B–C) c) A–BC = (A–B)+(A–C) 8.4. A jelentse azt az eseményt, hogy a kockával prímszámot dobunk; B azt, hogy 3-nál nem nagyobbat. Mit jelentenek az A+B, A–B, B–A, AB események?
2007.02.04.
Click here to get your free novaPDF Lite registration key
176
8. Valószínűségszámítás
8.5. Két szabályos játékkockával egyszerre dobunk. Jelentse A azt az eseményt, hogy az egyik kockával páros számot dobtunk; B azt, hogy mindkét kockával ugyanazt a számot. Mit jelentenek az A+B, A–B, AB, (A+B)B események? További gyakorló feladatok találhatók az „Összefoglaló feladatgyűjtemény"-ben (4115–4126.)
A valószínűség fogalma Valamely kísérlettel kapcsolatos esemény bekövetkezéseinek számát a kísérlet n-szeri megismétlése során megszámoljuk. Jelöljük a vizsgált eseményt A-val és tegyük fel, hogy a kísérletsorozatban az A esemény k-szor következett be. Képezzük a k/n hányadost, az A eseménynek a kísérletsorozatra jellemző relatív gyakoriságát. A tapasztalat azt mutatja, hogy ha egyre több kísérletből álló sorozatból határozzuk meg az A esemény relatív gyakoriságát, akkor a kapott relatív gyakoriságok egyre kisebb mértékben ingadoznak egy rögzített szám körül. Szemléletünk azt sugallja, hogy ezt a számot volna érdemes az A esemény valószínűségének nevezni. Ha egy kísérletnek, véletlen jelenségnek csak véges sok elemi kimenetele lehet, és az elemi eseményeknek azonos a valószínűségük, akkor a kísérlettel kapcsolatos események és ezek valószínűségei együtt ún. klasszikus (más néven kombinatorikus) valószínűségi mezőt alkotnak. Ebben a modellben az események valószínűségének kiszámítási módját a következő definició adja meg: kedvező elemi események száma valószínűség összes elemi esemény száma A valószínűség rövid jelölésére a latin probabilitas (=valószínűség) szó kezdőbetűjét használjuk. Legyen A a kísérlettel kapcsolatos esemény. Definíció: Ha az A esemény a kísérlet n egyenlően valószínű elemi eseménye közül k k különböző elemi esemény összegéből áll, akkor valószínűsége PA . n Tehát itt n az összes (egyenlően valószínű) lehetséges elemi esemény – másképpen az „összes eset” – száma, k pedig az A esemény bekövetkezése szempontjából kedvező elemi események – vagyis a „kedvező esetek” – száma. Határozzuk meg például annak a valószínűségét, hogy egy szabályos dobókockával páros számot dobunk! Kockadobás során a kimenetelek, vagyis az összes esetek száma n = 6. Ezek szabályos kocka használata esetében egyenlően valószínűek. Most a kedvező eseteket tekintjük. Ilyen most három van (k = 3), hiszen a 2, 4, 6 eredményű dobások a „kedvezőek”. Ha az eseményt A-val jelöljük, akkor P(A) = k/n = 3/6 = 1/2. Egy másik példa: legyen egy dobozban 4 fehér, 1 piros és 5 kék golyó. Egy golyót találomra kiveszünk. Határozzuk meg annak a valószínűségét, hogy fehéret húzunk! Mindegyik golyót azonos valószínűséggel választhatjuk, és az összes lehetőségek száma n = 10. Jelöljük A-val azt az eseményt, hogy a kihúzott golyó fehér. Ennek az eseménynek a szempontjából a kedvező esetek száma: k = 4. Így P(A) = k/n = 4/10 = 0,4. Tehát 0,4 valószínűséggel húzunk fehér golyót a dobozból. Nem véletlenül nevezik ezt a modellt „klasszikusnak”. A fenti definició gyakorlatilag Laplace-tól származik, aki már egy 1812-ben megjelent munkájában így fogalmazott:
2007.02.04.
Click here to get your free novaPDF Lite registration key
177
8. Valószínűségszámítás
„A valószínűségszámítás nem más, mint egyenlően valószínű esetek megszámlálása. Ha egy esemény valószínűségét akarjuk meghatározni, akkor meg kell keresnünk az összes olyan esetet, amelyek ezt az eseményt eredményezik. Ezek a kedvező esetek. Az esemény valószínűségét a kedvező esetek számának és az összes esetek számának hányadosa adja meg.” De a véletlen jelenségek matematikai eszközökkel történő vizsgálatának igénye már Pascal munkásságában is megjelenik. Egy 1654-ben írott levelét ezekkel a gondolatokkal zárja: „Ily módon összekapcsolva a matematikai bizonyítások szabatosságát a véletlen bizonytalanságával, és ezeket a látszólag homlokegyenest ellenkező dolgokat egymással kibékítve, e tan joggal tarthat igényt a következő, mindkét ellentétes alkotóelem nevét kölcsönvevő, valóban meghökkentő elnevezésre: a véletlen matematikája.”
A valószínűség tulajdonságai A klasszikus modellben a valószínűség a következő – könnyen belátható – tulajdonságokkal rendelkezik: 1. Egy tetszőleges A esemény valószínűsége nemnegatív és legfeljebb 1, azaz 0P(A) l. Az állítás igaz, hiszen a fenti definícióban szereplő tört nevezője pozitív, számlálója pedig nemnegatív. A kedvező kimenetelek száma nem lehet nagyobb mint az összes kimeneteleké, így a tört értéke legfeljebb 1. 2. A lehetetlen esemény valószínűsége 0, a biztos eseményé 1, azaz P() = 0, P(I) = 1. 3. Annak a valószínűsége, hogy két egymást kizáró esemény közül legalább az egyik bekövetkezik, egyenlő az események valószínűségeinek összegével. Rövidebben: Ha AB = , akkor P(A+B) = P(A)+P(B). Ha ka-val jelöljük az A, kb-vel a B esemény bekövetkeztét jelentő „kedvező” eseteket, akkor a két esemény kizáró volta miatt a ka+b = ka+kb összefüggés teljesül. Ez viszont a definíció miatt a tétel állításának érvényesülését jelenti. Érdemes észrevenni, hogy hasonló összefüggéssel már találkoztunk: metszet nélküli síkidomok területére, szakaszok hosszára ugyanezt az állítást fogalmazhatjuk meg. Az állítást általánosabban is kimondhatjuk: 3a. Ha az A1, A2,..., An események páronként kizárják egymást, akkor P(A1+A2+...+An) = P(A1)+P(A2)+...+P(An) Az állítást a 3. tulajdonság alapján teljes indukcióval lehet bizonyítani. A fentiekből következnek az alábbi összefüggések: 4. Ha A1, A2, ..., An teljes eseményrendszert alkotnak, akkor P(A1)+P(A2)+...+P(An) = 1. Mivel a teljes eseményrendszer definíciója szerint a benne szereplő események páronként kizárják egymást, együtt viszont a biztos eseményt adják ki, az állítás a 3a. tulajdonság egyszerű következménye. Ezen tétel speciális eseteként kapjuk: 5. Ha valamely kísérlet egy eseménye A és ennek ellentettje A', akkor P(A) + P(A') = 1. Egy esemény és ellentettje definíció szerint kizárják egymást, s alkotják együtt a biztos eseményt, így valóban alkalmazható a 4. tétel. 6. Ha az A esemény maga után vonja a B eseményt, azaz AB, akkor P(A)P(B). Jelölje C azt az eseményt, amely akkor következik be, amikor a B igen, de az A nem, azaz legyen C=B–A. Ekkor P(B)=P(A)+P(C). De mivel P(C)0, ezért P(A)P(B).
2007.02.04.
Click here to get your free novaPDF Lite registration key
178
8. Valószínűségszámítás
7. Legyen A és B egy kísérlet – egymást nem feltétlenül kizáró – két eseménye, akkor P(A+B) = P(A)+P(B)–P(AB). Legyen C1 az az esemény, hogy A bekövetkezik, de B nem, C2 az az esemény, hogy B bekövetkezik, de A nem, C3 az az esemény, hogy A és B egyidejűleg bekövetkezik (C3=AB). Nyilván C1+C2+C3=A+B, tehát P(A+B)=P(C1+C2+C3). Viszont C1, C2, C3 páronként kizárják egymást, így P(C1+C2+C3) = P(C1)+P(C2)+P(C3). Továbbá P(A)= P(C1+C3)=P(C1)+P(C3) és P(B)= P(C2+C3)= P(C2)+P(C3). Tehát: P(A+B)= P(C1)+P(C2)+P(C3)= (P(C1)+P(C3))+ (P(C2)+P(C3))–P(C3)= P(A)+P(B)–P(AB).
Az összefüggés több eseményre is érvényes. Például ha A, B, C egy kísérlet három eseménye, akkor: P(A+B+C)=P(A)+P(B)+P(C)–P(AB)–P(AC)–P(BC)+P(ABC). Érdemes észrevenni, hogy ha azt kérdezzük, hogy mi a valószínűsége egy eseménynek, akkor válaszként egy számot várunk, amely a kérdéses eseményhez van rendelve. A valószínűség tehát egy függvény, amelynek értelmezési tartományát események, értékkészletét számok alkotják. A fentiek szerint a valószínűség egy olyan függvény, amely a H eseménytér minden részhalmazához (az eseményekhez) egy 0 és 1 közötti számot rendel hozzá úgy, hogy a biztos eseményhez az 1-et rendeli, és véges vagy végtelen sok, páronként kizáró esemény egyesítéséhez pedig az egyes események valószínűségeinek összegét. Formálisan: a valószínűség az a függvény, amely az A eseményhez azt a p(A) számot rendeli hozzá, amely teljesíti a következő Kolgomorov-féle axiómákat: 1) 0p(A)1 2) p(I) = 1 3) ha Ai egymást páronként kizáró események, akkor p(Ak) = p(Ak)
Mintapéldák Az eddigiek gyakorlásaképpen oldjuk meg a bevezetőben említett, szerencsejátékokkal kapcsolatos feladatokat. 8.1. példa. De Méré lovag Pascalt kereste meg egy kockajáték kapcsán felmerülő kérdéssel: A játékos egy kockával játszik a bank ellen. A bank nyer, ha a játékos négy dobásból legalább egy hatost dob. A kérdés az, hogy ez a feltétel kifizetődik-e a banknak? A játék a bank számára nyilván akkor kifizetődő, ha a „legalább egy hatos” esemény valószínűsége meghaladja az 1/2-et. Feladatunk tehát az esemény valószínűségének meghatározása. Legegyszerűbben akkor jutunk el célunkhoz, ha felhasználjuk az ellentett események valószínűségére vonatkozó (5.) állítást. A „legalább egy hatos” esemény ellentettje a „nincs hatos”. Tehát: P(legalább egy hatos)=1–P(nincs hatos). A „nincs hatos” esemény csak egyféle módon következhet be: ha mind a négyszer nem hatost dobunk. Ennek valószínűsége: 4
5 P( nincs hatos) 0,4823 6
2007.02.04.
Click here to get your free novaPDF Lite registration key
179
8. Valószínűségszámítás
Tehát a keresett valószínűség: 4
5 P(legalá bbegy hatos) = 1 0,5177 6
8.2. példa. Toscana hercege fordult Galileo Galileihez a következő kérdéssel: Hogyan lehetséges, hogy három kockát feldobva, az összeg gyakrabban lesz 10, mint 9, miközben mindkét szám hat módon állhat elő „kocka-számok” összegeként? Mint azt az elemi események kapcsán említettük, a probléma megoldásakor Galilei a rendezett számhármasokat tekintette elemi eseményeknek. Elképzelhetjük ezt úgy is, hogy három különböző színű kockát dobunk fel (feketét, fehéret, kéket), s a dobott számokat is mindig ebben a sorrendben jegyezzük fel. Az összes kimenetelek száma ebben a modellben nyilván 63=216. A szimmetria miatt feltehetjük, hogy ezek mind egyenlően valószínűek. Végezzük el a következő – Vancsó Ödöntől származó – gondolatkísérletet: Vegyünk három teljesen egyforma dobókockát, és fessük be őket feketére, fehérre, kékre. Adjuk őket oda egy embernek, és dobáltassuk fel a kockákat. Segítőnk meg tudja különböztetni a kockákat egymástól, hisz azok különböző színűek. Sok kísérlet végrehajtása után kap valamiféle relatív gyakoriságot a lehetséges értékekre. Ezután kössük be munkatársunk szemét, aki számára most a három kocka teljesen egyforma, hiszen nem látja a színüket. Most is nyilvánvalóan ugyanazt az eredményt kell kapnia az egyes értékek relatív gyakoriságára, hiszen a kockák nem tudják, hogy most éppen egy „vak” dobál velük, tehát nyilvánvalóan ugyanúgy viselkednek, mint eddig. Vegyük le ezután a színezést a kockákról, és a kendőt segítőnk szeméről. A kockák ismét ugyanúgy kell viselkedjenek, mint az előbb, hiszen a kockák arról sem tudnak, hogy be vannak-e színezve. Ebből az következik, hogy a megkülönböztető jellel ellátott kockák ugyanúgy viselkednek, mint a nem megkülönböztethető kockák. Tehát a sorrendet figyelembe kell vennünk a dobott értékeknél.
Vizsgáljuk most meg, hogy a bennünket érdeklő összegek hányféle kimenetel révén valósulhatnak meg (az esetszámok meghatározását nem részletezzük, az Olvasó kombinatorikai ismeretei alapján ellenőrizni tudja az eredményt): Összeg: 9 Felbontás 1+2+6 1+4+4 2+3+4 1+3+5 2+2+5 3+3+3 Összesen
Összeg: 10 Felbontás Esetszám 1+3+6 6 2+2+6 3 2+3+5 6 1+4+5 6 2+4+4 3 3+3+4 3 Összesen 27
Esetszám 6 3 6 6 3 1 25
A táblázat eredményeit felhasználva: 25 P9 0,116 216
és
P10
27 0,125 216
8.3. példa. Egy pakli magyar kártyából kihúzunk találomra 10 lapot. Mi a valószínűsége, hogy legalább 6 piros lesz a kihúzott lapok között? A megoldás kulcsa az esemény felbontása egymást kizáró eseményekre, hiszen ekkor alkalmazhatjuk a 3. tételt. Tehát: P(legalább 6 piros)=P(pontosan 6 piros)+P(pontosan 7 piros)+P(pontosan 8 piros) Most már csak ezen kimenetelek valószínűségét kell meghatároznunk.
2007.02.04.
Click here to get your free novaPDF Lite registration key
180
8. Valószínűségszámítás
32 Az összes lehetőségek száma (lévén egy kiválasztási problémáról szó): 10 8 24 A 10 lap közé k darab pirosat -féle módon húzhatunk. Így a keresett k 10 k valószínűség:
8 24 8 24 8 24 6 4 7 3 8 2 P( k 6) 0,0049 32 10 Számítógép segítségével... a fenti példák végeredményei igen könnyen meghatározhatók. Természetesen a modellek felállításában nem számíthatunk a gép támogatására, de annál inkább a konkrét, numerikus értékek meghatározásában. Ismét csak a már tárgyalt táblázatkezelő programokra hivatkozunk. (A konkrét leírások a MS Excel 5.0-ra igazak, de természetesen más táblázatkezelő programokban is megtalálhatók – esetleg más néven, más szintaxissal – ezek a függvények.) Faktoriális
Szintaxis: FAKT(szám), ahol szám egy nem negatív szám, melynek a faktoriálisát keressük. Ha szám nem egész, akkor a függvény egésszé csonkítja. Például: FAKT(1) = 1, FAKT(5) = 120 Kombinációk
Szintaxis: KOMBINÁCIÓK(szám; kiválasztott), ahol szám az objektumok száma kiválasztott az objektumok száma az egyes kombinációkban. Például: KOMBINÁCIÓK(8; 2) = 28 Variációk
Szintaxis: VARIÁCIÓK(szám; kiválasztott), ahol szám az objektumok száma. kiválasztott az egy-egy alkalommal kiválasztott objektumok száma. Például: VARIÁCIÓK(100; 3) = 970 200 Feladatok 8.6. Mennyi annak a valószínűsége, hogy egy találomra kitöltött lottószelvénnyel ötös találatot érünk el? 8.7. Mennyi annak a valószínűsége, hogy egy találomra kitöltött lottószelvénnyel a) négyes; b) legalább négyes találatot érünk el? 8.8. Egy szabályos játékkockát egymás után hatszor feldobunk. Mennyi a valószínűsége annak, hogy az 1, 2, 3, 4, 5, 6 számok mindegyike előfordul a dobott számok között?
2007.02.04.
Click here to get your free novaPDF Lite registration key
181
8. Valószínűségszámítás
8.9. Egy pakli magyar kártyából kihúzunk találomra 4 lapot. Mennyi a valószínűsége annak, hogy legalább 2 ász lesz a kihúzott lapok között? 8.10. Mennyi annak a valószínűsége, hogy egy találomra választott 7 jegyű telefonszám jegyei mind különböznek? 8.11. 100 alma közül 10 kukacos. Kiveszünk az almák közül válogatás nélkül ötöt. Mennyi a valószínűsége annak, hogy lesz közötte férges? 8.12. Mennyi annak a valószínűsége, hogy ha valakinek az 52 lapos francia kártyából 13 lapot kiosztanak, akkor legfeljebb 3 ásza lesz? 8.13. Mennyi annak a valószínűsége, hogy ha két szabályos kockával dobunk, a dobott pontok összege legfeljebb 4 lesz? További gyakorló feladatok találhatók az „Összefoglaló feladatgyűjtemény"-ben (4127–4193.)
Valószínűségi változók Az eddig tárgyalt, használt klasszikus valószínűségi modell – mint láttuk – számos kérdés esetén igen hatékonyan használható. Azonban igen könnyen megfogalmazhatók olyan gyakorlati problémák, melyek ezen modellel nem tárgyalhatók, hiszen nem határozhatók meg matematikai úton (a szimmetria-elv segítségével), az egyes elemi eseményekhez, kimentelekhez tartozó valószínűségek. Például semmiféle elméleti megfontolás alapján nem tudunk válaszolni arra a kérdésre, hogy egy cipőboltba betérő vásárló milyen valószínűséggel vásárol 42-es méretű cipőt. A kérdés pedig életbevágóan fontos a cipőgyárak és a kereskedők számára. A probléma megoldásához statisztikai eszközökkel meg kell határozni a népesség lábméretének eloszlását, méghozzá lehetőleg nemenként és korcsoportonként, hiszen egy divatos lábbeli inkább a fiatalok körében adható el, míg egy konzervatívabb fazonú cipőt inkább az idősebbek fognak megvásárolni. A megoldás tehát az, hogy megadjuk a lehetséges kimeneteleket – példánkban a cipőméreteket –, méghozzá úgy, hogy azok kizáróak legyenek és legalább egy mindig bekövetkezzen közülük, továbbá a hozzájuk tartozó valószínűségeket. Ezzel eljutottunk a valószínűségi változó fogalmához. Pontosabban: Definíció: Ha az eseménytér elemeihez egy-egy számértéket rendelünk, az így kapott véletlentől (véletlen elemi eseményektől) függő változót valószínűségi változónak (véletlen, sztochasztikus változónak) nevezzük. Vegyük észre, hogy a három kocka problémáját végeredményben valószínűségi változóval oldottuk meg! Hiszen vettük a lehetséges kimenetelek halmazát, s megadtuk a hozzájuk tartozó valószínűségeket. Tekintsük át – most már minden esetre kitérve – a feladatot. Az alábbi táblázat tartalmazza a kimeneteleket és a hozzájuk tartozó valószínűségeket. kimenetel 3 4 5 6 7 8 9 10 valószínűség 1/216 3/216 6/216 10/216 15/216 21/216 25/216 27/216 kimenetel 11 12 13 14 15 16 17 18 valószínűség 27/216 25/216 21/216 15/216 10/216 6/216 3/216 1/216
2007.02.04.
Click here to get your free novaPDF Lite registration key
182
8. Valószínűségszámítás
Ha a táblázatban szereplő valószínűségeket összeadjuk, pontosan 1-et kapunk, tehát valószínűségeink kielégítik a valószínűségeloszlás definícióját: Definíció: A nemnegatív p1, p2, ..., pn számokat valószínűségeloszlásnak (vagy röviden eloszlásnak) nevezzük, ha összegük 1. A kapott eloszlás természetesen grafikonon is ábrázolható. A mellékelt ábrán a három kocka problémáját leíró véges valószínűségi változó eloszlása látható. 0,140 0,120 0,100 0,080 0,060 0,040 0,020 0,000 3
8
13
18
Kimenetelek
A fenti táblázattal egyben példát is láttunk a véges valószínűségi változóra, illetve annak egy lehetséges megadási módjára. Definíció: Egy valószínűségi változót végesnek nevezünk, ha lehetséges értékeinek halmaza véges. Általában egy X véges valószínűségi változót úgy adunk meg, hogy megadjuk, milyen értékeket, milyen valószínűséggel vehetnek fel. Ezt az alábbiak szerint írhatjuk le: x2 x1 X : Px1 Px2
L L
xn Pxn
(Szokás a valószínűségi változókat a görög (kszí) betűvel is jelölni.) Tekintsük a következő egyszerű kísérletet: egy kockával addig dobálunk, míg hatost nem kapunk. Hogyan tudjuk leírni ezt a kísérletet? Jelöljük P(i)-vel annak a valószínűségét, hogy az i-edik dobásra dobunk először hatost. Ekkor nyilván 2
1 5 1 5 1 5 P1 , P2 , P3 , K , Pi 6 6 6 6 6 6
i 1
1 ,K 6
A kísérlet érdekessége az, hogy a lehetséges kimenetelek halmazának nincsen vége, hiszen bármilyen nagy természetes számot is adunk meg, elképzelhető – igaz kicsiny valószínűséggel – olyan dobássorozat, melyben az adott határig nem sikerül hatost dobnunk. A példát leíró
2007.02.04.
Click here to get your free novaPDF Lite registration key
183
8. Valószínűségszámítás
5 X : k Pk 6
k 1
1 , k N 6
valószínűségi változó az úgynevezett diszkrét valószínűségi változók csoportjába tartozik.
0,200 0,150 0,100 0,050 0,000 1
6
11
16
21
Kimenetelek
Definíció: Ha egy valószínűségi változó értékei legfeljebb megszámlálhatóan végtelen halmazt alkotnak, akkor a valószínűségi változó diszkrét. A valószínűségi változók még egy csoportját kell megemlítenünk. A gyakorlatban sokszor előfordulnak olyan jelenségek, melyek kimenetelei tetszőleges valós értéket felvehetnek, legalábbis egy intervallumon belül. Ilyen változóval van dolgunk például, ha egy termék élettartamát kívánjuk vizsgálni, a Duna vízállásának magasságát szeretnénk „megjósolni”, és így tovább. Ezeket a valószínűségi változókat folytonos valószínűségi változóknak nevezzük. Ezek a változók tehát meghatározott határok között tetszőleges értékeket vehetnek fel. Ilyen lehet például az valószínűségi változó, melynek értékét úgy kapjuk, hogy egy egységnyi szakasz valamely pontjára rábökünk véletlenszerűen, és ennek távolságát vesszük az egyik végponttól. Itt nyilván a keletkezett távolság 0 és 1 között minden valós értéket felvehet. Az ilyen folytonos eloszlású valószínűségi változók esetén nem tudjuk megadni azt, hogy egy adott értéket mekkora valószínűséggel vesz fel, hiszen a klasszikus modell nem működik: az összes esetek száma végtelen, a jó esetek száma pedig 1, tehát egy elemi esemény valószínűsége 0 lenne, viszont az események végtelen sok elemi eseményből állhatnak, és végtelenszer 0 nincs értelmezve. Itt tehát egy új problémával állunk szemben, amelynek megoldására még visszatérünk. Valószínűségi változók jellemzői A leíró statisztikáról szóló fejezetben láttuk, hogy a megfigyelések, kísérletek általában nagy elemszámú statisztikai sokaságot eredményeznek. Az e sokaságokat leíró gyakorisági eloszlások jellemzésére bevezettünk néhány statisztikai mutatót (átlag, medián, módus, szórás, stb.), melyek csak a relatív gyakoriságoktól függtek. A valószínűséget eleve úgy definiáltuk, hogy alkalmas legyen a relatív gyakoriságok előrejelzésére, „jóslására”. Így nem meglepő, hogy a jelenségeket leíró valószínűségszámítási modelltől azt is elvárjuk, hogy a statisztikai mutatókra jó előrejelzést adjon. Ehhez értelmeznünk kell az egyes statisztikai mutatók megfelelőit a valószínűségi változókra. Tehát a x2 x1 X : Px1 Px2
L L
xn Pxn
általános alakban megadott valószínűségi változó jellemzőit úgy adjuk meg, hogy a megfelelő statisztikai mutatók definíciójában a relatív gyakoriságot a valószínűséggel helyettesítjük. Definíció: Valószínűségi változó módusza az az xi érték, amelynek P(xi) valószínűsége a legnagyobb. Ha több ilyen van, akkor a móduszok halmazáról beszélünk.
2007.02.04.
Click here to get your free novaPDF Lite registration key
184
8. Valószínűségszámítás
Definíció: Az X valószínűségi változó mediánja az az M(X) szám, amelyre teljesül, hogy
P X M X
1 1 és P X M X 2 2
Ha több ilyen szám van, akkor legyen a az a legkisebb szám, amelyre PX a az a legnagyobb szám, amelyre PX b
1 és b 2
1 a b . Ekkor a medián: M X . 2 2
Definíció: Az X valószínűségi változó várható értéke az E X x1 Px1 x2 Px2 K xn Pxn
súlyozott számtani közép. Definíció: Az X valószínűségi változó várható abszolút eltérése az |X–E(X)| valószínűségi változó várható értéke: |x1–E(X)|P(x1)+ |x2–E(X)|P(x2)+ ... +|xn–E(X)|P(xn). Definíció: Az X valószínűségi változó szórásnégyzete az (X–E(X))2 valószínűségi változó várható értéke, amit D2(X)-szel jelölünk: D2(X)=(x1–E(X))2P(x1)+ (x2–E(X))2P(x2)+ ... +(xn–E(X))2P(xn). A szórásnégyzetre – hasonlóan a számsokaságok szórásnégyzeténél látottakhoz – levezethető egy számolásra sokkal alkalmasabb összefüggés is. Eszerint: D2(X)=E(X2)–E2(X) Definíció: Az X valószínűségi változó szórása a szórásnégyzet pozitív négyzetgyöke, melyet D(X)-szel jelölünk. Érdemes visszalapozni a statisztikai mutatókhoz: tényleg csak behelyettesítés történt. Most nézzük meg egy egyszerű mintapéldán a kiszámítási módokat. (Megjegyezzük, hogy a jelölések használata az egyes szakkönyvekben eltérő: így például a várható érték esetében találkozhatunk a M(x), m, jelekkel; a szórást pedig több helyen -val, vagy s-sel jelölik.) 8.4. példa. Dobjunk fel egyszerre öt kockát. Legyen a kísérlet kimenetele a legkisebb dobott szám. Adjuk meg a valószínűségi változót és jellemzőit! A lehetséges kimenetelek az 1, 2, ..., 6 számok lesznek. Meghatározzuk, hányféleképpen kaphatjuk meg az egyes kimeneteleket, a kockákat megkülönböztethetőknek tekintve. Az összes esetek száma nyilván 65. Legegyszerűbben azt az esetet tudjuk megszámolni, mikor a legkisebb dobott szám a hatos, hiszen ez csak egyetlen módon jöhet létre, mikoris minden kockával hatost dobunk. A legkisebb dobott szám akkor lesz 5, ha minden szám legalább 5 és nem mindegyik nagyobb mint 5. A „minden szám legalább 5” esemény úgy következhet be, hogy az 1. kockával is, a 2. kockával is, stb., az 5, 6 számok egyikét dobjuk, tehát ezen esemény 25 számú módon következhet be. Ebből a számból le kell vonnunk a „minden szám nagyobb mint 5” események számát, ami 1. Tehát az 5 mint legkisebb szám 25–1 esetet jelent. Teljesen hasonlóan a legkisebb dobott szám akkor lesz 4, ha minden szám legalább 4 és nem mindegyik nagyobb mint 4. A „minden szám legalább 4” esemény úgy következhet be,
2007.02.04.
Click here to get your free novaPDF Lite registration key
185
8. Valószínűségszámítás
hogy az 1. kockával is, a 2. kockával is, stb., a 4, 5, 6 számok egyikét dobjuk, tehát ezen esemény 35 számú módon következhet be. Ebből a számból le kell vonnunk a „minden szám nagyobb mint 4” események számát, ami 25. Tehát az 5 mint legkisebb szám 35–25 esetet jelent. A gondolatmenetet ismételve megkapjuk tehát a valószínűségeket: kimenetel valószínűség közelítő érték
1
2
3
4
5
6
6 5 55 65
55 45 65
45 35 65
35 2 5 65
2 5 15 65
1 65
0,598
0,270
0,100
0,027
0,004
0,000
A táblázatból rögtön megállapítható, hogy a változó módusza 1. Mivel P(X=1)>0,5, így a medián is 1, azaz M(X)=1. A várható érték kiszámítása: 65 55 55 4 5 4 5 35 35 2 5 2 5 15 1 E X 1 2 3 4 5 6 5 5 5 5 5 5 6 6 6 6 6 6 5 5 5 5 5 6 5 4 3 2 1 1,57 65 A várható abszolút eltérést a valószínűségek közelítő értékeivel számoljuk ki: |1–1,57| 0,598+|2–1,57| 0,270+|3–1,57| 0,100+|4–1,57| 0,027+|5–1,57| 0,004+|6–1,57| 0,0000,68
A szórásnégyzet meghatározásához is a közelítő értékeket használjuk: D2=(1–1,57)20,598+(2–1,57)20,27+(3–1,57)20,1+(4–1,57)20,027+(5–1,57)20,004++(6–1,57)20,00,655
Ebből a szórás: D0,81. A statisztikai sokaságok jellemzésénél hasznos mérőszámnak bizonyult az átlag és a szórás. Láttuk, hogy az adatok legalább 75%-a az [átlag – kétszeres szórás; átlag + kétszeres szórás] intervallumba esik. Ez természetesen akkor is igaz, ha a statisztikai sokaság véletlen jelenségek megfigyeléséből származik. A valószínűségszámítási modellek segítségével a véletlen jelenségek kimeneteleire szeretnénk előrejelzést adni. Ilyen előrejelzés lehet az, hogy ha nagyszámú megfigyelést végzünk. Ekkor az adatok többsége egy jól meghatározott intervallumba esik, azaz nagyszámú független megfigyelés esetén az átlag nagy valószínűséggel közel lesz a várható értékhez. Pontosabban: Tétel: Legyen A egy kísérlet egyik kimenetele. Ismételjük meg a kísérletet n-szer egymástól függetlenül, és hA(n) jelölje az A esemény relatív gyakoriságát ebben a kísérletsorozatban. Ekkor tetszőleges kis és pozitív számokhoz található olyan, csak -tól és -tól függő N, hogy nN esetén
P hA n PA 1 . Ezt a tételt – melyet bizonyítás nélkül közlünk – szokás a „nagy számok törvényének” nevezni. Elsőként Jacob Bernoulli mondta ki Ars coniectandi (A találgatás művészete) című művében. A szerzőjének halála után, 1713-ban megjelent könyvben találkozhatunk először a „valószínűség” szóval, bár még pontos definíció nélkül.
2007.02.04.
Click here to get your free novaPDF Lite registration key
186
8. Valószínűségszámítás
Feladatok 8.14. Egy kockával addig dobunk, amíg valamelyik, már korábban dobott szám ismételten előfordul. A szükséges dobások száma a kísérlet kimenetele. Adjuk meg a valószínűségi változót, jellemzőit! 8.15. Mi a lottón kihúzott öt szám közül a legkisebbnek az eloszlása? 8.16. Két kockát dobunk fel, a kimenetel a dobott számok összege. Adjuk meg a valószínűségi változót! 8.17. Két kockával dobva, mennyi a dobott számok a) maximumának; b) minimumának várható értéke? 8.18. Határozzuk meg a lottótalálatok számának várható értékét egy találomra kitöltött szelvény esetén! 8.19. Érmével dobunk addig, amíg először fordul elő, hogy két egymás utáni dobás azonos. Mennyi a szükséges dobások számának várható értéke? 8.20. Egy urnában 4 piros és 6 fehér golyó van. Kihúzunk 5 golyót a) visszatevés nélkül; b) visszatevéssel. Határozzuk meg a kihúzott piros golyók számának várható értékét és szórását! 8.21. Egy pakli magyar kártyából találomra kihúzunk egy lapot. Határozzuk meg a kihúzott lap értékének várható értékét és szórását! („Számos” lap értéke a rajta lévő szám, a „figurás” lapok értékei: 2, 3, 4, 11.)
Nevezetes eloszlások A következőkben néhány – a gyakorlati alkalmazások szempontjából kiemelt fontosságú – eloszlást veszünk tüzetesebben szemügyre: azaz megadjuk a valószínűségi változókat, várható értéküket, szórásukat. Egyenletes eloszlás Kísérlet: Dobjunk fel egy szabályos dobókockát. A kimenetel legyen a dobott szám. Az egyes kimenetelek egyenlően valószínűek, így a kísérletet leíró valószínűségi változó: 1 X: 1 6
2 1 6
3 1 6
4 1 6
5 1 6
6 1 6
0,2 0,15 0,1 0,05 0 1
2
3
4
5
6
Kimenetelek
Definíció: Egy véges eloszlást egyenletesnek nevezünk, ha kimentelei egyenlően valószínűek, azaz
2007.02.04.
Click here to get your free novaPDF Lite registration key
187
8. Valószínűségszámítás
PX xk
1 , ahol k = 1, 2, ..., n. n
Határozzuk meg az egyenletes eloszlás várható értékét, szórását!
E X x1
1 1 1 x x2 K xn x2 K xn 1 n n n n
x
i
n
Példánkban: E
1 2 3 4 5 6 21 3,5 6 6
Az eredményből is látható, hogy a várható érték jelentése nem az, hogy ha kockával dobunk, akkor 3,5-et fogunk dobni, hanem az, hogy elegendően sok kísérletet végezve a kapott adatok átlaga a várható érték környékén lesz. A szórás kiszámítására az átalakított összefüggést használjuk:
D
2
2 i
x X n
E 2 X
Példánkban: D2
1 4 9 16 25 36 91 3,52 3,52 2,92 6 6
tehát a szórás: D1,71. Az egyenletes eloszlás kiemelt fontosságú a véletlen számoknál. A számítógépes programok véletlen szám generátoraival szemben gyakorlatilag egyetlen követelmény merül fel: ez pedig az általuk előállított számok eloszlásának egyenletessége. Knuth már említett művéből kiderül, hogy ezt az – egyszerűnek látszó – követelményt meglehetősen nehéz teljesíteni. Binomiális eloszlás Kísérlet: Tegyünk egy urnába 2 darab piros és 8 darab fehér golyót. Húzzunk az urnából 20-szor egy-egy golyót úgy, hogy az egyes húzások után feljegyezzük a golyó színét, majd visszatesszük. Legyen a kísérlet kimenetele a kihúzott piros golyók száma. A lehetséges kimenetelek nyilván a 0, 1, 2, ..., 20 számok. Valószínűségeiket a klasszikus modellt felhasználva határozzuk meg. Tegyük fel, hogy a golyók meg vannak számozva, s az első 2 darab a piros. Így a húzások leírására egy olyan modellt tudunk használni, amelynek a kimenetelei az 1, 2, .. , 10 számokból álló 20 hosszúságú sorozatok. Ezek száma 1020, melyek előfordulási valószínűsége egyenlőnek tekinthető. Most már csak azt kell megszámolnunk, hogy hány olyan sorozat van, melyben az 1, 2 számok k-szor fordulnak elő. Ezek száma a kombinatorikában tanultak felhasználásával 20 k 20 k 2 8 . k
Így a keresett valószínűség: 20 2 k 8 20 k , amit akár így is felírhatnánk: Pk 1020 k
2007.02.04.
Click here to get your free novaPDF Lite registration key
188
8. Valószínűségszámítás k
20 1 4 Pk k 5 5
20 k
.
0,25 0,2 0,15 0,1 0,05 0 0
5
10
15
20
Kimene telek
Ezek a számok eloszlást alkotnak, hiszen nemnegatívok, továbbá összegük a binomiális tétel szerint 1. Ezt az eloszlást binomiális eloszlásnak nevezzük. A fenti kísérlet az úgynevezett visszatevéses mintavételnek egy konkrét példája. Próbáljuk meg tehát felismerésünket általánosítani. A legtöbb véletlen esemény modellezésére alkalmas az úgynevezett urna-modell. Legyen K egy adott esemény bekövetkezésének valószínűsége p . Tegyünk egy urnába K darab N fehér, és N – K darab fekete golyót, és húzzunk ki egy golyót az urnából. Ekkor az esemény bekövetkezése megfelel a fehér golyó húzásnak, az esemény be nem következése a fekete golyó húzásnak. Tétel: Annak a valószínűsége, hogy n független kísérlet során a p valószínűségű A esemény k-szor, az (1–p) valószínűségű A' esemény n–k-szor következzen be n n k PX k p k 1 p . k
Az ilyen eloszlású X változót binomiális eloszlásúnak nevezünk. Paraméterei: n és p. Jelölése: B(n; p). A fenti ábrán tehát a B(20; 0,2) binomiális eloszlást ábrázoltuk. A várható érték meghatározásához szükségünk lesz arra a kombinatorikában tanult ismeretre, hogy n n n 1 n n 1 , azaz k n . k k k 1 k k 1
Ennek felhasználásával a várható érték: n n n n 1 k nk n k E k p k 1 p n p 1 p k k 1 k 1 k 1 n n 1 n 1 k 1 n 1 i ( n 1) ( k 1) ( n 1) i np np p 1 p p 1 p k 1 k 1 i0 i
De itt az összeadandók a (n–1; p) paraméterű biomiális eloszlás tagjai, összegük tehát 1. Ezért a várható érték: E np
2007.02.04.
Click here to get your free novaPDF Lite registration key
189
8. Valószínűségszámítás
A szórásra kapott eredményt bizonyítás nélkül közöljük:
D np1 p . Példánkban tehát E =200,2 = 4, D 1,79 Geometriai eloszlás Kísérlet: Tegyünk egy urnába 2 darab piros és 8 darab fehér golyót. Húzzunk az urnából visszatevéssel egy-egy golyót mindaddig, amíg piros golyót sikerül húznunk. Legyen a kísérlet kimenetele a szükséges húzások száma. A kimenetelek tehát a pozitív egész számok lehetnek, de elképzelhető az is, hogy soha nem húzunk piros golyót. Ezért a valószínűségi változó értelmezési tartománya megszámlálhatóan végtelen számosságú halmaz. Vezessük be az alábbi eseményeket: A k: a szükséges húzások száma pontosan k, B k: az első k húzás között nincs piros. Tekintsük a következő eseményeket minden rögzített k-ra: B'k-1 Ak Bk
az első k–1 húzás között van piros az első k–1 húzás között nincs piros, de a k-dik piros az első k húzás egyike sem piros
Ezek az események teljes eseményrendszert alkotnak, tehát P(B'k–1)+ P(Ak)+P(Bk) = 1. Hasonlóan: P(B'k–1)+ P(Bk–1) = 1. Tehát azt kapjuk, hogy P(Ak) = P(Bk–1)–P(Bk). Vegyük észre, hogy a P(Bn) valószínűségeket már az előbb kiszámoltuk, a Bn esemény akkor következik be, ha n egymás után kihúzott golyó között nincs piros. Ez éppen a binomiális eloszlás első tagja, tehát: n
n n 0 n 4 PBn p 0 1 p 1 p , tehát 5 0 k 1
PAk 1 p
k
k 1
1 p p1 p
2007.02.04.
Click here to get your free novaPDF Lite registration key
1 4 5 5
k 1
, k = 1, 2, ...
190
8. Valószínűségszámítás
0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0
5
10
15
20
Kimenetelek
Ha a P(Ak) valószínűségeket a végtelen geometriai sor tanult összegzési szabálya szerint összeadjuk, akkor eredményül 1-et kapunk. Ez azt jelenti, hogy ahhoz az eseményhez, hogy soha nem húzunk piros golyót, csak a 0 valószínűséget rendelhetjük. Tétel: Ha egy kísérlet két lehetséges kimenetele a p valószínűségű A esemény és az 1–p valószínűségű A' esemény, akkor annak valószínűsége, hogy a kísérlet ismételt elvégzései során az A esemény először a k-adik alkalommal következik be k 1
PX k 1 p
p,
ahol k =1, 2, ...
Az eloszlást p paraméterű geometriai eloszlásnak nevezzük. Bizonyítás nélkül közöljük a geometriai eloszlás várható értékét és szórásnégyzetét. Tétel: A p paraméterű geometriai eloszlás várható értéke és szórásnégyzete:
E X
1 , p
illetve D 2 X
1 p . p2
Példánkban E(X) = 5; D2(X) = 20, tehát a szórás: D 4,47 Hipergeometriai eloszlás Kísérlet: Tegyünk egy urnába 6 darab piros és 4 darab fehér golyót. Húzzunk ki az urnából egyszerre 4 golyót. Legyen a kísérlet kimenetele a kihúzott piros golyók száma. 10 Kombinatorikai ismereteink alapján oldhatjuk meg a feladatot. Összesen -féle 4 elemű 4 6 4 minta van. Ezek közül darab tartalmaz pontosan m pirosat. A keresett m 4 m valószínűség tehát:
6 4 m 4 m , Pm 10 4
2007.02.04.
Click here to get your free novaPDF Lite registration key
ahol m = 0; 1; 2; ...; 4.
191
8. Valószínűségszámítás
0,5 0,4 0,3 0,2 0,1 0 0
1
2
3
4
Kimenetelek
Tétel: Ha egy N elemet tartalmazó halmazból, amelyben M darab a megjelölt (pl. selejtes) elemek száma, n elemű mintát veszünk visszatevés nélkül, akkor annak a valószínűsége, hogy m darab megjelölt elemet kiválasztottunk M N M m n m , ahol m = 0; 1; 2; ...; min(M;n) PX m N n A fenti eloszlást (N; M; n) paraméterű hipergeometriai eloszlásnak nevezzük. Bizonyítás nélkül közöljük a hipergeometriai eloszlás várható értékét és szórásnégyzetét. Tétel: A (N; M; n) paraméterű hipergeometriai eloszlás várható értéke és szórásnégyzete: E X n
M , N
illetve D 2 X n
M M n1 1 1 . N N N 1
Példánkban: E X 4
6 6 6 4 1 2 ,4 , illetve D 2 X 4 1 1 0,64 . 10 10 10 1 10
A gyakorlati életben sokszor alkalmazzuk a visszatevés nélküli mintavételt. Gondoljunk például arra, ha egy közvéleménykutatásnál megkérdezünk embereket, akkor ügyelünk arra, hogy ugyanazt az embert kétszer ne kérdezzük meg. A visszatevés nélküli mintavétel a hipergeometrikus eloszlásra vezet, ez azonban nagy elemszámú halmazokban, kis elemszámú mintavétel esetén közelíthető a binomiális eloszlással, nevezetesen: K N K k n k k n k n K N K p( x k ) N k N N n A fenti egyenlőség szemléletesen is megmagyarázható: ha sok elem van az urnában, és keveset húzunk, akkor egy kihúzott elemet kicsi valószínűséggel húznánk ki mégegyszer az urnából, tehát nem okoz jelentős eltérést, ha nem is tesszük vissza; másrészt pedig egy kihúzott elemmel nem csökken lényegesen az elemek száma, tehát egy elem kihúzásának valószínűsége csak nagyon kicsivel változik a visszatevéses esethez képest. A fenti közelítés csak a mondott feltételek teljesülése esetén áll fenn (N „nagy”, n „kicsi”).
2007.02.04.
Click here to get your free novaPDF Lite registration key
192
8. Valószínűségszámítás
Poisson-eloszlás Kísérlet: Rendelkezésünkre áll n=4000 golyó, továbbá N=1000 urna. A golyókat véletlenszerűen szétosztjuk az urnákba. Mennyi a valószínűsége annak, hogy egy találomra kiválasztott urna pontosan k golyót tartalmaz? Mivel az egyes golyók elhelyezkedései egymástól függetlenek és bármelyik golyó N helyre egyforma eséllyel kerülhet, annak a valószínűsége, hogy egy urnában éppen k golyó legyen, a binomiális eloszlás képlete szerint n 1 1 PX k k 1 N k N
n k
, k = 0, 1, 2, ...
Ha azonban a példában adott számértékekkel ki akarnánk számolni a valószínűségeket, komoly nehézségekbe ütköznénk, a hatalmas nagyságrendek miatt. Itt nem részletezhető módon levezethető a keresett valószínűség igen nagy számokra is alkalmazható alakja: P X k
k e ,
k! (ahol e a természetes logaritmus alapszáma, közelítő értéke: 2,71) Ezt a számsorozatot nevezzük paraméterű Poisson-eloszlásnak.* Várható értékét és szórását a paramétere határozza meg: E X , és DX .
Ezek szerint jelentése a fenti példában nem más, mint az egy urnára jutó golyók átlagos száma, esetünkben 4. Tehát a Poisson-eloszlást a binomiális eloszlás határeseteként, a kísérletek számának növelésével kaphatjuk meg úgy, hogy az A esemény valószínűsége n növelésével egyre csökken, miközben az np= szorzat állandó marad. A két eloszlás közötti igencsak szoros rokoni kapcsolatot mutatja a (=4 paraméterű) Poisson-eloszlás grafikonja is. 0,25 0,2 0,15 0,1 0,05 0 0
5
10
15
20
Kimenetelek
A Poisson-eloszlás jelentőségét az adja, hogy igen sok gyakorlati feladatban találkozunk ilyen eloszlású változókkal. Általában a pontok tér- vagy időbeli elhelyezkedése akkor követi a Poisson-eloszlást, ha azok egymástól függetlenül és minden tér- vagy időrészben egyformán valószínűen oszolhatnak el. Ilyen eloszlást mutat – többek között – a vérsejtek száma a mikroszkóp látóterében, az egy útszakaszon bizonyos idő alatt áthaladó gépkocsik *
Simeon Denis Poisson (1781-1840) francia matematikus alkotta meg ezen eloszlást.
2007.02.04.
Click here to get your free novaPDF Lite registration key
193
8. Valószínűségszámítás
száma, valamely radioaktív anyag adott idő alatt elbomló atomjainak száma, a sajtóhibák száma egy könyvoldalon, stb. Az eloszlás paramétere arányos lesz a vizsgált térrész vagy időszakasz nagyságával. Például egy üzletbe a vásárlók véletlen időpontokban érkeznek az üzlet nyitásától (t = 0) kezdődően. A t időpontig az üzletbe érkező vásárlók számát jelölje Xt. Az Xt valószínűségi változó eloszlására vagyunk kíváncsiak, vagyis arra, hogy mi annak a valószínűsége, hogy valamely t időpontig pontosan k (k = 0, 1, 2, ...) vásárló érkezik az üzletbe. Feltételeink a következőek: 1. A különböző időszakaszokban érkező vásárlók száma független egymástól. 2. Két egyenlő hosszúsági időintervallumban azonos valószínűségekkel érkeznek a vásárlók. 3. Egyszerre csak egy vásárló érkezik. Végeredményként azt mondhatjuk, hogyha az üzletbe a vásárlók véletlenszerűen érkeznek, de úgy, hogy a három feltétel teljesül és az egységnyi idő alatt érkező vásárlók átlagos száma , akkor annak a valószínűsége, hogy egy t hosszúságú időszakaszban k vásárló érkezzen PX t k
k t t e .
k! Pontosan ugyanez az összefüggés adja meg annak a valószínűségét, hogy egy t hosszúságú időintervallumban éppen k atom bomoljék el. Ebben az esetben az illető anyag ún. bomlási állandója. Normális eloszlás Mint említettük, a folytonos eloszlású valószínűségi változók esetében a klasszikus valószínűségi modell nem használható. A probléma megoldására egy lehetőség, hogy azt adjuk meg, milyen valószínűséggel vesz fel a valószínűségi változó egy adott értéknél kisebb értéket. Tehát F ( x ) p(a x ) lesz az a valószínűségi változó eloszlásfüggvénye. A folytonos eloszlású valószínűségi változó sűrűségfüggvénye (ha létezik ilyen) az a függvény, melynek grafikonja alatti terület a mínusz végtelentől egy adott x-ig a valószínűségi változó eloszlásfüggvényének értékével egyezik meg. A folytonos eloszlások közül feltétlenül a legfontosabb, a statisztikában központi szerepet játszó eloszlástípus a normális eloszlás. A normális eloszlás szintén a binomiális eloszlás határeseteként származtatható oly módon, hogy n növekedése közben a p n nk paraméter állandó marad. Végeredményben tehát a p k 1 p valószínűségeket k közelítjük – itt nem levezethető módon – az 1 f x e 2
x m2 2 2
sűrűségfüggvény x = k helyen felvett értékeivel, ahol az állandók jelentése:
m np, np1 p . Az f(x) sűrűségfüggvény által leírt eloszlást nevezzük normális eloszlásnak. Görbéje – mint látható – haranghoz hasonlít, csúcsa lekerekített; sem lapos, sem hegyes nem lehet. Lelapuló
2007.02.04.
Click here to get your free novaPDF Lite registration key
194
8. Valószínűségszámítás
ágai mindkét oldalon nagyon messze elnyúlnak, de már a csúcshoz aránylag közel a vízszintes tengely közelébe kerülnek.
0,25 0,2 0,15 0,1 0,05 0 -1
0
1
2
3
4
5
6
7
8
9
Bebizonyítható, hogy E(x) = m, D(x) = azaz a N(m,) normális eloszlás várható értéke az m, szórása a paraméter. A tapasztalat szerint a normális eloszlás igen gyakori a természetben, társadalmi jelenségekben. Ez a tapasztalat elméletileg is alátámasztható. Lényegében arról van szó, hogy ha valamely értéket sok apró, egymástól független hatás együttesen alakít ki, akkor ez az érték normális eloszlású lesz, függetlenül attól, hogy maguk a hatások – ha elszigetelten megvizsgáljuk őket – milyen eloszlásúak. A normális eloszlás harang alakú, sima görbéjét egyetlen minta gyakorisági eloszlása sem veheti fel, hiszen ehhez véges számú pont nem elegendő. A normális eloszlás görbéje megközelíthető kísérleti úton is, az úgynevezett Galton-deszkával. A Galton-deszka n sorban szabályosan elrendezve szögeket tartalmaz, a k-adik sorban éppen k darabot. A deszkán legördülő golyót minden sorban egy szög 1/2 valószínűséggel jobbra vagy balra téríti el. Az utolsó sor alatt n+1 tartályban gyűlnek össze a golyók. Ha a deszkán elegendően sok golyót gurítunk le, akkor a tartályokban a golyóknak egy a Gauss-görbéhez hasonló eloszlása rajzolódik ki. (Pontosabban egy 1/2 paraméterű binomiális eloszlást kapunk, azonban elég nagy n-re ez jól közelíti a normális eloszlást.)
A valószínűségszámítás gyakorlati alkalmazásaiban (becsléseknél, hipotézisvizsgálatokban, egyszóval a matematikai statisztikában) kitüntetett szerep jut az ún. standard normális eloszlásnak, melynek várható értéke 0 (azaz m = 0), szórása 1 ( = 1). A standard normális eloszlású valószínűségi változó sűrűségfüggvénye
( z)
1
e
2
z2 2
Gyakran lesz majd szükségünk ezen eloszlású változó eloszlásfüggvényére is:
( z)
1 2
z
e
t2 2
dt
Ez sajnos a középiskolában megismert elemi függvényekkel nem írható le, ezért értékeit általában táblázatban adják meg. (A táblázat a függelékben megtalálható, de mint később látni fogjuk, számítógép segítségével is meghatározhatók a szükséges értékek.) Ismerkedjünk meg a standard normális eloszlású valószínűségi változó sűrűség- és eloszlásfüggvényének grafikonjával.
2007.02.04.
Click here to get your free novaPDF Lite registration key
195
8. Valószínűségszámítás
1 0,8 0,6 0,4 0,2 0 -3,5
-2,5
-1,5
-0,5
0,5
Sűrűségfv.
1,5
2,5
3,5
Eloszlásfv.
Látható, hogy a (x) sűrűségfüggvény grafikonja szimmetrikus az y tengelyre. Mivel az egész görbe alatti terület 1, ezért elég csak pozitív z esetén megadni a (z) eloszlásfüggvény értékeit. Ekkor ugyanis ( z) 1 ( z) , ha z 0 . A táblázatban szerencsére nem kell túl sok értéket feltüntetni, hiszen a haranggörbe viszonylag meredek lefutása miatt már ( 3,5) 0,99976 , ami gyakorlati szempontból 1. Az eloszlásfüggvény értékeinek ismeretében meg tudjuk becsülni, hogy mekkora annak a valószínűsége, hogy egy adott valószínűségi változó értéke egy adott intervallumba esik. Az eloszlásfüggvény definíciójából következik, hogy p(a x b) (b) (a ) . Természetesen nem csak a normális eloszlásnak készíthető el a standard változata, ami összehasonlíthatóvá teszi az eloszlásokat. Ha például egy binomiális eloszlású valószínűségi változó egyes felvehető értékeihez tartozó valószínűségeket grafikonon ábrázoljuk, akkor azt tapasztalhatjuk, hogy a valószínűségek maximuma a várható érték, és minél nagyobb a valószínűségi változó szórása, annál jobban „ellapul” a grafikon. A standardizálás során egy koordinátarendszer-transzformációt hajtunk végre: a várható értéket „betoljuk” az y tengelyhez, az ellapulást pedig úgy egységesítjük, hogy a szórással osztunk. Tehát az X valószínűségi változó standardizált alakja:
X*
X E( X ) D( X )
Az így kapott X* valószínűségi változót standard valószínűségi változónak nevezzük. A standardizálás módja miatt nyilván: E(X*) = 0 és D(X*) = 1.
Eloszlások számítógépen A fentebb ismertetett eloszlások konkrét értékeinek meghatározása esetenként igen nehéz feladat: részben a számok nagyságrendje, részben az alkalmazandó függvények miatt. Ezért jelenthetnek komoly segítséget a már tárgyalt táblázatkezelő programok eloszlási függvényei. Az alábbiakban az Excel számos eloszlási függvénye közül azokat tárgyaljuk, melyek ismertetésére az eddigiekben kitértünk. (A konkrét leírások a MS Excel 5.0-ra igazak, de számos más táblázatkezelő programban is megtalálhatók – esetleg más néven, más szintaxissal – ezek a függvények.) Binomiális eloszlás Adott paraméterű binomiális eloszlás egyes kimeneteleinek valószínűségét számítja ki.
Szintaxis: BINOM.ELOSZLÁS(k; n; p; eloszlásfv), ahol k a sikeres kísérletek száma
2007.02.04.
Click here to get your free novaPDF Lite registration key
196
8. Valószínűségszámítás
n a független kísérletek száma p a siker valószínűsége az egyes kísérletek esetén. eloszlásfv a függvény fajtáját megadó logikai érték: ha igaz, a BINOM.ELOSZLÁS az eloszlásfüggvény értékét számítja ki, egyébként a sűrűségfüggvényét. Például: BINOM.ELOSZLÁS(4;20;0,2;HAMIS)= 0,2182 Hipergeometriai eloszlás Adott paraméterű hipergeometriai eloszlás egyes kimeneteleinek valószínűségét számítja ki.
Szintaxis: HIPERGEOM.ELOSZLÁS(m; n; M; N), ahol m a mintabeli sikeres kísérletek száma n a minta mérete M a statisztikai sokaságbeli sikeres kísérletek száma N a statisztikai sokaság mérete. Például: HIPERGEOM.ELOSZLÁS(2;4;6;10)= 0,4286 Poisson-eloszlás Adott paraméterű Poisson-eloszlás egyes kimeneteleinek valószínűségét számítja ki.
Szintaxis: POISSON(x; lambda; eloszlásfv), ahol x az események száma lambda az eloszlás paramétere eloszlásfv A valószínűségi eloszlás fajtáját megadó logikai érték. Ha értéke igaz, akkor a POISSON függvény az eloszlásfüggvényt adja eredményül, ellenkező esetben a sűrűségfüggvényt kapjuk. Például: POISSON(5;4;HAMIS) = 0,1563 Normális eloszlás A függvény adott várható értékű és szórású normális eloszlás egyes értékeit számítja ki.
Szintaxis: NORM.ELOSZL(x; középérték; szórás; eloszlásfv), ahol x az az érték, amelynél az eloszlást ki kell számítani középérték az eloszlás várható értéke szórás az eloszlás szórása. eloszlásfv Logikai érték. Ha értéke igaz, akkor a NORM.ELOSZL függvény az eloszlásfüggvény értékét számítja ki, ha értéke hamis, akkor a sűrűségfüggvényét. Például: NORM.ELOSZL(70;100;15;IGAZ) = 0,0228 Standard normális eloszlás A STNORMELOSZL függvény a standard normális eloszlás eloszlásfüggvényének értékét számítja ki. A függvény a standard normális eloszlásértékeket tartalmazó táblázat helyett használható.
Szintaxis: STNORMELOSZL(z), ahol z az az érték, amelynél az eloszlásfüggvény értékét ki kell számítani. Például: STNORMELOSZL(1,333) = 0,9088 Normalizálás A függvény adott várható értékű és szórású eloszlás egyes értékeit standardizálja (normalizálja).
Szintaxis: NORMALIZÁLÁS(x; várhér; szórás), ahol x a normalizálandó érték várhér az eloszlás várható értéke
2007.02.04.
Click here to get your free novaPDF Lite registration key
197
8. Valószínűségszámítás
szórás az eloszlás szórása. Például: NORMALIZÁLÁS(42; 40; 1,5) = 1,333333 Feladatok 8.22. Egy találomra kitöltött lottószelvény esetén a találatok száma milyen eloszlást követ? 8.23. Feldobunk 20 pénzérmét. A fejek száma lesz a kísérlet kimenetele. Ez milyen eloszlást követ? 8.24. Egy városban a tapasztalatok szerint az utasok 8%-a jegy nélkül utazik a metrón. Mekkora a valószínűsége annak, hogy egy 50 utast szállító kocsiban pontosan 4 potyautast találnak? Hány utas között találunk 90%-os valószínűséggel legalább egy potyautast? 8.25. Egy 20 kérdésből álló tesztlapon a kérdésekre „igen” -nel vagy „nem” -mel kell válaszolni. Ha valaki véletlenszerűen tölti ki a lapot, mekkora a valószínűsége annak, hogy a) legalább 17; c) mind a 20 kérdésre helyesen válaszol? 8.26. Az intelligenciahányados (IQ) megközelítően normális eloszlású, várható értéke 100, szórása15. A népesség hány százalékának az IQ-ja a) legfeljebb 70; b) legalább 120; c) 90 és 120 közötti érték?
Alkalmazások Ebben a részben megpróbáljuk valószínűségszámítási ismereteinket gyakorlati problémák megoldására felhasználni. Konkrét példákon keresztül tehát megismerkedünk a matematikai statisztika néhány alapfeladatával, azok megoldási módjával. Becslés Fel tudjuk-e használni a valószínűségszámítás tételeit például egy jelenség jövőbeni lefolyásának előrejelzésére? Abból, hogy egy A esemény valószínűsége p, még nem tudjuk előre megmondani, hogy a jelenség egy következő megfigyelésénél az A esemény bekövetkezik-e vagy sem. Azt azonban ki tudjuk számolni, hogyha a jelenséget elegendően sokszor megfigyeljük, akkor bekövetkezéseinek aránya előre adott nagy valószínűséggel (pl. 0,95) milyen határok közé esik. Ha feladatunk valamely A esemény ismeretlen valószínűségének meghatározása, akkor mindenekelőtt a jelenséget sokszor megfigyeljük és feljegyezzük bekövetkezéseinek k számát. Azonban a k/n relatív gyakoriság valószínűségi változó, amely további sorozatokat megfigyelve esetről esetre változik, ingadozik. Igaz ugyan, hogy a nagy számok törvénye szerint ez az ingadozás nagy eséllyel a keresett valószínűség körül történik, azonban a megfigyelések számának véges (drága, veszélyes, stb.) volta miatt a p meghatározásánál valamilyen értelemben vett közelítő értékkel, azaz statisztikai becsléssel kell megelégednünk. Nézzünk egy egyszerű példát! Hogyan állapíthatnánk meg, hogy egy tóban mennyi hal van? Egy lehetséges megoldás a következő. Fogjunk ki a halak közül valamennyit, jelöljük
2007.02.04.
Click here to get your free novaPDF Lite registration key
198
8. Valószínűségszámítás
meg, és engedjük vissza őket. Tegyük fel, hogy 500 hal került vissza ilymódon megjelölve a tóba. Ha egy későbbi halászat alkalmával azt találjuk, hogy 100 kifogott halból 5 volt megjelölt, akkor ebből arra következtethetünk, hogy a halaknak kb. 5 százalékát jelöltük meg, így a tóban valószínűleg körülbelül tízezer hal van. Gyakori, hogy a véletlen jelenség általunk elkészített, használt modellje valamilyen ismeretlen paramétertől függ, azonban ennek a paraméternek a konkrét értékét elméleti úton nem lehet meghatározni. Tudunk viszont nagyszámú kísérletet, megfigyelést végezni. A modell alapján pedig fel tudjuk írni a megfigyelt kimeneteleknek – a paramétertől függő – valószínűségét. Ezek után megkeressük a paraméter azon értékét, melyre ez a valószínűség a legnagyobb, s ezt az értéket tekintjük a paraméter becslésének. Ezt az eljárást nevezik a legnagyobb valószínűség („maximum likelihood”) módszerének. Pontosabban szólva, két megoldás között választhatunk a paraméter becslésére: próbálkozhatunk egyetlen számérték meghatározásával (pontbecslés), illetve egy intervallummal, amely nagy valószínűséggel tartalmazza a paraméter keresett értékét (intervallumbecslés). Ilyenkor tehát P 1 a 2 1
ahol egy kis valószínűség, 1– az (1, 2) megbízhatósági (konfidencia) intervallumhoz tartozó valószínűség, vagy biztonsági szint. A legnagyobb valószínűség módszerét a gyakorlatban legfontosabb eloszlásokra pontbecslésként alkalmazva – itt nem részletezhető módon – azt kapjuk, hogy normális eloszlás esetén a várható érték legjobb becslése a mintaközép, a szórásnégyzeté az empirikus szórásnégyzet, binomiális eloszlás esetén a valószínűség legjobb becslése a relatív gyakoriság. A becslések egyik legfontosabb alkalmazási területe a minőségellenőrzés. A gyártót és a vevőt egyaránt érdekli, hogy egy adott árukészletben hány darab selejtes termék van. Ezt a számot ugyan legtöbbször egy tételes ellenőrzéssel pontosan meg lehetne határozni, azonban ez rettentően időigényes és drága lenne. Ezért mindkét fél megegyezik egy átvételi tervben. Ez azt jelenti, hogy a készlet egy kis, rögzített darabszámú részének (n) megvizsgálása során legfeljebb hány hibás (k) esetén kell átvenni az árut. Nyilván n nem növelhető korlátlanul (elsősorban gazdaságossági megfontolások miatt), k értéke pedig terméktől függő módon változhat, azonban a két fél ezen érték ellenkező „mozgatásában” érdekelt! Tehát: adott egy N elemből álló halmaz, ahol N elég nagy, és van benne K darab bizonyos típusú, a mi érdeklődésünkre számot tartó elem (a selejt). Szeretnénk megtudni K értékét. Kiválasztunk tehát n darab elemet, és megnézzük, hogy közülük mennyi rendelkezik a számunkra fontos tulajdonsággal (azaz selejtes). Tegyük fel, hogy k darab ilyen elemet k K találtunk. A fentiek szerint a relatív gyakoriság valamennyire megközelíti a n N valószínűséget. Jó lenne tudni, hogy mennyire közelíti meg, illetve hogy hány elemet kell kiválasztanunk a sokaságból, hogy jól (azaz általunk megadott pontosságon belül) megközelítse. Egyetlen – sőt több – mintából sem tudjuk pontosan megmondani a keresett paraméter (pl. a selejtarány) pontos értékét, azonban megadható az az intervallum, amely ezt az értéket nagy valószínűséggel tartalmazza. Meghatározásához a standard normális eloszlást fogjuk használni.
2007.02.04.
Click here to get your free novaPDF Lite registration key
199
8. Valószínűségszámítás
8.5. példa. Egy minőségi ellenőrzés során a kiválasztott 1000 villanykörte közül 50 hibásat találtak. Adjunk pontbecslést és 90%-os biztonságú intervallumbecslést a teljes sokaság selejtarányára! A példa szövege értelmében egy visszatevés nélküli mintavétellel, tehát hipergeometrikus eloszlással van dolgunk, de a korábban mondottak alapján ez a binomiális eloszlással, az pedig a normális eloszlással közelíthető. Mint láttuk, binomiális eloszlás esetén a valószínűség legjobb pontbecslése a relatív gyakoriság, tehát p 0,05. A megbízhatósági (konfidencia) intervallum meghatározása némileg bonyolultabb. Standard normális eloszlás esetén az y tengelyre szimmetrikus haranggörbén olyan z0 értéket keresünk, amelyre teljesül, hogy P( z0 x z0 ) 0,90 . 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2
5%
90%
0,1
5%
0 -3
-2
-z
-1
0
1
z
2
3
Az eloszlásfüggvényt felhasználva kapjuk: P ( z 0 x z 0 ) ( z 0 ) ( z 0 ) 2z 0 1 0,90
Az innen megkapható z0 0,95 függvényértékhez tartozó z0 helyet akár az F.2. táblázatból, akár az említett Excel függvénnyel meghatározva kapjuk, hogy z0 = 1,65. Azonban ahhoz, hogy ezt az értéket a becsléshez felhasználhassuk, az eredeti eloszlásunkat normalizálnunk (standardizálnunk) kell. Mint láttuk, a normalizálás a X E( X ) X* D( X ) összefüggés alapján történik. Esetünkben ez azt jelenti, hogy a k np np1 p
képlettel adott binomiális eloszlás már 0 várható értékű, 1 szórású (azaz standardizált), hiszen a változóból levontuk a várható értéket, s osztottunk a szórással. Erre az eloszlásra már használható közelítésként a standard normális eloszlás. Tehát arra juttottunk, hogy k np P ( z0 z0 ) 0,90 np1 p Alakítsuk át a belső egyenlőtlenséget úgy, hogy p-re alsó és felső határt kapjunk!
2007.02.04.
Click here to get your free novaPDF Lite registration key
200
8. Valószínűségszámítás
k k 1 k n n k P z0 p z0 n n n
Tehát a relatív gyakoriságra az r
k k 1 n n 0,90 n
k jelölést bevezetve a keresett intervallum: n
r 1 r r 1 r r z0 ; r z0 n n
Behelyettesítve: 0,05 0,95 0,05 0,95 ; 0,05 1,65 0,05 1,65 0,039; 0,061 1000 1000
Tehát ezen a meglehetősen nagy mintán viszonylag alacsony megbízhatósági küszöböt választva is igen jó becslést kaptunk a selejtarány valószínűségére, amely ezek szerint 4-6% között van. 8.6. példa. A „Csudajó” üdülőszállóban turnusonként 250 hely van. A helyfoglalásokat előjegyzésben veszik fel. A korábbi évek tapasztalataiból tudják, hogy a megrendeléseknek kb. 10%-át a vendégek különböző okokból visszamondják. Legfeljebb hány előjegyzést vegyenek fel, hogy 99%-os biztonsággal legyen minden vendégnek hely? A 10%-os lemondási arány az egyes vendégek szempontjából azt jelenti, hogy egyenként p = 0,9-es valószínűséggel vesznek részt az üdülésen. Így az egyes turusokban üdülő vendégek száma binomiális eloszlást követ, tehát közelíthető a normális eloszlással. Ennek várható értéke és szórása E x np n 0,9 m , Dx np1 p n 0,9 0,1 0,3 n
A standardizált új változó
X m X 0,9n z 0,3 n már standard normális eloszlást követ, s teljesülnie kell rá a 250 0,9n P z z 0,99 0,3 n
feltételnek. A standard normális eloszlás táblázatából (F.2. tábla) megállapítjuk, hogy z = 2,33-nál már bekövetkezik a kívánt 99%-os valószínűség. Tehát a 250 0,9n 2,33 0,3 n egyenlőtlenséget kell megoldanunk. Ebből azt kapjuk, hogy n 265, azaz 99%-os biztonsági szinten 265 előjegyzést vehet fel a szálloda a 250 helyre. (Érdemes végiggondolni, hogy valóságos árakkal számolva mekkora többletbevételt jelent ez, elhanyagolható kockázat mellett.)
2007.02.04.
Click here to get your free novaPDF Lite registration key
201
8. Valószínűségszámítás
8.7. példa. Egy cég új termékkel szeretne megjelenni a piacon. Fel kívánják mérni, hogy a potenciális vevők megvásárolnák-e ezt a terméket. Egy reprezentatív közvéleménykutatás keretében hány embert kell megkérdezniük, hogy a mintában a vásárolni szándékozók százalékos aránya az összes vásárlókétól legfeljebb 2%-kal térjen el 95%-os biztonsággal? Legyen p az új terméket megvásárolni szándékozók aránya a teljes lakosságban. Ismét normális eloszlással közelítünk, melynek paraméterei: E x np m , Dx np1 p
A 8.5. példában megismert standardizálást ismét felhasználva kapjuk: k np P ( z0 z0 ) 0,95 np1 p Az összefüggést átalakítva adódik: P ( p z0
p1 p n
p1 p k p z0 ) 0,95 n n
Másrészt a standard normális eloszlásfüggvényből: P ( z0 x z0 ) ( z0 ) ( z0 ) 2z0 1 0,95
Az innen megkapható z0 0,975 függvényértékhez tartozó z0 helyet akár a táblázatból, akár az említett Excel függvénnyel meghatározva kapjuk, hogy z0 = 1,96. Mivel p értékét 2%-os pontossággal szeretnénk megkapni, ezért z0
p1 p n
0,02
Mivel p értékéről nincsenek előzetes információink, ezért használjuk fel a számtani és mértani közepekről szóló egyenlőtlenséget: p 1 p 1 p1 p 2 2 Tehát: z0
p1 p n
z0 2 n
0,02
Innen kapjuk: n
z02 4 0,02 2
1,962 4 0,02 2
2400
Tehát a kívánt pontosságú közvéleménykutatásban legalább 2401 embert kell megkérdezni. Hipotézisvizsgálatok A mindennapi életben gyakran találkozhatunk azzal, hogy gyors összehasonlításokat teszünk egy-egy, a sokaságokat valamennyire jellemző adat alapján. Az iskolákban például gyakran hallani, hogy az A osztály „jobb” mint a B. Az efféle kijelentéseknek legtöbbször
2007.02.04.
Click here to get your free novaPDF Lite registration key
202
8. Valószínűségszámítás
van bizonyos alapja, hiszen indoklásul felhozható, hogy az A osztály átlaga magasabb. De elegendő-e ez magyarázatként? Hiszen tudjuk, hogy az átlagok mögött szórások is vannak, és bizony előfordulhat, hogy a különbség csak a véletlen műve. Nyugodtan kijelenthetjük-e az ábrán látható eloszlásokról, hogy különböznek? A görbékről látható, hogy az adatok zöme mindkét eloszláshoz tartozhat, pedig várható értékeik 3,1 és 3,3, és szórásaik különböznek. (A konkrét értékek: E1=3,1; E2=3,3; D1=0,8; D2=0,7; azaz hasonlók az iskolai osztályzatok jellemzőihez). 0,6 0,5 0,4 0,3 0,2 0,1 0 -0,1
0
1
2
3
4
5
Hogyan tehetnénk megalapozottabbakká az ilyen összehasonlításokat? Próbáljuk meg kérdésünket pontosabbá tenni egy igen komoly példán keresztül. A probléma legyen az, hogy egy új gyógyszer hatásos-e egy adott betegség kezelésében? Első lépésként felállítjuk az úgynevezett nullhipotézist: a gyógyszer és a placebo („álgyógyszer”) hatása nem különbözik. Második lépésben elvégzünk egy kísérletsorozatot a hipotézis tesztelésére: a teljes népességből néhány kísérleti személyt (a mintát) véletlenszerűen kiválasztva és két csoportba osztva, egyik részük gyógyszert, másik részük placebo-t kap. (Egyéb körülményeket tekintve a két csoportot azonosan kezeljük.) A kezelés végén a gyógyulás tényét objektív, mérhető ismérvek alapján állapítjuk meg. A harmadik lépésben az eredményeket táblázatba rendezzük: gyógyszer placebo összesen
gyógyult 46 32 78
nem gyógyult 6 15 21
összesen 52 47 99
Ha a gyógyszer hatásos, a gyógyulási aránynak magasabbnak kell lennie a gyógyszerre, mint a placebora, ami teljesül, mivel 46/52 (=0,8846) > 32/47 (=0,6809). A fő kérdés az, vajon ez a magasabb gyógyulási arány valóban a szer hatásosságának a következménye-e, vagy a véletlen „működésének” eredménye? A hipotézisvizsgálat lényege tehát, hogy van egy feltevésünk, hipotézisünk az adatokkal kapcsolatban, s ezt a feltevést megvizsgáljuk, hogy teljesül-e vagy sem. A vizsgálatot az úgynevezett statisztikai próbák valamelyikével végezzük, s a döntést valószínűségi alapon hozzuk meg. Biztosat soha nem állíthatunk: ehhez a teljes sokaságot ismernünk kellene. A statisztikai módszerek lényege, hogy mintából következtetünk, így csak bizonyos valószínűséggel teljesülő állításokat fogalmazhatunk meg. Azonban ezek a „csak” „valószínű” állítások megalapozottabbak, megbízhatóbbak, mint a mindennapok „biztos” kijelentései. A hipotézisvizsgálatok végeredményben a jól ismert indirekt bizonyítás logikai szerkezetére épülnek. Mit is jelent ez? 1. Bizonyítani szeretnénk valamit. (Példánkban a gyógyszer hatásosságát.)
2007.02.04.
Click here to get your free novaPDF Lite registration key
203
8. Valószínűségszámítás
2. Feltesszük az ellenkezőjét. (Példánkban azt, hogy a gyógyszerrel és a placebo-val kezelt betegek azonos mértékben gyógyulnak, tehát a gyógyszer hatástalan.) 3. Erre a feltevésre támaszkodva számításokat végzünk, kiszámítunk egy elméleti eloszlást, statisztikát. 4. A számítások valószínűtlen eredményre vezetnek. (Fontos az eltérés: nem lehetetlen, csak valószínűtlen!) Tehát nem a logikával, hanem a valósággal kerülünk ellentmondásba. Ekkor elvetjük gondolatmenetünk egyetlen nem védhető pontját, azaz a feltevést. (Példánkban a gyógyszer és a placebo egyforma hatását, s ezzel bizonyítottuk a gyógyszer alkalmazásának eredményességét.) 5. Ha valószínű eredményt kapunk számításaink végén, akkor a feltevést nem vethetjük el, tehát példánkban azt mondhatjuk, hogy a gyógyszer valószínűleg hatástalan. Az, hogy mekkora valószínűségre mondjuk azt, hogy elegendően kicsiny a feltevés (a nullhipotézis) elvetéséhez, elvileg teljesen tőlünk függ. A gyakorlatban kialakult határok sok-sok tapasztalaton alapulnak, így célszerű alkalmazásuk. A legáltalánosabban alkalmazott határ az 5%-os valószínűségi szint. Ez azt jelenti, hogy akkor vetjük el a nullhipotézist, ha annak bekövetkezési esélye p = 0,05-nél kisebb. Ilyenkor azt mondjuk, hogy eredményünk p < 0,05 szinten szignifikáns, azaz a nullhipotézistől való eltérés jelentős, nem tulajdonítható a véletlennek.* Másképpen fogalmazva: 95%-os biztonsággal jelenthetjük ki, hogy például a vizsgált anyag gyógyhatású. Az alábbiakban két – viszonylag egyszerű, számítógép segítségével könnyen megvalósítható, de sokrétűen használható – statisztikai próbát ismertetünk, konkrét példákon keresztül. 8.8. példa. Egy gimnázium három párhuzamos osztályában a tanév végén matematikából az alábbi eredmények születtek: A osztály: 4, 4, 2, 3, 3, 3, 2, 2, 2, 4, 3, 4, 1, 4, 3, 2, 4, 4, 2, 2, 2, 3, 3, 2, 3, 1, 2 B osztály: 5, 5, 2, 3, 4, 3, 2, 2, 2, 3, 3, 3, 3, 3, 2, 2, 2, 2, 4, 3, 5, 5, 2 C osztály: 2, 5, 4, 4, 4, 2, 3, 4, 4, 3, 3, 2, 4, 4, 3, 5, 3, 4, 4, 5, 4, 4, 3, 5, 3, 4, 5, 4 Gyors számolással megállapíthatjuk, hogy az egyes osztályok átlagai rendre: 2,74; 3,04; 3,71. Mondhatjuk-e például, hogy a C osztály jelentősen (szignifikánsan) jobb eredményt ért el mint a B? Azt kívánjuk tehát megvizsgálni, eldönteni, hogy a két csoport között van-e eltérés, vagy nincs. Ehhez az úgynevezett Student-próbát, vagy másnéven a kétmintás t-próbát fogjuk használni. A Student-próba a statisztika egyik nagy hatású fegyvere. W.S. Gosset (1876-1937) angol matematikus publikálta az eljárást Student álnév alatt. Az álnév használatának állítólag az volt az oka, hogy főnöke – egy sörgyár tulajdonosa – nem vette jónéven, hogy alkalmazottja megosztja a konkurenciával ezt a minőségellenőrzésben kiválóan alkalmazható matematikai módszert.
Elméleti megfontolások alapján megállapítható, hogy a t-próba alkalmazásának három előfeltétele van. A minták legyenek 1. egymástól függetlenek, 2. normális eloszlásúak, 3. egyforma szórásúak. Míg az első két feltétel teljesülését példánkban adottnak tekinthetjük, addig a harmadik feltételt ellenőriznünk kell. Ennek eszköze az úgynevezett F-próba, amely azt vizsgálja, *
A sziginfikancia-szint nem tévesztendő össze a döntés biztonságának szintjével. Ha az előbbi 5%, akkor az utóbbi 95%.
2007.02.04.
Click here to get your free novaPDF Lite registration key
204
8. Valószínűségszámítás
hogy a két szórásnégyzet (tehát nem a két szórás!) lehet-e ugyanannak az elméleti szórásnégyzetnek (varianciának) két különböző becslése. Képlete igen egyszerű: F
12 22
A próba végrehajtása tehát egyetlen osztást igényel. A varianciák egyformaságának az F = 1 érték felel meg. Mivel a mellékletben található F.1. táblázat csak az 1-nél nagyobb értékeket tünteti fel, ezért F értékének meghatározásához mindig a nagyobb varianciát osztjuk a kisebbel. (A táblázatban hivatkozott szabadsági fokok jelen esetben a minták elemszámának 1-gyel csökkentett értékei.) A megfelelő sor és oszlop találkozásánál megtaláljuk azt az F értéket, amelytől fölfelé a két minta varianciája szignifikáns eltérést mutat. Ha tehát ezen értéknél kisebbet kapunk, nyugodtan tekinthetjük a két varianciát azonosnak, azaz alkalmazhatjuk a t-próbát. Mivel végülis arra vagyunk kíváncsiak, hogy a két minta várható értéke egyforma-e, a t-próba képletében a számláló az átlagok különbségét tartalmazza (ami a nullhipotézis értelmében 0 várható értékű), a nevezőbe pedig az átlagok közösen számolt szórását kell beírnunk. Független valószínűségi változók összegének szórása a varianciák összegéből vont négyzetgyök. Tehát a képlet: xy
2x 2y ahol x, illetve y az egyik illetve másik minta jellemzőit jelöli. Ha még figyelembe vesszük a varianciák F-próbával ellenőrzött egyformaságát, és elvégezzük a lehetséges behelyettesítéseket, akkor megkapjuk a kétmintás t-próba végleges, számolásra alkalmas alakját: xy t Qx Qy n m n m 2 nm ahol Qx ( x1 x ) 2 ( x 2 x ) 2 ...( x n x ) 2 xi2 x xi és Q y yi2 y yi
továbbá n és m a minták elemszámai. Foglaljuk össze tehát a szükséges lépéseket: 1. Átlagok, szórásnégyzetek meghatározása. 2. F-próba elvégzése. 3. A t-próba értékének meghatározása. 4. A szignifikancia-szint ellenőrzése, a hipotézis elfogadása, vagy elvetése. Végezzük el a számítást a fenti példa esetén. Megmutatjuk, hogyan dolgozhatunk „kézzel” (azaz legfeljebb egy kalkulátort használva), illetve számítógéppel, táblázatkezelő szoftver segítségével. Jelölje xi, n a B osztály, yi, m a C osztály adatait. Tételezzük fel, hogy a B osztály adatait a B2:B24 cellák, a C osztály adatait a C2:C29 cellák tartalmazzák. Kézzel
Géppel
B Átlag
n = 23 összeg = 70 átlag = 3,04
C m = 28 összeg = 104 átlag = 3,71
2007.02.04.
Click here to get your free novaPDF Lite registration key
B =Átlag(B2:B24)
C =Átlag(C2:C29)
205
8. Valószínűségszámítás
Variancia
F-próba F-próba ellenőrzése
t-próba
t-próba ellenőrzése
négyzetössz.= 408 összeg*átlag=386,3 Q=21,7 2=Q/m=0,78 117 , F 1,5 0,78 A számláló szabadsági foka 22, a nevezőé 27. Az F-táblázatban található érték (1,97) a kapottnál nagyobb, tehát 5%-os szinten a két variancia nem különbözik, a t-próba elvégezhető. A képletbe behelyettesítve: 3,71 3,04 t 2,393 21,7 27 23 28 23 28 2 23 28
=Varp(B2:B24)= =1,17
A t-táblázatban (F.3. tábla) a 23+28–2=49-es szabadsági foknál kell keresnünk ezt az értéket. Láthatjuk, hogy nagyobb mint az 5%hoz tartozó táblázatbeli érték, megállapíthatjuk tehát, hogy p<0,05, azaz eredményünk szignifikáns.
Mivel az Excel =T.PRÓBA() függvénye közvetlenül a keresett valószínűséget szolgáltatja, megállapíthatjuk, hogy p<0,05, azaz eredményünk szignifikáns.
négyzetössz.= 240 összeg*átlag=213 Q=27 2=Q/n=1,17
=Varp(C2:C29)= =0,78
117 , 1,5 0,78 A számláló szabadsági foka 22, a nevezőé 27. Az =Inverz.F(0,05; 22; 27) függvény által szolgáltatott érték (1,95) a kapottnál nagyobb, tehát 5%-os szinten a két variancia nem különbözik, a t-próba elvégezhető. F
=T.PRÓBA(B2:B24;C2:C29;2;2)= = 0,02065
Összefoglalóan megállapíthatjuk tehát, hogy 95%-os biztonsággal jelenthetjük ki, hogy a két osztály átlaga közötti különbség nem a véletlen ingadozás következménye. 8.9. példa. Vizsgáljuk meg a bevezetőben említett gyógyszer-hatásossági problémát! gyógyszer placebo összesen
gyógyult 46 32 78
nem gyógyult 6 15 21
összesen 52 47 99
A táblázat alapján úgy tűnik, hogy a gyógyhatás fennáll, de hogyan lehet ezt igazolni? Hogyan lehet megállapítható adatok alapján megbízható következtetéseket levonni? Mint a leíró statisztikáról szóló fejezetben láttuk, megállapítható adatok esetén munkánk szinte kizárólag a gyakorisági eloszlás elkészítésére szoritkozik, hiszen a „középérték”, „szóródás” fogalmainak ebben az esetben nincsen értelme. Ennek ellenére a fenti problémára egy igen jól használható statisztikai próba, a 2-próba (khi-négyzet) segítségével választ tudunk adni. Fenti táblázatunk végeredményben egy kétdimenziós eloszlást leíró kontingenciatáblázat. Az egyes cellákban álló gyakoriságok a véletlentől függő valószínűségi változók, melyek értéke attól függ, hogy a népesség mely részét figyeltük meg, kik kerültek be a mintába. Az egyes nij gyakoriságok tehát mintáról mintára ingadozni fognak a népességre jellemző ij gyakoriságok körül. Ez utóbbiak a véletlentől nem függő (ha úgy tetszik elméleti) értékek. A továbbiakban a ij értékeket várt gyakoriságoknak, az nij számokat kapott gyakoriságoknak fogjuk nevezni. A hipotézis ellenőrzése ezek után úgy történik, hogy megnézzük: nem túlságosan nagy-e a kétféle gyakoriság eltérése ahhoz, hogy az pusztán a véletlen műve lehessen. Az eltérést a két gyakoriság különbsége szolgáltatja. Hogy a pozitív és negatív eltérések ne ejtsék ki egymást, ezért az eltérések négyzetével fogunk számolni. Ahhoz, hogy a minta
2007.02.04.
Click here to get your free novaPDF Lite registration key
206
8. Valószínűségszámítás
nagysága ne zavarja meg az összehasonlítást, az értékeket a várt gyakoriságok nagyságával normalizáljuk:
nij ij 2 ij
Hogy az egész mintáról kapjunk képet, ezeket az eltéréseket összegezzük: 2
nij ij 2 ij
Ezen 2 érték kiszámításához a ij várt gyakoriságokat kellene meghatároznunk. Ehhez a táblázatunkban megtalálható a sor- és oszlopösszegeket, az úgynevezett marginális értékeket fogjuk felhasználni. Ezek az összegek a változók egy-egy „értékének” teljes mintabeli gyakoriságát adják meg, azaz ilymódon a marginális elemek az egyes csoportok létszámát is jelentik. (Feladatunkban például a gyógyultak alkotnak egy ilyen csoportot.) Mivel vizsgálatunk célja mindössze annak megállapítása, hogy a két ismérv kapcsolatban áll-e egymással, avagy független, megtehetjük, hogy a marginális értékeket a népességre jellemzően adottnak tekintjük, és így vizsgáljuk a változók függetlenségét. (Ha a változók a népességben függetlenek, az a mintában úgyis tükröződni fog.) Ezt felhasználva, egy cella várt gyakoriságát úgy kapjuk, ha a hozzátartozó két marginális érték szorzatát osztjuk a minta elemszámával. Azaz:
nij nij ij
j
i
N
Írjuk be a táblázatba az így kiszámított várt gyakoriságokat!
2007.02.04.
Click here to get your free novaPDF Lite registration key
207
8. Valószínűségszámítás
gyógyszer
gyógyult n11=46 11
placebo
nem gyógyult n12=6
összesen 62
62 78 62 21 41,0 12 11,0 99 99
n21=32
n22=15
47
47 78 47 21 21 37,0 22 10,0 99 99
összesen
78
21
99
Helyettesítsünk be a 2-próba képletébe! 2
nij ij 2 46 412 6 112 32 372 15 102 6,13 ij
41
11
37
10
Ez az érték a 2-táblázatból (F.4. tábla) kiolvashatóan (a szabadsági fok most a sorok és oszlopok számának eggyel csökkentett szorzata, tehát 1) meghaladja a p = 0,05 értékhez tartozó szignifikanciaszintet, azaz 95%-os biztonsággal jelenthetjük ki, hogy a gyógyszer hatásos. Természetesen a fenti 2 értéket táblázatkezelő szoftvert – s azon belül mindössze az alapműveleteket és az abszolút hivatkozásokat ügyesen – használva lényegesen gyorsabban is megkaphattuk volna. Egyes táblázatkezelők azonban még további segítséget is nyújtanak: például az Excel 5.0-ban megtalálható =KHI.PRÓBA(kapott_gyakoriságok; várt_gyakoriságok) függvény már közvetlenül a keresett valószínűséget szolgáltatja, mint azt az alábbi példán látjuk: A 1 2 3 4 5 6 7
B
C
D
Kapott gyak. gyógyszer placebo összes khi.próba inverz.khi
E
F
G
gyógyult 41,0 37,0
nem gyógy. 11,0 10,0
Várt gyak. gyógyult 46 32 78 0,013 6,133
nem gyógy. 6 15 21
összes 52 47 99
gyógyszer placebo
Az alkalmazott képletek, függvények: Pl. D3-ban: =SZUM(B3:C3) Pl. F3-ban: =$D3*B$5/$D$5 B6-ban: =KHI.PRÓBA(B3:C4;F3:G4) B7-ben: =INVERZ.KHI(B6;1) A kapott (kiemelt) eredmény alapján fenti kijelentésünket pontosíthatjuk is: a gyógyszer hatásossága 98%-os biztonsággal állítható. Korreláció és regresszió Számos esetben „érezzük” azt, hogy két változó között mintha kapcsolat lenne: például az egyik növekedtével legtöbbször nő a másik is, és viszont. Ilyen hipotézist fogalmazhatunk meg például az emberek magasságának és testsúlyának összefüggéséről. Ezekben az
2007.02.04.
Click here to get your free novaPDF Lite registration key
208
8. Valószínűségszámítás
esetekben azt mondjuk, hogy a változók között korreláció van. A korrelációt ne képzeljük egy determinisztikus, egyértelmű összefüggésnek. Az előbbi példára utalva, mindannyian ismerünk magas és sovány, de alacsony és kövérkés embereket is, akik „kilógnak” az összefüggésből. Jól megfigyelhető a kapcsolatnak ez a „szórtsága” a pontdiagramon, mellyel már találkoztunk a statisztikai fejezetben. (A grafikon középiskolás lányok magasságának és testtömegének összefüggését ábrázolja.)
A két változó közti esetleges korrelációval kapcsolatban tulajdonképpen három kérdésre keresünk választ: van-e köztük egyáltalán korreláció, ha van, akkor az milyen irányú (a változók együtt nőnek, vagy esetleg az egyik növekedtével a másik csökken: az előbbi esetben pozitív, az utóbbi esetben negatív korrelációról beszélünk), milyen szoros a változók kapcsolata. A független változók közt nincs semmiféle kapcsolat, tehát korreláció sincs; úgy is szoktuk ezt mondani, hogy a változók korrelálatlanok. (Két ilyen változó együttes eloszlását pontdiagramon ábrázolva vajon milyen képet kapunk?) Egyáltalán nem beszélhetünk korrelációról megállapítható változók között. A változók kapcsolatát többféle módon is lehet mérni – mint ahogy a szóródásra is több jellemző használatos. A legelterjedtebb mérőszám a lineáris korrelációs együttható, melyet röviden csak korrelációs együtthatónak fogunk hívni. 8.10. példa. Állapítsuk meg, beszélhetünk-e, és milyen irányú, erősségű összefüggésről a magasság és testsúly között! Mintának a fentebb már említett, 50 középiskolás lány adatait tartalmazó adatsort fogjuk használni, amelyet az alábbi táblázat tartalmaz. Magasság Testtömeg Magasság Testtömeg Magasság Testtömeg Magasság Testtömeg (cm) (kg) (cm) (kg) (cm) (kg) (cm) (kg) 156 40 160 54 155 48 166 58 160 43 162 54 165 49 160 58 157 45 162 54 160 50 171 60 158 45 165 56 155 50 175 60 165 46 172 56 163 50 172 62 158 46 172 56 166 50 168 62 154 46 182 57 160 50 165 62 158 47 170 57 165 50 160 64 152 48 166 57 165 52 176 65 163 48 169 57 168 52 176 65 158 48 173 58 166 53 166 66 161 48 171 58 168 53 170 70
2007.02.04.
Click here to get your free novaPDF Lite registration key
209
8. Valószínűségszámítás
165
48
169
58
Vezessük be a minta egyik változójára (pl. a magasságra) az x, a másikra (pl. a testtömegre) az y jelölést. A mintaelemek rendre (x1, y1), (x2, y2), ... lesznek, azaz általában (xi, yi) alakúak. A minta elemszámát jelölje n. Ezekkel a jelölésekkel a következő képlet határozza meg a korrelációs együtthatót:
r
xi x yi y 2 2 xi x yi y
A képlet „működőképességét” könnyű belátni: ha a változók együtt mozogva (akár egyirányúan, akár ellentétesen) térnek el az átlagoktól, akkor a számláló (azaz az átlagtól való eltérések szorzatának összege) abszolút értékben nagy szám lesz. Ha viszont egymástól függetlenül mozognak, akkor kicsi és nagy szorzótényezők gyakran adódnak, tehát a számláló kicsi lesz. A nevező (a négyzetes eltérések szorzata) normalizáló szerepet játszik: kiküszüböli a változók nagyságrendjéből adódó eltéréséket, a korrelációs együtthatókat összehasonlíthatóvá teszi. Ennek következtében a korrelációs együttható értéke mindig –1 és +1 közé esik. (Nem létezik szorosabb kapcsolat egy változó önmagával vett összefüggésénél: fejben is ellenőrizhető, hogy ekkor r = 1 adódik.) A fenti képletet némi átalakítással számolásra alkalmasabb alakra hozzuk:
xi x yi y xi yi xyi yxi xy xi yi x yi y xi nxy Ha figyelembe vesszük az utolsó tagban az átlagot definiáló összefüggéseket, akkor a számláló kiszámítására két, egyenrangú összefüggést kapunk: xi yi x yi xi yi y xi Qxy A nevezőben – mint már utaltunk rá – a négyzetes eltérések szerepelnek, így a rájuk már korábban bevezetett jelöléssel a korrelációs együttható képlete: Qxy r Qx Qy Ezzel az összefüggéssel a korrelációs együttható kiszámítása lényegesen leegyszerűsödik, hiszen az adatok előzetes feldolgozásából, leíró statisztikai elemzéséből a Qx, Qy mennyiségek, az átlagok és összegek már rendelkezésre állnak, csak a xi yi szorzatösszeget kell újonnan meghatároznunk. Mondanunk sem kell, hogy ez is néhány pillanat alatt elvégezhető egy táblázatkezelő program segítségével. Tehát a fenti példa adataival a konkrét számítás lépései:
xi 8239 Qxy
yi 2689
x 164,78 y 53,78 Qx = 2048,58 Qy = 2198,58 xi yi x yi 444515 443093,4 = 1421,58
r
Qxy Qx Qy
2007.02.04.
Click here to get your free novaPDF Lite registration key
1421,58 0,6698 4503967
210
8. Valószínűségszámítás
(Ezt az eredményt például Excelt használva közvetlenül is megkaphatjuk a =KORREL(B2:B51;C2:C51) függvény alkalmazásával, ahol az egyes tartományokban az x,
illetve y adatsorok találhatók.) Ezek után már csak egy teendőnk maradt: a korrelációs együtthatók táblázatában (F.5. tábla) meg kell néznünk, hogy ez az érték eléri-e a szignifikanciaszintet. (A szabadsági fok jelen esetben n–1.) A táblázatból kiolvashatjuk, hogy a vizsgált összefüggés még p < 0,001 szinten is szignifikáns, azaz a leányok testmagassága és tömege között 99,9%-os valószínűséggel kapcsolat van. Az eddig vizsgált korreláció azonban csak megállapította a változók közötti összefüggést, de semmiféle segítséget nem adott ahhoz, hogy hogyan lehet ezt a kapcsolatot kihasználni például arra, hogy az egyik változó értékét ismerve, mintegy „megjósoljuk” a másik adatot. Ez a funkció legegyszerűbben egy matematikai képlet formájában valósulhatna meg, melybe behelyettesítve mondjuk a magasság-adatot, megkapjuk a valószínű testsúlyt. Nyilván nem olyan összefüggést keresünk, amely pontról-pontra hiánytalanul teljesül, hanem amelytől – valószínűségi törvényszerűségek által meghatározott módon – mindkét irányban eltérhetnek az értékek. Ezt az összefüggést hívjuk az y változó x-re vonatkozó regressziójának. A fentebb említett „jóslást” nyilván akkor tudjuk megejteni, ha fel tudjuk írni a két változó közti regresszió egyenletét. A továbbiakban ennek a feladatnak egy speciális esetével foglalkozunk, a lineáris regresszióval, mikoris a változók közötti kapcsolat lineáris, azaz egyenessel írható le. A magasság-tömeg kapcsolat – mint a pontdiagramból látható – ilyen. 8.11. példa. Határozzuk meg a magasság-tömeg kapcsolat regressziós egyenesét! Egy olyan y = ax+b alakú egyenest keresünk, amely a pontokon „legjobban átmegy”. (Az az ideális állapot, mikoris a regressziós egyenes minden ponton átmegy, a gyakorlatban soha nem fordul elő.) Tehát arra kell törekednünk, hogy a „hiba” a lehető legkisebb legyen. Jelöljük az xi adat párját yi-vel, a feltételezett regressziós egyenesből számított értéket pedig Yi-vel. Az eltérések négyzetét vesszük figyelembe, így feladatunk az egyenes a és b paramétereinek olyan megadása, amely mellett a 2
yi Yi
2
yi axi b
négyzetes eltérésösszeg minimális. Itt nem részletezhető módon – az úgynevezett legkisebb négyzetek módszerét használva – az egyenes paramétereire a következők adódnak: y y és b y r ar x x x ahol r a korrelációs együttható. Tehát az egyenes egyenlete: y yr x x y x Ezek után a konkrét számítás menete (feltételezve, hogy az átlagokat és szórásokat már korábban meghatároztuk):
y 53,78 y 6,63
x 164,78 x 6,40
r = 0,6698
2007.02.04.
Click here to get your free novaPDF Lite registration key
211
8. Valószínűségszámítás
ar b y r
y x
y x
0,6698
6,63 0,6939 6,40
x 53,78 0,6939 164,78 60,5665 y = 0,6939x– 60,5665
Ismét felhívjuk a figyelmet a táblázatkezelő programok előnyeire: még ez az egyszerű számítás is könyebbé tehető. Az Excel 5.0 =MEREDEKSÉG(C2:C51;B2:B51) és =METSZ(C2:C51;B2:B51) függvényeit használva, a két paraméter értéke rögtön megkapható. Sőt: a pontdiagramot aktívvá téve és a Beszúrás/Trendvonal menüpontot választva, az imént meghatározott egyenes a grafikonon is megjelenik: y = 0,6939x - 60,566
70 60 50 40 30 20 10 0 150
155
160
165
170
175
180
185
Állapotmódszer Talán nem érdektelen a problémák egy másik megoldási módszerét is szemügyre vennünk. Az ismerős szituációt kissé átfogalmazzuk, s némileg egyszerűsítjük, hogy jobban látszódjon az alkalmazandó módszer, az úgynevezett állapotmódszer lényege. 8.11. példa. Tekintsünk tehát egy kisebb (egy eladóval dolgozó) üzletet, melybe egyszerre mondjuk öt vásárló fér be. Legyen p a valószínűsége annak, hogy egy időegység (pl. egy perc) alatt betér egy vevő, q pedig az éppen soros vásárló kiszolgálásának időegység alatti befejezésének valószínűségét jelentse. A „felhalmozódott” vásárlók szempontjából összesen hat állapot fordulhat elő, tudniillik a sornak 0, 1, ..., 5 eleme lehet. A kérdés már csak az, hogy mi a valószínűsége az egyes állapotok közötti átmeneteknek? Az alábbi táblázat ezt adja meg, ahol k a sor hosszát jelöli: állapotváltozás k k+1 k k–1 kk
valószínűség p q 1–p–q
Természetesen az üres és a teli bolt némileg másként kezelendő, amint az az alábbi ábráról, az úgynevezett állapotdiagramról leolvasható:
2007.02.04.
Click here to get your free novaPDF Lite registration key
212
8. Valószínűségszámítás
Ezeket az összefüggéseket felhasználva egyszerűen írható egy szimulációs program, melyet érdekesebbé, életszerűbbé tehetünk, ha például dinamikussá, azaz futás közben változóvá tesszük az átmeneteket leíró valószínűségeket. Hiszen feltételezhető, hogy egy vevő szívesebben tér be egy üres, mint egy zsúfolt boltba; vagy hogy az eladóra serkentőleg hat a türelmetlen vevők tömege. Legyen tehát p és q egyaránt arányos az aktuális sorhosszal! Érdemes játszani a paraméterekkel, meggondolni, hogy vajon mit fejeznek ki; mire hathat a reklám; a folyamatos, egyenletes forgalomért mit kell tennünk...? 8.12. példa. Képzeljünk magunk elé egy drótból készült kockát. A kocka egyik csúcsában tanyázik egy bogár, a vele szemközti csúcsban pedig kedvenc csemegéje található. Soklábú barátunk – érthető módon – át kíván jutni eleségéhez. Legyengült állapotára való tekintettel a repülés szóba sem kerülhet, csak az éleken közlekedve juthat el a kívánt csúcsba. Bogarunk szellemi képességei sem a régiek: sem különösebb előrelátásra, sem tanulásra nem képes. Ennek következtében az egy csúcsból kiinduló élek közül teljesen véletlenszerűen választ útvonalat. Viszont következetes: ha egy élen elindult, azon végig is megy (egységnyi idő alatt), csak a csúcsokban változtat irányt. Kérdésünk mármost a következő: átlagosan mennyi idő alatt jut bogarunk táplálékához; mi várható, hány élen megy végig? n 1
2 7 Az egzakt módon levezethető várható értéket a 2n 1 végtelen sor 9 9 n1 szolgáltatja: a pontos érték 10. Ennek érdekessége, hogy 10 lépésből az élelem ténylegesen elérhetetlen, azaz a valóságban két várható lépésszám van: a 9 és a 11. Észrevehetjük, hogy a kocka 8 csúcsa 4 osztályba sorolható, aszerint, hogy hány lépésből érhető el. Azt, hogy a kezdő és végponttól egy él távolságra lévő pontok egyenrangúak, azt a két ponton átmenő testátló körüli forgatással lehet belátni. Mindegy, hogy a bogár az azonos típusú pontok melyikén van, a további esélyei egyformák. Így a problémát egy egyenes mentén történő bolyongássá lehet egyszerűsíteni, ahol az elmozdulások valószínűségei:
A probléma megoldására szemléltetésére programot is írhatunk, amely közvetlen szimulációt végez; azaz végigköveti a bogár (pontosabban számos bogár) útját csúcsról csúcsra, s közben számolja a lépéseket; majd a kapott összeget átlagolja. Érdemes meghatározni az előforduló legnagyobb lépésszámot is: kellő számú bogár esetén kaphatunk száz feletti értéket is.
2007.02.04.
Click here to get your free novaPDF Lite registration key
213
8. Valószínűségszámítás
Feladatok 8.27. Az alábbi táblázat alapján állapítsa meg, hogy van-e összefüggés a szem- és a hajszín között? világos szem sötét szem
világos haj 307 33
sötét haj 32 95
8.28. Egy gimnáziumi osztály tanulói a tanév végén szerzett matematikából, fizikából és rajzból az alábbi jegyeket szerezték. Állapítsa meg, hogy van-e összefüggés az egyes tárgyakból elért eredmények között! Matematika 2 3 2 5 4 2 2 4 3 4 4 2 4 2 4 2 4 2 3 4 3 4 2 Fizika 3 3 2 5 4 3 2 5 4 4 4 3 5 2 2 2 3 2 3 4 3 4 1 Rajz 4 4 5 5 4 3 4 3 4 3 5 3 5 4 4 4 5 3 5 5 5 5 3
A korreláció megléte esetén határozza meg a regressziós egyenes(ek) egyenletét! 8.29. A 8.8. példában szereplő osztályok esetén állapítsa meg, hogy az A-C és A-B osztályok matematika átlagainak eltérése szignifikáns-e! 8.30. Vizsgálja meg, hogy tanulócsoportjukban van-e összefüggés a testmagasság és a lábméret között! 8.31. Egy tóból kifognak és megjelölnek 500 halat, hogy meghatározzák a tóban élő halak számát. Ezután újból visszateszik őket a vízbe. Néhány nap múlva kifognak 100 halat, melyek közül 8 van megjelölve. Becsüljük meg 95%-os biztonsággal a tóban lévő halak számát! 8.32. Egy politikai közvéleménykutatás során 1000 embert kérdeztek meg. Közülük 320-an szavaznának az A pártra. Becsüljük meg 95%-os biztonsággal, hogy ennek alapján a választáson a párt milyen szavazatarányt érhet el? Mekkora a tényleges előnye a B párt előtt, melyet a közvéleménykutatás során 290-en választottak? 8.33. Egy üditőital ismertségét a gyártó 2% pontossággal, 90%-os biztonsággal szeretné tudni. Hány embert kell megkérdezni ehhez?
Összefoglalás A valószínűségszámítás véletlen tömegjelenségekkel foglalkozik. Események Az esemény a véletlen kísérlet lehetséges kimeneteleinek egyike, megkülönböztetjük az elemi és az összetett eseményeket. Az elemi események halmaza az eseménytér. Az elemi eseményeknek az eseménytér egyelemű részhalmazai felelnek meg, az összetett eseményeknek a többelemű részhalmazok. A biztos esemény olyan esemény, amely a kísérlet elvégzésekor minden alkalommal bekövetkezik. A biztos esemény ellentett eseménye a lehetetlen esemény, melynek jele: . Az események között két műveletet – az összeadást és a szorzást – értelmeztük, melyek tulajdonságait az alábbi táblázatban foglaljuk össze:
2007.02.04.
Click here to get your free novaPDF Lite registration key
214
8. Valószínűségszámítás
Összeadás A+B=B+A (A+B)+C=A+(B+C)
Szorzás AB=BA (AB)C=A(BC) A(B+C)=AB+AC AA=A AA'= AI=A A=
A+A=A A+A'=I A+I=I A+=A
Elnevezés kommutativitás asszociativitás disztributivitás idempotencia
Az A1, A2, ..., An események teljes eseményrendszert alkotnak, ha egyikük biztosan n
bekövetkezik, azaz
A I és ha egymást páronként kizárják, azaz i
Ai A j (ij)
i 1
Valószínűség A klasszikus (más néven kombinatorikus) valószínűségi mezőben egy esemény valószínűsége P(A)=k/n, ahol n az összes lehetséges egyenlően valószínű elemi esemény száma, k pedig az A esemény bekövetkezése szempontjából kedvező elemi események száma. Az így definiált valószínűség tulajdonságai: 1. Egy tetszőleges A esemény valószínűsége nemnegatív és legfeljebb egy, azaz 0P(A) l. 2. A lehetetlen esemény valószínűsége 0, a biztos eseményé 1, azaz P() = 0, P(I) = 1. 3. Annak a valószínűsége, hogy két egymást kizáró esemény közül legalább az egyik bekövetkezik, egyenlő az események valószínűségeinek összegével. Ha AB=, akkor P(A+B) = P(A)+P(B). 3a. Ha az A1, A2,..., An események páronként kizárják egymást, akkor P(A1+A2+...+An)=P(A1)+P(A2)+...+P(An) 4. Ha A1, A2, ..., An teljes eseményrendszert alkotnak, akkor P(A1)+P(A2)+...+P(An) = 1. 5. Ha valamely kísérlet egy eseménye A és ennek ellentettje A', akkor P(A) + P(A') = 1. 6. Ha az A esemény maga után vonja a B eseményt, azaz AB, akkor P(A)P(B). 7. Legyen A és B egy kísérlet – egymást nem feltétlenül kizáró – két eseménye, akkor P(A+B) = P(A)+P(B)–P(AB). Valószínűségi változók Ha az eseménytér elemeihez egy-egy számértéket rendelünk, az így kapott véletlentől (véletlen elemi eseményektől) függő változót valószínűségi változónak (véletlen, sztochasztikus változónak) nevezzük. A nemnegatív p1, p2, ..., pn számokat valószínűségeloszlásnak (vagy röviden eloszlásnak) nevezzük, ha összegük 1. Általában egy X véges valószínűségi változót úgy adunk meg, hogy megadjuk, milyen értékeket, milyen valószínűséggel vehetnek fel. Ezt az alábbiak szerint írhatjuk le: x2 x1 X : Px1 Px2
L L
xn Pxn
Valószínűségi változó módusza az az xi érték, amelynek P(xi) valószínűsége a legnagyobb. Ha több ilyen van, akkor a móduszok halmazáról beszélünk. Az X valószínűségi változó mediánja az az M(X) szám, amelyre teljesül, hogy
2007.02.04.
Click here to get your free novaPDF Lite registration key
215
8. Valószínűségszámítás
P X M X
1 1 é s P X M X 2 2
Az X valószínűségi változó várható értéke: E X x1 Px1 x2 Px2 K xn Pxn
Az X valószínűségi változó várható abszolút eltérése az |X–E(X)| valószínűségi változó várható értéke: |x1–E(X)|P(x1)+ |x2–E(X)|P(x2)+ ... +|xn–E(X)|P(xn). Az X valószínűségi változó szórásnégyzete az (X–E(X))2 valószínűségi változó várható értéke, amit D2(X)-szel jelölünk: D2(X)=(x1–E(X))2P(x1)+ (x2–E(X))2P(x2)+ ... +(xn–E(X))2P(xn). Az X valószínűségi változó szórása a szórásnégyzet pozitív négyzetgyöke, melyet D(X)szel jelölünk. A „nagy számok törvénye”: Legyen A egy kísérlet egyik kimenetele. Ismételjük meg a kísérletet n-szer egymástól függetlenül, és hA(n) jelölje az A esemény relatív gyakoriságát ebben a kísérletsorozatba. Ekkor tetszőleges kis és pozitív számokhoz található olyan, csak -tól és -tól függő N, hogy nN esetén
P hA n PA 1 . Eloszlások Egyenletes eloszlás
Egy véges eloszlást egyenletesnek nevezünk, ha kimentelei egyenlően valószínűek, azaz 1 PX xk , ahol k = 1, 2, ..., n. n Binomiális eloszlás
Annak a valószínűsége, hogy n független kísérlet során a p valószínűségű A esemény k-szor, az (1–p) valószínűségű A' esemény n–k-szor következzen be n n k PX k p k 1 p . k
E np . Szórás: D np1 p . Geometriai eloszlás
Ha egy kísérlet két lehetséges kimenetele a p valószínűségű A esemény és az 1–p valószínűségű A' esemény, akkor annak valószínűsége, hogy a kísérlet ismételt elvégzései során az A esemény először a k-adik alkalommal következik be k 1
PX k 1 p Várható érték: E X
2007.02.04.
Click here to get your free novaPDF Lite registration key
1 , p
p, Szórás:
ahol k =1, 2, ...
D 2 X
1 p . p2
216
8. Valószínűségszámítás
Hipergeometriai eloszlás
Ha egy N elemet tartalmazó halmazból, amelyben M darab a megjelölt elemek száma, n elemű mintát veszünk visszatevés nélkül, akkor annak a valószínűsége, hogy m darab megjelölt elemet kiválasztottunk M N M m n m , ahol m=0; 1; 2; ...; min(M;n) PX m N n M , N M M n1 D 2 X n 1 1 . N N N 1
Várható érték: E X n Szórás: Poisson eloszlás
A paraméterű Poisson eloszlás: PX k
k e ,
k! Várható értéke: E X , szórása: DX .
Normális eloszlás
A normális eloszlás a binomiális eloszlás határeseteként származtatható oly módon, hogy n növekedése közben a p paraméter állandó marad. 1 f x e 2
x m2 2 2
ahol az állandók jelentése:
m np, np1 p . Az f(x) függvény által leírt eloszlást nevezzük normális eloszlásnak.
Ellenőrző kérdések 1. 2. 3. 4. 5. 6.
Mit nevezünk kísérletnek, eseménynek, eseménytérnek? Adja meg a klasszikus valószínűség definícióját! Melyek a klasszikus valószínűség fontosabb tulajdonságai? Hogyan adunk meg egy valószínűségi változót? Mit értünk egy egy valószínűségi változó várható értéke és szórása alatt? Sorolja fel, és röviden jellemezze a tanult eloszlásokat!
2007.02.04.
Click here to get your free novaPDF Lite registration key
217