1
Erdészeti és Faipari Egyetem Erdõmérnöki Kar Matematikai Intézet
Csanády Viktória - Horváth Róbert - Szalay László
MATEMATIKAI STATISZTIKA
Sopron, 1995
2
3
"A vezérkari fõnök betáplálja a szuperintelligens számítógépbe a kérdést: A Szovjetunió vagy az USA fog legelõször embert küldeni a Marsra? Rövid gondolkodás után a gép kiírja a választ: 'Igen'. A vezérkari fõnök dühbe gurul és beüti a következõ kérdést: 'Igen, de ki?' Rövid gondolkodás után a számítógép kiírja a választ: 'Igen, uram'. " (Mérõ László : Észjárások)
4
5
Elõszó Ez a jegyzet az EFE környezetmérnök, erdõmérnök, faipari mérnök, és papíripari mérnök hallgatói számára készült. Tartalmazza a matematikai statisztikához szükséges valószínûségszámítási alapismereteket, valamint a matematikai statisztika azon fejezeteit, amelyek egyszerûbb gyakorlati problémák megoldásánál jól alkalmazhatók. A fõ célunk az volt, hogy olyan jegyzet kerüljön a hallgatóság kezébe, amelybõl követhetik az elõadások anyagát és eredményesen felkészülhetnek a vizsgára. A függelékben a konkrét feladatok megoldásához nélkülözhetetlen táblázatok is megtalálhatók. A kidolgozott feladatok a fontos definíciók és tételek jobb megértését szolgálják. A jegyzet formátumát igyekeztünk úgy kialakítani, hogy minél könnyebben lehessen eligazodni és tájékozódni a tananyagban. Ezt a célt szolgálja a könyv végén található tárgymutató is. Az irodalomjegyzékben felsorolt könyvek egy része a jegyzettel párhuzamosan használható, míg a többi a valószínûségszámításban és a statisztikában elmélyülni kívánóknak nyújt segítséget. A matematikai statisztika gyakorlati alkalmazása során a számolásokat ma legtöbbször számítógépekkel végezzük. Több könnyen hozzáférhetõ programcsomag van használatban. Ezek egy része kimondottan statisztikai jellegû (STATGRAF, MYSTAT, SPSS), míg mások matematikai programok, amelyekben lehetõség van statisztikai számításokra (MAPLE, MATHEMATICA, CCALC, DERIVE, MATHCAD). A táblázatkezelõ programok szintén tartalmaznak statisztikai függvényeket (EXCEL, LOTUS 1-2-3, QUBECALC). A jegyzetben az említett programokkal nem foglalkozunk, hanem azokat az elméleti ismereteket foglaljuk össze, amelyek segítségével – bizonyos számítástechnikai ismeretek birtokában – a legtöbb programcsomag használata könnyen elsajátítható. Az 1993/94-es tanév elsõ félévében Dr. Kozák Antal tartotta Egyetemünkön a matematikai statisztika elõadást. Kozák Antal a Vancouveri Egyetem professzora, erdõmérnök, az ott jól bevált tananyagot ültette át a magyar viszonyok közé. Rengeteg erdészeti és faipari példát említett elõadásain és a gyakorlatokon. Feladatait egy példatárba gyûjtötte össze, amelyet azóta is használunk. Õ bíztatott bennünket e jegyzet elkészítésére, ötletekkel támogatott bennünket, és a lektorálást nagylelkûen elvállalta. Mindezekért külön köszönetet szeretnénk Neki mondani. Köszönet illeti Dr. Horváth Jenõ professzort a szakmai segítségért és a felmerülõ gyakorlati problémák leküzdéséért. Köszönet illeti még Dr. Závoti Józsefet, aki a kéziratot gondosan elolvasta és tanácsaival segítette annak jobbátételét. Hálával gondolunk Biehler Krisztinára és Bartha Jánosnéra a számítógépes szövegszerkesztésben nyújtott segítségükért, valamint Németh Lászlóra az ábrákkal kapcsolatos szakmai tanácsaiért, Nagy Zsoltra a táblázatok elkészítéséért.
A szerzõk
6
7
Bevezetés
A statisztika szót az emberek többsége hétköznapi értelemben használja, és kérdõívekre, azok kitöltésére, vagy különbözõ nyilvántartásokra gondol (születési, idõjárási, termelési statisztikák, stb.). Matematikai értelemben a statisztika egy olyan tudományt jelent, melynek alapvetõ feladata adatok gyûjtése, feldolgozása és azokból való következtetés. Emiatt vált a matematikai statisztika a mezõgazdasági, mûszaki, orvosi gyakorlattal talán legközvetlenebb kapcsolatot tartó tudományágává a matematikának, de nagyon hasznosnak bizonyult alkalmazása az egészségügy, szociológia, pedagógia stb. területén is. A vizsgálódásunk tárgyát képezõ adathalmaz minden elemét gyakorlati okokból lehetetlen megvizsgálni. Nem próbálhatjuk ki az összes gyufaszálat, hogy jól mûködik-e, mert akkor egyet sem lehetne felhasználni. Így tehát mintákra kell szorítkoznunk, amelyek a matematikai statisztika kiindulópontját alkotják. Az adathalmazt (az elvben lehetséges mérések teljes halmazát), amelybõl a mintát kiválasztjuk populációnak vagy statisztikai sokaságnak nevezzük. A minta tehát a populáció egy meghatározott célra, valamilyen mintavételi eljárással kiválasztott részhalmaza. A mintákkal kapcsolatban az alábbi négy alapvetõ kérdés merül fel. l. Hogyan tudjuk a mintát tömören, áttekinthetõen jellemezni? A statisztika egyik ága, a leíró statisztika foglalkozik a minta tényanyagának tömörítési módjaival. 2. Hogyan lehet a mintából következtetni a populációra? (Ez egy valószínûségszámítási probléma, hiszen nyilvánvaló, hogy a minta nem tájékoztat bennünket teljes mértékben és biztonsággal a populációról, hanem csak becslést adhat.) 3. Mennyire megbízhatóak a következtetések? A következtetéses statisztika ad választ a 2. és 3. kérdésre. 4. Hogyan kell a mintát kiválasztani a populációból, hogy reprezentatív legyen és a lehetõ legtöbb információt nyerjük belõle? Az utolsó kérdés a kísérlettervezés körébe tartozik, és általában azt válaszolhatjuk rá, hogy az egyetlen jó mintavételi eljárás a véletlen módszernek valamilyen formája. Most kissé leegyszerûsítve megpróbáljuk megvilágítani a statisztika és a valószínûségszámítás különbözõségét, és egyúttal kapcsolatát is. A statisztika a valószínûségszámítás modelljeit, eredményeit felhasználva az ismert mintából következtet valamekkora biztonsággal az ismeretlen populációra. A valószínûségszámítás éppen fordítva. Az ismert populációból meg tudja határozni, hogy mekkora valószínûséggel kaphatunk egy adott összetételû lehetséges mintát. (Például mennyi annak a valószínûsége, hogy ha a matematika szigorlat 30 tételébõl 5-öt nem tud valaki, akkor 3 tételt húzva legalább kettõrõl tud majd beszélni?) Végezetül a teljesség igénye nélkül felsorolunk néhány konkrét feladatot, melyek megoldásához szükséges ismeretek e jegyzetben megtalálhatók. Ilymódon mindenki képet kaphat arról, hogy milyen típusú problémákat tud majd megoldani, ha a jegyzet anyagát áttanulmányozza.
8 Feladatok. 1. Rovarkárosítás mértékét vizsgálták egy vegyes állományban három különbözõ fafajon. Az alábbi táblázat a megfigyelés adatait tartalmazza. károsítás mértéke
nulla
alacsony
közepes
magas
1. faj
9
16
26
32
2. faj
6
35
37
8
3. faj
6
28
20
9
Kérdés. Független-e a rovarkárosítás mértéke a fafajtól? (Lásd függetlenségvizsgálat!) 2. Egy amerikai egyetemen megvizsgálták, hogy a hallgatók mennyit nézik hetente a televíziót. A felmérés eredménye a következõ. kérdezettek száma
heti átlag (óra)
szórás (óra)
nõk
40
8.5
4.8
férfiak
50
10.25
5.2
Kérdés. A 90 elemû minta alapján mondhatjuk-e, hogy ugyanannyit nézik a televíziót az adott egyetemen a hölgy hallgatók, mint a férfiak? Máshogy fogalmazva; a minták átlagai azért különböznek, mert tényleges különbség van a nõk ill. a férfiak tévénézési szokásai között, vagy csupán a véletlen mintaválasztás okolható a különbségért? (Lásd hipotézisvizsgálat!) 3. Egy bizonyos szoftvert gyártó cég azt állítja, hogy egy adott kategóriában a vásárlók 60 százaléka az õ terméküket vásárolja. Megkérdeztek 100 vásárlót. Közülük 48-an vették a fenti terméket, a többi 52 vevõ mást szoftvert szerzett be. 1. kérdés. Elfogadjuk-e a cég állítását a kevésnek tûnõ, tapasztalati 48 százalék ellenére? 2. kérdés. Hol húznánk meg az elfogadási határt? (Lásd hipotézisvizsgálat ill. konfidenciaintervallumok!) 4. Megvizsgálták, hogy 1875 és 1894 között hogyan alakult a lovak által halálra rúgott katonák száma a német hadseregben. 14 hadtestnél összesen 280 adat állt rendelkezésre, melyeket a következõ táblázatban foglaltuk össze. évi halálozás esetek száma
0 144
1 91
2 32
3 11
4 2
5 vagy több 0
Kérdés. Milyen eloszlást követ (jó közelítéssel) a halálra rúgott katonák száma? (Lásd illeszkedésvizsgálat!)
9 5. Négy különbözõ iskolában véletlenszerûen kiválasztottak 5-5 nyolcadik osztályos tanulót, és ugyanazt a képességvizsgáló tesztet íratták meg velük. A tanulók elért pontszámai az alábbiak.
A iskola 20 21 22 24 24
B iskola 24 21 22 25 20
C
iskola 16 21 18 13 17
D iskola 19 20 21 20 20
Kérdés. Tekinthetjük-e a tanulók képességeit azonosnak a négy iskola viszonylatában? (Lásd varianciaanalízis!) 6. Egy autókölcsönzõben feljegyezték a kocsik által megtett távolságokat és az autók félévenkénti javítási költségeit. A vizsgált 7 kocsi adatai a következõk. autó A B C D E F G
távolság (1000 mérföld) 55 27 36 42 65 48 29
költség (dollár/félév) 299 160 215 255 355 275 207
1. kérdés. Tekinthetjük-e a bérautóknál közelítõleg lineárisnak a kapcsolatot a javítási költségek és a megtett távolságok között? (Ha nem, akkor milyen lehet a kapcsolat?) 2. kérdés. Mekkora javítási költség jósolható egy új autó esetében, ha az megtesz majd 40000 mérföldet? (Lásd regressziószámítás!) A felvetett példák mindegyikében valójában azt kell megvizsgálni, hogy az adatok jellege a vizsgált jelenség természetébõl adódik, vagy véletlenül – a véletlen mintavétel miatt – alakult a fentieknek megfelelõen.
10
1. A statisztika valószínûségszámítási alapjai
1.1. Eseményalgebra A természetben lejátszódó jelenségek között vannak, amelyek bizonyos feltételek teljesülése mellett ugyanúgy mennek végbe (pl. egy kémiai reakció), és vannak ún. véletlen (sztochasztikus) jelenségek, amelyeknél a rögzített körülmények ellenére más-más eredmény következhet be (pl. pénzfeldobás). Sztochasztikus jelenségek esetén elvárjuk, hogy azonos körülmények között tetszõlegesen sokszor megismételhetõek, azaz véletlen tömegjelenségek legyenek. A valószínûségszámítás feladata a véletlen tömegjelenségeknél mutatkozó törvényszerûségek feltárása. A megfigyelt véletlen jelenséget kísérletnek fogjuk hívni, és az elõzõek szerint nem tudható elõre, hogy egy kísérlet végrehajtása során pontosan mi fog történni. Azonban meghatározható, hogy mik lesznek egy kísérlet lehetséges kimenetelei, vagyis megadható egy halmaz, a lehetséges kimenetelek halmaza, amelynek a kísérlet végeredménye biztosan eleme lesz. A lehetséges kimenetelek halmazát eseménytérnek ( Ω ), elemeit pedig elemi eseményeknek nevezzük. Példák. l. A kísérlet legyen egy pénzérme feldobása. Jelöljük F-fel ill. I-vel, ha fejet ill. írást dobunk. Így az elemi események halmaza Ω = {F, I } .
2.Egy kísérlet során egy szabályos dobókockát dobálunk fel mindaddig, amíg hatost nem dobunk. A kísérlet kimenetele az elsõ hatos dobás sorszáma. Ekkor az eseménytér a pozitív egész számok halmaza lesz, Ω = {1,2,K} . A késõbbiekben látni fogjuk, hogy nem okoz problémát, ha az eseményteret egy kissé bõvebb halmazzal írjuk le, mint amelyre szükségünk van. (De arra ügyeljünk, hogy ne hagyjunk ki olyan kimeneteleket, amelyek ténylegesen felléphetnek!) 3. Legyen a kísérlet egy villanykörte élettartamának mérése (órában), az eseménytér Ω = {x ∈ R 0 ≤ x < ∞ } .
11
Eseményeknek nevezzük az Ω eseménytér részhalmazait. Egy esemény bekövetkezik, ha a kísérlet során bekövetkezõ elemi esemény eleme az adott részhalmaznak. Az eseményeket általában latin nagybetûkkel jelöljük. Az elõzõ 3. kísérletnél esemény például, ha az égõ élettartama 1000 óra és 1000 ⋅ 3 óra közé esik
{
}
A = x ∈ R 1000 ≤ x < 1000 ⋅ 3 . Események megadásának egyszerû módja, ha egy kísérlet eredményére vonatkozóan olyan állítást fogalmazunk meg, melynek helyességét a kísérlet kimenetele egyértelmûen eldönti. Például az elõzõ 2. kísérletnél: az elsõ húsz dobás nem lesz hatos. Kockadobásnál egy lehetséges (nem elemi) esemény a következõ: a dobás eredménye prímszám. Mûveletek eseményekkel Értelmezésünk szerint eseményeknek az Ω eseménytér részhalmazait nevezzük, így a halmazmûveleteket Ω-ra is bevezethetjük. A mûveleteket az eseményekre fogalmazzuk meg. Ha az A esemény bekövetkezése esetén mindig bekövetkezik a B esemény is, akkor azt mondjuk, hogy az A esemény maga után vonja a B eseményt. Jelölés: A ⊆ B . Szoktunk úgy is fogalmazni, hogy az A esemény része a B eseménynek. Két esemény egyenlõ, ha bármelyik bekövetkezése maga után vonja a másik bekövetkezését. Jelölés: A = B . Az Ω halmazt biztos eseménynek hívjuk. Bármi lesz is a kísérlet kimenetele, Ω bekövetkezik. Az üres halmazt – amely nem következhet be – lehetetlen eseménynek nevezzük, és ∅ -val jelöljük. Az A esemény ellentettjének (komplementerének) azt az A eseményt mondjuk, amely akkor következik be, ha a kísérlet kimenetele nem eleme A-nak. (Tehát az A halmaz az A halmaz Ω -ra vonatkozó komplementere.) A biztos esemény komplementere a lehetetlen esemény, és a lehetetlen esemény komplementere a biztos esemény: Ω = ∅ ill. ∅ = Ω . Nyilvánvaló, hogy A =A. Események összege Bármely A , B ⊂ Ω eseményekhez hozzárendelhetjük az A + B eseményt – az A és B események összegét –, amely akkor következik be, ha A és B közül legalább az egyik bekövetkezik. (Halmazokra gondolva a fenti definíció az A és B halmazok unióját jelenti.) A definícióból és a halmazok közötti mûveleti azonosságokból következik, hogy
A + B = B + A (kommutativitás) , ( A + B ) + C = A + (B + C ) (asszociativitás) , A +A = A , A +Ω = Ω , A +∅ = A .
12
Események szorzata Bármely A , B ⊂ Ω eseményekhez hozzárendelhetjük az AB eseményt – az A és B események szorzatát –, amely akkor következik be, ha az A és B esemény is bekövetkezik. (Halmazoknál e definíció az A és B halmazok metszetét jelenti.) Események szorzatára a következõ azonoságok teljesülnek: AB = BA (kommutativitás) , ( AB )C = A(BC ) (asszociativitás) , AA = A ,
AΩ = A , A∅ = ∅ . Az A és B eseményeket kizáróknak mondjuk, ha AB = ∅ , azaz az együttes bekövetkezésük lehetetlen. (Az A és B halmazok diszjunktak.) További azonosságok:
( A + B )C = AC + BC (disztributivitás) , A + BC = ( A + B )( A + C ) (disztributivitás) , A +A =Ω , AA = ∅ , A +B = A B ,
AB = A + B .
(A két utolsó az ún. DE MORGAN-féle azonosság.) Eseményalgebrának nevezzük események olyan halmazát, amely tartalmazza a lehetetlen és a biztos eseményt, és amelyen belül a fenti tulajdonságokkal rendelkezõ összeadás és szorzás* értelmezett. Példa. Kockadobást végzünk. Az A esemény akkor következik be, ha párost dobunk, a B pedig, ha legfeljebb négyest. A = {2,4,6} , B = {1,2,3,4} .
Ekkor
*
Két esemény különbsége is értelmezhetõ az alábbi módon: A − B = AB .
13 A + B = {1,2,3,4,6}
A = {1,3,5} ,
,
AB = {2,4}
B = {5,6} , A ⊆/ B A + B = {5} = AB .
és
B ⊆/ A
,
Azt mondjuk, hogy az A1 , A 2 ,K események teljes eseményrendszert alkotnak, ha egyik sem a lehetetlen esemény, páronként kizáróak, és összegük a biztos esemény. Sem az eseményalgebra, sem a teljes eseményrendszer fogalmánál nem tettük fel, hogy véges sok eseményrõl beszélünk.
1.2. A valószínûség fogalma A fejezet elején említettük, hogy a valószínûségszámítás a véletlen tömegjelenségekkel kapcsolatos törvényszerûségekkel foglalkozik. Mivel elõre nem határozható meg, hogy mi lesz egy kísérlet végeredménye, ezért az alapkérdést így fogalmazzuk meg: mennyi annak a valószínûsége, hogy egy vizsgált esemény bekövetkezik. A valószínûség fogalmának bevezetése elõtt a gyakoriságot ill. a relatív gyakoriságot értelmezzük. Ha egy kísérletet n -szer megismételünk ugyanazon körülmények között (kísérletsorozat), akkor egy rögzített A esemény egyes kísérletekben bekövetkezik, másokban nem. Legyen k azon kísérletek száma, amelyekben A bekövetkezett. A k számot az A esemény k gyakoriságának (f A ) nevezzük, a hányadost pedig az A esemény relatív gyakoriságának ( g A ). n Természetesen több kísérletsorozat elvégzésekor a relatív gyakoriságok értéke más és más lehet, de a megfigyelések szerint egy adott érték közelébe esnek. A nagy számok klasszikus törvénye azt mondja ki, hogy elég sok kísérletbõl álló kísérletsorozatok esetén a relatív gyakoriságok ingadozása nagyon kicsi lesz. Az A esemény valószínûségének azt a valós számot nevezzük, amely körül a relatív gyakoriság ingadozik, és P( A) -val jelöljük. Az Ω eseménytér minden A eseményéhez tehát hozzá lehet rendelni egy P( A) valós számot – a valószínûségét –, amelynek kísérleti úton való közelítése a nagy számok törvénye alapján történhet. A gyakorlatban persze nem hívható mindig segítségül a fenti módszer, ezért máshogy járunk el. Gondolatmenetünk lényege a következõ lesz. A relatív gyakoriság fontos tulajdonságaiból kiindulva a valószínûségre állításokat fogalmazunk meg. Ezen állításokat alapigazságként elfogadjuk, nem bizonyítjuk. Az alapigazságokból következtetve, logikai úton kiszámíthatjuk egy adott esemény valószínûségét. Közben néhány általános törvényt állítunk fel, hogy ne kelljen minden feladatnál a ''gyökerekig'' visszanyúlni. Legyen az A esemény az Ω eseménytér része. Jelölje A relatív gyakoriságát egy n f kísérletbõl álló kísérletsorozat esetén g A ( = A ) . n Világos, hogy (1)
0 ≤ gA ≤ 1 .
14
Mivel a biztos esemény ( Ω ) mindig bekövetkezik, ezért (2)
gΩ = 1 .
Ha az A és B ⊂ Ω események kizáróak (AB = ∅ ), akkor (3)
g A +B =
f A +B f A + f B = = gA + gB . n n
A relatív gyakoriság e három tulajdonsága alapján egy eseménytér eseményeihez rendelt valószínûségekre a következõ axiómákat (alapigazságokat) fogadjuk el. (l) 0 ≤ P ( A) ≤ 1 , (2) (3)
P(Ω ) = 1 , P( A + B ) = P( A) + P(B ),ha AB = ∅ .
A harmadik állítás helyett a következõt használjuk: (3')
P( A1 + A2 + K) = P( A1 ) + P( A2 ) + K ,
ahol az A i (véges, vagy megszámlálhatóan végtelen sok) események páronként kizárják egymást. Az (l), (2), (3') axiómákból álló axiómarendszert KOLMOGOROV-féle axiómáknak nevezzük. Nézzünk néhány egyszerû tételt, hogyan alkalmazhatók KOLMOGOROV axiómái különbözõ valószínûségek kiszámítására. 1.1. TÉTEL. A lehetetlen esemény valószínûsége 0. Mivel egy A esemény és a lehetetlen esemény egymást kizáróak ( A ∅ = ∅ ), ezért P( A) = P( A + ∅ ) = P( A) + P(∅ ) , ahonnan következik, hogy P(∅ ) = 0 . 1.2. TÉTEL. Az ellentett esemény valószínûsége P( A ) = 1 − P( A) . Mivel A + A = Ω és A A = ∅ , kifejezhetõ.
ezért
1 = P(Ω ) = P (A + A ) = P( A) + P (A ) , amelybõl
P(A )
1.3. TÉTEL. Ha A ⊆ B , akkor P( A) ≤ P(B ) . (Monotonitás.) 1.4. TÉTEL. P( A + B ) = P( A) + P(B ) − P( AB ) * .
P( A + B ) = P ( A) + P(B ) egyenlõséget kapjuk vissza. Az 1.4. tételt néha ebben a formában is alkalmazzuk: P( AB ) = P( A) + P(B ) − P( A + B ) . *
Ha A és B kizáróak, akkor a
15
Megjegyzés. A 1.3. és 1.4. állítás az elsõ kettõhöz hasonló módon bizonyítható. Az Ω eseménytér álljon véges, vagy megszámlálhatóan végtelen sok elemi eseménybõl (Ω = {ω1 ,ω2 ,K}) . Jelöljük p i -vel az i -edik elemi esemény valószínûségét: pi = P(ωi ) . Felhasználva a (3') axiómát egyszerûen bizonyítható, hogy
∑p
i
= p1 + p 2 +K = 1 .
i
Ekkor a p1 , p 2 , ... számokat az Ω eseménytér valószínûség-eloszlásának hívjuk.
1.3. Klasszikus (kombinatorikus) valószínûségi mezõ, geometriai módszer
1.3.1. A klasszikus valószínûség Ha Ω véges sok ( n db) elemi eseménybõl áll, és az elemi események valószínûségei egyenlõk, akkor a p1 + p 2 +K + p n = 1 egyenlõségbõl következik, hogy
p1 = p 2 =K = p n =
1 . n
Ebben az esetben egy tetszõleges A ⊆ Ω esemény valószínûsége egyenlõ az A elõállításában szereplõ elemi események ( k db) valószínûségeinek összegével: P ( A) = k ⋅
1 k . = n n
E formula úgy is magyarázható, hogy egy A esemény valószínûségét megkapjuk, ha az A elõállításában szereplõ elemi események (a "kedvezõ esetek") számát elosztjuk az elemi események (az "összes eset") számával. Tehát A valószínûségének kiszámítása egy kombinatorikai probléma * :
*
A kombinatorika alapjai Moór Artúr: Matematika I-II. jegyzetének elején találhatók meg.
16 P ( A) =
kedvez›esetek sz‡ ma . šsszes eset sz‡ ma
Feladatok. 1. Ha két pénzérmét feldobunk, mennyi annak a valószínûsége, hogy lesz köztük fej? A lehetséges kimenetelek száma 4 ( Ω = {FF , FI , IF , II } ). Ebbõl 3 esetben találunk fejet, 1 azaz a kedvezõ esetek száma 3. Mivel minden eset ugyanakkora valószínûséggel követ4 3 kezik be, ezért P(vankšztźš fej) = . 4 Vizsgáljunk meg egy másik lehetséges okoskodást! Valaki azt mondja, hogy szerinte nem kellene megkülönböztetni a két érmét, így három lehetséges kimenetel van – két fej, egy fej és 2 egy írás, két írás –, ebbõl kettõben van fej, ezért a keresett valószínûség . Melyik a helyes 3 megoldás? Bárki eldöntheti, ha van hozzá türelme és két pénzérméje! Hogyan? Dobálja fel a pénzeket és jegyezze le a kapott eredményeket, majd a nagy számok klasszikus törvénye alapján adja meg a választ! Az 1. feladat egy nagyon fontos gondolatra mutat rá, mégpedig arra, hogy (elemi) események valószínûségének egyenlõségére vonatkozó feltevés nagyon gyakran nem dönthetõ el logikai úton, hanem csak tapasztalati módszerrel. A jó megoldás 3 P(vankšztźš fej) = , ami azt mutatja, hogy a természet a makroszkopikus testeket 4 megkülönbözteti egymástól, még ha azok azonosnak tünnek is. A statisztikus fizika szerint a mikroszkopikus testek esetében bonyolultabb a helyzet. Egy gázmolekulákból álló rendszer vizsgálatánál az ún. MAXWELL-BOLTZMANN statisztika* szintén megkülönbözteti a molekulákat. Az elektronok ill. fotonok esetében más modell bizonyult alkalmasnak: a részecskék megkülönböztethetetlenek, csak a fázistér celláiban való elhelyezkedésük különböztethetõ meg. (Ha például két elektront felcserélünk, az ugyanazon állapotnak számít.) A fotonok leírására a BOSE-EINSTEIN statisztikát, az elektronok leírására pedig a FERMI-DIRAC statisztikát használják. Ezen modellekbõl származó eredményeket a tapasztalatok is alátámasztják.
2. Egy populáció nagysága legyen N , amelybõl K egyed valamilyen szempont szerint nem megfelelõ. Egy n elemû mintát kiválasztva a populációból, mennyi annak a valószínûsége, hogy éppen k db nem megfelelõ lesz a mintában? Ha a kérdésre válaszolni akarunk, pontosítanunk kell! Nem rögzítettük ugyanis, hogy miután az elsõ mintaelemet kiválasztottuk és megvizsgáltuk, a következõ választás elõtt visszateszük-e azt vagy nem. Emiatt meg kell különböztetni a visszatevéses illetve visszatevés nélküli mintavételt. Jelöljük A kn -nel illetve B kn -nel azon eseményeket a visszatevéses illetve a visszatevés nélküli mintavétel esetén, amelyek akkor következnek be, ha a korábbiak szerint kiválasztott n elembõl k nem megfelelõ.
*
A statisztika szó itt a statisztikus fizikára utal.
17 Az elsõ esetben a visszatevés miatt az összes eset száma N n , mivel minden választás n n n −k eredménye N féle lehet. A kedvezõ esetek száma K k ( N − K ) , mert n húzásból k k féleképpen jelölhetjük ki azt a k húzást, mikor nem megfelelõ egyedet kapunk, és egy ilyen n−k húzássorozathoz K k ( N − K ) féleképpen választhatunk elemeket a populációból. A keresett valószínûség
n k K ( N − K )n−k k n−k k n K K = 1 − . P Akn = k N N Nn
( )
N Visszatevés nélküli mintavétel esetén az összes eset száma . Mivel K n K , ettõl függetlenül az ( N − K ) megfelelõ elembõl (n − k ) -t k
nem megfelelõbõl k -t
N −K féleképpen n−k
K N − K . A kérdéses valószínûség választhatunk ki, a kedvezõ esetek száma k n − k K N − K k n − k n P Bk = . N n
( )
1.3.2. A valószínûség geometriai módszerrel való meghatározása Események valószínûségének geometriai úton történõ meghatározásának lényege, hogy bizonyos geometriai idomok mértékének (pl. terület) kiszámítására transzformáljuk át a feladatot. Ilyen problémával általában akkor találkozunk, ha egyenes, sík vagy tér egy részhalmazát tekintjük Ω-nak, és az A esemény akkor következik be, ha egy tetszõleges pontot kiválasztva Ωból, a kiválasztott pont éppen Ω valamely A részhalmazába esik. Az A esemény bekövetkezésének valószínûségét a számunkra kedvezõ térfogat (terület, hossz) és Ω térfogatának (terület, hossz) hányadosaként értelmezzük. Feladatok. 1. Tekintsünk egy 3m magas, 5m hosszúságú házfalat, amelyen két 1m× 1m-es ablak található. Ha a házfalba légpuskával véletlenül belelövünk, mekkora annak a valószínûsége, hogy éppen ablakot találunk el? (Íme egy újabb példa arra, amikor nem célszerû a valószínûséget a relatív gyakoriság alapján becsülni.)
18 Mivel a fal összterülete 3m× 5m =15m 2 , és a kedvezõ (?) terület 2× 1m 2 = 2m 2 , ezért a 2 törés valószínûsége . 15 2. Ha a számegyenes 0,1 intervallumán véletlenszerûen kijelölünk egy pontot, mi annak a valószínûsége, hogy éppen a 0.13-at találjuk el? Az összes 0,1 -beli pont kiválasztásának valószínûsége ugyanannyi, és végtelen sok eset van, amelyek közül csak egy kedvezõ számunkra, ezért a válasz 0. Világos, hogy a fenti típusú kérdésfeltevésnek nem sok értelme van, ráadásul képtelenek lennénk eldönteni, valóban a 0.13-at találtuk-e el. Helyette inkább azt kérdezzük, hogy mennyi annak a valószínûsége, hogy a kijelölt 0.13 szám kisebb mint 0.13, és a korábbiak alapján azt válaszoljuk, hogy = 0.13 . 1 3. Ketten megbeszélik, hogy este hét és nyolc óra között a kollégium aulájában találkoznak. Érkezésük az adott órán belül véletlenszerû. Mekkora annak a valószínûsége, hogy az elõbb érkezõnek nem kell egy negyed óránál többet várnia a másikra? Tegyük fel, hogy az egyik hallgató x órával 7 után érkezik (0 ≤ x ≤ 1) , a másik pedig y órával 7 után (0 ≤ y ≤ 1) . Ha egy derékszögû koordináta-rendszerben ábrázoljuk az (x,y) koordinátájú pontot, akkor ezen pont az I. síknegyed egységnégyzetébe esik, továbbá minden ottani pont koordinátáinak megfeleltethetõ a két hallgató valamikori érkezése (lásd 1.1. ábra). 1 Akkor nem kell negyed óránál többet várnia az egyiknek a másikra, ha y − x ≤ . Ezen 4 1 1 egyenlõtlenséget kielégítõ (x,y) számpárok egy az x − ≤ y ≤ x + egyenlõtlenségekkel 4 4 jellemezhetõ sávot határoznak meg az egységnégyzetben (lásd 1.1. ábra). Az egységnégyzet 2
7 3 területe T = 1 , a besötétített rész területe pedig Ts‡v = 1 − = . Felhasználva a valószínûség 4 16 T 7 geometriai módszerrel való kiszámításáról elmondottakat, a kérdéses valószínûség sáv = . T 16
19
1.1. ábra A példákból látható, hogy a geometriai módszer használatára legtöbbször akkor kerül sor, ha Ω nem megszámlálhatóan végtelen sok pontból (elemi eseménybõl) áll.
1.4. Feltételes valószínûség, függetlenség 1. feladat. Dobjunk fel egy dobókockát kétszer egymás után, és értelmezzük az alábbi eseményeket: A bekövetkezik, ha az elsõ dobás hatos, B1 bekövetkezik, ha a második dobás hatos, B 2 bekövetkezik, ha mindkét dobás hatos. Vizsgáljuk meg, hogyan befolyásolja az A esemény bekövetkezése a B1 és B 2 események bekövetkezését! A és B1 között nincs összefüggés abban az értelemben, hogy a második dobás eredménye független az elsõ dobás eredményétõl. A második esetben más a helyzet, mert két hatost csak úgy kaphatunk, ha az elsõ dobásnál A következett be. A két esemény ( A ill. B 2 ) nem független egymástól. Most pontosan definiáljuk két esemény függetlenségét. DEFINÍCIÓ. Két esemény, A és B független, ha P( AB ) = P( A) ⋅ P(B ) * .
*
Az A1 , A 2 ,..., A n események függetlenek, ha közölük tetszõleges k különbözõ eseményt kiválasztva
b2 ≤ k ≤ n g, azok szorzatának valószínûsége megegyezik valószínûségeik szorzatával.
20 Mint látjuk, a definíció lehetõséget nyújt arra, hogy azonnal eldöntsük két esemény függetlenségét, amennyiben a definícióban szereplõ valószínûségeket ki tudjuk számolni. 1.eset: P( A) ⋅ P(B1 ) =
1 1 1 ⋅ = = P( AB1 )⇒ A és B1 függetlenek. 6 6 36 1 1 1 1 2.eset: P( A) ⋅ P(B2 ) = ⋅ = ≠ = P( AB2 )⇒ A és B 2 nem függetlenek. 6 36 216 36 A következõkben egy feladatból kiindulva szeretnénk megvilágítani a definíció jogosságát.
2. feladat. Két csomag, a hátoldaláról jól megkülönböztethetõ színû (piros ill. kék) francia kártyából válogassuk ki a következõ 16 lapot. A piros pakliból vegyük ki a pikk 2-est, 3-ast, ... ,9-est (8 db), a kékbõl pedig a 10-est, jumbót, dámát, királyt, ászt, valamint a maradék három ászt (8 db). A kiválasztott lapokat tegyük be egy dobozba, majd húzzunk ki közülük találomra egyet. Látva, hogy a hátoldala kék, mi a valószínûsége annak, hogy ász van a kezünkben? Jelöljük A -val azt az eseményt, hogy a kihúzott lap ász, B -vel azt az eseményt, hogy a kihúzott lap kék hátoldalú. Mivel bármely lapot ugyanakkora valószínûséggel választunk, és a 4 kék lapok száma 8, amelyek között 4 ász van, ezért a keresett valószínûség = 0. 5. Igazából az 8 1 történt, hogy "redukáltuk az eseményteret" , azaz az egy-egy laphoz tartozó valószínûség 16 1 helyett a piros hátoldalúakhoz 0 valószínûséget rendeltünk, a többihez pedig -ot. A 2. feladat 8 során megadott valószínûséget feltételes valószínûségnek nevezzük, mert kiszámításához ismerünk egy plusz feltételt: a kihúzott lap hátoldalának színét. N -szer elvégezve a 2. feladatban szereplõ kísérletet, az esetek egy részében piros, a másik részében pedig kék kártyát húzunk. Legyen a B esemény gyakorisága k . Ezen k kísérletbõl s esetben az A esemény is bekövetkezett. Tehát az ász húzásának feltételes relatív gyakorisága, azon feltétel mellett, hogy a lap kék hátoldalú,
f AB s = . fB k Az eredményt átalakítva
f AB s = = fB k
s N k N
=
g AB gB
,
ahol g AB az AB esemény, g B a B esemény relatív gyakorisága az eredeti kísérletsorozatban. Mivel g AB a P( AB ) valószínûség körül ingadozik, g B pedig P(B ) körül, így az A esemény B
21
g AB körül fog ingadozni. Ezen megfontolás után egy tetszõleges gB A esemény B feltétel melletti feltételes valószínûségét – amelyet P( A B ) -vel jelölünk – a
feltétel melleti valószínûsége
P(A B ) =
P( AB ) P(B )
hányadossal értelmezzük, amennyiben P(B ) ≠ 0 . Ha a B esemény bekövetkezése nem befolyásolja az A esemény bekövetkezését (a két esemény "független"), vagyis P( A B ) = P( A) , akkor ezt összevetve a feltételes valószínûség definíciójával a
P ( A) =
P ( AB ) P (B )
egyenlõségbõl a P( AB ) = P( A) ⋅ P(B ) egyenlõséget kapjuk, amely éppen A és B függetlenségét adja. Megvilágítottuk tehát a függetlenség definíciójának hátterét. Végül két nevezetes, feladatmegoldáshoz jól használható tétel következik. 1.5. TÉTEL (TELJES VALÓSZÍNÛSÉG TÉTELE). Ha az A1 , A 2 , K események teljes eseményrendszert alkotnak, P( Ai ) > 0 (i=1,2,...), valamint B tetszõleges esemény, akkor
P(B ) = ∑ P(B Ai )⋅ P( Ai ) . i
BIZONYÍTÁS. Mivel az A1 , A 2 , K események összege Ω , ezért
P(B ) = P ∑ Ai B = P ∑ Ai B = ∑ P(BAi ) = ∑ P(B Ai )⋅ P( Ai ) , i i i i mert (BAi )(BA j ) = BAi A j = ∅(i ≠ j ) . 1.6. TÉTEL (BAYES TÉTEL). Ha az A1 , A 2 , K események teljes eseményrendszert alkotnak, P( Ai ) > 0 (i=1,2,...), valamint B tetszõleges esemény, akkor
P( Ak B ) =
(
)
P B Ak ⋅ P( Ak )
∑ P(B A )⋅ P( A ) i
i
BIZONYÍTÁS.
i
,(k = 1,2,K) .
22
P( Ak B ) =
P(B Ak ) ⋅ P( Ak ) P( Ak B ) = . P (B ) ∑ P(B Ai ) ⋅ P( Ai ) i
3. feladat. Képzeljük el a következõ vizsgáztatási rendszert. Minden vizsgakérdés egy lapra van felírva, és minden kérdéshez 3 válasz van megadva, amelyek közül egy helyes. A vizsgázónak ezt a lapot kell kitöltenie a helyesnek vélt válasz megjelölésével. Tegyük fel, hogy a vizsgázó p > 0 1 valószínûséggel jelöli meg a 3 valószínûséggel tudja a helyes választ. Ha nem tudja, akkor 3 lehetséges válasz egyikét. Mennyi annak a valószínûsége, hogy azért helyes a válasz, mert a vizsgázó tudta a helyes eredményt? Jelöljük B -vel azt az eseményt, hogy a vizsgázó helyesen válaszolt a kérdésre, A1 -gyel azt, hogy tudta a választ, A 2 -vel pedig azt, hogy nem tudta. A feladatban a P( A1 B ) valószínûséget kell meghatározni. Mivel A1 és A 2 pozitív valószínûségûek és valószínûségük összege 1, így alkalmazható BAYES tétele: P(B A1 )⋅ P( A1 ) P( A1 B ) = . P(B A1 )⋅ P( A1 ) + P(B A2 )⋅ P( A2 )
P(B A1 ) = 1 (ha tudja a választ, biztosan jól válaszol), P( A1 ) = p , P(B A2 ) = választ akkor találgat), P( A2 ) = 1 − p , ezért a keresett valószínûség
1 (ha nem tudja a 3
1⋅ p 3p . = 1 2 p +1 1 ⋅ p + ⋅ (1 − p ) 3
4. feladat. Egy szabályos dobókockával egyszer dobunk. Az A esemény akkor következik be, ha páros számot dobunk, a B esemény akkor, ha négynél kevesebbet, a C esemény pedig akkor, ha kettõnél többet. Vizsgáljuk meg az események páronkénti, valamint mindhárom esemény függetlenségét! A feladatot a függetlenség definíciója alapján oldjuk meg. A={2,4,6} , B={1,2,3} , 1 1 2 C={3,4,5,6} , AB={2} , AC={4,6} , BC={3} , ABC= ∅ . Innen P( A) = , P(B ) = , P(C ) = , 2 2 3 1 1 1 P( AB ) = , P( AC ) = , P(BC ) = , P( ABC ) = 0 . Mivel 6 3 6 1 1 1 P( A)P(B ) = ⋅ ≠ = P( AB ) , 2 2 6 1 2 1 P( A)P(C ) = ⋅ = = P( AC ) , 2 3 3 1 2 1 P(B )P(C ) = ⋅ ≠ = P(BC ) , 2 3 6
23
ezért csak az A és C események függetlenek. Nyilvánvaló, hogy mindhárom esemény sem lehet független, mert ahhoz a páronkénti függetlenség is szükséges lenne. Térjünk vissza egy kis idõre a fejezet elsõ feladatához, melynek célja igazából független illetve nem független események létezésének érzékeltetése volt. Ott a függetlenség definíciójának megfogalmazása elõtt "ránézésre" meg tudtuk állapítani, hogy az A és B1 események függetlenek, valamint hogy A és B 2 nem függetlenek. Késõbb a definíció alapján vizsgálódva ugyanazt az eredményt kaptuk. Most a 4. feladatnál "ránézésre" semmit sem tudtunk mondani, a definícióból kiindulva tudtunk dönteni események függetlenségérõl. A "ránézéses módszer" magában hordozza a könnyû tévedés lehetõségét. Visszatérve a 4. feladathoz, elemezzük részletesebben mi rejlik pl. az A és B események függõsége mögött! Tegyük fel, hogy a vállunkon ül egy elõrelátó démon, aki minden dobásnál elõre látja, és a fülünkbe súgja annak paritását. Ha a démon párost jelez, azaz az A esemény 1 bekövetkezik, akkor a B esemény bekövetkezésének valószínûsége , mert az összes lehetõség 3 (2,4,6) közül csak egy kedvezõ (2). Ha a démon páratlant mond, azaz az A esemény nem 2 következik be, akkor a B esemény bekövetkezésének valószínûsége , mert az összes lehetõség 3 (1,3,5) közül kettõ kedvezõ (1,3). Azt tapasztaljuk, hogy az A bekövetkezésére illetve be nem következésére vonatkozó (démoni) információ befolyásolja a B esemény bekövetkezésének valószínûségét, röviden a B esemény függ az A eseménytõl. Ha a démon inkább azt árulná el, hogy a dobás alsó (1,2,3) vagy felsõ (4,5,6) lesz, akkor az elõzõ utat követve kiderülne, hogy az A esemény függ a B eseménytõl. A démon segítségét kérve az olvasó beláthatja, hogy a C esemény független az A eseménytõl, mert az A eseményre vonatkozó információ nem befolyásolja C bekövetkezésének valószínûségét; továbbá, hogy az A esemény is független a C eseménytõl. A definíció jelentõsége abban rejlik, hogy nincs kitüntetett irány a függetlenségben illetve függõségben.
1.5. A valószínûségi változók és jellemzõik A véletlen tömegjelenségeknél egy esemény bekövetkezése egyben az adott eseménnyel ókapcsolatos paraméterek véletlen kiválasztását is jelentheti. Képzeljünk el egy ingatlanközvetítõ irodát, amelynek a nyilvántartásából véletlenszerûen kiválasztunk egy eladásra kínált házat. Ilyenmódon a házzal együtt véletlenül választottunk egy alapterületet, egy árat stb. Egy sorozatgyártással elõállított gépalkatrész minõségének ellenõrzésénél annak egy vagy több jellemzõjét kell lemérni, és ezek mindegyike véletlen ingadozást mutat, így olyan mennyiségek, amelyek értéke a véletlentõl függ. A továbbiakban feltesszük, hogy egy kísérlet kimenetelének jellemzõi számadatok. (Ez a feltétel nem jelent nagy szigorítást. Ha például hajszíneket vizsgálunk, akkor a különbözõ hajszíneket a 0,1,2,... számokkal kódolhatjuk.) Az egyik felmerülõ kérdés a következõ: a szóbanforgó változó mennyiség egyáltalán milyen értékeket vehet fel. Továbbá meg kell határozni, hogy a változó mennyiség a lehetséges értékeit mekkora valószínûséggel veszi fel. Ez utóbbi kérdés akkor bír jelentéssel, ha a lehetséges
24 kimenetelek száma véges, vagy megszámlálhatóan végtelen. Amennyiben kontinuum számosságú, akkor a változó minden egyes értékét 0 valószínûséggel veszi fel (lásd geometriai valószínûség, 2. feladat), ezért itt más kérdést célszerû feltenni: mekkora valószínûséggel esik bizonyos határok közé. Most pontosan megfogalmazzuk, hogy mit értünk az ún. valószínûségi változón. DEFINÍCIÓ. Az η : Ω → R függvényt valószínûségi változónak nevezzük, ha a P(a ≤ η < b ) valószínûség létezik minden a < b valós számok esetén. Tehát a valószínûségi változó egy függvény, amely az eseménytér elemeihez valós számokat rendel hozzá. A P(a ≤ η < b ) szimbólummal annak a valószínûségét jelöljük, hogy az η valószínûségi változó értéke az a, b intervallumba esik. A P(a ≤ η < b ) valószínûségek
összességét η eloszlásának hívjuk. Mivel a P(a ≤ η < b ) valószínûség minden valós a < b értékekre létezik, felülrõl korlátos és monoton növekvõ, ha a → −∞ , így a P(η < b ) valószínûség is létezik minden b valós szám esetén. DEFINÍCIÓ. Az η valószínûségi F ( x ) = P(η < x ) függvényt nevezzük.
változó
eloszlásfüggvényének
az
F : R → R,
Az eloszlásfüggvény egy adott x valós számhoz tartozó helyettesítési értéke megmutatja, hogy az η valószínûségi változó mekkora valószínûséggel vesz fel x -nél kisebb értéket. Az eloszlásfüggvény alapvetõ tulajdonságait bizonyítás nélkül közöljük. 1.7. TÉTEL. Az η valószínûségi változó F ( x ) eloszlásfüggvénye monoton növekvõ függvény, azaz minden a ≤ b esetén F (a ) ≤ F (b ) , továbbá lim F ( x ) = 0
x → −∞
és
lim F ( x ) = 1 . x →∞
η eloszlásfüggvényébõl meghatározható a P(a ≤ η < b ) valószínûség, mert
P(a ≤ η < b ) = P(η < b ) − P (η < a ) = F (b ) − F (a ) . A valószínûségi változók között kiemelkedõ szerepet játszanak az ún. diszkrét ill. folytonos valószínûségi változók. A továbbiakban csak ezen két típussal foglalkozunk, mert a gyakorlat számára ezek jelentõsek.
25
1.2. ábra. Véges sok értéket felvevõ diszkrét valószínûségi változó eloszlása
DEFINÍCIÓ. η diszkrét valószínûségi változó, ha értékkészlete véges vagy megszámlálható számosságú. Vizsgáljuk meg, hogyan néz ki egy diszkrét eloszlású valószínûségi változó eloszlásfüggvénye! Legyenek x 1 , x 2 , K az η által felvehetõ értékek. Az η = x i események páronként kizáróak, ezért P(a ≤ η < b ) = ∑ P(η = xi ) , x i ∈ a, b .
l
q
i
Tehát
P(η = xi )
a
valószínûségekkel az
összes
esemény valószínûsége megadható,
∑ P(η = x ) = 1 . A P(η = x ) valószínûségeket az η diszkrét valószínûségi változó eloszlásának i
i
i
nevezzük, amelyet koordináta-rendszerben ábrázolhatunk (1.2. ábra). A rövidség kedvéért legyen pk = P(η = xk ) . η eloszlásfüggvénye egy ún. lépcsõsfüggvény lesz (1.3. ábra).
26
1.3. ábra. Véges sok értéket felvevõ diszkrét valószínûségi változó eloszlásfüggvénye DEFINÍCIÓ. η folytonos valószínûségi változó, ha eloszlásfüggvénye folytonos függvény. Tegyük fel a továbbiakban, hogy η folytonos valószínûségi változó, és mindenütt – esetleg véges sok hely kivételével mindenhol – deriválható. Legyen az F ( x ) eloszlásfüggvény deriváltja a f ( x ) függvény, melyet az η valószínûségi változó sûrûségfüggvényének nevezzük. A sûrûségfüggvényt azért célszerû bevezetni, mert segítségével szemléletesebbé tehetõ a valószínûség értelmezése folytonos valószínûségi változó esetén, sõt tulajdonságai miatt gyakran könnyebben kezelhetõ, mint az eloszlásfüggvény. Ha F ′( x ) = f ( x ) , akkor F ( x ) =
x
∫ f (t )dt
, emiatt a P(η < b ) = F (b ) valószínûség az η
−∞
−∞ − tõl b -ig vett határozott integrálja lesz, tehát a sûrûségfüggvény
sûrûségfüggvényének
görbéje alatti terület −∞ és b között P(η < b ) =
b
∫ f (x )dx (1.4. ábra ).
−∞
Bizonyítás nélkül felsoroljuk a sûrûségfüggvény fontos tulajdonságait : (1)
f (x ) ≥ 0 , ∞
(2)
∫ f (x )dx = 1
.
−∞
A P(a ≤ η < b ) = F (b ) − F (a ) valószínûség éppen a sûrûségfüggvény a -tól b -ig számított integrálja: b
P(a ≤ η < b ) = ∫ f ( x )dx . a
27
1.4. ábra
Példák. 1. Kockadobásnál Ω = {1,2,3,4,5,6}. Ha 4-nél kisebbet dobunk, akkor 500 Ft-ot kapunk, ha 5-öst vagy 6-ost, akkor fizetünk 700 Ft-ot. Világos, hogy a kísérlet kimenetelétõl függ pénztárcánk tartalmának növekedése vagy csökkenése. Ekkor
500, haa dob‡s1,2,3 η = 0, haa dob‡s4 - 700, haa dob‡ s5,6
1.5. ábra.
η eloszlásfüggvénye
28
3 1 2 , , valószínûséggel veszi fel. Diszkrét 6 6 6 valószínûségi változó eloszlását táblázatban szoktuk megadni, amely megmutatja, hogy a valószínûségi változó az értékkészletének egyes elemeit mekkora valószínûséggel veszi fel. Most 500 0 − 700 1 . η 1 1 3 2 6
diszkrét valószínûségi változó, amely értékeit rendre
η eloszlásfüggvénye a 1.5. ábrán látható lépcsõsfüggvény.
2. Egy egységsugarú körben (céltábla) véletlenszerûen kijelölünk egy pontot (lövés). A ξ valószínûségi változó adja meg a pontnak a kör közepétõl mért távolságát. Mivel a céltábla egységsugarú kör, ezért P(ξ ≥ 1) = 1 , továbbá a távolság nem lehet negatív, így P(ξ < 0) = 0 . Legyen 0 ≤ x < 1 . A P(ξ < x ) valószínûség meghatározásához a már megismert geometriai módszert használva x 2π P(ξ < x ) = 2 = x2 . 1 ⋅π A ξ valószínûségi változó eloszlásfüggvénye (1.6. ábra)
0 F (x ) = x 2 1
, ha x<0 , ha 0 ≤ x < 1 , ha 1 ≤ x,
sûrûségfüggvénye (1.6. ábra) x<0 0 , ha f ( x ) = 2 x , ha 0 ≤ x < 1 0 , ha 1 ≤ x.
29
1.6. ábra. ξ eloszlásfüggvénye és sûrûségfüggvénye
A független események fogalmát felhasználva, definiálhatjuk valószínûségi változók függetlenségét. Erre néhány késõbbi állítás megfogalmazása miatt van szükségünk. DEFINÍCIÓ. Az η és ξ valószínûségi változókat függetlennek nevezzük, ha tetszõleges x, y valós számok esetén az {η < x} és a {ξ < y} események függetlenek.* Megjegyzés. A függetlenség eldöntése általában nehéz kérdés. Rátérünk a valószínûségi változó jellemzõinek leírására. 1.5. elsõ példájához visszatérve megkérdezhetjük, hogy várhatóan mennyit nyerünk vagy vesztünk, ha egy kockát feldobunk. A választ úgy képzeljük el, hogy nagyon sokszor (N ) lejátszva a játékot, a nyereményt (és veszteséget) átlagoljuk. Legyen f 500 , f 0 , f −700 rendre az indexben szereplõ értéket szerzõ dobások gyakorisága, ekkor a nyeremény átlaga
*Az
esetén az
η1 , η2 ,..., η n valószínûségi változókat függetlennek nevezzük, ha tetszõleges x 1 , x 2 ,..., x n valós számok
{η1 < x1}, {η 2 < x2 },..., {η n < xn } események függetlenek.
30
n=
500 ⋅ f 500 + 0 ⋅ f 0 + (− 700) ⋅ f −700 = 500 ⋅ g 500 + 0 ⋅ g 0 + (− 700) ⋅ g −700 , N
ahol g 500 , g 0 , g −700 a megfelelõ relatív gyakoriságok, amelyek a dobások valószínûségei körül ingadoznak. Így 1 3 2 n ≈ 500 ⋅ + 0 ⋅ − 700 ⋅ = 16.6& . 6 6 6 DEFINÍCIÓ. Az E (η ) számot az η valószínûségi változó várható értékének nevezzük, ha
∑ xi pi ,haη diszkrŽt i E (η ) = ∞ ∫ x ⋅ f ( x )dx,haη folytonos, −∞ amennyiben a fenti értékek léteznek. Az η valószínûségi változó várható értékének jelölésére használjuk a µ η szimbólumot is, mert gyakran kényelmesebbé teszi a leírást. A nyeremény várható értéke az elõbb említett példánál µη = E (η ) = 16.6& , amely az elõbb elhangzottak alapján azt jelenti, hogy a fenti játékot sokszor lejátszva 16. 6& körül lesz az egy játékra jutó átlagos nyereményünk. Most a várható érték tulajdonságait tekintjük át. 1.8. TÉTEL. Ha az η valószínûségi változó egy konstans A értéket vehet csak fel, akkor E (η ) = A . BIZONYÍTÁS. Az η diszkrét, mert csak egy értéket vehet fel, mégpedig p = 1 valószínûséggel. Ezért E (η ) = A ⋅1 = A . 1.9. TÉTEL. Ha az η valószínûségi változó várható értéke E (η ) , akkor az A η + B valószínûségi változónak ( A , B valós konstansok) is létezik várható értéke, és E ( Aη + B ) = A ⋅ E (η ) + B . BIZONYÍTÁS. Ha A = 0 , akkor az állítás triviális. Tegyük fel most, hogy A ≠ 0. A bizonyítás elõtt tisztázzuk, hogy mit jelent A η + B . Az η valószínûségi változó Ω elemeihez rendel valamilyen valós számokat. ξ = A η + B ugyanazon Ω elemi eseményeihez olyan valós számokat rendel, amelyeket megkapunk, ha η értékkészletének elemeit A -val megszorozzuk és B -t hozzáadunk. Mivel Ω ugyanaz η és ξ esetében, ezért ξ értékének valószínûségeloszlása
31 ugyanaz lesz, hiszen az elemi események valószínûsége nem változott. A tétel természetesen a folytonos esetben is igaz, de a bizonyítást csak a diszkrét valószínûségi változóra végezzük el. E (η ) = ∑ xi pi , i
E ( Aη + B ) = ∑ ( Axi + B ) pi = ∑ Axi pi + ∑ Bpi = i
i
i
= A∑ xi pi + B ∑ pi = A ⋅ E (η ) + B . i
i
A bizonyításukat mellõzve még további két fontos tételt közlünk. 1.10. TÉTEL. Ha az E (η ) és E (ξ ) várható értékek léteznek, akkor létezik E (η + ξ ) is, és E (η + ξ ) = E (η ) + E (ξ ) . 1.11. TÉTEL. Ha η és ξ független valószínûségi változók, továbbá létezik E (η ) és E (ξ ) , akkor létezik E (ηξ ) is, és E (ηξ ) = E (η ) ⋅ E (ξ ) . Korábban láttuk, hogy egy kísérlet eredményeinek átlaga a várható érték körül ingadozik. Próbáljuk meg jellemezni az ingadozást! Például az η − E (η ) valószínûségi változó az η által felvett érték és az η várható értékének elõjeles eltérését. η − E (η ) várható értékének kiszámításához az 1. és 2. tételt felhasználva E (η − E (η )) = E (η ) − E (E (η )) = E (η ) − E (η ) = 0 .
Nos, ebbõl az eredménybõl a jellemzéshez túl sok következtetést levonni nem tudunk, ezért más módszerrel kísérletezünk.
(
) (
DEFINÍCIÓ. A D 2 (η ) = E (η − E (η )) = E (η − µη ) 2
2
) értéket az η valószínûségi változó
szórásnégyzetének (varianciájának) nevezzük, ha létezik. DEFINÍCIÓ. A D(η ) = D 2 (η ) értéket az η valószínûségi változó szórásának hívjuk. (Vigyázzunk arra, hogy ne keverjük össze a most definiált fogalmakat egy adatsor szórásnégyzetével ill. szórásával!) Használatos még a σ 2η ill. σ η jelölés is az η valószínûségi változó szórásnégyzetének illetve szórásának jelölésére. A szórásnégyzet definíciójából egy könnyebben kezelhetõ alakot lehet levezetni.
(
) (
)
( )
( )
D 2 (η ) = E (η − µη ) = E η 2 − 2 µηη + η 2 = E η 2 − 2 µη E (η ) + E µη2 = 2
( )
( )
= E η − E (η ) = E η − µη . 2
2
2
2
32 Eszerint diszkrét valószínûségi változó szórásnégyzete D 2 (η ) = ∑ xi2 pi − µη2 , i
folytonos valószínûségi változó szórásnégyzete D 2 (η ) =
∞
∫ x f (x )dx − µη 2
2
.
−∞
Számoljuk ki , mennyi lesz a nyeremény szórása az elsõ példában!
( )
( )
2 3 1 2 2 D 2 (η ) = E η 2 − E 2 (η ) = 500 2 ⋅ + 0 2 ⋅ + (− 700) ⋅ − 16.6& ≈ 288055.56 . 6 6 6 D(η ) = 288055.56 ≈ 537.7 .
A szórásnégyzet tulajdonságait vizsgáljuk a következõkben. 1.12. TÉTEL. Ha η valószínûségi változó egy konstans A értéket vehet fel, akkor D (η ) = 0 2
(
) (
) (
)
BIZONYÍTÁS. D 2 (η ) = E (η − E (η )) = E ( A − E ( A)) = E ( A − A) = E (0 ) = 0 . 2
2
2
1.13. TÉTEL. Ha η valószínûségi változó szórásnégyzete σ 2η és A valós konstans, akkor 1)
σ 2η+ A létezik, és σ 2η+ A = σ 2η ,
2)
σ 2A η létezik, és σ 2A η = A 2 σ 2η .
BIZONYÍTÁS. 2 2 1) σ η2+ A = D 2 (η + A) = E (η + A) − E 2 (η + A) = E η 2 + 2 Aη + A 2 − (E (η ) + E ( A)) =
(
)
(
= E (η ) + 2 AE (η ) + E (A ) − E (η ) − 2 E ( A)E (η ) − E 2
2
(
2
)
2
) ( A) = E (η ) − E (η ) = D (η ) = σ 2
2
2
2
η
.
( )
2) σ A2η = D 2 ( Aη ) = E ( Aη ) − E 2 ( Aη ) = A 2 E η 2 − A 2 E 2 (η ) = A 2 D 2 (η ) = A 2σ η2 . 2
Tegyük most fel, hogy η és ξ valószínûségi változók σ 2η és σ 2ξ szórásnégyzettel. Vizsgáljuk meg, hogy mit mondhatunk az η + ξ valószínûségi változó szórásnégyzetérõl!
(
)
D 2 (η + ξ ) = E (η + ξ ) − E 2 (η + ξ ) = E (η 2 + 2ηξ + ξ 2 ) − (E (η ) + E (ξ )) =
( )
2
2
( )
= E η 2 − E 2 (η ) + E ξ 2 − E 2 (ξ ) + 2 E (ηξ ) − 2 E (η )E (ξ ) = D 2 (η ) + D 2 (ξ ) + 2(E (ηξ ) − E (η )E (ξ )). Ha η és ξ független valószínûségi változók, akkor a 4. tétel értelmében E (ηξ ) − E (η )E (ξ ) = 0 , tehát σ 2η+ ξ = σ 2η + σ ξ2 . Ha η és ξ nem függetlenek, akkor az E (ηξ ) − E (η )E (ξ ) mennyiség nem tûnik el.
DEFINÍCIÓ. Ha létezik a COV (η , ξ ) = E (ηξ ) − E (η )E (ξ ) mennyiség, akkor ezt az η és ξ valószínûségi változók kovarianciájának nevezzük.
33
A kovariancia fogalmának felhasználásával az alábbi tételt bizonyítottuk. 1.14. TÉTEL. Ha σ 2η és σ 2ξ léteznek, akkor σ 2η+ ξ is létezik, és
σ η2+ξ = σ η2 + σ ξ2 + 2COV (η + ξ ) .
1.15. TÉTEL.
COV (η , ξ ) = E ((η − µη )(ξ − µξ )).
BIZONYÍTÁS. E ((η − µη )(ξ − µ ξ )) = E (ηξ − ηµ ξ − ξµη + µη µξ ) =
= E (ηξ ) − µξ E (η ) − µη E (ξ ) + µη µξ = E (ηξ ) − E (η )E (ξ ).
A kovariancia két valószínûségi változó egymáshoz viszonyított "változékonyságát" jellemzi. Független valószínûségi változók kovarianciája 0, de ezen állítás megfordítása nem igaz, így a kovariancia nem alkalmas annak eldöntésére, hogy két valószínûségi változó független-e. A kovariancia fogalmával majd a regressziószámítás címû fejezetben ismét találkozunk. 1.16. TÉTEL. Legyen η valószínûségi változó, melynek várható értéke µ η , szórása σ η, η − µη továbbá legyen ξ = valószínûségi változó. Ekkor ση 1)
µξ = 0 ,
2)
σξ = 1 .
BIZONYÍTÁS. η − µη 1) µξ = E (ξ ) = E σ η
1 µη µη 1 1 = µ E (η − µη ) = E (η ) − = − =0 . η σ ση ση ση ση η
η − µη 2) σ ξ = D (ξ ) = D σ η 2
2
2
1 2 σ η2 1 2 = D (η − µη ) = 2 D (η ) = 2 = 1 . σ2 ση ση η
A valószínûségi változókra vonatkozó fenti speciális transzformációt standardizálásnak nevezzük, és késõbb gyakran fogjuk használni.
34
1.6. Nevezetes eloszlások*
1.6.1. Diszkrét valószínûségi változók eloszlása 1. Indikátorváltozó eloszlása Legyen Ω tetszõleges eseménytér és A ⊆ Ω ( p = P( A)) tetszõleges esemény. Azt az η valószínûségi változót, amely egy elemi eseményhez 1 illetve 0 értéket rendel aszerint, hogy az elemi esemény része vagy sem az A eseménynek, indikátorváltozónak nevezzük. Az η indikátorváltozó értékkészlete a 0, 1 számokból áll és eloszlása: P(η = 1) = p , P(η = 0 ) = 1 − p (lásd 1.7. ábra). η várható értéke µη = 0 ⋅ (1 − p ) + 1 ⋅ p = p.
η szórásnégyzete σ η2 = 0 2 ⋅ (1 − p ) + 12 ⋅ p − p 2 = p (1 − p ) .
1.7. ábra. Indikátorváltozó eloszlása 2. Egyenletes eloszlás Az η diszkrét valószínûségi változó egyenletes eloszlású, ha értékkészlete véges, annak minden elemét
(x1 , x2 ,K, xn ) ugyanakkora valószínûséggel veszi fel.
Példák. Kockadobás esetén a felsõ lapon levõ értéket (lásd 1.8. ábra), kártyahúzásnál pedig a kíhúzott lap színét megadó valószínûségi változó egyenletes eloszlású.
η
*
eloszlása P(η = xi ) =
1 n
,
(i = 1,2,K, n )
,
A számunkra fontos eloszlások a szokásos (12 pontos) betûnagysággal vannak szedve, a többi tájékoztató
jelleggel és gyakorlás céljából került be apró (10 pontos) betûvel.
35 η η
n
n
k =1
k =1
várható értéke µ η = ∑ x k p k = ∑ x k szórásnégyzete σ 2η =
1 n
1 1 = n n
n
∑x
k
.
k =1
n
∑x
2 k
− µ 2η
.
k =1
1.8. ábra. Valószínûségeloszlás kockadobásnál
3. Binomiális eloszlás Az η diszkrét valószínûségi változót n -edrendû, p paraméterû binomiális eloszlásúnak nevezzük, ha a 0,1, K , n természetes számokból áll az értékkészlete, és eloszlása: n n−k P(η = k ) = p k (1 − p ) k
,
(k = 0,1,K, n ) .
Példák. Meghatározott számú pénzérmét vagy dobókockát feldobva a fejek illetve a hatosok száma binomiális eloszlású. Általánosabban fogalmazva tegyük fel, hogy az A esemény p valószínûséggel következik be. n -szer egymástól függetlenül elvégezve a kísérletet, az A esemény bekövetkezésének gyakoriságát jelölje az η valószínûségi változó. Annak a valószínûsége, hogy az A esemény pontosan k -szor következik be
n n −k P(η = k ) = pk = p k (1 − p ) k
(lásd visszatevéses mintavétel). Vezessük be a q = 1 − p jelölést. A megadott P(η = k ) valószínûségek tényleg eloszlást alkotnak, mert összegük 1. n n k n −k p q = ( p + q )n = 1n = 1 . P ( η = k ) = ∑ ∑ k =0 k =0 k n
36 η várható értéke µ η = np . n
n
k =0
k =0
n k
k ⋅ n! p k q n −k = ( ) k ! n − k ! k =0 n n − 1 k −1 (n −1)−(k −1) p q = np ∑ = k =1 k − 1 n
µη = ∑ xk pk = ∑ k p k q n−k = ∑
(n − 1)! p k −1q n−k k =1 (k − 1)!(n − k )! n −1 = np( p + q ) = np . n
= np ∑
η szórásnégyzete σ 2η = npq . n
n
k =0
k =0
n k
n
n − 1 k −1 n−k p q − n 2 p 2 = k − 1
σ η2 = ∑ xk2 pk − µη2 = ∑ k 2 p k q n−k − (np )2 = np ∑ k k =1
n − 1 k −1 n−k 2 2 n − 1 k −1 n −k p q − n p = p q + ∑1 ⋅ = np ∑ (k − 1) k =1 k − 1 k − 1 k =1 n n − 2 k −2 n−k 2 2 p q + 1 − n p = np((n − 1) p ⋅1 + 1) − n 2 p 2 = = np (n − 1) p ∑ k =2 k − 2 2 = n (n − 1) p + p − np 2 = n p − p 2 = np(1 − p ) = npq . n
(
n
) (
)
1.9. ábra. Binomiális eloszlású valószínûségi változók eloszlása Megjegyzések. 1. A bizonyításnál feltettük, hogy n ≥ 2. Ha n értéke 1, akkor is npq lesz a binomiális eloszlású valószínûségi változó szórásnégyzete, ennek igazolását az olvasóra bízzuk. 2. A fenti két állítást bizonyíthatjuk az indikátorváltozó segítségével is. Jelentse ηi (i=1,2,...,n) azt az indikátorváltozót, mely 1 illetve 0 értéket vesz fel aszerint, hogy az i-edik kísérletben az A esemény bekövetkezett vagy sem. Ezek páronként független valószínûségi változók p várható értékkel és pq szórásnégyzettel. Ekkor η = η1 + η2 +K + ηn binomiális eloszlású, hiszen az A esemény gyakoriságát adja meg az n számú kísérletben. A várható értékre és a szórásnégyzetre bizonyított tételeket felhasználva η várható értékére és szórásnégyzetére a következõket kapjuk.
37
µη = E (η ) = E (η1 + ... + η n ) = E (η1 ) + K + E (η n ) = n ⋅ p,
σ η2 = D 2 (η ) = D 2 (η1 + ... + η n ) = D 2 (η1 ) + K + D 2 (η n ) = n ⋅ pq. 3. Nagy n és k esetén a binomiális eloszláshoz tartozó valószínûségeket közelítõ táblázatból olvashatjuk ki. 4. Polinomiális eloszlás A binomiális eloszlás általánosítása. Ha egy kísérlet kimenetelei az egymást kizáró A 1 , A 2 , K , A s események, amelyek összege Ω , és a kísérletet egymástól függetlenül N-szer elvégezzük, akkor az ηi szimbólummal jelölve az A i esemény bekövetkezésének gyakoriságát P(η1 = k1 ,η 2 = k 2 ,K,η s = k s ) =
pi
s N! p1k1 p 2k2 ⋅ K ⋅ p sks ,∑ k i = N . k1!k 2 !⋅K ⋅ k s ! i =1
az A i esemény bekövetkezésének valószínûségét jelöli. Az η = (η1 ,η 2 ,K ,η s ) ún. s
dimenziós valószínûségi vektorváltozó. Feladat.
Egy fûrészüzemben az elõállított deszkák ötöde selejt, negyede másodosztályú, a többi elsõosztályú. Mennyi annak a valószínûsége, hogy 9 darab véletlenszerûen (visszatevéses mintavétellel) kiválasztott deszkából 6 elsõosztályú, két másodosztályú és egy selejt lesz? A 9 elemû mintából a kiválasztott elsõosztályú termékek számát az η1 valószínûségi változó adja meg, a másodosztályúakét η2 , végül a selejtekét η3 . A fentiek alapján a keresett valószínûség 6
2
1
9! 11 1 1 P(η1 = 6,η 2 = 2,η 3 = 1) = ≈ 0.029 . 6!⋅2!⋅1! 20 4 5 Az 1.10. ábrán az összes lehetséges 9 elemû minta valószínûségét tüntettük fel oszlopdiagramon. (Elég a selejtek és a másodosztályúak számát megadni, mert η1 = 9 − η2 − η3 .)
38
1.10. ábra
5. Hipergeometrikus eloszlás Az η diszkrét valószínûségi változó N , K , n paraméterû hipergeometrikus eloszlású, ha az értékkészlete a 0,1, K , n természetes számokból áll, és eloszlása K N − K k n − k P(η = k ) = N n
,
(k = 0,1,K, n ) .
A paraméterekre teljesülnie kell az N > K és a 0 < n ≤ min{K , N − K } feltételeknek.
1.11. ábra. Hipergeometrikus eloszlású valúszínûségi változók eloszlása ( N = 30 )
Példák. Lottóhúzásnál az eltalált nyerõszámok száma hipergeometrikus eloszlású. Most tegyük fel, hogy adott egy N elemû halmaz, amelybõl K elemet valamely szempont szerint megjelöltünk.
39 Egy n elemû véletlen mintát kiválasztva az eredeti halmazból, a mintában szereplõ megjelölt elemek számát jelölje az η valószínûségi változó. Annak a valószínûségét, hogy a kiválasztott mintában k darab megjelölt elem lesz, az elõbbi képlet írja le. (Lásd visszatevés nélküli mintavétel.) A megadott P(η = k ) valószínûségek eloszlást alkotnak, mert összegük 1 n K N − K =1 . ∑ N k =0 k n − k n η várható értéke µ η =
Kn . N
K N − K n n k n − k 1 n K N − K = µη = ∑ xk p k = ∑ k = ∑ k N N k =0 k n − k k =0 k =0 n n N − 1 n − 1 K − 1 N − K K n = K . = =K ∑ N N k =1 k − 1 n − k N n n n
η szórásnégyzete σ η2 = n
K K N − n 1 − . N N N − 1
6. Negatív binomiális eloszlás (PASCAL-eloszlás)
Az η valószínûségi változót n-edrendû, p paraméterû negatív binomiális eloszlásúnak nevezzük, ha értékkészlete az n , n + 1, K természetes számokból áll, és eloszlása: k − 1 n k − n p q P(η = k ) = n − 1
,
(k = n, n + 1,K)
.
Példa. Legyen egy véletlen A esemény bekövetkezésének valószínûsége p. Az η valószínûségi
változó vegye fel a k értéket, ha az A esemény n-edszerre éppen a k-adik kísérletben következik be. Mivel ∞
k − 1
∑ n − 1 p k =n
k
q k −n = 1 ,
40
ezért valóban eloszlást definiáltunk. η
várható értéke µ η =
η
szórásnégyzete σ 2η =
n . p nq p2
.
1.12. ábra. PASCAL-eloszlású valószínûségi változók eloszlása 7. POISSON-eloszlás Az η diszkrét valószínûségi változót λ > 0 paraméterû POISSON-eloszlásúnak nevezzük, ha értékkészlete a természetes számok halmaza (0,1,2,K) , és eloszlása P(η = k ) =
λk − λ e k!
,
(k = 0,1,2, K) .
Példák. Egy nyári éjszakán rögzített t idõ alatt észlelt hullócsillagok száma, egy telefonközpontba a 0, t idõtartam alatt beérkezõ telefonhívások száma, egy útkeresztezõdésben a percenként áthaladó autók száma, bútoripari nyersanyagoknál 1 négyzetméterre esõ görcsök száma
41 POISSON-eloszlást követ. Általában egy rögzített t idõ alatt ill. adott térrészen megfigyelt azonos típusú történések száma POISSON-eloszlású lesz. A P(η = k ) valószínûségek eloszlást alkotnak, mivel ∞ ∞ λk − λ λk −λ e =e ∑ = e −λ ⋅e λ = 1 . ∑ k =0 k ! k =0 k ! ∞
∞
λk
k =0
k =0
k!
η várható értéke µη = ∑ xk pk = ∑ k ∞
∞
e −λ = λ ∑
∞
e −λ = λ . k =1 (k − 1)!
η szórásnégyzete σ η2 = ∑ xk2 p k − µη2 = ∑ k 2 k =0
λk −1
λk
k =0
k!
∞
e − λ − λ2 = λ ∑ k k =1
λk −1
e −λ − λ2 = (k − 1)!
λ λk −1 −λ 2 e − λ + ∑1 ⋅ e −λ = = λ ∑ (k − 1) (k − 1)! (k − 1)! k =1 k =1 ∞ λk − 2 − λ 2 = λ λ ∑ e + 1 − λ = λ (λ ⋅1 + 1) − λ2 = λ . k =2 (k − 2 )! ∞
k −1
∞
1.13. ábra. POISSON-eloszlású valószínûségi változók eloszlása
42
1.6.2. Folytonos valószínûségi változók eloszlása l. Normális eloszlás Ez az eloszlás a valószínûségszámításban és a matematikai statisztikában egyaránt kiemelkedõ szerepet játszik, a mindennapi élet leggyakrabban elõforduló eloszlása. Az η folytonos valószínûségi változó (µ , σ ) paraméterû normális eloszlású (σ > 0 ) , ha sûrûségfüggvénye 1 x− µ σ
2
− 1 f (x ) = e 2 σ 2π
(− ∞ < x < ∞ ) .
,
Példák. Homogén, nagy populációban a kifejlett egyedek testméretei, egy gyártási folyamatban fellépõ méretingadozások, a mérési hibák, azonos típusú faipari termékek méretei és szilárdsági adatai, az intelligenciatesztek eredményei jó közelítéssel mind normális eloszlást követnek. Késõbb részletesen kifejtjük, hogy mit értünk jó közelítésen. 0.4 (4,1)
(8,2)
(4,2)
12
1.14. ábra. Normális eloszlású valószínûségi változók sûrûségfüggvényei
Ha az η valószínûségi változó (0,l) paraméterû, akkor standard normális eloszlásúnak (z eloszlásúnak) nevezzük, melynek sûrûségfüggvénye 1
ϕ( x ) =
1 −2x 2 e 2π
,
( −∞ < x < ∞ ) .
Mind f(x), mind ϕ(x) pozitív értékû függvény. Moór Artúr: Matematika I-II. jegyzetének 24l-242. ∞
oldalán bizonyíttatott, hogy
∫ ϕ ( x)dx = 1 .
Tehát ϕ ( x ) valóban sûrûségfüggvény. Ebbõl
−∞
következik, hogy f ( x ) is sûrûségfüggvény, ugyanis a z =
x −µ helyettesítést alkalmazva σ
43 ∞
1 x− µ σ
∞
− 1 2 ( ) f x dx = e ∫−∞ ∫−∞σ 2π
2
dx =
∞
∫
−∞
1
1 − 2 z2 e dz = 1 . 2π
1.15. ábra. Standard normális eloszlású valószínûségi változó sûrûségfüggvénye és eloszlásfüggvénye
A standard normális eloszlású valószínûségi változó eloszlásfüggvénye (lásd 1.15. ábra) 1 x x − t2 1 2 Φ (x ) = ∫ ϕ (t )dt = e dt . Belátható, hogy Φ ( − x ) = 1 − Φ ( x ) . ∫ 2π −∞ −∞ Mivel Φ( x ) mint a ϕ( x ) sûrûségfüggvény primitív függvénye explicit alakban nem állítható elõ, ezért Φ( x ) különbözõ helyen vett helyettesítési értékeit táblázatban szokták megadni. Minden normális eloszlású valószínûségi változó standardizálással strandard normális eloszlásúvá alakítható, így az elõbb említett táblázat tetszõletes paraméterû normális eloszlás esetén (közvetve) használható. A normális eloszlású η valószínûségi változó várható értéke µ η = µ . 1 x −µ σ
∞
− 1 µη = ∫ x e 2 − ∞ σ 2π
∞
=σ ∫z −∞
1 2π
e
1 − z2 2
2
dx =
∞
∫ (σz + µ )
−∞
∞
dz + µ ∫
−∞
1 2π
e
1 − z2 2
1
− z2 1 e 2 σ dz = σ 2π
dz = σ ⋅ 0 + µ = µ .
44
(Páratlan függvény −∞ − tõl ∞ − ig vett integrálja 0.) Az η szórása σ η = σ . ∞
ση = ∫ x 2
−∞
=
=
σ2 2π
1
2
σ 2π
∞
2 ∫z e
1 − z2 2
−∞
e
1 x−µ − 2 σ
2
dx− µ = 2
∞
∫ (σz + µ )
σ 2π
−∞
∞
dz +2 µσ ∫ z −∞
1
2
1
∞
e
1 − z2 2
σ dz − µ 2 =
1
1 − 2 z2 1 − 2 z2 e dz + µ 2 ∫ e dz −µ 2 = π 2π 2 −∞
σ2 ⋅ 2 π + 2 µσ ⋅ 0 + µ 2 ⋅1 − µ 2 = σ 2 . 2π
Az elsõ integrált parciális integrálással tudjuk meghatározni: ∞
∫ z ⋅ ze
−∞
1 − z2 2
∞
1 ∞ − 1 z 2 − z2 dz = z ⋅ − e 2 − ∫ − e 2 dz = −∞ −∞
z = lim− 1 2 z →∞ 2 z e
z − 12 − zlim → −∞ − z e 2
+ 2π = 0 − 0 + 2π = 2π .
Ezzel megvilágítottuk a paraméterek jelentését. A normális eloszlás a statisztikában központi szerepet játszik, elméleti és gyakorlati fontosságát mutatja a következõ tétel. 1.17. TÉTEL (CENTRÁLIS HATÁRELOSZLÁS TÉTELE). Legyenek η1 , η2 , K , ηn azonos eloszlású E (η i ) = µ ,σ η2i = σ 2 ,i = 1,2, K , n valószínûségi változók. Ekkor az összegük
(
)
standardizáltja n → ∞ határesetben standard normális (z) eloszlású valószínûségi változó, azaz tetszõleges x ∈ R esetén
η + K + η n − nµ 1 lim P 1 < x = n →∞ σ n 2π
x
∫e
−
t2 2
dt .
−∞
A tétel értelmében nagy n értékek esetén normális eloszlással közelíthetõ például az n,p paraméterû binomiális eloszlás, az n szabadsági fokú χ 2 eloszlás* és az n-edrendû λ paraméterû
*
Lásd 5. pont.
45 Γ eloszlás** . A tétel másik következménye, hogy a mintaközép illetve a relatív gyakoriság statisztikák eloszlása n ≥ 30 esetén normális eloszlással közelíthetõ, hiszen ezek azonos eloszlású független valószínûségi változók összegeként állnak elõ (lásd 3.4.). A tételt ebben a formájában CSEBISEV és MARKOV bizonyították elõször, késõbb LJAPUNOV általánosította. 2. Lognormális eloszlás Az η valószínûségi változó valószínûségi változó
(µ , σ )
paraméterû lognormális eloszlású ( σ > 0 ), ha a ξ = ln η folytonos
(µ , σ ) paraméterû normális eloszlású. η sûrûségfüggvénye 1 ln x − µ 1 − 2 σ f ( x ) = σx 2π e 0
, ha x > 0 ,ha x ≤ 0.
Példák. A lognormális eloszlás általában aprítási folyamatok során lép fel, az aprított elemek méretei jó közelítéssel lognormális eloszlásúak. Gyakran bizonyos sejttípus esetén sejtmagok átmérõi is lognormális eloszlást alkotnak. µ+
σ2 2
η
várható értéke µ η = e
η
szórásnégyzete σ η2 = e 2 µ +σ eσ − 1 .
, 2
0.06
(
2
)
(3,2) (3.4,2)
(3,1.7) (3,1.4)
5
1.16. ábra. Lognormális eloszlású valószínûségi változók sûrûségfüggvényei 3. Exponenciális eloszlás Az η valószínûségi változót λ > 0 paraméterû exponenciális eloszlásúnak nevezzük, ha sûrûségfüggvénye
**
Lásd 4. pont.
46
0 , ha x ≤ 0 f ( x ) = −λx λe , ha x > 0. 3
λ =3
2
λ =2 1 λ =1 0.5
λ =0.5
2.5
1.17. ábra Exponenciális eloszlású valószínûségi változók sûrûségfüggvényei η
1 λ
várható értéke és szórása µ η = σ η = .
Példák. Egy telefonközpontba beérkezõ telefonhívások ideje között eltelt idõ, egy radioaktív bomlás során az egymás utáni bomlások között eltelt idõ megközelítõleg exponenciális eloszlású. Különbözõ (de azonos típusú) gépek, villanyégõk élettartama ugyancsak exponenciális eloszláshoz közelít. A következõkben olyan fontos folytonos eloszlású valószínûségi változókat definiálunk, amelyek sûrûségfüggvényeinek képletét nem adjuk meg, de a statisztikában fontos szerepet játszanak* . 4. Γ eloszlás Legyenek η1 , η2 ,..., η n független λ paraméterû exponenciális eloszlású valószínûségi változók. Ekkor a ξ = η1 + η2 +K + η n valószínûségi változó egy n-edrendû λ paraméterû Γ eloszlású valószínûségi változó.
*Sûrûségfüggvényeiket
lásd
Baróti
György-Bognár
Jánosné-Fejes Tóth Gábor-Mogyoródi József:
Valószínûségszámítás, Tankönyvkiadó, Budapest, 1985. (ELTE jegyzet.)
47
(1,5)
0.18 (0.7,4)
(0.7,8)
(0.7,5)
15
1.18. ábra. Γ eloszlású valószínûségi változók sûrûségfüggvényei 5. χ 2 (khi-négyzet) eloszlás Legyenek η1 , η2 ,..., ηn független, standard normális eloszlású valószínûségi változók. A χ 2n = η12 + η22 +K + η2n valószínûségi változó n szabadsági fokú χ 2 eloszlású.
0.3
χ2
5
χ2
10
χ2
15
25
1.19. ábra. χ 2 eloszlású valószínûségi változók sûrûségfüggvényei 6. F eloszlás (FISHER-eloszlás) Két független χ 2 eloszlású valószínûségi változó hányadosa,
F( n ,k )
(
)
(
)
1 2 η1 + η 22 + K + η n2 = n 1 2 ξ1 + ξ 22 + K + ξ k2 k
48
(n, k ) szabadsági fokú, F
eloszlású valószínûségi változó.
F
(15,20)
0.8 F
(8,4)
F(10,3)
4
1.20. ábra. FISHER eloszlású valószínûségi változók sûrûségfüggvényei 7. t eloszlás (STUDENT-eloszlás) Legyenek η0 , η1 , η2 ,..., η n független, standard normális eloszlású valószínûségi változók. A belõlük képzett tn =
n η0 η12
+ η22 + ... η2n
valószínûségi változó n szabadsági fokú t (STUDENT) eloszlású. 0.4 z t5 t2 t1
-4
4
1.21. ábra. STUDENT-eloszlású valószínûségi változók sûrûségfüggvényei
49
A standard normális eloszláshoz hasonlóan, az utóbbi 3 eloszlás eloszlásfüggvényének helyettesítési értékeit is táblázatok tartalmazzák. A táblázatok használata nagyon egyszerû, mégis tekintsünk most egy feladatot, amelyben megmutatjuk kezelésüket. Feladat. Egy gép által készített alkatrészek hossza normális eloszlású µ = 30 cm várható értékkel és σ = 0. 5 cm szórással. Mekkora annak a valószínûsége, hogy az alkatrészek közül egyet találomra kiválasztva, annak hossza pl. 29. 77 cm és 30. 5cm közé esik? A gyártott alkatrészek hosszát a ϑ valószínûségi változó írja le. A feladat kérdését formalizálva majd átalakítva a következõket kapjuk.
30.5 − 30 29.77 − 30 P(29.77 ≤ ϑ < 30.5) = P(ϑ < 30.5) − P(ϑ < 29.77 ) = P z < − P z < = 0.5 0.5 = P( z < 1) − P( z < −0.46) = Φ(1) − Φ (− 0.46)
Most a szükséges helyettesítési értékeket – a meghatározandó valószínûségeket – a standard normális eloszlás táblázatából kiolvassuk. A jegyzet függelékében levõ táblázat mátrix-szerû elrendezésben 4 tizedesjegy pontossággal tartalmazza Φ (x ) helyettesítési értékeit, −3. 49 -tõl 3. 49 -ig 0. 01-os lépésközzel. A számegyenes −3. 5 , 3. 5 intervallumát kivéve Φ (x ) helyettesítési értékei gyakorlatilag 0-nak ill. 1-nek vehetõk. A Φ (− 0.46) = 0.3228 értéket a mátrix −0. 4 -del kezdõdõ sorában és 0.06-dal kezdõdõ oszlopában találjuk. Az olvasó könnyen ellenõrizheti, hogy Φ(1) = 0.8413 . Tehát a kérdéses valószínûség 0. 8431 − 0. 3228 = 0. 5183.
50
2. A leíró statisztika
Tegyük fel, hogy egy populáció egy rögzített paraméterére, valamely meghatározott mintavételi eljárással, az alábbi adatokat kaptuk: x1 , x2 ,K, xn . Az adatok számát ( n ) a minta nagyságának hívjuk. A továbbiakban a minta jellemzésére használatos fogalmakat vezetjük be. (A fogalmak természetesen tetszõleges valós számokból álló adathalmaz esetén is bevezethetõk.)
2.1. A középértékek A minta átlaga (számtani közepe) Az adatokból számított n
x =∑ i =1
xi x1 + x2 + K + xn = n n
értéket a minta átlagának hívjuk, amely rendelkezik a következõ két tulajdonsággal. l. A nála kisebb adatok tõle számított távolságainak összege a számegyenesen megegyezik a n
∑ (x
nála nagyobb adatok tõle számított távolságainak összegével:
i =1
i
− x)= 0.
2. Ha az adatok valamely A értéktõl számított távolságainak négyzetösszegét tekintjük, akkor ez az összeg A = x esetén minimális, azaz
n
∑ (x i =1
− A) minimális, ha A = x . 2
i
A minta mediánja Rendezzük növekvõ sorrendbe a minta elemeit ( x1′ ≤ x′2 ≤ K ≤ x′n )! Ha n páratlan ( n = 2 k + 1), akkor a középsõ, azaz a ( k + 1)-edik elemet, ha n páros ( n = 2 k ), akkor a két középsõ, azaz a k -adik és a ( k + 1)-edik adat átlagát nevezzük mediánnak: xk′ +1, ha n = 2k + 1, medián = xk′ + xk′ +1 , ha n = 2k . 2
51 A mediánra teljesül, hogy az adatok tõle számított távolságainak összege kisebb vagy egyenlõ, mint egy másik A értéktõl vett távolságainak összege*. A minta módusza A minta elemei közül a leggyakrabban elõforduló elemet a minta móduszának nevezzük. Ha több ilyen van, akkor a móduszok halmazáról beszélünk.
2.2. A szóródás mérõszámai A minta terjedelme (t ) A minta terjedelmét megkapjuk, ha a legnagyobb elemébõl kivonjuk a legkisebb elemét: t = x max − x min . A minta átlagos abszolút eltérése (E ) n
E=
∑x i =1
i
−x =
n
x1 − x + x2 − x + K + xn − x n
.
A minta szórásnégyzete (S n2 ) n
S = 2 n
∑ (x i =1
− x)
2
i
n
2 2 2 ( x1 − x ) + ( x2 − x ) + K + ( xn − x ) . =
n
A minta korrigált szórásnégyzete (S 2 ) n
S2 =
n 2 Sn = n −1
∑ (x i =1
i
− x)
n −1
2
.
A szóródás mértékére a szórásnégyzet tûnik logikus definíciónak. Késõbb látni fogjuk, hogy a statisztikai alkalmazásokban a korrigált szórásnégyzet játssza a fontosabb szerepet. A rövidség kedvéért – amennyiben nem okoz félreértést – a továbbiakban ezt is szórásnégyzetnek fogjuk hívni. A minta korrigált szórása (S, a továbbiakban röviden a minta szórása)
*
Egyenlõség akkor lehetséges, ha n = 2 k és A ∈ x k′ , x k′ +1 .
52 S = S2. A szórás (és szórásnégyzet) egy másik alakban is felírható, ha az összegben szereplõ négyzetet felbontjuk: n
∑ (x i =1
n
2
i
n
n
− x ) = ∑ xi2 − 2 x ∑ xi + ∑ x 2 = i =1
i =1
i =1
n
∑x i =1
n
2 i
− 2 x (nx ) + nx 2 = ∑ xi2 − nx 2 = i =1
2
1 = ∑ xi2 − ∑ xi . n i =1 i =1 n
n
n
Innen S =
∑x i =1
2 i
− nx 2
n −1
.
A fenti szóródási jellemzõk közül legfontosabb a szórás. CSEBISEV orosz matematikus bizonyította a következõ tételt. 2.1. TÉTEL (CSEBISEV TÉTEL). Legyen k > 1 valós szám. Ekkor az x − kS , x + kS 1 intervallumba az adatok legalább 100 ⋅ 1 − 2 százaléka beleesik. k 1 Például k = 2 esetén az adatoknak legalább az 1 − 2 ⋅ 100 = 75 százaléka lesz az 2 x − 2S , x + 2S intervallumban. Speciális esetben, ha az adatok ún. normális eloszlású valószínûségi változóra vett mintaelemek, akkor CSEBISEV becslésénél lényegesen jobb eredményt kapunk: x − S , x + S -ben megközelítõleg az adatok 68.3%-a, x − 2S , x + 2S -ben 95.4%-a, x − 3S , x + 3S -ben 99.7%-a lesz benne.
2.3. A minta alakja A minta alakjának meghatározása és annak szemléltetése során bizonyos szempontok szerint ún. gyakorisági táblázatban tüntetjük fel az adatokat, majd azokat felhasználva grafikusan próbáljuk megjeleníteni a táblázatban foglaltakat.
2.3.l. Gyakorisági táblázatok
53 Az alábbiakban közölt eljárás lényege az, hogy a minta elemeit osztályokba soroljuk. Eredményként kapjuk, hogy az egyes osztályokba a mintából hány adat került, azaz az egyes osztályok mekkora gyakorisággal fordulnak elõ. f i -vel jelöljük az i-edik osztályban levõ elemek számát. Az osztályokba sorolásnál a következõ három elvárásunk van. (l) Az osztályok szélessége ugyanakkora legyen (osztályszélesség lásd késõbb)* . (2) Az osztályok között ne legyen átfedés (diszjunktak legyenek). (3) Az osztályok egyesítése fedje le azt az intervallumot, amelybe a minta elemei beleesnek. ( (2) és (3) garantálja, hogy bármely adat egyértelmûen hozzátartozik valamelyik osztályhoz.) Tekintsünk egy példát. Az alábbi adatok n = 25 végzõs egyetemista által egy átlagos hétvégén elköltött pénzösszeget ($) mutatják (2.1. táblázat). 39.78 46.65 82.71 25.94 60.20
28.30 31.47 43.63 50.32 48.14
28.31 33.45 41.17 35.25 22.78
17.95 29.17 47.32 35.70 38.22
44.47 48.39 52.16 17.89 23.25
2.1. táblázat
A legnagyobb összeg x max = 82. 71, a legkisebb x min = 17. 89. A fenti 3 feltételnek megfelelõen besoroltuk az értékeket (2.2. táblázat). Osztályintervallumok
Gyakoriságok ( f i )
15.00 - 29.99
8
30.00 - 44.99
9
45.00 - 59.99
6
60.00 - 74.99
1
75.00 - 89.99
1 2.2. táblázat
A l5-29.99 osztályban a l5-öt az osztályintervallum alsó határának, a 29.99-et pedig az osztályintervallum felsõ határának hívjuk. Figyeljük meg, hogy az adatok pontossága 0.01$, ezért az osztályintervallumok alsó és felsõ határát is egy százados pontossággal adtuk meg. A táblázatból leolvasható, hogy 15 és 29.99 között 8 adat van, 30 és 44.99 között 9, stb. Két egymás utáni osztályintervallum alsó határainak (vagy felsõ határainak) távolságát osztályszélességnek (w ) nevezzük. Példánkban w = 15.
*
Az (1) követelménytõl bizonyos esetekben eltekinthetünk.
54 A gyakorisági táblázatban szereplõ minden osztályhoz hozzátartozik egy alsó és felsõ osztályhatár, két elméleti érték (nem lehetett mérés eredménye), amelyek segítségével a végpontjainak kivételével diszjunkt, egyenlõ hosszúságú intervallumokra daraboljuk fel a számegyenes kérdéses részét (2.3. táblázat). Osztályhatárok
Osztályintervallumok
Osztályszélesség (w )
Gyakoriságok (f i )
14.995-29.995
15.00 - 29.99
15
8
29.995-44.995
30.00 - 44.99
15
9
44.995-59.995
45.00 - 59.99
15
6
59.995-74.995
60.00 - 74.99
15
1
74.995-89.995
75.00 - 89.99
15
1
2.3. táblázat
Példánkat látva felmerül a kérdés, hogy szerencsés volt-e adatainkat 5 osztályba sorolni, vagy általánosan fogalmazva, hogyan határozzuk meg az osztályok számát (c ). Nyilvánvaló, hogy túl kevés osztály nem lehet jó, mert akkor az adatok jellege rejtve marad, és a bennük rejlõ információ elveszhet. Túl sok osztály sem lehet jó választás, mert akkor az egyes osztályokba csak egy-két elem jut, sõt több üres osztály is elképzelhetõ. Az osztályok számát illetõen nincs általános megállapodás a statisztikusok között, ezért az 5 és l5 közötti osztályszámot ajánljuk (5 ≤ c ≤ 15 ). STURGES javasolja a következõt: c = 1 + 3. 3 ⋅ lg n . Ezt azért tartjuk jónak, mert az adatok számától függõen konkrét c értéket ad, és ha kb. 10 ≤ n ≤ 25000 , akkor az osztályok száma kb. 5 és l5 közé esik. t x − x min Miután megállapítottuk az osztályok számát, az osztályok szélessége w = = max , c c az adatok pontosságára felfelé kerekítve. Az elsõ osztály alsó határa legyen h1 = xmin − (adatpontoss‡ g ) / 2 . Az elsõ osztály felsõ határa, és egyben a második osztály alsó határa h2 = h1 + w , stb., végül az utolsó osztály felsõ határa hc +1 = hc + w = h1 + c ⋅w . Az egyértelmûség miatt fogalmaztuk meg precízen, hogy mikor, mit, hogyan kell számolni, de a feladat jellegébõl következõen az osztályok számának, valamint a legelsõ osztály alsó határának megállapítását ennél rugalmasabban, a kényelmi szempontokat figyelembe véve lehet kezelni. A korábbi minta esetén c = 3. 3 ⋅ lg 25 + 1 = 6 , 82. 71 − 17. 89 ≈ 10. 81 = w , 6 h1 = 17.885(= 17.89 − 0.005) , h2 = 28.695 (= 17.885 + 10.81) ,
55
M h7 = 82.745 (= 17.885 + 6 ⋅10.81) . Kiszámított adataink alapján készítsük el ismét a gyakorisági eloszlás táblázatát (2.4.táblázat). Osztályhatárok
Osztályintervallumok
Gyakoriságok (f i )
17.885 - 28.695
17.89 - 28.69
7
28.695 - 39.505
28.70 - 39.50
6
39.505 - 50.315
39.51 - 50.31
8
50.315 - 61.125
50.32 - 61.12
3
61.125 - 71.935
61.13 - 71.93
0
71.935 - 82.745
71.94 - 82.74
1
2.4. táblázat
Mi az, amit még célszerû lenne egy bõvebb táblázatban feltüntetni? A most definiálandó fogalmak lehetõvé teszik bõvebb információ megszerzését a minta adataiból. Mivel a gyakorisági táblázatban a tényleges adatok nem szerepelnek, a mérések pontos értéke elveszett. A legjobb amit tehetünk, hogy azon adatokat, amelyek egy osztályban vannak, egy ún. osztályértékkel (m i ) reprezentáljuk. Az osztályérték egy adott osztályintervallum középpontja. Célszerû, ha a gyakoriságok mellett egy másik oszlopba beírjuk a relatív gyakoriságokat ( g i ) – amelyeket megkapunk, ha a gyakoriságokat elosztjuk a minta nagyságával (mérések számával) –, mert jól kifejezik, hogy az adatok hány százaléka esik az egyes osztályokba. Bevezetjük a kummulatív (halmozott) gyakoriság (cf i ) fogalmát , amely azon mérések számát jelenti, amelyek egy adott osztályba, vagy valamely nála kisebb osztályba esnek. Fordított kummulatív gyakoriságon ( rcf i ) azon adatok számát értjük, amelyek egy adott osztályba, vagy valamely nála nagyobb osztályba kerülnek. A relatív gyakoriság analógiájaként értelmezhetõ a kummulatív relatív gyakoriság (cg i ) és a fordított kummulatív relatív gyakoriság (rcgi ) is. Végezetül készítsük el a teljes táblázatot (2.5. táblázat)! hi , hi +1
mi
fi
g i (%)
cf i
cg i (%)
rcf i
rcg i (%)
17.885-28.695
23.29
7
28
7
28
25
100
28.695-39.505
34.10
6
24
13
52
18
72
39.505-50.315
44.91
8
32
21
84
12
48
50.315-61.125
55.72
3
12
24
96
4
16
61.125-71.935
66.53
0
0
24
96
1
4
71.935-82.745
77.34
1
4
25
100
1
4
2.5. táblázat
56 A gyakorisági táblázatból számított átlag ( x ′ ) és szórás (S ′ ) számolásánál úgy tekintjük, hogy egy adott osztályba esõ összes értéket az osztályérték képviseli. Számításuk gyorsabb lesz, mint x ill. S számítása, de a gyorsaság a pontosság rovására megy, azaz x ′ ill. S ′ csak közelíti x , ill. S értékét. c
x′=
c
1 ∑ f i ⋅ mi n i =1
,
S′ =
∑ f (m i =1
i
i
− x ′)
n −1
2
.
2.3.2. Grafikus lehetõségek (l) Gyakorisági hisztogram (relatív gyakorisági hisztogram): speciális oszlopdiagram, ahol a vízszintes tengelyrõl az osztályszélességnek megfelelõ szélességû oszlopok indulnak felfelé a függõleges tengelyen mért gyakoriságuk (relatív gyakoriságuk) értékének megfelelõ magasságba. Minden oszlopot az osztályértékkel tüntetünk fel (2.1. ábra). (2) Gyakorisági poligon (relatív gyakorisági poligon): a gyakorisági hisztogramon a szomszédos oszlopok tetejének középpontjait összekötjük, esetleg a két szélén kiegészítve egyegy 0 gyakoriságú virtuális oszloppal (2.1. ábra). Az 2.1. ábrán a korábbi példa gyakorisági hisztogramját és gyakorisági poligonját rajzoltuk meg. ( A gyakorisági poligon alatti terület megegyezik a téglalapok területeinek összegével, mivel minden osztály ugyanolyan széles.)
2.1. ábra. Gyakorisági hisztogram és poligon
(3) Kördiagram (relatív gyakoriságok ábrázolására): egy kört a relatív gyakoriságok arányában körcikkekre osztunk fel (2.2. ábra). Megjegyzés. Ha a mintában néhány szélsõségesen nagy vagy kicsi adat van, akkor a következõt tehetjük. A terjedelem, osztályszélesség, osztályhatárok kiszámításánál a szélsõséges adatokat figyelmen kívül hagyjuk. Ezután a legalsó intervallum alsó határának és a legfelsõ intervallum felsõ
57 határának elhagyásával nyitott osztályokat hozzunk létre, amelyekbe aztán a szélsõséges adataink is besorolhatók.
2.2. ábra. Kördiagram
58 3. Becsléselmélet
Tekintsük a következô feladatot! Tegyük fel, hogy egy erdôben a fák magasságát egy normális eloszlású valószínûségi változó írja le. Mennyi a valószínûsége annak, hogy egy tetszôlegesen kiválasztott fa magassága kisebb 10m -nél? Ezen feladat megoldása két probléma miatt is nehézségekbe ütközik. Az 1. probléma az, hogy már a feladat megfogalmazása sem egyértelmû, mert nem lehet a famagasságokat megadó valószínûségi változó normális eloszlású (azaz folytonos), mivel véges mennyiségû fa van az erdôben. A 2. probléma: ha mégis normális eloszlású lenne a fenti valószínûségi változó, akkor sem tudnánk megoldani a feladatot az eloszlás két paraméterének (várható érték, szórás) ismerete nélkül. Vizsgáljuk meg közelebbrôl a fenti két problémát! Az 1. probléma megértése és áthidalása érdekében vegyünk szemügyre egy konkrét példát. Egy 1000 fából álló erdôt vizsgálunk. Megmérjük a fák magasságát, majd a gyakoriságokat táblázatba foglaljuk a leíró statisztikában tanultak szerint. (Az osztályintervallumok alsó és felsô határát méterben adtuk meg.) osztályintervallumok
gyakoriság
< 9.70
23
9.71-9.80
47
9.81-9.90
92
9.91-10.00
151
10.01-10.10
197
10.11-10.20
190
10.21-10.30
146
10.31-10.40
88
10.41-10.50
44
10.51-10.60
16
10.61 <
6 3.1. táblázat
Ezután elkészítjük a relatív gyakoriság hisztogramját (3.1. ábra). (A vízszintes tengelyre a famagasságot mértük méterben, a függôlegesre pedig a relatív gyakoriságnak az osztályszélességgel osztott értékét 1/méter egységben. Ezzel elértük, hogy a hisztogram alatti terület egységnyi.) Az ábra jobb oldalán megrajzoltuk a relatív gyakorisági poligont, a bal oldalán pedig a µ = 10.1m és σ = 0. 2 m paraméterû normális eloszlás sûrûségfüggvényét. Azért ezen eloszlásét, mert úgy találtuk, hogy ez "illeszkedik" legjobban a gyakorisági poligonhoz. Így annak valószínûsége, hogy egy fa magassága egy adott intervallumba esik éppen az intervallum feletti terület nagysága lesz. Az ábrán látható az is, hogy egy adott intervallumon a relatív gyakorisági poligon és a normális eloszlás sûrûségfüggvényének grafikonja alatti terület közelítôleg megegyezik.
59
3.1. ábra
Vizsgáljuk meg, hogy hány fa magassága kisebb pl. 10.005m-nél a gyakorisági táblázat szerint és hánynak kell kisebbnek lennie a közelítô normális eloszlás szerint! A gyakorisági táblázatból kapunk. A normális eloszlásnál pedig 313-at 10 . 005 − 10 . 1 P z < = P( z < −0.475) = 0.3174 . Azaz a normális eloszlás szerint 10.005m-nél 0 . 2 alacsonyabbnak 317 fát várunk. Láthatjuk, hogy ez csak néggyel tér el a táblázatból számított eredménytôl. Más esetekben is hasonló mértékû az eltérés. Így nyilván nem követünk el "túl nagy" hibát, ha a famagasságok eloszlását a µ = 10.1m várható értékû és σ = 0. 2 m szórású
60 normális eloszlású valószínûségi változóval közelítjük. Bár ez csak közelítés, de több szempontból is elônyös. A normális eloszlás eloszlásfüggvényének értékei táblázatból kiolvashatók, így könnyen válaszolni tudunk a következô jellegû kérdésekre: Hány százaléka alacsonyabb 10m -nél a fáknak? Hány százaléka esik 10.1 m és 10. 3 m közé? Stb. A másik elôny, hogy a normális eloszlás megadásához elegendô a µ és σ paraméterek értékét meghatározni, amelyekre becslést adhatunk egy, az erdôbôl vett pl. 50 elemû minta segítségével. Így ahelyett, hogy az összes fa magasságát megmérnénk, 50 fa magasságának mérésével meghatározhatjuk a közelítô eloszlást. Annak vizsgálatáról, hogy ez mennyire "illeszkedik" az eredeti eloszláshoz az Illeszkedésvizsgálat címû részben fogunk szólni. Hasonló módon közelíthetünk t , χ 2 , F eloszlású valószínûségi változókkal diszkrét valószínûségi változókat. Eszerint sikerült áthidalni az 1. és 2. problémákat. Ha azt mondjuk, hogy egy erdô fáinak magasságát (vagy általában egy populációt) egy normális eloszlású valószínûségi változó ír le, akkor ezalatt azt értjük, hogy a fent leírt módon normális eloszlással közelíthetjük a famagasságok eloszlását. Az eloszlás paramétereit pedig egy mintából becsülhetjük meg. A továbbiakban tisztázni fogjuk a statisztikai minta és a statisztikai becslés fogalmakat. 3.1. A statisztikai minta Tegyük fel, hogy az η valószínûségi változó paramétereit szeretnénk megbecsülni. (Például normális eloszlásnál a várható értéket és a szórást, vagy binomiális eloszlásnál a valószínûséget, stb.) Ekkor η-ra vonatkozó kísérleteket kell végeznünk. Ezen kísérleteket írják le a független η1 , η2 ,..., ηn valószínûségi változók, amelyek eloszlása megegyezik η eloszlásával. A függetlenség biztosítható pl. visszatevéses mintavétellel, amannyiben erre mód van. Az η
valószínûségi változóra vonatkozó n elemû mintán a következô valószínûségi változókból álló vektort értjük: ( η1 , η2 ,..., ηn ). Egy konkrét esetben az η1 , η2 ,..., ηn valószínûségi változók által felvett értékekbôl álló vektort a statisztikai minta realizációjának hívjuk. Tehát ha ηi az x i értéket ( i = 1,..., n ) veszi fel, akkor a statisztikai minta realizációja az ( x1 , x2 ,..., xn ) vektor. Amennyiben ez félreértést nem okoz, ezt is hívhatjuk statisztikai mintának. Lássunk két példát. Adja meg az η valószínûségi változó egy adott fenyôerdôbôl kiválasztott fa mellmagassági átmérôjét. Ebben az esetben egy 5 elemû minta 5 darab fa mellmagassági átmérôjét tartalmazza, pl. (36, 32, 31, 37, 38). Az adatokat centiméterben mértük. (A mértékegységet is mindig meg kell adnunk, mert különben nem lesz egyértelmû a minta.) Adja meg az η valószínûségi változó valamely évben egy rögzített helyen a Duna vízállásának maximális értékét. Ekkor egy n elemû, az η valószínûségi változóra vonatkozó minta n darab vízállásmaximumot tartalmaz.
61 3.2. A statisztika, statisztikai becslés Az η valószínûségi változóra vonatkozó ( η1 , η2 ,..., ηn ) mintából képezhetünk egy új ξ n valószínûségi változót a következô módon: ξ n = f ( η1 , η2 ,..., ηn ) . Az f többváltozós függvényt statisztikai függvénynek hívjuk utalva arra, hogy változói valószínûségi változók. Az ilymódon a mintán értelmezett ξ n valószínûségi változót statisztikának nevezzük. (Az n index arra utal, hogy a minta n elemû. A továbbiakban a minta elemszámát csak akkor fogjuk feltüntetni, ha ennek elmulasztása félreértéshez vezetne.) Eszerint, ha a minta realizációja ( x1 ,K, xn ) , akkor a ξ n statisztika mintán felvett értéke f ( x1 , K , xn ) . Egy az η valószínûségi változót jellemzô paraméter (pl. normális eloszlásnál a várható érték és a szórás, binomiális eloszlásnál a valószínûség, stb.) becslése úgy történik, hogy azt valamely alkalmas módon megválasztott ξ n statisztikának az adott minta esetén felvett értékével becsüljük.
Mit várjunk el egy statisztikai becsléstôl? l. Kézenfekvô azt megkövetelni, hogy a ξ statisztika várható értéke legyen egyenlô a becsülendô paraméterrel, amit jelöljünk a -val. Ez a feltétel az E ( ξ ) = a egyenlôséget jelenti. Az ezzel a tulajdonsággal rendelkezô becsléseket torzítatlan becslésnek nevezzük. 2. Az is elvárható egy becsléstôl, hogy a minta elemszámát növelve az a paraméter a paraméterhez, azaz becsléseinek sorozata sztochasztikusan konvergáljon az lim P (ξ n − a > ε ) = 0 , ahol ε > 0 , tetszôleges valós szám. Tehát a becslés pontossága n értékének n →∞
növelésével javítható kell legyen. Az ezzel a tulajdonsággal rendelkezô becsléseket konzisztens becslésnek (konzisztens = erôs, tartalmas) nevezzük. 3. Legyen ϑ és ζ két torzítatlan becslést megvalósító statisztika. A ϑ statisztikát nagyobb hatásfokúnak hívjuk ζ -nál, ha σ 2ϑ ≤ σ ζ2 . Ha van olyan ξ statisztika, amely torzítatlan becslést ad egy paraméterre, valamint minden más ξ ' torzítatlan becslést adó statisztikára σ 2ξ ≤ σ 2ξ' , akkor a ξ statisztikával történô becslést efficiens (= hatékony) becslésnek hívjuk. Egy paraméter becslése esetén célszerû megkövetelni, hogy a becslés torzítatlan, konzisztens és minél nagyobb hatásfokú legyen. A következô fejezetben részletesen foglalkozunk ezen tulajdonságokkal. 3.3. Nevezetes statisztikák Most megvizsgálunk néhány statisztikát, melyek a gyakorlati alkalmazás szempontjából fontos szerepet játszanak. Mindegyik értelmezési tartománya egy η valószínûségi változóra vett n ( n rögzített természetes szám) elemû minták halmaza. A mintaközép egy mintához a benne szereplô számok átlagát, a korrigált tapasztalati szórásnégyzet a korrigált szórásnégyzetét, és a relatív gyakoriság valószínûségi változó egy a mintához kapcsolódó A esemény mintabeli relatív gyakoriságát rendeli hozzá. A továbbiakban pontosan definiáljuk ezen valószínûségi változókat és megvizsgáljuk azokat a tulajdonságaikat, melyek becslésre alkalmassá teszik ôket.
62 DEFINÍCIÓ. Az η valószínûségi változóra vonatkozó ( η1 , η2 ,..., ηn ) statisztikai mintából számított η +... + ηn η= 1 n statisztikát mintaközépnek nevezzük. 3.1. TÉTEL. A mintaközép torzítatlan becslése η várható értékének. BIZONYÍTÁS. Legyen a mintaelemszám n. Igazolnunk kell, hogy E ( η) = E ( η) . Alkalmazva a várható értékre vonatkozó állításokat, a következô módon számolhatunk: 1 η + ... + η n 1 E (η ) = E 1 = [E (η1 ) + ... + E (η n )] = E (η ) ⋅ n = E (η ) . n n n Itt felhasználtuk, hogy η eloszlása megegyezik ηi eloszlásával ( i = 1,..., n ) . 3.2. TÉTEL. Legyen η tetszôleges valószínûségi változó, amelyre n elemû mintát veszünk. Ekkor a mintaközép szórása σ ση = η . n BIZONYÍTÁS. A szórásnégyzetre vonatkozó állításokat felhasználva, a következô módon számolhatunk: D 2 (η ) ⋅ n D 2 (η ) η + ...η n 1 2 2 . D 2 (η ) = D 2 1 = = 2 D (η1 ) + ... + D (η n ) = n n n2 n σ Ebbôl σ η = η gyökvonással adódik. n
[
]
Megjegyzések. 1. Vegyük észre, hogy a minta elemszámának növelésével a mintaközép szórása nullához tart. 2. Az η statisztika egy adott mintához a minta átlagát ( x ) rendeli. 3. Az η valószínûségi változó várható értékének becslésére használhatnánk a minta mediánját is. Legyen mˆ az a statisztika, amely egy mintához a minta mediánját rendeli. Ekkor igazolható, hogy a D 2 (mˆ ) ≥ D 2 (η ) egyenlôtlenség teljesül, azaz az η statisztika hatékonyabb az mˆ statisztikánál. Emiatt az η valószínûségi változó várható értékének becslésére (e jegyzetben mindig) az η statisztikát használjuk. 4. Megmutatható, hogy az η statisztika bizonyos feltételek mellett konzisztens becslése az η valószínûségi változó várható értékének.
63 Most tegyük fel, hogy a mintát visszatevés nélkül vettük. (Az eddigiekben visszatevéses mintavétel volt.) Azt a valószínûségi változót, amely egy mintához az átlagot rendeli jelölje ηvn . (A vn index arra utal, hogy a mintát visszatevés nélkül vettük.) Bizonyítható, hogy Ε(η vn ) = Ε(η )
D 2 (η ) N − n , ahol n , N rendre a minta és a populáció elemszámát jelenti. Azt ⋅ n N −1 mondhatjuk, hogy az N > 20n feltétel teljesülése esetén a mintaközép szórása már gyakorlatilag nem függ attól, hogy visszatevéssel, vagy anélkül vettük a mintát. és D 2 (η vn ) =
DEFINÍCIÓ. Az η valószínûségi változóra vonatkozó ( η1 , η2 ,..., ηn ) statisztikai mintából számított n
Sˆ 2 =
∑ (η i =1
i
−η )
2
n −1
statisztikát korrigált tapasztalati szórásnégyzetnek hívjuk. 3.3. TÉTEL. A korrigált tapasztalati szórásnégyzet torzítatlan becslése az η valószínûségi változó szórásnégyzetének.
( )
BIZONYÍTÁS. Legyen a mintaelemszám n. Azt kell igazolnunk, hogy E Sˆ 2 = σ η2 . A várható értékre vonatkozó állításokat és az elôzô tételt felhasználva a következô módon számolhatunk: n 2 ∑ (η i − η ) n = 1 ⋅ E ((η − E (η )) − (η − E (η )))2 = E ( Sˆ 2 ) = E i =1 i n −1 ∑ n −1 i =1 n 1 2 2 = ⋅ E ∑ (η i − E (η )) − 2(η i − E (η ))(η − E (η )) + (η − E (η )) = n − 1 i =1
(
=
(
)
)
(
1 n n n ∑ E (η i − E (η ))2 − 2 E ∑ (η i − E (η ))(η − E (η )) + ∑ E (η − E (η ))2 n − 1 i =1 i =1 i =1 =
(
1 2 n n (η − E (η )) ∑ (η i − E (η )) + ∑ E (η − E (η ))2 n σ − 2 E η n − 1 i =1 i =1
) =
1 2 2 = nσ η − 2 E ((η − E (η ))(η n − E (η )n )) + ∑ E (η − E (η )) = n −1 i =1 1 2 2 = nσ η2 − 2nE (η − E (η )) + nE (η − E (η )) = n −1 1 1 2 = nσ η2 − nE (η − E (η )) = nσ η2 − nσ η2 = n −1 n −1 n
( (
(
(
)
))
(
(
)
))
(
)
) =
64 =
2 1 2 nσ η 1 nσ η − = (n − 1)σ η2 = σ η2 n −1 n n −1
(
)
( )
Tehát E Sˆ 2 = σ η2 . Így a becslés valóban torzítatlan. Megjegyzések. 1. Az Sˆ 2 statisztika egy adott mintához a minta korrigált szórásnégyzetét ( S 2 ) rendeli. 2. A 2.2. pontban említettük, hogy statisztikai szempontból a korrigált szórásnégyzet fontosabb szerepet játszik a szórásnégyzetnél. Most már láthatjuk, hogy miért. A korrigált empirikus szórásnégyzet statisztika torzítatlan becslése az η valószínûségi változó szórásnégyzetének, míg a n
∑ (η i =1
−η )
2
i
n módon definiált empirikus szórásnégyzet statisztika nem. Ugyanis n 2 ∑ (η i − η ) = n − 1σ 2 ≠ σ 2 . E i =1 η η n n 3. Megmutatható, hogy bizonyos feltételek mellett a korrigált empirikus szórásnégyzet konzisztens becslése az η valószínûségi változó szórásnégyzetének. DEFINÍCIÓ. Egy A esemény ( p = P ( A) ) η indikátorváltozójára vett n elemû mintából képezett η +... + ηn p$ = 1 n statisztikát relatív gyakoriságnak hívjuk. 3.4. TÉTEL. A relatív gyakoriság torzítatlan becslése az A esemény valószínûségének. BIZONYÍTÁS. Vegyük észre, hogy a relatív gyakoriság a mintaközép speciális esete az η indikátorváltozóra. Használjuk fel, hogy az indikátorváltozó várható értéke megegyezik az esemény valószínûségével.
E ( pˆ ) = E (η ) = E (η ) = p . Tehát E ( pˆ ) = p , ami a becslés torzítatlanságát jelenti.
65
3.5. TÉTEL. A pˆ valószínûségi változó szórásnégyzete
σ p2ˆ =
p ⋅ (1 − p ) . n
BIZONYÍTÁS. Az indikátorváltozó szórásnégyzete p (1− p ) . Eszerint
σ = ση = 2 pˆ
2
σ η2 n
=
p (1 − p ) . n
Ezt akartuk bizonyítani. Megjegyzések. 1. A pˆ statisztika egy adott mintához az A esemény mintabeli relatív gyakoriságát ( g A ) rendeli. 2. Megmutatható, hogy a relatív gyakoriság konzisztens becslése a valószínûségnek, és hogy a torzítatlan becslések közül a relatív gyakoriságnak a legkisebb a szórása (efficiens becslés). Az 1.2. pontban a relatív gyakoriság segítségével vezettük be a valószínûség fogalmát. Most láthatjuk, hogy a relatív gyakoriság értékek valóban az esemény valószínûsége körül ingadoznak. Az elôbbiek miatt egy η valószínûségi változó E ( η) várható értékét az η, σ2η szórásnégyzetét pedig az Sˆ 2 statisztikával becsüljük. Egy A esemény valószínûségének becslésére pedig a pˆ statisztika használható. A figyelmes olvasó bizonyára észrevette, hogy mindhárom nevezetes statisztika ( η , Sˆ 2 , pˆ ) esetén kiszámítottuk a várható értéküket (ezzel mutattuk meg, hogy torzítatlanul becsülhetünk velük), míg szórásnégyzetüket csak két esetben ( η , pˆ ) határoztuk meg. Az Sˆ 2 valószínûségi változó szórásnégyzetének kiszámítása jó gyakorló feladat, ám a továbbiakhoz szükségtelen. Mint látni fogjuk, az η , Sˆ 2 , pˆ valószínûségi változók eloszlását transzformálni kell, hogy könnyen kezeljük ôket. Sˆ 2 eloszlása alapvetôen más, mint a másik kettôé így transzformálása is teljesen más lesz, ahhoz nincs szükség Sˆ 2 szórásnégyzetére.
66
3.2. ábra. A következtetéses statisztika modellje
Az eddigieket összefoglalva elmondhatjuk a következôket. Tegyük fel, hogy egy adott populációval kapcsolatos kérdésre szeretnénk válaszolni, de se idônk, se energiánk, se pénzünk nem teszi lehetôvé, hogy annak minden elemét megmérjük. A populációt egy Ψ valószínûségi változó írja le, amely az esetek többségében diszkrét eloszlású. Legyen A egy a populációval kapcsolatos p valószínûségû esemény. Ha Ψ várható értékét, szórását, vagy a p valószínûséget szeretnénk meghatározni, akkor veszünk egy mintát a populációból, kiszámítjuk a megfelelô nevezetes statisztika mintán felvett értékét x , S 2 , g A és azzal becsüljük a paramétereket.
(
)
Amennyiben valószínûségi kérdésekre szeretnénk válaszolni (pl. mekkora a valószínûsége annak, hogy egy fa magassága kisebb 10m-nél?), akkor a nevezetes statisztikák értékét a Ψ valószínûségi változót közelítô η valószínûségi változó paramétereinek meghatározására használjuk. Ezután az η valószínûségi változó sûrûségfüggvényének segítségével válaszoljuk meg a kérdéseket (lásd 3.2. ábra). A nevezetes statisztikák és a rájuk vonatkozó tételek alaposabb megértése érdekében tekintsük a következô feladatot. Tegyük fel, hogy egy "erdôben" 4 fa van, melyek magasságai a következôk: 10. 2, 10. 4, 10. 6, 10. 8 (méterben). Legyen Ψ az a valószínûségi változó, amely egy véletlenszerûen kiválasztott fához a magasságát rendeli hozzá. Számítsuk ki Ψ várható értékét és szórásnégyzetét! Elôször Ψ eloszlását határozzuk meg. A Ψ valószínûségi változó a 10. 2, 10. 4, 10. 6, 10. 8 értékeket veszi fel, mindegyiket 0. 25 valószínûséggel. Azaz az eloszlása a következô: 10.2 10.4 10.6 10.8 1 1 1 . Ψ 1 4 4 4 4
67 Ebbôl a várható érték és a szórásnégyzet a valószínûségszámításban tanultak szerint könnyen meghatározható. E (Ψ ) =
1 1 1 1 ⋅10.2 + ⋅10.4 + ⋅10.6 + ⋅10.8 = 10.5 , 4 4 4 4 1 1 1 1 D 2 (Ψ ) = E Ψ 2 − E 2 (Ψ ) = 10.2 2 + 10.4 2 + 10.6 2 + 10.8 2 − 10.5 2 = 0.05 . 4 4 4 4
( )
Számítsuk ki, hogy hány kettô elemû minta vehetô ebbôl az "erdôbôl"! Mivel 4 db fa van és kettôt kell kiválasztanunk, ezért 4 2 = 16 mintánk lehet. (Ahogy már említettük a mintaelemek akkor lesznek függetlenek egymástól, ha visszatevéses mintavételt használunk. Emiatt alkalmaztunk ismétléses variációt.)
3.3.a ábra. A Ψv leképezés szemléltetése (visszatevéses eset)
68 Most határozzuk meg Ψv eloszlását! Ehhez ismernünk kell, hogy mekkora értékeket vesz fel Ψv , és azt, hogy egy adott értéket hány mintához rendel hozzá. A 3.3.a ábrán feltüntettük a lehetséges kételemû mintákat és a Ψv valószínûségi változó által a mintákhoz rendelt értékeket. ( Ψv minden mintához a benne szereplô számok számtani közepét rendeli hozzá.) Most már meghatározható Ψv eloszlása: 10.2 10.3 10.4 10.5 10.6 10.7 10.8 2 3 4 3 2 1 . Ψv 1 16 16 16 16 16 16 16 Ebbôl pedig Ψv várható értékére és szórásnégyzetére az E (Ψv ) = 10.5 és D 2 (Ψv ) = 0.025 értékeket kapjuk. Vegyük észre, hogy Ψv várható értéke megegyezik Ψ várható értékével, de a szórásuk nem egyenlô. A szórásnégyzeteik között a már bizonyított σ 2Ψv = σ2Ψ / n összefüggés áll fenn ( n = 2 a mintaelemek száma). Valóban, 0. 025 = 0. 05 / 2 . Most röviden vizsgáljuk meg, hogy milyen változást eredményez, ha visszatevés nélkül 4 vesszük a mintát! Ekkor = 6 különbözô mintánk lehet. A hozzárendelést a következô ábra 2 szemlélteti (3.3.b ábra).
3.3.b ábra. A Ψvn leképezés szemléltetése (visszatevés nélküli eset)
Ebbôl Ψvn eloszlása:
69 10.3 10.4 10.5 10.6 10.7 1 2 1 1 . Ψvn 1 6 6 6 6 6
Így a várható értékre és a szórásnégyzetre az E (Ψvn ) = 10.5 és D 2 (Ψvn ) =
1 értékeket kapjuk. 60 Azt vesszük észre, hogy Ψv és Ψvn várható értéke megegyezik, nem függ attól, hogy milyen módon vettük a mintát. D 2 (Ψv ) és D 2 (Ψvn ) nem egyezik meg. D 2 (Ψvn ) =
D 2 (Ψ ) 2 D 2 (Ψ ) , ⋅ = 2 3 3
ami megfelel a korábban említett összefüggésnek N = 4 és n = 2 esetén.
3.4. ábra. Az
Sˆ 2 leképezés szemléltetése
70 Határozzuk meg Sˆ 2 eloszlását és várható értékét! A 3.4. ábra az Sˆ 2 valószínûségi változó által a mintákhoz rendelt értékeket tünteti fel. ( Sˆ 2 minden mintához a benne szereplô számok korrigált szórásnégyzetét rendeli hozzá.) Ebbôl meghatározható Sˆ 2 eloszlása: 0 0.02 0.08 0.18 6 4 2 . Sˆ 2 2 16 16 16 16
( )
Innét a várható értékre E Sˆ 2 = 0.05 értéket kapunk, ami megegyezik Ψ szórásnégyzetével.
3.5. ábra. A pˆ leképezés szemléltetése
Végül legyen A az az esemény, hogy egy az "erdôbôl" véletlenszerûen kiválasztott fa magassága kisebb 10. 3m-nél. Ennek valószínûsége P( A) = 0.25 . Határozzuk meg pˆ eloszlását,
71 várható értékét és szórásnégyzetét! A 3.5. ábra szemlélteti a pˆ valószínûségi változó által felvett értékeket. ( pˆ minden mintához az A esemény mintára vonatkozó relatív gyakoriságát rendeli.) Ezt ismerve pˆ eloszlása meghatározható: 0 0.5 1 1 . pˆ 10 5 16 16 16 Ebbôl pedig pˆ várható értékére és szórásnégyzetére az E ( pˆ ) = 0.25 és D 2 ( pˆ ) = 0.9375 értékeket kapjuk. Megállapíthatjuk, hogy pˆ várható értéke megegyezik az A esemény 0. 25 ⋅ 0. 75 valószínûségével, szórásnégyzete pedig valóban a várt = 0. 9375 érték. 2 A bemutatott feladat – bár a gyakorlattól messze áll – jól szemlélteti a nevezetes statisztikák hozzárendelési szabályát és az igazolt tételeket. Külön felhívjuk a figyelmet arra, hogy η ,Sˆ 2 , pˆ valószínûségi változót jelent és így nem szabad összetéveszteni ôket az általuk felvett értékekkel ( x , S 2 , g A ) . Hasonlóan nem tévesztendô össze az η valószínûségi változó az η valószínûségi változóval. η értelmezési tartománya a populáció, az η valószínûségi változónak pedig az n elemû minták halmaza.
3.4. Statisztikák eloszlása
Ebben a fejezetben megadjuk a mintaközép, a korrigált tapasztalati szórásnégyzet és a relatív gyakoriság ( η , Sˆ 2 és pˆ ) statisztikák és néhány más fontos statisztika eloszlását. A célunk az, hogy az egyes statisztikákat valamilyen transzformációval olyan valószínûségi változóvá
(
)
alakítsuk, melynek eloszlása valamely ismert nevezetes eloszlással z , t , χ 2 , F egyezik meg. Így eloszlásfüggvényeik értékei táblázatból kiolvashatók. Ha most emlékezetünkbe idézzük a centrális határeloszlás tételét, akkor máris meg tudjuk mondani néhány statisztika közelítô eloszlását. Elég nagy n értékek esetén normális eloszlással közelíthetô a mintaközép és a relatív gyakoriság statisztikák eloszlása, hiszen mindkettô egymástól független, azonos eloszlású valószínûségi változók összegeként áll elô. Általában azzal a közelítéssel élünk, hogy ha a minta elemszáma 30 -nál nagyobb, akkor már normálisnak tekinthetjük az eloszlást. Az 1.6. fejezetben felsoroltuk a fontosabb folytonos eloszlású valószínûségi változókat. Láttuk, hogy az eloszlásukat az eloszlás típusa ( z, t, χ 2 , F ) mellett az úgynevezett szabadságfok is befolyásolja, a standard normális eloszlás kivételével. Eszerint nem elég egy statisztika eloszlásának csak a típusát meghatározni, hanem meg kell adni a szabadságfokát is. A szabadságfok mindig egy pozitív egész szám, jelölésére a görög ν betût használjuk. Most meg fogjuk vizsgálni egy feladat kapcsán a mintaközép és a korrigált tapasztalati szórásnégyzet statisztikák eloszlását. Képzeljünk el egy 25 fából álló "erdôt", melynek famagasságai méterben – amit a Ψ valószínûségi változó ad meg – a következôk: 4.3, 4.1, 4.3, 4.0, 4.6, 4.2, 3.6, 4.5, 3.9, 3.6, 3.2, 3.2, 3.4, 5.2, 4.0, 2.6, 4.2, 3.0, 3.2, 4.4, 3.8, 4.5, 4.4, 3.9, 3.9.
72 (Ezen populáció átlaga és korrigált szórásnégyzete µ Ψ = 3. 92 m ill. σ 2Ψ = 0. 3344m2 .) Vegyünk az erdôbôl 5 elemû mintákat, ez összesen 255 = 9765625 lehetséges mintát jelent. Minden minta esetén számítsuk ki az átlagot, és az így nyert értékeket soroljuk be 17 osztályba. A következôket kapjuk: osztályintervallum < 2.76 2.76-2.91 2.92-3.06 3.07-3.21 3.22-3.36 3.37-3.52 3.53-3.67 3.68-3.82 3.83-3.98
gyakoriság 21 430 4926 33213 151030 399386 1049762 1852691 2052118
osztályintervallum 3.99-4.13 4.14-4.28 4.29-4.44 4.45-4.59 4.60-4.74 4.75-4.89 4.90-5.5 5.5 <
gyakoriság 2159373 1356482 505599 168367 28901 2995 315 16
3.2. táblázat
Készítsük el a relatív gyakoriság hisztogramját! Rajzoljuk be a relatív gyakorisági poligont is (lásd 3.6. ábra)! Az ábrából azt sejthetjük, hogy a Ψ mintaközép eloszlása normális. A 3.3. szakasz elsô és második tételébôl következik, hogy a közelítô normális eloszlásnak a σ µ Ψ = µ Ψ = 3. 92m és σ Ψ = Ψ = 0. 258m paraméterû normális eloszlást célszerû választani. Az 5 ábrán ezen eloszlás sûrûségfüggvényét is megrajzoltuk.
3.6. ábra
Most az elôzô számolást úgy módosítjuk, hogy minden mintánál az átlag helyett a korrigált szórásnégyzetet számítjuk ki, és ezen adatokat soroljuk be 17 osztályba. Az osztályintervallumok határainak megadásánál eltérünk a korábban ismertetett módszertôl. Ez abban nyilvánul meg,
73 hogy két szomszédos osztályintervallumnak lesz egy közös pontja. Ennek oka az, hogy az 5 elemû minták korrigált szórásnégyzete olyan racionális szám is lehet, amely nem véges tizedestört. Az osztályba sorolás egyértelmûsége miatt a két osztályintervallum határára esô elemeket az alacsonyabb osztályba soroljuk. Ekkor a következôket kapjuk: osztályintervallum
gyakoriság
osztályintervallum
gyakoriság
0-0.10 0.10-0.19 0.19-0.29 0.29-0.39 0.39-0.48 0.48-0.58 0.58-0.67 0.67-0.76 0.76-0.86
1670105 2203190 2283320 1283570 1033920 633230 257130 195540 101270
0.86-0.95 0.95-1.05 1.05-1.14 1.14-1.24 1.24-1.34 1.34-1.43 1.43-1.53 1.53 <
47540 14240 9150 2360 330 680 30 20
3.3. táblázat
Ebbôl elkészítjük ismét a hisztogramot és megrajzoljuk a poligont (3.7. ábra). Ez az eloszlás a χ 24 valószínûségi változó valamely transzformáltjának eloszlásával közelíthetô. Hasonló számolásokat végezve megvizsgálhatjuk két mintaközép különbségének, két korrigált empirikus szórásnégyzet hányadosának, a relatív gyakoriságnak és két relatív gyakoriság különbségének eloszlását is. Most megadjuk ezen statisztikák eloszlását. A szereplô állításokat nem bizonyítjuk, de néhány esetben utalunk a bizonyítás módjára.
3.7. ábra
3.4.1. A mintaközép eloszlása a) Amennyiben egy η valószínûségi változó σ szórását, µ várható értékét ismerjük, és az η valószínûségi változóra n ≥ 30 elemû mintákat veszünk, akkor az η valószínûségi változó σ normális eloszlású E ( η) = µ várható értékkel és σ η = szórással. Azaz az n
74 η−µ σ n
valószínûségi változó standard normális ( z ) eloszlású. Ez abból következik, hogy a mintaközép azonos eloszlású, független valószínûségi változók összege, és így eloszlása a fenti paraméterû normális eloszláshoz tart, ha a mintaelemszám tart a végtelenhez. (Centrális határeloszlás tétele.) Ha a mintaelemszám 30-nál nem kisebb, akkor η eloszlása már elég jól megközelíti a határértékben adódó normális eloszlást. b) Ha az η valószínûségi változó σ szórását nem ismerjük, akkor azt becsülhetjük egy mintából a korrigált szórásnégyzet segítségével. Legyen a becslés S . Ekkor az η−µ S n valószínûségi változó n − 1 szabadságfokú t eloszlású. Tehát ha a valódi σ szórást a becsült S korrigált szórással helyettesítjük, akkor η "standardizáltjának" eloszlása már nem normális, hanem t eloszlás lesz. Nem követünk el nagy hibát akkor sem, ha n ≥ 30 esetén az eloszlást standard normális eloszlással közelítjük. 3.4.2. Két minta mintaközép különbségének eloszlása Adott az η1 és η2 valószínûségi változó. Tegyük fel, hogy ismerjük az E (η1 ) = µ1 , E (η 2 ) = µ 2 , D 2 ( η1 ) = σ12 és D 2 ( η2 ) = σ 22 értékeket. Az η1 valószínûségi változóra vegyünk n1 , az η2 valószínûségi változóra pedig n 2 elemû mintákat. Tekintsük az η1 − η2 valószínûségi változót, melynek értelmezési tartománya az elsô valószínûségi változóra vett n1 ill. a másodikra vett n 2 elemû minták halmazának Descartes-szorzata. Az η1 − η2 valószínûségi változó az értelmezési tartomány egy eleméhez a minták átlagainak különbségét rendeli hozzá. Eloszlása σ12 σ 22 n1 ≥ 30 és n2 ≥ 30 esetén jó közelítéssel normális µ1 − µ 2 várható értékkel és σ η1 − η2 = + n1 n2 η − η − ( µ1 − µ 2 ) szórással, azaz az 1 2 valószínûségi változó standard normális ( z ) eloszlású.
σ η −η 1
2
Amennyiben az η1 és η2 valószínûségi változók szórását nem ismerjük, akkor ezeket – a két valószínûségi változóra egy-egy mintát véve – a korrigált szórással becsüljük. Legyenek ezen becslések S1 és S2 . Ebben az esetben a következô két esetet különböztetjük meg. a) Ha n1 ≥ 30 és n2 ≥ 30 , akkor az η1 − η 2 − (µ1 − µ 2 )
S12 S 22 + n1 n2 valószínûségi változó standard normális ( z ) eloszlású.
75 b) Ha n1 < 30 vagy n2 < 30 , akkor is két esetet különböztetünk meg. – Ha σ12 = σ 22 feltehetô, akkor az η1 − η 2 − (µ1 − µ 2 ) 1 1 + Sp n1 n2 valószínûségi változó t eloszlású ν = n1 + n 2 − 2 szabadságfokkal. Az S p értéket súlyozott vagy összevont szórásnak hívjuk. Kiszámítása az Sp =
képlettel történik. – Ha σ12 ≠ σ 22 , akkor az
(n1 − 1)S12 + (n2 − 1)S 22 n1 + n2 − 2
η1 − η 2 − (µ1 − µ 2 ) S12 S 22 + n1 n2
valószínûségi változó t eloszlású, melynek ν szabadságfoka a következô kifejezés egészre kerekített értéke: 2
S12 S 22 + n1 n2 . ν≈ 2 2 S12 S 22 n1 + n2 n1 − 1 n2 − 1 Megjegyzés. Annak eldöntésére, hogy feltehetjük-e a szórásnégyzetek egyenlôségét, lásd a Hipotézisvizsgálat címû fejezetet.
3.4.3. A relatív gyakoriság eloszlása Legyen A egy adott η valószínûségi változóval kapcsolatos P ( A) = p valószínûségû esemény. Vegyünk az η valószínûségi változóra n ≥ 30 elemû mintákat. Tekintsük az n elemû mintákban az A esemény relatív gyakoriságát megadó pˆ valószínûségi változót. A pˆ − p p ⋅ (1 − p ) n
76 valószínûségi változó standard normális (z) eloszlású. Azaz pˆ normális eloszlású p várható p(1− p ) szórással. Ez ismét a centrális határeloszlás tételének következménye, n hiszen a pˆ valószínûségi változó azonos eloszlású, független valószínûségi változók összege.
értékkel és
3.4.4. Két minta relatív gyakoriságai különbségének eloszlása Legyen η1 és η2 két adott valószínûségi változó. Az elsôvel kapcsolatos A1 esemény valószínûsége legyen p1, a másikkal kapcsolatos A2 eseményé p2 . Az η1 valószínûségi változóra vegyünk n1 ≥ 30 , az η2 valószínûségi változóra pedig n2 ≥ 30 elemû mintákat. Tekintsük a pˆ 1 − pˆ 2 valószínûségi változót, melynek értelmezési tartománya az elsô valószínûségi változóra vett n1 ill. a másodikra vett n2 elemû minták halmazának Descartes-szorzata. A pˆ 1 − pˆ 2 valószínûségi változó az értelmezési tartomány egy eleméhez az A1 esemény elsô mintabeli és az A2 esemény második mintabeli relatív gyakoriságának különbségét rendeli hozzá. A pˆ 1 − pˆ 2 valószínûségi változó normális eloszlású p1 − p 2 várható értékkel és
σ pˆ − pˆ = 1
szórással, azaz a
2
p1 (1 − p1 ) p 2 (1 − p 2 ) + n1 n2
pˆ 1 − pˆ 2 − ( p1 − p 2 )
σ pˆ − pˆ 1
2
valószínûségi változó standard normális eloszlású. Általában a p1 és p2 valószínûségeket nem ismerjük, ezért a σ p$1 − p$2 szórást az S pˆ1 − pˆ 2 =
(
g A1 1 − g A1 n1
) + g (1 − g ) A2
A2
n2
formulákkal közelítjük, ahol gc =
vagy
1 1 S pˆ1 − pˆ 2 = g c (1 − g c ) + n1 n2
g A1 n1 + g A2 n2
és g A1 ill. g A2 az A1 ill. A2 események mintából n1 + n2 számított relatív gyakorisága. Ez utóbbi közelítést akkor alkalmazzuk, ha g A1 és g A2 eltérése "elég nagy". 3.4.5. A korrigált tapasztalati szórásnégyzet eloszlása Adott egy η normális eloszlású valószínûségi változó, melynek szórása σ. Vegyünk az η valószínûségi változóra n elemû mintákat. Az egy mintához a minta korrigált szórásnégyzetét rendelô valószínûségi változót Sˆ 2 jelöli. Ekkor az
(n − 1) ⋅ Sˆ 2 σ2
valószínûségi változó n − 1 szabadságfokú χ 2 eloszlású .
77 3.4.6. Két minta korrigált tapasztalati szórásnégyzetei hányadosának eloszlása Adott az η1 és η2 normális eloszlású valószínûségi változó. Tegyük fel, hogy ismerjük mindkét valószínûségi változó szórásnégyzetét: σ12 és σ 22 . Az elsô valószínûségi változóra Sˆ 2 vegyünk n1 , a másodikra n2 elemû mintákat. Tekintsük az 12 valószínûségi változót, melynek Sˆ 2 értelmezési tartománya az elsô valószínûségi változóra vett n1 ill. a másodikra vett n2 elemû Sˆ 2 minták halmazának Descartes-szorzata. Az 12 valószínûségi változó az értelmezési tartomány Sˆ 2 egy eleméhez az Sˆ 2 elsô és az Sˆ 2 második mintán felvett értékének hányadosát rendeli hozzá. 1
Ekkor az
2
Sˆ12 σ 22 ⋅ 2 valószínûségi változó ( n1 -1, n 2 -1) szabadságfokú F eloszlású. Sˆ 2 σ 1 2
Az utóbbi statisztikák kissé önkényesnek tünhetnek, de majd a Hipotézisvizsgálat címû fejezetben láthatjuk hasznukat. Megjegyzés. Itt az F eloszláshoz tartozó táblázat használatát szeretnénk megkönnyíteni. Mint ismert, a ν1 és ν 2 szabadságfokú F eloszlású valószínûségi változó jelölésére az F(ν 1 ,ν 2 ) jelölést használjuk. Vezessük be tetszôleges α ∈ 0,1 mellett a következô jelölést. F(ν 1 ,ν 2 ),α jelentse azt a
(
)
valós számot, melyre P F(ν1 ,ν 2 ) > F(ν1 ,ν 2 ),α = α . Tehát F(ν1 ,ν 2 ),α azt a számot jelenti, melynél nagyobb értéket az F(ν 1 ,ν 2 ) valószínûségi változó α valószínûséggel vesz fel (lásd 3.8. ábra).
3.8. ábra
Az F eloszlás táblázata csak kis (0 és 0. 5 közötti) α értékekre adja meg F(ν1 ,ν 2 ),α értékét. Emiatt szükségünk lehet az
78 F( ν1 , ν2 ), α =
1 F( ν2 ,ν1 ), 1−α
összefüggésre, mellyel 0. 5 és 1 közötti α értékekhez tartozó F(ν1 ,ν 2 ),α is meghatározható. 3.4.7. Feladatok 1. Egy famagasságokat megadó η valószínûségi változó várható értéke µ=16m. Mekkora a valószínûsége, hogy egy véletlenszerûen kiválasztott 25 elemû minta mintaközepe kisebb 15mnél, ha a valószínûségi változó szórása nem ismert, de egy mintából becsült értéke S = 2. 8m .
Megoldás. A korábbiak szerint (3.4.1.) ha a szórást becsültük és a mintanagyság kisebb 30v nál, akkor η eloszlása n − 1 szabadságfokú t eloszlású. A t eloszlás táblázatát felhasználva a következô módon számolhatunk. 15 − 16 = P(t < −1.79) ≈ 0.05. P(η < 15) = P t 24 < 24 2.8 25 2. Egy η valószínûségi változó σ 2 = 80 szórásnégyzetû normális eloszlású. 25 elemû minta esetén mekkora annak valószínûsége, hogy a minta korrigált szórásnégyzete nagyobb, mint száz? Megoldás. A korrigált tapasztalati szórásnégyzet eloszlásáról mondottak szerint (3.4.5.) a következô egyenlôségek igazak: 2 24 ⋅100 2 P( Sˆ 2 > 100) = P χ 24 > = 1 − P ( χ 24 < 30) ≈ 0.25. 80 3. Erdôsítésnél a bükk csemeték 80% -a, a gyertyánoknak pedig 86% -a marad meg. Tegyük fel, hogy véletlenszerû kiválasztással 50 bükk és 50 gyertyán csemetét figyelünk meg. a) Mekkora a valószínûsége annak, hogy az 50 bükk csemete közül több mint 45 marad meg? b) Mi a valószínûsége annak, hogy több bükk csemete marad meg, mint gyertyán? Megoldás. a) Annak valószínûsége, hogy egy bükk csemete megmarad 0. 8 . A relatív gyakoriság eloszlására a 3.4.3. pontban megadott formula szerint 45 0.9 − 0.8 számolva: P( pˆ > ) = P( pˆ > 0.9) = P z > = 1 − P ( z < 1.7677) ≈ 1 − 0.9616 = 0.0384. 50 0.8 ⋅ 0.2 50 Tehát jó közelítéssel igaz az, hogy 100 esetben négyszer marad meg 50 elültetett bükk csemetébôl több, mint 45 .
79 b) Itt nyilván annak a valószínûségét kell megkeresni, hogy a bükk csemeték megmaradásának relatív gyakorisága nagyobb a gyertyán csemeték megmaradásának relatív gyakoriságánál, azaz különbségük nagyobb nullánál. A 3.4.4. pont szerint 0 − (−0.06) = 1 − P( z < 0.8012) ≈ 1 − 0.7881 = 0.2119 . P ( pˆ B − pˆ E > 0) = P z > 0.8 ⋅ 0.2 0.86 ⋅ 0.14 + 50 50 Tehát 0.21 annak valószínûsége, hogy több bükk csemete marad, mint gyertyán. 4. Két erdô fáinak mellmagassági átmérôit írják le az η és ξ normális eloszlású valószínûségi változók. σ η = 4 cm, σξ = 3cm. Az elsô erdôbôl 25, a másodikból 20 elemû mintát veszünk. Számítsuk ki annak a valószínûségét, hogy a két minta korrigált szórásnégyzetének hányadosa nagyobb 3-nál! Megoldás. A 3.4.6. pontban szereplô eloszlást felhasználva Sˆη2 9 P 2 > 3 = P( F( 24,19) > 3 ⋅ ) = P( F( 24,19) > 1.6875) ≈ 0.1. Sˆ 16 ξ Tehát megközelítôen 0.1 annak valószínûsége, hogy a két minta korrigált szórásnégyzetének hányadosa nagyobb 3-nál.
3.5. Konfidenciaintervallumok Egy közvéleménykutató intézet a "Melyik autót választja" címû televíziós vetélkedô nézettségét szeretné megvizsgálni. Az elméleti szempontból legtökéletesebb módszer az lenne, ha az ország minden lakosát megkérdeznék, hogy nézi-e a mûsort. A gyakorlatban ez lehetetlen. Ezért megkérdeznek pl. 100 embert és az elhangzott válaszokból következtetnek a nézettségre. Pl. ha 30-an mondják, hogy nézik a mûsort, akkor a nézettség 30% -os. Az ilyen becslést – amikor egy adott számmal becsüljük a becsülendô mennyiséget – pontbecslésnek nevezzük. Elôfordulhat az is, hogy olyan 100 embert választottak ki, akik nem nézik a mûsort. Így a becsült nézettség érték 0% , még akkor is, ha a valódi érték 90% . Ez is mutatja, hogy bizonyos esetekben nem elégedhetünk meg egy mennyiség pontbecslésével. A becslés megbízhatóságáról (azaz arról, hogy a becslés mennyire van közel a mennyiség pontos értékéhez) is szeretnénk valamit tudni. Így rögzítünk egy valószínûségi értéket (1− ε ), amit konfidenciaszintnek nevezünk (konfidencia = megbízhatóság) és megadunk egy olyan intervallumot, amelyben a becsülendô paraméter értéke 1 − ε valószínûséggel megtalálható. Mindenekelôtt vezessük be egy adott α ∈ 0,1 valós szám esetén a zα ,tν ,α ,χν2,α ,F(ν1 ,ν 2 ),α
(az utóbbit már a 3.4.6. szakaszbeli megjegyzésben bevezettük) jelöléseket. zα azt a valós számot jelenti, melyre P( z > zα ) = α (lásd 3.9.a ábra). t ν,α azt a valós számot jelenti, melyre
(
)
P(tν > tν ,α ) = α (lásd 3.9.b ábra). Végül χ 2ν,α azt a valós számot jelenti, melyre P χν2 > χν2,α = α
80 (lásd 3.9.c ábra). Mivel α ∈ 0,1 , ezért ezek az értékek nyilván léteznek, és a megfelelô eloszlás táblázatából meghatározhatók.
3.9.a,b ábra
3.9.c ábra
Térjünk át a konfidenciaintervallum értelmezésére. Legyen η egy populációt leíró valószínûségi változó. Eloszlásának egy ismeretlen paramétere a , továbbá tegyük fel, hogy ismerjük az a paraméter egy torzítatlan becslésére szolgáló ξ n statisztika (E (ξ n ) = a ) sûrûségfüggvényét. Jelölje ezt f ( x ). Ekkor találhatunk olyan c1 és c2 valós számokat (c1 < c 2 ), melyekre E (ξ n )
∫
c1
f ( x)dx =
c2
∫ξ f ( x)dx =
E(
n)
1− ε . 2
Ezek alapján P ( c1 ≤ ξ n ≤ c 2 ) =
c2
∫ f ( x )dx = 1 − ε ,
c1
ami azt jelenti, hogy a ξ n valószínûségi változó értéke 1− ε valószínûséggel esik a c1 , c 2 intervallumba. Ennek megfelelôen, ha tekintjük ξ n egy adott n elemû minta esetén felvett xn értéke körüli
81
[xn − (c2 − E (ξ n )), xn + (E (ξ n ) − c1 )] intervallumot, akkor ez az intervallum 1− ε valószínûséggel tartalmazza az E (ξ n ) = a értéket, azaz a becsülendô paramétert. Ezt az intervallumot a becsülendô paraméter 1− ε konfidenciaszinthez tartozó konfidenciaintervallumának hívjuk.
3.10. ábra
A 3.10. ábra szemlélteti, hogy ha a ξ n valószínûségi változó által felvett xn érték a c1 , c 2 intervallumba esik, akkor xn -bôl jobbra (a − c1 ) és balra (c2 − a ) értéket felmérve az így kapott intervallum tartalmazza az a értéket. Ez az intervallum 1− ε valószínûséggel tartalmazza a -t, mivel xn értéke 1− ε valószínûséggel esik a c1 , c 2 intervallumba. A konfidenciaszint értékét növelve a konfidenciaintervallum hossza is növekszik. Ez azzal a veszéllyel járhat, hogy nem kapunk elég információt a becsülendô paraméter értékérôl. Ha kicsire választjuk a konfidenciaszintet, akkor bár a konfidenciaintervallum kicsi lehet, de a paraméter beleesési valószínûsége is kicsi, így ez sem hordoz nagy információt. Általában a 0. 95 körüli érték használatos. Nehézséget okozhat még a ξ n statisztika f ( x ) sûrûségfüggvényének ismerete. Adott esetben ξ n eloszlásának paramétereit is becsülnünk kell. A legtöbb esetben az elôzô fejezetben megadott eloszlások ehhez elegendôk. 3.5.1. Konfidenciaintervallum a várható értékre Ezen konfidenciaintervallum meghatározását felhasználjuk a korábbi definíciók és jelölések jelentésének elmélyítésére. Legyen η tetszôleges valószínûségi változó µ várható értékkel és σ szórással. Tegyük fel, hogy σ ismert, és µ -re akarunk egy konfidenciaintervallumot meghatározni. A várható értékre torzítatlan becslés az η mintaközép. Vegyünk η-ra n ≥ 30 elemû mintákat! Milyen eloszlású az η statisztika? Megmutattuk, hogy η normális eloszlású µ σ szórással (lásd 3.4.1.). Most meg kell határoznunk egy c1 , c2 várható értékkel és n intervallumot, melyre P (c1 < η < c 2 ) = 1 − ε . Az η standardizálásával a következô egyenlôséget nyerjük: c1 − µ η − µ c2 − µ P < < = 1− ε . σ σ σ n n n
82 c1 − µ c −µ = − z ε és 2 = z ε , így a z σ σ 2 2 n n σ σ és c2 − µ = z ε . A c1 és c2 eloszlás táblázatából kapjuk meg ôket. Ezek szerint µ − c1 = z ε n n 2 2 értékeket kifejezve σ σ P µ − z ε < η < µ + zε = 1− ε . n n 2 2
A normális eloszlás sûrûségfüggvényének szimmetriája miatt
Ebbôl η körüli intervallumra áttérve kapjuk a σ σ Pη − z ε < µ < η + zε = 1− ε n n 2 2 egyenlôséget. Innét leolvasható, hogy a becsülendô paraméter az η valószínûségi változó adott mintán felvett x értéke körüli σ σ , x + zε x − zε n n 2 2 intervallumban van 1− ε valószínûséggel. Ezt az intervallumot hívjuk a normális eloszlás várható értékére vonatkozó konfidenciaintervallumnak. A gyakorlatban többször fordul elô az az eset, amikor az η valószínûségi változó szórását η−µ nem ismerjük. Ebben az esetben bizonyítható, hogy az valószínûségi változó ( n − 1) S n szabadságfokú t eloszlást követ (3.4.1.). S a mintából számított korrigált szórás. Ekkor a c1 és c2 értékeket a következô módon kapjuk. c − − c − µ η µ µ = 1− ε. P(c1 < η < c2 ) = 1 − ε , P 1 < < 2 S S S n n n c −µ Az adott (1− ε ) konfidenciaszinthez a t táblázatból kikereshetjük a 1 = − t ε és S n −1, 2 n c2 − µ = t ε értékeket. (A t eloszlás sûrûségfüggvénye páros!) Emiatt S n −1, 2 n S S µ − c1 = t ε , c2 − µ = t ε . 1 n −1, n − , n n 2 2
83 S S < µ < η+t ε ) = 1 − ε . Innét n −1, n n 2 paraméter az η valószínûségi változó adott mintán felvett S ,x + t ε x − t n−1, ε n −1, n 2 2
Azaz P ( η − t
ε n −1, 2
leolvasható, hogy a becsülendô µ x értéke körüli S n
intervallumban van 1− ε valószínûséggel. Az elôbbiek alapján és a nevezetes eloszlásokat tartalmazó fejezet szerint egyszerûen megadhatók a következô konfidenciaintervallumok. 3.5.2. Konfidenciaintervallum két valószínûségi változó várható értékének különbségére Adott az η1 és η2 valószínûségi változó. Tegyük fel, hogy ismerjük
D 2 (η1 ) = σ 12 és D 2 (η 2 ) = σ 22 értékét. Az η1 valószínûségi változóra vegyünk n1 ≥ 30 elemû mintát, az η2 -re n2 ≥ 30 elemût. Legyen µ1 és µ 2 a két valószínûségi változó várható értéke. Adjuk meg az 1− ε konfidenciaszinthez tartozó konfidenciaintervallumot a várható értékek különbségére (azaz µ1 − µ 2 -re)! Torzítatlan becslésre az η1 − η2 statisztika használható. Ha η1 ill. η2 valószínûségi változó mintán felvett értéke x1 és x2 , akkor a nyert konfidenciaintervallum σ 12 σ 22 σ 12 σ 22 + , ( x1 − x2 ) + z ε + ( x1 − x2 ) − z ε . n1 n2 n1 n2 2 2 Amennyiben σ12 és σ 22 nem ismert, úgy egy-egy mintából az S12 és S22 korrigált szórásnégyzetekkel becsüljük ôket. Jelölje S η1 − η2 az átlagkülönbség szórására adott közelítést és ν az eloszlásának szabadságfokát (lásd elôzô fejezet 3.4.2.). Ekkor a következô konfidenciaintervallumot kapjuk: ( x1 − x2 ) − tν , ε Sη1 −η2 ,( x1 − x2 ) + tν , ε Sη1 −η2 . 2 2 3.5.3. Konfidenciaintervallum egy esemény valószínûségére Legyen A egy η valószínûségi változóval kapcsolatos P( A) = p valószínûségû esemény. Vegyünk η-ra vonatkozóan n ≥ 30 elemû mintákat. Adjunk meg p értékére 1− ε konfidenciaszinthez tartozó konfidenciaintervallumot! A p valószínûség becslésére használjuk a pˆ relatív gyakoriság statisztikát. Ha pˆ a mintán g A értéket vesz fel, akkor a p valószínûségre adódó konfidenciaintervallum g A ⋅ (1 − g A ) g A ⋅ (1 − g A ) , g A + zε g A − zε . n n 2 2
84 3.5.4. Konfidenciaintervallum két esemény valószínûségének különbségére Legyen η1 és η2 két adott valószínûségi változó. Az elsôvel kapcsolatos A1 esemény valószínûsége legyen p1 a másikkal kapcsolatos A2 eseményé p2 . Az elsô valószínûségi változóra vegyünk n1 ≥ 30 a másodikra n2 ≥ 30 elemû mintát. Adjunk meg p1 − p2 értékére 1− ε konfidenciaszinthez tartozó konfidenciaintervallumot! p1 − p2 becslésére használjuk a pˆ 1 − pˆ 2 statisztikát. Ha pˆ 1 az elsô mintán g A1 és pˆ 2 a második mintán g A2 értéket vesz fel, akkor a p1 − p2 értékre adódó konfidenciaintervallum g A1 − g A2 − z ε S pˆ1 − pˆ 2 , g A1 − g A2 + z ε S pˆ1 − pˆ 2 , 2 2
(
ahol S pˆ1 − pˆ 2 =
g A1 (1 − g A1 ) n1
g n + g A2 n2 g c = A1 1 n1 + n2
+
)
g A2 (1 − g A2 ) n2
(
vagy
)
1 1 S pˆ1 − pˆ 2 = g c (1 − g c ) + , n1 n2
.
3.5.5. Konfidenciaintervallum egy normális eloszlású valószínûségi változó szórásnégyzetére Adott egy η normális eloszlású valószínûségi változó, melynek ismeretlen szórása σ. Vegyünk az η valószínûségi változóra n elemû mintákat. Adjuk meg σ 2 értékére az 1− ε konfidenciaszinthez tartozó konfidenciaintervallumot! σ 2 becslésére használjuk az Sˆ 2 statisztikát. Ha Sˆ 2 mintán felvett értéke S 2 , akkor a keresett konfidenciaintervallum 2 2 (n − 1)S (n − 1)S , 2 χ2 . χ ε ε n−1, n −1,1− 2 2
3.5.6. Konfidenciaintervallum két normális eloszlású valószínûségi változó szórásnégyzetének hányadosára Adott az η1 és η2 normális eloszlású valószínûségi változó. Ismeretlen szórásnégyzetük legyen rendre σ12 és σ 22 . Az elsô valószínûségi változóra vegyünk n1 , a másodikra n2 elemû mintát. Adjuk meg σ12 / σ 22 értékére az konfidenciaszinthez tartozó 1− ε 2 2 2 2 2 konfidenciaintervallumot! σ1 / σ 2 becslésére használjuk az Sˆ1 Sˆ 2 statisztikát. Ha Sˆ1 mintán felvett értéke S 2 és Sˆ 2 mintán felvett értéke S 2 , akkor a keresett konfidenciaintervallum 1
2
2
2 S12 1 S1 , 2F ε . S 2 F ( , ) , ν ν 2 1 S 2 2 (ν1 ,ν 2 ), ε 2 2
3.5.7. A mintanagyság megválasztása Láthatjuk a valószínûségi változó várható értékére vonatkozó 1− ε konfidenciaszinthez S S tartozó konfidenciaintervallumra kapott x − t ε ,x + t ε kifejezésbôl, hogy az ν, ν, n n 2 2
85 intervallum hossza függ a minta elemszámától (3.5.1.). Vezessük be a konfidenciaintervallum S hosszának felére a h = t ε jelölést. A h értéket a mintavétel hibájának nevezzük. Növelve n ν, n 2 S értékét csökken, tehát a mintavétel hibája is csökken. Hogyan határozható meg az a n mintanagyság, amely felett a minta hibája kisebb, mint egy megadott h0 érték? t2 ε ⋅ S2 ν, Fejezzük ki az n mintanagyságot h0 segítségével: n = 2 2 . Elsô lépésként egy h0 2 elômintából megbecsüljük az S szórásnégyzetet. Az n mintaelemszám meghatározása mégis nehézséget okozhat, mert a ν szabadságfok függ n értékétôl, így explicit módon nem tudjuk kifejezni. Emiatt egy iterációs eljárással határozzuk meg a mintanagyságot a következô módon: t 2 ε ⋅ S 2 νi , ν1 := ∞ , ni := 2 2 , νi +1 = ni − 1 , i = 1, 2 , 3,.... H0 ν1 = ∞ -rôl indulva kiszámítunk egy n1 közelítô értéket, majd ebbôl egy újabb szabadságfokot, és így tovább. Az iterációt addig folytatjuk, míg két egymás utáni n értékre ugyanazt nem kapjuk. Erre a mintanagyságra már a becslés hibája h0 lesz. Megjegyzés. Ha az eloszlás nem függ a mintanagyságtól, akkor n értéke explicit módon kifejezhetô. 3.6. Feladat Egy adott életkorban a fácántyúkok tömegét írja le az η, a fácánkakasokét a ξ normális eloszlású valószínûségi változó. A fácántyúkokból 10, a kakasokból 8 elemû mintát veszünk, majd ezekbôl becsüljük a valószínûségi változók várható értékét és szórását. A következôket kapjuk: xη = 1. 094 kg, xξ = 1. 493kg , Sη = 0. 0822 kg , Sξ = 0.151kg . a) Számítsuk ki a 0. 99 konfidenciaszinthez tartozó konfidenciaintervallum határait a tyúkok tömegét leíró valószínûségi változó várható értékére! b) Számítsuk ki a 0. 95 konfidenciaszinthez tartozó konfidenciaintervallum határait a kakasok tömegét leíró valószínûségi változó szórásnégyzetére! c) Számítsuk ki a 0. 9 konfidenciaszinthez tartozó konfidenciaintervallum határait a tyúkok és kakasok tömegét leíró valószínûségi változók várható értékének különbségére! d) Számítsuk ki a 0.95 konfidenciaszinthez tartozó konfidenciaintervallum határait a tyúkok és kakasok tömegét leíró valószínûségi változók szórásnégyzetének hányadosára!
Megoldás. a) A 3.5.1. pontnak megfelelôen meg kell határoznunk a t 9,
táblázatából kiolvasható: 3. 25. P (1. 0095 < E ( η) < 1.1784) = 0. 99 .
Így
a
0.01 2
konfidenciaintervallum
értéket. Ez a t eloszlás 1. 0095 , 1.1784 ,
azaz
86 b) A 3.5.5. pontnak megfelelôen a χ2 0.05 = 16 és χ2 7,
2
7,1−
0. 05 2
= 1. 69 értékeket táblázatból
7 ⋅ 0.1512 7 ⋅ 0.1512 = 0.95 egyenlôség figyelembevételével a P < σ ξ2 < 1.69 16 0. 01 , 0. 0944 konfidenciaintervallumot kapjuk. c) Itt meg kell vizsgálnunk elôször, hogy feltehetjük-e, hogy a két valószínûségi változó szórásnégyzete megegyezik. Ezt a feladatot emiatt csak a következô fejezet után tudjuk megoldani. Ott vissza fogunk rá térni. d) A 3.5.6. pont szerint járunk el. F(9,7 ),0.025 = 4.82 és F(7,9 ),0.025 = 4.2 az F eloszlás
kikeressük.
A
0.0882 2 1 σ η2 0.0882 2 ⋅ < < ⋅ 4.2 = 0.95 . Eszerint a keresett táblázatából kiolvasható. Így P 2 0.1512 4.82 σ 2 0.151 ξ konfidenciaintervallum 0. 06, 1. 24 .
87
4. Hipotézisvizsgálat (Statisztikai próbák) 4.1. Statisztikai próbákról általánosan Gyakran szükségünk lehet arra, hogy egy valószínûségi változó eloszlásának paraméterével kapcsolatos hipotézisrôl (feltételezésrôl) eldöntsük, hogy elfogadjuk-e vagy sem. Ekkor a paraméter értékét a korábbi fejezeteknek megfelelô módon mintából becsüljük, majd összehasonlítjuk ezt az értéket a feltételezéssel, és ezután döntünk. Nyilvánvaló, hogy ha a becslés közel van a feltételezett értékhez, akkor a hipotézist elfogadjuk, ha nincs, akkor elutasítjuk. Most megfogalmazzuk a hipotézis eldöntésének fô mozzanatait. Tegyük fel, hogy egy η valószínûségi változó eloszlását meghatározó a paraméterre felállított hipotézist szeretnénk eldönteni. Legyen ez a hipotézis az, hogy az a paraméter a0 értéket vesz fel. Például: Elfogadhatjuk-e, hogy egy gépen készült csavarok hosszának várható értéke 10mm ? Elfogadhatjuk-e, hogy egy lámpatípus élettartamának várható értéke 30000 óra, szórása 50 óra? Elfogadhatjuk-e, hogy egy gyár termékét a vásárlók 80 százaléka részesíti elônyben?
l. Rögzítjük a nullhipotézist H0 : a = a0 . Ez az a feltételezés, amelyrôl döntést szeretnénk hozni. 2. Megfogalmazzuk az ellenhipotézist (alternatív hipotézist). Itt általában a saját érdekünket szoktuk szem elôtt tartani. Emiatt az elsô példában akkor is elutasítjuk a hipotézist, ha a értéke kisebb, és akkor is, ha nagyobb a0 -nál, hiszen nekünk pontos csavarméret kell. Az is baj, ha rövidebb és az is, ha hosszabb 10 mm-nél egy csavar. A második példában pedig csak akkor utasítjuk el a várható értékre vonatkozó hipotézist, ha a értéke kisebb, mint a0 , hiszen ha nagyobb, és mi vagyunk a vásárlók, akkor jól járunk. Az η valószínûségi változóra mintát veszünk, majd ebbôl megbecsüljük az a paraméter értékét. Ha a becslés a nullhipotézistôl – érdekeinket figyelembe véve – túl messze van, akkor azt mondjuk, hogy az ún. elutasítási tartományba esik. Az elutasítási tartománynak a valós számok halmazára vonatkozó komplementerét elfogadási tartománynak nevezzük. Feladatunk lesz majd az elutasítási illetve elfogadási tartomány meghatározása. Az elsô példabeli próbát kétoldali, a másodikbelit egyoldali próbának hívjuk, aszerint, hogy az elutasítási tartomány hol helyezkedik el. Ha a0 bal oldalán, akkor baloldali próbáról, ha a jobb oldalán, akkor jobboldali próbáról, ha mindkét oldalán, akkor kétoldali próbáról beszélünk. Baloldali próba ellenhipotézise H1: a < a0 , jobboldalié H1 : a > a0 és a kétoldalié H1 : a ≠ a0 .
88
4.1. ábra
3. A mintából számított becslés értéke jelentôsen eltérhet a becsülendô paraméter pontos értékétôl (lásd Becsléselmélet). Így elôfordulhat, hogy igaz hipotézist visszautasítunk, mert a becslés az elutasítási tartományba esik. Ekkor ún. elsôfajú hibát követünk el, melynek valószínûségét α -val jelöljük. Az α értéket szignifikanciaszintnek (szignifikáns=jelentôs) nevezzük és általában a 0.01, 0.05, 0.1 értékek közül választjuk. Ez azt jelenti, hogy ha pl. α = 0. 05, akkor 100 esetbôl, amikor a nullhipotézis igaz, kb. ötször fogom visszautasítani. Elôfordulhat az is, hogy a nullhipotézis nem igaz és a becslés mégis az elfogadási tartományba esik. Így hibát követünk el, mert hibás nullhipotézist fogadunk el. Ezt a hibát másodfajú hibának
89 nevezzük és valószínûségét β -val jelöljük. A másodfajú hibát csak úgy tudjuk kiszámítani, ha felteszünk egy másik hipotézist, és ezt elfogadva határozzuk meg a fenti valószínûséget. 4. Az α értékétôl függôen – az ellenhipotézist figyelembe véve – megállapítjuk az elutasítási tartományt. Ehhez szükségünk van az a paraméter becslésére használt statisztika eloszlásának ismeretére.
4.2.a,b ábra
Ha az eloszlást ismerjük, akkor úgy jelöljük ki az elutasítási tartományt, hogy a tartományon a sûrûségfüggvény alatti terület α legyen. Így elértük, hogy az elsôfajú hiba valóban α (lásd a 4.2.a,b ábrát). 5. Kiszámítjuk az a paraméter becslésére használt statisztika értékét egy n nagyságú véletlen mintából (próbastatisztika). 6. Ha a statisztika értéke az elutasítási zónába esik, akkor elutasítjuk, ha nem, akkor elfogadjuk a nullhipotézist. 7. Gyakorlati következtetést vonunk le az eredménybôl. Megjegyzések. 1. Az elsô és másodfajú hiba egymás ellen dolgozik. Ha α csökkentésével az elsôfajú hibát csökkentjük, úgy a másodfajú hiba növekedni fog, és fordítva. Láthatjuk azt is, hogy biztos döntéseket nem tudunk hozni. Csak azt tudjuk garantálni, hogy nagy valószínûséggel jó döntést hozunk. 2. Megadhatunk olyan nullhipotézist is, melyben egyenlôség helyett egyenlôtlenség áll. A második példában lehetne a nullhipotézis az, hogy az élettartam várható értéke nagyobb 30000 óránál. Ekkor az ellenhipotézis nyilván az, hogy az élettartam várható értéke kisebb mint 30000 óra. A következô táblázatban a lehetséges null- és ellenhipotézisek szerepelnek.
nullhipotézis a ≥ a0 a ≤ a0
ellenhipotézis a < a0 a > a0 4.1. táblázat
90 A fenti két hipotézis az elutasítási tartományok megegyezése miatt helyettesíthetô a következô módon (itt már a nullhipotézisben egyenlôség szerepel). nullhipotézis a = a0 a = a0
ellenhipotézis a < a0 (baloldali próba) a > a0 (jobboldali próba) 4.2. táblázat
Hipotézisvizsgálatra példaként tekintsük a következô feladatot. Egy gép csavarokat gyárt. A csavarhosszakat leíró η valószínûségi változó szórása σ 0 = 0. 3mm és várható értéke µ (ezt nem ismerjük). Egy szállítmányt akkor veszünk át, ha benne a csavarhosszak várható értéke µ 0 = 10mm . Döntsük el egy szállítmányról, hogy elfogadjuk vagy sem! Megoldás. l. Nullhipotézisünk az, hogy H0 : µ = µ 0 . 2. Itt nyilván kétoldali próbát kell használnunk. Ezért az ellenhipotézis H1: µ ≠ µ 0 lesz. 3. Legyen a szignifikanciaszint α = 0. 05. 4. A µ paraméter becslésére a mintaközép statisztikát használjuk. Vegyünk pl. n = 36 σ σ darabos mintát. Ekkor, mint korábban említettük, a mintaközép normális eloszlású σ = 0 = 0 6 36 szórással és a nullhipotézis szerint µ = µ 0 = 10mm várható értékkel. Határozzuk meg, hogy milyen becslés (itt a becslés azt jelenti, hogy kiszámítjuk a 36 elemû minta átlagát) esetén utasítjuk el a nullhipotézist. Nyilván, ha a becslés értéke nagyon eltér a 10mm -tôl, akkor elutasítjuk. De hol húzzuk meg a határt? Erre ad útmutatást α értéke. Úgy kell megválasztanunk a h1 és h2 ( h1 < h2 ) értékeket, hogy a h1-tôl balra és h2 -tôl jobbra esô – a mintaközép sûrûségfüggvényének grafikonja alatti – terület α legyen. A h1 és a 10mm valamint a 10mm és h2 közé esô terület legyen egyenlô. Ha a becslés értéke kisebb h1-nél, vagy nagyobb h2 -nél, a nullhipotézist elvetjük. Így az elsôfajú hiba ténylegesen α lesz. Határozzuk meg h1 és h 2 értékét. Ehhez a mintaközép statisztikát z eloszlásúvá kell transzformálnunk, hogy a rendelkezésünkre álló táblázatot használni tudjuk. Az eloszlás szimmetriája miatt h1 − µ 0 η − µ 0 h2 − µ 0 η − µ 0 P < = 0.975 és P < = 0.025 . σ0 σ0 σ0 σ0 n n n n
Ezek alapján a z eloszlás táblázatából h2 − µ 0 = z0.025 σ0 n
és
h1 − µ 0 = z0.975 = − z0.025 σ0 n
91 értéke meghatározható. Ezen értékeket (azaz az elutasítási és elfogadási tartomány határait) szokás kritikus értékeknek is nevezni. A táblázat szerint z0.025 = 1. 96 , amibôl a µ 0 = 10mm , σ 0 = 0. 3mm , n = 36 helyettesítésével kapjuk h1 = 9. 902mm , h2 = 10. 098mm értékeket. 5. Tegyük fel, hogy a 36 elemû mintából számított statisztika értéke 9. 85mm . 6. A 4. pont szerint az elfogadási tartomány a 9. 902, 10. 098 intervallum. A 9.85 érték nem esik ebbe bele, tehát a nullhipotézist elutasítjuk. 7. A szállítmányt nem vesszük át. Kiszámíthatjuk a másodfajú hibát is. Számítsuk ki például abban az esetben, ha µ értéke nem 10mm , hanem µ 1 = 9. 9mm . A másodfajú hibát úgy határozhatjuk meg, hogy kiszámítjuk a 0. 3 µ 1 = 9. 9mm várható értékû és σ = mm szórású normális eloszlás sûrûségfüggvénye alatti 6 területet a h1 , h2 intervallumon. Ez lesz a valószínûsége annak, hogy elfogadtuk az eredeti hipotézist, pedig nem igaz (lásd 4.3. ábra).
4.3. ábra
h1 − µ1 η − µ1 h2 − µ1 Tehát , amibôl β = P(0.04 < z < 3.96) = 0.484 értéket < < β =P σ0 σ0 σ0 n n n kapunk a másodfajú hibára. Ezzel a feladat megoldását befejeztük. A feladatot megoldhatjuk h1 és h2 kiszámítása nélkül, ha a becslés értékét standardizáljuk és ezt hasonlítjuk össze a z0.025 = 1. 96 és − z0.025 = −1. 96 értékekkel. Példánknál a becslés értéke 9.85. 9.85 − 10 Standardizálva a = −3 értéket kapjuk. Ez nem esik a −1. 96, 1. 96 intervallumba. Tehát 0. 3 6 a nullhipotézist elvetjük. Ha meghatározzuk a µ várható értékre az 1 − ε = 1 − α = 0. 95 konfidenciaszinthez tartozó konfidenciaintervallum határait, akkor ezekre a 3.5.1. pontnak megfelelôen a h1 = 9. 902 , h2 = 10. 098 értékeket kapjuk. Ebben az intervallumban található a µ várható érték 0. 95 valószínûséggel. Példánknál a várható értékre vonatkozó becslés 9. 85. Ez nincs benne a
92 konfidenciaintervallumban. Így elutasítjuk a nullhipotézist. Az elsôfajú hiba valószínûsége 0. 05 lesz, hiszen 0. 05 a valószínûsége annak, hogy a µ várható érték nincs az intervallumban. Ez azt mutatja, hogy hipotéziseket el tudunk dönteni konfidenciaintervallum meghatározásával is, bár az elôzô bekezdésben mutatott módszer a leggyorsabb. Annak eldöntésére, hogy két valószínûségi változó szórása megegyezik, az F próbát σ2 használjuk. Ebben az esetben a nullhipotézis az, hogy 12 = 1 . Ha arról szeretnénk döntést hozni, σ2 hogy megegyezik-e két populáció átlaga, azt kell megvizsgálnunk, hogy a két átlag különbségérôl feltételezhetô-e, hogy nulla. (Lásd a kidolgozott feladatokat.) A használható próbastatisztikák eloszlását megadtuk az elôzô fejezetben. Hasonlóképpen ha két esemény valószínûségének egyenlôségérôl szeretnénk döntést hozni, akkor a nullhipotézis az lesz, hogy a két esemény valószínûségének különbsége nulla.
4.1.1. Feladatok 1. Oldjuk meg a 3.6. pontban szereplô feladat c) részét.
Megoldás. Itt meg kell vizsgálnunk elôször, hogy a két valószínûségi változó σ 2ξ szórásnégyzete megegyezik-e. Ehhez az F próbát használjuk. A nullhipotézis tehát 2 = 1, az ση 2 σξ ellenhipotézis pedig 2 ≠ 1. Itt az F eloszlás táblázatának egyszerûbb használata miatt célszerû ση mindig a minta szerint nagyobb szórású valószínûségi változó szórásnégyzetét a kisebbel osztani. Most Sξ2 > Sη2 . Legyen a szignifikanciaszint 0.05. A mintákból számított szórásnégyzetek 0.1512 hányadosát az ismert módon transzformálva a ⋅ 1 = 3. 375 értéket kapjuk (azért eggyel 0. 08222 szorzunk, mert a nullhipotézis szerint a valószínûségi változók szórásnégyzetének hányadosa 1 ). F( 7,9),0.025 = 4. 2 . Azaz a nullhipotézist elfogadhatjuk, a szórásnégyzetek egyenlôknek vehetôk. Ezt és a 3.5.2. pontban leírtakat figyelembe véve a következô értékeket kell kiszámítani. 9 ⋅ 0. 0822 + 7 ⋅ 0.1512 1 1 Sp = ≈ 0.1173 , Sη− ξ = 0.1173 + ≈ 0. 05564 , 9+7 10 8 ν = 10 + 8 − 2 = 16 , a t eloszlás táblázatából pedig t16,0.05 = 1. 75. Így a keresett intervallum −0. 4964, −0. 3016 . 2. Az 1 literes citromleveket vizsgáljuk. Tegyük fel, hogy ezen térfogatértékek eloszlása megközelítôen normális. 8 db citromleves üvegben a citromlé térfogatát megmérve a következôket találjuk: 0.98, 0.96, 1.01, 0.89, 0.97, 0.96, 0.95, 0.99 (liter). Elfogadhatjuk-e azt a feltételezést 0.05 szignifikanciaszint mellett, hogy a citromlé térfogatának a) várható értéke 1 (liter), b) szórásnégyzete 0.001 (liter2)?
Megoldás. a) A citromlevek térfogatát írja le az η valószínûségi változó. A nullhipotézis H 0 :E (η ) = 1 és az ellenhipotézis H 1 :E (η ) ≠ 1 . Az η valószínûségi változó várható értékét a mintaközéppel becsülhetjük. A mintából számított átlag és szórás x = 0. 96 és S = 0. 035 . Az
93 0. 96 − 1 = −3. 23 értéket kapjuk. Összevetve a t 7,0.025 = 2. 36 és 0. 035 8 − t 7,0.025 = −2. 36 kritikus értékekkel azt kapjuk, hogy a nullhipotézist el kell utasítanunk, azaz a várható térfogat kisebb 1 liternél. b) A nullhipotézis H0 : σ 2η = 0. 001 és az ellenhipotézis H1: σ 2η ≠ 0. 001. A szórásnégyzetet a átlagot standardizálva a
korrigált empírikus szórásnégyzet statisztikával becsülhetjük, mely 7 szabadságfokú χ 2 eloszlássá transzformálható. Sˆ 2 mintán felvett értéke S 2 = 0. 0352 , melyet az ismert módon 7 transzformálva 0. 0352 = 8. 58 adódik. Összevetve a χ 27,0.025 = 16 és χ 27,0.975 = 1. 69 kritikus 0. 001 értékekkel, a szórásnégyzet 0.001-nek vehetô. 3. Egy gyufagyár azt állítja, hogy az általa gyártott gyufáknak kevesebb mint 10 százaléka hibás, nem lehet meggyújtani. Kiválasztunk 500 darab gyufát, kipróbáljuk ôket, és azt tapasztaljuk, hogy 58 darabot nem lehet meggyújtani. a) Elfogadhatjuk-e a gyár állítását? Használjunk 0.05 szignifikanciaszintet! b) Számítsuk ki a másodfajú hiba valószínûségét, ha tudjuk, hogy a gyufák 14 százaléka hibás!
Megoldás. a) Legyen p annak valószínûsége, hogy egy gyufa rossz. Ekkor a nullhipotézis H0 : p ≤ 0.1 és az ellenhipotézis H1: p > 0.1. Ehelyett használhatjuk a H0 : p = 0.1 nullhipotézist és a H1: p > 0.1 ellenhipotézist (jobboldali próba). A p valószínûség becslésére a pˆ statisztika alkalmas. Eloszlása a 3.4.3. pont szerint z eloszlásúvá transzformálható. A mintából a p 58 0.116 − 0.1 valószínûség becslésére az = 0.116 értéket kapjuk. Ezt standardizálva = 1.19 500 0.1(1 − 0.1) 500 adódik. Összevetve a z0.05 = 1. 65 értékkel azt kapjuk, hogy a nullhipotézist, vagyis a gyár állítását elfogadhatjuk. b) Ha a mintából számított relatív gyakoriság standardizáltja a z0.05 = 1. 65 értéknél kisebb, akkor elfogadjuk az a) pontbeli nullhipotézist. Ez azt jelenti, hogy akkor fogjuk elfogadni, ha a számított relatív gyakoriság a 0.1(1 − 0.1) 0.1 + ⋅1.65 = 0.122 500 értéknél kisebb. Ha a valódi p érték 0.14 , akkor a másodfajú hibát a pˆ − 0.14 0.122 − 0.14 P( pˆ < 0.122) = P < = P ( z < −1.16) ≈ 0.123 0.14(1 − 0.14) 0.14(1 − 0.14) 500 500 valószínûség adja.
94
4.2. Illeszkedésvizsgálat A 3.1. fejezet bevezetô feladata kapcsán joggal kérdezhetjük, hogy honnét tudjuk megállapítani, hogy egy erdô fáinak magasságát normális eloszlású valószínûségi változó írja le. Vagy általánosan: honnét tudjuk megállapítani, hogy egy valószínûségi változó milyen eloszlású? Ennek eldöntésére is próbát kell végeznünk. Úgy járunk el, hogy a kísérletileg tapasztalt eloszlást összehasonlítjuk a várt eloszlással. Tegyük fel, hogy az A1 ,..., A n események teljes eseményrendszert alkotnak. Végezzünk el N darab kísérletet egymástól függetlenül.* Jelölje Ei az A i esemény feltételezett gyakoriságát az N kísérletben (azaz a pi N szorzatot, ahol pi az A i esemény feltételezett valószínûsége), Fi pedig a P ( A )⋅ N szorzatot, ahol P( A ) az A esemény tényleges valószínûsége. Legyen fˆ az a i
i
i
i
valószínûségi változó, amely egy N kísérletbôl álló kísérletsorozathoz az A i esemény kísérletsorozatbeli gyakoriságát rendeli hozzá. Felállítunk egy nullhipotézist az egyes események gyakoriságára:
H0 : Fi = Ei , ∀i ∈{1,..., n} . Az ellenhipotézis:
H1: Fi ≠ Ei , ∃i ∈{1,..., n}. Ha a nullhipotézis teljesül, akkor bizonyítható, hogy a 2 n fˆ − E
∑ i =1
(
i
i
)
Ei
valószínûségi változó n −1 szabadságfokú χ 2 eloszlású. Ha ezen valószínûségi változó felvett értéke "túl nagy", akkor a hipotézist elutasítjuk (azaz egyoldali próbát végzünk). Válasszuk α-nak a szignifikanciaszintet. Tegyük fel, hogy az fˆi valószínûségi változók egy adott kísérletsorozat esetén az Oi értékeket veszik fel. Kiszámítjuk a n
(Oi − Ei )2
i =1
Ei
∑
próbastatisztikát és ha az nagyobb, mint a χ n2 −1,α kritikus érték, akkor a nullhipotézist elutasítjuk, ellenkezô esetben pedig elfogadjuk.
Megjegyzés. Ha a feltételezett eloszlás paramétereit is az adatokból számítjuk ki, akkor az ( n − 1 )-es szabadságfokot a számított adatok számával csökkenteni kell. Például ha gyakorisági táblázatból
*
Tegyük fel továbbá, hogy az N kísérletben az Ai események gyakorisága legalább 5. Ellenkezô esetben
összevonunk eseményeket.
95 határozzuk meg a közelítô normális eloszlás várható értékét és szórását, akkor a szabadságfok n − 3 lesz. A könnyebb megértés kedvéért mutatunk két kidolgozott feladatot. 1. Százszor feldobunk egy pénzérmét. 70 írást és 30 fejet kapunk. Döntsük el, hogy szabályos-e az érme! Megoldás. Legyen A1 a fejdobást és A 2 az írásdobást jelentô esemény. Szabályos érme esetén egyenletes eloszlást feltételezhetünk. Emiatt E 1 = E 2 = 50 . A nullhipotézis H 0 :Fi = 50(i = 1,2) , az ellenhipotézis H1: F1 ≠ 50 vagy F2 ≠ 50. Esetünkben O1 = 30 , O2 = 70 . Számítsuk ki a próbastatisztikát! 2 (Oi − Ei )2 = 20 2 + 20 2 = 16 ∑ Ei 50 50 i =1 Válasszuk a szignifikanciaszintet α = 0. 05 -nek. A χ 2 táblázatból kikeressük a 0.05 szignifikanciaszinthez és az 1 szabadságfokhoz tartozó kritikus értéket. Ez 3.84. Mivel a számított érték ennél nagyobb a nullhipotézist elutasítjuk. 2. Azt a hipotézist szeretnénk ellenôrizni, hogy egy gépsoron készült acélrudak hosszúságait leíró η valószínûségi változó normális eloszlású 300cm várható értékkel és σ = 0. 5cm szórással.
Megoldás. Megmérjük 100 acélrúd hosszát. Minden adatból kivonjuk a várható értéket (300cm) és ezt osztjuk a szórással (0.5cm ), azaz standardizáljuk az adatokat. Következô lépésként felosztjuk a számegyenest például hat részre az x 1 = −1; x 2 = −0. 5; x 3 = 0; x 4 = 0. 5; x 5 = 1 osztópontokkal. Ezeket az intervallumokat jelölje balról jobbra haladva rendre A1 ,..., A 6 . Megvizsgáljuk, hogy a kapott standardizált adatokból mennyi esik az egyes intervallumokba. Két intervallum határára esô értékeket az alacsonyabb osztályba soroljuk. Legyenek ezek pl. rendre 10 , 10 , 20 , 22 , 14 , 24 . A standard normális eloszlás eloszlásfüggvényének értékeit felhasználva (lásd az erre vonatkozó táblázatot) megállapítjuk, hogy standard normális eloszlás esetén hány mérésnek kellene az egyes intervallumokba esni. Pl. A1 esetén: P ( z < −1) = 0.1587. Mivel a minta 100 elemû, az A1 -be 15.8716 ≈ 16 mérést várunk. A2 esetén: P(− 1 < z < −0.5) = 0.3085 − 0.1587 = 0.1498 . Tehát A2 -be 15 mérést várunk. Az Oi és Ei értékekre kapott adatokat a következô táblázat foglalja össze. A1
A2
A3
A4
A5
A6
Ei
16
15
19
19
15
16
Oi
10
10
20
22
14
24
4.3. táblázat
Kiszámítjuk a próbastatisztikát
96 6
(Oi − Ei )2
i =1
Ei
∑
=
6 2 5 2 12 3 2 12 8 2 + + + + + = 8.49 . 16 15 19 19 15 16
Megválasztjuk a szignifikanciaszintet: α = 0. 05 . Kikeressük a χ 2 táblázatból az ehhez a szignifikanciaszinthez és 5 szabadságfokhoz tartozó kritikus értéket. Ez 11.1. Azaz a nullhipotézis elfogadható.
4.3. Függetlenségvizsgálat (kontingenciavizsgálat) A valószínûségszámítás címû részben láthattuk, hogy ha két esemény független, akkor szorzatuk valószínûsége könnyen meghatározható a két esemény valószínûségének ismeretében (lásd a függetlenség definícióját). Legyen adott az A és B esemény, melyek valószínûségét nem ismerjük. Milyen módszerrel dönthetô el a két eseményrôl, hogy függetlenek, vagy sem? Logikusnak tûnik a következô módszer. Elvégzünk n kísérletet. Jelölje gA, gB, és gAB rendre az A, B és AB események relatív gyakoriságát a kísérletsorozatban. Függetlenség esetén a g A gB ≈ g AB közelítô egyenlôséget várjuk. Ha a gAgB érték túlságosan eltér a gAB értéktôl, akkor pedig arra gyanakszunk, hogy az A és B események nem függetlenek. Általánosabban a következô próbát kell elvégeznünk. Tegyük fel, hogy az A1 ,K , Ak és a B1 ,K , Bl események egyaránt teljes eseményrendszert alkotnak. Arról szeretnénk döntést hozni, igaz-e, hogy ∀i ∈ {1,K, k } és ∀j ∈ {1,K, l } esetén az Ai és Bj események függetlenek. Végezzünk el N darab kísérletet. Az fˆ valószínûségi változó rendelje egy N kísérletbôl álló kísérletsorozathoz ij
az AiBj esemény kísérletsorozatbeli gyakoriságát. H 0 :P (Ai B j ) = P( Ai )P(B j ) ∀i ∈ {1,K, k } és ∀j ∈ {1,K, l}
Legyen esetén,
a az
nullhipotézis ellenhipotézis
H 1:P(Ai B j ) ≠ P( Ai )P(B j ) ∃i ∈ {1,K, k } és ∃j ∈ {1,K, l}. Ha a nullhipotézis teljesül, akkor
bizonyítható, hogy a k
l
∑∑
( fˆ
ij
i =1 j =1
− hˆij hˆ
)
2
ij
valószínûségi változó (k-1)(l-1) szabadságfokú χ2 eloszlású. hˆij azt a valószínûségi változót jelenti, mely egy N kísérletbôl álló kísérletsorozathoz a g Ai gB j N értéket (ennyi a várt gyakorisága az AiBj eseménynek függetlenség esetén) rendeli. Rögzítsük az α szignifikanciaszintet! Tegyük fel, hogy egy N elemû kísérletsorozatban az ˆf valószínûségi változó O , a hˆ valószínûségi változó pedig E értéket vesz fel. Kiszámítjuk a ij ij ij ij próbastatisztikát: k
l
∑∑
(O
i =1 j =1
Ha a próbastatisztika értéke nagyobb χ akkor elfogadjuk (egyoldali próba).
2 ( k −1)( l −1), α
ij
− Eij )
2
Eij . -nál, akkor a nullhipotézist elutasítjuk, ha kisebb
97 A próba elvégzését egy példával szemléltetjük. Legyen két gyár I . és II ., melyek csavarokat gyártanak. A csavarok minôsége négy féle lehet A , B , C és selejt. Döntsük el, hogy a csavarok minôsége függ-e attól, hogy melyik gyárban készültek! Vegyünk az I . gyárból 67 a II -esbôl 63 elemû mintát. A lehetséges O ij eredményeket a következô táblázat szemlélteti. (O ij jelöli a táblázat i-edik sorának j-edik elemét. i = 1, 2; j = 1, 2, 3, 4 )
A
B
C
selejt
∑
I.
15
20
21
11
67
II.
18
35
5
5
63
∑
33
55
26
16
130
4.4. táblázat
Számítsuk ki, hogy pl. az elsô sor elsô eleme helyén függetlenség esetén milyen értéket várunk! 33 67 E11 = ⋅ ⋅ 130 ≅ 17 . Hasonlóan eljárva a többi rubrikában a következô E ij értékeket kapjuk. 130 130
A
B
C
selejt
I.
17
28.3
13.4
8.2
II.
16
26.7
12.6
7.8
4.5. táblázat
A nullhipotézis az, hogy a termékek minôsége nem függ a gyártól, az ellenhipotézis pedig az, hogy függ. (A null- és ellenhipotézis matematikai formába öntése már e fejezet bevezetôjében megtörtént.) Kiszámítjuk a 2 4 (O − E )2 ij ij
∑∑ i =1 j =1
Eij
próbastatisztikát, melynek értéke esetünkben 16.35. Az α = 0. 05 szignifikanciaszinthez és (21)(4-1)=3 szabadságfokhoz tartozó kritikus érték 7.81. Eszerint a nullhipotézist el kell utasítanunk. A termékek minôsége függ a gyártól.
Megjegyzés. 2× 2-es táblázat esetén a fenti próbastatisztika helyett a
98 2
2
∑∑ i =1 j =1
(O
ij
− Eij − 0.5
)
2
Eij
próbastatisztika használható. Az eredeti próbastatisztika ílymódon való átalakítását YATE-féle korrekciónak hívjuk.
99
5. Varianciaanalízis
5.1. Egyszeres osztályozású varianciaanalízis A varianciaanalízist akkor alkalmazzuk, amikor kettônél több populáció várható értékét kell összehasonlítanunk. A gyakorlatban olyan problémák megoldására használjuk, ahol egy mérhetô tulajdonságra egy tényezô vagy különbözô tényezôk gyakorolnak hatást. A hatás mértékétôl függôen mintákkal rendelkezünk, melyeket úgy tekintünk mintha különbözô populációból származnának. Azt vizsgáljuk, hogy beszélhetünk-e azonos várható értékû populációkról, vagy nem. Ha igen, úgy a vizsgált tényezônek vagy tényezôknek nincs hatása a megfigyelt mérhetô tulajdonságra. A könnyebb érthetôség kedvéért tekintsünk erre egy példát. Egy faipari kutató intézetben négy különbözô eljárással készítettek faroslemezt, és minden egyes eljárást hatszor megismételtek. Az eljárások különbözôségét az adta, hogy az apríték feltárását mind a négy esetben azonos gôznyomáson, de változtatott gôzölési idôvel végezték, majd mérték a lemezek hajlítószilárdságát. Az apríték minôsége és összetétele megegyezô volt mind a négy esetben. Az 1-es és 2-es eljárásnál a gôzölési idôt megnövelték a 3-as és 4-es eljárás idejéhez képest. A késztermékek hajlítószilárdságát mérve (N/cm2) a következô adatokat jegyezték fel. 1. eljárás
2. eljárás
3. eljárás
4. eljárás
420
412
442
438
428
418
446
427
443
422
452
445
427
436
434
448
430
420
425
441
418
415
450
440
5.1. táblázat
Az eddigi tanulmányok alapján ismeretes már két populáció várható értékének statisztikai összehasonlítása, melyet most is elvégezhetnénk. A mi esetünkben azonban négy különbözô
100 populáció (ismeretlen várható értékük rendre µ1 , µ 2 , µ 3 , µ 4 ) miatt a lehetséges összehasonlítások 4 száma = 6 . 2 Belátható tehát, hogy az összehasonlítások számának növekedésével a fenti megoldás egyre nehézkesebbé és idôigényesebbé válik. Ilyen esetekben alkalmazhatjuk a varianciaanalízist, ami lehetôvé teszi az összehasonlításokat egyetlen próbával. Mielôtt azonban ezt megtennénk, feltételként fogadjuk el, hogy a populációk azonos szórásnégyzetûek. (A szórásnégyzetek azonosságának vizsgálatát a késôbbiekben tárgyaljuk.) Feltehetô-e a várható értékek, példánkban µ1 , µ 2 , µ 3 , µ 4 egyenlôsége? Azaz befolyásoló tényezônk a gôzölési idô gyakorol-e számottevô hatást a mérhetô tulajdonságra, a hajlítószilárdságra? Táblázatunk 24 különbözô hajlítószilárdsági adatot tartalmaz, melyek varianciájának két okát fogjuk vizsgálni és számszerûsíteni. A populációk σ2 szórásnégyzetére két különbözô becslést is adhatunk. Mielôtt rátérnénk ezen becslések számítására, írjunk fel egy általánosabb feladatot a különbözô jelölések bevezetése végett. A csoportok (konkrét példánkban eljárások) száma k. A csoporton belül az ismétlések száma n. k : csoportok száma ( i = 1,2,K, k ), n : ismétlések száma ( j = 1,2,K, n ), : az adathalmaz általános eleme, xij Ti : az i-edik csoport adatainak összege, xi : az i-edik csoport adatainak átlaga, T : az összes adat összege, x : az összes adat átlaga. A vizsgált populációk szórásnégyzetének egyenlôségébôl kiindulva, a közös σ2 -re a következô két becslést adhatjuk. Az elsô legyen az egyes minták korrigált szórásnégyzeteinek átlagával becsült σ2 , ahol a szórásnégyzetek súlyozott átlagát jelölje 2 k n ( xij − xi ) ∑ ∑ j =1 i =1 . S B2 = k (n − 1)
A tört nevezôjében szerepel SB2 szabadságfoka, melyet a számlálóban szereplô független ill. függô adatok különbsége ad. (Minden csoporton belül n adatból 1 függô az xi miatt.) Ebben az összefüggésben az egyes mintaadatok a minta átlagától való eltérése szerepel, ezért a mintán belüli eltérésnégyzetnek ill. szórásnégyzetnek is nevezik, vagy másképpen mintán belüli hibának. A másik becslési lehetôség SK2 , a minták átlagainak fôátlagtól való eltérésekkel való számítása. k
S K2 =
∑ (x i =1
− x)
2
i
k −1
n .
101 SK2 szabadságfoka k-1, melyre a számlálóból következtethetünk xi (k db), valamint x fôátlag (1 adat) különbségeként. SK2 -et a minták közötti eltérésnégyzetnek ill. szórásnégyzetnek is nevezzük. Tovább vizsgálva a becsléseket az elsô közülük torzítatlan becslést ad a populációk közös szórásnégyzetére. σ B2 = E S B2 = σ 2 . A második esetben a helyzet megváltozik, n k σ K2 = E S K2 = σ 2 + ∑ (µ i − µ ) , k − 1 i =1 a becslés nem torzítatlan. Összehasonlítva σ 2B és σ 2K összefüggéseit, amennyiben az egyes
( )
( )
populációk várható értékei egyenlôek, tehát µ1 = µ 2 = K = µ , akkor
k
∑ (µ i =1
i
− µ ) = 0 , azaz
σ 2B = σ 2K . Így felállítható a nullhipotézis. H 0 :µ1 = µ 2 = K = µ .
H1: a populációk várható értékei között van legalább egy eltérô. Ha tehát teljesül H0, úgy σ 2B = σ 2K , ha nem teljesül H0, akkor σ 2K > σ 2B . A varianciaanalízissel csak azt dönthetjük el tehát, hogy a populációk várható értékei eltérôek vagy sem, illetve hogy van közöttük legalább egy, amelyik eltér a többitôl. Annak meghatározására, hogy melyik az eltérô vagy melyek azok, ehhez egy további vizsgálat szükséges, amire a késôbbiekben még visszatérünk. Tekintsük most a varianciaanalízis gyakorlatban alkalmazott számítási módszerét, ami kevésbé idôigényes. Az SB2 és SK2 kifejezések számlálói is alkalmasak az adatok szóródásának mérésére, melyeket ezentúl SSB -vel és SSK -val jelölünk (SS : sum of squares) és mintán belüli és minták közötti eltérésnégyzetösszegnek nevezzük. Felhasználva az összes vagy teljes eltérésnégyzetösszeget (SST), ami az adatok fôátlagától való eltérésnégyzetösszege SS T = ∑∑ (xij − x ) k
n
2
i =1 j =1
a következô összefüggést írhatjuk fel SS T = SS B + SS K .
Kifejtve az összefüggést az alábbi egyenlôséget kapjuk k n k n k (xij − x )2 = ∑ ∑ (xij − xi )2 + n ∑ (xi − x )2 ∑∑ i =1 j =1 i =1 j =1 i =1 Az egyes tagok szabadságfokait vizsgálva is fennáll egy egyenlôség, miszerint kn-1=k(n-1)+(k-1).
102 A szabadságfok számítását már az elôzôekben megadtuk, miszerint vegyük független adatainkat, SST esetében ez kn db, valamint az egy darab függô adat különbségét. Az egyes négyzetösszegek felírhatók más összefüggésben, (lásd 1.2., korrigált szórás) így a következôképpen: k n k T2 T2 T2 SS T = ∑ ∑ xij2 − , SS K = ∑ i − , SS B = SS T − SS K . kn kn i =1 n i =1 j =1 Az SB2 és SK2
varianciák meghatározhatók a már ismert négyzetösszegekbôl a
szabadságfokokkal történô osztással: SS B S B2 = = MS B (MS : mean of squares), k (n − 1) SS k SK2 = = MS k ahol MSB , MSK átlagos négyzetösszegek. k −1 az átlagos négyzetösszegek ismeretében már vizsgálhatjuk nullhipotézisünket, mégpedig MS K egy F-próba segítségével F = . Ha az F > F(k −1,k (n −1)),α egyenlôtlenség fennáll akkor a MS B nullhipotézist α szignifikanciaszinten elvetjük és kimondjuk, hogy az átlagok eltérôek, ill. egy eltérô legalább van közöttük. Varianciaanalízis táblázatunk a következô. A variáció oka minták közötti mintán belüli (kísérleti hiba) teljes variáció
Szabadságfok
Négyzetösszegek
Átlagos négyzetösszegek
k-1
SSK
MSK
k(n-1)
SSB
MSB
kn-1
SST
Számított F érték MS K F= MS B
5.2. táblázat
Nézzük most konkrét feladatunkat, melyben négy különbözô eljárással készítettek farostlemezt, hatszor ismételve az eljárásokat. Vizsgáljuk, hogy van-e különbség az eljárások között. k n T2 SS T = ∑ ∑ xij2 − = 3351. 625 , kn i =1 j =1
103 Ti 2 T 2 SS K = ∑ − = 1812. 458 , kn i =1 n k
SSB=1539.167 . Táblázatba foglalva az eredmények az alábbiak. Szórásnégyzet oka
Szabadságfok
Négyzetösszegek
Átlagos Számított négyzetösszegek F érték
Eljárás
3
SSK=1812.458
604.153
Kísérleti hiba
20
SSB=1539.167
76.958
Teljes
23
SST=3351.625
7.85
5.3. táblázat
Mivel 7.85 > F(3, 20 ),0.05 = 3.1 , így H0:µ1 = µ 2 = µ3 = µ4 elvetendô, tehát az átlagok között egy legalább eltér a többitôl. A feladatunk szempontjából ez azt jelenti, hogy a gôzölési idô számottevô hatást gyakorol a hajlítószilárdságra, és így további vizsgálatokra lehet szükség. A varianciaanalízis alkalmazhatóságának feltételei: - a populációk, melyekbôl a mintákat vesszük normális eloszlásúak kell, hogy legyenek; - szórásnégyzetei egyenlôk ( σ 12 = σ 22 = K = σ k2 ); - a minták vétele véletlenszerû; - a minták adatai függetlenek egymástól. Amennyiben a fenti követelményeknek eleget teszünk és a varianciaanalízist elvégeztük, úgy az alábbi képlettel számíthatjuk az átlagok standard hibáját, majd ennek ismeretében képezhetjük a várható értékek konfidenciaintervallumait. Az átlagok standard hibája: MS B , Sxi = n a konfidenciaintervallum: P xi − t k (n −1),α / 2 S xi < µ i < xi + t k (n−1),α / 2 S xi = 1 − α .
(
)
Ebben a konfidenciaintervallum képletben t szabadságfokát a mintán belûli, vagy másképpen kísérleti hiba k (n − 1) értéke adja. Mivel ez a csoportátlag intervallumbecslésénél használt szabadságfok pontosan k-szorosa, így nagyobb lévén – egy ugyanazon 1− α biztonsági szintnél – pontosabb becslést ad.
104 Meg kell továbbá említenünk, hogy természetesen általánosítható az eljárás arra az esetre, amikor a csoportonkénti minták száma nem egyenlô (n), hanem (ni ). Ez azonban az elvi lényegi eljáráson nem változtat. A varianciaanalízissel sikerül eldöntenünk tehát, hogy a várható értékek eltérôek vagy sem. Annak meghatározása azonban, hogy melyik melyiktôl különbözik, további vizsgálódást igényel. Ezen feladat megoldására alkalmazhatjuk az úgynevezett többszörös terjedelem próbákat. Ezek közül ismerkedjünk meg a DUNCAN-féle többszörös terjedelem próbával. Az eljárás során olyan populációkat keresünk az adottak között, melyek várható értékei homogéneknek tekinthetôk. Ez azt jelenti, hogy a megadott szignifikanciaszinten az egymástól való eltérésük elhanyagolható, így egyenlôknek vehetôk. A számítást a mintákból vett átlagokkal ill. az átlagok állandó hibájával végezzük. Keressük a homogén átlagok részhalmazait oly módon, hogy a legkisebbiktôl való eltérést figyelve, az egy elôre megadott értéket ne haladjon meg. Ezen elôre megadott érték a legkisebb szignifikáns terjedelem (LSRP: least significant range). LSR p = Sxi ⋅ SSR p . SSRP a legkisebb szignifikáns terjedelem együtthatója a DUNCAN-féle táblázatból vehetô, α szignifikanciaszint, p = 2,3,K, k ; k =az összehasonlítandó átlagok száma, valamint MSB szabadságfoka függvényében. A próba végrehajtását a könnyebb érthetôség érdekében konkrét feladatunkon végezzük el. 1. Meghatározzuk az átlagok állandó hibáját: MS B 76. 985 Sxi = = = 3.58 . n 6 2. A próba szignifikanciaszintjét válasszuk α =5%-os értéknek. 3. A legkisebb szignifikáns terjedelem együtthatóit a DUNCAN-féle táblázatból vesszük.( νaz MSB szabadságfoka.) p ν 2 3 4 M M M M 20 2.95 3.097 3.19 LSR p = SSR p S xi 10.6 11.1 11.4 4. Átlagainkat növekvô sorrendbe rendezzük és képezzük azok különbségeit összehasonlítva az LSRp értékekkel.
átlagok
2.
1.
4.
3.
420.5
427.7
439.8
441.5
5.4. táblázat
105 Így például két átlag összehasonlítása esetén az 1 és 2 számokkal jelölteknél a különbségük kisebb a kritikus értéknél (427.7-420.5
l0.6). Ha a 2 és 4 számút választjuk, ahol a terjedelem három átlagot ölel fel (439.8420.5>11.1), így LSR=11.1, szintén szignifikáns eltérés mutatkozik. Elvégezve a lehetséges és szükséges átlagkülönbségek összehasonlítását, a homogéneket közös vonallal húzzuk alá, ezen értékek eltérései nem szignifikánsak. Megállapíthatjuk, hogy az elsô és második eljárással készült farostlemezek hajlítószilárdsága szignifikánsan alacsonyabb, mint a hármas és négyes eljárással készítetteké, ami azt jelenti, hogy a gôzölési idô növelése nem kedvezô, jelentôs mértékben ronthat a vizsgált tulajdonságon. Mivel tehát a varianciaanlízis során a csoportok között szignifikáns eltérés mutatkozott alkalmaztuk a DUNCAN-féle többszörös terjedelem próbát. Szükséges itt megemlíteni, hogy számos próba ismeretes így DUNN, DUNETT, TUKEY, SCHEFFE, NEWMAN-KEULS stb. melyek segítségével kiszürhetjük az összehasonlítandó átlagok közül azt, vagy azokat, melyek szignifikánsan eltérnek a többitôl. A próbák közül azonban egyik sem tökéletes. Vegyük példaként az elsôfajú hibát, ill. annak valószínûségét a szignifikancia szintet α-t. Ha α = 0.05 és több átlagot kell összehasonlítani (az összehasonlítandók száma m) m_____________α 1 1 - 0.95 = 0.05 A példa mutatja, hogy az összehasonlítások 2 2 1 - 0.95 = 0.0975 számának függvényében valamilyen 3 3 1 - 0.95 = 0.1426 korrekciót kellene alkalmazni. 10 10 1 - 0.95 = 0.4013 Erre a BONFERRONI-próba ad lehetôséget. MS B Egy átlag hibájából kiindulva: Sxi = . Az átlagok különbségének hibája: ni Sxi − x j =
MS B MS B , ha ni = n j , akkor Sxi − x j = + ni nj
2 MS B . n
Az átlagok hibájának ismeretében egy kritikus differenciát számíthatunk, melynek jelentôs elônye a többi többszörös terjedelem próbával szemben, hogy korrigálja az elsôfajú hibát. A kritikus differencia: KD = t α Sxi − x j (m az összehasonlítások száma) ν,
2m
Ha tehát xi − x j > KD akkor a két átlag szignifikánsan eltér. Konkrét feladatunk által tisztán látható a varianciaanalízis kedvezô használhatósága. Térjünk azonban vissza az alkalmazhatósági feltételekhez. Ezek egyike megköveteli az egyes populációk szórásánégyzetének egyenlôségét σ 12 = σ 22 = K = σ k2 . A feltétel vizsgálatára leggyakrabban az ún. BARTLETT-próbát alkalmazzuk. A b próbastatisztika jól közelíthetô a χ2 valószínûségi változó eloszlásával, ha a k darab véletlen minta normális eloszlású populációból származik.
106 H0: σ12 = σ22 =K = σ 2k H1: legalább egy a szórásnégyzetektôl eltérô. A próba végrehajtásához az alábbiakban adjuk meg a felhasználandó formulákat, arra az esetre, ha a minták elemszáma azonos. A minták elemszáma n, darabszámuk k, így az összes adat száma N=nk. Az összevont szórásnégyzetet S p2 -tel jelöljük, kiszámítása a következô módon történik k
S p2 =
∑ (n i =1
i
− 1)S i2
N −k ( N − k = k (n − 1) és az S p2 = MS B ). A b statisztika számításához szükséges q és h értékeket az alábbiakban adjuk meg. k 1 k 1 1 ∑ . − q = ( N − k )lg S p2 − ∑ (ni − 1) lg S i2 ; h = 1 + 3k − 3 i =1 ni − 1 N − k i =1 q q A b próbastatisztikát a b = ln (10 ) ≈ 2.3026 összefüggésbôl számítjuk, és amennyiben h h 2 b > χ k −1,α , akkor H0-t elvetjük. Ez tehát azt jelenti, hogy legalább egy a szórásnégyzetek közül eltér, a varianciaanalízis nem hajtható végre.. Példánkban kiszámítva a BARTLETT-próba a következô. Felírva a nullhipotézist H0 :σ12 = σ22 = σ23 = σ24 . H1: legalább egy különbözik. Megválasztjuk az α = 0. 01 szignifikanciaszintet. Meghatározzuk a táblázatbeli χ2 értékét: χ23,0.01 = 11. 3 . Kiszámítjuk a szükséges statisztikákat: MSB= 76.958 = S p2 , q= (24-4) lg76.95-5(lg78.67+lg70.3+lg106.3+lg52.56)=0.2753, 1 4 1 h = 1+ − = 1.0833 , 3 ⋅ 4 − 3 5 24 − 4 0. 2753 b = 2. 3026 = 0.585 . 1. 0833 Mivel b értéke nem haladja meg χ23,0.01 = 11. 3 -t, így H0-t elfogadjuk, azaz a szórásnégyzetek egyenlôknek vehetôk.
5.2. Kétszeres osztályzású varianciaanalízis Adataink elôzôekben tárgyalt vizsgálati módszerénél a minták választása az egyes gyártási eljárások különbözôségén alapult. Nevezetesen arról volt szó, hogy az elsô két populációnál
107 megnövelték a gôzölési idôt, a másik kettônél pedig csökkentették. A gôzölési idônek tehát, mint külsô befolyásoló tényezônek vizsgálták a hatását a lemezek hajlítószilárdságára. A feladat tovább bôvíthetô, ha az elôzôekben állandó értéken tartott gôznyomást változtatjuk. Ilyen formában az egyes gôzölési idôértékekhez hozzárendelhetjük a gôznyomás egy elôre megadott értéksorozatát. Maga az osztályozás tehát kétszeres, a vizsgált tulajdonságot, a hajlítószilárdságot tehát két tényezô ill. azok kölcsönhatása befolyásolhatja. Ekkor használjuk a kétszeres osztályozású varianciaanalízist. Általánosított formában adatainkat a következôképpen rendszerezhetjük.
OFj SFi SF1
l=1 2 M n
OF1
...
OFm
x111 x112 M x11n
... ...
x1m1 x1m2 M x1mn
...
n
n
O1 j = ∑
S1 = ∑ S
l =1
M
M l=1 2 M n
SFk
...
O1m
M
M
M
M
xk11 xk12 M xk1n
... ...
xkm1 xkm2 M xkmn
Sk1 Sk2 M Skn
...
n
Okj = ∑
Sk = ∑
...
Ok1
l =1
Okm k
k
T = ∑ Si =
Oj = ∑ i =1
l =1
O11
n
l =1
S11 S12 M S1n
i =1
O1
...
Om
5.5. táblázat
Mért adataink xijl , i=1,2,...,k az egyik faktor (gôznyomás: SFi) értéksorozatához
tartozó mérések,
108 j=1,2,...,m a másik faktor (gôzölési idô: OFj) értéksorozatához
tartozó mérések, l=1,2,...,n egy adott xij faktorpárhoz (egy tetszôleges fix gôznyomás és gôzölési idôhöz) tartozó mérések. A csoportosítást az oszlop- és sorfaktor szerint végezzük, és így az 5.5. táblázatot kapjuk. Az egyszeri osztályozású varianciaanalízishez hasonlóan itt is felírjuk a nullhipotézist. H0 : a) E (SFi ) = áll. = µ , b) E (SF j ) = áll. = µ , c) nincs a két faktor között kölcsönhatás. A gyakorlati számítás itt is a négyzetösszegekbôl képezhetô összefüggésre épül, ahol SST=SSSF+SSOF+SS O × S +SSH A variáció oka
Szabadságfok
Oszlopfaktor okozta különbözôség Sorfaktor okozta különbözôség
m-1
k-1
Négyzetösszegek
Átlagos négyzetösszegek
SSOF
SSSF
F számított
MSOF
MS OF MS H
MSSF
MS SF MS H MS O × S MS H
Kölcsönhatás
(k-1)(m1)
SS O × S
MS O × S
Kísérleti
km(n-1)
SSH
MSH
Teljes
kmn-1
SST 5.6. táblázat
(Például SS O × S a kölcsönhatás okozta variáció.) A számításhoz a következô formulákat alkalmazhatjuk. k
m
n
SS T = ∑ ∑ ∑ xijl2 − i =1 j =1 l =1 k
SS SF = ∑ i =1
Si2 −K nm
T2 , knm
, SS OF
T2 = K (korrigáló faktor), knm m O2j =∑ −K j =1 kn
109 k
m
SS O × S = ∑ ∑ i =1 j = 1
Oij2 n
− K − SS SF − SS OF ,
SS H = SS T − SS SF − SS OF − SS O × S
Az 5.6. táblázatot elkészítve elvégezhetjük az F-próbákat. Ha a kölcsönhatás nem szignifikáns, akkor a két faktor átlagait egymástól függetlenül vizsgálhatjuk BONFERRONI próbával vagy DUNCAN-féle többszörös terjedelem próbával. Ha nullhipotézisünk vizsgálata során a kölcsönhatás okozta eltérés szignifikáns, akkor további vizsgálatokat kell végezni. Azaz az egyik tetszôlegesen választott faktor hatását a másik faktor függvényében (azon belül) vizsgáljuk. Ábrázolva átlagainkat például a következô esetekkel találkozunk.
5.1. ábra
Az 1. esetben nincs szignifikáns kölcsönhatás. A 2. esetben szignifikáns a kölcsönhatás, nem közömbös a két faktor egymásrahatása. A 3. esetben van szignifikáns kölcsönhatás, CF1 esetében az SF hatása pozitív és lineáris, a CF2 esetében pedig negatív és lineáris. Hasonlóan az egyszeri osztályozású varianciaanalízishez, itt is számíthatjuk az állandó hibákat: MS H - a kölcsönhatásra: S xO× S = n
110
- a sorfaktorra: - az oszlopfaktorra: SxO =
S xS =
MS H nm
MS H kn
- két sorfaktor átlagkülönbségére: SOi − SO j =
2 MS H nm
A fenti értékek ismeretében pedig konfidencia intervallumokat képezhetünk, melyek további információkat szolgáltatnak adatainkra, illetve kísérletünkre vonatkozólag. Alkalmazva az elôzôeket, nézzünk most egy konkrét feladatot. A kísérlet során egy erdeifenyô csemetés növekedését vizsgálják három periódusban. a csemetekert egyik felében mesterségesen beavatkoznak földjavítással, a másik felét mint kontrollt hagyják kezelés nélkül. Vizsgáljuk meg, hogy van-e az egyes periódusok, valamint a kontroll és kezelt terület finak növekedése között különbség. (Adataink mm-ben)
kontrollterület
kezelt terület
I. periódus 74 77 73 80 92 83 87 90
II.periódus 86 78 80 88 83 95 86 92
III.periódus 82 89 91 86 91 84 83 90
5.7. táblázat
A számításokat elvégezve az 5.8. varianciaanalízis táblázatot kaptuk. Elsôként a kölcsönhatást vizsgálva legyen a nullhipozézis, hogy nincs kölcsönhatás. A számítás eredménye azonban ezt megcáfolja. 72 F= = 3. 93 . 18. 3
111
variáció oka
szabadságfok
oszlopfaktor idôperiódusok
2
sorfaktor kezelésbôl adódó különbség
variáció oka
112.0 216.0
1
átlagos négyzetösszegek 56.0
216.0
kölcsönhatás
2
144.0
72.0
hiba
18
330.0
18.3
teljes
23
802.0 5.8. táblázat
Ha
F(2,18 ),0.05 = 3.55
értékkel összehasonlítjuk eltérésünk szignifikáns,
azaz
van
kölcsönhatás. Ábrázolva adatainkat megállapíthatjuk, hogy a növekedés mértéke más a kezelt és a kezeletlen területen. Ezenkívül az egyes periódusokban is különbség mutatkozik köztük, így a legnagyobb az eltérés az 1 periódusban, míg a harmadikban nincs eltérés.
5.2. ábra
112
6. Regressziószámítás és korrelációs analízis
Az erdészeti és faipari üzemi feladatok megoldása, továbbá kutatási problémák, mûszaki vagy biológiai területrôl jelentkezô elemzési igénye során fontos lehet különbözô jelenségek vagy mennyiségek kapcsolatának a meghatározása. Ilyenkor ezek egymástól való függésének milyenségét és mértékét vizsgáljuk. A kapcsolat lehet funkcionális – függvénykapcsolat –, amelynél az összefüggés jól definiált. Elôfordul azonban számos eset, amikor a változó mennyiségek (kísérleti mérési adatok) között nem teljesen határozott az összefüggés, alakulásukban a véletlen is szerepet játszik. Ebben az esetben sztochasztikus kapcsolatról beszélünk, melynek vizsgálati módszere a regressziószámítás és korrelációs analízis. A sztochasztikus kapcsolat szorosságát a korrelációs analízis vizsgálja, η, ξ valószínûségi változók esetén Ω eseménytéren a E{(η − E(η ))(ξ − E(ξ ))} ρ= D(η )D(ξ ) hányadossal, melyet korrelációs együtthatónak nevezünk. Ennek gyakorlati alkalmazására az egyes regressziószámításokat követôen még visszatérünk. A regressziószámítás során valószínûségi változók – esetünkben kísérleti adatok – kapcsolatát elemezzük, törvényszerûséget keresve közöttük. A kapcsolat alakulását, tendenciáját a regressziós függvénnyel jellemezhetjük. Csoportosítva ezeket a következô osztályozás lehetséges: 1.) Egyszerû lineáris regresszió, 2.) Többváltozós lineáris regresszió, 3.) Egyszerû nemlineáris regresszió, 4.) Többváltozós nemlineáris regresszió. A két utóbbi csoport esetében még további felbontás lehetséges aszerint, hogy bizonyos nemlineáris modellek megfelelô átalakítással lineárissá tehetôk. Ezen átalakítások azonban a modellek csak igen szûk körében hatásosak.
6.1. Egyszerû lineáris regresszió Az egyszerû lineáris regresszió célja azon egyenes meredekségének és tengelymetszetének a meghatározása, amely a lehetô legjobban közelíti az ponthalmazunk (xi , yi ) – feltételezett lineáris – sztochasztikus kapcsolatát. Az (xi , yi ) ponthalmazunk, ill. mintánk adatpárjai egy olyan populációból származnak, mely egyedeinek két tulajdonságát (xi , yi ) mérjük. Mintánk
113 adatpárjainak választása véletlenszerû. Ezáltal lehetôség nyílik tetszôleges, a kísérletre értelmezhetô, független x i változóból a regressziós egyenes által y i függô változó kiszámítására. A ponthalmaz ismeretében a regressziós egyenes meghatározásának egy módszere a következô. Elsô lépésben a teljes populációból tehát egy mintát vettünk, majd képezzük az összetartozó (xi , yi ) értékpárokat, melyek a kísérleti adataink. Ezen értékeket koordináta rendszerbe ábrázolva megkapjuk a már említett ponthalmazt.
6.1. ábra
Fektessünk egy általános egyenletû egyenest a ponthalmazra, melynek egyenlete y = ax + b . Feladatunk ezután az említett egyenes legjobb illeszkedésének biztosítása, melyet a 6.2. ábra illusztrál.
6.2. ábra
e i : pontjaink y irányú elôjeles eltérései az illesztendô egyenes pontjaitól, y i : P i második koordinátája (mérési adat),
114 A legjobb illeszkedést azzal a feltétellel biztosítjuk, hogy pontjainknak az egyenestôl yirányban való eltéréseinek négyzetösszege minimális legyen, azaz n
min ∑ e2i
(n az adatpárok száma),
i =1
Megjegyzés. n
A
∑e
i
– az ábrából megállapítható – elôjel különbözôség végett téves, mivel az eltérések
i =1
összege akár nullát is eredményezhet, amibôl viszont nem következik az, hogy a pontok valóban az egyenesen vannak. Emiatt szükséges a távolságnégyzetek használata. n
Legyen F (a, b ) = ∑ e i2 = = i =1
n
∑ i =1
2
[y i - ax i - b] .
Matematikailag egy kétváltozós függvény minimumát keressük, melynek módszere a Matematika II-bôl már ismeretes. Képezzük az F (a, b ) függvény parciális deriváltjait n ∂F = 2 ∑ (y i - ax i - b) (-x i ), ∂a i =1 n ∂F = 2 ∑ (y i - ax i - b) (-1). ∂b i =1 Ismert, hogy a szélsôérték létezésének szükséges feltétele, hogy azon a helyen a parciális deriváltak értéke nulla (l. Matematika II.), azaz ∂F = 0 ∂a . ∂F =0 ∂b Így meg kell oldani a ∑ x i (y i − ax i − b) = 0 ∑ (y i − ax i − b) = 0 lineáris egyenletrendszert, ahol a
∑
n
feleljen meg az egyszerûség végett
∑ i =1
∑ x y − a ∑ x − b ∑ x = 0 . ∑ y − a ∑ x − n b = 0 i
2 i
i
i
i
i
Az egyenletrendszert átrendezve, majd a-ra, illetve b-re megoldva: a ∑ x i + nb = ∑ y i a ∑ x i2 + b ∑ x i = ∑ x i y i
-nek. Ebbôl
115 a=
∑y ∑x − n∑x y ∑x − n∑x i
i
i i
2
2 i
i
valamint b=
,
∑x ∑x y −∑x ∑y ∑x − n∑x i
2 i
i i 2
i
2 i
i
eredmény adódik. A nevezô nem nulla, az xi számok mind különbözôk, és tudjuk (Matematika I.), hogy a kvadratikus közép nagyobb a számtaninál. Egyenesünk a és b jellemzôinek számítása során megemlítjük, hogy x és y bevezetésével a fenti képletek a következôk lesznek. ∑ x i − x y i − y = SPxy , a= 2 SS x ∑ xi − x
(
(
)(
)
)
b = y − ax . ( SPxy = korrigált szorzatösszeg, SS x = korrigált négyzetösszeg.) Az egyenletrendszer megoldása történhet mátrixaritmetrikai úton. A korábbi egyenletrendszer ∑ x i n a ∑ y i = 2 ∑ x i ∑ x i b ∑ x i y i
alakban írható. A mátrix inverzével balról szorozva kapjuk a −1
a ∑ x i n ∑ y i b = x 2 ∑ i ∑ x i ∑ x i y i egyenletet. A meghatározott regressziós egyenesünk ( y = ax + b ) a következô tulajdonságokkal rendelkezik: 1.) Az egyenes áthalad a P(x, y) ponton. 2.) Az e i maradékok összege n
∑ i =1
n
∑
3.) A
i =1
∧
(y i - y i )
2
∧
(y i - y i ) = 0.
minimum értéket ad (a bizonyítást lásd kétváltozós függvények
szélsôérték létezésének elégséges feltétele (Matematika II.)). A fenti állítások egyszerû behelyettesítésekkel igazolhatók, melyek bizonyítását az olvasóra bízzuk. Megjegyzés. A ∑ (x i y i ) kifejezés az úgynevezett korrigálatlan szorzatösszeg,
a
∑x
2 i
a korrigálatlan négyzetösszeg,
116
∑ (x - x ) (y - y ) = SP - korrigált szorzatösszeg ( ∑ xy − (∑ x )(∑ y )/ n ), a ∑ (x − x ) = SS - korrigált négyzetösszeg ( ∑ x − (∑ x ) / n ).
a
i
xy
i
2
i
2
2
x
6.1.1. A regressziószámítás adatokra vonatkozó feltételei Ahhoz, hogy a regressziószámításunkból megfelelô eredményre jussunk, nem kielégítô csupán az, hogy a pontok illeszkedése megfelelô. Adatainknak a következô feltételeknek kell eleget tenni. 1.) A modell, amit illesztünk a populációra, valóban fennáll, azaz a populációból származó egyedeink két tulajdonságára µ y / xi = αxi + β lineáris összefüggés teljesül, ahol µ y / x i azon y értékek átlaga, amelyek x i -hez tartoznak; 2.) A különbözô független változó x i értékekhez tartozó lehetséges y i halmazok normális eloszlásúak. Korábban már szó esett arról, hogy mit jelent a populáció értékeinek normális eloszlása.
6.3. ábra
3.) A különbözô x értékekre az y értékek szórásnégyzetei egyenlôk kell, hogy legyenek. 2 2 2 σ1 = σ 2 = ... = σ k 4.) Bármely x-hez tartozó y érték független a többi x-nél mért y értéktôl. 5.) Regressziószámítás esetén az x értékeket szabadon választhatók, például a hibás ítéleteket nem kell figyelembe venni. 6.) Az x értékek mindegyike rendelkezik egy populációval az y-ra, amelyekbôl az y értékeket véletlenszerûen kell választani.
117
6.1.2. A meghatározott regressziós egyenes elfogadhatóságának vizsgálata A szóródás mérésére alkalmazzuk a korrigált négyzetösszeget. Legyen a regressziós egyenes egyenlete: yˆ = ax + b . Így y i = a x i + b + e i , ahol xi , yi a mért adataink, ei pedig az eltérések. Az 6.4. ábra jól szemlélteti, hogy az y i értékek teljes négyzetösszege (SS T ) felbontható a maradékok (SS M ), valamint a regressziós négyzetösszegekre (SS R ). A három négyzetösszeg és szabadságfoka:
6.4. ábra
SS T = ∑ (y i - y )
szabadságfok n-1
2
∧
SS M = ∑ (y i - y i ) ∧
SS R = ∑ ( y i - y )
2
2
n-2 2-1
SS T = SS M + SS R n - 1 = (n - 2) + (2 - 1)
A szabadságfokokra teljesül, hogy az egyenlô a független és függô adatok számának különbségével. Meg kell jegyezni azonban, hogy a maradékok négyzetösszegénél yˆi két függô adatot rejt magában. A regressziós négyzetösszegek esetén viszont yˆi -t két független adat már meghatározza, míg y egy függô adat, így a szabadságfok egy. Megállapíthatjuk, hogy ha minden pont rajta van az egyenesen, akkor SS M = 0 és SS T =SS R . Ha viszont az egyenes vízszintesen halad, tehát meredeksége nulla, akkor SS R = 0 és SS T = SS M . Ezen meggondoláson alapszik a regressziós egyenes minôsítése, amely szerint jó a regresszió, ha SS R szignifikánsan nagyobb az SS M értékénél. Figyelembe véve, hogy a
118 szórásnégyzeteket a négyzetösszegek szabadságfokokkal történô osztásával kapjuk, a F-próba hipotézise a következô: =σ
2 R
H1 : σ M < σ
2 R
H0 : σ
2 M
2
σ R2 illetve 2 = 1 , σM σ2 illetve 2R > 1 . σM
Az 6.4. ábrából a populációra is levonható az a következtetés, hogy számunkra az a kedvezô, ha a regresszió okozta szórásnégyzet meghaladja a maradékét, azaz az yi értékek szerepe jelentôsebb. Egy oldalú próbát alkalmazva SSR F1,(n − 2) = 1 . SSM n− 2 Ha H 0 -t elutasítjuk, akkor azt mondhatjuk, hogy az y értékek változása meghaladja jelentôsen a maradékok okozta változást, az eltérés szignifikáns, a regressziós egyenes jó. A próba adataink táblázata:
Szórásnégyzet
Szabadságfok
Négyzet-összeg
oka
Átl.
Számított F
négyzetösszeg
Regresszió
1
SS R
Maradék
n-2
SS M
Teljes
n-1
SS T
MSR
MSR MSM
MSM
6.1. táblázat
A gyakorlatban használatos formulák: SS T = ∑ y i2 − (∑ y i ) /n 2
SS R =
a SPxy
SS M = SS T - SS R
SPxy : korrigált szorzatösszeg
119 A kiszámított SS R és SS T értékbôl képezhetjük hányadosukat, melyet meghatározottsági 2
együtthatónak nevezünk, jele: r . (Maximális értéke 1, ha az összes pont illeszkedik a regressziós egyenesre.) Négyzetgyöke a korrelációs együttható: SSR SS 0 < r < 1. ; r 2 = R ill. r = SST SST Megadható azonban a korrelációs együttható a következô formulával SPxy . r= SSx ⋅ SSy Mivel SPxy = ∑ ( xi − x )( y i − y ) korrigált négyzetösszeg lehet negatív elôjelû is, így megadja a regressziós egyenes meredekségének elôjelét. A korrelációs együttható arra is használható, hogy statisztikailag ellenôrizzük, hogy szignifikáns-e a regresszió. Magas r érték erôs korrelációt jelez. Ha r=1, akkor függvénykapcsolatról beszélünk, ha r<1, akkor az elfogadhatóság vonatkozásában szem elôtt kell tartanunk a kísérlettôl elvárható értéket. (r értékének vizsgálata során a felhasználási terület döntheti el, hogy számára például egy r=0.7 már jónak tekinthetô, avagy elvárja a mérés pontossága végett, akár az r=0.998 értéket. A gyakorlatban r sohasem éri el az egyet.) A pontok szóródását a regressziós egyenes körül jól jellemezhetjük a maradék varianciájának négyzetgyökével. Ezt mozgó szórásnak is nevezzük. Sy⋅x = MSM A regressziószámítás feltétele (6.1.) miatt igaz, hogy a pontok 68%-a az egy Sy⋅x távolságnyira (a távolságot y irányban mérve, 95%-a pedig két Sy⋅x távolságnyira húzott párhuzamos egyeneseken belül található.
6.5. ábra
120
6.1.3. További vizsgálatok a lineáris regresszióra A regressziós egyenes a és b értékeinek számítása során nem a teljes populációt használjuk, hanem abból egy mintát. Könnyen belátható, hogy minden egyes újabb és újabb minta esetén változást észlelhetünk az egyenletben, tehát számíthatnánk a és b sorozatait. Igaz azonban, hogy amennyiben a populációra fennáll a µ y/ xi = Axi + B
egyenlet, akkor a és b egy-egy pontbecslés A-ra és B-re. A becslés megbízhatóságát konfidencia intervallumok felállításával vizsgálhatjuk, melyek feltételei és törvényei a következôk. 1.) A regressziós egyenes egyenletében a, b és yˆ x i értékek valószinûségi változók. 2.) E ( a i ) = A; E ( bi ) = B és E ( yˆ x i ) = µ y/ x i (Az a statisztikák várható értéke A, stb.)
3.) Az a, b és yˆ x i valószínûségi változók normális eloszlásúak, ha n ≥ 30 , egyébként közelíti a normális eloszlást. 4.) Az a meredekség, b tengelymetszet, valamint az yˆ x k statisztikák állandó hibái a következôk: MSM ; SSx
Sa =
Sb =
MSM ⋅ ∑ xi2 n⋅ SSx
1 (x − x ) 2 S yˆ k = MS M + k SS x n
Ismervén a statisztikák szórásait, illetve állandó hibáit, felírhatjuk a konfidenciaintervallumokat. P(a − t Sa < A < a + t α α Sa ) = 1 − α (n − 2),
P(b − t P(yˆ x k − t
(n − 2),
2
(n − 2),
(n − 2),
α 2
Sb < B < b + t
α 2
2
(n − 2),
S yˆ x < µ y x < yˆ x k + t k
k
α 2
Sb ) = 1 − α
(n − 2),
α 2
S yˆ x ) = 1 − α k
6.1.4. Statisztikai próbák A, B és µ y/ x paraméterekre i
Mindhárom esetben azonosan járunk el. Feltételezzük a nullhipotézisben, hogy a vizsgált paraméter egy konstanssal egyenlô. H0 : B = c Táblázatból kikeressük t
(n − 2 ),
H1 : B ≠ c vagy Bc. α értékét. A számított t érték: 2
121 t n−2 =
b− c Sb
Nem térünk ki a másik két esetre, hiszen a felírás teljesen megegyezik. Megjegyzésként megemlítjük, hogy a meredekség c = 0 esete F-próbába megy át, ami a regressziós egyenes "jóságát" vizsgálja. Végül említést kell tenni, hogy gyakran elôforduló hiba, hogy bár a korrelációs együttható jó kapcsolatot jelez a két változó között, az illeszkedés mégsem kielégítô. Az alábbi ábra jól illusztrálja ezt a problémát. y
y=ax+b
x
6.6. ábra
Látható, hogy az egyenes fölé, illetve alá becsüli a mért y értékeket. A helytelen becslés kimutatható a maradék négyzetösszeg vizsgálatával. Ezen értéket (SS M ) felbontjuk két összetevôre, mégpedig a tiszta hibára, amit az egyes y értékek átlaguktól való eltérése eredményez, illetve az illeszkedési hibára, ami az y értékek yˆ -tól való eltéréseibôl számítható. Megjegyzés. A fenti számítás csak akkor végezhetô el, ha adott x-enként több mérésünk (mj ) van. SS M = SS TH + SS IH azaz k mj k 2 ˆ (y i − y i ) =∑ ∑ (y jl − y j• ) 2 + ∑ m j ( y j• − yˆ j ) 2 , ∑ i =1 j=1 l =1 j=1 n
ahol n y jl
a mérések száma a j-edik mérési csoport l-edik mérése
y j•
a j-edik csoport átlaga,
k
a csoportok száma,
122 mj yˆ j
a j-edik csoport méréseinek száma, a j-edik csoporthoz tartozó függvényérték.
Azt, hogy az illeszkedés statisztikailag szignifikáns-e vagy sem, azt egy F-próbával dönthetjük el. Nullhipotézis H0 :
σ2IH =1 , σ 2TH
ahol feltételezzük, hogy az illeszkedéshiány nem haladja meg a tiszta hibát. Ellenhipotézis σ2IH H1 : > 1 amikor van illeszkedéshiány. Az F számított értéke σ 2TH SS IH /(k − 2) F(k −2;n − k ) = SS TH /(n − k) Belátható, hogy amennyiben az SS IH csak jelentéktelen hányadot képvisel, úgy nem beszélhetünk illeszkedési hiányról. Nézzünk egy konkrét feladatot a lineáris regresszió esetére. Adataink egy konkrét mérés eredményei, táblázatba foglalva a következôk. (Minden egyes x értékhez három különbözô y-t mértek. n=18.) x
0
15
30
45
60
75
yj
8
12
25
31
44
48
6
10
21
33
39
51
8
14
24
28
42
44
6.2. táblázat
A regressziós egyenes egyenletének számításához szükséges értékek a következôk. n
n
∑ xi = 675
x=
∑x
i
i =1
n
i =1
= 37.5
n
∑x
2 i
= 37125
i =1
n
n
∑ yi = 488 i =1 n
∑xy
i i
i =1
= 25005
y=
∑y
i
i =1
n
= 27.11
n
∑y
2 i
i =1
= 17142
123 2
n ∑ xi n i =1 = 11812.5 2 SS x = ∑ xi − n i =1 2
n ∑ yi n i =1 = 3911.77 SS T = SS y = ∑ y i2 − n i =1 n
n
n
∑ xi ∑ yi
i =1
n
SPxy = ∑ xi yi −
i =1
i =1
= 6705
Az elôzôek felhasználásával kapjuk meg a meredekséget, majd a tengelymetszetet, SP 6705 a = xy = = 0.5675, SSx 11812. 5 b = y - a x = 27.11 - 0.5675 . 37.5 = 5.8253. A keresett egyenlet: y = 0. 5675x + 5. 8253
Az egyenlet ellenôrzésére szolgál a meghatározottsági együttható. Ennek a számítása a következôképpen történik: SS T = SS y = 3911.77,
SS R = a ⋅ SP xy = 0.5675 ⋅ 6705 = 3805.088, SS M = SS T - SS R = 105.89, SS 3805. 08 r2 = R = = 0.9729 . SST 3911. 77 Megállapítható, hogy y változását 97.29%-ban x változása okozza.A mozgó szórás SSM 105. 891 S y⋅x = = = 2. 5725. n− 2 16
124
Az illeszkedés hiányának vizsgálata:
y l=1
l=2
l=3
yˆ j
j.
3
∑ (y l =1
jl
− y j. )2
m j (y j . − yˆ j ) 2
j 0
1
6
8
8
7.33
5.8253
2.66
6.8224
15
2
10
12
14
12.00
14.3378
8.00
16.3959
30
3
21
24
25
23.33
22.8503
8.66
0.6999
45
4
28
31
33
30.66
31.3628
12.66
1.4538
60
5
39
42
44
41.66
39.8753
12.66
9.6269
75
6
44
48
51
47.66
48.3878
24.66
1.5600
69.33
36.559
6.3. táblázat
SSM= 69.33 + 36.55921 = 105.8926 A statisztikai próba nullhipotézise: H0 =
σ 2IH = 1. 2 σ TH
A felállított ellenhipotézis: σ2IH > 1. σ2IH Az α = 0.05 értéket választva, F(k −2,n − k ),α = F(4,12 ), 0.05 = 3.26 , SS / ( k − 2) 36. 559 / 4 F( k −2)( n − k ), számított = IH = = 1. 58 . SSTH / ( n − k ) 69. 33 / 12 Az Fszámított < Fkrit tehát nincs illeszkedési hiány, a regressziós egyenes megfelelô. H1 :
6.2. Többváltozós lineáris regresszió A többváltozós lineáris regresszió esetén egy olyan lineáris összefüggést keresünk, amelyben a függvény (y) értékét több ( x 1 , x 2 ... x m ) változó értéke befolyásolja. Példaként említhetjük a faanyag hajlítószilárdságát (y), ami függhet például a sûrûségtôl ( x 1 ), nedvesség tartalomtól ( x 2 ), korai-kései pászta arányától ( x 3 ) stb.
125
A regressziós egyenlet a következô: y = b0 + b1 x1 + b2 x2 +... +bm xm
A regressziós hipersík körüli pontokat leíró egyenlet: yi = b0 + b1x1i + b2 x2i +... +bm xmi + ei ,
e i egy adott mérés távolsága y irányban a regressziós hipersíktól. Az együtthatók meghatározása az egyszerû lineáris regresszióhoz hasonlóan, a legkisebb négyzetek módszerével történik. Így meg kell határozni a: n
min ∑ ei2 i =1
értékét. Ezután számítjuk az n
F (b0 , b1 , K , bm ) = ∑ [ y i − (b0 + b1 x1i + b2 x 2i + ... + bm x mi )]
2
i =1
m+1 változós függvény minimumát. Elvégezve a parciális deriválásokat, átrendezve az egyenleteket a következô normál egyenletrendszert kapjuk (a ∑ jelek alatt az i futóindexeket az egyszerûség kedvéért nem írjuk ki, mindig 1-tôl n-ig veszik fel értékeiket): b0n + b1 ∑ x1i + b2 ∑ x2i +... +bm ∑ xmi = ∑ yi b0 ∑ x1i + b1 ∑ x12i + b2 ∑ x1i x2i +... +bm ∑ x1i xmi = ∑ x1i yi b0 ∑ x2i + b1 ∑ x1i x2i + b2 ∑ x22i +... +bm ∑ x2i xmi = ∑ x2i yi M
M
2 b0 ∑ xmi + b1 ∑ x1i xmi + b2 ∑ x2i xmi +... +bm ∑ xmi = ∑ xmi yi
Az egyenletrendszer mátrix alakban a következô n ∑ x1 ∑ x 2 L ∑ x m b0 ∑ y ∑ x12 ∑ x1 x2 ∑ x1 x m b1 ∑ x1 y ∑ x1 ∑ x 2 ∑ x1 x 2 ∑ x2 ∑ x2 xm b2 = ∑ x2 y . M M M M M M x ∑ x m2 bm ∑ xm y ∑ m ∑ x1 x m ∑ x 2 x m
126 Képezzük egyenletünk bal oldalon álló mátrixának inverzét, ami létezik, kvadratikus mátrix. Az inverzzel a mátrix egyenletet balról szorozva kapjuk a következô mátrixegyenletet b0 c 00 c 01 c 02 L c0 m ∑ y b c 1 10 c11 c12 L c1m ∑ x1 y b2 = c 20 c 21 c 22 L c 2 m ∑ x 2 y , M M M M bm c m 0 c m1 c m 2 L c mm ∑ x m y
a szorzást elvégezve b értékei számíthatók b0 c00 ∑ y + c 01 ∑ x1 y + b c 1 10 ∑ y + c11 ∑ x1 y + b2 = c 20 ∑ y + c 21 ∑ x1 y + M M bm c m 0 ∑ y + c m1 ∑ x1 y +
c02 ∑ x 2 y + L + c0 m ∑ x m y c12 ∑ x 2 y + L + c1m ∑ x m y c 22 ∑ x 2 y + L + c 2 m ∑ x m y . M c m 2 ∑ x 2 y + L + c mm ∑ x m y
A normál egyenletrendszerre vonatkozóan meg kell említeni, hogy megoldható más matematikai módszerekkel is, ezekre itt azonban nem térünk ki. Meghatározva a hipersík egyenletét, korrelációs vizsgálatot végzünk, mely a változók kapcsolatának szorosságáról ad információt. Korrelációs együtthatóként a következô formulát használjuk: SPxi x j rij = . SSxi SSx j
Ha a fenti rij érték magas, úgy x i és x j változók közül az egyik felesleges. Az rij értékeket egy mátrixba szokás foglalni, amit korrelációs mátrixnak neveznek.
x1 x2 x3
x1
x2
x3
1
r12
r13 r23
1
...
xm
y
r1m r2 m
r1y r2 y
1
rmy
1
M
xm y
1
127
Miután meghatároztuk a regressziós hipersík keresett paramétereit (b0 , b1 , b2 , L , bm ), meg kell vizsgálnunk, jó-e valójában az egyenlet. Az y függô változó szórását két komponensre bontjuk, a regresszió okozta szórásra és a maradékok szórására. Így
SST = ( SSY ) = SSR + SS M ami átírható a n
n
n
i =1
i =1
i =1
∑ ( y i − y ) 2 =∑ ( yˆ i − y ) 2 + ∑ ( yi − yˆ i ) 2 alakra. A szabadságfokok egyenlôsége: n - 1= (m + 1) - 1 + n - (m + 1) . Megjegyzés. A szabadságfok a maradék négyzetösszege esetén a következôképpen számítható. Rendelkezünk n független adattal, ugyanekkor felhasználunk a számításában m + 1 statisztikát, különbségük a keresett szabadságfok. A próba elvégzéséhez szükséges adatokat a következô táblázat tartalmazza.
Szórásnégyzet Szabadságfok Négyzetösszeg Átlagos négyzetoka Regresszió
Maradék Teljes
m
n -(m + 1) n-1
Számított
összeg
F érték
SSR
MSR
MSR MS M
SS M
MS M
SST = SSY
6.4. táblázat
Összehasonlítva az átlagos négyzetösszegeket, ha a regresszió okozta szóródást magasnak találjuk a maradékhoz képest, akkor a regresszió jónak mondható. Az F-próba nullhipotézisét az egyváltozós lineáris regressziónál felírtakkal azonos módon tehetjük.
128
H 0 :β1 = β 2 = L = β m = 0 H1 :van közöttük legalább egy nullától különbözô. H0 és H1 megfogalmazható azonban a szórásnégyzetekkel is, így próbánk a következô. σ2R H0 : =1 σ2M σ2R táblázatból véve: F(m,n − m −1), krit H1 : >1 σ2M SSR / m MSR F(m,n − m −1), számított = . = SS M / ( n − m − 1) MS M A regressziónk jónak mondható, vagyis statisztikailag meghatározott, ha H 0 -t elutasítjuk, azaz H 1 -et elfogadjuk. A gyakorlatban használatos képletek a következôk: 2
n ∑ y i n 2 SS T = ∑ yi − i =1 , n i =1 SS R = b1 SPx1 y + b2 SPx2 y + L + bm SPxm y , SS M = SST − SSR . A regressziós egyenlet jóságának másik vizsgálati lehetôsége a többváltozós korrelációs együttható kiszámítása. SSR R= SST A számított értéket a kritikus r értékek táblázatából, a szignifikanciaszint, a független változók száma és a szabadságfok függvényében vett értékkel vetjük össze (azonos az F próbával). A többváltozós lineáris regresszió számításához szükséges feltételek: 1.) Ha a mintára illesztett modell az
y = b0 + b1 x1 + b2 x 2 + L + bm x m , akkor teljesülnie kell a populációra a
129
µ y /x , x i
,
2 ,L, x m
= β 0 + β 1 ⋅ x1 + β 2 ⋅ x 2 + L + β m ⋅ x m
összefüggésnek. (Ahol b0 , b1 , K , bm egy becslése 2.)
Az
x1 , x 2 , L , x m
független
változókhoz
β 0 , β 1 , K , β m -nek.) tartozó
y
értékeknek
normális
eloszlásúaknak kell lenniük. 3.) Különbözô x1 , x 2 , L , x m független változó tetszôlegesen kiválasztott csoportjaikhoz tartozó y értékek szórásnégyzeteinek egyenlôknek kell lenniük. 4.) Különbözô x1 , x 2 , L , x m tetszôlegesen kiválasztott csoportjaikhoz tartozó y értékek függetlenek. 5.) x1 , x 2 , L , x m változók rögzítettek, vagy hiba nélkül mérhetôk. 6.) Az x1 , x 2 , L , x m értékek különbözô tetszôlegesen kiválasztott csoportjaikhoz az y értékek véletlenszerûen választottak. Az egyszerû lineáris regresszióhoz hasonlóan itt is meghatározhatjuk a regresszió körüli szórást, vagy mozgó szórást.
Sy⋅x1 ,x2 ,L ,x m =
MS M
A regressziós hipersíkot eltolva a mozgó szórással y pozitív és negatív irányba, mérési pontjaink 68%-a ezek közé kell, hogy essen.* Itt is számíthatók továbbá a b0 , b1 , L , bm statisztikák szórásai.
Sb0 = C00 MS M Sb1 = C11 MS M M Sb j = C jj MS M M Sbm = Cmm MS M
*
kétszeres mozgószórásnál 95%
130
Ismervén a bj statisztikák állandó hibáját, használhatjuk ezeket konfidenciaintervallumok felállításánál a paraméterekre vonatkozóan, valamint ezek próbáinál. Ennek részletezésére nem térünk ki, mivel lényegében az eljárások megegyeznek az egyszerû lineáris regressziónál tárgyaltakkal.
6.2.1. A legjobb többváltozós lineáris regressziós függvény kiválasztása A többváltozós lineáris regresszió esetén majdnem biztos, hogy az
y = b0 + b1 x1 + b2 x 2 + L + bm x m illesztett függvényünk független változói nem azonos mértékben befolyásolják az y i értékek változását. Statisztikailag akkor mondhatjuk egyenletünket ilyen esetben a legjobbnak, ha a benne szereplô minden egyes x változó szignifikánsan befolyásolja az y-t. Amennyiben találunk nem szignifikáns változót, azt elhagyjuk. A feladat megoldására három módszert említünk meg: 1.) Az eliminációs eljárást. 2.) Az egyenlet lépcsôzetes felépítését. 3.) Az összes kombináció meghatározását. Az eljárások rövid ismertetése. 1.) Az eliminációs eljárás. Elsô lépésben meghatározzuk a regressziós egyenletet, és vizsgáljuk a teljes
egyenletet, hogy szignifikáns-e.
y = b0 + b1 x1 + b2 x 2 + L + bm x m H 0 : β1 = β 2 = K = β m = 0 H1 : legalább egy zérótól különbözô SSR / m F(m,n − m −1) = SSM / (n − m − 1)
Ha az egyenlet nem szignifikáns, a számítást abbahagyjuk. Ha az egyenlet szignifikáns, úgy képezzük a részleges F értékeket:
131
Fxi (1,n −m −1)
bi2 SS xi / 1 C ii = = SS M /(n − m − 1) MS M
Ezután ismervén a részleges F értékeket, a nem szignifikáns x értéket elhagyjuk. Ha egyszerre több olyan érték adódik, ami nem szignifikáns, akkor a legkisebb F értékhez tartozót hagyjuk ki, de mindig csak egyet. Az eljárást mindaddig ismételjük, amíg minden részleges F szignifikáns. 2.) Az egyenlet lépcsôzetes felépítése. A módszer a legfontosabb független változóval kezdi az egyenlet felépítését. Ennek kiválasztása a korrelációs mátrix utolsó oszlopa által történik, hiszen ezen r értékek adják az egyes független és függô változó kapcsolatának szorosságát. Elvégezzük a részleges F értékek vizsgálatát, majd, ha a szignifikancia teljesül, újabb változót keresünk az r értékek alapján. Azt a változót keressük, amelyik az eredeti r2 -et legjobban növeli. Az eljárást mindaddig ismételjük, míg a választott változó részleges F értéke szignifikánsnak adódik. 3.) Az összes kombináció meghatározása. Ezen eljárás során felírjuk a független változók összes lehetséges kombinációját, és az ezeknek megfelelô egyenleteket. Miután meghatároztuk a lehetséges összeset, a) a részleges F próbák alapján kiválasztjuk azokat, amelyekben minden változó szignifikáns volt, b) a kiválasztott szignifikáns egyenletek közül azokat vesszük, amelyek meghatározottsági együtthatója a legnagyobb, c) a legnagyobb r2 értékekkel rendelkezô egyenletek közül való választás során egyéb szempontokat is figyelembe veszünk, így gazdaságosság idôben és költségben; adatgyûjtési lehetôség és igényesség stb. Nyilvánvalóan nem minden esetben célszerû a maximális r2 értékre törekedni.
6.2.2. Illeszkedés hiány vizsgálat a többváltozós lineáris regressziónál A lineáris regressziónál ismertetett vizsgálat a többváltozós lineáris regresszió esetén nagy nehézségekbe ütközik. Emiatt ez esetben az illeszkedés hiánya próbája helyett az ( y i − yˆ i ) maradékokat vizsgáljuk. Koordináta-rendszerbe ábrázolva nincs illeszkedés hiány, ha az elhelyezkedés párhuzamos.
132
6.7. ábra
Illeszkedés hiányt mutat az alábbi elhelyezkedés, illetve tükörképe.
6.8. ábra
Mintafeladat a többváltozós lineáris regresszióhoz: Egy természetes felújulásban 3-éves csemeték magassági növekedését (Y) tanulmányozták, a talajszinti átmérô ( X1 ), a koronazáródás ( X 2 ) és a két éves magasság ( X 3 ) függvényében. Feladatunkban az általános egyenletrenszert
b0n + b1 ∑ xli +L +bm ∑ xmi = ∑ yi
133
M
M b0 ∑ xmi +L +bm ∑ x = ∑ xmi yi 2 mi
átalakíthatjuk úgy, hogy benne a korrigált négyzetösszegek és szorzatösszegek szerepeljenek. Így a számítás egyszerûsíthetô, az egyenletrendszer a következô:
b1SSx1 + b2 SPx1 x2 +L +bmSPx1 xm = SPx1 y b1SPx1 x2 + b2 SSx2 +L +bmSPx2 xm = SPx2 y M
M
b1SPx1 xm + b2 SPx2 xm +L +bmSSxm = SPxm y A fenti egyenletrendszerbôl képezhetjük a mátrixegyenletet, majd az inverzzel beszorozva:
b1 c11 b c 2 = 21 M M bm c m1
c12 c 22 cm2
L c1m SPx1 y L c 2 m SPx2 y ⋅ M M L c mm SPxm y
illetve b0 = y − b1 x1 − b2 x 2 − L − bm x m . Így meghatározzuk a keresett együtthatókat. Az adatok a következôk.
134
x1
x2
x3
y
12.7
64
9.6
8.2
22.3
75
11.0
14.0
15.4
50
11.2
10.5
15.7
65
10.6
11.0
14.6
70
8.0
9.8
11.5
60
8.1
8.0
12.6
63
8.8
8.0
15.7
55
12.0
12.0
14.4
56
9.9
9.9
15.0
65
9.8
10.0
11.4
76
8.0
7.8
15.0
65
10.1
9.8
9.1
70
9.1
6.7
9.8
60
10.2
7.0
12.7
64
9.6
8.2
Átlagok: 13.86
63.867
9.733
9.393
6.5. táblázat
A korrigált négyzetösszegek és szorzatösszegek: x2
SSx1
x1 138.86
SSx1 x2
27.821
713.73
SSx1 x3
28.74
-
x3 x 1
x 2
56.434
SPx1 y
84.336
6.0141
20.01
x
3 21.57 3
3
55.02 9
y
135
A mátrix inverze 0.013121
-0.0025754
-0.026104
-0.0025754
0.0023086
0.010208
-0.026104
0.010208
0.11624
x1 x2 x3
A regressziós egyenlet együtthatói: b1 0.013121 − 0.0025754 − 0.026104 0.559 b = − 0.0025754 ⋅ 84.336 + 0.0023086 ⋅ (− 6.0141) + 0.010208 ⋅ 21.573 = − 0.0108 2 b3 − 0.026104 0.010208 0.11624 0.245
b0 = y − b1x1 − b2 x2 − b3 x3 b0 = 9.393 - 0.559 · 13.86 + 0.0108 · 63.867 - 0.245 · 9.733= - 0.0454 . A többváltozós korrelációs együttható:
R=
SSR SST
SST = 55.029 R = 0.977
SS R = 52.479
6.3. Nemlineáris regressziós egyenletek Gyakran elôfordul, hogy ponthalmazunkra egyenes illesztése szemmel láthatóan nem megfelelô. Lehet ugyan a ponthalmazra egyenest illeszteni, és teljesülhet a szignifikancia, mégis azonnal észlelhetô, hogy illeszkedési hiány van. Ilyen esetben tehát nemlineáris függvény illesztését kell elvégeznünk. Ezen függvényeket két nagy csoportba soroljuk: a) az (egyszerû) transzformációval lineárissá tehetô, b) transzformációval lineárissá nem alakítható egyenletek. Az utóbbi csoport tárgyalásától eltekintünk, az itt elôforduló módszerek általában valamilyen számítógépes összetett és speciális numerikus eljárást igényelnek. Az elsô csoportot tovább osztályozva, beszélhetünk: 1.) Polinomiális
136
2.) Hiperbolikus 3.) Exponenciális regresszióról. 1.) Polinomiális regresszió. A regressziós függvény az
y = b0 + b1 x + b2 x 2 + L + bm x m
polinom, melynek
különbözô m értékû formuláit igen gyakran használják. Az m = 1 esetben lineáris regresszióról van szó. Mi van akkor, ha m > 1, m ∈ Z + . Ebben az esetben a regressziós függvény egy alkalmas megfeleltetéssel többváltozós lineáris regresszióra vezethetô vissza. y = b0 x 0 + b1 x 1 + b2 x 2 + b3 x 3 + L + bm x m
x1 legyen x1, x2 legyen x2, ..., xm legyen xm, stb. Így
y = b0 + b1 x1 + b2 x 2 + b3 x3 + L + bm x m Megjegyzés. Természetesen minden x esetén
x 2 , x3 , L , x m
változók értékei a szükséges
hatványokkal számítandók, melyeket majd felhasználunk a regressziószámítás során. A regresszió számítására itt nem térünk ki, az az elôzôekben leírtaknak megfelelôen történik. 2.) Hiperbolikus regresszió. Ugyancsak gyakran elôfordul a regressziószámítás során hiperbolák illesztése. A hiperbola általános alakja ilyen esetekben:
y = b0 + b1
1 + b2 x x
Az egyenletben szereplô b 0 , b1 és b2 értékek nagyságrendje jelentôsen változtat a görbe alakján, ebbôl is fakad felhasználhatósága. A módszer maga megegyezik a polinomok 1 esetén bemutatottal, nevezetesen az értékeit a továbbiakban számítjuk és ezen számított x értékeket x1 változóval jelöljük. Az x értékeit jelölje ezután x2 . Így a regressziós egyenlet:
y = b0 + b1 x1 + b2 x2
137
A megoldást ismét visszavezettük a többváltozós lineáris regresszió esetére. 3.) Exponenciális regresszió Az illesztendô egyenlet általános alakja: y = axbc x .A lineárissá történô átalakítás elsô lépése a logaritmizálás, így ln y = ln a + b ln x + x ln c .
Ezt követôen új változót bevezetve, valamint számítva a szükséges értékeket, ugyancsak többváltozós lineáris regresszióhoz jutottunk. ln y - y* ln a - b0 b - b1 ln x - x1 x
- x2
ln c - b2 yˆ σ* / yx1Kxn = b0 + b1 x1 + b2 x 2 Ez a feladat már az elôzôekben ismertettek alapján megoldható. Említést kell még tennünk arról az esetrôl, amikor egy pontsorozatra többféle regressziós függvény illesztését kell megkísérelni. Például éppen az elôzôekben említett három függvénytípust. Végezhetünk-e összehasonlítást az r2 értékek alapján? A logaritmizálás végett az r2 értékek összehasonlítása hamis információt szolgáltat. Ekkor az exponenciális függvény r2 értékét becsülnünk kell. Az összehasonlítás a korrelációs index négyzettel (I2) történik. Ennek számítását a visszatranszformált egyenletbôl
y = axbc x a következô összefüggéssel számítjuk SS − SS M . I2 = T SST Kiszámítva a korrelációs index értékét, azon függvényt fogadjuk el a legjobb illesztésnek, melynek I 2 értéke a legnagyobb.
138
6.4. A regressziószámítás célja és rövid összefoglalása A regressziószámítás célja: a.) Egy összefüggés meghatározása a független és függô változók között, abból a célból, hogy y függô változó elôrejelzés végett számítható legyen a független x-ekbôl, (az adatok válogatottak). b.) Korrelációs együttható számítása (a minta véletlenszerû, nincs válogatás). A regressziószámítás egyes lépései: 1.) Adatok gyûjtése a) a függôváltozó meghatározása, b) a független változó, változók kiválasztása, széles terjedelmû intervallummal, c) a megfigyelések számának behatárolása. 2.) Pontdiagramm készítése 3.) Az egyenlet modelljének felírása 4.) A statisztikailag szignifikáns változók kiválasztása 5.) Illeszkedéshiány vizsgálat.
139
Tartalomjegyzék Elôszó Bevezetés (Szalay László) 1. A statisztika valószínûségszámítási alapjai (Szalay László) 1.1. Eseményalgebra 1.2. A valószínûség fogalma 1.3. Klasszikus (kombinatorikus) valószínûségi mezô, geometriai módszer 1.4. Feltételes valószínûség, függetlenség 1.5. A valószínûségi változók és jellemzôik 1.6. Nevezetes eloszlások 2. A leíró statisztika (Szalay László) 2.1. A középértékek 2.2. A szóródás mérôszámai 2.3. A minta alakja 3. Becsléselmélet (Horváth Róbert) 3.1. A statisztikai minta 3.2. A statisztika, statisztikai becslés 3.3. Nevezetes statisztikák 3.4. Statisztikák eloszlása 3.5. Konfidenciaintervallumok 4. Hipotézisvizsgálat, statisztikai próbák (Horváth Róbert) 4.1. Statisztikai próbákról általánosan 4.2. Illeszkedésvizsgálat 4.3. Függetlenségvizsgálat (kontingenciavizsgálat) 5. Varianciaanalízis (Dr. Csanády Viktória) 5.1. Egyszeres osztályozású varianciaanalízis 5.2. Kétszeres osztályozású varianciaanalízis 6. Regressziószámítás és korrelációs analízis (Csanády Viktória) 6.1. Egyszerû lineáris regresszió 6.2. Többváltozós lineáris regresszió 6.3. Nemlineáris regressziós egyenletek 6.4. A regressziószámítás célja és rövid összefoglalása
5 7 10 10 13 15 19 23 34 50 50 51 52 58 60 61 61 71 79 87 87 94 96 99 99 106 112 112 124 135 138