Statisztika Tegyük fel, hogy van egy halmazunk, és tekintsünk egy vagy több valószínűségi változót, amelyek a halmaz minden elemén felvesznek valamilyen értéket. A halmazt populációnak vagy sokaságnak nevezzük. Példák: 1. egy iskolai osztály tanulói, a változó: magasságuk centiméterben; 2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk; 4. egy almaszállítmány, a változó: az almák átmérője milliméterben; 5. egy elemszállítmány, a változó: élettartamuk adott terhelés mellett órában mérve; Ezeknek a valószínűségi változóknak van eloszlásuk, ami azonban számunkra általában nem ismert. Ha ismernénk, meg tudnánk mondani bármit, pl. mennyi a várható értéke, mennyi a szórása, mennyi a valószínűsége, hogy a sokaság egy véletlenszerűen kiválasztott eleme esetén a valószínűségi változó értéke egy adott intervallumba esik, vagy hogy tíz ilyennek az átlaga milyen valószínűséggel kisebb vagy nagyobb, mint egy adott szám, stb. A gyakorlatban leggyakrabban előforduló kérdések: 1. Mennyi a tekintett valószínűségi változó várható értéke? 2. Mennyi a tekintett valószínűségi változó szórása? 3. A valószínűségi változó tekinthető-e egy adott eloszlásúnak? 4. Igaz-e, hogy a várható értéke egy adott szám? 5. Igaz-e, hogy a szórása nem nagyobb, mint egy adott szám? 6. Ha két valószínűségi változót tekintünk, van-e ezek között kapcsolat, és az milyen? 7. stb. Az első két esetben paraméterbecslésről beszélünk, a következő háromban hipotézisvizsgálatról, a hatodikban regresszióanalízisről. Mindegyik esetben a vizsgálat első lépése, hogy mintát veszünk. A mintavételnél nyilván az a szempont, hogy a minta minél jobban tükrözze a sokaság jellemzőit. A különböző mintavételi ötletekre most nem térünk ki, de fontos, hogy a mintavételi algoritmust úgy határozzuk meg, hogy a sokaság bármelyik eleme "‘ugyanolyan valószínűséggel"’ kerülhessen a mintába. Jelölje a minta elemszámát n. Jelölje Xi az i-edik mintaelemre jellemző valószínűségi változót. Mindig feltesszük, hogy ezek a változók függetlenek és azonos eloszlásúak. Mit jelent ez? Tekintsük pl. az almaszállítmányt az átmérővel. Pl. elhatározzuk, hogy 10 almát fogunk mintaképpen megmérni. Az 1
azonos eloszlás azt jelenti, hogy annak valószínűsége, hogy az elsőnek választott alma átmérője kisebb, mint pl. 70 mm, ugyanannyi, mint az, hogy a másodiknak vagy hetediknek választott alma átmérője kisebb, mint 70 mm, és ez igaz bármelyik választásra, és bármilyen értékre. Azt, hogy ez a valószínűség mennyi, nem tudjuk, de az biztos, hogy ugyanannyi. A függetlenség azt jelenti, hogy pl. bármit is mértünk az első alma esetén, annak valószínűsége, hogy a második, vagy akármelyik másik átmérője egy adott érték alatt vagy felett van, nem lesz sem kisebb, sem nagyobb, mint ami a sokaságra eredetileg is jellemző volt. Ezek után a minta értékeit bizonyos képletekbe helyettesítjük, így tulajdonképpen többváltozós függvények helyettesítési értékeit kapjuk. Ezeket a függvényeket "‘statisztikáknak"’ nevezzük. Ezekből a "‘statisztikákból"’, azaz helyettesítési értékekből vonunk le azután mindenféle következtetéseket. Mivel a minta véletlen, a helyettesítési érték is véletlen. Egy másik mintához általában másik helyettesítési érték tartozik. Ezért ezek a helyettesítési értékek szintén valószínűségi változók, amelyeknek van valamilyen eloszlása. Ezek szerint a következtetéseink valamilyen valószínűséggel lehetnek jobbak, rosszabbak. Az, hogy milyen függvényt használunk, függhet attól, hogy vannak-e előzetes információink a sokaságról, és attól is, hogy milyen szempontok alapján tekintjük az egyiket jobbnak a másiknál. Például, következtethetünk a sokaságra jellemző paraméterekre. Ilyen a várható érték, vagy a szórás. Milyen statisztikákkal becsülhetjük pl. a várható értéket, azaz a "‘súlyozott"’ átlagot? Az almás példánál maradva, vehetjük P 1. a 10 érték átlagát (f = ( Xi )/10); 2. az ötödik mért értéket (f = X5 ); 3. az első és utolsó átlagát (f = (X1 + X10 )/2); 4. a mért értékek mediánját (nagyság szerint a középső érték, ebben az esetben nincs középső, ilyenkor a két középső számtani közepe); 5. a legkisebb és legnagyobb érték átlagát(f = (min Xi + max Xi )/2); P 6. a 10 érték átlagának a felét (f = ( Xi )/20); Melyiket válasszuk? Mivel mindegyik valószínűségi változó, az kellene, amelyik a legnagyobb valószínűséggel a legközelebb van ahhoz, amit becsülni akarunk. Először is olyan kell, amelyiknek a várható értéke ugyanaz, mint amit becsülni akarunk, vagyis amelyik átlagban közel van a becslendő értékhez. Az utoló "‘ötlet"’ nyilván nem felel meg ennek a követelménynek. A többiről viszont belátható, hogy megfelel. A legnagyobb valószínűséggel az lesz közülük a legközelebb a várható értékhez, amelyiknek legkisebb a szórása. Belátható, hogy az első rendelkezik ezzel a tulajdonsággal. Nem csak várható értéket becsülhetünk, hanem bármilyen más paramétert is, pl. szórást. Kézenfekvőnek látszik a szórást az r Pn 2 i=1 (Xi − m) s˜ = n 2
képlettel becsülni, de a valóságban m-et legtöbbször nem ismerjük. Ekkor (jobb híjján) a mintaátlagot tehetjük a várható érték helyébe, akkor kapjuk az un. empirikus (vagy tapasztalati) szórást: s Pn 2 i=1 (Xi − X) s= . n Definíció: Paraméternek olyan becslését, amelynek várható értéke megegyezik a becsülendő paraméterrel, torzítatlan becslésnek nevezzük. Az olyan becslést, amelynek a szórása minimális, hatásos becslésnek nevezzük. Belátható, hogy a mintaátlag a várható értéknek torzítatlan és hatásos becslése. Az empirikus szórásq viszont nem torzítatlan becslése a szórásnak, hanem
s várható értéke a σ-nak n−1 n -szerese, azaz annál valamivel kisebb. Ez azért lehet, mert a minta átlagos eltérését nem a tényleges várható értéktől, hanem a "‘saját"’ átlagától számoljuk, amihez kissé közelebb van. Ha a szórás becslésére a s Pn 2 i=1 (Xi − X) s∗ = n−1 képletet, az un. korrigált empirikus szórást használjuk, akkor ez már torzítatlan becslése lesz σ-nak. Ha tudjuk, hogy a valószínűségi változó, amelyre információkat gyűjtünk a mintából, milyen eloszlású, és csupán a paramétereket akarjuk becsülni, akkor alkalmazhatjuk az un. maximum-likelihood becslést, azaz, a legnagyobb valószínűség elvén működő becslést. Ha nincs elképzelésünk, hogy milyen lehet a tekintett valószínűségi változó eloszlása, akkor olyan becsléseket kell találni, amelyek nem függenek attól, konkrétan milyen eloszlása van a valószínűségi változónak. A centrális határeloszlás tétel szerint, ha n elég nagy, akkor azonos eloszlású, független Xi -k esetén, függetlenül attól, hogy ezek eloszlása milyen, az Pn Xi − nm Yn = i=1√ nσ valószínűségi változó eloszlása jó közelítéssel standard normális (ahol m = E(Xi ), σ = D(Xi )). A törtet n-nel "‘egyszerűsítve"’ Pn
i=1
Yn =
Xi
n √σ n
−m
,
amiből az következik, hogy nagy n esetén a mintaátlag olyan normális eloszlású valószínűségi változó, amelynek várható értéke m, szórása pedig √σn . Mivel Yn et standard normálisnak tekintjük, akármilyen valószínűséghez tudunk olyan intervallumot mondani, ahová az adott valószínűséggel esik. Sőt, végtelen sok ilyet is tudunk. Logikusnak tűnik, hogy a legrövidebb ilyet mondjuk, ez pedig szimmetrikus a várható értékére, a nullára. Például, ha olyan intervallumot
3
akarunk, amelybe 95% valószínűséggel esnek az értékei, akkor (táblázatból kiolvasva) P (−1, 96 < Yn < 1, 96) = 0, 95. Jelöljük a mintaátlagot X-sal (olvasd: "‘x-vonás"’). Ekkor σ σ P (−1, 96 √ < X − m < 1, 96 √ ) = 0.95. n n Ebből akár a
akár a
σ σ P (m − 1, 96 √ < X < m + 1, 96 √ ) = 0.95, n n
(1)
σ σ P (X − 1, 96 √ < m < X + 1, 96 √ ) = 0.95 n n
(2)
valószínűségek felírhatók. Az előbbi azt mutatja, hogy egy m várható értékű σ szórású sokaságból vett n elemű minta átlaga 95% valószínűséggel esik az adott intervallumba, a második pedig azt, hogy ha egy σ szórású sokaságból a mintaátlag az adott x, akkor milyen intervallumba kell esnie a várható értéknek 95%-os valószínűséggel. Látjuk, hogy mindkét esetben az intervallum hossza egyenesen arányos a szórással, (nagyobb szórás, nagyobb bizonytalanság), és fordítottan arányos a minta elemszámának gyökével, aminek az a szomorú következménye, hogy ha az intervallumot felére akarjuk csökkenteni, négyszeresére kell növelni a mintát. Itt kell megjegyeznünk, hogy nem szabad összekeverni az X valószínűségi változót x-sal, ami annak egy aktuális értéke. (Hasonlóan: f egy függvény, f (x) ennek helyettesítési értéke az x helyen.) Ennek ellenére még a különböző statisztikakönyvekben is gyakran keveredik, de szerencsére legtöbbször semmi problémát nem okoz. (Mint ahogy legtöbbször f keverése f (x)-szel sem okoz legtöbbször gondot.) Maga x a várható érték pontbecslése, a (2)-ben szereplő intervallum pedig a várható érték intervallumbecslése, más szóval konfidencia-intervalluma 95% megbízhatósági szinten. Felmerül a kérdés, mit tudunk mondani akkor, ha a szórást nem ismerjük. Ha a korrigált szórást írjuk a helyébe, akkor a helyzet –legalábbis elvileg– lényegesen megváltozik, mert akkor a centrális határeloszlás-tételben konstans helyett változó lenne a nevezőben. Olyat pedig már láttunk, pl. a deriválásnál is, hogyha nem konstans szorzóról, hanem változó szorzóról van szó, akkor egészen másképp kell eljárni. Be lehet látni a következőket: Ha a minta elég nagy, akkor (1)-ben és (2)ben σ egyszerűen helyettesíthető s∗ -gal. Mennyi az az elég nagy? Erre lehet vizsgálódásokat csinálni, de a gyakorlatban már általában elég nagynak tekintik az 50 elemű mintát, sőt olykor a 30 eleműt is. Ha a minta elemszáma nem elég nagy, de feltehető, hogy a populációra jellemző valószínűségi változó normális eloszlású, akkor a Pn
i=1
t=
Xi
n s∗ √ n
4
−m
valószínűségi változó un. (n − 1) szabadságfokú Student-eloszlású. Ezt (n − 1) szabadságfokú t-eloszlásnak is nevezik. Ennek sűrűségfüggvénye ugyanúgy szimmetrikus az origóra nézve, mint a standard normálisé, és a megfelelő valószínűségeket ugyanúgy táblázatból nézzük ki. A táblázat segítségével (1)-hez és (2)-höz hasonlóan adhatunk meg intervallumokat m-re és X-re. Ha a minta elemszáma nem nagy, és normalitást nem tehetünk fel, de ismerjük az eloszlás típusát, akkor –legalábbis elvileg – levezethető képlet a konfidenciaintervallumra. Ha a minta kicsi, és mást sem tudunk, akkor ne nagyon akarjunk kijelentéseket tenni, hogy milyen jó a becslésünk. Láttuk, hogy a szórás pontbecslése s∗ . Tudunk-e konfidencia-intervallumot mondani a szórásra. Igen, mert be lehet látni, hogy a χ=
(n − 1)s∗2 σ2
valószínűségi változó (n − 1) szabadságfokú χ2 eloszlású valószínűségi változó, és a hozzá tartozó valószínűségeket, ill. adott valószínűséghez tartozó intervallumokat kinézhetjük a megfelelő táblázatból. Hipotézisvizsgálat Először példaként tekintsünk egy konkrét kérdést. Tegyük fel, hogy egy automata mosóport adagol, 500 gr-osnak cimkézett dobozba. Az automata típusa miatt a szórást tudjuk, de az automata idővel elállítódhat. Sem az alulsem a túladagolás nem kívánatos, ezért időről időre ellenőrzik a dobozokban levő mosópor mennyiségét. Ha a minta alapján úgy találjuk, hogy a várható érték nem tekinthető 500 gr-nak, akkor leállítjuk az adagolást, és az automatát beszabályozzuk. Ez a tevékenység költséggel jár, ezért nyilván csak akkor állítjuk le, ha az a feltevés, hogy jól működik, nyilvánvalóan elfogadhatatlan. Tehát abból a feltevésből indulunk ki, hogy jól működik. Ez a nullhipotézis. Tegyük fel, egy-egy alkalommal 30 elemű mintát veszünk. A minta átlaga persze nem lesz pontosan 500 gr, hol kevesebb, hol több, még akkor is, ha az átlag valóban 500 gr. Ha tehát a pontbecslésből indulnánk ki, akkor szinte minden alkalommal leállítanánk a rendszert. Ezért csak akkor állítjuk le, ha a minta szignifikánsan, azaz nagyon különbözik a kívánatostól. Milyen hibát követhetünk el, amikor a leállásról, vagy nem-leállásról döntünk. Mi csak a mintát ismerjük, a valóságot nem. Ha a valóságban jó az automata, és a minta alapján mi a nem-leállást választottuk, vagy ha rossz az automata, és mi a leállást választottuk, akkor helyesen döntöttünk. Ha a nullhipotézis igaz, de mi mégis a leállás mellett döntünk, mert véletlenül épp olyan szerencsétlenül vettünk mintát, akkor un. elsőfajú hibát követünk el. Ha viszont rossz az automata, de véletlenül épp olyan szerencsétlenül vettünk mintát, hogy jónak találjuk, azaz elfogadjuk a nullhipotézist, pedig nem igaz, akkor un. másodfajú hibát követünk el. Az elsőfajú hiba valószínűségét úgy csökkenthetjük, hogy csak akkor vetjük el a nullhipotézist, ha a minta valóban nagyon messze jár a kívánatostól. Igenám, de ha a kívánatostól viszonylag távoleső értékeket még mindig elfogadunk, akkor nagyon megnő a másodfajú hiba valószínűsége, azaz az, hogy nem állítjuk le akkor sem, ha kellene. Ezek egymás ellen hatnak. Mindkettő valószínűségét 5
egyszerre csak úgy csökkenthetjük, ha a minta elemszámát növeljük, mert ezzel a mintaátlag szórása csökken, egyre kisebb intervallumba esik egyre nagyobb valószínűséggel. Az elsőfajú hiba kezelése az egyszerűbb. Az (1) képlethez hasonlóan meg tudjuk mondani, hogy ha a nullhipotézis igaz, akkor milyen intervallumba kell esni a mintaátlagnak adott valószínűséggel. Legyen ez a valószínűség (1 − α). Ha nem esik bele, akkor két eset lehetséges. Vagy tényleg nem igaz a nullhipotézis, vagy olyan rossz mintát vettünk a különben jó sokaságból, amelynek a valószínűsége kisebb, mint α. Ha tehát akkor vetjük el a nullhipotézist, ha a mintaátlag kívül esik az adott intervallumon, akkor az elsőfajú hiba elkövetésének valószínűsége α. Ezt az α-t nevezzük szignifikancia szintnek. A gyakorlatban nem az (1) alakú intervallumot számítjuk ki, hanem pl. 5% szignifikancia esetén P (−1, 96 < Yn < 1, 96) = 0.95 miatt a −1, 96 <
x−m √σ n
< 1, 96
egyenlőtlenség teljesülését ellenőrizzük, mert így a középen álló törtben (az un. "‘tesztértékben"’) szereplő konkrét számoktól függetlenül, a H0 : m = m0 nullhipotézis esetén, mindig a (−1, 96; 1, 96) intervallumon kívüli értékekre vetjük el a nullhipotézist, ha 5% a szignifikancia szint, és a szórás ismert, vagy a minta elég nagy. A −1, 96, ill 1, 96 határokat ugyanis a standard normális eloszlás táblázatából vettük, és a mintaátlagra ez csak akkor alkalmazható, ha a szórás ismert, vagy a minta elég nagy. Különben más eloszlás alapján, más táblázatból kell meghatározni azt az intervallumot, amelyben még elfogadunk értéket, ill. azt, amelyben már nem. A nullhipotézistől függően lehet, hogy csak a túl nagy, vagy csak a túl kicsi értékeket vetjük el. Arra, hogy a teszt-értéket milyen próba esetén hogyan érdemes kiszámítanunk, a statisztikakönyvek adnak útmutatást, de az elv mindig az, amit fent bemutattunk: A minta értékeiből képezünk egy olyan függvényértéket, amelynek az eloszlását ismerjük, és megállapítjuk, hogy ha a nullhipotézis igaz, akkor ennek milyen valószínűséggel, hova kell esnie. Ha nem oda esik, a nullhipotézist elvetjük. A másodfajú hiba kezelése sokkal összetettebb, azt mindenki próbálja megérteni valami könyvből. Megjegyzés a hipotézis felállítására: Kell lennie egy nullhipotézisnek H0 , és egy alternatív, vagy ellenhipotézisnek Ha . Az "‘egyenlőség"’ mindig a nullhipotézisben van, pl.: H0 : m ≤ 40, Ha : m > 40 H0 : m = 10, Ha : m 6= 10 H0 : p1 = 0.2, p2 = 0.3, p3 = 0.5, Ha : legalább az egyik nem annnyi H0 : ξ normális eloszlású, Ha : ξ nem normális eloszlású
6