TARTALOMJEGYZÉK
1. téma Átlagbecslés (Barna Katalin) . . . . . . . . . . . . . . . . . . . . . . . . 7 2. téma Hipotézisvizsgálatok (Nagy Mónika Zita) . . . . . . . . . . . . . . . . 23 3. téma Összefüggések vizsgálata, korrelációanalízis (Dr. Molnár Tamás) . . . 73 4. téma Összefüggések vizsgálata, regresszióanalízis (Barna Katalin) . . . . . 99 5. téma Idõsorok összetevõinek elemzése (Nagy Mónika Zita) . . . . . . . . . 167 Mellékletek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
5
2. téma
HIPOTÉZISVIZSGÁLATOK
ISMÉTLÕ KÉRDÉSEK 1. Mi a hipotézisvizsgálat logikai menete (lépései)? 2. Mit jelent az elsõ- és másodfajú hiba? 3. Milyen fõbb statisztikai próbákat ismer az átlagokra és a szórásokra vonatkozóan? 4. Mi a varianciaanalízis 3 fõ lépése? 5. Mi alapján és hogyan döntünk a hipotézisvizsgálatok során? A feladatok megoldásához szükséges kritikusérték-táblázatok a Mellékletek c. fejezetben megtalálhatók.
23
Egyszerûen statisztika 2.
MINTAPÉLDA I. Egymintás átlagokra vonatkozó próba, t-próba
1. példa:
Egy termelõ burgonyatermõ területének elõirányzott termésmennyisége 25,50 tonna/hektár. Reprezentatív mintavétellel 13 mintaterületrõl mintát vettünk. Ezek eredményei a következõk (tonna/hektár):
25,90; 25,40; 23,60; 24,50; 26,30; 23,20; 24,60; 25,40; 23,90; 25,50; 25,20; 26,10; 25,30 a) A mérési eredmények alapján állapítsa meg 5%-os szignifikanciaszinten, hogy a tervezett terméseredmény elérhetõ-e! b) Értelmezze a kapott eredményt! A mintapélda megoldása: a) A mérési eredmények alapján állapítsa meg 5%-os szignifikanciaszinten, hogy a tervezett terméseredmény elérhetõ-e! A hipotézisvizsgálatok során a sokaság átlagát, szórását mindig minta alapján becsüljük, és vizsgálataink során ezt a becsült értéket egy elméleti értékkel hasonlítjuk össze. A két érték közötti azonosság vagy különbözõség megállapítása lehetõvé teszi annak eldöntését, hogy a minta származhat-e egy adott paraméterrel jellemzett sokaságból, illetve, hogy a minta vizsgált paramétere azonos-e egy elvárt, szabvány szerinti értékkel. A tesztelés különbözõ próbák alkalmazásával valósítható meg, azonban a hipotézisvizsgálatok esetén egy jól meghatározott metodikát kell követnünk: 1. A szakmai kérdés megfogalmazása. Arra vagyunk tehát kíváncsiak, hogy 5%-os szignifikanciaszinten a tervezett terméseredmény elérhetõ-e, vagyis a mintából számolt termésátlag és az elvárt hozam közötti tapasztalt különbség csak a mintavételi hibából fakad.
24
2. téma – Hipotézisvizsgálatok
2. A nullhipotézis (alaphipotézis, H0) és az alternatív vagy ellenhipotézis (H1) megfogalmazása. Itt rögzítjük a szignifikanciaszintet (a) is. H 0 : m = x m ® H0 : 25,50 = 24,99 H 1 : m ¹ x m ® H1 : 25,50 ¹ 24,99
a = 5%
A 25,50 tonna/hektár a termelõ által elõirányzott termésmennyiség, a 24,99 tonna/hektár termésátlagot pedig egyszerû számtani átlaggal számítottuk ki, a minta alapján. 3. Eldöntjük a próbafüggvény típusát, kiszámítjuk a minta (vagy minták) alapján a próbafüggvény aktuális értékét. Az aktuális próbafüggvény kiválasztása most nagyon egyszerû, hiszen tudjuk, hogy egy mintából számított átlagot hasonlítunk egy elvárt átlaghoz, tehát egymintás t-próbát alkalmazunk. Az aktuális próbafüggvény értékének számítása a következõ formulával történik: t=
x- m 24,99 - 25,50 = t= = 189 , , sd 0,27 ahol sd =
s n
=
0,97 13
= 0,27.
4. A mellékletben található megfelelõ kritikusérték-táblázatból (t-táblázat) kikeressük a megfelelõ szabadságfokhoz SZF = n – 1 = 13 – 1 = 12, és a (0,05) szignifikanciaszinthez tartozó kritikus (táblabeli) értéket, amely a = 2,16.
25
Egyszerûen statisztika 2.
Fontos megjegyezni, hogy kétoldalú vagy kétszélû próba esetén is 5%-on rögzítjük a szignifikanciaszintet, de mivel a próba kétszélû (H 1 : m ¹ x m ), ezért a hiba is 2 egyenlõ részre oszlik el, ezért valójában 2,5%-os szignifikanciaszintnél keressük ki a táblázatbeli kritikus értéket. 5. Döntünk arra vonatkozóan, hogy a nullhipotézist vagy az alternatív hipotézist fogadjuk-e el. Az eredmények alapján a H0 igaz, mert a számított érték (t) a kritikus érték (ta) alatt marad: 1,89 (t) < 2,16 (ta) b) Értelmezze a kapott eredményt! 6. Szakmai következtetések levonása. Az alaphipotézis elfogadása alapján azt mondhatjuk, hogy az elvárt terméshozam és a mintából számolt termésátlag között tapasztalt különbség (0,51 tonna/hektár) csak a véletlen, illetve a mintavételi hiba mûve, vagyis az elõírt terméseredmény elérhetõ.
Kétmintás átlagokra vonatkozó próba, t-próba 2. példa:
Egy édességgyártó üzem két csokoládékészítõ részlegét hasonlítottuk össze a csokoládék energiatartalma alapján. Mindkét fajtából 8-8 elemû mintát veszünk a feltevés ellenõrzésére, ezek jellemzõi: „A” fajta átlaga: 2010 kJ/száz g „A” fajta szórása: 2,2 kJ/száz g „B” fajta átlaga: 1995 kJ/száz g „B” fajta szórása: 1,9 kJ/száz g
a) Mivel fogyókúrázunk, arra vagyunk kíváncsiak, hogy a két csokoládéfajta energiatartalma között van-e igazolt különbség – tehát melyik csoki ener26
2. téma – Hipotézisvizsgálatok
giatartalma kevesebb –, vagy a megfigyelt különbség csak a mintavétel hibájából fakad. b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! c) Értelmezze az eredményeket! A mintapélda megoldása: a) Mivel fogyókúrázunk, arra vagyunk kíváncsiak, hogy a két csokoládéfajta energiatartalma között van-e igazolt különbség – tehát melyik csoki energiatartalma kevesebb –, vagy a megfigyelt különbség csak a mintavétel hibájából fakad. 1. A szakmai kérdés megfogalmazása. A feladatunk tehát annak megfogalmazása, hogy a két csokoládéfajta energiatartalma között van-e tényleges minõségbeli különbség. 2. A nullhipotézis (alaphipotézis, H0) és az alternatív vagy ellenhipotézis (H1) megfogalmazása. Itt rögzítjük a szignifikanciaszintet (a) is. H 0 : x 1 = x 2 ® H0 : 2010 = 1995 H 1 : x 1 ¹ x 2 ® H1 : 2010 ¹ 1995
a = 5%
3. Eldöntjük a próbafüggvény típusát, kiszámítjuk a minta (vagy minták) alapján a próbafüggvény aktuális értékét. Az aktuális próbafüggvény most a kétmintás t-próba, hiszen két különbözõ csokoládéfajta energiatartalmát hasonlítjuk össze, ennek megfelelõen a t-próbafüggvény értékének számítása a következõ formulával történik: t=
x1 - x 2 sd
=
x1 - x 2 S p×
1 1 + n1 n 2
27
Egyszerûen statisztika 2.
egyenlõ szórásokA esetén, ahol Sp=
( n1 - 1)× s12 + ( n 2 - 1)× s 22 , 2 + 7 × 2,20 2 7 ×190 = = 2,06, n1 + n 2 - 2 8 + 8- 2 t=
2010 - 1995 1 1 2,06× + 8 8
= 14,56.
4. A megfelelõ kritikusérték-táblázatból (t-táblázat) kikeressük a megfelelõ szabadságfokhoz és szignifikanciaszinthez tartozó kritikus (táblabeli) értéket, amely a (0,05) szignifikanciaszintenB és n1 + n2 – 2 = 14 szabadságfok esetén: t a = 2,15 5. Döntünk arra vonatkozóan, hogy a nullhipotézist vagy az alternatív hipotézist fogadjuk-e el. Ennek alapján a H1 ellenhipotézist fogadjuk el, mert a tapasztalati (számított) érték nagyobb, mint a táblázatbeli (kritikus) érték: 14,56 (t) > 2,15 (ta/2) 6. Szakmai következtetések levonása. Vizsgálataink alapján megállapíthatjuk, hogy az „A” fajta energiatartalma igazoltan (statisztikailag) különbözik a „B” fajta energiatartalmától, tehát a két csoki között minõségbeli különbség mutatkozik.
A A szórások különbözõsége, illetve egyezõsége azért fontos, mert a kétmintás t-próba esetén két különbözõ képletet alkalmazhatunk. Ahhoz, hogy eldöntsük, melyik képlet alapján számítsuk ki az aktuális t-értéket, elõbb a szórásokat kell letesztelnünk, F-próbával. A szórásokra vonatkozó próbákkal a jelen fejezetben még megismerkedhet az olvasó. B Természetesen itt is kétoldalú próbáról van szó – az alternatív hipotézis megfogalmazása alapján –, így ebben az esetben is 2,5%-nál keressük ki a kritikus értéket.
28
2. téma – Hipotézisvizsgálatok
b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! A kétmintás t-próba esetén, amennyiben H1 hipotézist fogadjuk el, lehetõségünk van arra, hogy kiszámítsuk a két mintaátlag közötti statisztikailag igazolt különbséget. Ennek érdekében ki kell számítanunk az SZDP% értékét, amely azt az adott szignifikanciaszinten felmerülõ maximális hibát jelenti, amely még mintavételi hibának tulajdonítható. Mindezek alapján a két mintaátlag között matematikailag is tapasztalható különbséget az alábbi módon bonthatjuk fel. 2.1. ábra A tapasztalt különbség felosztása Mintavételi hiba SZDP%
Igazolt különbség
1995
2010 Tapasztalt különbség: 15
Forrás: A szerzõk saját szerkesztése
Az ábrából kiolvasható, hogy a két csoki átlagos energiatartalma között tapasztalt matematikai különbség nem teljes mértékben a minõségi különbség oka, hanem részben a mintavétel hibájából fakad. A tényleges különbség a hiba feletti rész nagyságával egyenlõ. Az igazolt különbség számítása a következõképpen történik: SZD5% = t5%× sd, ahol SZD5% = az 5%-os szignifikanciaszinthez tartozó maximális hiba, az 5%-os szignifikanciaszinthez tartozó kritikus t-érték t5% = (SZF = n1 + n2 – 2), amelyet már megnéztünk: 2,15, különbségek hibaszórása, amely egyenlõ a t-próba értékésd = nek nevezõjével: 1,03. 29
Egyszerûen statisztika 2.
Példánkban az SZD5% értéke: 215 , × 013 , = 2,21 Ez tehát a maximális hiba értéke, az igazolt különbség pedig a kezelésátlagok különbségének az SZD5%-kal csökkentett értéke: |2010 – 1995| – 2,21 = 12,79 c) Értelmezze az eredményeket! Tehát az „A” fajta energiatartalma és a ”B” fajta energiatartalma között 12,79 kJ statisztikailag igazolható különbség van, 5%-os tévedési valószínûség mellett. Hétköznapi nyelven a 15 kJ-os megfigyelt különbségbõl 2,79 kJ a mintavételi hibának tulajdonítható, és csak az e feletti rész (12,79 kJ) tekinthetõ statisztikailag igazoltnak, tehát az „A” csoki energiatartalma igazoltan ennyivel nagyobb a „B” csoki energiatartalmánál.
3. példa:
Két búzafajta N-tartalmát hasonlítjuk össze, és azt vizsgáljuk, hogy a két búzafajta N-tartalma között van-e igazolt különbség. Mindkét fajtából 7-7 elemû mintát veszünk a feltevés ellenõrzésére, ezek jellemzõi: „A” fajta átlaga: 2,15 g/száz g „A” fajta szórása: 0,311 g/száz g „B” fajta átlaga: 1,95 g/száz g „B” fajta szórása: 0,108 g/száz g
a) Állapítsa meg, hogy a két búzafajta N-tartalma között van-e igazolt különbség! b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! c) Értelmezze az eredményeket!
30
2. téma – Hipotézisvizsgálatok
A mintapélda megoldása: a) Állapítsa meg, hogy a két búzafajta N-tartalma között van-e igazolt különbség! 1. A szakmai kérdés megfogalmazása. Arra vagyunk tehát kíváncsiak, hogy a két búzafajta N-tartalma között van-e tényleges különbség! 2. A nullhipotézis (alaphipotézis, H0) és az alternatív vagy ellenhipotézis (H1) megfogalmazása. Itt rögzítjük a szignifikanciaszintet (a) is. H 0 : x 1 = x 2 ® H0 : 2,15 = 1,95 H 1 : x 1 ¹ x 2 ® H1 : 2,15 ¹ 1,95
a = 5%
3. Eldöntjük a próbafüggvény típusát, kiszámítjuk a minta (vagy minták) alapján a próbafüggvény aktuális értékét. A mintapéldában 2 mintaátlag összehasonlítására kerül sor, ezért kétmintás t-próbát kell alkalmazni. Az aktuális próbafüggvény értékének számítása a következõ formulával történik: t=
x1 - x 2 sd
nem egyenlõ szórásokC esetén, ahol sd =
s12 s 22 0,312 011 , 2 , , + = + = 0120 n1 n 2 7 7
C A szórások különbözõsége, illetve egyezõsége azért fontos, mert a kétmintás t-próba esetén két különbözõ képletet alkalmazhatunk. Ahhoz, hogy eldöntsük, melyik képlet alapján számítsuk ki az aktuális t-értéket, elõbb a szórásokat kell letesztelnünk, F-próbával. A szórásokra vonatkozó próbákkal a jelen fejezetben még megismerkedhet az olvasó.
31
Egyszerûen statisztika 2.
t=
215 , - 195 , = 1,54. 013 ,
4. A megfelelõ kritikusérték-táblázatból (t-táblázat) kikeressük a megfelelõ szabadságfokhoz és szignifikanciaszinthez tartozó kritikus (táblabeli) értéket, amely a (0,05) szignifikanciaszinten és n1 + n2 – 2 = 12 szabadságfok esetén: 2,18 5. Döntünk arra vonatkozóan, hogy a nullhipotézist vagy az alternatív hipotézist fogadjuk-e el. A fentiek alapján a H0 alaphipotézist fogadjuk el, mert a tapasztalati (számított) érték kisebb, mint a táblázatbeli (kritikus) érték: 1,54 (t) < 2,18 (ta) b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! Mivel az alaphipotézist fogadtuk el, azaz szignifikáns különbséget a két búzafajta N-tartamát illetõen nem tapasztalunk, ez a feladat okafogyottá vált. c) Értelmezze az eredményeket! 6. Szakmai következtetések levonása. Vizsgálataink alapján megállapíthatjuk, hogy az „A” fajta N-tartalma nem különbözik a „B” fajta N-tartalmától.
32