9. GYAKORLAT – STATISZTIKAI PRÓBÁK SPSS-BEN FELADATOK A feladatokhoz mentsük saját gépünkre a példa adatokat tartalmazó fájlokat a tanszéki honlapról: www.hds.bme.hu/mota/sm/spss1.sav www.hds.bme.hu/mota/sm/spss2.sav www.hds.bme.hu/mota/sm/spss3.sav www.hds.bme.hu/mota/sm/spss4.sav F.1. A biztonságos munkahelyi környezet egyik elengedhetetlen feltétele, hogy a dolgozóknak ne kelljen olyan munkafolyamatot végezni, ami meghaladja képességeiket. A percenkénti négy emelést megkövetelı fizikai munka megengedett súlyainak nagysága –a dolgozó életkorának függvényébenmeghatározott. („The Effects of Speed, Frequency, and Load on Measured Hand Forces for a Floor-to Knuckle Lifting Task”, Ergonomics, 1992: 833-843.) Egy cég arra kíváncsi, hogy a céges munkahelyi átlag megfelel-e a 18-30 éves dolgozókra meghatározott 25 kg-os megengedett emelési tömegnek. Vizsgálatuk során 5 ilyen munkafolyamatot végzı munkásuk a következı tömegeket emelte átlagosan: 25.8
36.6
26.3
21.8
27.2
Adjon módszert az elemzés elvégzésére, és végezze el a vizsgálatot! Megoldás: Mivel most a szórás nem ismert egymintás T-próbát alkalmazunk Indítsuk el az SPSS 14.0 for Windows programot a gépen, majd válasszuk a „type in data” opciót. Ekkor az SPSS „Data Editor” panelje jelenik meg elıttünk, ami egy felsı menüsort és két fület tartalmaz: 1. Egy táblázatos formájú Data View fület 2. Egy szintén táblázatos (de adott fejlécekkel ellátott) Variable View fület. Írjuk be az elsı oszlopba egymás alá a munkások sorszámát: 1, 2… 5 A második oszlopba írjuk be a mért értékeket, vagyis sorrendben a fenti táblázatban található tömegeket. Most nézzük meg a Variable view fület. Itt megjelent a két oszlopnak megfelelıen két sor. Itt adhatjuk meg azt, hogy ezeket milyen adatként kezelje. Sorrendben: • az oszlop neve ---- ide írjuk be az elsı sorba, hogy sorszám, a másodikba, hogy tömeg • az adott változó típusa, • a karakterek max. hossza, • a kiírt tizedesjegyek száma ---- mivel az elsı oszlopban a sorszámok vannak, itt állítsuk ezt a számot 0-ra, a második oszlopban pedig 1-re, mivel tized kg pontosan voltak megadva a méréseink • az oszlop címkéje ---- ide írjuk be az elsı sorba, hogy a Dolgozó sorszáma, a második sorba, hogy Emelt tömeg [kg] • … stb.
Váltsunk vissza a Data View nézetre. Látszik, hogy oszlopainknak már van neve, és megváltozott a számok formátuma is a tizedesjegyeket tekintve. Miután megvan az adathalmaz, nekikezdhetünk a próba elvégzésének. Nullhiptézis:
A mért tömegek várható értéke 95 %-os valószínőségi szinten 25 kg.
Vizsgálat: Válasszuk a felsı menüsorból az Analyze → Compare Means → One-Sample T Test parancsot (vagyis a várható értékre egymintás T próbát alkalmazunk). A megjelenı panelban válasszuk ki, hogy a mért tömegekre szeretnénk a vizsgálatot elvégezni: jelöljük ki a bal oldalon a megfelelı adathalmazt, és a nyíllal adjuk hozzá a Test Variable panelhez. Az alsó Test Value mezıben adjuk meg, milyen konkrét várható értékre akarjuk a vizsgálatot elvégezni, írjuk be: 25. Az Options gombot megnyomva beállíthatjuk a szignifikancia szintet, írjuk be a Confidence interval-hoz, hogy 95 %, majd nyomjuk meg a folytatás gombot. A beállítások után nyomjuk meg az OK gombot. Eredmény: Az SPSS program egy ú.n. Output View ablakot hoz létre nekünk, ebben adva meg az elvégzett vizsgálat eredményét, de természetesen értékelést nem ad hozzá, ez mindig a felhasználó feladata. Az Output View két táblázatot tartalmaz: 1. a minta statisztikáit tartalmazó táblázat --- sorrendben itt a minta elemszám (N), átlag s* ( x ), korr. tap. szórás (s*) és az átlag szórása ( ) szerepel benne N 2. a vizsgálat eredményeit tartalmazó táblázat --- sorrendben a t próba aktuális értéke (takt), a szabadságfok (df=N-1), Sig. (ezzel egyelıre nem foglalkozunk), az átlag és a tesztelt érték közötti különbség ( x − a0 ), és a keresett konfidencia intervallum alsó (CIlower) és felsı határa (CIupper) szerepel benne Értékelés: Alakítsuk át az általunk használt próba kritériumot egy kicsit. Ha H0 igaz:
− t krit ≤ t akt ≤ t krit a0 − x ≤ t krit s* N * s s* − t krit ⋅ ≤ a0 − x ≤ t krit ⋅ N N s* s* − t krit ⋅ − a0 − x ≤ 0 ≤ t krit ⋅ − a0 − x N N CI lower ≤ 0 ≤ CI upper − t krit ≤
(
)
(
)
A program a próba eredményeinek utolsó két oszlopában e két utolsó számot adja meg, egy konfidencia intervallum (Confidence Intervall) alsó és felsı határt.
Vagyis a levezetés utolsó sora alapján, ha az ott látható feltétel igaz, vagyis a program által számolt intervallum alsó határa negatív, a felsı határa pedig pozitív, akkor a H0-t az adott szignifikancia szinten elfogadjuk. Esetünkben:
-4.253 < 0 < 9.33 igaz, a H0 hipotézist elfogadjuk, vagyis a dolgozók által átlagosan emelt súlyok tömege 95 %-os valószínőséggel 25 kg, a munkahely megfelel a szabványnak.
F.2. A következı adatok hegesztéssel ill. hegesztés nélkül készült polimer csövek húzófeszültségét mutatják. („Effect of Welding on High-Density Polyethylene Liner”, J. of Materials in Civil. Eng., 1996: 94-100) Hegesztés nélkül [*10^7 Pa] 1.89 1.86 1.83 1.95 1.73 2.17 2.25 2.22 2.22 1.90
Hegesztve [*10^7 Pa] 2.09 2.31 2.32 2.27 2.15 2.01 1.99 2.00
Egyetért-e a kutatókkal, akik azt állítják, hogy a csövek húzófeszültségén az új technológia nem változtatott? Megoldás Mivel a szórás nem ismert, és a változók függetlenek független kétmintás T-próbát alkalmazunk Elıkészítés: Nyissuk meg az spss1.sav állományt a File → Open → Data menüpont használatával. Ebben a 18 vizsgált csı sorszáma, és mint mért adat: azok húzófeszültsége található az elsı két oszlopban. A vizsgálathoz természetesen el kell különítenünk a kül. technológiával készített csöveket, ezért a harmadik oszlopban az elsı 10 adat mellé írjuk 0-t, a maradék nyolc mellé pedig 1-et. Nevezzük el (a Variable View-t használva) az oszlopot technológia azonosítónak, állítsuk át tizedesjegy nélkülivé az oszlopot, és adjuk értelmet a két számnak: a Values oszlopban megjelenı szürke négyzetre kattintva töltsük ki a Value Lables panelt. Írjuk be a Value-hoz hogy 0, a Value label-hez, hogy hegesztés nélkül, majd nyomjuk meg az Add gombot, írjuk be az 1est, a hegesztve címkét és adjuk ezt is hozzá. Nyomjuk meg az OK gombot. Nullhipotézis: H0: A hegesztés nélküli és hegesztett csövek húzófeszültsége megegyezik. Vizsgálat:
Válasszuk a felsı menüsorból az Analyze → Compare Means → Independent Samples T Test parancsot. (A független kétmintás T próbát választjuk, a két valószínőségi változó egymástól független, hiszen két teljesen különbözı mintát választottunk a két technológiával készült csövek halmazából!) A vizsgálni kívánt változó a húzófeszültség, azt adjuk a Test Variable panelhez. A kritérium, ami szerint a minta két részre van osztva a technológia, ezt adjuk a Grouping Variable panelhez. A Define Groups gombnál tudjuk megadni, hogy milyen értékek tartoznak az egyes csoportokba: írjuk a Group1 mellé, hogy 0, a Group2 mellé, hogy 1. Nyomjuk meg a folytatás gombot. Az Options-ban állítsuk be a szignifikancia szintet 95%-ra. A beállítások után nyomjuk meg az OK gombot. Eredmény: Az Output view megint két táblázatot tartalmaz: 1. a minta két csoportjának statisztikáit tartalmazó táblázat 2. a vizsgálat eredményeit tartalmazó táblázat --- a táblázat elsı felében a Levene féle próba; a második felében a Student féle T próba eredményei láthatók (mi ez utóbbit tárgyaljuk csak!). Értékelés: Az eredmények értelmezéséhez az elızı próbánál leírtak szerint kell a kétmintás T próba megvizsgálandó relációját átalakítani. Ebbıl levezethetı, hogy ugyanúgy CI lower ≤ 0 ≤ CI upper vizsgálandó. Mivel -0.31 < 0 < 0.032, a nullhipotézist elfogadjuk, a hegesztett és hegesztés nélküli csövek húzófeszültsége megegyezik. F. 3. A mozgásszervi nyak-váll problémák igen gyakoriak azon munkavégzık esetében, akik ismétlésszerő, vizuális kijelzı kezelıi munkát végeznek. Az „Upper-Arm Elevation During Office Work” c. cikk (Ergonomics, 1996: 1121-1230) egy 16 egyénen végzett kísérlet eredményeit ismerteti. A kísérletben kétszer figyelték meg a dolgozókat, az elsı alkalommal úgy, hogy a kézmozgásra max. 30°-os szögben volt lehetıségük, a második esetben -18 hónappal késıbb- úgy, hogy közben javítottak a munkakörnyezeten, és így a dolgozóknak nagyobb tartományban és változatosságban volt lehetıségük karjukat mozogatni. A munkavégzés hatékonyságát úgy mérték le, hogy egy adott munkafolyamatot kellett a dolgozóknak elvégezni egy adott limitidı alatt, és azt nézték, hogy a limitidı hány százalékát használták fel a feladatmegoldásra. Elsı alkalommal korlátozott kézmozgással, majd második alkalommal kiterjesztett kézmozgással, vagyis jobb körülmények mellett. A 16 dolgozó két alkalommal mért eredményei vannak az spss2.sav állományban. Alátámasztják-e az adatok a kijelentést, miszerint a nagyobb mozgástér biztosítása nem változtatott a munkavégzés hatékonyságán? Megoldás: Mivel a szórás nem ismert, a változók összefüggnek, páros kétmintás T-próbát alkalmazunk Nullhipotézis: H0: A munkavégzés hatékonysága nem változott (a munkavégzésre fordított idı nem változott). Vizsgálat:
Válasszuk a felsı menüsorból az Analyze → Compare Means → Paired Sample T Test parancsot. (Itt a páros kétmintás T próbát választjuk, a két valószínőségi változó ugyanis nem független, hiszen a vizsgált alanyok a két mérésnél ugyanazok voltak!) A vizsgálni kívánt két változót a Shiftet lenyomva tartva együtt jelöljük ki, és adjuk a Paired Variables panelhez. Az Options-ban állítsuk be a szignifikancia szintet 95%-ra. A beállítások után nyomjuk meg az OK gombot. Eredmény: Az Output View most három táblázatot tartalmaz: 1. a minta két csoportjának statisztikáit tartalmazó táblázat 2. a két minta korrelációs vizsgálatra vonatkozó táblázatát 3. a vizsgálat eredményeit tartalmazó táblázat Értékelés: Az elızıekhez hasonlóan CI lower ≤ 0 ≤ CI upper vizsgálandó. Mivel 2.362 < 0 < 11.138 nem igaz, a nullhipotézist elutasítjuk, a munkavégzés hatékonysága változott. Megjegyzés: A vizsgálat elvégezhetı a 7. gyakorlaton megismert módon is, ekkor a munkavégzésre fordított idık közti különbség várható értékét – hogy az nulla-e – kell vizsgálni egymintás T próbával. F.4. Elızı óránkon Χ2 próbával megállapítottuk, hogy egy kutató cég által megvizsgált 40 fiú és 40 lány magassága normális eloszlást követ (p=95%). Rajzoljuk meg a minta sőrőségfüggvényét, és hasonlítsuk össze a normális eloszlás sőrőségfüggvényével! A vizsgálat eredménye az spss3.sav fájlban látható. Megoldás: A 40 lány és 40 fiú adatait együtt szeretnénk vizsgálni, ezért a 4. oszlopba Ctrl+c és Ctrl+v használatával másoljuk egymás alá a két mintát. Nevezzük el az oszlopot: Gyerekek; ne legyenek tizedesjegyek; és a címke legyen a 10-12 éves gyermekek magassága. Válasszuk a menübıl a Graphs → Histogram… parancsot. Válasszuk ki Variable-nek a 10-12 éves gyermekek magasságát, és pipáljuk ki a Display normal curve mezıt. Ezzel a sőrőségfüggvényre a normális eloszlás sőrőségfüggvényét is rárajzolja a szoftver. Nyomjuk meg az OK-t. Az Output Viewban meg is jelenik a hisztogram, amely mellett a minta legfontosabb tulajdonságai: átlaga, szórása és elemszáma is megjelenik, és a normális eloszlásnak megfelelı görbével a hisztogramunk összevethetı. F.5. Egy internetes áruház promócióinak bevezetése elıtt meg akarja vizsgálni (98%-os valószínőségi szinten), hogy oldaluk látogatottsága egyenletes-e a hét folyamán. A megfigyelt idıszak alatt az spss4.sav állományban található látogatottságokat mérték. Megoldás: Megvizsgáljuk, hogy a minta egyenletes eloszlásból származik-e: Χ2 próba
Nullhipotézis: H0: A minta egyenletes eloszlású Vizsgálat: Elıször rendeljük hozzá a hét napjainak sorszámához az adott napi látogatók számát: válasszuk a felsı menüsorból az Data → Weight Cases… parancsot. Állítsuk aktívra a Weight cases by opciót, legyen a Frequency Variable a látogatók száma, majd OK. Most jöhet a próba: Analyze → Nonparametric Tests → Chi-Square… parancs. Mivel az imént a napokhoz hozzárendeltük a látogatók számát, így most a Nap sorszámát adjuk a panelhez, mint tesztelni kívánt változó. Az alsó beállítások maradnak az alapbeállításon, nyomjuk meg az OK-t. Eredmény: Az Output view most két táblázatot tartalmaz: 1. az intervallumok adatait --- a valódi intervallumba esést (Observed N, eddig nálunk υ i ), az egyenletes eloszlásnak megfelelı intervallumba esést (Expected N, nálunk N ⋅ pi ), és az elıbbi kettı különbségét (υ i − N ⋅ pi ) r
2 =∑ 2. a próba statisztikáit --- Χ 2 akt értékét ( χ akt
(υi − N ⋅ pi )2 ); a szabadságfokot
N ⋅ pi (r-1); azt a becsült valószínőséget (Asympthotic Significance), ahol a kritikus érték nagyobb lesz, mint az aktuális, és így a nullhipotézis igaz (1-p) i =1
Értékelés: A Χ2 próba értékelése: ha χ 2 akt ≤ χ 2 krit ( p, r − 1) , a nullhipotézist elfogadjuk. A szoftver nekünk ebbıl (1-p)-t adja meg. Így az értékelés a következı: ha Asymp.Sig ≥ (1 − p ) , a nullhipotézist az adott szinten elfogadjuk. Mivel esetünkben 0.003 ≥ 1 − 0.98 = 0.02 nem igaz, a nullhipotézist elutasítjuk, a hét napjain a látogatottság nem egyenletes. F.6. Vizsgáljuk meg ugyanezt csak a hét munkanapjait figyelembe véve. Megoldás: Lásd elızı feladat… Nullhipotézis: H0: A minta a munkanapokon egyenletes eloszlású Vizsgálat: A vizsgálat teljesen hasonló az elızıhöz: Váltsunk vissza a Data View-ra (az Output fájlt nem kell bezárni). Analyze → Nonparametric Tests → Chi-Square… parancs. Az elızıhöz képest csak az alsó beállítások változnak: az Expedted range legyen Use specified, alsó határnak írjunk be 1-et, felsınek 5-öt. Ezzel beállítottuk, hogy az intervallumok közül csak az 1 és 5 közötti sorszámúakat vizsgálja, vagyis hétfıtıl péntekig. Nyomjuk meg az OK-t. Eredmény:
Az Output Viewban az elızı eredmények alá kerülnek az új táblázatok. Értékelés: Most 0.703 ≥ 1 − 0.98 = 0.02 igaz, a nullhipotézist nem utasíthatjuk el, a hét munkanapjain az oldal látogatottsága egyenletes. A GYAKORLATON RÉSZLETEZETT STATISZTIKAI FOGALMAK: SPSS alkalmazások • T próba (egymintás, kétmintás független és összefüggı) • Hisztogram szerkesztés • Χ2 próba