Alkalmazott statisztika Feladatok
A feladatokhoz használt adatokat megtaláljátok itt: www.math.u-szeged.hu/∼szakacs/oktatas/alkstat.html 1. óra (szept. 9.)
Az óra anyaga: Követelmények ismertetése, az SPSS rövid bemutatása. Grakonok az SPSS-ben: oszlopdiagram, hisztogram. Órán vett feladatok: (1) Nyissuk meg a cars.sav fájlt! A .sav az SPSS saját formátuma, File > Open... menüpontból minden további nélkül megnyitható. Nézzük meg a Variable View fülön a Label mez®ben, hogy a rövidített változónevek mit jelentenek. (2) Ábrázoljuk oszlopdiagramon, hogy hány modell származik az egyes országokból! Graphs > Legacy Dialogs > Bar..., felugró ablakban: Summeries for groups of cases, majd Bars Represent: N of cases, Category Axis: Country. (3) Ábrázoljuk oszlopdiagramon az egyes országokból számrazó modellek átlagos végsebességét! Graphs > Legacy Dialogs > Bar..., felugró ablakban: Summeries for groups of cases, majd Bars Represent: Other statistics, itt Variable: Top Speed, Category Axis: Country. (4) Ábrázoljuk a végsebesség és a fogyasztás hisztogramjait! Graphs > Legacy Dialogs > Histogram..., felugró ablakban: Variable: Top speed vagy Average miles per gallon. A hisztogram jelentése: becsült s¶r¶ségfüggvény, azaz az adatok így "oszlanak el" a számegyenesen. 2. óra (szept. 15.)
Az óra anyaga: Még egy típusú grakon: boxplot; txt importálása SPSS-be, változótípusok, új változók deniálása, véletlenszám-generálás. Órán vett feladatok: (1) A cars.sav fájlban ábrázoljuk a végsebesség változó boxplotját országonként! Keressük meg az adatbázisban a kiugró értékeket! Graphs > Legacy dialogs > Boxplot..., felugró ablakban: Summeries for groups of cases, majd Variable: Top speed, Category Axis: Country. A boxplot gy olan grakontípus, amely a változó minél több jellemz®jét igyekszik ábrázolni. A három vastag vonal: alsó kvartilis, medián, fels® kvartilis, leolvasható még a maximum és a minimum, illetve az ezeken kívül es® értékek. (2) Nyissuk meg az emberek.txt fájlt! Ha a File > Open -nél kiválasztjuk a txt-t, megnyílik egy varázsló, ami végignavigál minket a fájl importálásához szükséges lépéseken. F®bb dolgok, amiket be kell a varázslóban állítani: Variable names included at the top of le > Yes ; Which delimiters appear between variables > Tab, általában végig kell próbálgatni. (3) Állítsuk be, hogy a "nem" változóban a számok helyett az általuk kódolt értékek (1=fér, 2=n®) jelenjenek meg! Állítsuk be a változók típusait! A Variable view fülön a "nem" sorban kattintsunk a Values mez®n, és a felugró ablakban adjuk meg a következ®ket: Value: 1, Label: fer, majd Add, ez után Value: 2, Label: no, ismét Add, és OK. A Data view fülön kapcsoljuk be a címkék láthatóságát a címkét ábrázoló gombbal. A változók típusait a Variable view fülön állíthatjuk át, a Measure oszlopban. A "nem" típusa legyen Nominal, az összes többi Scale. (4) Hozzunk létre egy új változót BMI néven, amely az egyes emberek testömegindexét tartalmazza: súly kg magasság2 ( m2 ). A BMI változó segítségével deniáljunk egy sulykat változót, amely 3 értéket vesz fel attól függ®en, hogy a BMI 20 alá, 25 fölé, vagy a kett® közé esik. A sulykat változó címkéinek állítsuk be rendre: "sovány", "átlagos" és "túlsúlyos". Transform > Compute Variable..., Target variable: BMI, Numeric Expression: suly/(magassag/100) ** 2, majd Transform > Recode into Dierent Variable..., itt az Input Variable a BMI, az Output Variable legyen sulykat, az Old and New Values... gombbal felhozható ablakban állítsuk be a Range segítségével, hogy milyen intervallumokhoz milyen új értékek rendel®djenek. A Variable view -n állítsuk be a címkéket, és állítsuk át a változótípust Ordinal-ra. 1
2
(5) Generáljunk egyenletes és standard normális elszolású véletelen változókat! Transform > Compute Variable..., Function Group: Random Numbers, itt az egyenletes: Rv.Uniform, a normális: Rv.Normal, a paramétereiket is meg kell adni. (6) Ábrázoljuk az el®bb generált véletlen változók hisztogramjait! Értelmezzük a mellettük lév® mutatókat! Elegend®en nagy minta esetén a hisztogram visszaadja a megfelel® s¶r¶ségfüggvényeket (egyenletes és normális). A Mean és a Std Deviation a változók várható értékét ill. szórását becsüli, ez már kb. 100 generált érték esetén is elég közel van ahhoz, amit elvileg generáltunk. Gyakorló feladatok az els® két óra anyagához
Nyissuk meg a gwaimasi.sav állományt! Ez arra vonatkozó adatokat tartalmaz, hogy az Új-Guinea szigetén található Gwaimasi falu férai mennyi vaddisznót, kazuárt, halat és egyéb élelmet gy¶jtöttek egy év alatt. Nézzük meg a Variable View lapon az egyes változók jelentését. (1) Ábrázoljuk egy boxplot diagramon, hogy melyik élelemb®l mennyit gy¶jtöttek! Keressük meg az adatok között a kiugró értkeket! (2) Kódoljuk a családi állapotot. Hozzunk létre egy változót, mely 1-et vesz fel értékül, ha az egyén gyerek, 2-t, ha atal, 3-at, ha v®legény, 4-et, ha házas, végül 5-öt, ha özvegy. A Variable View lapon állítsuk be az értékek címkéit (Values). A Data View lapon kapcsoljuk be, illetve ki a címkéket. (3) Hozzunk létre egy új változót, amely azt tartalmazza, hogy az egyes férak mennyi élelemet gy¶jtöttek összesen! Ábrázoljuk ennek a változónak a hisztogramját! (4) Hozzunk létre egy változót, mely 0-t vesz fel értékül, ha a fér 16 év alatti, 1-et, ha az életkor 16 és 30 év közé esik, vegül, 2-t, ha a fér ennél id®sebb. Ábrázoljuk oszlopdiagramon, hogy az egyes korcsoportok átlagosan mennyi élelmet gy¶jtöttek! (Az el®z® feladatban létrehozott változó segítségével.) Nyissuk meg a popularkids.txt fájlt! Ez egy amerikai felmérés eredményét tartalmazza, amelyben azt vizsgálták, hogy a 10 év körüli gyerekeknek mik a céljaik, illetve mi teszi ®ket népszer¶vé. A fájl elején található a változók és a felmérés részletes ismertetése, ezt importálás el®tt fussuk át, majd töröljük ki. (1) Állítsuk be az egyes változók típusait a Variable View fülön! Több változó string érték¶, ami az SPSS-nek néha gondot okoz. A Gender és Goals változókban a Recode into same variables... segítéségvel cseréljük le a szöveget számokra, majd a Variable View fülön állítsuk be az eredeti szöveget a megfelel® számok címkéjeként. A változók típusát (Type) állítsuk át numerikusra. (2) Ábrázoljuk egy boxplot diagramon a Grades, Sports, Looks és Money változókat! Értelmezzük a diagramot! Ránézésre melyik tényez®t tarthatják a gyerekek népszer¶ség szempontjából a legfontosabbnak? (A változó által felvett érték azt jelöli, hányadik fontossági sorrendben.) (3) Hozzunk létre egy új változót Legfontosabb néven, amely azt tartalmazza, hogy a Grades, Sports, Looks és Money tényez®k közül az egyes gyerekek melyiket tartották legfontosabbnak népszer¶ség szempontjából. (Segítség: A Compute Variable ablakban az If... gomb segítségével sz¶rhetjük, hogy pl. csak abban az esetben írjuk felül a változót, ha Grades=1.) Az új változó legyen számérték¶, a címkéknél állítsuk be, melyik szám mit kódol, illetve állítsuk be a változó típusát (Measure). (4) Ábrázoljuk oszlopdiagramon (a Legfontosabb változó segítségével), hogy melyik tényez®t hány gyerek tartotta legfontosabbnak! Ábrázoljuk ugyanezt külön a úkra és a lányokra! (5) Ábrázoljuk oszlopdiagramon, hogy különböz® célokat (Goals) megjelöl® gyerekek közül hányan milyen tényez®t jelöltek legfontosabbnak! (Segítség: Bar > Clustered, itt Category Axis: Legfontosabb, Dene Clusters by: Goals.) Értelmezzük a diagramot! 3. óra (szept. 22.)
Az óra anyaga: Elméleti háttér: várható érték, szórás becslése; statisztikai próbák, hibák, szignikancia, kondencia-intervallum. Alapstatisztikák SPSS-ben: mintaátlag, medián, módusz, empirikus szórás és varianca, egymintás T-próba. Órán vett feladatok:
3
(1) Nyissuk meg a brain.sav fájlt! Adjuk meg a különböz® intelligenciák alapstatisztikáit: átlag, empirikus szórás, minimum, maximum, módusz, medián, kvartilisek. Analyze > Descriptive Statistics > Frequencies, itt a Statistics gomb által felhozott ablakban válasszuk ki a kívánt statszitikákat, Variable-nek adjuk meg az FSIQ, VIQ és PIQ változókat. A módusz, medián és kvartilisek kivételével az Analyze > Descriptive Statistics > Descriptives menüpontból is kiírathatók a statisztikák hasonló módon. (2) Adjuk meg ugyanezeket a mennyiségeket külön a férak és n®k esetén! Hasonlítsuk össze a kapott eredményeket! A Data > Select cases menüpont segítségével sz¶rjük le az eseteket egyszer az egyik, majd a másik nemre (a felugró ablakban az If... gombbal lehet beállítani a sz¶rés feltételét, pl. Gender="Male"), és a sz¶rt adatokról kérjük le a kívánt statsztikákat úgy, ahogy az el®bb. (3) Adjunk 95%-os kondencia-intervallumot az intelligenciák várható értékeire! Teszteljünk le t-próbával egy olyan értéket, amely mindhárom IQ szint esetében hihet®nek t¶nik! A kondencia-intervallumhoz az Analyze > Compare Means > One-sample T-test ablakban teszteljük a 0 értéket az FSIQ, VIQ és PIQ változókra, az Options -nél adjunk meg 95%-ot. A kondenciaintervallumok (és a mintaátlagok) alapján látszik, hogy egy 115 körüli érték bármely IQ szint esetén hihet® várható érték. Teszteljük ezt le ugyanitt. Gyakorló feladatok
(1) A brain.sav fájlban adjunk becslést a testmagasság és a testsúly várható értékére és szórására! Adjunk becslést a szórásokra külön a férak és n®k esetén! Melyik változó szórása melyik esetben nagyobb? (2) Adjuk meg a három IQ változó kvartiliseit, minmumát és maximumát! Ábrázoljuk a három változó boxplotját, és azonosítsuk be a kapott értékeket! (3) Adjunk 99%-os, 95%-os és 90%-os kondencia-intervallumokat a testmagasság várható értékére! Melyik intervallum a legsz¶kebb? Miért? (4) Teszteljük 10%-os szignikancia szinten, hogy az FSIQ és a PIQ változók várható értéke 112. Hihet®e ez alapján, hogy a két változó várható értéke egyenl®? Teszteljük le 10%-os szignikancia szinten, hogy a változók különbségének várható értéke 0. (Segítség: új változó létrehozásával.) Ez alaján mit mondhatunk az el®z® kérdésr®l? 4. óra (szept. 29.)
Az óra anyaga: egymintás t-próba, kétmintás t-próba, páros t-próba, F-próba Órán vett feladatok: Nyissuk meg a vernyomas.txt fájlt! Két új vérnyomáscsökkent® készítményt teszteltek egy 45 f®s betegcsoporton. 15 páciens az I., másik 15 páciens a II. gyógyszert szedte egy hónapon át. A maradék 15 f® volt a kontrollcsoport, ®k a "hagyományos" vérnyomáscsökkent®t szedték továbbra is. A SYS1 változó tartalmazza a kísérlet el®tti, a SYS2 pedig a kísérlet után mért vérnyomásokat. (1) Teszteljük 5%-os szignikancia szinten azt a nullhipotézist, hogy a vizsgálat elején a betegek átlagos systoles vérnyomása 140 Hgmm volt. Adjunk 95% megbízhatóságú kondencia intervallumot a kezdeti vérnyomás várható értékére. Milyen átlagos vérnyomás t¶nik hihet®bbnek? Egymintás t-próbával teszteljük a várható értéket: Analyze > Compare Means > One-sample T test..., Test value=140, Test variable: SYS1. A kapott szignikancia 0, 00, ami kisebb, mint 0, 05, így a nullhipotézist elvetjük, azaz nem 140 Hgmm a betegek várható vérnyomása. A kondenciaintervallumhoz teszteljük a 0 értéket. Ez alapján azt látjuk, hogy a 160 Hgmm pl. elfogadható 5%-os szignikancia szinten, hiszen beleesik a 95%-os kondencia-intervallumba. (2) Teszteljük le 5%-os szignikancia szinten, hogy változott-e a kezelés utánra kontroll csoport átlagos vérnyomása! Sz¶rjük az eseteket csak a kontrollcsoportra: Data > Select Cases..., a feltétel: CSOP=2. A SYS1 és SYS2 változók várható értékét szeretnénk összehasonlítani, ezek nem függetlenek, így páros t-próbát végzünk: Analyze > Comapre Means > Paired-sample T test..., itt megadjuk a SYS1 és SYS2 változókat. A szignikancia alapján nullhipotézist elfogadhatjuk (hiszen > 0, 05).
4
(3) Állíthatjuk-e 5%-os szignikancia szinten, hogy a II. gyógyszer csökkentette a betegek átlagos vérnyomását? Sz¶rjük le az eseteket a CSOP=1 feltétellel. Ismét páros t-próbát végzünk, kérjünk 95%-os konfdencia-intervallumot is (Options). A szignikancia ezúttal azt mondja, hogy a nullhipotézist (várható értékek egyenl®sége) nem fogadhatjuk el, de mi arra vagyunk kíváncsiak, hogy a változók különbségének várható értéke pozitív-e. Látható, hogy a kondencia-intervallum a pozitív félegyenesen van, így a várható értékek különbségének is csak pozitív érteket fogadhatunk el 5%-os szignikancia szinten. Így a kérdésre a válasz: állíthatjuk. (4) Teszteljük le, hogy a az I. és a II. betegcsoportokban a vérnyomás várható értéke a kezelés el®tt megegyezett! Kapcsoljuk ki a sz¶rést! Kétmintás t-próbát végzünk: Analyze > Compare Means > IndependentSamples T test, Grouping Variable: CSOP, a Dene groups-ban megadható a két csoport, amit összehasonlítunk: 0 és 1. Test variable: SYS1. A kapott táblázat második oszlopában található a szórások egyenl®ségét elln®rz® F-próba eredménye. Ennek a szignikanciája 0, 501 > 0, 05, így b®ven elfogadhatjuk. A táblázat másopdik felének éppen ezért az els® sorát vesszük gyelembe. Itt a szignikancia 0, 679 > 0, 05, így a t-próba nullhipotézisét is elfogadjuk, azaz a két csoporban a várható érték megegyezik. Gyakorló feladatok
(1) Nyissuk meg a már korábban használt brain.sav fájlt! Teszteljük azt a nullhipotézist, hogy a verbális intelligencia (VIQ) és performációs intelligencia (PIQ) várhatóan nem tér el egymástól! Teszteljük a két változó különbségének várható értékének 0 voltát egymintás t-próbával is és ellen®rizzük, hogy a két eljárás ugyanazt az eredményt adja! (2) Teszteljük azt a nullhipotézist, hogy a férak és n®k intelligenciájának (FSIQ) várható értéke megegyezik. Teszteljük azt a nullhipotézist is, hogy a férak esetén ez a várható érték 5-tel magasabb! Magyarázzuk meg a kapott eredményeket! (3) Adjunk 90%-os kondencia-intervallumot a n®k és a férak súlyának várható különbségére! Milyen szignikancia szinten állíthatjuk, hogy a férak várhatóan 20 fonttal nehezebbek? (4) Nyissuk meg a korábban használt gwaimasi.sav állományt! Elfogadjuk-e 10%-os szignikancia szinten, hogy a 20 év alattiak és a 20 év felettiek várhatóan ugyanannyi disznót fogtak? Mi lenne a helyzet, ha a szórások egyenl®ségére vonatkozó vizsgálattól eltekintenénk? 5. óra (okt. 6.)
Az óra anyaga: ANOVA és a hozzá kapcsolódó vizsgálatok; Welch-próba, Tukey. Órán vett feladatok: (1) Nyissuk meg a korábban használt vernyomas.sav fájlt! Korábban kétmintás t-próbákkal ellen®riztük, hogy a SYS1 változó a különböz® csoportokban ugyanolyan várható érték¶. Teszteljük ugyanezt most egyetlen próbával! Analyze > Compare Means > One-way ANOVA..., Dependent list: SYS1, Factor: CSOP. Az Options...-ben tesztelük a szórások egyenl®ségét (Homogenity of variance-test), és kérjünk Welch-próbát is. (Ha a szórások egyenl®ségét elvetnénk, az ANOVA eredménye helyett a Welch-próba eredményét vennénk gyelembe.) Az els® táblázat alapján a szórások egyenl®ségét elfogadhatjuk, és az ANOVA eredménye alapján a különböz® csoportokban a vérnyomások várható értékének egyenl®ségét is. (2) Teszteljük a vérnyomások várható egyenl®ségét csoportonként a SYS2 változóra! Mely csoportok vérnyomásai tekinthet®k egyenl®knek? Analyze > Compare Means > One-way ANOVA..., Dependent list: SYS2, Factor: CSOP. Az Options...-ben megint (ANOVA-nál mindig!) teszteljük a szórások egyenl®ségét és kérjünk Welchpróbát. A második kérdésre Post hoc vizsgálat segítségével tudunk válaszolni: pipáljuk ki a Tukey-t. Ez kétmintás t-próbát végez minden csoport-páron, és ez alapján skatulyákba osztja az egyformának tekinthet® csoportokat. Az eredményb®l látjuk, hogy a három csoport várható értéke nem egyenl® (az ANOVA nullhipotézisét elvetjük), és a Tukey által hozott Homogenous Subsets táblázatból kiderül, hogy csak a 2-es (kontroll) csoport tér el a többiekt®l. (Ez egyébként a kétmintás t-próbák szignikanciáiból is látszik.)
5
(3) Nyissuk meg a kolcson.sav fájlt! Független-e az, hogy valaki várhatóan hány éve dolgozik a munkahelyén, attól, hogy milyen típusú fedezetre vett fel kölcsönt? Analyze > Compare Means > One-way ANOVA..., Dependent list: munkavisz, Factor: fedezet. Ez a feladat példa a szórások ellen®rzésének fontosságára: itt, ha csak ANOVA-t végeznénk, a nullhipotézist elfogadnánk. Viszont a szórások egyenl®sége nem teljesül, így az ANOVA nem vehet® gelembe, az általánosabb Welch-próba szerint pedig a várható értekek egyenl®sége nem fogadható el. Így a helyes válasz: nem. Gyakorló feladatok
(1) A kolcson.sav fájlban vizsgáljuk meg, hogy a problémamentes, problémás ill. zetésképtelen ügyfelek jövedelmeinek várható értéke egyenl®-e! (2) Teszteljük, hogy a különböz® családi állapotúak életkorának várható értéke egyenl®-e! Mely családi állapotok között tekinthet® annak? (3) Teszteljük ANOVA-val és t-rpbóával is, hogy az adostip változó által meghatározott két csoportban (korábban volt-e ügyfele a banknak a illet®, vagy nem) megegyezik-e a várható munkaviszony! Ha nem, melyik csoportban nagyobb? (4) Van-e olyan skálaváltozó, amely ismeretében a bank el®re tudná becsülni, hogy problémás lesz-e az ügyfél törlesztése? Van-e ilyen nominális változó? 6. óra (okt. 13.)
Az óra anyaga: változók függetlensége, Pearson-korreáláció; regresszióanalízis: lineáris regresszió, többváltozós lineáris rereszió, nemlineáris regresszió Órán vett feladatok: (1) Nyissuk meg a cars.sav állományt, és elemezzük, hogy mely változók között milyen irtányú és mennyire szignikáns a korreláció! Analyze > Correlate > Bivariate..., minden skálaváltozót válasszunk ki és pipáljuk ki a Pearson-t. Az eredményül kapott táblázat tartalmazza a változók közötti Pearson-féle korrelációs együtthatókat: ha ez pozitív, a változók megegyez®en, ha negatív, ellentétesen függnek egymástól, a nulla körüli értékek esetén tekinthet®k a változók függetlennek. A korreálciós együttható alatt található szignikancia mutatja meg, elég közel van-e a korreláció a nullához ahhoz, hogy függetlennek tekinthet®k legyenek a változók. (A nullhipotézis, amelyhez a szignikancia tartozik, a változók függetlensége.) (2) Végezzünk lineáris regressziót, és írjuk fel a végsebeséget, mint a teljesítmény (lóer®) függvényét! Mi az egyenes egyenlete? Várhatóan mennyi egy 130 lóer®s autó végsebessége? Ábrázoljuk a regressziós egyenest! Analyze > Regression > Linear..., itt megadjuk a változókat: Dependent: top speed, Independent: horsepower. Az y = ax + b alakban keresett egyenlet együtthatóit a Coecients táblázat Unstandardized coecients/B oszlopából olvashatjuk le: a b érték a constant, az a érték a váltózó (horsepower) nevér®l elnevezett sorban található. A 130 lóer®höz tartozó várható végsebességhez írjunk be egy üres sorba a lóer® oszlopbába 130at, ismételjük meg az el®bb elvégzett regresszióanalízist, csak most kérjük a Save... gombbal, hogy mentse el új változóként a becsült értékeket (Predicted Values/Unstandardized). Az új változó megfelel® sorában található a 130-hoz tartoóz érték. Ábra: Graphs > Legacy Dialogs > Scatter/Dot, itt Simple Scatter, Y axis: top speed, X axis: horsepower. A kapott grakonon kattintsunk duplán, és az így megnyíló ablakban ábrázolhatjuk a regressziós egyenest (az egyik kis gombbal a grakon fölött). (3) Írjuk fel a végsebességet a járm¶ súlyának, teljesítményének és henger¶rtartalmának lineáris függvényeként! Ezek közül melyik hatása elhanyagolható? Analyze > Regression > Linear..., itt, ahogy az el®bb, megadjuk a változókat: Dependent: top speed, Independents: horsepower, cubic feet of cab space, vehicle weight. Az egyváltozós esethez hasonló ablakot kapnuk, csak épp több vátloozóval, az együtthatók ugyanúgy olvashatók le, ahogy az egyváltozós esetben. Az együtthatók sorában a Sig. oszlop tartalmazza az arra a nullhipotézisre vonatkozó szignikanciát, hogy elhanyagolható-e az egyenletben az adott változó. A szignikanciák alapján látszik, hogy egyedül a henger¶rtartalom (cubic feet of cab space) hatása elhanagyolható. (Itt nagy a szignikancia, tehát elfogadjuk a fenti nullhipotézist.)
6
(4) Reciprokos kapcsolat sejthet® a teljesítmény és a fogyasztás között. Fejezzük ki a teljesítményt a fogyasztás reciprokos függvényeként! Analyze > Regression > Curve Estimation..., Dependent: horsepower, Variable: average miles per gallon. A függvény típusánál az Inverse -t pipláljuk ki (ez y = xa + b alakú függvényt ír fel). A kapott egyenletet az utolsó táblázat Parameter oszlopából sorából tudjuk meg, a constant adja meg a b értékét, a b1 pedig az x1 együtthatóját. Gyakorló feladatok
(1) Nyissuk meg a brain.sav fájlt! A kísérlet, amelynek az eredményeit az adatok tartalmazzák, az agy mérete és az IQ szint közötti kapcsolatot vizsgálta. Kérdezzük le az IQ szintek és a MRIcount (agyméret) változók korrelációs együtthatóit! Jogos-e ez alapján a kapcsolat feltételezése? (2) Írjuk fel az agy méretét, mint az FSIQ lineáris függvénye! Mi az egyenes egyenlete? Ábrázoljuk is az adatokat és a regressziós egyenest! (3) Vizsgáljuk az agy mérete, a testmagasság és a testsúly kapcsolatát! Mik a korrelációs együtthatók? Hasonlítsuk össze az (1)-es feladatban kapottakkal, és vizsgáljuk felül az akkor levont következtetést! (4) Írjuk fel az agy méretét a következ® változók lineáris függvényeként: testsúly, testmagasság, FSIQ, PIQ. Mely változók hatása tekinthet® jelent®snek 5%-os szignikancia szinten? Végezzünk újra lineáris regressziót, most csak a fontosnak ítélt paramétereket használva! Mi az így kapott egyenlet? (5) A testsúly és a testmagasság között kvadratikus összefüggés sejthet®: a testsúly a testmagasság négyzetével arányos. Írjuk fel a testsúlyt, mint a testmagasság másodfokú függvénye! Várhatóan hány font egy 70 hüvelyk magas ember? Jogos-e a négyzetes összefüggés feltételezése, vagy elegend® lenne a lineáris közelítés? (Ehhez pipáljuk ki a display ANOVA table opciót!) 7. óra (okt. 20.) 1. ZH. 8. óra (okt. 27.)
Az óra anyaga: eloszlásvizsgálatok. Adott változó adott eloszlású-e: nevezetes eloszlás Kolmogorov-Szmirnovval, tetsz®leges diszkrét eloszlás χ2 -próbával. Két változó azonos eloszlású-e: függetlenek Kolmogorov-Szmirnovpróbával, nem függetlenek Wilcoxonnal. Órán vett feladatok: (1) Nyissuk meg a pontokpub.sav fájlt. Ez a múlt órán írt ZH-k eredményeit tartalmazza. Kérjük le az összpontszámnak és az egyes feladatok pontszámainak hisztorgraimjait! Melyikr®l hihet®, hogy normális eloszlású? Teszteljük le! Normalitás tesztelése: Analyze > Nonparametric Tests > Legacy Dialogs > 1-sample K-S... (Régebbi verziókban nincs Legacy dialogs.) Itt a Test Variable List-hez tegyük be azokat a változókat, amelyek normalitását tesztelni szeretnénk, pl. az Összpontszámot, a Test Distribution-ben pipáljuk ki a Normal-t. A nullhipotézis, hogy a tesztelt változó normális eloszlású, erre vonatkozik a táblázat alsó sorában látható szignikancia. Az összpontszám esetén pl. a nullhipotézist elfogadjuk. (Tesztelhet® még itt egyenletes, exponenciális és Poisson-eloszlás.) (2) Mennyire teljesített egyformán a ZH-n a két csoport? Teszteljük, hogy az összpontszám eloszlása a két csoportban megegyezik! Független változók esetén kétmintás Kolmogorov-Szmirnov-próbálval tesztlehetjük azt a nullhipotézist, hogy a változók azonos eloszlásúak: Analyze > Nonparametric Tests > Legacy Dialogs > 2 Independent Samples, itt a Test Variable List-hez tegyük be az Összpontszámot, a Grouping Variable a csoport, Group 1=1, Group 2=2. A Kolmogorov-Smirnov Z próbát pipáljuk ki. A kapott táblázat alsó sora tartalmazza a szignikanciát, amely alapján a nullhipotézist elfogadjuk.
7
(3) Kérjük le az 1. és a 2. feladat boxplotját! Teszteljük azt a nullhipotézist, hogy a két változó azonos eloszlású! Tegyük meg ugyanezt a 2. és a 3. feladatra is! Nem független változók esetén ezt a nullhipotézist nem tudjuk vizsgálni, helyette Wilcoxon-próbát szoktunk végezni (de ez nem tananyag). Ennek a nullhipotézise a következ®: P (ξ < η) = P (η < ξ), ahol ξ és η folytonos eloszlású változók. Ennek tesztelése: Analyze > Nonparametric Tests > Legacy Dialogs > 2 Related Samples, a Test Pairs-ben meg kell adni azon változópárokat, amiket tesztelni szeretnénk, pl. 1. feladat és 2. feladat, pipáljuk ki a Wilcoxon-próbát. A szignikancia a Test Statistics táblázatban található. Az 1. és a 2. feladat esetén a nullhipotézist elvetjük, a 2. és 3. feladat esetében elfogadjuk. (4) Nyissuk meg a kocka.txt fájlt! Ez egy dobókocka 1000 feldobása során kapott eredményeket tartalmazza. Teszteljük, hogy a dobókocka szabályos! El®ször tudatni kell az SPSS-szel, hogy mindegyik értek annyiszor fordult el® a feldobások során, ahányszor azt a gyakorisag írja: Data > Weight Cases..., állítsuk be, hogy Weight Cases by: gyakorisag. Ezek után χ2 -próbával teszteljük azt a nullhipotézist, hogy a dobas változóban minden érték 1/6 valószín¶séggel vev®dött fel. Analyze > Nonparametric Tests > Legacy Dialogs > Chi-square..., itt a Test variable a dobas, és az Expected Values-nál az "All categories equal"-t válasszuk ki. A Test Statistics ablakban kapjuk meg a szignikanciát, ami alapján a nullhipotézist elfogadjuk. Gyakorló feladatok
(1) A skot_bakak.txt állomány azt tartalmazza, hogy mekkora volt a skót hadseregben a katonák inchben mért mellkaskörmérete valamikor a 19. század elején. Nyissuk meg az állományt és állítsuk be a katona változót súlyozásnak. Kérjük le a mellkas változó hisztogramját a normális eloszlás görbéjével együtt! Teszteljük, hogy a mellkaskörméret normális eloszlású! Teszteljük azt is, hogy egyenletes! (2) Nyissuk meg a vernyomas.sav -ot! Teszteljük, hogy az 1. és a 2. betegcsoportban azonos volt a vérnyomás kezelés el®tti eloszlása. Mit mondhatunk a kezelés utáni adatokról? (3) Nyissuk meg a popularkids.txt fájlt! A Grades, Looks, Sports és Money változók azt tartalmazzák, hogy fontossági sorrendben hányadiknak ítéli az egyén azt a tényez®t a népszer¶ség szempontjából. Melyek azok a tényez®k, amelyeket a lányok és a úk is ugyanúgy látnak, és melyeket nem? (4) Teszteljük 0,05-ös szingikancia szinten, hogy a Grades változó minden lehetséges értéket (1,2,3,4) ugyanakkora, 1/4 valószín¶séggel vesz fel! Teszteljük ugyanezt az állítást a Money változóra! Ez utóbbira tesztelük le azt is, hogy az 1, 2, 3, 4 értékekhez tartozó valószín¶ségek rendre 1/15, 2/15, 4/15, 8/15! 9. óra (nov. 10.)
Az óra anyaga: függetlenségvizsgálatok. Két diszkrét változó függetlensége: χ2 -próba; egy diszkrét és egy folytonos: ANOVA; két folytonos (skálaváltozó): Pearson-korrelációval; két legalább ordinális: Spearmankorrelációval. Órán vett feladatok: (1) Nyissuk meg a salary.sav fájlt! Ez egy amerikai cég dolgozóriól tartalmaz adatokat, mint például besoztás, végzettség, kezd®zetés, jelentlegi zetés. Tapasztalható olyan tendencia, hogy az utóbbi id®ben magasabb/alacsonyabb ekzd®zetéssel vesznek fel embereket? A kérdést úgy fogalmazhatjuk át, hogy van-e függés, és ha igen, milyen irányú, a cégnél eltöltött id® és a kezd®zetést tartalmazó változók között. A két változó Pearson-korrelációját fogjuk becsülni: Analyze > Correlate > Bivariate..., a változók: jobtime és salbegin, kérjük le rá a Pearson-korrelációt. A szignikancia-szint alapján a kezd®zetés és az id® függetlenségét elfogadhatjuk. (2) Tapasztalható olyan tendencia, hgoy az utóbbi id®ben inkább magasabb/alacsonyabb végzettség¶ embereket vesznek fel? Ezt az el®z® kérdéshez hasonlóan megválaszolhatjuk a Spearman-korreláció becslésével, ami már ordinális változó esetén is értelmes (a Pearson nem!): Analyze > Correlate > Bivariate..., a változók: jobtime és educ, most a Spearman-t pipáljuk ki. Ezek függetlenségét is elfogadhatjuk. Másik lehet®ség, hogy ANOVA-t végzünk: a diszkrét változó (educ) szerint csoportosítjuk a folytonosat (jobtime), az ANOVA nullhipotézise ekvivalens a két változó függetlenségével.
8
(3) Igaz-e, hogy a kisebbségi doglozók között várhatóan több a n®? Két diszkrét változó (jelen esetben a gender és a minority ) függetlensége tesztelhet® a múlt órán tanult χ2 -próbával. Az Analyze > Descriptive Statistics > Crosstabs... menüpontban a Rows-hoz tegyük be az egyik, a Columns-hoz a másik változót, és a Statistics... gombbal kérjünk χ2 -próbát (chi-square). A Chi-square test táblázat els® sora (Pearson Chi-square) tartalmazza a próbához tartozó szignikancia szintet. A nullhipotézist (vagyis a függelenséget) elfogadjuk. Így a kérdésre a válasz: nem. Gyakorló feladatok
(1) A salary.sav -ban a kezd®zetés mely változóktól tekinthet® függetlennek? Melyek azok a mutatók, amelyek valamilyen irányba változtak az eltelt id® során? (2) Függ-e a beosztás a gyerekek számától? A kevesebb vagy a több gyerekkel rendelkez®k vannak inkább jól zet® állásokban? (3) Nyissuk meg a kolcson.sav -ot! A változók közül melyek tekinthet®k függetlennek? A bank szeretne információt arról, hogy az ügyfél várhatóan problémamentes lesz-e. Mely mutatókat érdemes vizsgálnia? (4) Hozzunk létre egy új változót "osszjov" néven, amely tartalmazza a jelenlegi munkahelyen az eddigi összes jövedelmet (éves jövedelem szorozva azzal, hány éve dolgozik jelenlegi munkahelyén). Van-e összefüggés a kölcsön típusa és az összjövedelem közt? 10. óra (nov. 17.)
Az óra anyaga: f®komponensanalízis, faktoranalízis. Ez utóbbi megvalósítása SPSS-ben. Órán vett feladatok: (1) Nyissuk meg a brain.sav -ot! Végezzünk faktoranalízist a skálaváltozókon, és kérdezzünk le három faktort! Mely változókat határozza meg egyetlen faktor, és melyeket több? Analyze > Dimension Reduction > Factor..., a Variables-hez tegyünk be minden skálaváltozót. Extraction...-nél állítsuk be, hogy 3 komponenst szeretnénk: Extract: Fixed Number of Factors, Factors to extract: 3. Az eredményben a Component Matrix táblázatból látható, hogy az FSIQ, PIQ, VIQ és Height változók csak egy-egy faktorral korrelálnak nagyon er®sen, az MRIcount és a Weight többel is. (2) Végezzük el újra a faktoranalízist, ezúttal a Kaiser-kritériummal döntsük el, hány faktort érdemes lekérdezni! Mely változók korrelálnak több faktorral is er®sen? Most az Extraction...-nél Based on Eigenvalue -t kérjünk. Az MRIcount korrelációja mindkét faktorral jelent®s, a többi változó besorolható egy-egy faktorhoz. (3) Végezzünk újra faktoranalízist, ezúttal úgy módosítva a faktorokat, hogy minden változó egyértelm¶en besorolható legyen az egyik faktorhoz. Milyen értelmet tulajdoníthatunk a két faktornak? Menstük el a faktorokat új változóként! A Rotation...-nél kérjük a Varimax -ot. A faktorok mentésést a Scores... gombbal lehet kérni. A Rotated Component Matrix táblázatban találhatóak a módosított faktorokkal vett korrelációk. Ez alapján az IQ-változók az els®, a testsúly, tesmagasság, agyméret változók inkább a második faktorhoz sorolhatók. Az els® faktor értelme: intelligencia, a második faktoré: a test "mérete". Gyakorló feladatok
(1) Nyissuk meg a cars.sav -ot, és végezzünk faktoranalízist a skálaváltozókon! Hány faktort kapunk a Kaiser-kritérium alapján? Melyek az ezekhez tartozó sajátértékek? Próbáljuk besosrolni az összes vizsgált változót valamelyik faktorba! (2) Végezzük el újra a faktoranalízist, úgy módosítva a faktorokat, hogy a változók csak egy-egy faktorral korreláljanak! Mely változók tartoznak az így kapott faktorok közül az els®höz, melyek a másodikhoz? Melyeket volt könnyebb besosrolni az eredeti faktorok alapján, mint (3) Menstük el az el®z® pontban kapott két faktort új változóként! Milyen "jelentésük" van az egyes faktoroknak? Ábrázoljuk az els® faktor országonkénti boxplotját! Hasonlítsuk össze a lóer® boxplotával!
9
11. óra (nov. 24.)
Az óra anyaga: diszkriminancia analízis, logisztikus regresszió. Órán vett feladatok: Nyissuk meg az irisz.sav fájlt! Ez három íriszfajta 50-50 példányának jellemz®it tartalmazza. A cél, hogy a jellemz®k alapján el tudjuk dönteni egy íriszr®l, melyik fajtába sorolható. (1) Végezzünk diszkriminacia analízist a 2-es és 3-as fajtájú növényekre! Hány diszkriminancia-függvény van, és mik ezek? Az esetek hány százaléka van jól besorolva? Elfogadható ez? Mely eseteket sorolta be rosszul? Analyze > Classiy > Discriminant..., Grouping Variable: fajta, Dene Range: (2, 3), Independents: az összes skálvaáltozó. Statistics...-ben kérjük a diszkriminancia-függvény együtthatóit: Fisher's, Unstandardized. A Classify...-ban lehet lekérdezni, mit hova sorol be: Casewise Result, illetve az egyes csoportokból hányat hova sorol be: Summary Table. A diszkriminancia-függvények együtthatói a Classication Function Coecients táblázatból olvashatók le, minden csoporthoz tartozik egy. A Summary Table alján írja, hogy az esetek 97%-ának a besorolása megegyezik az eredtivel, általában 95% felett számít jónak. A Casewise Statistics -b®l leolvasható, hogy a rosszul besorolt esetek a 71-es, 84-es, 134-es. (2) Végezzünk diszkriminancia analízist mindhárom csoprotra, és válaszoljunk újra az el®z® kérdésekre! Ábrázoljuk pontdiagramon az egyes csoportokat, és keressük meg rajta a rosszul besorolt eseteket! Melyik csoportba sorolnánk egy íriszt a következ® méretekkel: 6, 3, 4, 1? Az ábra kérése: Classify...-ban a Combined Groups. Az új esetet írjuk be egy új sorba, miel®tt lefutattjuk a diszkriminancia analízist. A Dene range-nél most állítsunk be (1,3)-at. Például Casewise Statistics -b®l leolvasható, hogy a megadott esetet a program a 2-es fajtához sorolta. (3) Zárjuk ki az 1-es csoportot, majd végezzünk logisztikus regressziót! Mik lesznek a függvény együtthatói? Menstük el új változként a csoportbatartozás valószín¶ségét! Melyik csoportra vonatkozik a valószín¶ség? Hány esetet sorol be az eljárás rosszul? Melyiket sorolta be ez az eljárás másképp, mint a diszkriminancia analízis? Analyze > Regression > Binary logistic..., Dependent: fajta, Independents-nek megint tegyük be az összes skálváltozót. A Save...-nél állítsuk be: Probabilities, Group membership. A Block 1 -ban található eredményeket kell gyelembe venni, a függvényegyütthatók a Variables in the Equation B oszlopában találhatók. Két új változót kaptunk, az egyik a csoprotbatartozás valószín¶ségét mondja meg, a másik a jósolt csoportot. Látható, hogy az 1 valószín¶ség¶ eseteket a 3-as csoportba sorolta, így erre a csoportra vonatkozik a valószín¶ség. A Classication Table mutatja meg, hány esetet soroltunk be rosszul, látszik, hogy ez az eljárás 98%-ban volt pontos a diszkriminancia analízis 97%a helyett. Az elmentett változóban meg lehet keresni, melyek az itt rosszul besorolt esetek, a 71-est ® jól sorolta be az el®z® módszerrel ellentétben. Gyakorló feladatok
(1) Nyissuk meg az emberek.txt -t! Próbáljuk az emberek jelemz®i alapján (súly, magasság, cip®méret) megjósolni a nemüket! Végezzünk logisztikus regressziót és diszkriminancia analízist is! Mentsük el mindkét esetben a csoportokat új változóként! Melyek a rosszul kategorizált esetek? Melyik eljárás a pontosabb? Mely eseteknél térnek el egymástól? Végezzük el úgy is mindkét analízist, hogy a cip®méretet nem vesszük gyelembe! Mit mondhatunk ekkor? (2) Nyissuk meg a kolcson.sav -ot! Végezzünk diszkriminancia analízist a status változóra a skálaváltozók segítésgével! Pontdiagramon ábrázoljuk is az egyes csoportokat! Az ábra alapján szeparálhatóknak t¶nnek? A Wilks-próba mit mond err®l? Írjuk fel a diszkriminancia-függvényeket! Hány eset van rosszul kategorizálva? Elfogadható-e jónak a besorolás? Melyik csoportot sikerült legkevésbé elkülöníteni? (3) Végezzünk logisztikus regressziót az adostip változóra! Mentsük el a valószín¶ségeket és az el®rejelzett csoportot új változóként! Melyik csoportra vonatkozik a valószín¶ség? Mi a logisztikus diszkriminancia függvény? Hány százalékát soroltuk be jól az esetekek? Soroljuk be a következ® esetet: életkor: 40, munkaviszony: 6, jovedelem: 26, kperf: 100.
10
12. óra (dec. 1.)
Az óra anyaga: klaszeranalízis: hierarchikus klaszterezés, k-közép módszer. Órán vett feladatok: (1) Nyissuk meg a debt.sav fájlt, és osszuk csoportokba hierarchikus klaszterezéssel azokat az országot, amelyeknek hasonlóak az államadósság és denicit mutatóik! Hány klasztert érdemes kérni? Melyik ország alkot legtovább önmagában klasztert? Analyze > Classify > Hierarchical Cluster, Variables: decit, debt, a Plots...-nál kérjük a dendorgramot, ez alapján dönthetjük el, hány klasztert érdemes választani (annyit, ahánynál az eljárás többé-kevésbé hosszabb ideig stagnál). A dendorgram alapján 3 klaszter r¶nik stabilnak, de a nomabb csoportosítás érdekéáben kérhetünk akár 4-5 klasztert is. A dendogramról is és az oszlopos ábráról is leolvasható, hogy Belgium (2-es) alkot legtovább egyedül klaszert, legalább 5 klaszter esetén. (2) Végezzük el ismét az el®bbi hierarchikus klaszterezést, és mentsük el a klasztereket 2-5 klaszter esetén. Ábrázoljuk az adatokat és a klasztereket 3 klaszter esetén! A Save... gombbal A Range of solutions-t választva állítsuk be, hogy 2-5 klaszter esetén mentse a kapott klasztereket. Ekkor lefuttatva az eljárást, kapunk 4 új változót, mindegyik a mefele® számú klaszterhez tartozó csoportosítást tartalmazza. A Scatter/Dot diagramon megtehetjük, hogy egy csoportosító váltózó alapján színezzük a pontokat. A X axis legyen a decit, az Y axis a debt, és Set markers by: CLU3_1. (A Label cases by: Country-t beállítva a pontokra még az ország neve is rá lesz írva.) A kapott ábrán látható, mely országok hol helyezkednek el, és melyek alkotnak egy klaszert. (3) Végezzünk klaszteranalízist k-közép módszerrel a bevétel és az államadósság változókra! 5 klasztert kérjünk, a megoldást mentsük is el új változóként, és ábrázoljuk! Analyze > Classify > K-means cluster, itt Variables: expenditure, debt, Number of clusters: 5. A Save...-nél kérjük a Cluster membership-et. A létrehozott új változó segítségével az el®bbihez hasonló módon ábrázolhatjuk a klaszterezést. Gyakorló feladatok
(1) Nyissuk meg a cars.sav -ot! Hozzunk létre klasztereket a végsebesség és fogyasztás változók alapján! Alkalmazzunk hierearchikus klaszterezést! Legalább hány klaszter esetén lesz egy adatot tartalmazó klaszter? Hány klasztert érdemes létrehozni? Mentsük el a választott klaszterszámhoz tartozó csoportosítást, és ábrázoljuk pontdiagramon! (2) Végezzünk hiererachikus és k-közép klaszteranalízist is a henger¶rtartalom és súly váltózokra! A klaszterek száma legyen 4. Mentsük el a csoportosítást mindkét esetben! Eltér-e a két módszer által adott eredmény? Mely esetekben? Keressük meg ezeket pontdiagramon! Mi a helyzet 3 klaszter esetén? (3) Végezzünk hierarchikus klaszerezést az összes skálaváltozót gyelembevéve! Hány klasztert érdemes választani? Mentsük is el új változóként az ehhez tartozó csoportosítást! Mennyivel bizonyul ez pontosabbnak az els® feladatbelihez képest? Mivel magyarázható ez? Ábrázoljuk Scatter/Dot > Matrix diagramon az így kapott csoportosítást minden skálaváltozó-párra!