Alkalmazott statisztika Feladatok 1. óra
Nyissuk meg az IBM SPSS programot. Fájlokat, adatokat megnyitni a F ile → Open → Data parancsokkal lehet. Az SPSS saját kiterjesztése a .sav , de megnyithatunk más típusokat is, mint .txt, .xls, ... (1) Nyissuk meg a cars.sav állományt. A Data view lap az adatokat, a V ariable view pedig a mez®k tulajdonságait tartalmazza. A V ariable view lapon, a Label mez®ben nézzük meg, hogy a rövidített változónevek, melyeket a Data view oldalon láthatunk, mit jelentenek. A hiányzó mez®ket töltsük k a N ame alapján. A M easure mez® azt mutatja, hogy az adott változó milyen típusú. Vannak változók, melyek számérték¶ek, sok értéket vehetnek fel, melyek rendezhet®ek, mint például az emberek magassága. Ezek a skálaváltozók, melyet Scale jelöl. Azok a változók, melyek kevés értéket vehetnek fel, de a felvett értékek rendezhet®ek, az ordinális, azaz Ordinal változók. A nem rendezhet®eket N ominal változóknak nevezzük. Vegyük észre, hogy a Country változónál a típus rosszul szerepel, hiszen nem rendezhet®ek az országok. Állítsuk át Ordinal-ról N ominal-ra. (2) Egy autós magazin az autókat pontszámokkal látja el, melyet a megadott értékekb®l a (HP + 20/V OL)/10 képlettel számolnak ki. Hozzunk létre egy új változót a pontszámoknak. Töltsük ki a mez® adatait, majd számoljuk ki a pontokat. Ehhez a T ransf orm → Compute V ariable ablakba írjuk be a fenti képletet. (3) Adjuk meg új változóban, hogy az egyes országokhoz hány modell tartozik. Ehhez a Data → Aggregate ablakban válasszuk ki az országot, mint Break variable-t, és a N umber of cases-t pipáljuk ki. (4) Ezúttal csak azokat a modelleket számoljuk össze országonként, melyek végsebessége legaább 100. Ehhez sz¶rjük ki a megfelel® adatsorokat, melyet a Date → Select cases menüpont alatt tehetünk meg, ha az If condition is satisf ied ablakba beírjuk az SP > 100 feltételt. Innent®l a (3) pontban leírtak alapján megadható az új változó. A feltételt a Data → Select cases → All cases m¶velettel tudjuk megszüntetni. (5) Keressük meg a leggyorsabb autót. Ehhez állítsuk sorba az autókat gyorsaság szerint, amit Data → Sort cases menüpontban tehetünk meg. Válasszuk ki az SP változót, ekkor a Descending beállítás mellett az els® lesz a leggyorsabb autó. 1
(6) Osztályozzuk az autókat térfogatuk szerint. Hozzunk létre egy új változót, mely a V OL változó alapján, 60 alatt 1-et, 60 és 90 között 2-t, felette 3-at vesz fel. Ehhez használjuk a T ransf orm → Recode into different variables opciót. Adjuk hozzá a V OL változót, majd az Output V ariable mez®nél adjuk meg az új változó nevét, legyen ez T ipus. Az új nevet a Change után rögzíti. Az Old and new values segítségével adjuk meg a feltételeket. El®ször a Range, LOWEST throught valuenál adjuk meg a 60-at, a N ew V alue mez®be pedig írjuk az 1-et, az Add opcióval rögzítsük. A második feltételhez a Range mez®kbe írjuk a 60-at, illetve a 90-et, a harmadikhoz pedig a 90 kerül a Range, throught value HIGHEST mez®be. (7) Generáljunk véletlen számokat a [0,1] intervallumon egyenletesen. Ehhez egy üres munkalapon hozzunk létre egy új változót, legyen ez v1 (Edit → Insert variable). Jelöljük ki az oszlop els® 20 mez®jét, ennyi véletlen számot hozunk majd létre. A kijelölés után kattintsunk az Edit → Insert cases menüpontra. A T ransf orm → Compute variable lapon a T arget variable legyen v1, a függvények közül pedig válasszuk az Rv.U nif orm-ot, melybe a 0 és 1 értékeket írjuk be. Otthoni gyakorlásra
A zikusok mérései általában normális eloszlást követnek. Generáljunk véletlenszer¶en mérési adatokat 0 várható értékkel és egységnyi szórással, majd a kapott mintaelemeket osztályozzuk. Az osztályozáshoz hozzunk létre egy új változót, mely értéke legyen −1, ha a mintaelem kisebb, mint −1, legyen 0, ha −1 és 1 közé esik, és 1, ha 1-nél nagyobb. Adjuk meg, hogy az egyes kategóriáknak mennyi lett az elemszáma. Egy új változóban pedig minden mintaelemhez számoljuk ki a várható értékt®l mért távolságát.
2
2. óra
A következ® feladatok a cars.sav állományra vonatkoznak. (1)
Oszlopdiagram
Korábban meghatároztuk, hogy az országok hány modellt gyártanak, most ezt ábrázoljuk oszlopdiagramon. Oszlopdiagramot a Graphs → Legacy dialogs → Bar menüpont alatt hozhatunk létre. Válasszuk a Simple típust, valamint a Summeries f or groups of cases opciót, hiszen ugyanannak a változónak, az országoknak különböz® eseteit szeretnénk külön ábrázolni. A beállításoknál válasszuk az N of cases opciót, és állítsuk be a COU N T RY változót, mint Category axes. Ábrázoljuk a különböz® gyártóknál az átlagos végsebességet. Hasonlóan oszlopdiagramot választunk, azonban ezúttal a Bars represent esetén az Other statistics opciót válasszuk, a V ariable-nél adjuk meg az SP változót. A Change statistics-nél pedig válasszuk ki az átlagot. (2)
Hisztogramm
Ábrázoljuk hisztogrammon a végsebességet. Ehhez a Graph → Legacy dialogs → Histogram menüpontot használjuk, ahol az SP változót állítjuk be a V ariable-nél. Hasonlóan ábrázoljuk a fogyasztást is. (3)
Alapstatisztikák
Kérdezzük le a lóer® változó alapstatisztikáit. Ehhez az Analyze → Descriptive Statistics → F requencies menüpontot használjuk. Kérdezzük le a mintaátlagot (mean), a mediánt, a minimumot és a maximumot, valamint a kvartiliseket (quartiles). Ehhez a Statistics-ben válasszuk ki a megfelel® beállításokat. Vessük össze az eredményt a lóer® hisztogrammjával. Melyik statisztika mit jelent ? Hogyan mutatkozik meg a grakonon ? (4)
Boxplot
- A boxplot leírása
Az el®bb lekérdezett változót, azaz a lóer®t ábrázoljuk Boxplot segítségével. Ezt a funkciót a Graphs → Legacy Dialogs → Boxplot menüpontnál találjuk. Válasszuk a Simple, valamint a Summaries of separate variables opciókat, majd az Engine Horsepower változót állítsuk be a Boxes Represent-nél. (5) Alkalmazzuk a korábbi módszereket a meres.sav állományon. A fájl két adatsort tartalmaz, ezeket hasonlítsuk össze a boxplot, valamint az alapstatisztikák alapján. A Graphs→Legacy dialogs→Boxplot menüpont alatt válasszuk ki a Summeries of separate variables opciót, a Boxes represent-hez adjuk hozzá mindkét változót. Hasonlítsuk össze a két változót ! Kérdezzük le az alapstatisztikákat is a (3)-ban leírtak alapján, ezúttal mindkét változót kiválasztva. A korábbi meggyelések itt hogyan jelennek meg ? 3
3. óra
Nyissuk meg a vernyomas.txt állományt. Orvosok két új vérnyomáscsökkent® gyógyszert tesztelnek 45 emberen. Az els® 15 f® (CSOP1) az I. kísérleti gyógyszert kapja, a második 15 (CSOP 2) a II. kísérleti gyógyszert, a többiek (CSOP 0) pedig a hagyományosat. A SY S1 változó a betegek kezelés el®tti, a SY S2 pedig a kezelés utáni vérnyomását tartalmazza. (1)
Egymintás t-próba
Teszteljük le 5%-os szignikancia szinten azt a nullhipotézist, hogy a kezelés el®tt a betegek átlagos vérnyomása 140 volt. Ehhez az Analyze→Compare means→One−samples T test menüpontot válasszuk ki, ott a SY S1 válozó lesz a T est variable. A T est value legyen 140, az Options-nél pedig állítsuk be, hogy a Conf idence interval percentage 95% legyen. A nullhipotézist elfogadjuk, vagy elvetjük ? Határozzuk meg a kondencia intervallumot, amit a program megad. Ez alapján hogyan határozhatunk a nullhipotézis elvetésér®l ? (2)
Explore és boxplot
Miel®tt a kezelések hatását vizsgáljuk, bizonyosodjunk meg róla, hogy a csoportok a kísérlet elején nem különböznek nagyban egymástól az átlagos vérnyomás teintetében. Kérjük le a már megszokott alapstatisztikáit a SY S1 változónak, valamint ábrázoljuk boxploton, de ezúttal csoportok szerint külön-külön. Ehhez az Analyze → Descriptive statistics → Explore menüpontot használjuk, ahol a Dependent list-hez adjuk hozzá a SY S1-et, a F actor list-hez pedig a CSOP -ot. Látunk jelent®s különbséget a csoportok között? Ehhez hasonlítsunk össze a csoportokat az empirikus várható érték, az empirikus szórás, valamint a ferdeség (skewness), és a kurtosis (lapultság) alapján. Hogyan jelennek meg ezek a tulajdonságok a boxploton ? (3)
Független kétmintás t-próba
Teszteljük 10%-os szignikancia szinten azt az állítást, hogy a kezelés el®tt az els® két csoportban megegyezik az átlagos vérnyomás. Adjunk 90%-os kondencia intervallumot a várható értékek különbségére. Ehhez az Analyze → Compare means → Independent−samples T test menüpontot alkalmazzuk, ahol a SY S1 változó legyen a T est variable, és a CSOP a Grouping variable. A Def ine groups opciónál legyen a Group1 1, Group2 pedig 2. Az Options-nél állítsuk a százalékot 90-re.
4
A kétmintás t-próbát szeretnénk alkalmazni, de ehhez el®ször meg kell bizonyosodnunk arról, hogy a szórások egyenl®ek. Ezt a táblázatban szerepl® Levene − teszt mutatja. (4)
Páros kétmintás t-próba
Teszteljük 5%-os szignikancia szinten azt a nullhipotézist, hogy az 1-es betegcsoportban a gyógyszer nem változtatott az átlagos vérnyomáson. Adjuk meg a 95%-os kondencia intervallumot a vérnyomáscsökkenés várható értékére. El®ször hasonlítsuk össze a két boxplotot, ehhez a Select cases segítségével válasszuk ki az 1-es csoportot, majd ábrázoljuk a boxploton a SY S1 és SY S2 változókat. Ez alapján mit várunk a tesztt®l ? Mivel itt nem független változókról van szó, válasszuk az Analyze→Compare means → P aired−samples T test menüpontot, ahol a két változót együtt kijelölve kattintsunk a nyílra. A megfelel® százalékot az opcióknál állíthatjuk be. (5) Otthoni gyakorlásra Teszteljük azt a nullhipotézist 5%-os szignikancia szinten, hogy a 2-es betegcsoportban az átlagos vérnyomás a kezelés hatására 10-zel csökkent.
5
4. óra
Nyissuk meg a vernyomas.txt állományt. (1)
Pontdiagram
Figyeljük meg el®ször grakusan, hogy befolyásolja-e a betegek kezelés el®tti, illetve utáni vérnyomását az, hogy melyik csoportba kerültek. Ehhez ábrázoljuk az adatokat pontdiagramon. Válasszuk a Graphs → Legacy dialogs → Scatter/Dot menüpontot, azon belül a M atrix scatter−t. A mátrix változói legyenek a SY S1 és SY S2 változók, azaz ezek legyenek a diagram koordináta-tengelyei. Színezzünk csoportok szerint, ehhez a CSOP -ot állítsuk be a Set markers by opciónál. Mit olvashatunk le a diagramról ? A színek alapján elhatárolódnak a különböz® csoportok valamelyik tengely irányában ? (2)
ANOVA
Próbáljuk megállapítani, hogy mekkora szerepet játszik a vérnyomások várható értékében az a faktor, hogy ki melyik csoportban van. Erre való az egyszempontos AN OV A ( Analyze → Compare means → One−way AN OV A ). A Dependent listben szerepeljenek a SY S1 és SY S2 változók, a F actor pedig legyen a CSOP . Válasszuk ki az Options-nél a Descriptives, Homogenity of variance test és W elch opciókat. Az els® táblázatban a már jól ismert alapstatisztikák szerepelnek, valamint az el®z® órán vizsgált kondencia intervallumok a várható értékekre. Az AN OV A alkalmazásának feltétele van, a különböz® csoportokban meg kell egyezniük a szórásoknak. A Levene − teszt-r®l olvashatjuk le, hogy tekinthetjük-e ezeket egyenl®nek. A SY S1 és SY S2 változók esetén is elfogadhatjuk a szórások egyenl®ségét, de milyen megbízhatósággal ? Melyik esetben meggy®z®bb az eredmény ? Vizsgáljuk meg, hogy elfogadhatjuk-e 5%-os szignikancia szinten azt az állítást, hogy a kezelés el®tt mindhárom betegcsoportban azonos volt az átlagos vérnyomás. És a kezelés végén ? Határozzuk meg, milyen arányban magyarázza a vérnyomást a csoportbesorolás a kezelés el®tt, valamint utána. Ha a Levene − teszt alapján a szórások egyenl®ségét elutasítjuk, akkor az AN OV A nem használható, de a W elch-próba igen. A W elch−próba alapján ugyanezt a következtetést vontuk volna le ? (3)
Pearson-korreláció
Most vizsgáljuk azt, hogy a SY S1 és SY S2 változók között milyen kapcsolat van. Korábban lekérdeztük a változók Scatter diagramját, nézzük meg ebb®l a szempontból is. Látunk valamilyen kapcsolatot ?
6
Kérdezzük le a változók közötti korrelációs együtthatókat. Ehhez az Analyze → Correlate → Bivariate menüpontot használjuk. Legyenek a változók SY S1, valamint SY S2, és válasszuk a P earson-korrelációt. (4)
Otthoni gyakorlásra
Nyissuk meg a cars.sav állományt, és ábrázoljuk az autókra vonatkozó paramétereket Scatter diagramon. Hol látunk kapcsolatot, és milyen típusút ? (pl. lineáris, . . . ) Nézzük meg, milyen mértékben befolyásolja az autók végsebességét, hogy melyik országban gyártották ! Kérdezzük le a korrelációs együtthatókat, és gyeljük meg, hogy hol van er®s kapcsolat, és az milyen irányú (pozitív, negatív). Mit jelenthet a pozitív, illetve a negatív kapcsolat ?
7
5. óra
Nyissuk meg akocka.txt állományt, ami egy nem feltétlenül szabályos dobókocka 1000 feldobásának eredményét tartalmazza. (1)
Alapstatisztikák
Próbáljuk meg lekérdezni a korábban megismert módszerekkel a dobás változó alapstatsztikáit (Analyze → Descriptive Statistics → F requencies). Mit látunk a F requencies táblában ? Jó eredményt kapunk ? Mi a hiba ? A helyes eredményhez el®bb be kell állítanunk, hogy a dobás értékét súlyozza a program a gyakoriságukkal. Ehhez a Data → W eight cases opciónál állítsuk be, hogy W eight cases by : gyakorisag. Most ismételjük meg a lekérdezést ! Milyen eredményt kapunk ? Írjuk fel az empirikus eloszlásfüggvényt a táblázat alapján. Szabályosnak t¶nik a dobókocka ? (2)
t-próba
Teszteljük azt a nullhipotézist, hogy a 4-es érték dobásának valószín¶sége 1/6. Adjunk 90%-os kondencia intervallumot a 4-es dobás valószín¶ségére. Valószín¶ség tesztelése helyett várható értéket tudunk tesztelni a t-próbával, ehhez azonban el®bb át kell kódolnunk a dobott értékeket. A kedvez® esetben, amikor 4 a dobás, az új, indikátorváltozó legyen 1, másképp 0. Ezzel indikátor változót hoztunk létre, amelynek várható értéke épp a 4-es dobás valószín¶sége. Így már alkalmazhatjuk a jól ismert egymintás t-próbát. Meggy®z® az eredmény ? (3) χ2 -próba Teszteljük azt a nullhipotézist, hogy a dobókocka szabályos. Ezt az Anyalyze → N onparametric T ests → Legacy Dialogs → Chi − square menüpont alatt tehetjük meg, ahol az All categories equal funkcióval épp a szabályosság tesztelését kapjuk. Hol van a legnagyobb különbség az elvárt (szabályos) és a tényleges viselkedés között ? Hogyan határozunk a nullhipotézisr®l ? (4)
Binomiális próba
Ezúttal a kísérletünk álljon abból, hogy minden lépésben csak azt vizsgáljuk, 3nál nagyobb-e a kapott szám. Vizsgáljuk meg, hogy mekkora valószín¶séggel kapunk ekkora értéket. Ezúttal is indikátor változót használjuk, de most vegyük észre azt is, hogy valójában egy binomiális eloszlást kapunk az átkódolással. Ez éppen akkor lesz 1, ha legalább 4-et dobunk, másképpen 0. Most használjuk az Anyalyze → N onparametric T ests → Legacy Dialogs → Binomial T est opciót a megfelel® beállításokkal. Mit mutat az eredmény ?
8
(5)
Otthoni gyakorlásra
Generájunk a korábban látott módon egy cinkelt érméhez tartozó dobássorozatot, ahol a fejdobás valószín¶sége 1/3. Az órán használt módszerekkel vizsgáljuk meg az adatokat, majd nézzük meg, ezek alapján fel tudnánk-e ismerni a cinkelést. A tényleges valószín¶ségeket meg tdjuk határozni, esetleg megsejteni ?
9
6. óra
Nyissuk meg a korábban már vizsgált cars.sav állományt. Ezúttal azt gyeljük majd meg, hogy az autók jellemz®i hogyan függnek egymástól, illetve hogyan befolyásolják egymást. (1)
Pearson korreláció
Kérdezzük le a változók Pearson korrelációit a korábban tanult módon, elemezzük ki az eredményt ! (Analyze → Correlate → Bivariate, minden változót válasszunk ki) Mely változók között látunk kapcsolatot, és ezek milyen irányúak ? Válasszuk ki azt a két változót, melyek a leger®sebben korreláltak, a következ® feladatban ezek kapcsolatát vizsgáljuk. (2)
Lineáris regresszió
Alkalmazzunk lineáris regressziót a végsebességre a teljesítmény alapján, tehát határozzuk meg a regressziós egyenest. Ezt az Analyze → Regression → Curve estimation menüpont alatt tehetjük meg. A függ® változó legyen SP , a független pedig HP . Állítsuk be, hogy lineáris modellt szeretnénk (M odels : Linear), az opcióknál pedig válasszuk ki, hogy Include constant in equation, P lot models, valamint Display AN OV A tables. A táblázatok alapján határozzuk meg az egyenes egyenletét, és mutassuk meg, hogy mennyire jó az illeszkedése az adatokra. Az ábrán ez hogyan nyilvánul meg ? A lóer® hány százalékban magyarázza a végsebességet ? Használjuk fel a kapott egyenletet ! Amennyiben tudjuk, hogy egy autó 70 lóer®s, akkor milyen becslést adhatunk a végsebességére ? (3)
Nemlineáris regresszió
Válaaszuk ki a fogyasztást jellemz® változót (mérföld/gallon !), valamint a teljesítményt. Tapasztalataink alapján megsejthetjük, hogy ezek között a kapcsolat nem lineáris. Próbáljuk meg reciprokfüggvényként kifejezni a fogyasztást a teljesítménnyel. A Curve estamation-nél ezúttal az Inverse szerepeljen Linear helyett, minden más beállítás maradjon a régi. Ezúttal is írjuk fel a kiszámolt függvényt, és nézzük meg, milyen arányban magyarázza a teljesítmény a fogyasztást ebben a regresszióban. Ha ismert a teljesítmény (100 LE), akkor mennyire becsüljük a fogyasztást ? (4)
Többváltozós regresszió
Nézzük meg, hogy mennyire válltozik meg a regresszió, ha hozzáveszünk még egy változót, a tömeget, mégpedig lineáris komponensként. 10
Ehhez az Analyze → Regression → N onlinear menüpontot használjuk. A függ® változó továbbra is legyen a fogyasztás, a M odel expression pedig a/HP + b ∗ W T + c, a kezdeti értékeket pedig a(1), a(2), a(3)-mal deniáljuk a P arameters-nél. Határozzuk meg a regressiós egyenletet, és gyeljük meg, hogy mennyiben javult a közelítés a korábbi, egyváltozós regresszióhoz képest. Megérte még egy változót gyelembe venni ? (5)
Otthoni gyakorlásra
Írjuk fel a végsebességet három másik változó, a térfogat, a teljesítmény, valamint a tömeg lineáris függvényeként. Milyen az illeszkedés ? Korábban felírtuk a fogyasztást, mint a teljesítmény reciprokfüggvénye. Próbáljuk ki a többi lehet®séget is, kaphatunk jobb illeszkedést, vagy valóban a reciprokos a megfelel® ? Milyen zikai magyarázata lehet a kapcsolatnak ?
11
8. óra
Nyissuk meg a salary.sav állományt. (1)
Átkódolás
Kódoljuk át a beosztást, ami sztring típusú változó, numerikussá. Ehhez használjuk a T ransf orm → Recode into dif f erent variables menüpontot, az Input variable legyen a jobkat, az Output variable-t nevezzük jobkat2-nek, M anager → 1, Clerical → 2, Custodial → 3. (2)
Pontdiagram
Ábrázoljuk pontdiagramon az összes numerikus változót, majd vizsgáljuk meg, hogy melyek között mutat az ábra kapcsolatot. A pontdiagramot a Graphs → Legacy dialogs → Scatter dot : M atrix scatter módon készíthetjük el, válasszuk ki az összes numerikus változót, mint M atrix variable. Mely változók között látunk kapcsolatot ? A kapcsolat milyen iránya, mennyire er®s ? Hogyan magyarázhatjuk ®ket ? (3)
Korreláció
Kérdezzük le az összes numerikus változóra a Pearson és a Sperman korrelációkat. Melyek azok a korrelációk, amelyek nem értelmezhet®ek ? A M atrix scatter diagramon látott kapcsolatok a korrelációkban is megmutatkoznak ? Mely változók befolyásolják a jelenlegi zetést, és milyen mértékben, irányban ? Azt látjuk, hogy a gyerekek száma és a zetés között negatív irányú kapcsolat van, de sejthetjük, hogy ez a kapcsolat nem közvetlen, azaz nem közvetlenül a zetés miatt változik a gyerekek száma. Mi okozhatja mégis ezt a korrelációt ? Kimutatható-e olyan trend a cégnél, hogy az utóbbi id®ben inkább alacsonyabb, vagy magasabb végzettség¶ embereket vettek fel ? (4)
Crosstabs
Teszteljük le azt a nullhipotézist, hogy nincs különbség a n®k és férak tekintetében a különböz® besoztásokat végz®k arányában, tehát nem jelenik meg olyan trend, hogy mondjuk a n®k inkább alacsonyabb beosztást töltenek be, a férak magasabbat, vagy akár fordítva. Használjuk az Analyze → Descriptive statistics → Crosstabs opciót, a Row legyen a gender, a Column pedig a jobkat. A Statistics-nél válasszuk ki a Chi − square-t, a Cells-nél pedig az Observed és Expected opciókat. (5)
Q-Q plot
12
A betegszabadság változóról szeretnénk megállapítani, hogy normális eloszlású-e. Ehhez el®ször ábrázoljuk Q − Q plot-on, ami grakusan mutatja meg, hogy mennyiben térnek el az értékek a normális eloszlástól. Ehhez válasszuk az Analyze Descriptive statistics Q − Q plots-ot, a V ariables-nél válasszuk a Betegszabadságot. A T est Distribution legyen Normal. (6)
Kolmogorov-Szmirnov-próba
Teszteljük a nullhipotézist, mely szerint a Betegszabadság változó normális eloszlású. Ehhez használjuk az Analyze → N onparametric testes Legacy dialogs → One − − Sample Kolmogorov − Szmirnov T est-et. Legyen a T est variable list a Betegszabadság, a T est distribution-nél pedig válasszuk a normálisat. Mivel magyarázzuk a teszt eredményét annak ellenére, hogy az ábrázolás nem mutatott nagy eltéréseket? (7)
Otthoni gyakorlásra
A dolgozók minden hónapban kaphatnak jutalmat. A Jutalom oszlopban az szerepel, hogy az adott dolgozó az elmúlt 12 hónapban hányszor kapott jutalmat. Teszteljük azt a nullhipotézist, hogy ezek száma Poisson eloszlást követ.
13
8. óra
Nyissuk meg a teszt.sav állományt, ami két szerver terheltségének meggyeléseit tartalmazza. (1)
Alapstatisztikák és boxplot
A Mérés1 és Mérés2 változók a két szerver forgalmát tartalmazzák. Vizsgáljuk meg, hogy egyformán terhelt-e a két szerver. Ehhez el®ször kérjük le az alapstatisztikákat, majd boxplot segítségével ábrázoljuk is az adatokat. Mit látunk, van különbség ? (2)
Hisztogram
Próbáljuk grakusan megállapítani a Mérés1 és Mérés2 változók eloszlásait, ehhez ábrázoljuk ®ket hisztogramon, ahol pipáljuk ki a Display normal curve opciót. Mennyire illeszkednek a kapott grakonok a normális eloszlás s¶r¶ságfüggvényére ? (3) Q-Q plot Alkalmazzuk még egy grakus módszert, a Q − Q plot-ot, amellyel nem csak normális eloszlást lehet vizsgálni. Ehhez válasszuk az Analyze Descriptive statistics Q − Q plots-ot, a V ariables-nél válasszuk a Mérés1 és Mérés2-t. A T est Distribution legyen Normal. (4)
Kolmogorov-Szmirnov próba
Teszteljük le sejtésünket, hogy a változók normális eloszlásúak. Ehhez válasszuk az Analyze → N onparametric tests → Legacy dialogs → 1−Sample K −S menüpontot, ahol adjuk át a két változót a T est variable list-hez, válasszuk a N ormal-t, mint T est distribution. Mindkét esetben elfogadjuk, hogy normális eloszlásúak ? Mennyire meggy®z® az eredmény? (5)
Wilcoxon próba
Teszteljük azt a nullhipotézist, hogy a Mérés1 és Mérés2 változók azonos eloszlásúak. Mivel a változók nem függetlenek, ezért alkalmazzuk az Analyze → N onparametric tests → Legacy dialogs → 2 − Related samples tesztet, ahol a két változó mellett válasszuk ki a W ilcoxon próbát. Elfogadjuk a nullhipotézist ?
14
10. óra
Nyissuk meg az orszagok.sav állományt, amely országok különböz® adatait tartalmazza. (1)
Simple scatter
Ábrázoljuk az országokat a GDP és az Inf antmortality alapján Graphs → Legacy dialogs → Scatter/Dot → Simple scatter diagramon, a tengelyek legyen a fenti változók, feliratozzuk (Label by ) a Country szerint. (2)
Hierarchikus klaszterezés
Osszuk a fenti változók alapján csoportokba a szerepl® országokat. Ehhez az Analyze → Classif y → Hierarchical cluster menüpontot válasszuk, ahol a változók mellett állítsuk be azt is a P lots opciónál, hogy ábrázolja a program a Dendogram nev¶ diagramot. Alkalmazzu az eredeti beállítást, mely szerint a M ethod a Between− − group linkage, ami azt jelenti, hogy az átlgos távolságok alapján hozza létre a klasztereket. Az ábra alapján állapítsuk meg, hogy hány klaszter kialakítása t¶nik ésszer¶nek. Futtassuk újra az el®bbi eljárást, de ezúttal a Save ezen belül, a Range of solutions opciónál M in. legyen 2, a M ax. pedig 5. Ezzel elmentjük, hogy amennyiben 2 − 5 klasztert hozunk létre, az adott ország melyikbe kerül. Ábárzoljuk az adatokat újra Simple scatter grakonnal, de ezúttal a 3 klaszter álatal kialakult osztályozást is mutassuk meg, legyen a M arker ez a csoportosító változó. Vegyük észre, hogy a távolságoknál mindkét változót azonos súllyal veszzük gyelembe, pedig nagyságrendjük teljesül különböz®. Alkalmazzu az eljárást úgy, hogy mindkét változót a 0−1 intervallumba átskálázzuk, ezt a M ethod → Standardize → Range 0 to 1 beállítással tehetjük meg. Hasonlítsuk össze az eredményt a korábbival ! Alkalmazzuk a klaszterezést más módszerek mellett, mint a N earest, vagy a F urthest neighbor. Mit tapasztalunk ? (3)
K-közép klaszterezés
Ezúttal a Birthrate és Deathrate alapján klaszterezzünk, k-közép módszerrel. Ehhez válasszuk az Analyze → Classif y → K − means cluster, a változók mellett adjuk meg, hogy Label cases by : Country , valamint a N umber of clusters legyen 5. A Save beállításnál válasszuk ki mindkét opciót. Ábrázoljuk ismét a Simple scatter diagramot. Mit tapasztalunk ?
15
11. óra
Nyissuk meg a irisz.sav állományt, amely különböz® típusú írisz virágok adatait tartalmazza. Célunk az, hogy hatékony eljárást adjunk új mintaelemek besorolására a lehetséges 3 fajta egyikébe . Ehhez állapítsuk meg, el lehet-e szeparálni a csoportokat. (1) Scatter dot Ábrázoljuk párossával a változókat, gyeljük meg, hogy mely adatok alkalmasak a fajták elkülönítésére. Ehhez alkalmazzuk a Graphs→Legacy dialogs→Scatter dot→M atrix scatter diagramot, válasszuk ki mind a négy adatot, mint változót, a színezés pedig legyen a f ajta változó szerint (set markers by). Állapítsuk meg, melyek azok a csoportok, amik jól elkülönülnek a többit®l, valamint hogy mely változók szeparálják a csoportokat. (2) Diszkriminancia analízis Végezzünk diszriminancia analízist a négy változó alapján. Válasszuk az Analyze → Classif y → Discriminant eljárást. Állítsuk be, hogy a Grouping variable legyen a f ajta változó, adjuk meg, hogy a Range 1 és 3 között legyen. Az Independents mez®nél állítsuk be a négy változót. A következ® opciókra lesz szükségünk. A Statistics-nél M eans, U nstandardized. A Classif y résznél Summary table, Combined groups, T erritorial map, a Save-nél pedig P redicted group membership, Discriminant scores, P robability of group. Hány diszkrimincia függvényre van szükség ? Határozzuk meg ezek egyenletét a Canonical discriminant f unction coef f icients táblázat alapján. Hány növény került rossz csoportba? Ezek a növények milyenek, és mivel magyarázzuk, hogy éppen ®k kerültek rossz csoportba? Az elmentett adatok alapján nézzük meg, milyen valószín¶ségek alapján soroltuk ezeket a rossz csoportokba. Határozzuk meg, hogy ezen eljárás alapján hová sorolnánk be azt a növényt, melynek adatai rendre 6, 3, 4 és 1?
16
12. óra
Nyissuk meg a cars.sav állományt, mely az autók jól ismert adatait tartalmazza. Célunk az lesz, hogy az 5 számérték¶ változót vizsgáljuk. Megpróbáljuk redukálni a szükséges jellemz®k számát úgy, hogy ezen változók alapján minél több információt hordozó faktorokat határozunk meg. (1)
Hajtsuk végre az Analyze→Dimension reduction→F actor eljárást a következ® beállításokkal. A Descriptives-nél U nivariate deescriptives, Initial solutions, Coef f icients, KM O and Bartlett0 s test of sphericity . Az Extraction-nél U nrotated f actor solution, Scree plot, F ixed number of f actors : 5. Végül a Scores-nál Save as variables, valamint Display f actor score coef f icients matrix.
Faktoranalízis
A Correlattion matrix alapján következtessünk arra, hogy van-e lehet®ség csökkenteni az eljárás végrehajtására. Meggyeléseinket támasszuk alá a KM O − − Bartlett próba eredményével. Mennyire meggy®z® ? Figyeljük meg T otal variance explained táblázat alapján, hogy az egyes faktorok a teljes variancia hány százalékát magyarázzák. Fejezzük ki a változókat a faktorok segítségével, a Component matrix alapján. Fejezzük ki a faktorokat a változók segítségével, a Component score coef f icient matrix alapján. Milyen változók a faktorok, hogyan viszonyulnak egymáshoz ? Hány faktorra van szükségünk, amennyiben a teljes variancia 90 százalékát magyarázni akarjuk ? Futtassuk le újra a korábbi eljárást. A korábbi beállításokat tartsuk meg, de ezúttal legyen az Extraction-nél a F ixed number of f actors : 2, valamint válasszuk ki a Decsriptives-nél a Reproduced és a Rotation-nél a Loading plot opciót. Hogyan közelítjük a változókat a két faktor segítségével ? A Communalities táblázat alapján adjuk meg, hogy a kétváltozós modell hány százalékban magyarázza a változók varianciáját ? Melyiket a legkevésbé, illetve a legjobban ? A Reproduced correlations táblézat alapján, ha a változókat a két faktorral vett közelítésével helyettesítjük, akkor megváltoznak a korábbi kapcsolatok a változók között ? Hol "rontjuk el" leginkább a kapcsolatot ? Ez nagy változás ? A Loading plot alapján próbáljunk jelentést tulajdonítani a két faktornak.
17