SPSS ALAPISMERETEK
T. Parázsó Lenke
2
Statistical Package for Social Scienses
Statisztikai programcsomag a szociológiai tudományok számára
1968-ban Norman H. Nie, C.Handlai Hull és Dale H. Bent alkották meg az SPSS alapjait, 70-es években továbbfejlesztették a Chicagói Egyetemen. 1992-ben megjelent a Windows alatt futó változata, ez averzió vált elterjedtebbé a felhasználók körében. 1997 – 2003 vállalati alkalmazások elterjedése 2004 Predectiv elemzések ideje 2007 Java alkalmazások 2009 SPSS PASW
Médiainformatikai Intézet
2010.10.26.
SPSS munkaterületei 3
MS Windows család tagja, minták statisztikai elemzését végezhetjük el segítségével. A programot kizárólag a megnevezett intézmények oktatói és tanulói használhatják: kutatás, egyetemi oktatás és fejlesztés céljára. Munkaterületei:
Data – adatmátrix Output – eredmények Chart – diagram ablak Médiainformatikai Intézet
2010.10.26.
Változók 4
Médiainformatikai Intézet
2010.10.26.
Az SPSS beköszöntő oldala 5
Már mentett adatbázis megnyitása
Tárgyszavas és címszavas megnyitás, keresése Új adat beírása Meglévő könyvtárak és fájlok megnyitása Adatbázis konvertáló megnyitása
Médiainformatikai Intézet
2010.10.26.
Az SPSS beköszöntő oldala 6
Médiainformatikai Intézet
2010.10.26.
Különböző kiterjesztésű adatok konvertálása 7
Médiainformatikai Intézet
2010.10.26.
Az adatbázis 8
Az oszlopok, más szóval mezők vagy változók, a kérdőív kérdéseinek,
a sorok, vagy rekordok illetve elemek, a válaszadóknak felelnek meg.
Médiainformatikai Intézet
2010.10.26.
Az adatbázis definiálása 9
Médiainformatikai Intézet
2010.10.26.
Adat 10
Az oszlopok, más szóval mezők vagy változók, a kérdőív kérdéseinek, a sorok, vagy rekordok illetve elemek, a válaszadóknak felelnek meg.
Médiainformatikai Intézet
2010.10.26.
Az adat jellemzői_1 11
VARIABLE NAME
a kijelölt oszlopba feltüntetett változók megnevezését határozzuk meg.
TYPE
a változó típusát jelöljük meg
LABELS
a változó címkéjét definiáljuk
MISSING VALUES
az adathiány kódja, ahol a hiányzó adatokat kódolhatjuk
COLUMN FORMAT
a cella formázása
Médiainformatikai Intézet
2010.10.26.
Adat típusa 12
Médiainformatikai Intézet
2010.10.26.
A File menű 13
Médiainformatikai Intézet
2010.10.26.
Define Labels – a változók definiálása 14
A változók neveit – Value - cimkékkel látjuk el Value label – a változók magyarázatai Médiainformatikai Intézet 2010.10.26.
Define Missing Values- az adathiány ellenőrzése 15
Ha a feldolgozás során nem kell számolni adathiánnyal, akkor a legfelső, No missing values pontot jelöljük meg. Abban az esetben, ha hibás értékekkel is számolni kell, az alábbi 3 beállítási lehetőségünk van:
Médiainformatikai Intézet
2010.10.26.
Define Missing Values- Hiba 16
Médiainformatikai Intézet
2010.10.26.
Hibás értékek – adathiány ellenőrzése 17
Médiainformatikai Intézet
2010.10.26.
18
Hibás értékek – adathiány ellenőrzése_2 File Display Data Info
Médiainformatikai Intézet
2010.10.26.
Keretrendszer kialakítása 19
Médiainformatikai Intézet
2010.10.26.
Oszlop formázás 20
A lehulló ablak az oszlop szélességének és a beleírt szöveg igazítására ad lehetőséget.Médiainformatikai Intézet 2010.10.26.
SPSS adatfelvitel 21
Médiainformatikai Intézet
2010.10.26.
Sor és oszlop beszúrás 22
Médiainformatikai Intézet
2010.10.26.
Az adatbázis 23
• az oszlopok, más szóval mezők vagy változók, a kérdőív kérdéseinek,
• a sorok, vagy rekordok illetve elemek, a válaszadóknak felelnek meg. Médiainformatikai Intézet 2010.10.26.
Adatfelvitel
Médiainformatikai Intézet 24
2010.10.26.
Grafikai ábrázolás 25
kördiagram
Médiainformatikai Intézet
2010.10.26.
Hisztogram 26
Médiainformatikai Intézet
2010.10.26.
Halmozott oszlopdiagram 27
Médiainformatikai Intézet
2010.10.26.
Tő és levél (Steam snd leaf plot) 28
Médiainformatikai Intézet
2010.10.26.
Boksz-Plot ábra 29
Médiainformatikai Intézet
2010.10.26.
Pókháló, sugár 30
Médiainformatikai Intézet
2010.10.26.
Adatfájlok statisztikai elemzése 31
OLAP
Médiainformatikai Intézet
2010.10.26.
A középérték mérőszámai 32
Médiainformatikai Intézet
2010.10.26.
Statisztikai jellemzők 33
Médiainformatikai Intézet
2010.10.26.
Gyakoriság 34
Médiainformatikai Intézet
2010.10.26.
Gyakoriság_2 35
Médiainformatikai Intézet
2010.10.26.
Eredmény
Médiainformatikai Intézet 36
2010.10.26.
Kovarancia Két adathalmaz adatpárjai közötti eltérések szorzatának átlagát számolja
megadja két egymástól különböző változó együttmozgását.
n számú x, y értékpár esetében a minta kovarianciája az alábbi képlettel határozható meg:
n i
( xi
x ) ( yi
y)
n
37
Médiainformatikai Intézet
2010.10.26.
37
Korrelációs együttható 38
A korrelációszámítást többdimenziós minták vizsgálatakor, a minta elemeihez rendelt adatok közötti összefüggés feltárását szolgálja. A korrelációs együttes szignifikancia vizsgálata megmutatja, hogy egy adott, többdimenziós minta esetén a változók között talált összefüggés mekkora valószínűséggel valódi és nem a véletlen műve.
rxy rtáblázat rxy rtáblázat
a két minta korrelációs összefüggése az oszlopnak megfelelő valószínűséggel nem a véletlen műv, vagyis általánosítható a korrelációs összefüggés mértékét nem lehet áltatlánosítani, vagyis a mintában észlelt kapcsolat a véletlen műve Médiainformatikai Intézet 2010.10.26.
39
A korrelációs együttható szignifikanciája A korrelációs együttes szignifikancia vizsgálata megmutatja, hogy egy adott, többdimenziós minta esetén a változók között talált összefüggés mekkora valószínűséggel valódi és nem a véletlen műve. A mintához tartozó elemek szabadságfoka: szf=n-2
Médiainformatikai Intézet
2010.10.26.
Az eredmény általánosíthatósága a populációra 40
A feltételezett összefüggés általánosításához az szükséges, hogy a korrelációs együttható abszolút értéke nagyobb legyen, mint a 95%-os valószínűségi szinthez (adott szabadságfokon) tartozó érték. Abban az estben, ha 99% vagy 99,9%-os értéken végezzük az összevetést, a felfedett kapcsolat még nagyobb valószínűséggel általánosítható.
Médiainformatikai Intézet
2010.10.26.
Kereszttáblák 41
Az ilyen csoportosítások megjelenítésére és a szempontok közötti összefüggések vizsgálatára alkalmasak a kontingenciatáblák vagy kereszttáblák. A kereszttáblákat két változó összefüggésének vizsgálatához használjuk. Médiainformatikai Intézet
2010.10.26.
42
Chi-négyzet (Kereszttáblák)
Ezt a statisztikát arra használjuk, hogy azt a hipotézist, miszerint a sor és oszlopváltozók függetlenek, ellenôrizhessük. Nem jól használható, ha bármelyik cellában a peremeloszlások alapján várható érték (expected value) kisebb 1-nél, vagy a cellák több mint 20%-ban ez az érték kisebb mint 5. Médiainformatikai Intézet
2010.10.26.
43
Chi-négyzet (Kereszttáblák) A Pearson chi-négyzet a legelterjedtebb forma, a likelihoodratio chi-négyzet a max. likelihood elméleten alapszik.
Médiainformatikai Intézet
2010.10.26.
Kereszttáblák alkalmazása 44
Médiainformatikai Intézet
2010.10.26.
Kereszttáblák alkalmazása 45
Display clustered bar charts: olyan oszlopdiagramot közöl, amely a kereszttábla egyes celláihoz tartozók elemszámát mutatja Suppress tables: a kereszttáblát nem, csak a statisztikákat közli
A Format gomb lenyomása után megjelenô dialógus dobozban a táblázat formátumát adhatjuk meg. A Crosstabs ablakon belül lehetőségünk van arra, hogy beállítsuk, milyen adatokat akarunk a cellákban megjeleníteni: Cells … Médiainformatikai Intézet
2010.10.26.
Kereszttáblák alkalmazása 46
Médiainformatikai Intézet
2010.10.26.
Kereszttáblák alkalmazása 47
Counts …
Observed: a megfigyelt gyakoriságok Expected: a várt gyakoriságok, az adott cellába eső megfigyelések száma a sor- és az oszlopváltozó függetlensége esetén
Percentages …
Row (sor): sorszázalék
Column (oszlop): oszlopszázalék
Total (teljes): totálszázalék. Az adott cellába eső esetek aránya az összes megfigyelthez képest. Médiainformatikai Intézet
2010.10.26.
Beállítás: Statistics … 48
Chi-square: azt a nullhipotézist teszteli, anélkül, hogy számot adna kapcsolatuk irányáról és erősségéről.
Correlation: Pearson's R: két, legalább intervallum szintű, változó lineáris összefüggésének mérésére alkalmas mérőszám. Értéke a -1; 1 zárt intervallumba esik.
A negatív értékek negatív (az egyik változó értékének emelkedésével a másik értéke csökken), a pozitívak pozitív összefüggést jelentenek (az egyik változó értékének emelkedésével a másik értéke is nő), ahol a –1 és 1 a teljes lineáris meghatározottságot a 0 pedig azt jelenti, hogy a két változó között nincs lineáris összefüggés vagy más szavakkal a két változó korrelálatlan. Médiainformatikai Intézet
2010.10.26.
Beállítás: Statistics … 49
Nominal Data: (nominális adatok) Phi and Cramer’s V: 2 alapú asszociációs mérőszám. Értéke 0; 1 között mozoghat, ahol a 0 érték azt jelenti, hogy egyáltalán nincs kapcsolat a két változó között, míg az 1 érték tökéletes statisztikai együttjárást jelez. 2 2-s táblánál Phi-t használunk, nagyobbra Cramer’s V-t. Médiainformatikai Intézet
2010.10.26.
Beállítás: Statistics … 50
Lambda: asszociációs mérőszám, amelynek segítségével azt vizsgáljuk, hogy az egyik változó értékeinek megtippelésekor mekkora aránylagos hibacsökkenést okoz a másik változó ismerete. Értéke 0; 1 között mozoghat, ahol 1 jelzi a tökéletes statisztikai együttjárást.
Gamma: asszociációs mérőszám. A lambdához hasonlóan ez is azon alapul, hogy mennyire segíti az egyik változó ismerete a másik értékének előrejelzését. De a gammánál nem a pontos értékére tippelünk, hanem az értékek ordinális elrendezésére, nagyságviszonyára. Értéke -1; 1 közé eshet és így a kapcsolat nagyságán kívül annak irányára is utal. Médiainformatikai Intézet
2010.10.26.
Beállítás: Cell Display 51
Médiainformatikai Intézet
2010.10.26.
Eredmények_1 52
Médiainformatikai Intézet
2010.10.26.
Eredmények_2 53
Médiainformatikai Intézet
2010.10.26.
Eredmények_3 54
Médiainformatikai Intézet
2010.10.26.
Eredmények_4 55
Médiainformatikai Intézet
2010.10.26.
Parancsbeállító menűsor -OLAP 56
OLAP - az adatok középérték mérőszámait állítja elő Médiainformatikai Intézet
2010.10.26.
57
Statisztikai jellemző beállítás OLAP
Médiainformatikai Intézet
2010.10.26.
OLAP eredményeket bemutató tábla 58
OLAP Cubes sorszám: Total Sum N feladat_1 feladat_2 feladat_3 feladat_4 feladat_5 feladat_6 feladat_7 feladat_8
Mean 39 27 18 33 45 30 24 45
Std. Deviation 17 2,29 17 1,59 17 1,06 17 1,94 17 2,65 17 1,76 17 1,41 17 2,65
% of Total N 1,312 100,0% 1,543 100,0% 1,478 100,0% 1,478 100,0% ,996 100,0% 1,522 100,0% 1,543 100,0% ,996 100,0%
Médiainformatikai Intézet
2010.10.26.