Statisztikai programcsomagok feladatok 1. M¶veletek adatokkal A salary.sav állomány egy amerikai vállalatnál a munkavállalók néhány fontosabb adatát tartalmazza. A változók : jobkat : Beosztás. gender : Nem. (1=fér, 2=n®) minority : Kisebbségi besorolás. (0=nem, 1=igen, -1=n.a.) educ : Iskolai végzettség. (1=alapfokú, 2=középfokú, 3=BSc, 4=MSc) child : Gyermekek száma. (-1=n.a.) jobtime : A vállalatnál töltött id®. (hónap) salbegin : Kezd® zetés. salery : Jelenlegi zetés. 1. Nyissuk meg a Salary.sav állományt, és a Variable View lapon ellen®rizzük a változók
típusát (Type) és mértékét (Measure), továbbá a változók értékeit (Values) és a hiányzó értékeket (Missing). File / Open / Data File name : Salary.sav 2. a. Hozzunk létre egy salary_child nev¶ változót, mely azt tartalmazza, hogy az egyes
alkalmazottaknál átlagosan mekkora zetés jut egy-egy gyermekre ? Transform / Compute Variable Target Variable : salary_child Numeric Expression : salary/child b. Átlagosan évente mennyivel n®tt az egyes alkalmazottak zetése ? 3. a. Az educkat változóban adjuk meg, hogy hány alkalmazott rendelkezik Elementary,
Secondary, stb. iskolai végzettséggel. Data / Aggregate Break Variable : educ
X Number
of cases
Name : educkat b. Hány gyermeke van összesen a cég alkalmazottainak ?
Data / Aggregate Break Variable :
Summaries of Variables : child Function :
X Sum A child_sum változó szerint a dolgozóknak összesen 543 gyermeke van.
1
c. Adjuk meg az átlagos gyerekszámot az egyes végzettségi kategóriákban. 4. a. Hozzunk létre egy jobkat2 változót, mely a jobkat által deniált kategóriákat kódolja
számokkal. A Variable View lapon adjuk meg az új változó tulajdonságait. Transform / Recode into Dierent Variables Input Variable : jobkat Output Variable : jobkat2, Change ! ! ! Old and New Values : Old -> New : Manager -> 1, Clerical -> 2, Custodial -> 3 A Variable View lapon Type : Numeric, Measure : Nominal. b. Hozzunk létre egy salkat változót, melynek értéke High, ha az alkalmazott zetése
több, mint $40.000 ; Average, ha a zetés $40.000 és $25.000 között van ; és végül Low, ha a zetés kevesebb, mint $25.000. Transform / Recode into Dierent Variables Input Variable : salary Output Variable : salkat, Change ! ! ! Old and New Values :
X Output
variables are strings
Old -> New : -40.000 -> High, 25.000-40.000 -> Average, 25.000- -> Low A Variable View lapon Type : Numeric, Measure : Nominal. 5. Keressük meg a legtöbbet keres®t a legalább kétgyerekes alkalmazottak között.
Data / Select Cases
X If
condition is satised
If : child>=2 Data / Sort Cases Sort by : salary Sort Order :
X Descending
2
2. Várható érték és szórás tesztelése A vernyomas.xlsx egy klinikai kísérlet eredményét tartalmazza, mely során két újonnan kifejlesztett vérnyomáscs®kkent® gyógyszert hasonlítottak össze a régi készítménnyel. A gyógyszereket három 15 f®s betegcsoporton tesztelték, az egyes csoportokban mindenki ugyanazt a gyógyszert kapta néhány héten keresztül. A változók : CSOP : betegcsoport (0=kontroll, 1=1. kísérleti gyógyszer, 2=2. kísérleti gyógyszer). SYS1 : kezelés el®tti systoles vérnyomás. SYS2 : kezelés utáni systoles vérnyomás. 1. Nyissuk meg az adatállományt, és kérdezzük le a SYS1 és a SYS2 változó alapstatisz-
tikáit. Mennyi a két változó empirikus várható értéke és szórása ? File / Open / Data File name : vernyomas.xlsx Analyze / Descriptive Statistics / Descriptives Variables : SYS1, SYS2 Options :
X Mean X Std. deviation A SYS1 és a SYS2 változó esetében az empirikus várható érték rendre az empirikus szórás pedig rendre
6,405
és
160,07
és
154,97,
8,435.
2. Teszteljük 95 százalékos szignikancia szinten azt a nullhipotézist, hogy a kezelés el®tti
vérnyomás várható értéke
155. Adjunk 95 százelék megbízhatóságú kondencia intervallu-
mot a SYS1 változó várható értékére. Minek köszönhet®, hogy az a kondencia intervallum ennyire sz¶k ? Analyze / Compare Means / One-Sample T Test Test Variable : SYS1 Test Value : 155 Options : Condence Interval Percentage : 95 A nullhipotézist elvetjük, hiszen az egymintás t-próbánál Sig.=0,000. Ugyanerre az eredményre jutunk, ha felírjuk a kondencia intervallumot, mely most
= [158,14,161,99],
[155+3,14,155+6,99]=
ugyanis ez az intervallum nem tartalmazza a 155 értéket. A relatíve
sz¶k kondencia intervallum annak köszönhet®, hogy pontosan tudjuk becsülni a várható értéket, hiszen a Standard Error of the Mean értéke 0,955. 3. a. Kérdezzük le a kezelés el®tti vérnyomás alapstatisztikáit betegcsoportonként. Áb-
rázoljuk is a meggyelések boxplotját szintén csoportonkénti bontásban. Tapasztalunk jelent®s eltérést a csoportonkénti empirikus várható értékben illetve szórásban ? Milyen mértékben d®lt a SYS1 változó eloszlása az egyes csoportokban. Analyze / Descriptive Statistics / Explore
3
Dependent List : SYS1 Factor List : CSOP Display :
X Statistics
Graphs / Legacy Dialogs / Boxplot : Simple, Summaries for groups of cases Variable : SYS1 Category Axis : CSOP A kezelés el®tti vérnyomás empirikus várható értéke és empirikus szórása közel azonos az egyes csoportokban. A ferdeség (skewness) alapján a 0-ás csoportban az eloszlás nem d®l, az 1-es csoportban enyhén jobbra, a 2-es csoporban pedig enyhén balra d®l. Mindazonáltal ezek a ferdeség értékek nem jelent®sek, tehát a mintára alkalmazható a t-próba és az egyszempontos ANOVA. b. Válaszoljunk az a. pontban feltett kérdésekre a SYS2 változó esetén. 4. a. Teszteljük 10 százalékos szignikancia szinten azt a nullhipotézist, hogy a kezelést
el®tti vérnyomás elméleti várható értéke azonos az 1. és a 2. betegcsoportban. Adjunk 90 százalék megbízhatóságú kondencia intervallumot a várható értékek különbségére. Analyze / Compare Means / Indapendent-Samples T Test Test Variables : SYS2 Grouping Variable : CSOP Dene Groups : Group 1 : 1, Group 2 : 2 Options : Condence Interval Percentage : 90 A Levene-teszt elfogadja a szórások egyenl®ségét (Sig.=0,734,) így alkalmazhatjuk a hagyományos kétmintás t-próbát. A t-próba 93,3 százalék megbízhatósággal elfogadja a várható értékek egyenl®ségét, és a kondencia intervallum
[−3,799,4,199].
b. Végezzük el az a. pont elemzését a kezelés utánni vérnyomásra is.
A Levene-teszt, ha nem is túl nagy megbízhatósággal, de elfogadja a csoportonkénti szórások egyené®ségét. (Sig.=0.189.) Maga a t-próba elveti a várható értékek egyel®ségét, és azt kapjuk, hogy az 1. és a 2. csoportban a SYS2 változó elméleti várható értékeinek különbsége 0,9 valószín¶séggel a
[−15,276, −7,124] intervallumba esik. Ha valaki esetleg nem
hiszi el a szórások egyenl®ségét, akkor a kétmintás t-próba helyett a Welch-próba is alkalmazható, mely szintén elveti a várható értékek egyenl®ségét, és közel azonos kondencia intervallumot ad, mint a t-próba. 5. a. Teszteljük azt a nullhipotézist, hogy a kezelés el®tti vérnyomás elméleti várható
értéke mindhárom betegcsoportban megegyezik. Hány százalékban magyarázza a kezelés el®tti vérnyomást az, hogy az alany melyik betegcsoportba került ? Analyze / Compare Means / One-Way ANOVA Dependent List : SYS1 Factor : CSOP Options :
4
X Descriptive X Homogeneity X Welch X Means plot
of variance test
A Levene-teszt ismét elfogadja a szórások egyenl®ségét (Sig.=0,793,) így alkalmazhatjuk az egyszempontos ANOVA módszert. Az ANOVA 90,7 százalékos megbízhatósággal elfogadja a várható értékek egyenl®ségét. A négyzetösszegek alapján a csoportbesorolás mindössze
8,4/1804,8 = 0,47%
arányban magyarázza a vérnyomást.
b. Végezzük el az a. pont elemzését a kezelés utánni vérnyomásra is.
A Levene-teszt ismét elfogadja az elméleti szórások egyenl®ségét, de a kétmintás t-próbához hasonlóan nem túl magas megbízgatósággal. (Sig.=0,352.) Ha feltesszük, hogy a szórások tényleg egyenl®ek, akkor az ANOVA módszer elveti a csoportonkénti elméleti várható értékek egyenl®ségét. Hasonló eredményt ad a Welch-próba is, ha nem akarjuk feltenni a szórások egyenl®ségét. Az ANOVA táblázat szerint a csoportbesorolás, tehát az a tény, hogy az alany melyik gyógyszert kapta,
1459,2/3130,8 = 46,6%
arányban magyarázza a
kezelés utánni vérnyomást. 6. a. Hasonlítsuk össze a kezelés el®tti illetve utáni várnyomás alapstatisztikáit az 1.
betegcsoportban, valamint ábrázoljuk a kapcsolatos boxplot grakonokat. Mi a véleményünk, hat az 1. gyógyszer ? Data / Select Cases
X If
condition is satised
If : CSOP=1 Analyze / Descriptive Statistics / Descriptives Variables : SYS1, SYS2 Graphs / Legacy Dialogs / Boxplot : Simple, Summaries of separate variables Boxes Represent : SYS1, SYS2 A SYS2 változó empirikus várható értéke 10 egységgel alacsonyabb, mint a SYS1 változóé, tehát átlagában hatott a gyógyszer. Fontos azonban megjegyezni, hogy a két változónál azonos a mintaelemek maximuma, tehát a gyógyszer hatására nem mindenkinek csökkent a vérnyomása, esetleg valakinek n®tt is. b. Teszteljük 5 százalékos szignikancia szinten azt az nullhipotézist, hogy a gyógyszer
nem változtatott az átlagos vérnyomáson. Adjunk 95 százalék megbízhatóságú kondencia intervallumot a vérnyomáscsökkenés várható értékére. Milyen más módszerrel tesztelhettük volna még ebben az esetben a várható értékek egyenl®ségét ? Analyze / Compare Means / Paired-Samples T Test Paired Variables : SYS1-SYS2 Options : Condence Interval Percentage : 95
5
Mivel a kezelés el®tti illetve utánni vérnyomásértékek nem feltétlenül függetlenek, az állítást páros t-próbával teszteljük, mely elveti a várható értékek egyenl®ségét. (Sig.=0,004.) A SYS1-SYS2 változó várható értéke 95 százalék megbízhatósággal a
[3,362,14,104]
in-
tervallumba esik. Mivel most a két változó közel korrelálatlan, (Correlation=0,044,) feltehet®, hogy a két vérnyomásérték független, (Sig.=0,876,) vagyis a tesztelést kétmintás t-próbával is végezhettük volna. c. Mit állíthatunk a 2. kísérleti gyógyszer hatásáról ? Érdemes ezt a gyógyászatba beve-
zetni ? 7. a. Teszteljük 10 százalékos szignikancia szinten azt az állítást, hogy a kezelés el®tti
vérnyomás elméleti várható értéke 165 alatt van. Analyze / Compare Means / One-Sample T Test Test Variable : SYS1 Test Value : 0 Options : Condence Interval Percentage : 80
[158,82,161,31] interval(−∞,161,31] halmaznak.
Az egymintás t-próba szerint a várható érték 0,8 valószín¶séggel a lumba esik, azaz a várható érték 0,9 megbízhatósággal eleme a
Ez azt jelenti, hogy 0,1-nél kisebb annak az esélye, hogy az elméleti várható érték a 165 fölött van, vagyis a nullhipotézist elfogadjuk. b. Teszteljük 5 százalékos szignikancia szinten azt az állítást, hogy az 1. betegcsoportban
a kezelés hatására legalább 15 egységgel csökkent a vérnyomás várható értéke. c. Teszteljük 1 százalékos szignikancia szinten azt a nullhipotézist, hogy a kezelés után a
2. betegcsoportban alacsonyabb a vérnyomás várható értéke, mint az 1. betegcsoportban.
6
3. Többszempontos variancianalízis Az anova.sav nev¶ állomány generált adatokat tartalmaz. A változók : faktor1, faktor2 : Determinisztikus faktorok, két szempont szerinti csoportbesorolás. random1, random2, random3 : Az órán vizsgált generált változók. hf1, hf2 : További generált adatok otthoni gyakorlásra. 1. a. Kérdezzük le a random1 változónak a faktor1 illetve a faktor2 változó által megha-
tározott csoportra vonatkozó empirikus várható értékét. Mit állíthatunk a kapott adatok alapján, milyen mértékben befolyásolja a csoportbesorolás a várható értéket ? Analyze / Descriptive Statistics / Explore Dependent list : random1. Factor list : faktor1, faktor2. Display :
X Both
Statistics : Descriptives Azt tapasztaljuk, hogy a faktor1 változó szerinti csoportbesorolás 1 nagyságrend¶ különbségeket okoz a mintaátlagban. Ez nem biztos, hogy szignikáns hatás, lehet, hogy csak a véletlen eredménye. A faktor2 változó szerinti csoportbesorolás 10-es nagyságrend¶ eltéréseket okoz, ez valószín¶leg már szignikáns hatás lesz. b. Teszteljük le kétszempontos variancianalízissel az a. pontban megfogalmazott sejtése-
inket. Milyen mértékben magyarázza a faktor1 és a faktor2 változó a random1 változó értékét ? Analyze / General Linear Model / Univariate Dependent Variable : random1 Fixed Factors : faktor1, faktor2 Model :
X Custom Model : faktor1, faktor2
Include intercept in model
Options : Display Means for : faktor1, faktor2
a∗ faktor1 +b∗ faktor2 +ε alakban ε hibatag normális eloszlású és független az egyes meggyeléseknél. Ma-
A kétszempontos varianciaanalízis a random1 változót modellezi, ahol az
ga az ANOVA azt teszteli, hogy az egyes faktorok együtthatói tekinthet®ek-e nullának, ami azt jelentené, hogy az adott faktor szerinti besorolás nem játszik szerepet a random1 változó értékében. Látható, hogy a teszt az elfogadja, míg a
b=0
a=0
nullhipotézist
0,811
szignikanciával
állítást a program határozottan elveti. Ez egybecseng azzal, amit
az a. pontban már megsejtettünk, tehát azzal, hogy a faktor1 szerinti besorolás nem okoz szignikáns eltérést, míg a faktor2 szerinti besorolás igen. A hibatag empirikus varianciája 2595/15327=0,169 hányadát képviseli a random1 változó empirikus varianciájának,
7
ami azt jelenti, hogy a faktor1 és a faktor2 változó 100%-16,9%=83,1% százalékban magyarázza a random1 változó értékét. 2. Végezzük el az el®z® feladatban bemutatott elemzést a random2 és a random3 válto-
zóra. 3. a. Vizsgáljuk meg, hogy a random1 változó esetében tapasztalható-e faktor1*faktor2
interakció, ami azt jelentené, hogy a random1 változó értékét nem csak az befojásolja, hogy az adott meggyelés a faktor1 és faktor2 változó által meghatározott csoportok közül melyikbe esik, hanem az is, hogy a két faktor által együttesen deniált 9 csoport közül melyiknek az eleme. Analyze / General Linear Model / Univariate Dependent Variable : random1 Fixed Factors : faktor1, faktor2 Model :
X Custom Model : faktor1, faktor2, faktor1*faktor2
Include intercept in model
Options : Display Means for : faktor1, faktor2, faktor1*faktor2 Az ANOVA táblázat szerint az interakció nem szignikáns. b. Teszteljük az interakciót a random2 és a random3 változó esetén is. 4. A random1, random2 és random3 változók generált adatokat tartalmaznak, melyeket
három különböz® formulával lettek el®állítva. A három formula
5 ∗ faktor1 + 10 ∗ faktor2 + ε ,
faktor1 + 10 ∗ faktor2 + ε ,
5 ∗ faktor1 + 10 ∗ faktor2 + 10 ∗ mod ahol mod(c,3) a
c
faktor1 + faktor2,3
érték 3-mal vett maradékát jelenti, és az
ε
+ε ,
hibatag normális elosz-
lást követ 0 várható értékkel és 10 szórásnégyzettel. Tippeljük meg, hogy melyik változó melyik formulával lett generálva. A random1 változó valószín¶leg a második formulával lett generálva, ugyanis az ANOVA teszt szerint ezen változónál sem az els® faktor, sem az interakció nem szignikáns. A második formulában ugyan megjelenik a faktor1 változó hatása, de ez csak 1 nagyságrend¶ különségeket okoz a generált változók értékeiben, ami nem mutatható ki szignikánsan az ennél nagyobb nagyságrend¶ hibatagok miatt. Az ANOVA teszt szerint a random2 változó esetén már er®teljesebb a faktor1 változó hatása, de továbbra sincs interakció. Ez arra utal, hogy a random2 változót az els® formulával generálták. A random3 változónál mind a két faktor, továbbá az interakció is szignikáns, ami azt valószín¶síti, hogy ezt a változót a harmadik formulával generálták. Az extra tagban, faktor1+faktor2 összeg maradékában jelenik meg az interakció, tehát az a hatás, ami nem vezethet® vissza tisztán csak arra a tényez®re, hogy mennyi a faktorok külön-külön vett értéke. Ezen tag esetében annak van jelent®sége, hogy a meggyelés a két faktor által csoport közül melyikbe esik.
8
együttesen
meghatározott 9
4. Valószín¶ségek tesztelése A kocka.txt egy nem feltétlenül szabályos dobókocka 1000 feldobásábak az eredményét tartalmazza. A változók : dobas : A dobott értékek. gyakorisag : Az egyes értékek gyakorisága 1000 feldobás után. 1. Állítsuk be a súlyozást, tehát mondjuk meg az SPSS programnak, hogy a gyakorisag
változó azt reprezentálja, hogy az egyes sorokat hányszoros multiplicitással kell gyelembe venni. Kérdezzük le az egyes értékek gyakoriságát. Data / Weight Cases Weight cases by : gyakorisag Analyze / Descriptive Statistics / Frequences Variable : dobas
X Display
frequency tables
2. Teszteljük azt a nullhipotézist, hogy a 4-es érték dobásának valószín¶sége 1/6. Adjunk
90 százalék megbízhatóságú kondencia intervallumot a 4-es érték dobásának valószín¶ségére. Transform / Recode into Dierent Variables Input Variable : dobas Outpur Variable : indikator Old and New Values : 4 -> 1, ELSE -> 0 Analyze / Compare Means / One-Sample T Test Test Variable : indikator Test Value : 0,166 Options : Condence Interval Percentage : 90 A megoldáshoz létre kell hozni egy indikator nev¶ változót, mely 1-et vesz fel értékül, ha a dobás 4, és 0-t egyébként. Ezt a változót egyszer¶en begépeléssel is lehet deniálni. Az indikator valtozó várható értékét tesztelve Sig.=0,190, tehát ha nem is túl meggy®z®en, de a nullhipotézist elfogadjuk. A kondencia intervallum
[0,162,0,202].
3. a. Teszteljük azt a nullhipotézist, hogy a dobókocka szabályos. Melyik érték esetében
a legnagyobb az eltérés a tapasztalati gyakoriság és a várható gyakoriság között ? Analyze / Nonparametric Tests / Legacy Dialogs / Chi-square Tests Variable List : dobas
X All
categories equal
A 4-es értéknél a legnagyobb a különbség, ezt 15-tel többször dobtuk, mint az 1000 dobás 2 után várható. Ennek ellenére a nullhipotézist elfogadjuk, hiszen a χ -próbára Sig.=0,813. b. Teszteljük azt a nullhipotézist, hogy az 1-4 értékek valószín¶sége azonosan
5-6 értékek valószín¶sége azonosan
0,1. 9
0,2, míg az
5. Regresszióanalízis A cars.sav állomány néhány, az amerikai piacon forgalomba hozott autótípus fontosabb m¶szaki paramétereit tartalmazza. A változók : MANUFACTURER : Az autó típusa. MODEL : Az autó modellje a típuson belül. COUNTRY : Származási ország. VOL : Térfogat (köbláb). HP : Motorteljesítmény (lóer®). MPG : Fogyasztás (mérföld per gallon). SP : Végsebesség (mérföld per óra). WT : Tömeg (50 font). 1. Kérdezzük le a változók közötti korrelációs együtthatókat, valamint készítsünk pontdi-
agrammot. Mit mondhatunk, mely változók között van er®s függ®ségi kapcsolat, és mely változók tekinthet®ek függetlennek ? Analyze / Correlate / Bivariate Variables : VOL, HP, MPG, SP, WT Correlation coecients :
X Flag
X Pearson
signicant correlations
Graphs / Legacy Dialogs / Scatter/Dots : Matrix Scatter Matrix Variables : VOL, HP, MPG, SP, WT A leger®sebb és a leggyengébb függ®ségi kapcsolatok a korrelációs együtthatókkal. Er®s pozitív irányú kapcsolat : HP-SP (0,967), HP-WT (0,832). Er®s negatív irányú kapcsolat : MPG-WT (-0,905), HP-WT (-0,790). Korrelálatlan változók : VOL-SP (-0,043), VOL-HP (0,076). 2. Lineáris regresszó segítségével írjuk fel a végsebességet a teljesítmény függvényeként.
Ábrázoljuk a regressziós egyenest, és adjuk meg az egyenletét. Mennyire jól illeszkednek a meggyelések az egyenesre ? Az autók teljesítménye hány százalékban magarázza meg a végsebességet ? Várhatóan mennyi egy 130 lóer®s autó végsebessége ? Analyze / Regression / Curve Estimation Dependent : SP Independent : HP Models :
X Linear
X Include constant in equation X Plot models X Include ANOVA table A regressziós egyenes egyenlete SP = 0,239HP +84,454. Az illeszkedés nagyon jó, ugyanis R2 = 0,934. A teljesítmény 93,4 százalékban magyarázza a végsebességet. Behelyettesítéssel kapjuk, hogy egy 130 lóer®s autó végsebessége várhatóan 115,5 mérföld per óra.
10
3. Elemezzük a fogyasztás és a tömeg kapcsolatát az el®z® pontban bemutatott módon.
Mit kapunk, ha a lineáris regressziót a teljesítményre és a térfogatra végezzük el ? 4. Írjuk fel a járm¶vek fogyasztását, mint a teljesítmény reciprokfüggvénye. Miért életsze-
r¶ inverzkapcsolatot feltételezni a két változó között ? Mi a regressziós görbe egyenlete ? A modellünkben a teljesítmény hány százalékban magyarázza a fogyasztást ? Várhatóan mennyit fogyaszt egy 130 lóer®s autó ? Analyze / Regression / Curve Estimation Dependent : MPG Independent : HP
X Inverse X Include constant in equation X Plot models X Include ANOVA table Models :
A regressziós görbe egyenlete MPG = 2373,112/HP +9,73. Most
R2 = 0.843, így a teljesít-
mény 84,3 százalékban magyarázzaa fogyasztást. Egy 130 lóer®s autó várható fogyasztása 27,98 mérföld per gallon. 5. Milyen mértékben határozza meg a gyártás helye az autók teljesítményét ? Keresszünk
regressziós kapcsolatot ezen két változó között. (Ez európai autókat kezelhetjük egyetlen kategóriában.) Transform / Recode into Dierent Variables Input Variable : COUNTRY Output Variable : COUNTRY2 Old and New Values : U.S. -> 1, Japan -> 2, ELSE -> 3. Analyze / Compare Means / One-Way ANOVA Dependent List : HP Factor : COUNTRY2 Options :
X Descriptive X Homogeneity X Welch X Means plot
of variance test
Mivel a szükséges statisztikai módszereket csak számérték¶ változókra tudjuk lefuttatni, el®ször át kell kódolni a COUNTRY változót egy COUNTRY2 numerikus változóba. Az egyszempontos ANOVA módszer szerint a HP változónak szignikánsan különbözik a COUNTRY2 változó áltak meghatározott csoportokon bel¶l várható értéke. Továbbá, HP = f (COUNTRY2)+ε, ahol
f (1) = 111,61, f (2) = 100,44, f (3) = 200,5,
és a
ε
hibatag
normális eloszlású és nulla várható érték¶ véletlen változó. Jegyezzük meg, hogy a Leveneteszt szerint a hibatag szórása nem azonos az egyes csoportokban, így amit kaptunk, az nem egy klasszikus értelemben vett regressziós modell. Az ANOVA táblázat szerint a 2 gyártási hely R = SSB/SST = 0,311 arányban magyarázza a teljesítményt.
11
6. Írjuk fel a végsebességet, mint a térfogat, a teljesítmény és a tömeg lineáris függvénye.
A korábbi egyváltozós lineáris modellhez viszonyítva javult az illeszkedés ? Szükség van mindhárom változóra a modellben ? Analyze / Regression / Linear Dependent : SP Independents : VOL, HP, WT Statistics :
X Estimates X Model t Options :
X Include
constant in equation
= 0,014VOL + 0,327HP − 0,746WT + 95,761. Az illeszkedés je2 egyváltozós esethez viszonyítva, hiszen most R = 0,986. Mivel a VOL
A regressziós egyenlet SP lent®sen javult az
változó együtthatója nem különbözik szignikánsan nullától (Sig.=0,184), ez a független változó elhagyható a modellb®l. 7. Írjuk fel a fogyasztást, mint a teljesítmény reciprokos és a tömeg lineáris függvénye.
Milyen becslést kapunk a táblázatban szerepl® járm¶vek fogyasztására, ha behelyettesítjük a tényleges tömeg és teljesítmény adatokat a regressziós egyenletbe ? Mely autóknál adódnak a legnagyobb hibatagok ? Analyze / Regression / Nonlinear Dependent : MPG Model expression : a/HP+b*WT+c Parameters : a(1), b(1), c(1) Save :
X Predicted X Residuals
values
A regressziós egyenlet MPG
= 1387,177/HP −0,544WT +36,536.
A becsült fogyasztásér-
tékek és a kapcsolatos hibatagok megjelentek a táblázatban rendre a PRED és a RESID változóban. Két kiugróan nagy reziduális van (12,53 és 10,07), melyek a 8. és az 1. autóhoz tartoznak.
12
6. Paraméteres és nemparaméteres függ®ségvizsgálat A salary.sav állomány egy amerikai vállalatnál a munkavállalók néhány fontosabb adatát tartalmazza. A változók : jobkat : Beosztás. gender : Nem. (1=fér, 2=n®) minority : Kisebbségi besorolás. (0=nem, 1=igen, -1=n.a.) educ : Iskolai végzettség. (1=alapfokú, 2=középfokú, 3=BSc, 4=MSc) child : Gyermekek száma. (-1=n.a.) jobtime : A vállalatnál töltött id®. (hónap) salbegin : Kezd® zetés. salery : Jelenlegi zetés. 1. Kódoljuk át a beosztást egy szám érték¶ változóba. Mi lesz az új változó mértéke ?
Transform / Recode into Dierent Variables Input Variable : jobkat Output Variable : jobkat2 Old and New Values : Manager -> 1, Clerical -> 2, Custodial -> 3 Az új változó továbbra is nominális. 2. Kérdezzük le a szám érték¶ változók pontdiagrammját. Mely változók között tapasz-
talunk er®teljesebb kapcsolatot ? Graphs / Legacy Dialogs / Scatter/Dot : Matrix Scatter Matrix variables : gender, minority, educ, child, jobtime, salbegin, salary. A beosztás, a nem, a kisebbségi besorolás és az iskolai végzettség a kezd® és a jelenlegi zetéssel. Az iskolai végzettség a beosztással, a nemmel, a kisebbségi besorolással és a gyerekek számával. A kezd® zetés a jelenlegi zetéssel. 3. Kérjük le a minority, educ, child, jobtime, salbegin valamint salary változók Pearson
illetve Spearman korrelációját, majd válaszoljunk az alábbi kérdésekre. Analyze / Correlate / Bivariate Variables : minority, educ, child, jobtime, salbegin, salary Correlation coecients : Pearson, Spearman
X Flag
signicant correlations
a. A kapott korrelációk között van olyan, amely nem értelmezhet® statisztikailag ?
Az educ változóval vett Pearson korrelációk nem értelmezhet®ek, ugyanis az iskolai végzettség nem skálaváltozó. A minority ordinális, ezért ennél sem a Pearson, sem a Spearman korreláció nem értelmezhet®. b. A felsorolt változók közül melyek befolyásolják és milyen mértékben a jelenlegi zetést ?
13
Az iskolai végzettség és a kezd® zetés szignikáns módon befolyásolja a jelenlegi zetést. A gyermekek száma és a vállalatnál töltött id® is szignikáns, de jóval kisebb mértékben. c. Milyen függ®ség tapasztalható az iskolai végzettség és a gyerekek száma között ? Ezek
után mi lehet annak a magyarázata, hogy a gyerekek száma és a jelenlegi zetés között negatív korrelációt tapasztaltunk ? Az iskolai végzettség és a gyerekek száma között gyenge, de szignikáns negatív irányú kapcsolat van. Mivel a zetés er®sen korrelál az iskolai végzettséggel, a zetés és a gyerekek száma között negatív el®jel¶ korrelációt kapunk. d. Kimutatható-e olyan trend a vállalatnál, hogy az utóbbi id®ben inkább magasabb vagy
inkább alacsonyabb végzettség¶ embereket vesznek fel ? Az id® folyamán hogyan változott az alkalmazottak kezd® zetése ? Nem mutatható ki szignikáns változás. 4. Egyszempontos varianciaanalízissel (ANOVA) válaszoljunk a következ® kérdésekre.
Érdemes emellett a csoportonkénti boxplot diagrammot is lekérdezni. a. Vizsgáljuk meg, hogy befolyásolja-e az alkalmazottak beosztása a jelenlegi zetést.
Analyze / Compare Means / One-Way ANOVA Dependent List : salary Factor : jobkat2 Options :
X Descriprive X Homogenity X Welch
of variance test
Graphs / Legacy Dialogs / Boxplot : Simple, Summaries for groups of cases Variable : salary Category Axis : jobkat2 Azt tapasztaljuk, hogy a beosztáscsoportokon belül mind a zetés szórása, mind a zetés várható értéke szignikánsan különbözik, tehát a zetés nem független a beosztástól. b. Befolyásolja-e a jelenlegi zetést az iskolai végzettség, a nem, a kisebbségi statusz vagy
a gyermekek száma. c. Van-e különbség a férak és a n®k között abból a szempontból, hogy milyen hosszú ideje
dolgoznak a vállalatnál ? Mit állíthatunk a kisebbségek képvisel®ir®l és az alacsonyabb végzettség¶ekr®l ? A gender, minority, educ változók közül egyik sem hat szignikáns módon a jobtime változó várható értékére és szórására. Ez amúgy boxplotokról is látszik. 5. Kérdezzük le az alábbi változópárok empirikus gyakoriságtáblázatát, és teszteljük a
változók függetlenségét. a. Tapasztalható-e olyan jelenség, hogy a kisebbségi dolgozók között arányait tekint több
vagy kevesebb a n® ?
14
Analyze / Descriptive Statistics / Crosstabs Row : gender Column : minority Statistics :
X Chi_square Cells :
X Observed X Expected A
χ2 -próbánál
Sig.=0,433, tehát nem mutatható ki szignikáns kapcsolat.
b. Függ-e a gyerekek száma az alkalmazottak nemét®l ? c. Függ-e a munkahelyi beosztás, az iskolai végzettség, illetve a gyermekek száma attól a
tényt®l, hogy a dolgozó valamely kisebbséghez tartozik ? Ha igen, akkor az egyes tényez®k hol jelennek meg látványosan ?
15
7. Klaszteranalízis A debt.sav az Európai Unió országainak néhány költségvetési mutatószámát tartalmazza az éves GDP százalékában. A változók : Country : Ország Expenditure : Kiadás Revenue : Bevétel Decit : Költségvetési hiány Debt : Államadósság 1. Abrázoljuk az országok költségvetési hiányát az államadósság függvényében. Ábrázol-
juk azt is, hogy melyik pont melyik országhoz tartozik. Graphs / Legacy Dialogs / Scatter/Dot : Simple Scatter Y Axis : Decit X Axis : Debt Label Cases by : Country ... majd duplán az ábrára kattintva Show Data Labels 2. Végezzünk hierarchikus klaszterezést az adatsoron úgy, hogy a klaszterek a lehet®
legnagyobb mértékben szeparálva legyenek. Mi a klaszterezés els® két lépése ? Mi volt a legutolsó lépés ? Hány klasztert érdemes létrehozni ? Analyze / Classify / Hierarchical Cluster Variables : Decit, Debt Label Cases by : Country
X Statistics X Plots Statistics :
X Agglomeration
schedule
Plots :
X Dendrogram Method : Cluster Method : Nearest neighbor Ahoz, hogy a klaszterek a legjobban szeparálva legyenek, rendre azokat a klasztereket kell összevonni, melyek legközelebbi elemei a legkisebb távolságra vannak, tehát a legközelebbi szomszéd módszert kell alkalmazni. Az Agglomeration schedule szerint az els® lépésben az 5 (Czech Republic) és a 24 (Slovenia) esetet vontuk össze, majd a következ® lépésben ehez a csoporthoz csatoltuk a 23 (Slovakia) esetet. Az utolsó lépés az volt, hogy a 11 (Greece) és a 14 (Italy) esetet tartalmazó klasztert egyesítettük az összes többi országot tartalmazó klaszterrel. A Dendrogram szerint három, esetleg négy klasztert érdemes kialakítani. A korábbi lépésekben még elég közeli csoportokat vontunk össze, tehát korábban nem garantált a jól szeparáltság.
16
3. Futassuk le a klaszterezést négy csoportra. Mentsük is el az országok csoportbeso-
rolását, és ábrázoljuk a klasztereket koordináta rendszerben. Hány ország esik az egyes klaszterekbe ? Miért t¶nik úgy, hogy a klaszterek nincsenek jól szeparálva ? Analyze / Classify / Hierarchical Cluste Az el®z® futtatás összes opciója, továbbá ... Statistics : Cluster Membership, Single solution, Number of clusters : 4 Save : Cluster Membership, Single solution, Number of clusters : 4 Graphs / Legacy Dialogs / Scatter/Dot : Simple Scatter Y Axis : Decit X Axis : Debt Set Markers by : CLU4_1 Label Cases by : Country A klaszterek elemszáma 1, 2, 3 és 21. Látszólag Italy közelebb esik a külön klasztert alkotó Belgiumhoz, mint a vele azonos klaszterbe es® Greecehez. Ennek az az oka, hogy az ábra torzított, a két koordinátatengelynek nem azonos a skálázása. Vegyük észre, hogy a kétdimenziós Euklídeszi távolság a jelen esetben nem a legjobb távolságfogalom. Ha két országnál azonos a Decit, és a Debt változónál mondjuk 10 az eltérés, akkor a két ország hasonló költségvetési helyzetben van. Ezzel szemben, ha azonos a Debt, de 10 az eltérés a Decit változónál, akkor a két ország teljesen más cip®ben jár. Sajnos az Euklídeszi metrika mindkét esetben azonos távolságot ad. 4. Végezzük el úgy a klaszterezést, hogy mindkét változó értékeit lineárisan transzfor-
máljuk a [0,1] intervallumba. Analyze / Classify / Hierarchical Cluste Az el®z® futtatás összes opciója, továbbá ... Method : Transform values, Standardize : Range 0 to 1 Graphs / Legacy Dialogs / Scatter/Dot : Simple Scatter Az el®z® futtatás összes opciója, azzal a módosítással, hogy ... Set Markers by : CLU4_2 5. Mit tegyünk, ha az a célunk, hogy a lehet® legkisebb átmér®j¶ klasztereket kapjuk ?
Mit tegyünk akkor, ha egy közbüls® megoldást keresünk a jól szeparáltság és a kis átmér® között ? Futassuk le az algoritmust és ábrázoljuk az eredményt ezekkel a módszerekkel. Ha az eljárás indokolja, akkor változtassunk a klaszterek számán is. A klaszterezési eljárást a Method gombon belül lehet beállítani. Ha kis átmér®j¶ klasztereket akarunk, akkor a legtávolabbi szomszéd (Furthest neighbor) opciót kell választani, ha egy kiegyensúlyozott csoportosítást, akkor az átlagos távolság (Between-groups linkage) módszert.
17
6. Végezzünk K-közép klaszterezést 5 klaszterrel. Mik a kapott klaszterközéppontok, és
mely ország található a legtávolabb a klaszterének középpontjától. Ábrázoljuk a csoportbesorolást. Analyze / Classify / K-Means Cluster Variables : Decit, Debt Label Cases by : Country Number of Clusters : 5 Save :
X Cluster membership X Distence from cluster
center
Options :
X Cluster
information for each case
Graphs / Legacy Dialogs / Scatter/Dot : Simple Scatter Úgy, mint eddig ... A klaszterközéppontokat a Final Cluster Centers táblázat tartalmazza. A klaszterközépponttól a legnagyobb távolságra Belgium és Romania található.
18
8. Diszkriminancia analízis és logisztikus regresszió Az irisz.sav állomány három íriszfajtától származó meggyeléseket tartalmaz. A változók : csesze_hossz : csészelevél hossza csesze_szel : csészelevél szélessége szirom_hossz : sziromlevél hossza szirom_szel : sziromlevél szélessége fajta : a növény fajtája 1. Nyissuk meg az állományt, és kódoljuk át a fajta változót és szám érték¶ fajta2 válto-
zóba. File / Open / Data File name : Salary.sav Transform / Automatic Recode Variable->New Variable : fajta->fajta2 2. Ábrázoljuk az els® négy változót kettessévvel koordináta rendszerben. A három közül
melyik az a fajta, mely jól elkülönül a másik kett®t®l ? Melyek azok a változók, melyek segítségével jól elkülöníthet® a három fajta, és melyek azok, melyekkel nem ? Graphs / Legacy Dialogs / Scatter/Dot : Matrix Scatter Matrix Variables : csesze_hossz, csesze_szel, szirom_hossz, szirom_szel Set Markers by : fajta2 A setosa szépen elkülönül, a másik kett® fajta viszont egymásra lóg. A sziromlevél hosszának és szélességének segítségével jobban elkülöníthat®ek a változók, mint a csészelevél hosszának és szélességének alkalmazásával. 3. Végezzünk diszkriminancia analízist a mintára mind a négy változó alkalmazásával,
majd válaszoljunk az alábbi kérdésekre. Analyze / Classify / Discriminant Grouping Variable : fajta2 Minimum : 1 Maximum : 3 Independents : csesze_hossz, csesze_szel, szirom_hossz, szirom_szel Statistics :
X Means X Unstandardized Classify :
X Summary table X Combined groups X Rerritorial map Save :
X Predirected
group membership
19
X Discriminant scores X Probabilities of group a. Hány diszkriminancia függvényre van szükség, és mi ezeknek az egyenlete ?
Két diszkriminancia függvényre van szükség, ezek egyenlete : F1=-0,829*csesze_hossz-1,534*csesze_szel+2,201*szirom_hossz+2,810*szirom_szel-2,105 F2=0,024*csesze_hossz+2.165*csesze_szel-0,932*szirom_hossz+2,839*szirom_szel-6,661 b. Milyen hatékonysággal müködött a tanulómintán az algoritmus ? Mely növények ke-
rültek rossz csoporba ? Az algoritmus minde setosa növényt jó helyre sorolt be, ami nem meglep®, hiszen ez a csoport jól elkülönül. A versicolor fajtából 2 a virginica csoportba, a virginica fajtaból 1 a versicolor csoportba került. Ez összeséggében 98 százalékos hatékonyság. A Data View lap szerint a 71-es, a 84-es és a 134-es növény került rossz csoportba. Vegyük észre, hogy például a 71-es növénynél mindössze 75 százalékos a (rossz) csoportbesorolás megbízhatósága, ami jóval alacsonyabb, mint a jó besorolások megbízhatósága. c. Határozzuk meg a deniált tartományok középpontjait. Melyik fajba sorolnánk be azt
a növényt, melynél a négy változó értéke rendre 6, 3, 4 és 1 ? A négydimenziós térben a három fajtához tartozó meggyelések tömegközéppontjait a Groups Statistics táblázatbana Means oszlop tartalmazza. A Fuctions at Group Centroids táblázatban található a diszkriminancia függvény értéke ezekben a pontokban, tehát a csoportok középpontja a diszkriminancia függvények által meghatározott kétdimenziós koordináta rendszerben. Az új meggyelés által meghatározott pontban a két diszkriminancia függvény értéke F1=-0,067 és F2=-0,911. Látható, hogy ez a pont a Territorial Mapen a 2 tartományba esik, tehát ezt a növényt a versicolor csoportba soroljuk be. Egy kis számolással numerikusan is ellen®rizhet®, hogy a Fuctions at Group Centroids táblázatban közölt közeppontok közül a (-0,067,-0,911) pont a második csoport középpontjához esik a legközelebb. 4. Zárjuk ki a setosa növényeket a vizsgálatból, majd ábrázoljuk a fajtát a sziromlevél
hosszának függvényében. Mit tapasztalunk, milyen kapcsolat van a két változó között ? Data / Select Cases If : fajta2>1 Graphs / Legacy Dialogs / Scatter/Dot : Simple Scatter Y Axis : fajta2 X Axis : sziromhossz Azt látjuk, hogy a nagyobb sziromlevél inkább a virginica fajtara, a kisebb sziromlevél inkább a versicolor fajtára jelllemz®. 5. Végezzünk logisztikus regressziót a fajtára a sziromlevél hosszának segítségével, majd
válaszoljunk az alábbi kérdésekre. Regression / Binary Logistic
20
Dependent : fajta2 Covariates : szirom_hossz Save :
X Probabilities X Group membership Options :
X Classication plots X Hosmer-Lemeshow goodness-of-t X Include constant in model a. Mi a regressziós görbe egyenlete, mennyire jó a modellillesztés ?
Az algoritmus az els® lépésben átkódolja a fajta2 változót, 0 jelöli a versicolor, 1 pedig a virginica fajtát. A regressziós egyenlet
ln(p/(1−p)) = 9∗ sziromhossz −43,78,
amib®l
p = 1/(1+exp(−9∗ sziromhossz +43,78)),
ahol p annak a valószín¶sége, hogy az adott meggyelés az 1., azaz a virginica fajtából 2 származik. Habár a program több R értéket is megad, érdemesebb a HosmerLemeshow tesztet nézni, mely azt a heurisztikus nullhipotézist teszteli, hogy az algoritmus hatékonyan szétválasztja a két csoportot. Röviden megfogalmazva : minél nagyobb a Hosmer Lemeshow szignikanciája, annál jobb a modell illeszkedése. A szignikancia most 0,985, ami hatékony szétválasztást jelent. b. Mennyire hatékony a csoportok szétválasztása a tanulóminta alapján ?
Az algoritmus 93 százalékos hatékonysággal osztályozta a tanulóminta elemeit, 4 versicolor és 3 virginica növényt sorolt rossz csoportba. Az 53-as sorszámú versicolor az egyik rosszul besorolt meggyelés. Vegyük észre, hogy ennél a növénynél p=0,58, ami nem sokkal magasabb, mint a 0,5-ös küszöbérték, mely fölött egy növényt a virginica csoportba sorolunk. c. Melyik fajtába sorolnánk be a korábban már vizsgált növényt, tehát azt, melynél a
négy változó értéke 6, 3, 4 és 1 ? A négy értékb®l nekünk most csak a szoromlevél hossza kell. A regressziós egyenlet alapján p=1/(1+exp(-9*4+43,78))≈0, tehát a növényt nagy megbizhatósággal a versicolor csoportba soroljuk. 6. Válaszoljunk az el®z® feladat kérdéseire azzal a módosítással, hogy a regressziós egyen-
let felírásakor a sziromlevél szélessége is legyen független változó. Regression / Binary Logistic Minden korábbi opció, továbbá ... Covariates : szirom_hossz, szirom_szel
21
9. F®komponensanalízis 1. Nyissuk meg a cars.sav állományt, végezzünk f®komponensanalízist, és válaszoljunk a
következ® kérdésekre. Analyze / Dimension Reduction / Factor Variables : VOL, HP, MPG, SP, WT Descriptives :
X Univariate descriptives X Initial solutions X Coecients X KMO and Bartlett's test
of sphericity
Extraction :
X Unrotated factor solution X Scree plot X Fixed number of factors : 5 Scores :
X Save as variables X Display factor score
coecient matrix
a. Alkalmas az adatsor f®komponens analízisre ?
A Bartlett-próba határozottan elveti (Sig.=0,000) azt a nullhipotézist, hogy a vizsgált öt változó független lenne, ami jó. A KMO értéke viszont csak 0,538. Ez nem túl magas érték, de még fölötte van a 0,5-s határnak, tehát van értelme f®komponens analízist csainálni. b. Hogyan írható fel a teljesítmény változó az F1,. . . ,F5 f®komponensek segítségével ?
Hogyan állítható el® az F1 els® f®komponens a változók segítségével ? Jelölje VOL_st,. . . ,WT_st a kiindulási változók standardizáltjait. Ekkor a Component Matrix alapján HP_st=0,953*F1-0,257*F2+0,138*F3+0,068*F4-0,044*F5 Innen a teljesítmény HP=D(HP)*HP_st+E(HP) alakban számolható. Az E(HP) várható érték és a D(HP) szórás megtalálható a Descriptive Statistics táblázatban. A Component Score Coecient Matrix segítségével F1=0,085*VOL_st+0,273*HP_st-0,265*MPG_st+0,25*SP_st+0,268*WT_st c. Ellen®rizzük le, hogy a faktorsúlymátrix ortonormált, és azt is, hogy a f®komponensek
függetlenek és nulla várható érték¶ek. Tekinthet® ez az el®állítás faktoranalízisnek is ? A faktrosúlymátrix, azaz a Component Score Coecient Matrix oszlopvektorainak bels® szorzatait a Component Score Covariance Matrix tartalmazza, mely alapján látható, hogy a faktrosúlymátrix valóban ortonormált. A program elmentette az öt f®komponens változó értékeit a Variable View lapon. Az alapstatisztikákat és a korrelációs táblázatot lekérdezve látható, hogy a f®komponensek függetlenek és nulla várható érték¶ek. Ezen túl a f®komponensek egységnyi szórásúak is, tehát ez az el®állítás faktoranalízis is egyben 5 darab közös faktorral egyedi faktor nélkül.
22
d. Az egyes f®komponensek a teljes variancia hány százalékát magyarázzák ? Hány f®kom-
ponensre van szükség, ha az a célunk, hogy a f®komponensek együttesen a teljes variancia legalább 90 százalékát magyarázzák ? A f®komponensek a teljes variancia rendre 69,9, 22,7, 5,2, 2,1 és 0,067 százelékát magyarázzák, tehát két f®komponensre van szükség. 2. Ismételjük meg a f®komponens analízist, de ezúttal csak két f®komponenssel számol-
junk. Válaszoljunk az alábbi kérdésekre. Analyze / Dimension Reduction / Factor Minden korábbi beállítás, továbbá ... Descriptives :
X Reproduced Extraction :
X Fixed
number of factors : 2
Rotation :
X Loading
plot
a. Hogyan írhatjuk fel a teljesítmény változót a kétfaktoros modellben ?
Ugyanúgy, mint az ötfaktoros modellben, azzal a különbséggel, hogy elhanyagoljuk az utolsó három faktort. Tehát HP_st≈0,953*F1-0,257*F2. b. Mit mondhatunk, a két f®komponenst alkalmazó modell hány százalákban magyarázza
az öt változó varianciáját ? Melyik változót tudjuk a legkisebb, és melyiket a legnagyobb hibával el®állítani ? Mely két változó esetében a legrosszabb a kétkomponenses modellb®l számolt korreláció ? Mint azt már láttuk, két f®komponenssel a teljes variancia 92,6 százaléka magyarázható. A Communalities táblázat alapján a modell a HP változó esetén a legjobb, ezen változó 2 esetében a teljes variancia R = 97,5 százaléka magyarázható a két komponenssel. Az MPG változó esetében a legrosszabb az illeszkedés. A Reproduced Correlations táblázat alsó része szerint a kétkomponenses modell a VOL és az SP változó kapcsolatát írja le a legrosszabbul, 0,066 az eltérés az eredeti adatokból számolt korreláció és a modellb®l számolt korreláció között. c. Milyen jelentést tulajdoníthatunk az els® két f®komponensnek ?
A f®komponenseknek nincsen m¶szaki jelentése, hiszen különböz® dimenziójú, azaz eltér® mértékegységekkel rendelkez® mennyiségek lineáris kombinációjával állítottuk el® ®ket. Viszont arra van lehet®ség, hogy heurisztikus, szemléletes jelentést adjunk nekik. A Loading Plot alapján látható, hogy a HP, SP, WT változók er®sen és pozitív módon, az MPG változó er®sen és negatív módon, a VOL változó pedig gyengén függ az F1 els® f®komponenst®l. Ezzel szemben az els® négy változó gyengén, a VOL változó pedig er®sen és pozitív módon függ az F2 f®komponenst®l. Ezek alapján mondhatjuk azt, hogy F1 heurisztikusan azt fejezi ki, hogy milyen er®s az autó motorja míg F2 azt mutatja, hogy milyen nagy a karosszéria.
23
d. A két f®komponenst alkalmazó modell tekinthet® úgy, mint egy faktoranalízises modell
két közös faktorral ? Nem ! Ha a két f®komponenst tekintenénk közös faktoroknak, akkor a másik három f®komponens által meghatározott rész lenne az egyedi faktor. Ez ugyan független a két közös faktortól, de az egyedi faktor komponensei, tehát az egyes autókhoz tartozó egyedi faktorok már nem feltétlenül függetlenek egymástól, hiszen ezek három háttérváltozó, az F3, F4 és F5 f®komponensek segítségével lettek felírva. Ez pedig azt jelenti, hogy ez nem egy kétfaktoros faktoranalízis el®állítás. 3. Szeretnénk egyszer¶síteni a két f®komponenst alkalmazó modellt. Mit tegyünk ?
Analyze / Dimension Reduction / Factor Minden korábbi beállítás, továbbá ... Rotation :
X Varimax X Rotated Solutions Forgassuk el a modellt. A forgatással azt érhetjük el, hogy egyes közös faktorok sokkal nagyobb mértékben fejezik ki egyes változók értékeit, és ezáltal más közös faktorok elhagyagolhatóvá válnak. Szemléletesen az történi, hogy egyes változók a Loading Plot ábrán közelebb kerülnek a koordinátatengelyekhez. Például a teljesítmény változóra a Rotated Component Matrix alapján HP_st≈0,987*F1'+0,001*F2', ahol F1' és F2' jelöli az els® két f®komponenst az elforgatott modellben. Látható, hogy forgatás után a HP változó értékét lényegében csak az els® f®komponens határozza meg. A modell olyan módon egyszer¶síthet®, hogy elhanyagoljuk a második tagot, tehát a HP_st≈0,987*F1' formulával számolunk tovább. Hasonló meggondolásból a VOL változónál az F1' f®komponens hagyható el. Az F1, F2 illetve az F1', F2' f®komponensek a Component Transformation Matrix segítségével számíthatóak át egymásba.
24