F˝okomponens és Faktor analízis Márkus László
2014. december 4.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
1 / 34
Valószín˝uségszámítás és matematikai statisztika
Bevezetés - F˝okomponens és Faktoranalízis
A f˝okomponens és faktor analízis olyan statisztikai technika, amelyet változók halmazára alkalmazunk, hogy feltárjuk, közülük melyek tartalmaznak közös fluktuációs mintákat - akár csak részben, más fluktuációkkal kombináltan is -, és meghatározzuk ezeket a közös mintákat. Úgy gondoljuk általában, hogy egy-egy közös változékonyságminta valamilyen, a háttérben meghúzódó (látens) változó/folyamat hatásának eredményeként áll el˝o. E hatást a faktorváltozó reprezentálja. Mivel faktor az egyes megfigyelt változók közös additiv komponense (bár súlya az egyes változóban általában eltér˝o, akár 0 is lehet), így ez a megfigyelt változók korrelációjának forrása. A faktorok segítségével az összes megfigyelt változó változékonysága leírható, így ezek teljesen jellemzik megfigyeléseinketezért pusztán ezeket megtartva információvesztés nélkül csökkenthetjük (sokszor jelent˝osen) a változóink számát, azaz adatstruktúránk dimenzióját. Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
2 / 34
Valószín˝uségszámítás és matematikai statisztika
Bevezetés - F˝okomponens és Faktoranalízis
Például: Hallgatók adatai: motiváció, intellektuális képességek, iskolatörténet, családtörténet, egészség, fizikai jellemz˝ok, személyiségjegyek. Mindegyiket több változóval is mérik. Néhány személyiségjegy, motivációs és iskolatörténeti változó mutathatja, hogy mennyire szeret önállóan dolgozni a hallgató, kombinálódhat egy önállósági faktorban. Mások egy intelligencia fatort adhatnak ki. STB. Talajvízszint mér˝o kutak adatainak fluktuációja f˝oként a csapadékból történ˝o utánpótlás, esetlegesen fólyóvízb˝ol oldalirányú betáplálás és a kommunális vízkivétel ered˝ojeként alakul, e három hatás kutak százainak adatait jellemezheti globálisan (és e hatások eltávolítása után határozhatók meg a lokális befolyásoló tényez˝ok).
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
3 / 34
Valószín˝uségszámítás és matematikai statisztika
Bevezetés - F˝okomponens és Faktoranalízis
A f˝okomponens analízis (Principal Component Analysis, PCA) a változók közötti variancia, míg a faktoranalízis (FA) inkább a korrelációs mintákat összegzi. A PCA (és a FA is) jelent˝osen csökkenti a változók számát. Bizonyos változók a kísérletek, megfigyelések során alig változnak ingadozásuk (szórásuk) kicsi, ezeket tehát nem tekintjük jellemz˝onek, elhagyhatjuk, ha tudjuk, melyek ezek. Ám gyakran nem ez vagy az a változó kis szórású, hanem pl. a kett˝o összege, vagy valamely más lineáris kombinációja. Ezeket keressük. Illetve inkább azokat, amelyeknek nagy a szórása, és ezért nem hagyhatók el. Az egész dolgot érdemes úgy is felfogni, hogy az X1 , ..., Xn minta egy N dimenziós teret feszít ki, ám még véletlenül sem ortogonális bázisként. Mi tehát adatainkat egy F1 , ..., Fn új, ortogonális bázisban szeretnénk felírni, melynek össz-hossznégyzete, azaz szórás2 -összege az eredetivel egyez˝o. Az új bázis Fi elemei az X1 , ..., Xn lineáris kombinációjaként állnak el˝o. Ha megvan F1 , ..., Fn , az utolsó néhányat (gyakran sokat) elhagyhatjuk. Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
4 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Cél: Az els˝o f˝okomponens megtalálásához maximalizálni akarjuk a változók egy lineáris kombinációjának szórását. Lényegileg egy olyan irányt keresünk, amely mentén a változók maximálisan "szétterülnek", szétszóródnak. Általában ez különbözik a diszkriminancia analízis vagy a kanonikus korreláció által találat irányoktól. Néha a PCA a végcél, de máskor inputot generál további elemzéshez.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
5 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
A kép
Eltoljuk a középpontot az új középpontba, majd beforgatjuk a tengelyeket. Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
6 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Tegyük fel, hogy a centrálás már megtörtént. A forgatás egy A ortogonális mátrixszal: AT A = I való szorzás. X az adataink mátrixa, Z a f˝okomponenseké Z = AX A ellipszoid tengelyeit megtalálni pont az A mátrix megtalálásával ekvivalens, amely úgy forgatja el a változókat, hogy azok korrelálatlanok legyenek, vagyis a variancia-kovariancia mátrix diagonális: SZ = diag(σZ21 , ..., σZ2p ) Másfel˝ol: SZ = EZZ T = E(AX)(AX)T = ASx AT Szimmetrikus mátrixok spektrálfelbontásának SX -re alkalmazásához vegyük az SX n db normált sajátvektorából (v1 , ..., vn )-b˝ol mint oszlopokból álló V mátrixot. Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
7 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Ekkor I = VVT ⇒ : SX = SX VVT = SX (v1 , ..., vn )VT = = (SX v1 , ..., SX vn )VT = (λ1 v1 , ..., λn vn )VT = VΛVT Ez a spektrálfelbontás, ahol Λ a sajátértékek diagonális mátrixa: Λ = diag(λ1 , ..., λn ). Innen SX = VΛVT miatt ⇒ VT SX V = VT VΛVT V = Λ Tehát az A = VT választással kapott Z = AX bázisváltozók SZ variancia-kovariancia mátrixa diagonális lesz, ahogy a f˝okomponensekét˝ol megkívántuk. A keresett forgatás tehát az A mátrixszal adható meg, az A meghatározásához pedig az SX sajátvektorainak és sajátértékeinek számítása szükséges. Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
8 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Egyszersmind az SX mátrix sajátértékei a f˝okomponensek szórás2 -ei is lesznek. Nagyságrend szerint rendezzük o˝ ket. SX és SZ nyoma (⇒ az összes szórás2 összege) megegyezik, ezért van értelme az els˝o k f˝okomponens által "megmagyarázott" varianciáról beszélni, ami Proportion of variance =
σZ2 +...+σZ2 1 k λ1 +...+λn
=
σZ2 +...+σZ2
1 k σX2 +...+σX2n 1
=
σZ2 +...+σZ2 1
k
σZ2 +...+σZ2n 1
Ha az eredeti változóink korreláltak (er˝osen), akkor az els˝o néhány f˝okomponens "sok" varianciát magyaráz, míg az utolsó (jó) néhány keveset, így ez utóbbiak akár el is dobhatóak. Tehát az els˝o néhányat megtartva redukálhatjuk a dimenziót, miközben meg˝orizzük a változékonyságot.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
9 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Ha függetlenek (vagy inkább korrelálatlanok) a változóink, akkor o˝ k maguk f˝okomponensek is ⇒ nincs mit keresni. Vigyázni kell a skálával. A f˝okomponensek nem skálainvariánsok. Ha g/l helyett mg/l-ben mérünk egy változót ⇒ jóval nagyobb lesz a súlya a f˝okomponensek el˝oállításában. A megoldás, hogy a kovariancia mátrix helyett a korrelációkkal dolgozunk, azaz pl. minden változónk szórását 1-re normáljuk. Megjegyzés: Eredetileg Z1 szórás2 -ét akartuk maximalizálni, aztán a rá ortogonális altérben Z2 -t, és így tovább. De Zi szórás2 -e: aT Sx a, és T tetsz˝oleges a-ra nincs maximum, ezért λ = aaTSXaa -t maximalizáljuk. λ1 a legnagyobb sajátérték az (SX − λ I)a = 0 egyenletben Itt nem kell invertálni ⇒ szinguláris SX mátrix is megengedhet˝o. (Ez természetesen algebrailag is ugyanazt a megoldást adja, mint el˝obb).
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
10 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Elnevezések: faktor/f˝okomponens mátrix: F vagy Z = AX, j-ik faktor: Fj vagy Zj = ∑ni=1 ai,j Xi ai,j factor score coefficient A factor coefficient matrix score X (ω ) i 1 .. n Xi = . , Zj (ωk ) = ∑i=1 ai,j Xi (ωk ) Xi (ωp ) Zj (ω1 ) → (Factor score) . . Fj = Zj = . Zj (ωp ) → (Factor score) (De S+ ban: Factor score coefficient matrix = loadings, Factor scores = scores)
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
11 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Factor loadings matrix AT (most) Z = AX → AT Z = AT AX = X Tehát a faktorokból a megfigyeléseket visszaállíthatjuk. Ez nem érdekes addig, míg pontos az el˝oállítás, nincs zaj. F˝okomponens plotok Az els˝o két vagy néhány f˝okomponens score-jait scatterplotoljuk párosával. Ezek mutathatnak normalitást, esetleg nemlinearitást (ez már összefüggés, ami nem jó, mert a PC-k korrelálatlanok és igazából normális eloszlás alapfeltevés mellett ⇒ függetlenek is. Outlier is detektálható ezekb˝ol a plotokból, illeve csoportok is megfigyelhet˝oek az "eset"-ekben (az adatmátrix bizonyos sorai összetartozhatnak, csoportosulhatnak). Itt is igaz, hogy kovariancia mátrix helyett korrelációs mátrixból is lehet dolgozni. Ez ugyanaz, mintha normálnánk a változókat, megszabadulunk a skálázási problémától. Ez azonban nem mindig jogos! Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
12 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Például: 1 4 1 0.8 S= , míg a neki megfelel˝o korrelációs mátrix: R = 4 25 0.8 1 S-b˝ol λ1 = 25.65, λ2 = 0.35 ⇒ Az F1 98.6% szórást magyaráz F1 = 0.16X1 + 0.987X2 , vagyis F1 lényegileg X2 Ugyanez R-rel: λ1 = 1.8 λ2 = 0.2 Az F1 90% szórást magyaráz.
F1 = 0.707 · X1 + 0.141 · X2 tehát F1 sokkal inkább X1 , mint X2 .
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
13 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
Hány f˝okomponenst tartsunk meg? 4 lehet˝oség a döntésre: 1 2
Magyarázzák a szórás rögzített (pl 80) %-át Dobjuk azokat, melyek az átlagnál kisebb sajátértékhez tartoznak. λj ∑ξλn i ; Korrelációs mátrixra ez az átlag 1, tehát az 1-nél kisebb sajátértékhez tartozó f˝okomponenseket elhagyjuk.
3
Scree plot - k˝oomlás diagram. (nagyság szerint plottoljuk a sajátértékeket, és ahol az els˝o (vagy második) törést látjuk a közel lineáris csökkenésben, onnantól dobjuk a f˝okomponenseket.)
4
A nagyobb f˝okomponens szignifikanciáját formálisan teszteljük.
5
Értelmezés alapján, a társtudománnyal együttm˝uködve, ez nem statisztikai módszer, de hasznos lehet.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
14 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
3. H0,k : λn−k+1 = · · · = λn = 0 λ¯ = 1k ∑ ni=n−k+1 log λi Teszt statisztika: n ¯ n = (p − 2n+11 6 )(k log(λ ) − ∑ i=n−k+1 log λi )
Ez közelít˝oleg χd2 , d = (k−1)(k+2) 2 Ez általában kissé túlbecsüli a megtartandó komponensek számát. 2. Scree-plot
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
15 / 34
Valószín˝uségszámítás és matematikai statisztika
F˝okomponens analízis
4. Értelmezés A faktormegoldások elforgathatók - ett˝ol megoldások maradnak. A forgatás PCA-ra nem javasolt, csak FA-ra, de Principal Factorból gyakran ugyanazt kapjuk, mintha PCA-t forgattunk volna. Az új, forgatott megoldás már korrelál és nem a maximális varianciát határozza meg. Úgy forgatjuk a megoldást, hogy minél több együttható a lineáris kombinációban 0 legyen, így könnyebb értelmezni a megoldást, mert az eredeti változókból csak keveset használunk így fel egy-egy faktor meghatározásához ⇒ a különböz˝o faktorok más és más mért változót tartalmaznak (nagy súllyal).
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
16 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
A FA-ban a változókat reprezentálni akarjuk, mint néhány (jóval kevesebb) másik változó (a faktorok) lineáris kombinációja. A faktort általában nem lehet mérni, vagy megfigyelni. Rencher szerint a FA különbözik a PCA-tól, mert 1
2
A PC-k az eredeti változók lineáris kombinációi, míg a FA-ban az eredeti változókat fejezzük ki a faktorok lineáris kombinációival. PCA-ban az összes variancia nagy részét magyarázzuk, míg FA-ban a változók közötti kovarianciákat szeretnénk a legjobban reprodukálni.
Több statisztikus nem szereti - a régebbi számítási módszerek gyakran adtak ellentmondó eredményeket, ezeket ma nem használják. A számítógépes módszerek ma már konsztensebbek. Azonban így is meglehet˝osen szubjektív az elfogadott modell, de ez egyúttal az alkalmazó szabadsága is, a módszer "bája" akár.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
17 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
A faktormodell egyenlet Y = DF + ε Most Y a megfigyelés. Y helyett Y − µ áll(hat), ezért tegyük fel, hogy µ = 0. F a faktorok, ε a zaj, D a factor loadings mátrix. ε és DF korrelálatlan, a faktorok maguk (F oszlopai) ugyanacsak korrelálatlanok - normálisra függetlenek, és az Fj -ket 1 szórásúnak feltételezzük. Ezért: ∑Y = cov(DF + ε) = cov(DF) + covε = E(DFF T DT ) + ∑ε = DDT + ∑ε Lényeges, hogy D nem négyetes mátrix, több sora van, mint oszlopa, 2 , · · · , σ 2 . Így m db faktorunk van. F = (F , · · · , F ) míg ∑ε diag(σ1,ε m 0 n,ε
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
18 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Ez a felbontás nem feltétlen létezik m >> n-re. De a lényeg, hogy FA-ban ezt keressük, ezt értjük azon, hogy szórásmátrixot szeretnénk minél jobban reprodukálni, kisebb dimenzióból. A faktormegoldás nem egyértelm˝u: ugyanis, ha van egy megoldás tetsz˝oleges m x m-es forgatással: TT T = I ∑Y = DTT T DT + ∑ε = = DDT + ∑ε tehát: Y = DTF + ε is jól reprodukálja a szórásmátrixot, így F ? = TF -fel, mint új faktorokkal: Y = DF ∗ + ε és mivel T ortogonális, így F ∗ is faktor tulajdonságú. Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
19 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
A FA modell szerint minden változó varianciáját a faktorok varianciája magyarázza bizonyos mértékig, és van egy, a zajból származó saját, specifikus varianciája. A faktorok által magyarázott "arány" az úgynevezett kommunalitás, ez 2 + ... + d 2 h2i = di,1 i,m
a D mátrix i-ik sorának négyzetösszege.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
20 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Mivel a faktorok korrelálatlanok és standardek, ezért 2 h2i = ∑m j=1 cov(Yi , Fj ) = m 2 = D (∑j=1 dij Fj )
A kommunalitások nem változnak a megoldás forgatásával. Megjegyzés: hi nem más, mint az i-ik sor faktorsúly vektorának hossza az ℜm -ben. Az a jó, ha közel van 1-hez.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
21 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
A faktormegoldás el˝oállítása 1
F˝okomponens módszer
2
Principal Factor vagy Principal Axis módszer (f˝otengely)
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
22 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
F˝okomponens módszer: ˆ El˝oször is ∑Y -t S-sel becsüljük. Keressük D-ot, amelyre ˆD ˆ T + Sε S∼ =D újfent spektrálfb.-juk S-et: S = CECT ahol E: diag. s.é, C: s.vekt. Mivel E diag ⇒ négyzetgyököt vonhatunk, mert a f˝oátlóban 1 1 szórásnégyzetek állnak ⇒ S = CE 2 (E 2 )T CT ˆ = CE 12 , de ez még nem jó, mert n x n-es mártix. Na de Most lehetne D 1 ˆ = Cm Em2 ne az összes sajátvektort vegyük, csak az els˝o m-et: Cm D
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
23 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Tulajdonképp: az utolsó néhány f˝okomponenst zajnak tekintjük, és a változó egyéni variációjával "azonosítjuk". A dimenziók nem pontosak így a zajra, az ugyanis n rangú, míg az utsó PC-k (n-m) rangúak. Tehát összefüggés marad a zajban. Úgy t˝unhet, hogy az interpretáció ugyanaz, mint a PCA-nál, de most forgathatunk, míg a PCA-kat nincs értelme forgatni - elvesztik PC tulajdonságukat. (Más a cél!) (Tetsz˝oleges pozitív definit mátrix diagonálisba forgatható (vissza is!), de I-be már nem ⇒ a PC-kat forgatva kaphatok összefüggéseket, de a F-kat forgatva nem) Újfent használhatjuk a korreláció mátrixot helyett. Most ez teljesen osszeegyeztethet˝o az interpretációval.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
24 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Principal Factor vagy Principal Axis módszer (f˝otengely) El˝oször becsüljük meg a zajt, azt vonjuk ki, aztán a maradékból határozzuk meg a faktort. Nem a zajt, hanem annak kovariancia mátrixát, tehát az egyes változók specifikus varianciáit kell becsülnünk. 2 hˆ 1 s1,2 ··· s1,n .. SY − Sε = . 2 ˆ sm,1 · · · sm,n−1 hm ahol hˆ 2i a kommunalitások. Ezeket kell tehát becsülnünk.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
25 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
A kommunalitás becslése: sii az S−1 diagonálisának i-ik eleme hˆ 2i = sii − 1 = sii ∗ R2i (az utolsó egyenl˝oség megmutatható) sii
ahol R2i a squared multiple correlation (- a regresszióból) a maradék n-1 változóval. Hasonlóan korreláció mátrix esetén: hˆ 2i = 1 − r1ii = R2i az rii az R−1 diag.-nak i-ik eleme. Ez akkor jó, ha R nem szinguláris. Ha szinguláris, akkor használjuk az abszolút érték vektort a négyzetét a legnagyobb korreláltnak az i. sorban. Gyakran negatív sajátértékek is adódnak SY − Sε -ból. Ekkor a magyarázott variancia 1 fölé megy és aztán csökken vissza 1-re (normált esetben)
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
26 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Maximum likelihood Tfh Y1 , ..., Yn Nn (η, (∑Y )) ˆ Ekkor D és ∑ε ML becslése is lehetséges. Megmutatható, hogy ekkor D és Sε a következ˝ot elégíti ki: ˆ ˆ = D(I ˆ +D ˆ T Sε−1 D) SY Sε D T ˆ ˆ Sε = diag(SY − DD ) ˆ T Sε−1 D ˆ diagonális mátrix D Ezt kell iteratíve megoldani. Ez gyakran nem konvergál, vagy nem ad jó megoldást, a kommunalitások meghaladják 1-et.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
27 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
A faktorszám megváltozik ugyanaz a 4 lehet˝oség, mint a PCA-nál: 1
inkább PCA-ra mint FA-ra
2
A rutin a legtöbb softwareben
3
Elég jó a scree plot is, (gyakran) felfedhet bizonytalanságot m megváltozásában.
4
-ben H0 : ∑Y = DDT + ∑ε H1 : ∑Y 6= DDT + ∑ε akarjuk tesztelni.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
28 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
A teszt stat. likelihood hányadosból: ˆ ˆT
(p − 2n−2m+11 ) ∗ log( |D|SDY | | ) 6 | | a determináns. Ez közelít˝oleg χ 2 d ahol d = 21 [(n − m)2 − n − m] Ha H0 -t elutasítjuk ⇒ több faktor kell. Gyakorlatban gyakran túlbecsüli a faktorszámot.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
29 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Factor scores Itt is vannak score-k: F = BT Y + ε ∗ ε ∗ : ez másik! B elemei a Factor Scoreok. Becslése: Bˆ = (Y T Y)−1 Y T F regressziószer˝u (tulajdonképp az is).
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
30 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Forgatás Válasszuk T-t úgy, hogy minél könnyebben ért.het˝oek legyenek a faktorok. Azaz az egyes faktorok minél közelebb kerüljenek a megfigyelt változók valamelyikéhez, hogy annak hatásával azonosítható legyen. Így forgassunk:
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
31 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Varimax forgatás Olyan rotált loadingsokat keresünk, hogy a négyzetük varianciáját maximalizáljuk D∗ oszlopaiban. Az értelme: ha a faktorsúlyok mind egyenl˝oek lennének, a súlyok szórásnégyzete 0 lenne. Ha "szétdobáljuk" a súlyokat, a négyzetes súlyok 0-t, illetve 1-t közelítenek, a szórása n˝oni fog. ⇒ A varimax módszer megkísérli a súlyokat vagy kicsi, vagy nagyra választani, hogy segítse az interpretációt.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
32 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Változók csoportokba rendezése Egy-egy változó megfigyelése - egy pont ℜm -ben. Kell: távolság a pontok között: 1 2
euklideszi négyzetes euklideszi
Kell: távolság a csoportok között Pl: csoportok középpontjainak távolsága legközelebbi szomszédok távolsága legtávolabbi szomszédok távolsága Ward táv. a csoportokra ANOVA és a táv. a megfelel˝o szignifikancia szint (p-érték), amely mellett elutasítanánk a 0-hipotézist A cél: úgy csoportokra particionálni a megfigyelt változókat, hogy a csoportok távolsága maximális legyen (a legjobban elkülönüljenek).
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
33 / 34
Valószín˝uségszámítás és matematikai statisztika
Faktor Analízis
Távolságok a megfigyelések, mint ℜd -beli pontok között: q Euklideszi: ∑di=1 (xi − yi )2 Négyzetes Euklideszi: ∑di=1 (xi − yi )2 Progresszíven nagyobb súly a távolabbi objektumokra 1
Hatvány: (∑di=1 |xi − yi |p ) r Manhattan: ∑di=1 |xi − yi | Nem annyira outlier érzékeny Csebisev: Max|xi − yi | Ha valaki kül. bármely koord.-ban kül. Kül. százalék: xi 6=d yi ∗ 100% Jó, ha kategorikus vált. van.
Márkus László
F˝okomponens és Faktor analízis
2014. december 4.
34 / 34