Főkomponens és Faktor analízis

F˝okomponens és Faktor analízis Márkus László

2014. december 4.

Márkus László

F˝okomponens és Faktor analízis

2014. december 4.

1 / 34

Valószín˝uségszámítás és matematikai statisztika

Bevezetés - F˝okomponens és Faktoranalízis

A f˝okomponens és faktor analízis olyan statisztikai technika, amelyet változók halmazára alkalmazunk, hogy feltárjuk, közülük melyek tartalmaznak közös fluktuációs mintákat - akár csak részben, más fluktuációkkal kombináltan is -, és meghatározzuk ezeket a közös mintákat. Úgy gondoljuk általában, hogy egy-egy közös változékonyságminta valamilyen, a háttérben meghúzódó (látens) változó/folyamat hatásának eredményeként áll el˝o. E hatást a faktorváltozó reprezentálja. Mivel faktor az egyes megfigyelt változók közös additiv komponense (bár súlya az egyes változóban általában eltér˝o, akár 0 is lehet), így ez a megfigyelt változók korrelációjának forrása. A faktorok segítségével az összes megfigyelt változó változékonysága leírható, így ezek teljesen jellemzik megfigyeléseinketezért pusztán ezeket megtartva információvesztés nélkül csökkenthetjük (sokszor jelent˝osen) a változóink számát, azaz adatstruktúránk dimenzióját. Márkus László


2014. december 4.

2 / 34



Például: Hallgatók adatai: motiváció, intellektuális képességek, iskolatörténet, családtörténet, egészség, fizikai jellemz˝ok, személyiségjegyek. Mindegyiket több változóval is mérik. Néhány személyiségjegy, motivációs és iskolatörténeti változó mutathatja, hogy mennyire szeret önállóan dolgozni a hallgató, kombinálódhat egy önállósági faktorban. Mások egy intelligencia fatort adhatnak ki. STB. Talajvízszint mér˝o kutak adatainak fluktuációja f˝oként a csapadékból történ˝o utánpótlás, esetlegesen fólyóvízb˝ol oldalirányú betáplálás és a kommunális vízkivétel ered˝ojeként alakul, e három hatás kutak százainak adatait jellemezheti globálisan (és e hatások eltávolítása után határozhatók meg a lokális befolyásoló tényez˝ok).

Márkus László


2014. december 4.

3 / 34



A f˝okomponens analízis (Principal Component Analysis, PCA) a változók közötti variancia, míg a faktoranalízis (FA) inkább a korrelációs mintákat összegzi. A PCA (és a FA is) jelent˝osen csökkenti a változók számát. Bizonyos változók a kísérletek, megfigyelések során alig változnak ingadozásuk (szórásuk) kicsi, ezeket tehát nem tekintjük jellemz˝onek, elhagyhatjuk, ha tudjuk, melyek ezek. Ám gyakran nem ez vagy az a változó kis szórású, hanem pl. a kett˝o összege, vagy valamely más lineáris kombinációja. Ezeket keressük. Illetve inkább azokat, amelyeknek nagy a szórása, és ezért nem hagyhatók el. Az egész dolgot érdemes úgy is felfogni, hogy az X1 , ..., Xn minta egy N dimenziós teret feszít ki, ám még véletlenül sem ortogonális bázisként. Mi tehát adatainkat egy F1 , ..., Fn új, ortogonális bázisban szeretnénk felírni, melynek össz-hossznégyzete, azaz szórás2 -összege az eredetivel egyez˝o. Az új bázis Fi elemei az X1 , ..., Xn lineáris kombinációjaként állnak el˝o. Ha megvan F1 , ..., Fn , az utolsó néhányat (gyakran sokat) elhagyhatjuk. Márkus László


2014. december 4.

4 / 34


F˝okomponens analízis

Cél: Az els˝o f˝okomponens megtalálásához maximalizálni akarjuk a változók egy lineáris kombinációjának szórását. Lényegileg egy olyan irányt keresünk, amely mentén a változók maximálisan "szétterülnek", szétszóródnak. Általában ez különbözik a diszkriminancia analízis vagy a kanonikus korreláció által találat irányoktól. Néha a PCA a végcél, de máskor inputot generál további elemzéshez.

Márkus László


2014. december 4.

5 / 34



A kép

Eltoljuk a középpontot az új középpontba, majd beforgatjuk a tengelyeket. Márkus László


2014. december 4.

6 / 34



Tegyük fel, hogy a centrálás már megtörtént. A forgatás egy A ortogonális mátrixszal: AT A = I való szorzás. X az adataink mátrixa, Z a f˝okomponenseké Z = AX A ellipszoid tengelyeit megtalálni pont az A mátrix megtalálásával ekvivalens, amely úgy forgatja el a változókat, hogy azok korrelálatlanok legyenek, vagyis a variancia-kovariancia mátrix diagonális: SZ = diag(σZ21 , ..., σZ2p ) Másfel˝ol: SZ = EZZ T = E(AX)(AX)T = ASx AT Szimmetrikus mátrixok spektrálfelbontásának SX -re alkalmazásához vegyük az SX n db normált sajátvektorából (v1 , ..., vn )-b˝ol mint oszlopokból álló V mátrixot. Márkus László


2014. december 4.

7 / 34



Ekkor I = VVT ⇒ : SX = SX VVT = SX (v1 , ..., vn )VT = = (SX v1 , ..., SX vn )VT = (λ1 v1 , ..., λn vn )VT = VΛVT Ez a spektrálfelbontás, ahol Λ a sajátértékek diagonális mátrixa: Λ = diag(λ1 , ..., λn ). Innen SX = VΛVT miatt ⇒ VT SX V = VT VΛVT V = Λ Tehát az A = VT választással kapott Z = AX bázisváltozók SZ variancia-kovariancia mátrixa diagonális lesz, ahogy a f˝okomponensekét˝ol megkívántuk. A keresett forgatás tehát az A mátrixszal adható meg, az A meghatározásához pedig az SX sajátvektorainak és sajátértékeinek számítása szükséges. Márkus László


2014. december 4.

8 / 34



Egyszersmind az SX mátrix sajátértékei a f˝okomponensek szórás2 -ei is lesznek. Nagyságrend szerint rendezzük o˝ ket. SX és SZ nyoma (⇒ az összes szórás2 összege) megegyezik, ezért van értelme az els˝o k f˝okomponens által "megmagyarázott" varianciáról beszélni, ami Proportion of variance =

σZ2 +...+σZ2 1 k λ1 +...+λn

=

σZ2 +...+σZ2

1 k σX2 +...+σX2n 1

=

σZ2 +...+σZ2 1

k

σZ2 +...+σZ2n 1

Ha az eredeti változóink korreláltak (er˝osen), akkor az els˝o néhány f˝okomponens "sok" varianciát magyaráz, míg az utolsó (jó) néhány keveset, így ez utóbbiak akár el is dobhatóak. Tehát az els˝o néhányat megtartva redukálhatjuk a dimenziót, miközben meg˝orizzük a változékonyságot.

Márkus László


2014. december 4.

9 / 34



Ha függetlenek (vagy inkább korrelálatlanok) a változóink, akkor o˝ k maguk f˝okomponensek is ⇒ nincs mit keresni. Vigyázni kell a skálával. A f˝okomponensek nem skálainvariánsok. Ha g/l helyett mg/l-ben mérünk egy változót ⇒ jóval nagyobb lesz a súlya a f˝okomponensek el˝oállításában. A megoldás, hogy a kovariancia mátrix helyett a korrelációkkal dolgozunk, azaz pl. minden változónk szórását 1-re normáljuk. Megjegyzés: Eredetileg Z1 szórás2 -ét akartuk maximalizálni, aztán a rá ortogonális altérben Z2 -t, és így tovább. De Zi szórás2 -e: aT Sx a, és T tetsz˝oleges a-ra nincs maximum, ezért λ = aaTSXaa -t maximalizáljuk. λ1 a legnagyobb sajátérték az (SX − λ I)a = 0 egyenletben Itt nem kell invertálni ⇒ szinguláris SX mátrix is megengedhet˝o. (Ez természetesen algebrailag is ugyanazt a megoldást adja, mint el˝obb).

Márkus László


2014. december 4.

10 / 34



Elnevezések: faktor/f˝okomponens mátrix: F vagy Z = AX, j-ik faktor: Fj vagy Zj = ∑ni=1 ai,j Xi ai,j factor score coefficient A factor coefficient matrix  score  X (ω )   i 1   .. n Xi = .  , Zj (ωk ) = ∑i=1 ai,j Xi (ωk )    Xi (ωp )    Zj (ω1 ) → (Factor score)  . . Fj = Zj = .     Zj (ωp ) → (Factor score) (De S+ ban: Factor score coefficient matrix = loadings, Factor scores = scores)

Márkus László


2014. december 4.

11 / 34



Factor loadings matrix AT (most) Z = AX → AT Z = AT AX = X Tehát a faktorokból a megfigyeléseket visszaállíthatjuk. Ez nem érdekes addig, míg pontos az el˝oállítás, nincs zaj. F˝okomponens plotok Az els˝o két vagy néhány f˝okomponens score-jait scatterplotoljuk párosával. Ezek mutathatnak normalitást, esetleg nemlinearitást (ez már összefüggés, ami nem jó, mert a PC-k korrelálatlanok és igazából normális eloszlás alapfeltevés mellett ⇒ függetlenek is. Outlier is detektálható ezekb˝ol a plotokból, illeve csoportok is megfigyelhet˝oek az "eset"-ekben (az adatmátrix bizonyos sorai összetartozhatnak, csoportosulhatnak). Itt is igaz, hogy kovariancia mátrix helyett korrelációs mátrixból is lehet dolgozni. Ez ugyanaz, mintha normálnánk a változókat, megszabadulunk a skálázási problémától. Ez azonban nem mindig jogos! Márkus László


2014. december 4.

12 / 34



Például: 1 4 1 0.8 S= , míg a neki megfelel˝o korrelációs mátrix: R = 4 25 0.8 1 S-b˝ol λ1 = 25.65, λ2 = 0.35 ⇒ Az F1 98.6% szórást magyaráz F1 = 0.16X1 + 0.987X2 , vagyis F1 lényegileg X2 Ugyanez R-rel: λ1 = 1.8 λ2 = 0.2 Az F1 90% szórást magyaráz.

F1 = 0.707 · X1 + 0.141 · X2 tehát F1 sokkal inkább X1 , mint X2 .

Márkus László


2014. december 4.

13 / 34



Hány f˝okomponenst tartsunk meg? 4 lehet˝oség a döntésre: 1 2

Magyarázzák a szórás rögzített (pl 80) %-át Dobjuk azokat, melyek az átlagnál kisebb sajátértékhez tartoznak. λj ∑ξλn i ; Korrelációs mátrixra ez az átlag 1, tehát az 1-nél kisebb sajátértékhez tartozó f˝okomponenseket elhagyjuk.

3

Scree plot - k˝oomlás diagram. (nagyság szerint plottoljuk a sajátértékeket, és ahol az els˝o (vagy második) törést látjuk a közel lineáris csökkenésben, onnantól dobjuk a f˝okomponenseket.)

4

A nagyobb f˝okomponens szignifikanciáját formálisan teszteljük.

5

Értelmezés alapján, a társtudománnyal együttm˝uködve, ez nem statisztikai módszer, de hasznos lehet.

Márkus László


2014. december 4.

14 / 34



3. H0,k : λn−k+1 = · · · = λn = 0 λ¯ = 1k ∑ ni=n−k+1 log λi Teszt statisztika: n ¯ n = (p − 2n+11 6 )(k log(λ ) − ∑ i=n−k+1 log λi )

Ez közelít˝oleg χd2 , d = (k−1)(k+2) 2 Ez általában kissé túlbecsüli a megtartandó komponensek számát. 2. Scree-plot

Márkus László


2014. december 4.

15 / 34



4. Értelmezés A faktormegoldások elforgathatók - ett˝ol megoldások maradnak. A forgatás PCA-ra nem javasolt, csak FA-ra, de Principal Factorból gyakran ugyanazt kapjuk, mintha PCA-t forgattunk volna. Az új, forgatott megoldás már korrelál és nem a maximális varianciát határozza meg. Úgy forgatjuk a megoldást, hogy minél több együttható a lineáris kombinációban 0 legyen, így könnyebb értelmezni a megoldást, mert az eredeti változókból csak keveset használunk így fel egy-egy faktor meghatározásához ⇒ a különböz˝o faktorok más és más mért változót tartalmaznak (nagy súllyal).

Márkus László


2014. december 4.

16 / 34


Faktor Analízis

A FA-ban a változókat reprezentálni akarjuk, mint néhány (jóval kevesebb) másik változó (a faktorok) lineáris kombinációja. A faktort általában nem lehet mérni, vagy megfigyelni. Rencher szerint a FA különbözik a PCA-tól, mert 1

2

A PC-k az eredeti változók lineáris kombinációi, míg a FA-ban az eredeti változókat fejezzük ki a faktorok lineáris kombinációival. PCA-ban az összes variancia nagy részét magyarázzuk, míg FA-ban a változók közötti kovarianciákat szeretnénk a legjobban reprodukálni.

Több statisztikus nem szereti - a régebbi számítási módszerek gyakran adtak ellentmondó eredményeket, ezeket ma nem használják. A számítógépes módszerek ma már konsztensebbek. Azonban így is meglehet˝osen szubjektív az elfogadott modell, de ez egyúttal az alkalmazó szabadsága is, a módszer "bája" akár.

Márkus László


2014. december 4.

17 / 34


Faktor Analízis

A faktormodell egyenlet Y = DF + ε Most Y a megfigyelés. Y helyett Y − µ áll(hat), ezért tegyük fel, hogy µ = 0. F a faktorok, ε a zaj, D a factor loadings mátrix. ε és DF korrelálatlan, a faktorok maguk (F oszlopai) ugyanacsak korrelálatlanok - normálisra függetlenek, és az Fj -ket 1 szórásúnak feltételezzük. Ezért: ∑Y = cov(DF + ε) = cov(DF) + covε = E(DFF T DT ) + ∑ε = DDT + ∑ε Lényeges, hogy D nem négyetes mátrix, több sora van, mint oszlopa, 2 , · · · , σ 2 . Így m db faktorunk van. F = (F , · · · , F ) míg ∑ε diag(σ1,ε m 0 n,ε

Márkus László


2014. december 4.

18 / 34


Faktor Analízis

Ez a felbontás nem feltétlen létezik m >> n-re. De a lényeg, hogy FA-ban ezt keressük, ezt értjük azon, hogy szórásmátrixot szeretnénk minél jobban reprodukálni, kisebb dimenzióból. A faktormegoldás nem egyértelm˝u: ugyanis, ha van egy megoldás tetsz˝oleges m x m-es forgatással: TT T = I ∑Y = DTT T DT + ∑ε = = DDT + ∑ε tehát: Y = DTF + ε is jól reprodukálja a szórásmátrixot, így F ? = TF -fel, mint új faktorokkal: Y = DF ∗ + ε és mivel T ortogonális, így F ∗ is faktor tulajdonságú. Márkus László


2014. december 4.

19 / 34


Faktor Analízis

A FA modell szerint minden változó varianciáját a faktorok varianciája magyarázza bizonyos mértékig, és van egy, a zajból származó saját, specifikus varianciája. A faktorok által magyarázott "arány" az úgynevezett kommunalitás, ez 2 + ... + d 2 h2i = di,1 i,m

a D mátrix i-ik sorának négyzetösszege.

Márkus László


2014. december 4.

20 / 34


Faktor Analízis

Mivel a faktorok korrelálatlanok és standardek, ezért 2 h2i = ∑m j=1 cov(Yi , Fj ) = m 2 = D (∑j=1 dij Fj )

A kommunalitások nem változnak a megoldás forgatásával. Megjegyzés: hi nem más, mint az i-ik sor faktorsúly vektorának hossza az ℜm -ben. Az a jó, ha közel van 1-hez.

Márkus László


2014. december 4.

21 / 34


Faktor Analízis

A faktormegoldás el˝oállítása 1

F˝okomponens módszer

2

Principal Factor vagy Principal Axis módszer (f˝otengely)

Márkus László


2014. december 4.

22 / 34


Faktor Analízis

F˝okomponens módszer: ˆ El˝oször is ∑Y -t S-sel becsüljük. Keressük D-ot, amelyre ˆD ˆ T + Sε S∼ =D újfent spektrálfb.-juk S-et: S = CECT ahol E: diag. s.é, C: s.vekt. Mivel E diag ⇒ négyzetgyököt vonhatunk, mert a f˝oátlóban 1 1 szórásnégyzetek állnak ⇒ S = CE 2 (E 2 )T CT ˆ = CE 12 , de ez még nem jó, mert n x n-es mártix. Na de Most lehetne D 1 ˆ = Cm Em2 ne az összes sajátvektort vegyük, csak az els˝o m-et: Cm D

Márkus László


2014. december 4.

23 / 34


Faktor Analízis

Tulajdonképp: az utolsó néhány f˝okomponenst zajnak tekintjük, és a változó egyéni variációjával "azonosítjuk". A dimenziók nem pontosak így a zajra, az ugyanis n rangú, míg az utsó PC-k (n-m) rangúak. Tehát összefüggés marad a zajban. Úgy t˝unhet, hogy az interpretáció ugyanaz, mint a PCA-nál, de most forgathatunk, míg a PCA-kat nincs értelme forgatni - elvesztik PC tulajdonságukat. (Más a cél!) (Tetsz˝oleges pozitív definit mátrix diagonálisba forgatható (vissza is!), de I-be már nem ⇒ a PC-kat forgatva kaphatok összefüggéseket, de a F-kat forgatva nem) Újfent használhatjuk a korreláció mátrixot helyett. Most ez teljesen osszeegyeztethet˝o az interpretációval.

Márkus László


2014. december 4.

24 / 34


Faktor Analízis

Principal Factor vagy Principal Axis módszer (f˝otengely) El˝oször becsüljük meg a zajt, azt vonjuk ki, aztán a maradékból határozzuk meg a faktort. Nem a zajt, hanem annak kovariancia mátrixát, tehát az egyes változók specifikus varianciáit kell becsülnünk.  2  hˆ 1 s1,2 ··· s1,n   .. SY − Sε =   . 2 ˆ sm,1 · · · sm,n−1 hm ahol hˆ 2i a kommunalitások. Ezeket kell tehát becsülnünk.

Márkus László


2014. december 4.

25 / 34


Faktor Analízis

A kommunalitás becslése: sii az S−1 diagonálisának i-ik eleme hˆ 2i = sii − 1 = sii ∗ R2i (az utolsó egyenl˝oség megmutatható) sii

ahol R2i a squared multiple correlation (- a regresszióból) a maradék n-1 változóval. Hasonlóan korreláció mátrix esetén: hˆ 2i = 1 − r1ii = R2i az rii az R−1 diag.-nak i-ik eleme. Ez akkor jó, ha R nem szinguláris. Ha szinguláris, akkor használjuk az abszolút érték vektort a négyzetét a legnagyobb korreláltnak az i. sorban. Gyakran negatív sajátértékek is adódnak SY − Sε -ból. Ekkor a magyarázott variancia 1 fölé megy és aztán csökken vissza 1-re (normált esetben)

Márkus László


2014. december 4.

26 / 34


Faktor Analízis

Maximum likelihood Tfh Y1 , ..., Yn Nn (η, (∑Y )) ˆ Ekkor D és ∑ε ML becslése is lehetséges. Megmutatható, hogy ekkor D és Sε a következ˝ot elégíti ki: ˆ ˆ = D(I ˆ +D ˆ T Sε−1 D) SY Sε D T ˆ ˆ Sε = diag(SY − DD ) ˆ T Sε−1 D ˆ diagonális mátrix D Ezt kell iteratíve megoldani. Ez gyakran nem konvergál, vagy nem ad jó megoldást, a kommunalitások meghaladják 1-et.

Márkus László


2014. december 4.

27 / 34


Faktor Analízis

A faktorszám megváltozik ugyanaz a 4 lehet˝oség, mint a PCA-nál: 1

inkább PCA-ra mint FA-ra

2

A rutin a legtöbb softwareben

3

Elég jó a scree plot is, (gyakran) felfedhet bizonytalanságot m megváltozásában.

4

-ben H0 : ∑Y = DDT + ∑ε H1 : ∑Y 6= DDT + ∑ε akarjuk tesztelni.

Márkus László


2014. december 4.

28 / 34


Faktor Analízis

A teszt stat. likelihood hányadosból: ˆ ˆT

(p − 2n−2m+11 ) ∗ log( |D|SDY | | ) 6 | | a determináns. Ez közelít˝oleg χ 2 d ahol d = 21 [(n − m)2 − n − m] Ha H0 -t elutasítjuk ⇒ több faktor kell. Gyakorlatban gyakran túlbecsüli a faktorszámot.

Márkus László


2014. december 4.

29 / 34


Faktor Analízis

Factor scores Itt is vannak score-k: F = BT Y + ε ∗ ε ∗ : ez másik! B elemei a Factor Scoreok. Becslése: Bˆ = (Y T Y)−1 Y T F regressziószer˝u (tulajdonképp az is).

Márkus László


2014. december 4.

30 / 34


Faktor Analízis

Forgatás Válasszuk T-t úgy, hogy minél könnyebben ért.het˝oek legyenek a faktorok. Azaz az egyes faktorok minél közelebb kerüljenek a megfigyelt változók valamelyikéhez, hogy annak hatásával azonosítható legyen. Így forgassunk:

Márkus László


2014. december 4.

31 / 34


Faktor Analízis

Varimax forgatás Olyan rotált loadingsokat keresünk, hogy a négyzetük varianciáját maximalizáljuk D∗ oszlopaiban. Az értelme: ha a faktorsúlyok mind egyenl˝oek lennének, a súlyok szórásnégyzete 0 lenne. Ha "szétdobáljuk" a súlyokat, a négyzetes súlyok 0-t, illetve 1-t közelítenek, a szórása n˝oni fog. ⇒ A varimax módszer megkísérli a súlyokat vagy kicsi, vagy nagyra választani, hogy segítse az interpretációt.

Márkus László


2014. december 4.

32 / 34


Faktor Analízis

Változók csoportokba rendezése Egy-egy változó megfigyelése - egy pont ℜm -ben. Kell: távolság a pontok között: 1 2

euklideszi négyzetes euklideszi

Kell: távolság a csoportok között Pl: csoportok középpontjainak távolsága legközelebbi szomszédok távolsága legtávolabbi szomszédok távolsága Ward táv. a csoportokra ANOVA és a táv. a megfelel˝o szignifikancia szint (p-érték), amely mellett elutasítanánk a 0-hipotézist A cél: úgy csoportokra particionálni a megfigyelt változókat, hogy a csoportok távolsága maximális legyen (a legjobban elkülönüljenek).

Márkus László


2014. december 4.

33 / 34


Faktor Analízis

Távolságok a megfigyelések, mint ℜd -beli pontok között: q Euklideszi: ∑di=1 (xi − yi )2 Négyzetes Euklideszi: ∑di=1 (xi − yi )2 Progresszíven nagyobb súly a távolabbi objektumokra 1

Hatvány: (∑di=1 |xi − yi |p ) r Manhattan: ∑di=1 |xi − yi | Nem annyira outlier érzékeny Csebisev: Max|xi − yi | Ha valaki kül. bármely koord.-ban kül. Kül. százalék: xi 6=d yi ∗ 100% Jó, ha kategorikus vált. van.

Márkus László


2014. december 4.

34 / 34

Főkomponens és Faktor analízis

Recommend Documents