´ UNIVERZITA PALACKEHO V OLOMOUCI ˇ´ ˇ ´ FAKULTA PR IRODOVEDECK A ´ ANALYZY ´ KATEDRA MATEMATICKE A APLIKAC´I MATEMATIKY
´ RSK ˇ ´ PRACE ´ BAKALA A Biplot a jeho aplikace
Vedouc´ı bakal´aˇrsk´e pr´ace: RNDr. Karel Hron, Ph.D. Rok odevzd´an´ı: 2010
Vypracovala: Alˇ zbˇ eta Kalivodov´ a Aplikovan´a statistika, III. roˇcn´ık
Prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem vytvoˇrila tuto diplomovou pr´aci samostatnˇe pod veden´ım RNDr. Karla Hrona, Ph.D. a ˇze jsem v seznamu pouˇzit´e literatury uvedla vˇsechny zdroje pouˇzit´e pˇri zpracov´an´ı pr´ace.
V Olomouci dne 30. bˇrezna 2010
Podˇ ekov´ an´ı R´ada bych na tomto m´ıstˇe podˇekovala vedouc´ımu bakal´aˇrsk´e pr´ace RNDr. Karlu Hronovi, Ph.D. za obˇetavou spolupr´aci i za ˇcas, kter´ y mi vˇenoval pˇri konzultac´ıch. D´ale bych r´ada podˇekovala vˇsem sv´ ym bl´ızk´ ym, ˇze se mnou mˇeli trpˇelivost, a tak´e sv´emu poˇc´ıtaˇci.
Obsah ´ Uvod
4
1 Poznatky z teorie matic 1.1 Z´akladn´ı pojmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Singul´arn´ı rozklad matice . . . . . . . . . . . . . . . . . . . . . .
5 5 5
ˇ ıseln´ 2 C´ e charakteristiky n´ ahodn´ eho vektoru 2.1 Teoretick´e a v´ ybˇerov´e charakteristiky n´ahodn´eho vektoru . . . . . 2.2 Mahalanobisova vzd´alenost . . . . . . . . . . . . . . . . . . . . . .
8 8 10
3 Metoda hlavn´ıch komponent ´ 3.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Hlavn´ı komponenty ve v´ ybˇeru . . . . . . . . . . . . . . . . . . . .
12 12 15
4 Konstrukce biplotu
17
5 Pˇ r´ıklady 5.1 Studenti . . . . . . . . . . . . . . 5.2 Zemˇedˇelstv´ı . . . . . . . . . . . . 5.2.1 Zemˇedˇelstv´ı s bramborami 5.2.2 Zemˇedˇelstv´ı bez brambor . 5.2.3 Zemˇedˇelstv´ı ˇsk´alovan´e . . 5.3 Inteligence a tˇelesn´e proporce . . 5.4 Cigarety a rakovina v USA . . . .
22 22 24 25 26 27 29 31
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Z´ avˇ er Pˇr´ıloha A: V´ ysledky student˚ u prvn´ıho roˇcn´ıku vysok´e ˇskoly technick´eho smˇeru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pˇr´ıloha B: Hektarov´e v´ ynosy skliznˇe hlavn´ıch zemˇedˇelsk´ ych plodin . . . Pˇr´ıloha C: Pˇreˇsk´alovan´a tabulka Hektarov´e v´ ynosy . . . . . . . . . . . Pˇr´ıloha D: IQ a tˇelesn´e proporce student˚ u Jihoz´apadn´ı univerzity . . . Pˇr´ıloha E: Poˇcet vykouˇren´ ych cigaret a v´ yskyt 4 druh˚ u rakoviny ve vybran´ ych st´atech USA . . . . . . . . . . . . . . . . . . . . . . . . . Pˇr´ıloha F: Mapa Spojen´ ych st´at˚ u americk´ ych . . . . . . . . . . . . . .
35
Literatura
42
36 38 38 39 40 41
´ Uvod ´ Ukolem t´eto pr´ace je popsat vlastnosti biplotu jako v souˇcasnosti hojnˇe uˇz´ıvan´eho grafick´eho n´astroje mnohorozmˇern´e statistick´e anal´ yzy. Biplot se totiˇz ˇcasto uˇz´ıv´a i pˇri statistick´e anal´ yze speci´aln´ıch typ˚ u dat, napˇr´ıklad tzv. kompoziˇcn´ıch dat, nesouc´ıch pouze relativn´ı informaci. V prvn´ı kapitole pˇripomeneme nˇekter´e poznatky z teorie matic, vˇcetnˇe tzv. singul´arn´ıho rozkladu matice. Tyto znalosti se n´am budou hodit pˇri dalˇs´ıch v´ ypoˇctech. D´ale uvedeme vybran´e ˇc´ıseln´e charakteristiky n´ahodn´eho vektoru a Mahalanobisovu vzd´alenost. V n´asleduj´ıc´ı kapitole se sezn´am´ıme s metodou hlavn´ıch komponent, a to jak v jej´ı teoretick´e, tak i ve v´ ybˇerov´e podobˇe. Tato mnohorozmˇern´a statistick´a metoda je totiˇz z´akladem pro tvorbu samotn´eho biplotu hlavn´ıho t´ematu t´eto pr´ace. Z´avˇereˇcnou, nem´enˇe d˚ uleˇzitou, ˇca´st´ı budou pˇr´ıklady z oblasti aplikac´ı. Toto t´ema jsem si vybrala hned z nˇekolika d˚ uvod˚ u. Statistika je m´ ym hlavn´ım oborem a biplot se mi zd´a zaj´ımav´ ym, a podle mˇe nedocenˇen´ ym, n´astrojem explorativn´ı anal´ yzy dat. Protoˇze je biplot pomˇernˇe novou grafickou technikou, c´ıtila jsem t´eˇz potˇrebu napomoci jeho rozˇs´ıˇren´ı do obecn´eho povˇedom´ı. Mysl´ım si totiˇz, ˇze v´ ysledn´ y v´ ystup je dobˇre ˇciteln´ y i pro matematick´eho laika.
4
1
Poznatky z teorie matic
1.1
Z´ akladn´ı pojmy
Nejprve se sezn´am´ıme s nˇekter´ ymi z´akladn´ımi vlastnostmi matic, kter´e budeme d´ale potˇrebovat pˇri samotn´e konstrukci a odvozov´an´ı biplotu. Zejm´ena si pˇripomeneme, co je to singul´arn´ı rozklad matice a osvˇetl´ıme nˇekter´e jeho vlastnosti. Pˇri tvorbˇe t´eto kapitoly byly informace ˇcerp´any zejm´ena z [9], [11], [14]. Definice 1.1. Necht’ u = (u1 , . . . , up )T a v = (v1 , . . . , vp )T jsou p-sloˇzkov´e re´aln´e sloupcov´e vektory, tedy u, v ∈ Rp . ˇ Rekneme, ˇze u a v jsou ortogon´aln´ı, jestliˇze plat´ı uT v = 0. Vektory u, v jsou ortonorm´aln´ı, jestliˇze uT v = 0 a z´aroveˇ n pro jejich euklidovskou normu plat´ı q pPp 2 ||u|| = ||v|| = v12 + . . . + vp2 = i=1 vi = 1. Definice 1.2. Re´alnou ˇctvercovou matici A naz´yv´ame ortogon´aln´ı, jestliˇze plat´ı AT A = AAT = I, kde I je jednotkov´a matice pˇr´ısluˇsn´eho ˇr´adu, tj. jestliˇze jsou jej´ı sloupce vz´ajemnˇe ortonorm´aln´ı vektory. Definice 1.3. ˇ 1. Ctvercovou matici A stupnˇe n naz´yv´ame pozitivnˇe definitn´ı, je-li symetrick´a a plat´ı-li pro kaˇzd´y nenulov´y vektor x nerovnost xT Ax > 0. Znaˇc´ıme A > 0. ˇ 2. Ctvercovou matici A stupnˇe n naz´yv´ame pozitivnˇe semidefinitn´ı, je-li symetrick´a a plat´ı-li pro libovoln´y vektor x nerovnost xT Ax ≥ 0. Znaˇc´ıme A ≥ 0.
1.2
Singul´ arn´ı rozklad matice
Mˇejme d´anu re´alnou matici X o rozmˇerech n × p, zapisujeme Xn,p , a d´ale Un,n , Dn,p a Vp,p . Matici X lze rozloˇzit na souˇcin X = UDVT , 5
(1.1)
kde U a V jsou ortogon´aln´ı matice. Tento vztah vˇcetnˇe znaˇcen´ı byl pˇrevzat z [4] (str. 64, vztah 6.1). Poznamenejme, ˇze pro matice U a V tedy plat´ı UUT = UT U = I a VVT = VT V = I.
(1.2)
D´ale D je matice nez´aporn´ ych, tzv. singul´arn´ıch, hodnot. Ty se nach´azej´ı na hlavn´ı diagon´ale a jsou uspoˇra´d´any sestupnˇe. Tedy d11 ≥ d22 ≥ · · · ≥ dkk ≥ 0 kde k = min(n, p);
(1.3)
pˇritom prvky mimo hlavn´ı diagon´alu jsou rovny nule. Maticovˇe obdrˇz´ıme (v pˇr´ıpadˇe n > p)
d11 0 . 0 .. 0 0 D= 0 0 . . .. .. 0 0
0
0 dpp . 0 .. .
(1.4)
0
M˚ uˇzeme ˇr´ıci, ˇze matice X o rozmˇerech n × p m´a maxim´alnˇe k = min(n, p) r˚ uzn´ ych singul´arn´ıch hodnot. Sloupce matice U se naz´ yvaj´ı sk´ory (scores), odpov´ıdaj´ıc´ı sloupce matice V se naz´ yvaj´ı z´atˇeˇze (loadings). Sloupce pˇr´ısluˇsn´ ych matic budeme znaˇcit ui , resp. vj , i = 1, . . . , n; j = 1, . . . , p. Singul´arn´ı hodnoty maj´ı potom vypov´ıdaj´ıc´ı ˇ ım bl´ıˇze k nule je ˇc´ıslo dii pro i = 1, 2, . . . , k, t´ım maj´ı funkci o jejich vztahu. C´ odpov´ıdaj´ıc´ı sk´ory a z´atˇeˇze v celkov´em rozkladu menˇs´ı vliv. Pˇeknˇe je toto vidˇet, zap´ıˇseme-li rozklad X pomoc´ı diagon´aln´ıch prvk˚ u matice D a sloupc˚ u matic U, V,
Xn,p = u1 d11 v1 + u2 d22 v2 + · · · + uk dkk vk =
k X
dii ui viT .
(1.5)
i=1
Kladn´e hodnoty dii pro i = 1, 2, . . . , k budeme naz´ yvat cenn´e hodnoty matice X. Pˇritom plat´ı 6
Xvi = dii ui
a
XT ui = dii vi ,
i = 1, . . . , k.
(1.6)
Singul´arn´ı hodnoty se pˇritom mˇen´ı se zmˇenou prvk˚ u matice X. Napˇr´ıklad, pokud vyn´asob´ıme vˇsechny prvky t´eto matice dvˇema, normovan´e velikosti prvk˚ u U a V se nezmˇen´ı, ale singul´arn´ı hodnoty budou dvakr´at vˇetˇs´ı. Singul´arn´ı hodnoty dii jsou vlastnˇe odmocnˇen´a vlastn´ı ˇc´ısla ˇctvercov´ ych matic XXT a XT X, jak si uk´aˇzeme za chv´ıli.
Souˇcin sk´oru a pˇr´ısluˇsn´e singul´arn´ı hodnoty se naz´ yv´a hlavn´ı komponenta (principal component). Rozklad ˇctvercov´ ych matic X XT a XT X tedy potom vede k tzv. metodˇe hlavn´ıch komponent. Tou se budeme podrobnˇe zab´ yvat ve tˇret´ı kapitole. Zm´ın´ıme se o rozkladu matic XXT a XT X podrobnˇeji: XXT = UDVT VDT UT = U(DDT )UT ,
(1.7)
XT X = VDT UT UDVT = V(DT D)VT ,
(1.8)
tedy sloupce matice U jsou vlastn´ı vektory matice XXT a sloupce matice V jsou vlastn´ı vektory matice XT X. Jin´ y z´apis, ze kter´eho je toto zˇretelnˇejˇs´ı: XXT ui = d2ii ui
pro i = 1, . . . , k = min(n, p),
(1.9)
XT Xvi = d2ii vi
pro i = 1, . . . , k = min(n, p).
(1.10)
Poznamenejme, ˇze ve statistice matice X ˇcasto pˇredstavuje tzv. datovou matici. Jej´ı ˇra´dky jsou tvoˇreny n objekty, na nichˇz jsme zmˇeˇrili hodnoty p statistick´ ych znak˚ u.
7
ˇ ıseln´ C´ e charakteristiky n´ ahodn´ eho vektoru
2 2.1
Teoretick´ e a v´ ybˇ erov´ e charakteristiky n´ ahodn´ eho vektoru
Neˇz postoup´ıme d´ale, uvedeme si z´akladn´ı ˇc´ıseln´e charakteristiky n´ahodn´eho vektoru. Na konci kapitoly jeˇstˇe pˇripomeneme pojem Mahalanobisovy vzd´alenosti. Hlavn´ım zdrojem pˇri tvorbˇe t´eto kapitoly byly knihy [2], [3], [8] a internetov´e str´anky [10].
Definice 2.1. Necht’ je d´an n´ahodn´y vektor X = (X1 , . . . , Xp )T na pravdˇepodobnostn´ım prostoru (Ω, A, P) a necht’ existuj´ı stˇredn´ı hodnoty E(X1 ), . . . , E(Xp ) jeho sloˇzek. Pak se vektor E(X) = (E(X1 ), . . . , E(Xp ))T naz´yv´a stˇredn´ı hodnota n´ahodn´eho vektoru X. Tuto definici m˚ uˇzeme tak´e interpretovat tak, ˇze stˇredn´ı hodnota n´ahodn´eho vektoru X = (X1 , . . . , Xp )T je vektor stˇredn´ıch hodnot jeho sloˇzek (n´ahodn´ ych veliˇcin X1 , . . . , Xp ). Poznamenejme, ˇze E(X − E(X)) = 0. Tato zˇrejm´a vlastnost je teoretick´ ym podkladem pro tzv. centrov´an´ı dat v popisn´e statistice, kdy od kaˇzd´eho sloupce (hodnot znaku) v datov´e matici odeˇcteme pr˚ umˇer hodnot znaku. Obdobnˇe definujeme stˇredn´ı hodnotu matice Xn,p , jej´ıˇz prvky jsou n´ahodn´e veliˇciny,
X11 · · · X1p E(X11 ) · · · E(X1p ) E(X) = E · · · · · · · · · = · · · · · · · · · . Xn1 · · · Xnp E(Xn1 ) · · · E(Xnp )
(2.1)
Definice 2.2. Necht’ m´a n´ahodn´y vektor X koneˇcn´e druh´e momenty. Potom m˚ uˇzeme definovat kovarianci sloˇzek (n´ahodn´ych veliˇcin) Xi a Xj jako cov(Xi , Xj ) = E(Xi − E(Xi ))(Xj − E(Xj )), i, j = 1, . . . , p. 8
Pro i = j je kovariance zˇrejmˇe rovna rozptylu, tedy cov(Xi , Xi ) = var(Xi ). ˇ Definice 2.3. Ctvercov´ a matice ˇr´adu n var(X) = cov(Xi , Xj )ni,j=1 se naz´yv´a varianˇcn´ı matice. Vˇ eta 2.1. Varianˇcn´ı matice je symetrick´a a pozitivnˇe semidefinitn´ı. D˚ ukaz:
Symetrie je zˇreteln´a z maticov´eho z´apisu
var(X1 ) cov(X1 , X2 ) cov(X2 , X1 ) var(X2 ) var(X) = ··· ··· cov(Xn , X1 ) cov(Xn , X2 )
· · · cov(X1 , Xn ) · · · cov(X2 , Xn ) ; .. . ··· · · · var(Xn )
v´ıme totiˇz, ˇze cov(Xi , Xj ) = cov(Xj , Xi ), i, j = 1, . . . , n. Pro d˚ ukaz pozitivn´ı semidefinitnosti zvolme libovoln´ y vektor c = (c1 , . . . , cn )T . Rozptyl kaˇzd´e n´ahodn´e veliˇciny je nenulov´ y, nenulov´ y je tak´e rozptyl veliˇciny cT X. Pouˇzijeme vlastnosti varianˇcn´ı matice line´arn´ı transformace ˇc´ıseln´ ym vektorem a ∈ Rm a ˇc´ıselnou matic´ı Bm,n , var(a+BX) = Bvar(X)BT , tedy var(cT X) = cT var(X)c ≥ 0. D˚ ukaz t´eto vˇety je pˇrevzat z [2], str. 39, d˚ ukaz vˇety 3.3. 2 Varianˇcn´ı matice m˚ uˇze b´ yt definov´ana i ”maticovˇe” jako h
T
var(X) = E (X − E(X))(X − E(X))
i
= E(XXT ) − (E(X))(E(X))T .
(2.2)
Situace v matematick´e statistice je opaˇcn´a neˇz v teorii pravdˇepodobnosti, kde spoleˇcnˇe s n´ahodn´ ym vektorem zn´ame i jeho ˇc´ıseln´e charakteristiky. Zde vych´az´ıme z p-rozmˇern´eho n´ahodn´eho v´ ybˇeru X1 , . . . , Xn z rozdˇelen´ı vektoru X a pomoc´ı vhodn´ ych statistik se snaˇz´ıme co nejl´epe odhadnout skuteˇcnou hodnotu E(X), respektive var(X). Tedy pracujeme s p promˇenn´ ymi zjiˇstˇen´ ymi u n n´ahodnˇe vybran´ ych objekt˚ u. Pˇr´ısluˇsn´e teoretick´e charakteristiky oznaˇcme µ , Σ , tedy µ = E(X), Σ = var(X).
9
Definice 2.4. Vektor aritmetick´ych pr˚ umˇer˚ u jednotliv´ych sloˇzek n´ahodn´ych vektor˚ u X1 , . . . , Xn z p-rozmˇern´eho n´ahodn´eho v´ybˇeru z rozdˇelen´ı vektoru X, n
X ¯ = 1 Xi , X n i=1 se naz´yv´a v´ybˇerov´a stˇredn´ı hodnota. D´ale si zavedeme tzv. Wishartovu matici, kter´a je v teorii mnohorozmˇern´e statistick´e anal´ yzy velmi obl´ıben´a. Tato matice je ˇctvercov´a ˇra´du p, symetrick´a a m´a tvar
W=
n X
T
¯ ¯ (Xi − X)(X i − X) =
i=1
n X
¯X ¯T. Xi XTi − nX
(2.3)
i=1
Odhadem varianˇcn´ı matice var(X) je v´ ybˇerov´a varianˇcn´ı matice S. Definice 2.5. Necht’ m´ame d´an n´ahodn´y v´ybˇer X1 , . . . , Xn z rozdˇelen´ı vektoru X. V´ybˇerovou varianˇcn´ı matic´ı nazveme matici S n
1 X 1 1 ¯ ¯ T W= (Xi − X)(X S= i − X) = n−1 n − 1 i=1 n−1
X n
Xi XTi
T ¯ ¯ − n XX .
i=1
Vˇ eta 2.2. Necht’ m´ame d´an n´ahodn´y v´ybˇer X1 , . . . , Xn z rozdˇelen´ı, kter´e m´a stˇredn´ı hodnotu µ a varianˇcn´ı matici Σ . Potom plat´ı ¯ = µ, ¯ = 1 Σ, E(X) var(X) E(S) = Σ . n D˚ ukaz:
2.2
D˚ ukaz je uveden v [2], str. 68, d˚ ukaz vˇety 5.2. 2
Mahalanobisova vzd´ alenost
Mahalanobisova vzd´alenost byla zavedena roku 1936 indick´ ym matematikem P.C. Mahalanobisem. Je uˇz´ıv´ana pˇredevˇs´ım ve sv´e v´ ybˇerov´e podobˇe, kdy jej´ı realizace vyjadˇruje vzd´alenost pozorov´an´ı Xi od centra distribuce datov´eho sou¯ vzhledem ke kovarianˇcn´ı boru, vyj´adˇren´eho pomoc´ı v´ ybˇerov´e stˇredn´ı hodnoty X, struktuˇre, dan´e v´ ybˇerovou varianˇcn´ı matic´ı S. 10
Definice 2.6. Mˇejme X = (X1 , . . . , Xp )T n´ahodn´y vektor, kter´y m´a stˇredn´ı hodnotu µ a varianˇcn´ı matici Σ . Mahalanobisova vzd´alenost je definov´ana vztahem q DM (X) = (X − µ )T Σ −1 (X − µ ). Mahalanobisova vzd´alenost m˚ uˇze b´ yt tak´e definov´ana jako vzd´alenost dvou r˚ uzn´ ych n´ahodn´ ych vektor˚ u X a Y, kter´e maj´ı stejn´e rozdˇelen´ı s varianˇcn´ı matic´ı Σ: q DM (X, Y) = (X − Y)T Σ −1 (X − Y).
(2.4)
Jak jiˇz bylo ˇreˇceno na zaˇca´tku, nejpouˇz´ıvanˇejˇs´ı je Mahalanobisova vzd´alenost ve sv´e v´ ybˇerov´e formˇe q ¯ T S−1 (Xi − X). ¯ DM (Xi ) = (Xi − X)
11
(2.5)
3
Metoda hlavn´ıch komponent
3.1
´ Uvod
Jak si uk´aˇzeme v dalˇs´ı kapitole, metoda hlavn´ıch komponent je z´akladem pro konstrukci biplotu. Jej´ım tv˚ urcem je Karl Pearson (1901). C´ılem t´eto metody je zredukovat dimenzi mnohorozmˇern´ ych dat tak, aby se stala jednoduch´ ymi a dobˇre ˇciteln´ ymi, ale abychom touto redukc´ı ztratili co nejm´enˇe informace. Data se zobrazuj´ı skrze hlavn´ı komponenty, coˇz jsou skryt´e veliˇciny, kter´e vysvˇetluj´ı jejich variabilitu a vz´ajemnou z´avislost. Ve sv´e teoretick´e podobˇe jsou hlavn´ı komponenty vlastnˇe line´arn´ı kombinace p˚ uvodn´ıch sloˇzek n´ahodn´eho vektoru. Pˇri t´eto metodˇe nejsou data nijak ˇclenˇena, ale posuzujeme je jako rovnocenn´e. Pˇri tvorbˇe hlavn´ıch komponent vych´az´ıme ze singul´arn´ıho rozkladu, kter´ y jsme si popsali v prvn´ı kapitole. Pˇri zpracov´an´ı t´eto kapitoly bylo ˇcerp´ano zejm´ena z [1], [4], [7]. Mˇejme X = (X1 , . . . , Xp )T n´ahodn´ y vektor s rozdˇelen´ım, kter´e m´a stˇredn´ı hodnotu E(X) = µ a pozitivnˇe semidefinitn´ı varianˇcn´ı matici Σ = var(X) = E[(X − µ )(X − µ )T ].
(3.1)
D´ale je d´ana matice G = (g1 , . . . , gp ) , kde g1 , . . . , gp jsou ortonorm´aln´ı vlastn´ı vektory matice Σ . Plat´ı pro nˇe tedy giT gj = 0 pro i 6= j
a giT gi = 1 pro i, j = 1, . . . , p,
(3.2)
tedy matice G je ortogon´aln´ı. Hlavn´ı komponenty jsou vyj´adˇreny pomoc´ı n´ahodn´eho vektoru Z, Z = GT (X − µ ) nebo t´eˇz jednotlivˇe jako n´ahodn´e veliˇciny 12
(3.3)
Zi = giT (X − µ ) pro i = 1, . . . , p.
(3.4)
Rozptyl i-t´e hlavn´ı komponenty je potom
var(Zi ) = E giT (X − µ )(X − µ )T gi = giT Σ gi
pro i = 1, . . . , p.
(3.5)
Libovoln´e dvˇe hlavn´ı komponenty jsou nekorelovan´e, protoˇze jsou pˇr´ısluˇsn´e vlastn´ı vektory gi ortonorm´aln´ı. Takto lze tedy vytvoˇrit p komponent; z hlediska zmenˇsov´an´ı dimenze dat (kter´a je naˇs´ım hlavn´ım c´ılem) je ale lepˇs´ı m´ıt komponent m´enˇe. Oznaˇcme di vlastn´ı ˇc´ısla matice Σ seˇrazen´a sestupnˇe d1 ≥ d2 ≥ . . . ≥ dr ≥ 0. Je-li r < p, pak zb´ yvaj´ıc´ı vlastn´ı ˇc´ısla (je jich p − r) jsou nulov´a. Pokud je Σ pozitivnˇe definitn´ı, jsou vˇsechny vlastn´ı hodnoty kladn´a re´aln´a ˇc´ısla.
Hlavn´ım krit´eriem konstrukce veliˇcin Zi je poˇzadavek jejich maxim´aln´ıho rozptylu v dan´em smˇeru. Hlavn´ı komponenty tedy obdrˇz´ıme maximalizac´ı funkce giT Σ gi za podm´ınky giT gi = 1. Z´ısk´ame funkci s Lagrangeov´ ymi multiplik´atory φi = giT Σ gi − di (giT gi − 1),
i = 1, . . . , r.
(3.6)
Parci´aln´ı derivac´ı podle gi obdrˇz´ıme: ∂φi Σgi − 2di gi = 0, = 2Σ ∂gi
(3.7)
Σ − di I)gi = 0, (Σ
(3.8)
Σ G = GD,
(3.9)
maticovˇe potom
13
kde D = Diag(d1 , . . . , dr ), tedy D je matice, kter´a m´a na diagon´ale ˇc´ısla di , i = 1, . . . , r, a mimo diagon´alu 0. Varianˇcn´ı matici Σ m˚ uˇzeme vyj´adˇrit jako Σ = GDGT
(3.10)
GT Σ G = D.
(3.11)
nebo m˚ uˇzeme vyj´adˇrit D,
Stˇredn´ı hodnota hlavn´ıch komponent je nulov´a. Vych´az´ıme z:
µ) = GT (µ µ − µ ) = 0. E(Z) = GT E(X − µ ) = GT E(X) − E(µ
(3.12)
Varianˇcn´ı matice m´a tvar var(Z) = GT var(X − µ )G = GT Σ G = D.
(3.13)
Prvky gij matice G vyjadˇruj´ı vliv veliˇciny Xi na Zj , i, j = 1, . . . , p, G se naz´ yv´a matice z´atˇeˇz´ı (loading matrix).
Trochu jin´ y n´ahled na konstrukci hlavn´ıch komponent spoˇc´ıv´a v tom, ˇze hled´ame takov´ y vektor re´aln´ ych ˇc´ısel c = (c1 , . . . , cp )T , kter´ y splˇ nuje podm´ınku cT c = 1 a pro kter´ y m´a veliˇcina cT X nejvˇetˇs´ı rozptyl. X je centrovan´ y n´ahodn´ y vektor. Protoˇze var(cT X) = cT Σ c, maximalizujeme vlastnˇe v´ yraz cT Σ c. Tato maxim´aln´ı hodnota je d1 a plat´ı, pokud c = g1 . Z´ıskali jsme prvn´ı hlavn´ı komponentu Z1 = g1T X. D´ale budeme hledat znovu vektor c ∈ Rp za dan´ ych podm´ınek, tentokr´at ale pˇrib´ yv´a jeˇstˇe jedna podm´ınka, a to, ˇze mus´ı b´ yt nekorelovan´ y s veliˇcinou Z1 . Tato podm´ınka nekorelovanosti je dosaˇzena pokud cT g1 = 0. Takto dostaneme c = g2 a druhou hlavn´ı komponentu Z2 = g2T X. Ukazuje se, ˇze tento proces pokraˇcuje obdobnˇe i d´ale, tedy do doby, neˇz najdeme vˇsechny hlavn´ı komponenty Zi = giT X,
i = 1, . . . , r. 14
(3.14)
Poznamenejme ovˇsem jiˇz nyn´ı, ˇze pˇri tvorbˇe biplotu pouˇz´ıv´ame pouze prvn´ı dvˇe hlavn´ı komponenty a prvn´ı dva sloupce matice G.
V praxi se objevuje probl´em pˇri tvorbˇe hlavn´ıch komponent veliˇcin X = (X1 , . . . , Xp )T , kter´e jsou d´any v r˚ uzn´ ych jednotk´ach. Zmˇenou mˇeˇr´ıtka se totiˇz mohou podstatnˇe zmˇenit hodnoty hlavn´ıch komponent. Proto ˇcasto nevych´az´ıme z p˚ uvodn´ıch veliˇcin, ale provedeme transformaci znormov´an´ım sloˇzek n´ahodn´eho vektoru. Takto tedy pracujeme s n´ahodn´ ym vektorem Y = (Y1 , . . . , Yp )T , kter´ y vznikne odeˇcten´ım stˇredn´ıch hodnot od p˚ uvodn´ıch veliˇcin a podˇelen´ım pˇr´ısluˇsnou smˇerodatnou odchylkou, Xi − E(Xi ) Yi = p , var(Xi )
i = 1, . . . , p.
(3.15)
Jak jiˇz bylo ˇreˇceno, v praxi se snaˇz´ıme popsat mnohorozmˇernou strukturu n´ahodn´eho vektoru X pomoc´ı nˇekolika m´alo komponent Zi . Hlavn´ım krit´eriem je P y pˇritom procentu´aln´ı pod´ıl celkov´e variability vektoru X, tj. pi=1 var(Xi ) , kter´ se pomoc´ı veliˇcin Zi podaˇr´ı vysvˇetlit. Poˇzadovan´a hodnota tohoto pod´ılu pˇritom z´avis´ı na konkr´etn´ı situaci a na dimenzi p.
3.2
Hlavn´ı komponenty ve v´ ybˇ eru
Z praktick´eho hlediska je pro n´as ovˇsem d˚ uleˇzit´a zejm´ena v´ ybˇerov´a obdoba metody hlavn´ıch komponent. Necht’ m´ame d´an n´ahodn´ y v´ ybˇer z rozdˇelen´ı vektoru X, tj. nez´avisl´e a stejnˇe rozdˇelen´e n´ahodn´e vektory X1 , . . . , Xn , kter´ y uspoˇr´ad´ame do datov´e matice X o rozmˇerech n × p. D´ale aˇz do konce pr´ace tedy budeme ¯ z´apisem X rozumˇet tuto matici. Necht’ je d´ana v´ ybˇerov´a stˇredn´ı hodnota X a v´ ybˇerov´a varianˇcn´ı matice S, definovan´e v pˇredchoz´ı kapitole. Jako analogii k (3.3) m˚ uˇzeme v´ ybˇerov´e hlavn´ı komponenty (resp. jednotliv´e v´ ybˇerov´e komponenty - sloupce matice Zn,p ) vypoˇc´ıtat ze vztah˚ u
15
¯ T )G, ˆ Z = (X − 1 X
¯ T )gˆj Zj = (X − 1 X
pro j = 1, . . . , p.
(3.16)
(3.17)
ˆ = (gˆ1 , . . . , gˆp ) je matice, jej´ıˇz sloupce jsou Pˇritom 1 je vektor n jedniˇcek a G jednotliv´e vlastn´ı vektory matice S. Podobnˇe jako v teoretick´em pˇr´ıpadˇe (3.11) i zde ˆ T SG ˆ = D, ˆ G
(3.18)
ˆ = Diag(gˆ1 , . . . , gˆp ) je diagon´aln´ı matice vlastn´ıch ˇc´ısel (seˇrazen´ kde D ych sestupnˇe) matice S. Poznamenejme pˇritom, ˇze matice Z m´a stejn´e rozmˇery jako datov´a matice X a jej´ı hodnoty Zij , i = 1, . . . , n, j = 1, . . . , p, m˚ uˇzeme oznaˇcit jako sk´ory. Realizac´ı n´ahodn´eho v´ ybˇeru pot´e obdrˇz´ıme uveden´e charakteristiky v jejich zn´am´e, ˇc´ıseln´e podobˇe. Ani pˇri v´ ybˇerov´e metodˇe hlavn´ıch komponent nezapom´ın´ame na ˇsk´alov´an´ı jednotliv´ ych statistick´ ych znak˚ u (teoreticky viz vztah (3.15)).
16
4
Konstrukce biplotu V t´eto kapitole se jiˇz budeme vˇenovat hlavn´ı n´aplni t´eto pr´ace - biplotu.
Biplot se d´a zjednoduˇsenˇe vysvˇetlit jako dvoudimenzion´aln´ı zobrazen´ı objekt˚ u a promˇenn´ ych v jednom grafu. Slovo biplot poch´az´ı z angliˇctiny a ”bi” na zaˇca´tku znaˇc´ı pr´avˇe dvˇe dimenze. Autorem t´eto statistick´e metody je K. R. Gabriel, kter´ y ji poprv´e popsal roku 1971 v ˇcl´anku [5]. Hlavn´ım zdrojem pro tuto kapitolu bylo opˇet skriptum [4]. Biplot je tedy grafick´e zobrazen´ı statistick´eho souboru o rozsahu n odpov´ıdaj´ıc´ı p statistick´ ym znak˚ um X1 , . . . , Xp , vyj´adˇren´ ym pomoc´ı datov´e matice X (pˇredpokl´adejme pˇritom, bez u ´jmy na obecnosti, ˇze pracujeme jiˇz s centrovan´ ymi daty). Biplot m´a nˇekolik druh˚ u, zde pˇredstav´ıme ten, kter´ y vych´az´ı z metody hlavn´ıch komponent. O ostatn´ıch se m˚ uˇzeme doˇc´ıst napˇr´ıklad v knize autor˚ u Gower a Hand [6]. Zobrazen´ı v rovinn´em grafu je z hlediska interpretace dat v´ yhodn´e a pˇrehledn´e. Pˇri tomto zobrazen´ı mus´ıme ale pˇredpokl´adat, ˇze datov´a matice X m´a alespoˇ n dva sloupce. Pro matici s vˇetˇs´ım poˇctem sloupc˚ u pak vyuˇzijeme informaci z prvn´ıch dvou hlavn´ıch komponent.
Nejprve je pro konstrukci biplotu d˚ uleˇzit´e vyj´adˇren´ı matice X pomoc´ı matic U, D a V (viz (1.1) a (1.5)). D´ale ze vztah˚ u (1.7) a (1.8), m˚ uˇzeme konstatovat, ˇze n sloupc˚ u U pˇredstavuje ortonorm´aln´ı vlastn´ı vektory matice XXT a p sloupc˚ u V jsou ortonorm´aln´ı vlastn´ı vektory matice XT X. Mˇejme tedy matici X o rozmˇerech n × p s hodnost´ı k < min(n, p). Princip konstrukce biplotu je zaloˇzen na nahrazen´ı matice X pomoc´ı jej´ı aproximace X(2) s hodnost´ı rovnou dvˇema, kter´a se jev´ı optim´aln´ı z hlediska minimalizace souˇctu ˇctverc˚ u odchylek jej´ıch prvk˚ u od pˇr´ısluˇsn´ ych prvk˚ u matice X. Ve vyj´adˇren´ı matice X(2) pˇritom pouˇzijeme pouze prvn´ı dva sloupce matice U a prvn´ı dva sloupce matice V ze singul´arn´ıho rozkladu. Maticovˇe lze tuto skuteˇcnost zapsat jako (upozorˇ nujeme pˇritom na pˇredefinov´an´ı matic U, D a V) 17
T
X ≈ X(2) = UDV = (u1 , u2 )
d11 0 0 d22
v1T v2T
.
(4.1)
Pˇritom je zˇrejm´e, ˇze X(2) je opˇet rozmˇer˚ u n × p. M˚ uˇzeme ji rozdˇelit takto: X(2) = GHT ,
(4.2)
1−c d11 0 G = (u1 , u2 ) , 0 d22
(4.3)
c d11 0 H = (v1 , v2 ) 0 d22
(4.4)
kde
pro 0 ≤ c ≤ 1. Pˇripomeneme si tzv. cenn´e hodnoty X zm´ınˇen´e v kapitole 1.2. Po volbˇe ˇc´ısla c tedy m´ame rozdˇeleny prvn´ı dvˇe cenn´e hodnoty mezi matice G a H a m˚ uˇzeme takto z´ıskat jiˇz zm´ınˇen´e r˚ uzn´e druhy biplot˚ u. Biplot je potom tvoˇren pr´avˇe ˇra´dky matic G a H o rozmˇerech n × 2 a p × 2. Pro c = 1 potom matice G a H vych´az´ı g1T √ G = ... = n − 1(u1 , u2 ), gnT
(4.5)
hT1 1 d11 0 .. (v1 , v2 ) . H= . = √ 0 d22 n−1 T hp Pro volbu c = 1 tedy matice G a H (aˇz na konstantu
√
(4.6)
n − 1) pˇredstavuj´ı sk´ory
a z´atˇeˇze prvn´ıch dvou hlavn´ıch komponent, jak bylo zm´ınˇeno v kapitole 1.2.
Jak si uvedeme jeˇstˇe pozdˇeji pˇri samotn´e grafick´e intepretaci biplotu, ˇra´dky matice G v grafu pˇredstavuj´ı body a ˇra´dky matice H vrcholy ˇsipek, kter´e vych´azej´ı 18
z uspoˇr´adan´e dvojice pr˚ umˇer˚ u sloupc˚ u matice G. V praxi ovˇsem ˇcasto pracujeme s centrovan´ ymi daty, to znamen´a, ˇze od hodnot sloupc˚ u datov´e matice X odeˇc´ıt´ame aritmetick´e pr˚ umˇery tˇechto sloupc˚ u. V tomto pˇr´ıpadˇe je stˇred, ze kter´eho vych´azej´ı ˇsipky, um´ıstˇen v bodˇe [0, 0].
Nyn´ı si uk´aˇzeme nˇekter´e vlastnosti biplotu (za pˇredpokladu pr´ace s centrovan´ ymi daty). Pˇri souˇcinu ˇra´dk˚ u matic G a H n´am vych´az´ı
gi.T hj. =
√
n − 1uTi. √
1 T (vj.T D) = uTi. Dvj. ≈ xij . n−1
(4.7)
Druh´e mocniny d´elek vektor˚ u hi aproximuj´ı rozptyl statistick´ ych znak˚ u Xi , protoˇze
1.
HHT = √ 3.
=
2. 1 1 1 VD √ DVT = VD2 VT n−1 n−1 n−1
1 1 1 4. 5. (VDUT )(UDVT ) = XT(2) X(2) ≈ XT X = S n−1 n−1 n−1
(4.8)
a diagon´aln´ı prvky matice HHT jsou rovny hTi hi = khi k2 . Nyn´ı si jednotliv´e kroky podrobnˇe zd˚ uvodn´ıme: 1. Je to pouze jin´ y z´apis vzorce (4.6), vyuˇz´ıv´ame zde vlastnosti transpozice souˇcinu matic. 2. Vyuˇz´ıv´ame toho, ˇze D je diagon´aln´ı matice nez´aporn´ ych singul´arn´ıch hodnot. M˚ uˇzeme tedy ps´at DDT = D2 . 3. Vych´az´ı z rovnosti (1.8) a z toho, ˇze UT U = I. 4. Vyuˇz´ıv´ame rovnost´ı (1.1) a (4.1) a d´ale vlastnost´ı transpozice n´asoben´ ych matic. ¯ 5. Vyuˇz´ıv´ame vztah pro v´ ypoˇcet v´ ybˇerov´e varianˇcn´ı matice. Zde se vyskytuje X (v´ ybˇerov´a stˇredn´ı hodnota ˇr´adk˚ u matice X), kter´a je ale rovna nulov´emu vektoru, P protoˇze data jsou centrovan´a. D´ale vyuˇz´ıv´ame vztahu ni=1 Xi XTi = XXT . 19
Kosinus u ´hl˚ u hi a hj , i 6= j, aproximuje korelaˇcn´ı koeficient mezi Xi , Xj :
cos(hi , hj ) =
hTi hj ≈ rij . khi kkhj k
(4.9)
Jak jiˇz bylo ˇreˇceno, biplot n´am slouˇz´ı ke zjednoduˇsen´ı grafick´eho zobrazen´ı v´ıce neˇz dvou statistick´ ych znak˚ u. Pˇritom je takto metoda hlavn´ıch komponent vyuˇz´ıv´ana v tom smyslu, ˇze biplot je vlastnˇe zobrazen´ı sk´or˚ u a z´atˇeˇz´ı prvn´ıch dvou hlavn´ıch komponent datov´e matice X pˇri volbˇe c = 1 (ve vztaz´ıch (4.3) a (4.4)). Rozd´ıl mezi metodou hlavn´ıch komponent a biplotem je v normov´an´ı. Kdyˇz si graficky zobraz´ıme matice sk´or˚ u a z´atˇeˇz´ı z metody hlavn´ıch komponent, nebudou normovan´e. Toto normov´an´ı n´am naopak zajist´ı biplot, pˇritom normovac´ımi konstantami jsou singul´arn´ı hodnoty. Matice G, H zm´ınˇen´e v t´eto kapitole takto vlastnˇe pˇredstavuj´ı v´ ybˇerov´e sk´ory a z´atˇeˇze (v tomto poˇrad´ı) prvn´ıch dvou hlavn´ıch komponent. Jestliˇze v grafu reprezentuj´ı body jednotliv´e objekty (pomoc´ı sk´or˚ u), ˇsipky reprezentuj´ı jednotliv´e statistick´e znaky. D´elky jednotliv´ ych ˇsipek jsou pˇribliˇznˇe rovny rozptyl˚ um pˇr´ısluˇsn´ ych statistick´ ych znak˚ u, viz (4.8). Obecnˇe ˇreˇceno, ˇc´ım je ˇsipka delˇs´ı (znak m´a vˇetˇs´ı rozptyl), t´ım je vliv pˇr´ısluˇsn´eho znaku na uspoˇr´ad´an´ı dat vˇetˇs´ı. Kosinus u ´hlu mezi dvˇema ˇsipkami zobrazuje hodnotu korelaˇcn´ıho koeficientu dan´ ych znak˚ u. Jednoduˇse ˇreˇceno, ˇc´ım je u ´hel mezi ˇsipkami menˇs´ı, t´ım je line´arn´ı vztah odpov´ıdaj´ıc´ıch si statistick´ ych znak˚ u tˇesnˇejˇs´ı. Dalˇs´ı aspekty interpretace biplotu si uk´aˇzeme jiˇz pˇr´ımo na konkr´etn´ıch pˇr´ıkladech v n´asleduj´ıc´ı kapitole. Na konec cel´eho procesu je dobr´e zjistit procentu´aln´ı pod´ıl celkov´e variability souboru (souˇcet rozptyl˚ u jednotliv´ ych statistick´ ych znak˚ u) vysvˇetlen´e pomoc´ı prvn´ıch dvou hlavn´ıch komponent Z1 , Z2 , tedy pˇresnost aproximace p˚ uvodn´ı mnohorozmˇern´e struktury dat (nˇekdy se m´ısto rozptylu uvaˇzuje smˇerodatn´a odchylka). Za dobr´ y v´ ysledek v tomto ohledu budeme nejˇcastˇeji povaˇzovat v´ıce 20
jak 75 %. Toto ˇc´ıslo je ale velmi subjektivn´ı a je d´ano zkuˇsenostmi a rozmˇerem p˚ uvodn´ıch dat. Budeme se ˇr´ıdit pravidlem, ˇze ˇc´ım v´ıce statistick´ ych znak˚ u (sloˇzek) bude obsahovat p˚ uvodn´ı soubor, t´ım menˇs´ı procentu´aln´ı pod´ıl vysvˇetlen´e variability budeme povaˇzovat za vyhovuj´ıc´ı.
21
5
Pˇ r´ıklady Na n´asleduj´ıc´ıch pˇr´ıkladech si uk´aˇzeme vyuˇzit´ı biplotu v praxi. Prvn´ı pˇr´ıklad
je pˇrevzat´ y ze skripta [4], v dalˇs´ıch jsou vyuˇz´ıv´any datov´e soubory z interneˇ eho statistick´eho u tov´ ych str´anek Cesk´ ´ˇradu a knihovny datov´ ych tabulek, kter´a je um´ıstˇena na internetov´ ych str´ank´ach http://lib.stat.cmu.edu/DASL (konkr´etnˇe [17], [18]). K v´ ypoˇct˚ um a grafick´emu vyj´adˇren´ı je vyuˇz´ıv´an statistick´ y software R (www.r-project.org)[12].
5.1
Studenti
Tˇr´ıda 88 student˚ u prvn´ıho roˇcn´ıku vysok´e ˇskoly technick´eho smˇeru je testov´ana z pˇeti pˇredmˇet˚ u. Kaˇzd´ y student m˚ uˇze z´ıskat v kaˇzd´em z test˚ u maxim´alnˇe 100 bod˚ u. V´ ysledky jsou zaznamen´any a seˇrazeny v tabulce (Pˇr´ıloha A). Zkratky jednotliv´ ych pˇredmˇet˚ u jsou tyto: ME = mechanika, AG = analytick´a geometrie, LA = line´arn´ı algebra, AN = matematick´a anal´ yza, ES = element´arn´ı statistika. ´ Ukolem je zjistit, jak´ y je vz´ajemn´ y vztah mezi jednotliv´ ymi studenty a tak´e mezi jednotliv´ ymi pˇredmˇety. Jak jiˇz bylo ˇreˇceno na zaˇca´tku, k v´ ypoˇct˚ um a grafick´ ym zobrazen´ım je pouˇz´ıv´an statistick´ y software R. Nejdˇr´ıve nastav´ıme pˇr´ısluˇsnou zdrojovou knihovnu v dan´em poˇc´ıtaˇci. K tomu pouˇzijeme pˇr´ıkaz setwd(). Zdrojov´a data jsou uloˇzena v tabulce v textov´em souboru Stud.txt. Pot´e zad´ame data do softwaru jako matici o 88 ˇra´dc´ıch (studenti) a 5 sloupc´ıch (pˇredmˇety): >X=matrix(scan("Stud.txt"),ncol=5,byrow=T)
D´ale oznaˇc´ıme jednotliv´e sloupce jm´eny: >colnames(X)=c("ME","AG","LA","AN","ES")
N´asleduje pˇr´ıkaz summary(princomp(X)), kter´ y ukazuje, kolik procent celkov´e variability statistick´eho souboru (po vyn´asoben´ı 100) je vysvˇetleno pomoc´ı hlavn´ıch komponent, novˇe vytvoˇren´ ych statistick´ ych znak˚ u. V naˇsich pˇr´ıkladech se d´ıv´ame
22
na prvn´ı dva sloupce, kter´e odpov´ıdaj´ı prvn´ım dvˇema (nejv´ yznamnˇejˇs´ım) hlavn´ım komponent´am. V tomto pˇr´ıpadˇe m´ame tabulku:
Standard deviation Proportion of Variance Cumulative Proportion
Comp.1 26.061142 0.619115 0.619115
Comp.2 14.1355705 0.1821424 0.8012575
Comp.3 Comp.4 Comp.5 10.12760414 9.14706148 5.63807655 0.09349705 0.07626893 0.02897653 0.89475453 0.97102347 1.00000000
Prvn´ı ˇra´dek tabulky n´am ukazuje smˇerodatn´e odchylky jednotliv´ ych znak˚ u Z1 , . . . , Z5 . Druh´ y ˇr´adek vyjadˇruje, ˇze znak Z1 (prvn´ı hlavn´ı komponenta) vysvˇetluje 62 % a znak Z2 (druh´a hlavn´ı komponenta) dalˇs´ıch 18 % celkov´e variability, coˇz d´a v souˇctu 80 %, a tedy velmi dobr´ y v´ ysledek. Tento souˇcet je vidˇet v poli tˇret´ıho ˇra´dku, sloupce s nadpisem Comp.2 (ˇc´ıslo 0.8012575). Biplot tedy bude velmi dobˇre odr´aˇzet skuteˇcnou strukturu mnohorozmˇern´eho datov´eho souboru. Posledn´ı pˇr´ıkaz, kter´ y byl pouˇzit, >biplot(princomp(X),main="Biplot-Studenti"), vykresl´ı biplot pro naˇse data:
Biplot−Studenti −50
0
50
100
0.3
−100
66
50 36 45 37 40 62 67 47 43 AG 44 58 42 26 2939 46 1 8 2527 32 55 60 68 74 3 59 80 83 18 65 5 79 24 3849 63 11 17 84 21 9 51 56 82 LA 70 35 4 31 13 22 69 75 2 86 7 57 64 6 AN 85 48 41 7778 33 72 52 30 20 34 ES 15
0 88
−50
87
−100
0.1 0.0 −0.1 −0.2
16
19 12
81 23 28
−0.3
Comp.2
10
71 73 50
0.2
61 54 53
14
100
76
ME
−0.3
−0.2
−0.1
0.0 Comp.1
23
0.1
0.2
0.3
Nyn´ı shrneme, jak lze biplot interpretovat. M˚ uˇzeme ˇr´ıci, ˇze hodnoty znaku Z1 (Comp.1 v pˇredchoz´ım grafu) zhruba reprezentuj´ı obecnou u ´spˇeˇsnost student˚ u (pˇri orientaci zleva doprava, tj. od nejlepˇs´ıch k nejhorˇs´ım, lze porovnat s tabulkou v Pˇr´ıloze A). Kdyˇz se pod´ıv´ame na smˇery ˇsipek, vid´ıme, ˇze menˇs´ı u ´hly maj´ı mezi sebou AG a ME na jedn´e stranˇe a AN, LA, ES na stranˇe druh´e. Tady se potvrzuje pˇredbˇeˇzn´ y pˇredpoklad, ˇze studenti, kteˇr´ı maj´ı odpov´ıdaj´ıc´ı pˇrevl´adaj´ıc´ı typ myˇslen´ı (prostorov´e, analytick´e) budou dosahovat lepˇs´ıch v´ ysledk˚ u v odpov´ıdaj´ıc´ıch pˇredmˇetech (tj. ME, AG, resp. LA, AN, ES). Pˇritom smˇery tˇechto ˇsipek n´am t´eˇz pom´ahaj´ı urˇcit interpretaci pro znak Z2 (Comp.2), kter´ y takto pˇredstavuje pˇrechod od prostorov´eho myˇslen´ı k analytick´emu (jeˇz odpov´ıd´a dosaˇzen´ ym v´ ysledk˚ um v jednotliv´ ych testech v pˇr´ısluˇsn´ ych pˇredmˇetech). Laicky tedy m˚ uˇzeme ˇr´ıci, ˇze studenti, kteˇr´ı se nach´azej´ı v doln´ı ˇca´sti grafu jsou na tom l´epe v pˇredmˇetech LA, AN, ES, zat´ımco studenti nahoˇre jsou zbˇehlejˇs´ı ve zbyl´ ych pˇredmˇetech. Konkr´etnˇe se m˚ uˇzeme pod´ıvat na v´ ysledky studenta ˇc´ıslo 28, jehoˇz v´ ysledky jsou postupnˇe 18, 44, 50, 57, 81. Tedy je opravdu lepˇs´ı ve skupinˇe posledn´ıch tˇr´ı pˇredmˇet˚ u. Naopak student ˇc´ıslo 66 (v´ ysledky 59, 53, 37, 22, 19) m´a lepˇs´ı sk´ore v prvn´ıch dvou pˇredmˇetech. Nakonec poznamenejme, ˇze d´elky jednotliv´ ych ˇsipek ukazuj´ı, jak´e odpov´ıdaj´ıc´ı znaky (zde ME a ES) maj´ı na uspoˇr´ad´an´ı pozorov´an´ı v grafu nejvˇetˇs´ı vliv.
5.2
Zemˇ edˇ elstv´ı
Na dalˇs´ım pˇr´ıkladu si n´azornˇe uk´aˇzeme, jak se v biplotu projevuj´ı promˇenn´e (statistick´e znaky) s v´ yraznˇe vyˇsˇs´ımi hodnotami (a rozptylem) neˇz maj´ı ostatn´ı ˇ eho promˇenn´e. V pˇr´ıkladu jsou pouˇzita re´aln´a data z internetov´ ych str´anek Cesk´ statistick´eho u ´ˇradu [16]. Pˇr´ısluˇsn´a tabulka m´a n´azev Hektarov´e v´ ynosy skliznˇe hlavn´ıch zemˇedˇelsk´ ych plodin podle kraj˚ u v roce 2007 (Pˇr´ıloha B). Promˇenn´ ymi jsou zde pˇsenice, jeˇcmen, brambory, ˇrepka, sluneˇcnice a p´ıcniny. Tou, jej´ıˇz hodnoty ˇ e pˇrevyˇsuj´ı ostatn´ı, jsou brambory. Jednotliv´a pozorov´an´ı pˇredstavuj´ı kraje Cesk´ republiky (je jich tedy 14) a v grafu jsou oznaˇceny zkratkami st´atn´ıch pozn´avac´ıch znaˇcek automobil˚ u. Jednotliv´e zkratky jsou uvedeny v jiˇz zm´ınˇen´e tabulce. 24
5.2.1
Zemˇ edˇ elstv´ı s bramborami
Prvn´ı biplot byl vytvoˇren pro vˇsechny promˇenn´e. Pˇr´ıkazy v softwaru jsou analogick´e jako u pˇredchoz´ıho pˇr´ıkladu, proto staˇc´ı zm´ınit pouze nˇekter´e. Zde je vidˇet, jak jsou pojmenov´any jednotliv´e promˇenn´e: >colnames(X)=c("Ps","Je","Br","Re","Sl","Pi") ˇ e republiky: N´asleduje pojmenov´an´ı jednotliv´ ych pozorov´an´ı - kraj˚ u Cesk´ >rownames(X)=c("A","S","C","P","K","U","L","H","E","J","B","M","Z","T")
D´ale je d˚ uleˇzit´a tabulka charakteristik jednotliv´ ych hlavn´ıch komponent: Standard deviation Proportion of Variance Cumulative Proportion
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.907905 0.33129175 0.191553760 0.105538424 0.067728392 1.443441e-02 0.957296 0.02886385 0.009649712 0.002929235 0.001206353 5.479378e-05 0.957296 0.98615991 0.995809618 0.998738853 0.999945206 1.000000
Vid´ıme tedy, ˇze znak Z1 vysvˇetluje skoro 96 % a znak Z2 pouze 2,9 % celkov´e variability, coˇz d´a v souˇctu t´emˇeˇr 99 %. V´ ysledn´a vysvˇetlen´a variabilita se m˚ uˇze zd´at vynikaj´ıc´ı. Ovˇsem, kdyˇz se pod´ıv´ame, jak´ y je nepomˇer mezi jednotliv´ ymi znaky, uˇz se tento v´ ysledek tak dobr´ y nejev´ı. Toto je tak´e patrn´e z biplotu.
Biplot−Země dě lství s bramborami −10
−5
0
5
B 0.4
K T
0.2
5
L
U
H S
P
C −5
−0.2
Z
0
0.0
A
Br E
−0.4
M
−10
−0.6
Comp.2
J Sl Re PsJe Pi
−0.6
−0.4
−0.2
0.0
Comp.1
25
0.2
0.4
Z grafu je na prvn´ı pohled patrn´e, ˇze brambory ”ovl´adly” ostatn´ı promˇenn´e. Jejich vliv je nejvˇetˇs´ı. Je to d´ano t´ım, ˇze biplot se snaˇz´ı vysvˇetlit co nejv´ıce rozptylu datov´eho souboru, proto vzal v u ´vahu pˇredevˇs´ım promˇennou brambory d´ıky nejvˇetˇs´ım hodnot´am m´a t´eˇz zdaleka nejvˇetˇs´ı rozptyl. Uspoˇra´d´an´ı prvk˚ u zleva doprava n´am ukazuje u ´spˇeˇsnost jednotliv´ ych kraj˚ u, co se t´ yˇce produkce brambor. Poˇrad´ı je zde ale opaˇcn´e neˇz u pˇredchoz´ıho pˇr´ıkladu - od nejhorˇs´ıho po nejlepˇs´ı, coˇz souvis´ı s orientac´ı jednotliv´ ych hlavn´ıch komponent. Ostatn´ı plodiny zde ne´ maj´ı vliv. Uhly mezi ˇsipkami, a tedy vztahy jednotliv´ ych promˇenn´ ych, nejsou moc zˇreteln´e, takˇze je bohuˇzel nem˚ uˇzeme nijak interpretovat. 5.2.2
Zemˇ edˇ elstv´ı bez brambor
V druh´em pˇr´ıpadˇe je promˇenn´a brambory vynech´ana, t´ım p´adem jsme z´ıskali pouze 5 promˇenn´ ych a vliv promˇenn´e brambory je eliminov´an. Pod´ıl celkov´e variability je v tomto pˇr´ıpadˇe menˇs´ı, ale poˇra´d dostaˇcuj´ıc´ı:
Standard deviation Proportion of Variance Cumulative Proportion
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 0.3664893 0.2178510 0.1532782 0.06893191 0.017657245 0.6385857 0.2256398 0.1117011 0.02259108 0.001482321 0.6385857 0.8642255 0.9759266 0.99851768 1.000000000
Znak Z1 vysvˇetluje 64 % a znak Z2 22 % celkov´e variability, jejich souˇcet je tedy 86 % . Biplot zˇrejmˇe vyjadˇruje kovarianˇcn´ı strukturu zbyl´ ych znak˚ u l´epe neˇz pˇredchoz´ı pˇr´ıpad.
Graf, kter´ y je uveden na n´asleduj´ıc´ı stranˇe, je evidentnˇe zˇretelnˇejˇs´ı a ˇcitelnˇejˇs´ı. Uspoˇra´d´an´ı prvk˚ u zleva doprava n´am opˇet ukazuje u ´spˇeˇsnost jednotliv´ ych kraj˚ u. Tentokr´at v celkov´e produkci (od nejlepˇs´ıho po nejhorˇs´ı). Jde n´am o hektarov´e v´ ynosy, a tedy o kvalitu p˚ udy. Zde je tak´e kr´asnˇe vidˇet geografick´e rozloˇzen´ı jednotliv´ ych kraj˚ u. Jako nejhorˇs´ı n´am totiˇz vyˇsel kraj Karlovarsk´ y, zato nejlepˇs´ı v´ ysledek m´a Olomouck´ y kraj - u ´rodn´a Han´a. Nejmenˇs´ı u ´hel je mezi pˇsenic´ı a jeˇcmenem, tedy jejich vztah je nejsilnˇejˇs´ı. Toto je opˇet logick´e vzhledem k tomu, ˇze jsou obˇe plodiny obilovinami. 26
Biplot−Země dě lství bez brambor −0.5
0.0
0.8
−1.0
0.5
1.0
1.5
2.0
0.5
Pi S M
E
Ps A
L 0.0
Sl Re P
T Je
K
−1.0
−0.4
−0.2
J
C
−0.5
0.2
U Z
0.0
Comp.2
1.0
0.4
1.5
0.6
2.0
B
H −0.4
−0.2
0.0
0.2
0.4
0.6
0.8
Comp.1
Nejvˇetˇs´ı vliv (nejdelˇs´ı ˇsipku) maj´ı p´ıcniny. Tato skuteˇcnost je zˇrejm´a z tabulky - p´ıcniny maj´ı druh´e nejvyˇsˇs´ı hodnoty po brambor´ach. Posledn´ı fakt, kter´ y je zde zˇreteln´ y, je odlehlost pozorov´an´ı Jihomoravsk´ y kraj. Vˇsimnˇeme si pˇritom, proˇc je toto odlehl´e pozorov´an´ı pr´avˇe nahoˇre - tedy nejbl´ıˇze ze vˇsech ˇsipek k ˇsipce p´ıcnin. Hektarov´ y v´ ynos t´eto plodiny pˇrevaˇzuje v dan´em kraji nad ostatn´ımi. I tento biplot je ovˇsem znaˇcnˇe ovlivnˇen r˚ uznou variabilitou jednotliv´ ych statistick´ ych znak˚ u. Tak´e jsme v tomto pˇr´ıpadˇe pˇriˇsli o informaci z jednoho statistick´eho znaku (brambor), coˇz biplotu d´ale ub´ır´a na relevantnosti. 5.2.3
Zemˇ edˇ elstv´ı ˇ sk´ alovan´ e
Postup, kter´ y byl pouˇzit v pˇredchoz´ıch pˇr´ıpadech, se ale obecnˇe nezd´a pˇr´ıliˇs vhodn´ y. Pokud chceme zjistit vztahy mezi jednotliv´ ymi promˇenn´ ymi bez toho, aby byly ovlivˇ nov´any jejich vysok´ ymi (nebo naopak n´ızk´ ymi) hodnotami a s t´ım souvisej´ıc´ımi hodnotami rozptyl˚ u znak˚ u, pouˇzijeme ˇsk´alov´an´ı. Pˇreˇsk´alujeme tedy vˇsechny hodnoty jednotliv´ ych znak˚ u tak, aby jejich pr˚ umˇer byl nula a rozptyl byl roven jedn´e. Takto se sice zmˇen´ı hodnoty promˇenn´ ych, ale z´akladn´ı struktura datov´eho souboru z˚ ustane zachov´ana. 27
Vezmeme tedy p˚ uvodn´ı matici hodnot: >X=matrix(scan("Zems.txt"),ncol=6,byrow=T)
Pojmenujeme jej´ı ˇr´adky a sloupce: >colnames(X)=c("Ps","Je","Br","Re","Sl","Pi") >rownames(X)=c("A","S","C","P","K","U","L","H","E","J","B","M","Z","T")
A nakonec data pˇreˇsk´alujeme: >M=scale(X, center = TRUE, scale = TRUE)
Pˇreˇsk´alovan´e hodnoty jsou v tabulce v Pˇr´ıloze C. Nyn´ı s novou datovou matic´ı M pracujeme stejnˇe jako v pˇredchoz´ıch pˇr´ıkladech s matic´ı X. Tabulka charakteristik jednotliv´ ych hlavn´ıch komponent: Standard deviation Proportion of Variance Cumulative Proportion
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.6738023 1.2312319 0.8448974 0.59072591 0.39008319 0.197253384 0.5028538 0.2720904 0.1281272 0.06263333 0.02731165 0.006983648 0.5028538 0.7749442 0.9030714 0.96570470 0.99301635 1.000000000
Znak Z1 vysvˇetluje 50 % a znak Z2 27 % celkov´e variability, tedy souˇcet je 77 % . Tato hodnota je vyhovuj´ıc´ı. Biplot−Země dě lství škálované −2
0
2
4
6 6 2
0.2
T
0
L
Pi A M Re
−0.2
U Z
J S
E
K
C
Ps
P
−2
0.0
Sl
Br
H
−0.4
Comp.2
0.4
4
0.6
0.8
B
Je −0.4
−0.2
0.0
0.2 Comp.1
28
0.4
0.6
0.8
Tento biplot je zˇrejmˇe nejv´ ystiˇznˇejˇs´ı ze vˇsech tˇr´ı, kter´e m´ame k dispozici. Uspoˇra´d´an´ı prvk˚ u zleva doprava n´am ukazuje u ´spˇeˇsnost jednotliv´ ych kraj˚ u v celkov´e produkci (od nejlepˇs´ıho po nejhorˇs´ı). Uspoˇra´d´an´ı se v nˇekter´ ych aspektech liˇs´ı od grafu Zemˇedˇelstv´ı bez brambor, vyjma napˇr´ıklad postaven´ı kraj˚ u Olo´ mouck´eho a Karlovarsk´eho. Uhel mezi pˇsenic´ı a jeˇcmenem se znaˇcnˇe zvˇetˇsil (jejich vz´ajemn´ y vliv se tedy zmenˇsil), zato mezi p´ıcninami a pˇsenic´ı je menˇs´ı (vztah je silnˇejˇs´ı). Tentokr´at ˇsipky pˇsenice a jeˇcmene nejdou stejn´ ym smˇerem. To znaˇ men´a, ˇze produkce tˇechto dvou plodin nen´ı tolik korelovan´a. Sipka odpov´ıdaj´ıc´ı promˇenn´e brambory smˇeˇruje na opaˇcnou stanu neˇz vˇetˇsina ostatn´ıch - jej´ı produkce je negativnˇe korelovan´a. Jedin´a plodina, se kterou m´a alespoˇ n nˇejakou pozitivn´ı korelaci, je jeˇcmen. Nejdelˇs´ı ˇsipku, a t´ım p´adem i nejvˇetˇs´ı vliv, maj´ı brambory a jeˇcmen souˇcasnˇe, o moc menˇs´ı nen´ı ani vliv ˇrepky a pˇsenice. Ovˇsem v tomto grafu maj´ı vˇetˇs´ı v´ yznam pro interpretaci sp´ıˇse smˇery ˇsipek neˇz jejich d´elky. M˚ uˇzeme pozorovat vztah mezi ˇrepkou a sluneˇcnic´ı a tak´e se zde opakuje odlehl´e pozorov´an´ı Jihomoravsk´ y kraj. Jeˇstˇe bychom se mˇeli zamˇeˇrit na postaven´ı Moravskoslezsk´eho kraje. Ten stoj´ı zhruba uprostˇred grafu nad spojnic´ı vˇsech ˇsipek. Toto postaven´ı n´am ˇr´ık´a, ˇze dan´ y kraj je v produkci jednotliv´ ych plodin zhruba uprostˇred. Kdyˇz se pod´ıv´ame do tabulky v Pˇr´ıloze C, je to opravdu tak. V produkci sluneˇcnice je sice nejlepˇs´ı (je totiˇz v grafu nejbl´ıˇze jej´ı ˇsipce), tuto v´ yhodu ale naopak sraz´ı pˇredposledn´ı m´ısto v p´ıcnin´ach.
5.3
Inteligence a tˇ elesn´ e proporce
N´asleduj´ıc´ı pˇr´ıklad byl vybr´an jako uk´azka, ˇze u biplotu je tˇreba b´ yt pˇri interpretaci v´ ysledk˚ u obˇcas velmi obezˇretn´ y. Data jsou pˇrevzata z knihovny tabulek dat, kterou nalezneme na internetu [17]. Jist´ y doktor Willerman dal v roce 1991 dohromady skupinu 40 student˚ u psychologie z Jihoz´apadn´ı univerzity ve Velk´e Brit´anii. Studenti vyplnili ˇctyˇri testy (slovn´ı z´asoba, podobnosti, Block Design a pˇredstavivost obr´azk˚ u) z Wechslerova testu inteligence pro dospˇel´e. Z tˇechto test˚ u urˇcil doktor jednotliv´e inteligence respondent˚ u - celkov´a (FSIQ), verb´aln´ı (VIQ) a pˇredstavivostn´ı (PIQ). D´ale je 29
uvedena informace o v´aze (Weight - v libr´ach) a v´ yˇsce (Height - v palc´ıch) u testovan´ ych. Protoˇze u dvou osob chybˇely u ´daje, pracujeme pouze s 38 pozorov´an´ımi. Studenti jsou oznaˇceni podle pohlav´ı a oˇc´ıslov´ani pro jednoduchou orientaci. Tabulka u ´daj˚ u je uvedena v Pˇr´ıloze D. Kdyˇz se pod´ıv´ame na data, je n´am jasn´e, ˇze nen´ı dobr´e poˇc´ıtat v p˚ uvodn´ıch jednotk´ach. Proto tabulku nejprve pˇreˇsk´alujeme. Pˇr´ıkazy v softwaru jsou obdobn´e jako u pˇredchoz´ıch pˇr´ıklad˚ u, a proto je zbyteˇcn´e je zde znovu uv´adˇet. Uvedeme tedy pouze tabulku charakteristik jednotliv´ ych hlavn´ıch komponent:
Standard deviation Proportion of Variance Cumulative Proportion
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 1.5842328 1.2627884 0.54709289 0.52014131 0.44060808 0.5155251 0.3275465 0.06148002 0.05557181 0.03987648 0.5155251 0.8430717 0.90455171 0.96012352 1.000000000
Znak Z1 vysvˇetluje necel´ ych 52 % a znak Z2 skoro 33 % celkov´e variability, dohromady 84 % . Tato hodnota je opˇet vyhovuj´ıc´ı.
Biplot−IQ škálované −2
0
2
4
0.4
−4
6
0.3
6
F15
F12 F17 F06 F01
F04 F10
F03 M17 M15
M06
M11
M07
Height M14 Weight M12 −0.2
−0.1
M08 −2
M16 M05 F07M02 M01M04 M13
−0.3
0
F05
F19 F16
0.0 Comp.1
30
0.1
M18
−4
FSIQ VIQ PIQ
−0.2
−0.1
0.0
F02 M10
−0.3
Comp.2
0.1
F20 M03 F18 F11 F09 F08 F14
2
0.2
4
F13
M09
0.2
0.3
0.4
Z grafu je na prvn´ı pohled patrn´e, ˇze jednotliv´e inteligence nesouvis´ı s v´ yˇskou a v´ahou jedince, protoˇze hodnota u ´hlu mezi tˇemito skupinkami (inteligence a tˇelesn´e proporce) se pohybuje kolem 90 stupˇ n˚ u. D´ale vid´ıme, ˇze jednotliv´e druhy inteligence se sv´ ym v´ yznamem neliˇs´ı, je tedy zˇrejm´e, ˇze tyto tˇri promˇenn´e jsou prov´azan´e. T´eˇz v´ yˇska a v´aha maj´ı na uspoˇra´d´an´ı pozorov´an´ı v biplotu zhruba stejn´ y vliv. Uspoˇr´ad´an´ı prvk˚ u zprava doleva n´am ve vˇetˇsinˇe pˇr´ıpad˚ u ukazuje celkovou u ´spˇeˇsnost. V tomto pˇr´ıkladu ale porovn´av´ame dvˇe nekorelovan´e skupiny promˇenn´ ych odliˇsn´eho typu. Tedy celkovou ”´ uspˇeˇsnost” zde nelze jednoznaˇcnˇe urˇcit a pˇredevˇs´ım v interpretaci v´ ysledk˚ u mus´ıme b´ yt velmi opatrn´ı. Je potˇreba pozornˇe sledovat smˇery jednotliv´ ych ˇsipek. Uspoˇra´d´an´ı prvk˚ u zleva doprava n´am seˇrazuje testovan´e jedince podle hodnoty celkov´e inteligence. Tedy ˇc´ım v´ıce vlevo se dan´ y responent nach´az´ı, t´ım vyˇsˇs´ı m´a IQ. Naopak uspoˇra´d´an´ı prvk˚ u shora dol˚ u n´am ukazuje rozloˇzen´ı v´ yˇsky a v´ahy. Nahoˇre jsou huben´ı a n´ızc´ı lid´e, dole jsou tˇeˇzˇs´ı a vyˇsˇs´ı. Obecnˇe lze ˇr´ıci, ˇze v horn´ı polovinˇe grafu je vˇetˇsina ˇzen, muˇzi jsou naopak dole.
5.4
Cigarety a rakovina v USA
Posledn´ı pˇr´ıklad je opˇet pˇrevzat´ y z knihovny datov´ ych tabulek z internetu [18], d´ale zde vyuˇz´ıv´ame informace z internetov´ ych str´anek [13], [15]. Tento pˇr´ıklad pouˇzijeme k posouzen´ı, zda m˚ uˇzeme nˇejak´e promˇenn´e vynechat bez v´ yraznˇejˇs´ıho ovlivnˇen´ı celkov´ ych v´ ysledk˚ u. Data (Pˇr´ıloha E) zn´azorˇ nuj´ı poˇcet cigaret prodan´ ych ve vybran´ ych 43 st´atech USA vˇcetnˇe the District of Columbia v roce 1960, pˇrepoˇc´ıt´ano vˇzdy na jednoho obyvatele dan´eho st´atu. D´ale je zde uvedena u ´mrtnost na 100 obyvatel na r˚ uzn´e formy rakoviny. Zkratky jednotliv´ ych promˇenn´ ych jsou tyto: CIG = Poˇcet vy´ kouˇren´ ych cigaret na 1 obyvatele, BLAD = Umrtnost na 100 obyvatel na rako´ ´ vinu moˇcov´eho mˇech´ yˇre, LUNG = Umrtnost na rakovinu plic, KID = Umrtnost ´ na rakovinu ledvin, LEUK = Umrtnost na leuk´emii. Pˇr´ıkazy v softwaru se opˇet nijak neliˇs´ı od ostatn´ıch. Vzhledem k r˚ uzn´ ym velikostem hodnot promˇenn´ ych pouˇzijeme ˇsk´alov´an´ı. Tabulka charakteristik jed31
notliv´ ych hlavn´ıch komponent vypad´a n´asledovnˇe:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 1.6051368 1.0631717 0.8227164 0.52739123 0.4738793 0.5272764 0.2313242 0.1385206 0.05692198 0.0459568 0.5272764 0.7586006 0.8971212 0.95404320 1.00000000
Standard deviation Proportion of Variance Cumulative Proportion
Znak Z1 vysvˇetluje 53 % a znak Z2 23 % celkov´e variability. Souˇcet 76 % tedy opˇet vyhovuje.
Biplot−Cigarety škálované −4
−2
0
2
4
6 6
0.4
MN LEUK
NB IO WV
ND
TX
MT IN
ARID
−0.1
MO AZWI TE
OH MI MA CA VT
LA
BLAD DC CIG NE
RI
LUNG
WY FL −4
SC
−0.3
−0.2
NJ
MD DE ME
NMKY MS AL
CT NY
IL
0
0.1 0.0
Comp.2
WA
OK PE UT
2
KID
KS
−2
0.2
4
0.3
SD
AK −0.3
−0.2
−0.1
0.0
0.1
0.2
0.3
0.4
Comp.1
Uspoˇra´d´an´ı prvk˚ u zleva doprava je d´ano poˇctem cigaret a v´ yskytem rakoviny (od nejmenˇs´ıho v´ yskytu po nejvˇetˇs´ı), jako nejlepˇs´ı n´am tedy z tohoto pohledu vych´az´ı st´at Utah. To je zˇrejm´e i z tabulky - hodnota poˇctu prodan´ ych cigaret je nejmenˇs´ı. Uspoˇr´ad´an´ı zdola nahoru ukazuje zasaˇzen´ı dan´e oblasti leuk´emi´ı. Dole jsou st´aty s nejmenˇs´ım v´ yskytem (Alaska), naopak nahoˇre jsou st´aty s vysok´ ym poˇctem pˇr´ıpad˚ u t´eto nemoci (Minnesota). Je to zˇrejm´e i z postaven´ı ˇsipky ´ leuk´emie - ta ukazuje opravdu zdola nahoru. Uhel mezi leuk´emi´ı a cigaretami 32
je 90 stupˇ n˚ u, tyto promˇenn´e jsou tedy nekorelovan´e. Tento z´avˇer je podle m´eho ˇ n´azoru logick´ y, protoˇze kouˇren´ı nem´a vliv na vznik leuk´emie. Sipka leuk´emie jde obecnˇe opaˇcn´ ym smˇerem neˇz ˇsipky ostatn´ı. M˚ uˇzeme to interpretovat tak, ˇze ´ leuk´emie je zcela specifick´ y druh rakoviny. Uhel mezi cigaretami a rakovinou plic je stejn´ y jako u ´hel mezi cigaretami a rakovinou moˇcov´eho mˇech´ yˇre. Prvn´ı vztah nen´ı nijak zvl´aˇstn´ı, protoˇze pl´ıce jsou hlavn´ım org´anem postiˇzen´ ym u kuˇra´k˚ u. Druh´ y vztah m˚ uˇze b´ yt vˇsak pro nˇekoho na prvn´ı pohled pˇrekvapuj´ıc´ı, ovˇsem podle posledn´ıch studi´ı je kouˇren´ı v´ yznamn´ ym rizikov´ ym faktorem pro vznik rakoviny moˇcov´eho mˇech´ yˇre. Nakonec m˚ uˇzeme naj´ıt na tomto grafu jeˇstˇe jednu zaj´ımavost. Uspoˇra´d´an´ı prvk˚ u ˇca´steˇcnˇe odpov´ıd´a uspoˇra´d´an´ı st´at˚ u na mapˇe. Napˇr´ıklad st´at Florida je jak v grafu, tak na mapˇe, na okraji. Jeˇstˇe l´epe je to vidˇet u Aljaˇsky (Alasky), kter´a je v grafu mimo ostatn´ı st´aty - vpravo dole. Z geografick´eho hlediska stoj´ı tak´e mimo ostatn´ı st´aty USA, nach´az´ı se totiˇz na sever od u ´zem´ı Kanady. D´ale st´aty Minnesota, South Dakota a North Dakota jsou u sebe, Dakoty si jen vymˇenily m´ısto (North Dakota je v grafu n´ıˇz) a posledn´ı pˇr´ıklad New York, Connecticut a New Jersey jsou mal´e st´aty na severov´ ychodˇe. V t´eto oblasti se nach´az´ı tak´e v grafu. Abychom si mohli ovˇeˇrit dan´e z´avˇery, v Pˇr´ıloze F je um´ıstˇena mapa Spojen´ ych st´at˚ u americk´ ych.
Nyn´ı si uk´aˇzeme, co se stane, kdyˇz promˇennou CIG vynech´ame. Opˇet ˇsk´alujeme a tabulku charakteristik jednotliv´ ych hlavn´ıch komponent n´aslednˇe dostaneme v tomto tvaru:
Standard deviation Proportion of Variance Cumulative Proportion
Comp.1 Comp.2 Comp.3 Comp.4 1.3630421 1.0535728 0.8207924 0.51719566 0.4752726 0.2839575 0.1723419 0.06842802 0.4752726 0.7592301 0.9315720 1.00000000
Znak Z1 vysvˇetluje 47.5 % celkov´e variability, tedy m´enˇe neˇz v pˇredchoz´ım pˇr´ıpadu, znak Z2 28 %. Souˇcet je 76 % (stejn´ y jako s cigaretami). 33
Biplot−Rakovina škálovaná −2
0
2
6
LEUK
MN
0.4
4
6
−4
NB IO
WV KID
OK PE UT ID AR
MS AL
OH MT
IL
CT
NY CA MA MI NJ DC VT AZ MO WI NE MD ME DE
TX
IN
BLAD
LA RI LUNG
SC
FL −4
−0.2
TE KY NM WY
WA
−2
0.0
Comp.2
KS
2
ND
0
0.2
4
SD
AK −0.2
0.0
0.2
0.4
Comp.1
ˇ Sipka leuk´emie se nyn´ı posunula bl´ıˇze k ostatn´ım. Tedy vztah mezi n´ı a ostatn´ımi promˇenn´ ymi se m´ırnˇe zes´ılil, ostatn´ı u ´hly z˚ ustaly zhruba stejn´e. Uspoˇr´ad´an´ı prvk˚ u zleva doprava vyjadˇruje opˇet mnoˇzstv´ı v´ yskyt˚ u rakovin (od nejmenˇs´ıho po nejvˇetˇs´ı), ale uˇz bez poˇctu cigaret. Tentokr´at je ”nejlepˇs´ım” st´atem Mississippi, Utah je aˇz na druh´em m´ıstˇe. Objekty se posunuly jen nˇekter´e a pouze nepatrnˇe, tedy poznatky o geografick´em rozloˇzen´ı z˚ ust´avaj´ı zachov´any. Z dan´ ych z´avˇer˚ u m˚ uˇzeme usuzovat, ˇze na tento graf promˇenn´a cigarety nem´a t´emˇeˇr ˇza´dn´ y vliv, proto je celkem jedno, jestli ji vynech´ame. J´a osobnˇe bych ji ale asi zachovala. Uk´aˇze n´am totiˇz vliv kouˇren´ı na vznik jednotliv´ ych druh˚ u rakovin. I kdyˇz nˇekter´e z´avˇery nejsou na prvn´ı pohled zˇrejm´e (napˇr´ıklad jiˇz zm´ınˇen´a rakovina moˇcov´eho mˇech´ yˇre), zd´a se, ˇze jsou spr´avn´e.
34
Z´ avˇ er Pˇrizn´av´am, ˇze psan´ı toho textu pro mˇe nˇekdy nebylo jednoduch´e, pˇredevˇs´ım se ”prokousat” nˇekter´ ymi ˇca´stmi teorie. Naopak pˇri ˇca´sti praktick´e jsem se ”vyˇra´dila”. Hled´an´ı vhodn´ ych pˇr´ıklad˚ u sice bylo ze zaˇca´tku sloˇzit´e, nakonec jsem ale, douf´am, naˇsla zaj´ımav´e nejen z matematick´eho, ale i interpretaˇcn´ıho hlediska. Nejzaj´ımavˇejˇs´ı pro mˇe byl pˇr´ıklad o zemˇedˇelstv´ı; ne, ˇze bych skuteˇcnosti obsaˇzen´e v tabulce neznala, sp´ıˇse mˇe zaujalo, jak se s daty d´a pracovat a kolik existuje moˇzn´ ych postup˚ u. Moˇzn´a i proto je tento pˇr´ıklad nejobs´ahlejˇs´ı. Kdyˇz jsem se seznamovala s t´ematem a vidˇela prvn´ı pˇr´ıklady, mˇela jsem pocit, ˇze je interpretace biplotu velmi jednoduch´a. Z´akladn´ı pravidla pro ”v´ yklad” graf˚ u jsou dan´a. Ve sv´ ych pˇr´ıkladech jsem se ale pˇresvˇedˇcila, ˇze aˇckoliv graf vypad´a jednoduˇse, v´ yklad m˚ uˇze b´ yt nˇekdy obt´ıˇznˇejˇs´ı. To je tak´e vidˇet v pˇr´ıkladu Inteligence a tˇelesn´e proporce. Moje slova z u ´vodu, ˇze grafick´a reprezentace m˚ uˇze b´ yt jednoduch´a i pro matematick´eho laika, je tedy pˇrece jen nutn´e ponˇekud relativizovat. Pˇresnˇeji bych tedy tuto myˇslenku formulovala tak, ˇze i laik se m˚ uˇze v biplotu vyznat a ”ˇc´ıst” v nˇem, ovˇsem tento mus´ı m´ıt t´eˇz kvalitn´ı koment´aˇr pˇr´ısluˇsn´eho odborn´ıka.
35
Pˇ r´ıloha A V´ ysledky student˚ u prvn´ıho roˇcn´ıku vysok´e ˇskoly technick´eho smˇeru. Student 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
ME 77 63 75 55 63 53 51 59 62 64 52 55 50 65 31 60 44 42 62 31 44 49 12 49 54 54 44 18 46 32 30 46 40 31 36 56
AG 82 78 73 72 63 61 67 70 60 72 64 67 50 63 55 64 69 69 46 49 61 41 58 53 49 53 56 44 52 45 69 49 27 42 59 40
LA 67 80 71 63 65 72 65 68 58 60 60 59 64 58 60 56 53 61 61 62 52 61 61 49 56 46 55 50 65 49 50 53 54 48 51 56
AN 67 70 66 70 70 64 65 62 62 62 63 62 55 56 57 54 53 55 57 63 62 49 63 62 47 59 61 57 50 57 52 59 61 54 45 54
ES 81 81 81 68 63 73 68 56 70 45 54 44 63 37 73 40 53 45 45 62 46 64 67 47 53 44 36 81 35 64 45 37 61 68 51 35
36
Student 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
ME 46 45 42 40 23 48 41 46 46 40 49 22 35 48 31 17 49 59 37 40 35 38 43 39 62 48 34 18 35 59 41 31 17 34 46 10
AG 56 42 60 63 55 48 63 52 61 57 49 58 60 56 57 53 57 50 56 43 35 44 43 46 44 38 42 51 36 53 41 52 51 30 40 46
LA 57 55 54 53 59 49 49 53 46 51 45 53 47 49 50 57 47 47 49 48 41 54 38 46 36 41 50 40 46 37 43 37 52 50 47 36
AN 49 56 49 54 53 51 46 41 38 52 48 56 54 42 54 43 39 15 28 21 51 47 34 32 22 44 47 56 48 22 30 27 35 47 29 47
ES 32 40 33 25 44 37 34 40 41 31 39 41 33 32 34 51 26 46 45 61 50 24 49 43 42 33 29 30 29 19 33 40 31 36 17 39
Student 73 74 75 76 77 78 79 80
ME 46 30 13 49 18 8 23 30
AG 37 34 51 50 32 42 38 24
LA 45 43 50 38 31 48 36 43
AN 15 46 25 23 45 26 48 33
ES 30 18 31 9 40 40 15 25
37
Student 81 82 83 84 85 86 87 88
ME 3 7 15 15 5 12 5 0
AG 9 51 40 38 30 30 26 40
LA 51 43 43 39 44 32 15 21
AN 47 17 23 28 36 35 20 9
ES 40 22 18 17 18 21 20 14
Pˇ r´ıloha B Hektarov´e v´ ynosy skliznˇe hlavn´ıch zemˇedˇelsk´ ych plodin podle kraj˚ u v roce 2007. ´ Uzem´ ı SPZ Hlavn´ı mˇesto Praha A Stˇredoˇcesk´ y S Jihoˇcesk´ y C Plzeˇ nsk´ y P Karlovarsk´ y K ´ U Usteck´ y Libereck´ y L Kr´alovehradeck´ y H Pardubick´ y E Vysoˇcina J Jihomoravsk´ y B Olomouck´ y M Zl´ınsk´ y Z Moravskoslezsk´ y T
Pˇsenice 5.29 5.02 4.75 4.74 4.73 4.93 4.64 5.02 4.93 4.75 4.54 5.23 4.86 4.87
Jeˇcmen Brambory 3.78 24.26 3.88 26.19 3.91 28.37 4.07 27.77 3.85 28.77 3.69 24.88 3.72 27.79 4.20 26.09 3.87 27.41 3.73 28.59 3.30 21.73 3.88 25.10 3.81 25.58 3.78 26.36
ˇ Repka Sluneˇcnice P´ıcniny 3.18 2.13 6.34 3.09 2.13 6.48 3.00 2.00 6.35 3.03 2.01 6.33 3.01 2.00 5.40 3.11 2.13 6.49 3.03 2.10 5.73 3.10 2.12 6.27 3.07 2.16 6.13 3.00 2.04 5.99 3.02 2.12 6.30 3.14 2.28 6.62 3.09 2.23 6.50 3.05 2.29 5.69
´ Udaje jsou uvedeny v tun´ach.
Pˇ r´ıloha C Pˇreˇsk´alovan´a tabulka Hektarov´e v´ ynosy skliznˇe hlavn´ıch zemˇedˇelsk´ ych plodin podle kraj˚ u v roce 2007. ´ Uzem´ ı SPZ Hlavn´ı mˇesto Praha A Stˇredoˇcesk´ y S Jihoˇcesk´ y C Plzeˇ nsk´ y P Karlovarsk´ y K ´ Usteck´ y U Libereck´ y L Kr´alovehradeck´ y H Pardubick´ y E Vysoˇcina J Jihomoravsk´ y B Olomouck´ y M Zl´ınsk´ y Z Moravskoslezsk´ y T
ˇ Pˇsenice Jeˇcmen Brambory Repka Sluneˇcnice P´ıcniny 1.94053570 -0.19378343 -1.062253797 2.07219013 0.06050784 0.4264185 0.66705915 0.29948349 -0.080985503 0.44034040 0.06050784 0.8169700 -0.60641741 0.44746356 1.027390083 -1.19150932 -1.31604545 0.4543150 -0.65358320 1.23669064 0.722332582 -0.64755941 -1.21015674 0.3985220 -0.70074900 0.15150341 1.230761750 -1.01019269 -1.31604545 -2.1958560 0.24256696 -0.63772366 -0.747027713 0.80297367 0.06050784 0.8448665 -1.12524119 -0.48974359 0.732501165 -0.64755941 -0.25715831 -1.2752703 0.66705915 1.87793763 -0.131828420 0.62165704 -0.04538088 0.2311427 0.24256696 0.25015680 0.539298082 0.07770713 0.37817398 -0.1594088 -0.60641741 -0.44041689 1.139244500 -1.19150932 -0.89249060 -0.5499603 -1.59689917 -2.56146465 -2.348579591 -0.82887605 -0.04538088 0.3148323 1.65754091 0.29948349 -0.635173296 1.34692358 1.64883856 1.2075215 -0.08759363 -0.04580336 -0.391127296 0.44034040 1.11939498 0.8727631 -0.04042783 -0.19378343 0.005447455 -0.28492614 1.75472727 -1.3868564
Bezrozmˇern´a jednotka.
38
Pˇ r´ıloha D IQ a tˇelesn´e proporce student˚ u Jihoz´apadn´ı univerzity. Gender F01 M01 M02 F02 F03 F04 F05 M03 M04 F06 M05 M06 F07 F08 F09 F10 M07 F11 M08 M09 F12 M10 F13 M11 F14 M12 F15 F16 F17 M13 M14 M15 F18 F19 M16 F20 M17 M18
FSIQ 133 139 133 137 99 138 92 89 133 132 141 135 140 96 83 132 100 101 80 97 135 139 91 141 85 103 77 130 133 144 103 90 83 133 140 88 81 89
VIQ 132 123 129 132 90 136 90 93 114 129 150 129 120 100 71 132 96 112 77 107 129 145 86 145 90 96 83 126 126 145 96 96 90 129 150 86 90 91
PIQ 124 150 128 134 110 131 98 84 147 124 128 124 147 90 96 120 102 84 86 84 134 128 102 131 84 110 72 124 132 137 110 86 81 128 124 94 74 89
Weight 118 143 172 147 146 138 175 134 172 118 151 155 155 146 135 127 178 136 180 186 122 132 114 171 140 187 106 159 127 191 192 181 143 153 144 139 148 179 39
Height 64.5 73.3 68.8 65.0 69.0 64.5 66.0 66.3 68.8 64.5 70.0 69.0 70.5 66.0 68.0 68.5 73.5 66.3 70.0 76.5 62.0 68.0 63.0 72.0 68.0 77.0 63.0 66.5 62.5 67.0 75.5 69.0 66.5 66.5 70.5 64.5 74.0 75.5
Pˇ r´ıloha E Poˇcet vykouˇren´ ych cigaret a v´ yskyt 4 druh˚ u rakoviny ve vybran´ ych st´atech USA. St´at Alabama Arizona Arkansas California Connecticut Delaware District of Columbia Florida Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Oregon Nebraska New Jersey New Mexico New York North Dakota Ohio Oklahoma Pennsylvania Rhode Island South Carolina South Dakota Tennessee Texas
Zkratka AL AZ AR CA CT DE DC FL ID IL IN IO KS KY LA ME MD MA MI MN MS MO MT NB NE NJ NM NY ND OH OK PE RI SC SD TE TX
CIG 18.20 25.82 18.24 28.60 31.10 33.60 40.46 28.27 20.10 27.91 26.18 22.12 21.84 23.44 21.58 28.92 25.91 26.92 24.96 22.06 16.08 27.56 23.75 23.32 42.40 28.64 21.16 29.14 19.96 26.38 23.44 23.78 29.18 18.06 20.94 20.08 22.57 40
BLAD 2.90 3.52 2.99 4.46 5.11 4.78 5.60 4.46 3.08 4.75 4.09 4.23 2.91 2.86 4.65 4.79 5.21 4.69 5.27 3.72 3.06 4.04 3.95 3.72 6.54 5.98 2.90 5.30 2.89 4.47 2.93 4.89 4.99 3.25 3.64 2.94 3.21
LUNG 17.05 19.80 15.98 22.07 22.83 24.55 27.27 23.57 13.58 22.80 20.30 16.59 16.84 17.71 25.45 20.94 26.48 22.04 22.72 14.20 15.60 20.98 19.50 16.70 23.03 25.95 14.59 25.02 12.12 21.89 19.45 12.11 23.68 17.45 14.11 17.60 20.74
KID 1.59 2.75 2.02 2.66 3.35 3.36 3.13 2.41 2.46 2.95 2.81 2.90 2.88 2.13 2.30 3.22 2.85 3.03 2.97 3.54 1.77 2.55 3.43 2.92 2.85 3.12 2.52 3.10 3.62 2.95 2.45 2.75 2.84 2.05 3.11 2.18 2.69
LEUK 6.15 6.61 6.94 7.06 7.20 6.45 7.08 6.07 6.62 7.27 7.00 7.69 7.42 6.41 6.71 6.24 6.81 6.89 6.91 8.28 6.08 6.82 6.90 7.80 6.67 7.12 5.95 7.23 6.99 7.38 7.46 6.83 6.35 5.82 8.15 6.59 7.02
St´at Utah Vermont Washington Wisconsin West Virginia Wyoming Alaska
Zkratka UT VT WA WI WV WY AK
CIG 14.00 25.89 21.17 21.25 22.86 28.04 30.34
BLAD 3.31 4.63 4.04 5.14 4.78 3.20 3.46
Pˇ r´ıloha F Spojen´e st´aty americk´e
41
LUNG 12.01 21.22 20.34 20.55 15.53 15.92 25.88
KID 2.20 3.17 2.78 2.34 3.28 2.66 4.32
LEUK 6.71 6.56 7.48 6.73 7.38 5.78 4.90
Literatura [1] Andˇel, J., Matematick´a statistika, 1. vyd´an´ı, Praha, Praha, SNTL + Alfa, 1978. [2] Andˇel, J., Statistick´e metody, 3. vyd´an´ı, Praha: MATFYZPRESS, 2003. [3] Andˇel, J., Z´aklady matematick´e statistiky, 2. opraven´e vyd´an´ı, Praha: MATFYZPRESS, 2007. [4] Filzmoser, P., Multivariate Statistik, TU Wien, 2007. [5] Gabriel, K. R., The biplot graphic display of matrices with application to principal component analysis, Biometrika, 1971. [6] Gower, J.C., Hand, D.J, Biplots, Chapman & Hall, London, UK, 1996. [7] Heb´ak, P. a kol., V´ıcerozmˇern´e statistick´e metody [3], 1. vyd´an´ı, Praha: INFORMATORIUM, 2005. [8] Heb´ak, P., Hustopeck´ y, J., V´ıcerozmˇern´e statistick´e metody s aplikacemi, 1. vyd´an´ı, Praha, SNTL + Alfa, 1987. [9] Jukl, M., Line´arn´ı algebra - Euklidovsk´e vektorov´e prostory, Homomorfizmy vektorov´ych prostor˚ u, 1. vyd´an´ı, Olomouc: Univerzita Palack´eho Olomouc, 2006. [10] Mahalanobis distance [online], dostupn´e z: http://en.wikipedia.org/wiki/ Mahalanobis distance [citov´ano 7. 5. 2009]. [11] Massart, D.L, Vander Heyden, Y., From tables to visuals: PCA I, PCA II, Vrije Universiteit Brussel, Belgium, ˇcl´anek v ˇcasopise [online], dostupn´e z: http://chromatographyonline.findanalytichem.com/lcgc/data/ articlestandard/lcgceurope/462004/133038/article.pdf [citov´ano 6. 4. 2009]. [12] N´apovˇeda k softwaru R [online], dostupn´e z: http://www.r-project.org/ [citov´ano 20. 10. 2009]. [13] Rakovina moˇcov´eho mˇech´ yˇre [online], dostupn´e z: http://theses.cz/id/jawkgj [citov´ano 12. 10. 2009]. [14] Singular value decomposition [online], dostupn´e z: http://en.wikipedia.org/ wiki/Singular Value Decomposition [citov´ano 16. 4. 2009]. [15] Spojen´e st´aty americk´e [online], dostupn´e z: http://cs.wikipedia.org/ wiki/Spojen´e st´aty americk´e [citov´ano 14. 9. 2009].
42
ˇ e republiky 2008 - Zˇemˇedˇelstv´ı, tabulka 14-9 [16] Statistick´a roˇcenka Cesk´ Hektarov´e v´ ynosy skliznˇe hlavn´ıch zemˇedˇelsk´ ych plodin podle kraj˚ u v roce 2007 [online], dostupn´e z: http://www.czso.cz/csu/2008edicniplan.nsf/ kapitola/10n1-08-2008-1400 [citov´ano 20. 7. 2009]. [17] The data and story library - Brain Size [online], dostupn´e z: http:// lib.stat.cmu.edu/DASL/Datafiles/Brainsize.html [citov´ano 1. 8. 2009]. [18] The data and story library - Smoking and Cancer [online], dostupn´e z: http:// lib.stat.cmu.edu/DASL/Datafiles/cigcancerdat.html [citov´ano 18. 8. 2009].
43