Diskriminační analýza DA Diskriminační analýza patří mezi metody zkoumání závislosti mezi skupinou p nezávisle proměnných, nazvaných diskriminátory, tj. sloupců zdrojové matice na jedné straně a jednou kvalitativní závisle proměnnou na druhé straně. Umožňuje zařazení objektu do jedné z již existujících tříd. Ve vstupních datech jsou svými hodnotami diskriminátorů u všech objektů dány zařazené objekty do primárních tříd. Dále jsou dány nezařazené objekty, pro které budeme hledat zařazení do třídy. Objekt zařadíme do třídy na základě jeho největší míry podobnosti, např. nejmenší Mahalanobisovy vzdálenosti. Diskriminační (zařazovací) pravidla: při diskriminační analýze se snažíme vyčíslit hodnotu diskriminační funkce, která nám usnadní zařazení do primární třídy. Takto vyčíslené hodnoty funkce používáme také ke třídění nezařazených objektů do předem známých primárních tříd, a to na základě p diskriminátorů x1, x2, ..., xp. Každá primární třída je charakterizována svou funkcí hustoty pravděpodobnosti fj(x), kde xT = [x1, x2, ..., xp]. Existuje citlivé pravidlo pro zařazení, diskriminaci objektu vektoru x do třídy Gj f j (x )
max f i (x )
i 1,...,g
Uveďme příklady diskriminace: 1. Existuje jednoduchá binární proměnná x a dvě třídy G1 a G2. Nejprve předpokládejme, že pravděpodobnost Pr(x = 0) = Pr(x = 1) = 1/2 a dále pravděpodobnost Pr(x = 0) = 1/4 a pravděpodobnost Pr(x = 1) = 3/4. Pravidlo zařadí objekt x = 0 do G1 a objekt x = 1 do G2. 2. Předpokládejme spojitou jednoduchou proměnnou x a opět dvě třídy G1 a G2. Ve třídě G1 má proměnná normální rozdělení se střední hodnotou µ 1 a rozptylem σ21, a ve třídě G2 má proměnná rovněž normální rozdělení se střední hodnotou µ 2 a rozptylem σ22, při čemž budeme předpokládat µ 1 < µ 2 a σ21 > σ21. Pomocí diskriminačního pravidla f j(x) bude objekt o skóre x zařazen do třídy G1, když bude platit f1(x) > f2(x). Nahrazením skutečnou hustotou pravděpodobnosti normálního rozdělení dostaneme pravidlo k zařazení objektu x do třídy G1: 2 σ1 (x µ 2 )2 1 (x µ 1 ) exp σ2 2 σ21 σ22
> 1
a po zlogaritmování a úpravě bude toto pravidlo ve tvaru x2
1
σ21
1
σ21
2x
µ1
σ21
µ2
σ22
2
µ1
σ21
2
µ2
σ22
< 2 ln
σ1 σ2
Dle tohoto pravidla dojde k rozdělení hodnot x do dvou tříd: první třída G1 bude obsahovat malé hodnoty x a druhá třída G2 velké hodnoty x. Ve zvláštním případě σ1 = σ2 dostaneme pravidlo pro zařazení do třídy G1 ve znění *x - µ 2* > *x - µ 1*. Bude-li navíc µ 1 < µ 2, objekt se skóre x padne do třídy G1, když bude platit, že x < (µ 1 + µ 2)/2. Zobecnění diskriminačního pravidla: G1 je třída objektů s vícerozměrným normálním rozdělením a střední hodnotou µ 1 a G2 obdobně se střední hodnotou µ 2. Předpokládejme, že kovarianční matice obou tříd jsou stejné a užijeme proto pro ně společné označení S. Obecné pravidlo zařazení objektu o vektoru x do třídy G1 bude (µ1
µ2) S 1 x
µ1
µ2 2
> 0
Když třídy mají známé hustoty pravděpodobnosti rozličných rozdělení π1, π2, ..., πp, bude pravidlo o zařazení do třídy upraveno následovně: jde-li o 2 třídy, bude pravidlo ve tvaru (µ1
µ2) S 1 x
µ1
µ2 2
> ln
π1 π2
Lineární diskriminační funkce (LDA): z diskriminačních funkcí je neznámější Fisherova lineární diskriminační funkce tvaru zi ai1 x1 ai2 x2 ai3 x3 ... aip xp , kde p je počet proměnných primárních tříd čili počet diskriminátorů a x1, x2, ..., xp jsou standardizované hodnoty těchto proměnných. Parametry zi nazýváme standardi-zované klasifikační koeficienty Fisherovy diskriminační funkce aT = [a1, a2, ..., ap], které byly nalezeny tak, že poměr rozptylu mezi třídami B a rozptylu uvnitř tříd S V = aT B a /(aT S a) je maximální. Zde B je kovarianční matice třídních průměrů a S je celková kovarianční matice uvnitř tříd. Vektor a, který maximalizuje poměr V, se vypočte ze vztahu (B λ S) a 0 . V případě pouze dvou tříd budou klasifikační koeficienty diskriminační funkce aT = [a1, a2, ..., ap] vypočteny jednoduchým vztahem a S 1(x¯ 1 x¯ 2 ) .
Vzorová úloha 4.7 Užití lineární diskriminační funkce Předpokládejme, že máme data o 2 třídách objektů Tibetských lebek v úloze B4.14 Aglomerativní hierarchické shlukování při analýze lebek Tibeťanů: prvních 13 bylo nalezeno v hrobech v Sikkimu a okolí, zatímco druhých 15 T lebek na bojištích okolo Lhasy. První třída vede ke středním hodnotám x¯ 1 = [174.82, 139.35, 132.00, 69.82, 130.35] a kovarianční matici 45.53 /
/
25.22 57.81
S1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
12.39 11.88 36.09 22.15 7.52 0.31 20.94 27.97 48.06 1.41 16.77 66.21
0
0
0
0
0
0
T
Druhá třída vede ke středním hodnotám x¯ 1 = [185.73, 138.73, 134.77, 76.47, 137.50] a kovarianční matici 74.42
9.52 37.35 S2 22.74 11.26 36.32 17.79 0.70 10.72 15.30 /
/
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
11.13 9.46 7.20 8.66 17.96
0
0
0
0
0
0
Koeficienty diskriminační funkce jsou vyčísleny vztahem a S 1(x¯ 1 x¯ 2 ) = [-0.09, 0.16, 0.01, -0.18, -0.18] a vedou k průměrům u obou tříd: z¯1 = -28.71 a z¯2 = -32.21. Hraniční bod, dle kterého se budou nezařazené objekty t řídit do první nebo druhé třídy se vyčíslí jako polosuma obou průměrů ( z¯1 + z¯2 )/2 = ((-28.71) + (-32.21))/2 = 30.46. Diskriminace: vezmeme lebku prvního Tibetana z dat všech lebek a pokusíme se ji diskriminovat čili zařadit do 1. nebo 2. třídy. Vyčísleme pro ní hodnotu lineární diskriminační funkce z1 = -0.09 × 190.5 +0.16 × 152.5 + 0.01 × 145.0 - 0.18 × 73.5 - 0.18 × 136.5 = -29.74, a protože -29.74 je menší než hraniční bod -30.46, patří lebka prvního Tibeťana do první třídy. Kvadratická diskriminační funkce (QDA): jsou-li střední hodnoty dvou souborů µ 1 a µ 2 shodné, ale soubory se liší v kovariančních maticích S1 a S2, lineární diskriminační funkci nelze použít, což dokumentuje příklad 1.0 0.0 Soubor G1: µ1T = [0, 0], S1 0.0 1.0
Soubor G2:
µ2T = [0, 0], S2
4.0 0.0
0.0 4.0 Potom se užije kvadratická diskriminační funkce. Objekt o vektoru x bude patřit do třídy G1, když bude splněna nerovnost T
1
µ1 (S2
S11) x 2 x T (S21 µ2 S11 µ1)
(µT2 S21 µ2 µT1 S11 µ1)
$
*S1*
ln
*S2*
2 ln
π1 π2
kde S1 a S2 jsou kovarianční matice pro 1. a 2. třídu, G1 a G2. Diskriminace mezi více než 2 třídami: pro tři třídy budou tři lineární diskrimi-nační funkce nabývat následujících tvarů: x¯ x¯ 2 h12 (x¯ 1 x¯ 2)T S 1 x 1 2 h13
(x¯ 1 x¯ 3)T S 1 x
x¯ 1
h23
(x¯ 2 x¯ 3)T S 1 x
x¯ 2
x¯ 3 2
x¯ 3
2 kde S je vážená kovarianční matice všech tříd. Klasifikační pravidla zařazení objektu do dotyčné třídy jsou umístění objektu do první třídy G1 nastane, když h12(x) > 0 a h13(x) > 0, umístění objektu do druhé třídy G2 nastane, když h12(x) < 0 a h23(x) > 0, umístění objektu do třetí třídy G3 nastane, když h13(x) > 0 a h23(x) < 0. Kvalita zařazení objektů do tříd (diskriminace): předpokládejme, že máme data o K třídách s Nk, k = 1, ..., K, objekty v každé třídě, N představuje celkový počet objektů (např. N = N1 + N2 + N3 = 150). Každý objekt je popsán p diskriminátory. Takže každý i-tý objekt je prezentován prvkem xki. Nechť x¯ představuje vektor průměrů těchto diskriminátorů ve všech třídách a x¯ k pak vektor průměrů objektů v k-té třídě. Definujme sumy čtverců ST, SW, SB odchylek od středních hodnot vztahy ST
SW
j j (x
x¯) ( xki x¯)T
j j (x
x¯ k) ( xki x¯ k)T
K
Nk
ki
k1 i1 K
Nk
k1 i1
ki
SB = ST - SW a definujme stupně volnosti, df1 a df2, vztahy df1 = K - 1 a df2 = N - K. Diskriminační funkcí je vážený průměr hodnot nezávisle proměnných. Váhy jsou přitom voleny tak, že výsledný vážený průměr rozděluje objekty do tříd. Vysoké hodnoty průměru pocházejí z jedné třídy, nízké hodnoty průměru pocházejí z jiné třídy. Problém spočívá v nalezení vah tak, aby dobře diskriminovaly objekty do tříd. Řešení spočívá v nalezení vlastních vektorů V matice SW-1 SB . Kanonické koeficienty jsou totiž prvky těchto vlastních vektorů. Mírou těsnosti proložení je potom Wilkovo kritérium λ, definované vztahem
λ
*S W* *S T*
k 11λ m
j1
j
kde λj je j-té vlastní číslo, odpovídající vlastnímu vektoru, popsanému výše a m je minimum ze dvou čísel, K-1 a p. Kanonická korelace mezi j-tou diskriminační funkcí a nezávisle proměnnými či diskriminátory je vztažena k těmto vlastním číslům následovně
rcj
λj
1
λj
Řada rozličných matic potřebných v diskriminační analýze je definována vztahy:
celková kovarianční matice
T
kovarianční matice uvnitř tříd
W
kovarianční matice mezi třídami
B
1 N
1
1 N
K
1 K
ST ,
1
SW ,
SB ,
zk = W-1 x¯ k ,
lineární diskriminační funkce standardizované kanonické koeficienty
vij wij ,
kde vji jsou prvky V a wij prvky matice W. Korelace mezi nezávisle proměnnými a kanonickými proměnnými jsou dány vztahem Corrjk
1
wjj
jv p
ik
i1
wji .
Logistická diskriminace: Fisherova lineární diskriminace je optimální, když dva soubory mají vícerozměrné normální rozdělení se stejnými kovariančními maticemi. Tato diskriminační funkce se jeví také dostatečně robustní na odchylky od normality. Existuje však řada případů silné nenormality, např. přítomnost binárních proměnných. Pak je možné užít logistický model k výpočtu pravděpodobnosti, že objekt je členem dotyčné třídy: Pr (G1* x)
Pr (G2* x)
exp(β0
1
β1 x1
exp (β0
β1 x1
β2 x2
β2
... βp xp ) , x2 ... βp xp )
1 1
exp (β0
β1 x1
β2 x2
...
βp xp )
Neznámé parametry β0, β1, β2, ..., βp jsou odhadovány na základě maximální věrohodnosti. Důležité je, že odhad je zcela nezávislý na funkci hustoty třídní pravděpodobnosti. Po vyčíslení odhadů b0, b1, b2, ..., bp neznámých parametrů β0, β1, β2, ..., βp se uplatní klasifikační pravidlo zařazení objektu do třídy G1, platí-li b0 b1 x1 b2 x2 ... bp xp > 0 , což odpovídá pravděpodobnosti Pr(G1* x) > Pr(G2* x).
Vzorová úloha 4.8 Užití logistické diskriminace Logistickou diskriminaci budeme demonstrovat na Úloze B4.12 Aplikace logistické diskriminační analýzy u rakoviny prostaty. Režim léčení je závislý na rozšíření rakoviny na lymfatické uzliny. Rozhodující metodou vyšetření je laparotomie, vyjádřená proměnnou B412x6: je-li výsledek laparotomického vyšetření 0, jde o absenci a je-li roven 1, jde o přítomnost nodálního rozšíření rakoviny. Brownův postup následujícího vyšetření pěti diskriminantů u 53 pacient ů by měl do jisté míry nahradit právě toto obtížnější laparotomické vyšetření. Brown ve své studii použil databázi: i je index pacienta, B412x1 věk pacienta, B412x2 hladina sérové kyselé fosfatázy v King-Armstrongových jednotkách, B412x3 výsledek roentgenového vyšetření (=0, negativní, =1 pozitivní), B412x4 velikost tumoru rektálním vyšetřením (=0 malý, =1 velký), B412x5 závěr pathologického bodování z biopsie (=0 méně vážný, =1 velmi vážný). Diskriminace: odhady parametrů (včetně svých směrodatných odchylek v závorce) k vyčíslení logistické diskriminační funkce jsou b0 1.52 (3.56), b1 0.10 (0.06), b2 2.64 (1.33), b3 1.68 (0.80), b4 2.04 (0.83), b5 0.35 (0.80).
Tyto odhady vedou k formulaci klasifikačního pravidla, zda má pacient rakovinu lymfatických uzlin či ne. Pacient rakovinu lymfatických uzlin nemá a je diskriminována do 1. třídy, je-li splněna nerovnost 1.52 - 0.10 x1 + 2.64 x2 + 1.68 x3 + 2.04 x4 + 0.35 x5 > 0. Není-li splěna tato nerovnost, je pacient diskriminován do 2. třídy s rakovinou lymfatických uzlin. Dosadíme-li do této nerovnosti hodnoty prvního pacienta z databáze, dostaneme 1.52 - 0.10 × 66 + 2.64 × 0.48 + 1.68 × 0 + 2.04 × 0 + 0.35 × 0 = -3.81. Protože výsledek -3.81 není větší než nula, je pacient diskriminován do 1. třídy bez rakoviny lymfatických uzlin, což potvrdilo konečně i laparotomické vyšetření. Posouzení správnosti diskriminace: po aplikaci diskriminační funkce k zařazení objektů do tříd je třeba posoudit správnost diskriminace. Aplikaci diskriminace na data objektů vyhodnotíme jejich chybné zařazení do tříd: (a) Křížová tabulka diskriminace: ukážeme křížovou tabulku zařazených objektů na konkrétním příkladu např. databáze lebek Tibeťanů. Sestavíme křížovou tabulku původního (správného) umístění objektů (lebek) do tříd a nalezeného zařazení do tříd diskriminací. Výsledkem bude tabulka správnosti klasifikace diskriminační analýzou, kde nesprávné zařazení je zvýrazněno tučným písmem: Známo (správné třídy) 1 2 1 14 3 Nalezeno diskriminací 2 12 3 Nesprávného umístění je 100% . 6/32 = 19%. Výhodou této techniky je právě její jednoduchost, nevýhodou příliš optimistické závěry, ke kterým většinou metoda dospěje. (b) Postupné vypouštění “vždy jednoho objektu”: spolehlivější výsledky přináší modifikace předešlého způsobu. Vytvoříme primární třídy pro n - 1 objektů a vyšetřujeme zařazení jediného dosud nezařazeného objektu. Postup n krát opakujeme tak, že postupně vyšetřujeme zařazení všech objektů testovaného souboru. Užijeme-li i zde databáze lebek Tibeťanů, obdržíme tabulku správnosti klasifikace diskriminační analýzou, kde nesprávné zařazení je zvýrazněno tučným písmem: Známo (správné třídy) 1 2 1 12 5 Nalezeno diskriminací 2 9 6 Nesprávného umístění je 100% . 11/32 = 34%, což je téměř dvojnásobek než u předešlé příliš optimistické metody. Volba proměnných: otázkou v diskriminační analýze je, zda volba proměnných je schopna provést zařazení objekt ů do tříd čili diskriminaci. Byla navržena řada postupů jak provést volbu těch nejúčinnějších proměnných. Principem většiny metod je zajištění dostatečné separability tříd a volba takových proměnných, které vedou k maximalizaci nějaké míry. Jindy se volí postup, který začne se všemi původními proměnnými a postupně se vypouštějí takové, které vedou k nedostatečné redukci separace. K ilustraci užijeme databáze lebek Tibeťanů z úlohy B4.14 Aglomerativní hierarchické shlukování při analýze lebek Tibeťanů. Užijeme pouze jednu proměnnou, B414x4 výšku horní části obličeje [mm]. Dostaneme velmi jednoduché klasifikační pravidlo: zařazení lebky do 1. třídy bude tehdy, když výška horní části obličeje bude menší než 73.14 mm. Optimistický odhad chybné klasifikace je 25%. Krokový postup u logistické diskriminace úlohy B4.12 Aplikace logistické diskriminační analýzy u rakoviny prostaty vede k volbě tří nejúčinnějších proměnných: B412x2 hladina sérové kyselé fosfatázy v KingArmstrongových jednotkách, B412x3 výsledek roentgenového vyšetření (=0, negativní, =1 pozitivní), B412x4 velikost tumoru rektálním vyšetřením (=0 malý, =1 velký).
Postup klasifikace diskriminační analýzou 1. Bodové odhady parametrů polohy a rozptýlení všech diskriminátorů: vyčíslí se (a) aritmetické průměry ve třídách, (b) směrodatné odchylky ve třídách, (c) celková korelační a kovarianční matice všech diskriminátorů, (d)
mezitřídní korelace a kovariance za použití průměrů místo hodnot objektů, (e) vnitrotřídní korelace a kovariance za použití dat, ve kterých byly třídní průměry odečteny a provede se zhodnocení dosažených výsledků. 2. Vyšetření vlivu jednotlivých diskriminátorů: vliv jednotlivých diskriminátorů na výsledky diskriminační analýzy se sleduje pomocí testačních statistik při odstranění tohoto diskriminátoru. 3. Odhady neznámých parametrů b0, b1, ..., bp lineární diskriminační funkce pro každou třídu: odhady neznámých parametrů b0, b1, ..., bp jsou mezivýpočtem k vyčíslení diskriminačního skóre. 4. Odhady regresních parametrů b0, b1, ..., bp lineárního regresní modelu pro každou třídu: predikované hodnoty t ěmito regresními parametry budou ležet mezi nulou a jedničkou. Zařazení se provede na základě třídy s nejvyšším skóre blízkým jedničce. 5. Klasifikace objektů diskriminační funkcí (diskriminace do tříd): provede se (a) vyčíslení klasifikačních počtů objektů v jednotlivých třídách po diskriminaci do tříd, (b) přehled chybně klasifikovaných objektů tak, že vedle skutečné třídy je predikovaná třída a procento pravděpodobnosti výskytu objektu v predikované třídě, (c) přehled klasifikovaných objektů - skutečná (primární) třída, predikovaná třída všech objektů a procento pravděpodobnosti výskytu objektu v predikované třídě. 6. Kanonická korelační analýza: (a) analýza kanonických proměnných: první soubor obsahuje diskriminátory a druhý soubor třídní proměnné, (b) odhady parametrů u kanonických proměnných, (c) kanonické proměnné u třídních průměrů, (d) standardizované kanonické koeficienty slouží k výpočtu kanonického skóre, což jsou vážené průměry objektů, (e) korelace původních a kanonických proměnných představuje zátěže (korelace) původních proměnných na kanonické proměnné. Tím se usnadní vysvětlení dotyčné kanonické proměnné. 7. Lineární diskriminační skóre všech objektů: jsou vyčísleny hodnoty predikovaných skóre lineárních diskriminačních proměnných pro všechny objekty. 8. Regresní skóre všech objektů: hodnoty predikovaných skóre regresních proměnných pro všechny objekty jsou založeny na regresních koeficientech. 9. Kanonické skóre: hodnoty predikovaných skóre kanonických proměnných pro všechny objekty jsou založeny na kanonických koeficientech. 10. Volba proměnných: z velké palety diskriminátorů se vybírají pouze ty, které jsou dostatečně účinné, maximálně 8 proměnných. Výběr se provádí krokově: k nejlepšímu diskriminátoru se nalezne druhý nejlepší tak, že se prověří zda diskriminace bude tak dokonalá jako když byl jeden diskriminátor odebrán. U nové proměnné se ověřuje, zda její F má hodnotu pravděpodobnosti menší než α = 0.05. 11. Výklad grafů: výsledkem diskriminační analýzy je grafické zařazení do tříd. Zobrazení se provede na třech grafech: (a) zobrazení lineárních diskriminačních skóre, (b) zobrazení regresního skóre, a (c) zobrazení kanonického skóre.
Vzorová úloha 4.9 Užití postupu diskriminační analýzy V úloze S2.18 Fisherova úloha rozměrů okvětních lístků u 150 kosatců analyzujte předložený výběr kosatců, obsahujících čtvero popisných rozměrů okvětních lístků (čili diskriminátorů) u 150 květů kosatců (čili objektů), pocházejících ze tří základních tříd: (1) Iris setosa, (2) Iris versicolor, (3) Iris virginica. Z botaniky je známo, že druh Iris versicolor je hybridem zbývajících dvou druhů. Iris setosa je diploidní květ s 38 chromosomy, Iris virginica je tetraploidní a Iris versicolor je hexaploidní s 108 chromosomy. Květy kosatců jsou popsány čtyřmi diskriminátory: délkou kališních lístků v mm anglicky lsepal, šířkou wsepal, dále délkou korunních plátků v mm lpetal a šířkou wpetal. Budeme proto formulovat úlohu: jsou dána data o K třídách, např. K = 3, tři druhy čili třídy kosatců: Setosa, Versicolor a Virginica s Nk, k = 1, ..., K, objekty v každé třídě, např. pro Setosu k = 1 N1 = 50, pro Versicolor k = 2 N2 = 50 a pro Virginica k = 3 N3 = 50, N představuje celkový počet objektů, např. N = N 1 + N 2 + N 3 = 150. Každý objekt je popsán p diskriminátory, např. p = 4, a to Sepal Length, Sepal Width, Petal Length, Petal Width. Takže každý i-tý objekt je prezentován prvkem xki. Nechť x¯ představuje vektor průměrů diskriminátorů ve všech třídách dohromady a x¯ k je vektor průměrů objektů v k-té třídě. Cílem diskriminační analýzy je vyšetřit a ověřitbotanické třídění a odpovědět na otázku, zda botanické třídění kosatců Iris do tří tříd je správné. Nelze zařadit 150 kosatců do jiného počtu tříd? Řešení: Výstup z bloku Discriminant Analysis (NCSS2000) pro Fisherovu úlohu: 1. Výpočet bodových odhadů parametrů polohy a rozptýlení všech diskriminátorů: (a) Aritmetický průměr [mm] u tříd G1 (Setosa), G2 (Versicolor), G3 (Virginica) a celkově: G1 G2 G3
Proměnná Setosa Versicolor Virginica Celkově SepalLength 50.06 59.36 65.88 58.43333 SepalWidth 34.28 27.7 29.74 30.57333 PetalLength 14.62 42.6 55.52 37.58 PetalWidth 2.46 13.26 20.26 11.99333 Počet 50 50 50 150 Tabulka obsahuje průměry každého diskriminátoru, a to v každé třídě kosatců. Poslední řádek obsahuje počet objektů ve třídě. Nadpisy sloupců jsou názvy dotyčné třídy kosatců. Celkově značí všechny třídy dohromady. (b) Směrodatné odchylky [mm] u tříd G1 (Setosa), G2 (Versicolor), G3 (Virginica) a celkově: G1 G2 G3 Proměnná Setosa Versicolor Virginica Celkově SepalLength 3.524897 5.161712 6.358796 8.280662 SepalWidth 3.790644 3.137983 3.224966 4.358663 PetalLength 1.73664 4.69911 5.518947 17.65298 PetalWidth 1.053856 1.977527 2.7465 7.622377 Počet 50 50 50 150 Tabulka obsahuje směrodatné odchylky každého diskriminátoru, a to v každé třídě kosatců. Poslední řádek obsahuje počet objektů ve třídě. Nadpisy sloupců jsou názvy dotyčné třídy kosatců. Celkově značí všechny třídy dohromady. Diskriminační analýza je postavena na předpokladu, že kovarianční matice jsou stejné pro každou třídu. Tato tabulka umožňuje posoudit tento předpoklad, zda totiž jsou směrodatné odchylky ve třídách zhruba stejné. (c) Celkové korelace/kovariance: Proměnná Proměnná SepalLength SepalWidth PetalLength PetalWidth SepalLength 68.56935 -4.243401 127.4315 51.62707 SepalWidth -0.117570 18.99794 -32.96564 -12.16394 PetalLength 0.871754 -0.428440 311.6278 129.5609 PetalWidth 0.817941 -0.366126 0.962865 58.10063 Tabulka obsahuje korelace a kovariance, vytvořené když smíšené proměnné diskriminátorů jsou ignorovány. Korelace jsou v dolní levé části, kovariance jsou v pravé horní části matice. Rozptyly jsou na diagonále matice. (d) Mezitřídní korelace/kovariance: Proměnná Proměnná SepalLength SepalWidth PetalLength PetalWidth SepalLength 3160.607 -997.6334 8262.42 3563.967 SepalWidth -0.745075 567.2466 -2861.98 -1146.633 PetalLength 0.994135 -0.812838 21855.14 9338.7 PetalWidth 0.999768 -0.759258 0.996232 4020.667 Tabulka obsahuje korelace a kovariance, vytvořené za použití průměrů místo jednotlivých objektů. Korelace jsou v dolní levé části, mezitřídní kovariance jsou na diagonále matice a v horní pravé části matice. Všimněte si, že když by byly jenom dvě třídy kosatců, všechny korelace by byly rovny jedné, protože byly vytvořeny pouze ze dvou řádků, totiž ze dvou třídních průměrů. (e) Vnitrotřídní korelace/kovariance: Proměnná SepalLength SepalWidth
SepalLength 26.50082 0.530236
Proměnná SepalWidth PetalLength 9.272109 16.75143 11.53878 5.524354
PetalWidth 3.840136 3.27102
PetalLength 0.756164 0.377916 18.51878 4.266531 PetalWidth 0.364506 0.470535 0.484459 4.188163 Tabulka obsahuje korelace a kovariance, vytvořené z dat, ve kterých byly třídní průměry odečteny. Korelace jsou v dolní levé části, vnitrotřídní kovariance jsou na diagonále a v pravé horní části matice. 2. Vyšetření vlivu jednotlivých diskriminátorů: Proměnná SepalLength SepalWidth PetalLength PetalWidth
Při odstranění této proměnné Lambda F-test Spočtená α 0.938463 4.72 0.010329 0.766480 21.94 0.000000 0.669206 35.59 0.000000 0.743001 24.90 0.000000
Pro tuto samotnou proměnnou R2 Lambda F-test Spočtená α ostatní X 0.381294 119.26 0.000000 0.858612 0.599217 49.16 0.000000 0.524007 0.058628 1180.2 0.000000 0.968012 0.071117 960.01 0.000000 0.937850
Tabulka ukazuje na vliv jednotlivých diskriminátorů proměnných na výsledky diskriminační analýzy. Proměnná: jméno diskriminátoru. Lambda při odstranění této proměnné: hodnota Wilkova lambda, vypočtená k testování důsledku odstranění této diskriminační proměnné. F-test při odstranění této proměnné: hodnota F-kritéria, vyčísleného k testování statistické významnosti Wilkova lambda. Spočtená hladina významnosti při odstranění této proměnné: vypočtená hladina významnosti výše uvedeného F-testu při odstranění této diskriminační proměnné. Test je totiž statisticky významný a diskriminátor je důležitý, je-li tato hodnota menší než uživatelem zadaná hladina významnosti α = 0.05. Lambda pro tuto samotnou proměnnou: jde o hodnotu Wilkova lambda, kterou dostaneme za použití této jediné nezávisle proměnné. F-test pro tuto samotnou proměnnou: jde o testační kritérium, vyčíslené k testování statistické významnosti Wilkova lambda. Spočtená hladina významnosti pro tuto samotnou proměnnou: výše uvedený F-test je statisticky významný a diskriminátor je důležitý, je-li tato hodnota menší než uživatelem zadaná hladina významnosti α = 0.05. 3. Odhady neznámých parametrů b0, b1, ..., bp lineární diskriminační funkce pro každou třídu G1 (Setosa), G2 (Versicolor), G3 (Virginica): Proměnná Absolutní člen SepalLength SepalWidth PetalLength PetalWidth
G1 Setosa -85.20985 2.354417 2.358787 -1.643064 -1.739841
G2 Versicolor -71.754 1.569821 0.707251 0.5211451 0.6434229
G3 Virginica -103.2697 1.244585 0.3685279 1.276654 2.107911
Tabulka obsahuje odhady neznámých parametrů b0, b1, ..., bp lineární diskriminační funkce. Tyto parametry jsou také nazývány diskriminačními koeficienty. Technika předpokládá, že diskriminátory v každé třídě kosatců vykazují vícerozměrné normální rozdělení se shodnými variančně-kovariančními maticemi ve třídách. Technika je dostatečně robustní i při nesplnění těchto předpokladů. Tabulka obsahuje celkem tři klasifikační funkce, jednu pro každou třídu. Každá funkce je prézentována vertikálně hodnotami ve sloupci. Když vytvoříme vážený průměr diskriminátorů užitím těchto koeficientů jako vah (a přidáním konstanty jako absolutního členu), dostaneme diskriminační skóre. 4. Odhady regresních parametrů b0, b1, ..., bp lineárního regresní modelu pro každou třídu G1 (Setosa), G2 (Versicolor), G3 (Virginica): Proměnná Absolutní člen SepalLength SepalWidth PetalLength PetalWidth
G1 Setosa 0.1182229 6.602977E-03 2.428479E-02 -2.246571E-02 -5.747273E-03
G2 Versicolor 1.577059 -2.015369E-03 -4.456162E-02 2.206692E-02 -4.943066E-02
G3 Virginica -0.6952819 -4.587608E-03 2.027684E-02 3.987911E-04 5.517793E-02
Tabulka obsahuje regresní parametry b0, b1, ..., bp lineárního regresní modelu pro každou třídu G1 (Setosa), G2 (Versicolor), G3 (Virginica), které byly vyčísleny následujícím postupem: (1) Vytvoříme tři indikátorové proměnné, jedna je pro každou ze tří druhů kosatců (Setosa, Versicolor a Virdinica). Každá indikátorová proměnná je položena rovna jedné. (2) Proložíme vícenásobnou regresí nezávisle proměnných každý ze tří kosatců. (3) Obdržíme odhady regresních parametrů, uvedené výše v tabulce. Predikované hodnoty těmito regresními parametry budou pak ležet mezi nulou a jedničkou. Určit, ke které třídě jedinec patří se provede tak, že se vybere třída s nejvyšším skóre.
5. Klasifikace objektů diskriminační funkcí (diskriminace objektů do tříd): (a) Tabulka klasifikačních počtů pro kosatce u diskriminace do tříd G1 (Setosa), G2 (Versicolor), G3 (Virginica) a celkově: Predikovaná G1 G2 G3 Známá Setosa Versicolor Virginica Total Setosa 50 0 0 50 Versicolor 0 34 16 50 Virginica 0 7 43 50 50 41 59 150 Celkově Redukce v klasifikační správnosti v důsledku proměnných X = 77.0%.
Tabulka ukazuje, jak navržené diskriminační funkce klasifikují objekty v datech. Bylo-li dosaženo perfektní klasifikace, obdržíme v matici mimo diagonálu nuly. Řádky tabulky představují aktuální třídy kosatců, zatímco sloupce představují predikované třídy kosatců. Redukce v klasifikační správnosti: obsahuje procento redukce v klasifikační správnosti, dosažené diskriminačními funkcemi vůči očekávané hodnotě, když objekty byly náhodně klasifikovány. (b) Přehled chybně klasifikovaných objektů v řádcích u diskriminace do tříd G1 (Setosa), G2 (Versicolor), G3 (Virginica): Řádek Známá
5 9 22 28 29 38 45 57 62 66 70 78 91 95 106 111 112 114 117 130 131 142 148
Virginica Versicolo Versicolo Versicolo Versicolo Versicolo Virginica Virginica Versicolo Versicolo Versicolo Virginica Virginica Versicolo Versicolo Virginica Virginica Versicolo Versicolo Versicolo Versicolo Versicolo Versicolo
Predikovaná Versicolo Virginica Virginica Virginica Virginica Virginica Versicolo Versicolo Virginica Virginica Virginica Versicolo Versicolo Virginica Virginica Versicolo Versicolo Virginica Virginica Virginica Virginica Virginica Virginica
Procento zařazení do jednotlivé třídy Třída 1 Třída 2 Třída 3 -1.8 58.6 43.1 10.3 20.2 69.5 18.8 22.6 58.6 22.1 35.5 42.4 22.1 27.4 50.6 10.6 38.3 51.1 -31.4 66.4 65.0 -18.6 83.9 34.7 24.4 34.0 41.6 11.9 37.9 50.2 12.1 41.5 46.3 -7.3 58.4 48.9 -16.1 83.8 32.3 23.7 14.3 62.0 20.7 30.7 48.7 -21.4 63.8 57.6 -23.9 71.8 52.1 17.1 35.6 47.2 22.1 38.9 39.0 30.9 32.4 36.8 14.0 39.6 46.4 21.4 38.6 40.0 6.8 36.8 56.4
V řádku se u každého chybně klasifikovaného objektu nachází vždy název známé třídy kosatců a predikované třídy kosatců. Následuje 100× zvětšená hodnota pravděpodobnosti (v procentech), že objekt se nachází v dané třídě kosatců. Procento pravděpodobnosti se jeví totiž názornější než normovaný odhad v rozmězí 0 a 1. Hodnota blízko 100% ukazuje, že objekt patří do dotyčné třídy. P(i): při užití lineární diskriminační techniky se vyčíslí pravděpodobnosti, že tento řádek patří do i-té třídy: nechť fi , i = 1, ..., K, je hodnota lineární diskriminační funkce a max(fk) je maximální skóre ze všech tříd. Označme P(Gi) celkovou pravděpodobnost, klasifikující jednotlivce do třídy i. Hodnota P(i) se vypočte dle vztahu P( i )
exp[ f i
j exp[f
max(f k) ] P( Gi)
K
j1
i
max(f k) ] P ( G i)
Když užijeme regresní klasifikační techniku, bude toto představovat predikovanou hodnotu regresní rovnice. Implicitně je Y v regresní rovnici rovno 1 nebo 0 v závislosti, zda objekt patří do i-té třídy kosatců či ne. Proto
predikovaná hodnota blízko nuly ukazuje, že objekt nepatří do i-té třídy zatímco blízko 1 ukazuje na silný důkaz, že objekt patří do i-té třídy. V žádném případě nemůže být vyčíslena hodnota větší než 1 a menší než 0. (c) Zařazení objektů predikovanou klasifikací pomocí diskriminační funkce do tříd G1 (Setosa), G2 (Versicolor), G3 (Virginica): Řádek Známá
1 2 3 .. .. 150
Setosa Virginica Versicolo ..... ..... Setosa
Predikovaná Setosa Virginica Versicolo ..... ..... Setosa
Procento zařazení do jednotlivé třídy Třída 1 Třída 2 Třída 3 92.4 21.6 -14.0 -16.4 34.9 81.5 10.8 47.2 42.0 ..... ..... ..... ..... ..... ..... 101.8 5.4 -7.2
Tabulka obsahuje pro každý objekt kosatců vždy skutečnou čili známou třídu kosatců, predikovanou třídu kosatců a procento pravděpodobnosti zařazení do dotyčné třídy kosatců. 6. Kanonická korelační analýza: (a) Analýza kanonických proměnných: Inv(W)B Ind. Total Kanon. Kanon. Čitatel Jmenov. Spočten Wilkovo F-test SV SV α Lambda Fn vlast.číslo Pcnt Pcnt korel. korel2 1 32.191929 99.1 99.1 0.9848 0.9699 199.1 8.0 288.0 0.0000 0.023439 2 0.285391 0.9 100.0 0.4712 0.2220 13.8 3.0 145.0 0.0000 0.777973 F-test testuje zda tato funkce a další níže jsou statisticky významné.
Tabulka obsahuje výsledky kanonické korelační analýzy diskriminačního problému. U kanonické korelační analýzy jsou dva soubory proměnných, které jsou zde definovány následovně: první soubor obsahuje diskriminátory. Třídní proměnná definuje druhý jiný soubor, který je generován vytvořením indikátorové proměnné pro každou třídu kromě poslední. Inv(W)B vlastn. číslo: vlastní čísla matice W-1B ukazují, jak mnoho je celková proměnlivost vysvětlena různými diskriminačními funkcemi. První diskriminační funkce totiž odpovídá prvnímu vlastnímu číslu, atd. Počet vlastních čísel je roven minimu počtu diskriminátorů a K-1, kde K je počet tříd kosatců. Ind. Pcnt: procento, jež toto vlastní číslo představuje z celku vlastních čísel. Total Pcnt: kumulativní procento tohoto a všech předešlých vlastních čísel. Kanon korel.: kanonický korelační koeficient. Kanon korel2: čtverec kanonického korelačního koeficientu je podobný R2 ve vícenásobně regresi. F-test: hodnota F-kritéria, testujícího Wilkovo lambda, které odpovídá tomuto řádku a řádkům níže. V tomto případě testuje F-kritérium statistickou významnost obou, první a druhé, kanonické korelace, zatímco druhá F-hodnota testuje významnost pouze druhé korelace. Čitatel SV: počet stupňů volnosti pro čitatele v tomto F-testu. Jmenov. SV: počet stupňů volnosti pro jmenovatele v tomto F-testu. Spočtená α: spočtená hladina významnosti pro F-test. Je-li tato hodnota α menší než uživatelem zadané 0.05, je test statisticky významný. Wilkovo lambda: hodnota Wilkova lambda pro tento řádek se užívá k testování statistické významnosti diskriminační funkce, odpovídající tomuto řádku a řádkům níže. Wilkovo lambda je vícerozměrným zobecněním R2. Výše uvedený F-test je aproximativním testem Wilkova lambda. (b) Odhady parametrů u kanonických proměnných: Kanonická proměnná Proměnná Proměnná1 Proměnná2 Absolutní člen -2.105106 6.661473 SepalLength -0.082938 -0.002410 SepalWidth -0.153447 -0.216452 PetalLength 0.220121 0.093192 PetalWidth 0.281046 -0.283919 Obsahuje koeficienty k výpočtu kanonického skóre. Kanonická skóre jsou vážené průměry objektů, a tyto koefienty jsou pak váhy s přidaným absolutním členem. (c) Kanonické proměnné u třídních průměrů: Kanonická funkce Iris Funkce 1 Funkce 2
Setosa -7.6076 -0.215133 Versicolor 1.82505 0.7278996 Virginica 5.78255 -0.5127666 Tabulka obsahuje výsledky kanonických koeficientů pro průměry u každé třídy. (d) Standardizované kanonické koeficienty: Kanonická proměnná Proměnná Proměnná 1 Proměnná 2 SepalLength -0.426955 -0.012408 SepalWidth -0.521242 -0.735261 PetalLength 0.947257 0.401038 PetalWidth 0.575161 -0.581040 Tabulka obsahuje standardizované kanonické koeficienty. (e) Korelace původních a kanonických proměnných: Kanonická proměnná Proměnná Proměnná 1 Proměnná 2 SepalLength 0.222596 -0.310812 SepalWidth -0.119012 -0.863681 PetalLength 0.706065 -0.167701 PetalWidth 0.633178 -0.737242 Tabulka obsahuje zátěže (korelace) původních proměnných na kanonické proměnné. Každý výstup je korelací mezi kanonickou proměnnou a diskriminátorem. Tato tabulka usnadní interpretovat dotyčné kanonické proměnné. 7. Lineární diskriminační skóre všech objektů : Řádek Iris Skóre1 Skóre2 Skóre3 1 Setosa 83.86837 38.65921 -6.790054 2 Virginica 1.230765 91.857 104.5692 .. ..... ..... ..... ..... 150 Setosa 98.72371 46.71882 -0.3055334 Tabulka obsahuje jednotlivé hodnoty lineárních diskriminačních skóre pro všechny objekty, tj. pro všech 150 kosatců. 8. Regresní skóre všech objektů: Řádek Iris Skóre1 Skóre2 Skóre3 1 Setosa 0.923755 0.215832 -0.139588 2 Virginica -0.163732 0.348623 0.815109 3 Versicolo 0.107759 0.471953 0.420288 .. ..... ..... ..... ..... .. ..... ..... ..... ..... 150 Setosa 1.018238 0.053607 -0.071844 Tabulka obsahuje jednotlivé hodnoty predikovaných skóre, založené na regresních koeficientech. I když tyto hodnoty jsou predikované indikátorové proměnné, může nastat případ, že hodnota bude menší než nula a větší než 1. 9. Kanonická skóre všech objektů: Řádek Iris Skóre1 1 Setosa -7.671967 2 Virginica 6.800150 3 Versicolo 2.548678 .. ..... .....
Skóre2 0.134894 -0.580895 0.472205 ......
.. ..... ..... ...... 150 Setosa -8.314449 -0.644953 Tabulka obsahuje skóre kanonických proměnných pro každý řádek u všech objektů, tj. 150 kosatců. 10. Automatická volba účinných diskriminátorů: Dosavadní tabulky jsou postaveny na čtyřech diskriminátorech: Petal Length, Petal Width, Sepal Length a Sepal Width. Stěžejním úkolem v diskriminační analýze je však výběr diskriminátorů. Často máme velikou paletu možných diskriminátorů, ze kterých potřebujeme vybrat menší výběr, asi tak maximálně 8 účinných proměnných, který se bude chovat jako původní velký soubor. Činnost
Iterace 0 1 2 3 4 ..
v kroku None Entered Entered Entered Entered ...
Nezávisle % změny v proměnná lambda PetalLength 94.14 SepalWidth 37.09 PetalWidth 32.29 SepalLength 6.15 ..... ...
Spočtená hladina α
Wilkovo F-test lambda 1.000000 1180.16 0.000000 0.058628 43.04 0.000000 0.036884 34.57 0.000000 0.024976 4.72 0.010329 0.023439 ... ..... .....
Detail ve 4. kroku automatického výběru proměnné: Spočtená R2 Nezávisle % změny v Status proměnná lambda F-test hladina α ostatních X In SepalLength 6.15 4.72 0.010329 0.858612 In SepalWidth 23.35 21.94 0.000000 0.524007 In PetalLength 33.08 35.59 0.000000 0.968012 In PetalWidth 25.70 24.90 0.000000 0.937850 Celkové Wilkovo lambda = 0.023439
Tabulka Automatický výběr diskriminátorů se provádí krokově: nejprve se nalezne nejlepší diskriminátor a potom druhý nejlepší. Když byly nalezeny první dva, prověří se, zda diskriminace bude tak dokonalá, jako když byl jeden diskriminátor odebrán. Postupný (či krokový) proces přidávání nejlepšího zbývajícího diskriminátoru a následným ověřením, zda by jeden aktivní diskriminátor mohl být odebrán a pokračuje dokud není žádný nový diskriminátor k dispozici. U tohoto nového diskriminátoru se ověřuje, zda jeho F-hodnota má pravděpodobnost menší než uživatelem zadaná vstupní hodnota hladiny významnosti α = 0.05. Přehled výběru proměnných: obsahuje protokol o činnosti v každém kroku. Iterace: uvádí pořadové číslo (index) kroku. Činnost v tomto kroku: uvádí zda diskriminátor byl zaveden do souboru aktivních diskriminátorů nebo odstraněn z tohoto souboru. % změny v lambda: procento snížení v hodnotě lambda, jež je výsledkem tohoto kroku. Všimněte si, že Wilkovo lambda je analogické (1-R2) ve vícenásobné regresi. Abychom zlepšili model, budeme žádat snížit Wilkovo lambda. Např. od iteraci 2 k iteraci 3 se lambda sníží z hodnoty 0.036884 na 0.024976. To je 32.29% snížení hodnoty lambda. F-test: jde o F-kritérium k testování statistické významnosti tohoto diskriminátoru. Je-li diskriminátor zaveden, testuje se hypotéza, že diskriminátor je třeba přidat. Je-li diskriminátor odstraněn, testuje se hypotéza, že diskriminátor je třeba odstranit. Spočtená hladina významnosti α: od výše uvedeného F-testu. Wilkovo lambda: víceparametrické rozšíření R2 redukuje (1-R2) ve dvojtřídě. Může být vysvětleno právě opačně než R2. Mění se v intervalu od 1 do 0. Hodnoty blízko 1 vedou k nízké prediktibilitě, zatímco hodnoty blízko 0 k vysoké. Wilkovo lambda odpovídá právě aktivním diskriminátorům. 11. Výklad grafů diskriminace všech objektů do tříd: Nabízí se několik zobrazení (a) lineárních diskriminačních skóre, (b) regresních skóre nebo (c) kanonických skóre: Na základě diagramů těchto tří druhů skóre pak snáze vytvoří svou interpretaci. Diagramy totiž poskytnou vizuální vysvětlení jak diskriminační funkce klasifikují objekty v datech. Níže předložený diagram ukazuje hodnoty prvního a druhého kanonického skóre. Z grafu je patrné klasifikační pravidlo: postačuje první kanonická funkce k diskriminování mezi kosatci, protože třídy kosatců mohou být snadno odděleny vertikální osou. Existuje software (S-Plus), které umožňuje 3D-obrázek, ve kterém by se obrazec otáčel podél os v prostoru. Potom by bylo vytvoření a rozlišení tříd kosatců ještě názornější.
Linear-Discriminant Scores
Linear-Discriminant Scores
140,00
140,00
Iris
Iris Setosa Versicolor Virginica
100,00
60,00
60,00
20,00
20,00
-20,00 20,00
50,00
-20,00 -50,00
80,00 110,00 140,00
Setosa Versicolor Virginica
100,00
0,00
50,00 100,00 150,00
Score2
Score3
Linear-Discriminant Scores
Regression Scores 1,50
140,00
Iris
Iris Setosa Versicolor Virginica
110,00
80,00
0,50
50,00
0,00
20,00 -50,00
0,00
-0,50 -0,40
50,00 100,00 150,00
Setosa Versicolor Virginica
1,00
-0,05
0,30
0,65
Score3
Score2
Regression Scores
Regression Scores
1,50
1,00
1,00
Iris
Iris Setosa Versicolor Virginica
1,00
0,50
0,30
0,00
-0,05
-0,50 -0,40
0,00
0,40
0,80
-0,40 -0,40
1,20
Score3
Setosa Versicolor Virginica
0,65
0,00
0,40
0,80
1,20
Score3
Canonical-Variates Scores 10,00
Iris Setosa Versicolor Virginica
5,00
Obr. 4.15a, b Graf lineárního diskriminačního skóre (2. a 3. skóre)
0,00
Obr. 4.16a, b, c Graf regresního skóre (1. a 2. skóre, 1. a 3. skóre, 2. a 3. skóre) -5,00
-10,00 -3,00
-1,50
0,00
Score2
1,50
3,00
Obr. 4.17 Graf kanonických proměnných (1. a 2. skóre)