Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky
Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin
Hledáme vztah mezi skupinou p nezávislých znaků (diskriminátorů) a jednou kvalitativní závisle proměnnou - výstup Identifikace, které znaky přispívají do procesu klasifikace
DA se vztahuje ke klasifikaci kvantitativních ukazatelů (mají normální rozložení v jednotlivých třídách)
X1 je matice n1 x m, X2 n2 x m, n = n1 + n2
Apriorní pravděpodobnost: π1 … apriorní pravděpodobnost příslušnosti do 1.skupiny π2 = 1 – π1 … příslušnost do 2.skupiny
Aposteriorní pravděpodobnost: Příslušnosti k j-té skupině
Podle typu hustoty pravděpodobnosti pro f1(x) a f2(x)
LDA – liší se jen střední hodnotou QDA – liší se střední hodnotou i kovarianční maticí Nelineární DF – směs normálních rozdělení Flexibilní DF – neparametrické hustoty rozdělění znaků Naivní Bayesův přístup Obecná DA – jeden ze znaků má kvalitativní charakter (faktor)
Logistická regrese
LDA Pro každou diagnostickou skupinu hledáme koeficienty aij, i = 0, 1, …, k lineární diskriminační funkce Lj(x) = a1jx1 + a2jx2 + … + akjxk + a0j Při klasifikaci vektoru x vypočteme hodnotu všech těchto LDF a ta, která má největší hodnotu, indikuje příslušnost k odpovídající diagnostické skupině.
Hodnoty – DISKRIMINAČNÍ SKÓRE
Kanonická korelace v DA Definujeme k nových závislých proměnných y1, … yk-1 – umělé závislé proměnné ukazují, ze které třídy objekt pochází Potřebujeme k-1 proměnných pro k tříd Třída
y1
y2
y3
1 2 3 4
1 0 0 0
0 1 0 0
0 0 0 0
Volba znaků, diskriminátorů Na začátku celá paleta potenciálně využitelných znaků, nevíme však, které jsou účinné
Kritéria pro vybírání diskriminátorů
Wilksovo λ Když diskriminátor v DF poskytuje nejmenší hodnotu Wilksova kritéria λ, je tento diskriminátor zahrnut do modelu Před zavedením diskriminátoru stanovíme jeho toleranci – míra lineární asociace mezi diskriminátory …(1-R2) λ = 1 … průměr diskriminačního skóre je stejný ve všech třídách a neexistuje žádná mezitřídní proměnlivost je transformováno do χ2 – rozdělení …poskytuje málo informací o efektivnosti DF
Hodnota F pro změnu Wilksova kritéria při přidání diskriminátoru do modelu
Kde n je celkový počet objektů, g udává počet tříd a λp značí Wilksovo lambda před přidáním diskriminátoru do modelu a λp+1 je Wilksovo lambda po přidání
Raovo V
MAHALANOBISOVY VZDÁLENOSTI testujeme vzdálenost těžišť tříd testujeme, zda se změní hodnota Mahalanobisových vzdáleností (DM)2 přidáním nebo odebráním proměnné testační kritérium F při přidání … a = 0,15 odebíráme-li proměnnou doporučuje se … a = 0,30
m … počet diskriminátorů n … celkový počet objektů g … počet skupin xi1 … průměr i-tého diskriminátoru ve třidě 1 wij … prvek inverzní kovarianční matice Toto kritérium všech párů tříd se vyčísluje jako první
Diskriminátor, který měl největší hodnotu (DM)2 pro dvě od začátku nejtěsnější třídy je zařazen do modelu
Testační kritérium F pro Mahalanobisovy vzdálenosti
H0: „(Dp+1)2 = (Dp)2“
Počet stupňů volnosti: 1 a (n1 + n2 – p – q – 2)
H0: „(Dp+q)2 = (Dp)2“
Počet stupňů volnosti: q a (n1 + n2 – p – q – 2)
Vyhodnocení výsledků
Vyhodnocení rozdílů tříd v diskriminačním Z-skóre vypočteme Z-skóre pro každý objekt porovnání těžiště tříd – průměrné Z-skóre pro všechny objekty třídy
H0: „dva vektory středních hodnot tříd objektů jsou stejné“
Přiřazení predikční schopnosti tříd
HIT – POMĚR … procento správně klasifikovaných objektů - analogie s regresní analýzou (R2)
Určení prahového bodu
Z1,2 … těžiště třídy 1, 2 Musíme uvažovat i cenu chybného zařazení objektu Minimalizujeme počet chybně klasifikovaných objektů
Konstrukce klasifikačních matic Náhodné rozdělení do 2 výběrů
Analyzovaný výběr Klasifikovaný výběr
Postup zahrnuje násobení diskriminačních koeficientů (z analyzovaného výběru) hodnotami diskriminátorů objektu z klasififikačního výběru Pak jsou diskriminační skóre Zn porovnávána s prahovým bodem C
Zn < C … 1. třída Zn > C … 2. třída
t-test pro klasifikační správnost
p … počet správně zařazených n … velikost výběru
Průměry pro závislé proměnné dle tříd (FeVstup) Sigma-omezená parametrizace Úroveň Sloupec PCT cirhóza Celk. Efekt p=,5000 p=,5000 Průměry Efekt Fe Průměry pro závisle proměnnou 1 20,9364 dle tříd 26,7864 23,8614 2 416,0000 488,9500 452,4750 ferritin 3 34,5709 52,1682 43,3695 transferin % 4 61,3182 55,2864 58,3023 VK-Fe 5 0,6423 0,9827 0,8125 ALT 6 0,6741 1,7686 1,2214 AST 1 7 0,2727 -0,4545 -0,0909 MutaceL
Efekt Fe ferritin transferin % VK-Fe ALT AST MutaceL
Směrodatné odchylky pro nezávislé proměnné dle tříd (FeVstup) Sigma-omezená parametrizace Úroveň Sloupec PCT cirhóza Celkem Efekt N=22,00 N=22,00 N=44,00 1 6,1795 14,8748 11,6388 2 256,0768 321,5319 289,6132 3 10,6145 31,1777 24,6772 4 7,5112 15,8169 12,6111 5 0,2511 0,7108 0,5542 6 0,4811 1,4413 1,1975 1 7 0,9847 0,9117 1,0074
Test chí-kvadrát po odstranění post. kořenů (FeVstup) Sigma-omezená parametrizace Vlastní Kan. Wilksova Chí-kv. SV Úroveň p vynech. číslo R Lambda 0 0,866805 0,681414 0,535675 24,03280 7,000000 0,001124
χ2 pro 7 sv = 14,07
Standardizované koeficienty kanonické diskriminační funkce (FeVstup) Sigma-omezená parametrizace Úroveň Sloupec Funkce Efekt 1 Efekt Abs. člen 1 0,000000 Fe 2 0,311341 ferritin 3 0,077012 transferin % 4 -0,975848 VK-Fe 5 0,128672 ALT 6 0,130048 AST 7 -0,722463 MutaceL ano 8 0,711706 Vl. číslo 0,866805 Kum.pravd. 1,000000 Koeficienty kanonické diskriminační funkce (FeVstup) Sigma-omezená parametrizace Úroveň Sloupec Funkce Efekt 1 Efekt Abs. člen 1 1,130478 Fe 2 0,027335 ferritin 3 0,000265 transferin % 4 -0,041902 VK-Fe 5 0,010392 ALT 6 0,243977 AST 7 -0,672440 MutaceL ano 8 0,750024 Vl. číslo 0,866805 Kum.pravd. 1,000000
Vícerozměrné testy významnosti (FeVstup) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Test Hodnota F Efekt Chyba SV SV Efekt Abs. člen Wilksův 0,953293 1,763831 1 36 Fe Wilksův 0,995055 0,178896 1 36 ferritin Wilksův 0,998094 0,068740 1 36 transferin % Wilksův 0,960431 1,483165 1 36 VK-Fe Wilksův 0,997762 0,080749 1 36 ALT Wilksův 0,997334 0,096218 1 36 AST Wilksův 0,912342 3,458873 1 36 MutaceL Wilksův 0,803734 8,790946 1 36
F-kritické pro 1 a 36 sv = 4,116
p 0,192507 0,674840 0,794675 0,231202 0,777913 0,758205 0,071100 0,005344
Třída PCT cirhóza
Mahalan. vzdálenosti ^2 (FeVstup) Sigma-omezená parametrizace PCT cirhóza 0,000000 3,309620 3,309620 0,000000
Třída PCT cirhóza
Testy významnosti pro Mahalanobisovy vzdálenosti ^2 (FeVstup) F testy s 7 a 36, stup. volnosti Sigma-omezená parametrizace PCT PCT cirhóza cirhóza F p F p 4,457856 0,001176 4,457856 0,001176
F-kritické pro 7 a 36 sv = 2,30 Klasifikační funkce pro Diagnóza (FeVstup) Sigma-omezená parametrizace Úroveň Sloupec PCT cirhóza Efekt p=,5000 p=,5000 Efekt Abs. člen 1 -45,1263 -47,1829 Fe 2 -1,6710 -1,7208 ferritin 3 0,0143 0,0138 transferin % 4 0,9866 1,0629 VK-Fe 5 1,3675 1,3486 ALT 6 -0,4779 -0,9217 AST 7 0,2891 1,5124 MutaceL ano 8 0,1846 -1,1799
Třída PCT cirhóza Celkem
Klasifikační matice (FeVstup) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace správně PCT cirhóza p=,5000 p=,5000 77,27273 17,00000 5,00000 86,36364 3,00000 19,00000 81,81818 20,00000 24,00000
Vhodnostní povrch/vrstevnice
Vhodnostní povrch/vrstevnice
Střední hodnoty :
Optimální hodnoty :
Area Under ROC Curve = 0,91632 Area Under ROC Curve = 0,92562