Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Klasifikaˇcn´ı metody pro genetick´a data: regularizace a robustnost Jan Kalina Odd. medic´ınsk´e informatiky a biostatistiky ´ ˇ v.v.i. Ustav informatiky AV CR,
Pr´ ace vznikla za finanˇcn´ı podpory Nadaˇcn´ıho fondu Neuron na podporu vˇedy. Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Klasifikaˇcn´ı metody pro genetick´a data
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Kardiovaskul´arn´ı genetick´a studie Centrum biomedic´ınsk´e informatiky (2006–2011) Data o n = 181 pacientech Akutn´ı infarkt myokardu Mozkov´ a mrtvice Kontroln´ı osoby
Genov´e exprese vˇsech gen˚ u
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Kardiovaskul´arn´ı genetick´a studie Logaritmy hodnot genov´ych expres´ı pro jednotliv´e pacienty: Index genu 1 2 3 4 5 6 .. . 38 590
Jm´eno genu ADORA3 CPD ECHDC3 VNN3 IL18RAP ERLIN1 .. . PHACTR1
Pacient 1 5,82 3,53 2,50 3,38 4,03 5,76 .. . 5,21
Pacient 2 6,04 4,08 2,71 3,03 4,91 4,38 .. . 4,99
Pacient 3 5,71 4,21 2,99 4,56 5,12 6,49 .. . 5,15
··· ··· ··· ··· ··· ··· ··· .. . ···
Large p/small n problem (p n) Proklet´ı dimenzionality ˇ sen´ı: Reˇ Redukce dimenzionality Regularizace Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Line´arn´ı diskriminaˇcn´ı anal´yza (LDA) K r˚ uzn´ych skupin p-rozmˇern´ych dat Mnohorozmˇern´ a normalita (odliˇsn´e vektory stˇredn´ıch hodnot, odliˇsn´e varianˇcn´ı matice). Pozorov´ an´ı Z je klasifikov´ ano do k-t´e skupiny, kter´ a pˇres 1, . . . , K maximalizuje diskriminaˇcn´ı sk´ or 1 ¯ k )T S−1 (Z − X ¯ k ), lk∗ = − (Z − X 2 kde ¯ k = je pr˚ X umˇ er k-t´ e skupiny, S = odhad spoleˇ cn´ e varianˇ cn´ı matice.
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Regularizovan´a LDA
Klasifikuj Z do skupiny k, pokud ¯ ∗k − Z)T S∗−1 (X ¯ ∗k − Z) = arg min (X
j=1,...,K
n o ¯ ∗k − Z)T S∗−1 (X ¯ ∗k − Z) . (X
Smrˇstˇen´e odhady pr˚ umˇ er˚ u. V k-t´e skupinˇe: ¯ ∗k = δ X ¯ k + (1 − δ)X, ¯ X
δ ∈ [0, 1]
Smrˇstˇen´y odhad varianˇ cn´ı matice: S∗ = λS + (1 − λ)T,
λ ∈ [0, 1]
Algoritmy. Klasifikaˇcn´ı vs. v´ypoˇcetn´ı chov´ an´ı.
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
V´ysledky: kardiovaskul´arn´ı genetick´a studie Klasifikace: pacienti s mozkovou mrtvic´ı (24) vs. kontroly (24). Exprese 38 590 genov´ych transkript˚ u. Metoda 1−klasif. chyba SVM 1.00 Klasifikaˇcn´ı strom 0.97 SOM (Kohonenova mapa) 0.94 V´ıcevrstv´y perceptron Nelze LDA Nelze PAM 0.92 LDA∗ 1.00 LDA∗∗ 1.00 PCA s 20 hlavn´ımi komponentami: PCA =⇒ LDA 0.77 PCA =⇒ LDA∗ 0.82 PCA =⇒ LDA∗∗ 0.85
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Klasifikaˇcn´ı metody pro genetick´a data
Regularizovan´ a klasifikaˇcn´ı anal´yza Robustn´ı metody
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Pojem robustnost Robustn´ı statistika 1
Huber P.J. (1964): Robust estimation of a location parameter. Annals of Mathematical Statistics 35 (1), 73 – 101.
2
Huber P.J. (1981): Robust statistics. Wiley, New York.
3
Hampel F.R., Rousseeuw P.J., Ronchetti E.M., Strahel W.A. (1986): Robust Statistics: The approach based on influence functions. Wiley, New York.
4
Rousseeuw P.J., Leroy A.M. (1987): Robust regression and outlier detection. Wiley, New York.
5
Jureˇckov´ a J., Sen P.K. (1996): Robust Statistical Procedures: Asymptotics and Interrelations. Wiley, New York.
Robustn´ı optimalizace, robustn´ı data mining 1
Xanthopoulos, P., Pardalos, P.M., Trafalis, T.B. (2013): Robust data mining. Springer, New York.
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Proˇc robustn´ı metody?
Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Proˇc robustn´ı metody?
Myˇslenka: LDA + odhad Minimum Weighted Covariance Determinant + Regularizace. Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Shlukov´a anal´yza pro kategori´aln´ı data
Zdar Nezdar P
1. skupina n11 n21 n·1
Zdar Nezdar P
2. skupina n12 n22 n·2
1. skupina π1 1 − π1 1
2. skupina π2 1 − π2 1
··· ··· ··· ···
J-t´ a skupina n1J n2J n·J ··· ··· ··· ···
P n1· n2· n
J-t´ a skupina πJ . 1 − πJ 1
Odhad πj pro j = 1, . . . , J: n1· n1j pj = (1 − λ) +λ , n n χ∗2 =
P n 2 1 − Jj=1 n1j λ = P n 2 (n − 1) Jj=1 n1· − n1j ∗
" # J X (n1j − n·j pj∗ )2 (n2j − n·j (1 − pj∗ ))2 + n·j pj∗ n·j (1 − pj∗ ) j=1 Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost
Regularizovan´ a klasifikaˇ cn´ı anal´ yza Robustn´ı metody
Klasifikaˇcn´ı metody pro genetick´a data: regularizace a robustnost Otevˇren´e probl´emy
1
2
3
Kalina J. (2014): Classification methods for high-dimensional genetic data. Biocybernetics and Biomedical Engineering 34 (1), 10 – 18. Kalina J., Duintjer Tebbens J. (2014): Computation of regularized linear discriminant analysis. Proceedings COMPSTAT 2014, 21st International Conference on Computational Statistics. Pˇrijato. Kalina J., Seidl L., Zv´ ara K., Gr¨ unfeldov´ a H., Slov´ ak D., Zv´ arov´ a J. (2013): Selecting relevant information for medical decision support with application to cardiology. European Journal for Biomedical Informatics 9 (1), 2 – 6.
ˇ =⇒ DEKUJI ZA POZORNOST ⇐= Jan Kalina
Klasifikaˇ cn´ı metody pro genetick´ a data: regularizace a robustnost