INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd
Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice)
20.-24. června 2011
Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky. 24.2.2010
1
4.1 NEPŘÍMÁ POZOROVÁNÍ A KORELACE
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
2
Příroda je vícerozměrná Příroda je vícerozměrná: znaky a objekty - m-tice znaků pro n objektů, kde n >> m výhodné použít co nejmenší počet znaků m U experimentálních dat lze řadu znaků zkonstantnit nebo znáhodnit U neexperimentální data (pasivního pozorování) je vágnost v hledání skryté souvislosti. a) b)
Analýza experimentálních dat je zaměřena na redukci rozmčrnosti aby bylo možné zkoumat obecně nelineární vztahy mezi znaky. U necxpcrimcntálních dat se redukce rozmčrnosti provádí až při statistické analýze a předpokládají se lineární vztahy mezi znaky.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
3
Přímá a nepřímá pozorování: Přímá měření poskytuje málo metod, např. měření délky měřítkem. Nepřímé měření je např. měření teploty teploměrem, tj. měření délky rtuťového sloupce a přepočet na teplotu. Kombinace přímých a nepřímých pozorování: je např. koncentrace jako podíl hmotnosti a objemu.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
4
Zdrojová matice dat X (n x m) Data: x1 značí délku těla, x2 značí šířku těla, x3 je délka předního křídla, x4 je délka zadního křídla, x5 je počet průduchů, x6 je délka tykadla I, x7 je délka tykadla II, x8 je délka tykadla III, x9 je délka tykadla IV, x10 je délka tykadla V, x11 je počet tykadlových ostnů, x12 je délka posledního článku nohy, x13 je délka holeně, tibia, x14 je délka stehna, x15 je délka sosáku, x16 je délka kladélka, x17 je počet kladélkových trnů, x18 je řitní otvor, x19 je počet háčků zadních křídel.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
5
Zdrojová matice dat X (n x m)
Znaky x1 až x19 (sloupce, m = 19)
Objekty (řádky zde indexované od n = 1 do 23)
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
6
PŘÍKLAD 9.4 Vytvoření dendrogramu neuroleptik Neuroleptika redukují nežádoucí účinky přebytečného dopaminu a liší se ve svých účincích: potlačují nervozitu, záchvaty, třes, ospalost, parkinsonismus, vynechávání menstruace, vyrážky, zvýšené slinění atd. Cílem je provést klasifikaci neuroleptik do shluků podobných účinků. Data: Data Neuroleptika (převrácená hodnota mediánové účinné dávky 1/ED50 [kg/mg]): Lek název neuroleptika, Nervoz potlačení nervozity, Stereo potlačení stereotypního chování, Tres potlačení záchvatu a třesu a Usmr dávka smrtícího účinku. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
7
Data
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
8
PŘÍKLAD 1.1 Popisné statistiky jednorozměrné analýzy zdrojové matice dat Hrách Hrách Zdrojová matice dat Hrách obsahuje znaky smyslového posouzení charakteristik rozličných odrůd hrachu. Objekty zde představují vzorky pěti různých odrůd hrachu A až E, které byly sklízeny v pěti rozličných obdobích 1 až 5. Výsledná zdrojová matice o 12 znacích převážně smyslových charakteristik obsahuje 60 vzorků hrachu. Posouzení každého objektu hrachu bylo provedeno 10 porotci dvojím odhadem tak, že smyslové charakteristiky byly bodovány ve stupnici od 1 (nejhorší) do 9 (nejlepší). Tak bylo získáno 1200 řádků (objektů) postupem: 60 vzorků * 2 hodnocení * 10 porotců. V praxi se data obvykle průměrují, aby se kompenzovaly rozdíly v subjektivní škále přísnosti jednotlivých porotců. Výsledkem je pro každý z šedesáti objektů průměrná hodnota senzorického hodnocení. Cílem úlohy je: 1. průměrovat data, 2. vynést původní data do grafu a 3. vypočítat popisné jednorozměrné statistiky. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
9
Data • Data: Zdrojová matice dat n = 1200, m = 12 byla průměrována a výsledkem byla matice 60 * 12. Obsahovala průměrné hodnoty senzorického hodnocení pro znaky ve sloupcích: Aro je aroma, Slad je sladkost, Med je medovost, Bez je bezchuťovost, Klas je klasovost, Tvrd je tvrdost, Bel je bělost, Bar1 je barva 1, Bar2 je barva2, Bar3 je barva3, Slup je slupka, Ztr je ztráta.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
10
Data Objekt B5 C4 B2
Aro Bar3 6.48 5.99 5.75 5.32 3.94 4.60
Slad Slup 6.66 4.26 6.09 3.82 4.12 3.5
Med Ztr 4.56 3.25 3.81 3.38 2.44 3.03
Bez
Klas
Tvrd
Bel
Bar1
Bar2
2.2
2.91
3.47
4.72
5.59
5.73
2.32
4.03
3.77
4.17
5.73
5.75
3.63
5.77
5.39
4.77
6.67
5.11
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
11
Zdrojová matice dat
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
12
PŘÍKLAD 2.2 Průzkumová analýza zdrojové matice dat demografického souboru Lidé Vyšetřete grafickými diagnostikami průzkumové analýzy vícerozměrných dat, které ze 12 znaků demografického souboru dat Lidé jsou nejvýhodnější k charakterizaci osob a které znaky mají největší míru rozptýlení. Matice obsahuje data pro n = 32 osob a m = 12 znaků, kde 16 osob bylo vybráno ze Skandinávie (kód A) a 16 osob ze Středomoří (kód B), 16 osob jsou muži (kód M) a 16 osob jsou ženy (kód F). Data: Znaky obsahují u každé osoby výšku *cm+, hmotnost *kg+, délku vlasů *krátká: −1, dlouhá: +1+, velikost boty *evropský standard+, věk *roky+, příjem *Euro+, spotřeba piva *litry na rok+, spotřeba vína *litry na rok+, pohlaví *muž: −1, žena: +1+, schopnost plavat *naměřený čas na uplavání 500 m+, původ *A: −1 Skandinávie, B: +1 Středomoří+, inteligenční kvocient IQ *evropský standardizovaný test IQ+. Mezi znaky jsou tři dichotomické, binární proměnné, a to pohlaví, délka vlasů a původ a ostatních 9 znaků nabývá kvantitativních hodnot. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
13
Osoba MA MA
MA FA
Výška Plavání 198 98 184 92 183 91 166 75
Hmotnost Původ 92 −1 84 −1 83 −1 47 −1
Vlasy IQ −1 100 −1 130 −1 127 −1 112
Boty
Věk
Příjem
Pivo
Víno
Sex
48
48
45000
420
115
−1
44
33
33000
350
102
−1
44
37
34000
320
98
−1
36
32
28000
270
78
1
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
14
PŘIKLAD 2.6 Sledování spotřeby proteinů v zemích Evropy Sledována spotřeba proteinů v 25 zemích Evropy formou spotřeby 9 druhů potravin. Cílem je odhalit, zda existuje korelace mezi znaky, tj druhy potravin? Lze odhalit nějaké interakce mezi druhy potravin a zeměmi? Data: v datech Proteiny jsou uvedeny znaky: Cervene značí spotřebu červeného masa, Bile značí spotřebu bílého masa, Vejce značí spotřebu vajec, Mléko se týká spotřeby mléka, Ryby značí spotřebu ryb, Obiln značí spotřebu obilnin, Škrob značí spotřebu škrobu, Ořech značí spotřebu ořechů, Ovoce značí spotřebu ovoce a zeleniny 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
15
Data
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
16
Úloha 4. Faktorová analýza při klasifikaci vzorků vín (Kompendium E408) Pro 38 vzorků vín bylo nalezeno 24 analytických obsahů stopových prvků a charakteristických fyzikálněchemických vlastností. Utvořte shluky podobných vlastností a dále shluky podobných vín.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
17
Index Cd 1 0.005 2 0.055 3 0.056 4 0.063 5 0.011 6 0.05 7 0.025 8 0.024 9 0.009 10 0.033 11 0.039 12 0.045 13 0.06 14 0.067 15 0.077 16 0.064 17 0.025 18 0.02 19 0.034 20 0.013 21 0.043 22 0.061 23 0.047 24 0.048 25 0.049 26 0.042 27 0.058 28 0.065 29 0.065 30 0.068 31 0.067 32 0.084 33 0.069 34 0.087 35 0.074 36 0.084 37 0.106 38 0.102
Mo Mn Ni Cu Al Ba Cr Sr Pb B Mg Si Na Ca P K Arom Clar Body Flavor Oakn Quality Reg 0.044 1.51 0.122 0.83 0.982 0.387 0.029 1.23 0.561 2.63 128 17.3 66.8 80.5 150 1130 3.3 1 2.8 3.1 4.1 9.8 1 0.16 1.16 0.149 0.066 1.02 0.312 0.038 0.975 0.697 6.21 193 19.7 53.3 75 118 1010 4.4 1 4.9 3.5 3.9 12.6 1 0.146 1.1 0.088 0.643 1.29 0.308 0.035 1.14 0.73 3.05 127 15.8 35.4 91 161 1160 3.9 1 5.3 4.8 4.7 11.9 1 0.191 0.959 0.38 0.133 1.05 0.165 0.036 0.927 0.796 2.57 112 13.4 27.5 93.6 120 924 3.9 1 2.6 3.1 3.6 11.1 1 0.363 1.38 0.16 0.051 1.32 0.38 0.059 1.13 1.73 3.07 138 16.7 76.6 84.6 164 1090 5.6 1 5.1 5.5 5.1 13.3 1 0.106 1.25 0.114 0.055 1.27 0.275 0.019 1.05 0.491 6.56 172 18.7 15.7 112 137 1290 4.6 1 4.7 5 4.1 12.8 1 0.479 1.07 0.168 0.753 0.715 0.164 0.062 0.823 2.06 4.57 179 17.8 98.5 122 184 1170 4.8 1 4.8 4.8 3.3 12.8 1 0.234 0.906 0.466 0.102 0.811 0.271 0.044 0.963 1.09 3.18 145 14.3 10.5 91.9 187 1020 5.3 1 4.5 4.3 5.2 12 1 0.058 1.84 0.042 0.17 1.8 0.225 0.022 1.13 0.048 6.13 113 13 54.4 70.2 158 1240 4.3 1 4.3 3.9 2.9 13.6 3 0.074 1.28 0.098 0.053 1.35 0.329 0.03 1.07 0.552 3.3 140 16.3 70.5 74.7 159 1100 4.3 1 3.9 4.7 3.9 13.9 1 0.071 1.19 0.043 0.163 0.971 0.105 0.028 0.491 0.31 6.56 103 9.5 45.3 67.9 133 1090 5.1 1 4.3 4.5 3.6 14.4 3 0.147 2.76 0.071 0.074 0.483 0.301 0.087 2.14 0.546 3.5 199 9.2 80.4 66.3 212 1470 3.3 0.5 5.4 4.3 3.6 12.3 2 0.116 1.15 0.055 0.18 0.912 0.166 0.041 0.578 0.518 6.43 111 11.1 59.7 83.8 139 1120 5.9 0.8 5.7 7 4.1 16.1 3 0.166 1.53 0.041 0.043 0.512 0.132 0.026 0.229 0.699 7.27 107 6 55.2 44.9 148 854 7.7 0.7 6.6 6.7 3.7 16.1 3 0.261 1.65 0.073 0.285 0.596 0.078 0.063 0.156 1.02 5.04 94.6 6.3 10.4 54.9 132 899 7.1 1 4.4 5.8 4.1 15.5 3 0.191 1.78 0.067 0.552 0.633 0.085 0.063 0.192 0.777 5.56 110 7 13.6 64.1 167 976 5.5 0.9 5.6 5.6 4.4 15.5 3 0.009 1.57 0.041 0.081 0.655 0.072 0.021 0.172 0.232 3.79 75.9 6.4 11.6 48.1 132 995 6.3 1 5.4 4.8 4.6 13.8 3 0.027 1.74 0.046 0.153 1.15 0.094 0.021 0.358 0.025 4.24 80.9 7.9 38.9 57.6 136 876 5 1 5.5 5.5 4.1 13.8 3 0.05 1.15 0.058 0.058 1.35 0.294 0.006 1.12 0.206 2.71 120 14.7 68.1 64.8 133 1050 4.6 1 4.1 4.3 3.1 11.3 1 0.03 2.82 0.058 0.05 0.623 0.349 0.082 2.91 0.171 3.54 208 9.3 79.2 66.4 266 1430 3.4 0.9 5 3.4 3.4 7.9 2 0.268 2.32 0.066 0.314 0.627 0.099 0.045 0.36 1.28 5.68 98.4 9.1 19.5 64.3 176 945 6.4 0.9 5.4 6.6 4.8 15.1 3 0.245 1.61 0.07 0.172 2.07 0.071 0.053 0.186 1.19 4.42 87.6 7.6 11.6 70.6 156 820 5.5 1 5.3 5.3 3.8 13.5 3 0.161 1.47 0.154 0.082 0.546 0.181 0.06 0.898 0.747 8.11 160 19.3 12.5 82.1 218 1220 4.7 0.7 4.1 5 3.7 10.8 2 0.146 1.85 0.092 0.09 0.889 0.328 0.1 1.32 0.604 6.42 134 19.3 125 83.2 173 1810 4.1 0.7 4 4.1 4 9.5 2 0.155 1.73 0.051 0.158 0.653 0.081 0.037 0.164 0.767 4.91 86.5 6.5 11.5 53.9 172 1020 6 1 5.4 5.7 4.7 12.7 3 0.126 1.7 0.112 0.21 0.508 0.299 0.054 0.995 0.686 6.94 129 43.6 45 85.9 165 1330 4.3 1 4.6 4.7 4.9 11.6 2 0.184 1.28 0.095 0.058 1.3 0.346 0.037 1.17 1.28 3.29 145 16.7 65.8 72.8 175 1140 3.9 1 4 5.1 5.1 11.7 1 0.211 1.65 0.102 0.055 0.308 0.206 0.028 0.72 1.02 6.12 99.3 27.1 20.5 95.2 194 1260 5.1 1 4.9 5 5.1 11.9 2 0.129 1.56 0.166 0.151 0.373 0.281 0.034 0.889 0.638 7.28 139 22.2 13.3 84.2 164 1200 3.9 1 4.4 5 4.4 10.8 2 0.166 3.14 0.104 0.053 0.368 0.292 0.039 1.11 0.831 4.71 125 17.6 13.9 59.5 141 1030 4.5 1 3.7 2.9 3.9 8.5 2 0.199 1.65 0.119 0.163 0.447 0.292 0.058 0.927 1.02 6.97 131 38.3 42.9 85.9 164 1390 5.2 1 4.3 5 6 10.7 2 0.266 1.28 0.087 0.071 1.14 0.158 0.049 0.794 1.3 3.77 143 19.7 39.1 128 146 1230 4.2 0.8 3.8 3 4.7 9.1 1 0.183 1.94 0.07 0.095 0.465 0.225 0.037 1.19 0.915 2 123 4.6 7.5 69.4 123 943 3.3 1 3.5 4.3 4.5 12.1 1 0.208 1.76 0.061 0.099 0.683 0.087 0.042 0.168 1.33 5.04 92.9 7 12 56.3 157 949 6.8 1 5 6 5.2 14.9 3 0.142 2.44 0.051 0.052 0.737 0.408 0.022 1.16 0.745 3.94 143 6.8 36.8 67.6 82 1170 5 0.8 5.7 5.5 4.8 13.5 1 0.171 1.85 0.088 0.038 1.21 0.263 0.072 1.35 0.899 2.38 130 6.2 101 64.4 99 1070 3.5 0.8 4.7 4.2 3.3 12.2 1 0.307 1.15 0.063 0.051 0.643 0.29 0.031 0.885 1.61 4.4 151 17.4 7.3 103 177 1100 4.3 0.8 5.5 3.5 5.8 10.3 1 0.342 4.08 0.065 0.077 0.752 0.366 0.048 1.08 1.77 3.37 145 5.3 33.1 58.3 117 1010 5.2 0.8 4.8 5.7 3.5 13.2 1
24.2.2010
18
Úloha 6. Klasifikace vlastností rozličných druhů kávy (Kompendium E406) U 43 vzorků kávy ze 30 zemí byly změřeny chemické a fyzikální vlastnosti. Nalezněte shluky podobných vlastností a shluky podobných prvků. Data: 13 proměnných (sloupce): i index kávy, j je původ kávy, x1 obsah vody, x2 hmotnost zrn, x3 extrakt, x4 pH, x5 volná acidita, x6 obsah minerálů, x7 tuky, x8 kofein, x9 trinonelin, x10 kyselina chlorogeniková, x11 kyselina neochlorogeniková, x12 kyseliny isochlorogeniková, x13 suma kyselin chlorogenikových.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
19
Úloha 6. Klasifikace vlastností rozličných druhů kávy (Kompendium E406) i
ii
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
Mexico 1 Mexico 2 Guatemala Honduras Salvador 1 Salvador 2 Salvador 3 Nicaragua 1 Nicaragua 2 Costa Rica 1 Costa Rica 2 Costa Rica 3 Panama Haiti Dominica Venezuela 1 Venezuela 2 Columbia 1 Columbia 2 Ecuador Peru Brasil 1 Brasil 2 Brasil 3 Brasil 4 Brasil 5 Cotedivoir Togo Cameroon Congo Angola 1 Angola 2 Angola 3 Ethiopie Uganda 1 Uganda 2 Kenya Tanganika Madagascar India Sumatra Java
8.9 7.4 9.7 10.4 10.5 10 8.2 9.2 9.3 7.1 7.6 7.3 9.3 8.3 11.6 9.7 10.6 12 10.6 11.6 10.1 10.7 9.7 10.8 11.1 10.1 8 9 10.3 10 9.2 9.6 9.5 9.3 10.5 10.7 10.5 9.9 5 11.5 8.4 5.6
156.6 157.3 152.9 174 145.1 156.4 155.2 167.8 165.4 180.3 153.2 159.6 161.8 160.8 174.8 169.1 163.7 178.8 169.1 148.5 153.7 134.5 160.7 133.2 131.7 121.6 141.8 144.6 119.2 143.2 150.4 136.6 136.5 124.2 132.9 181.2 159.1 169.4 152 156.8 110.8 163.1
33.5 32.1 33.1 31.5 35.2 34.5 32.4 30.6 35.3 33 36 35 32.4 35.7 32.5 34 35 32.9 33 34.6 34.5 29.8 33.8 35 29.8 33.6 33.7 29.9 35.5 31.7 31.5 33.9 32 35.6 36.2 33.1 30.3 29 30.6 30.8 31.6 34.5
5.8 5.8 5.3 5.6 5.8 5.8 5.6 5.9 5.8 5.8 5.9 5.8 5.8 5.9 5.4 5.8 5.8 5.3 5.3 5.3 6 5.4 5.3 5.2 5.4 5.4 5.8 5.6 6.1 6.1 5.7 5.6 5.8 5.8 5.4 5.8 5.6 5.6 5.3 5.5 5.7 5.5
32.7 30.8 36.7 34.2 31.8 32.6 29.7 28.9 32.6 29.3 30.5 29.9 31 30 35.2 31.6 35 36.2 37.5 39.4 28.4 34.1 37.2 34.7 33 34.7 41.9 38 41.7 29.3 36.4 38.2 31.2 31.8 36.7 30.7 31.5 30.2 40.5 37.5 43.4 33.3
3.8 3.7 4.2 3.9 4.1 3.9 3.8 3.8 4.2 4 3.9 3.7 3.7 4.4 3.7 4 3.8 4.4 4.4 4.2 3.7 3.7 4.2 4.5 4.1 3.5 4.2 3.9 4.1 4.1 4.2 4 3.8 3.8 4 3.9 3.7 3.7 3.9 3.9 4.5 4
15.2 15 16.1 15.8 15.2 15.4 15.6 15.1 14.3 15.1 16.8 16.5 15.5 13 14.5 15.7 15.8 15.6 15.1 14.6 15.9 15.8 15.2 15.1 15.8 15.4 11 7.5 9.8 17 8.5 7.2 14.6 15.7 15.6 15.8 15.2 16.5 9.6 14.3 10.1 16
1.1 1.3 1.2 1.1 1.1 1.2 1.3 1.3 1.2 1.3 1.4 1.2 1.3 1.3 1 1.3 1.2 1.3 1.2 1 1.3 1.2 1.1 1.2 1.1 1.1 2 1.9 1.8 1.2 1.9 2.2 1.3 0.9 1 1.3 1.3 1.3 1.6 1.2 1.7 1.2
1 1 1 0.9 1 0.8 1.2 1 1 1 1.1 1.2 1.2 1 1 1.3 1.1 1 1 1.1 1.1 0.9 0.9 1.4 1.2 0.9 0.5 0.3 0.8 0.6 0.6 0.5 1 0.9 1 1.1 0.9 0.9 0.7 1 0.8 1.1
5.4 5.1 5.9 5.9 5.1 5.3 4.8 5 5.5 5.1 5.3 5.5 5.6 6.1 5.7 5.1 6.1 5.6 6.1 5.7 6.1 5.4 5.4 5 5.1 5.5 6.4 5.4 6 5.4 5.9 6.2 5.2 5.5 5.9 5.3 5.1 5 5.3 5.8 6.3 5.1
0.4 0.3 0.2 0.4 0.5 0.4 0.3 0.3 0.4 0.3 0.3 0.3 0.3 0.6 0.3 0.3 0.3 0.4 0.1 0.5 0.4 0.4 0.3 0.5 0.5 0.4 0.6 0.8 0.5 0.3 0.6 0.4 0.4 0.2 0.4 0.3 0.3 0.2 0.6 0.4 0.7 0.3
0.8 1 0.8 0.6 0.7 0.7 0.7 0.7 0.8 0.7 0.7 0.7 0.6 0.8 0.5 0.3 0.9 0.7 0.6 0.4 0.8 0.6 0.5 0.5 0.5 0.6 1.5 0.9 1.1 0.7 1.4 1.6 0.8 0.8 0.6 0.6 0.7 0.7 0.8 0.4 0.9 0.8
6.6 6.4 6.9 6.8 6.3 6.4 5.9 5.9 6.7 6.1 6.3 6.5 6.6 7.5 6.5 6.2 7.3 6.7 6.9 6.6 7.3 6.4 6.2 6 6 6.5 8.5 7.1 7.6 6.4 7.9 8.3 6.4 6.5 6.9 6.2 6 5.9 6.7 6.6 7.9 6.3
43
Hawai
9.7
191.2
35.1
5.6
34.6
4.2
14.2
1.1
0.9
0.7
0.5
0.3
6.5
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
20
PŘÍKLAD 4.5 Chromatografická analýza farmakologických sloučenin Byly měřeny hodnoty RF pro 20 sloučenin s 18 eluenty. Žádné eluční činidlo však neprovedlo úplné rozdělení. Cílem je nalézt minimální výběr elučních činidel, které by daly dostatek informace pro kvalitativní analýzu.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
21
Data Datový soubor GIUSEPPE obsahuje 100 x RF pro 20 sloučenin (v řádcích byla jména zkrácena na maximálně 8 písmen) a ve sloupcích je 18 elučních činidel představujících zde znaky: i vzorek, x1 směs toluen : aceton : ethanol: 30 % amoniak = 45 : 45 : 7 : 3, x2 směs ethylacetát: benzen : methanol : 30 % amoniak = 60 : 35 : 6.5 : 2.5, x3 směs benzen : dioxan : ethanol : 30 % amoniak = 50 : 40 : 7.5 : 2.5, x4 směs methanol : 30 % amoniak = 100 : 1.5, x5 směs benzen : 2-propanol : methanol : 30 % amoniak = 70 : 30 : 20 : 5, x6 směs ethylacetát: methanol : 30 % amoniak = 85 : 10 : 5, x7 směs cyklohexan : toluen : diethylamin = 65 : 25 : 10, x8 směs cyklohexan : toluen ; diethylamin = 75 : 15 : 10, x9 směs cyklohexan : benzen : metanol : diethylamin = 70 : 20 : 10 : 5, x10 směs chloroform : aceton : diethylamin — 50 : 40 ; 10, x11 směs cyklohexan : chloroform : diethylamin = 50 : 40 : 10, x12 směs benzen : ethylacetát : diethylamin = 50 : 40 : 10, x13 směs xylen : methylethylketon : methanol : diethylamin = 40 : 40 : 6 : 2, x14 směs diethylether : diethylamin — 95 : 5, x15 směs ethylacetát : chloroform = 50 : 50, x16 směs ethylacetát : chloroform [A] = 50 : 50, x17 směs butanol : methanol = 40 : 60, x18 směs butanol: methanol *A+ = 40 ; 60, kde *A+ značí, že byl užit 0.1M methanolát draselný. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
22
Data
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
23
Dělení na strukturovaná a nestrukturovaná data
DRUHY DAT
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
24
Nestrukturovaná data • matice X (n x m) nepředpokládá žádná speciální struktura mezi znaky – čili sloupci matice X. • a) Kvantitativní a semikvantitativní data: vyšetřuje se – analýza parametrů polohy (vektoru průměrů), – rozptýlení (kovarianční respektive korelační matici), – přítomnost vybočujících bodů, předpoklady normality, standardní statistické testy: PCA
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
25
Analýza hlavních komponent (PCA): lineární transformace původních os do souřadnicového systému hlavních komponent, které jsou vzájemné ortogonální (nekorelované). V PCA osy postihují maximální množství informací vyjádřené variabilitou mezi objekty. Relativní pozice objektů zůstává zachována. Nový systém os je natočen do směrů, které postihují maximální variabilitu minimalizují vzdálenosti objektů od hlavních komponent. Každý objekt má nové souřadnice, které se označují skóre.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
26
b) Kvalitativní a semikvalitativní data: Kvalitativní data bývají ve tvaru kontigenčníeh tabulek – (lineární proměnné kódované 0 a 1). Korespondenční analýza (CA) je PCA pro kontigenční tabulky. Využívá ortogonálního rozkladu 𝜒 2 -statistiky, která vyjadřuje míru asociace. Sloupce a řádky u CA jsou symetrické a lze je vyjádřit jedním grafem. Korespondenční analýza seje duální, optimální, škálování nebo jako reciproké průměrování. Vícenásobná korespondenční analýza (MCA): analyzuje několik binárních proměnných. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
27
Vícerozměrnéškálování(MDS) vyjadřuje podobnosti či vzdálenosti mezi objekty. Znázorňuje objekty na mapě tak, že eukleidovská vzdálenost zde odpovídá přibližně původním koeficientům podobnosti respektive vzdálenosti. Klasická MDS je použita pro vzdálenosti a nemetrická MDS pro podobnosti. Shluková analýza (CLU): se užívá když řádky a sloupce matice dat reprezentují stejný objekt. Shluková analýza využívá znázornění ve stromové struktuře (dendrogramy).
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
28
Data musí obsahovat užitečnou informaci: Předpokladem analýzy dat: data musí obsahovat požadovanou informaci. Např. u stanovení koncentrace sloučeniny musí meření roztoku monitorovat tuto sloučeninu. Žádná statistická metoda nemůže pomoci, když data neobsahují dostatečné množství informace o vlastnosti či jevu. Objem informace v datech: závisí na způsobu formulování problému, dostatečná pozorování, měření, experimenty, Relevantní data jsou data, která dostatečně vypovídají,
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
29
STRUKTUROVANÁ DATA
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
30
Pro jednu skupinu závisle proměnných Matice závisle proměnných Y rozměru n x q matice nezávisle proměnných Z rozměru n x (m + q) a) Pro q = 1 jde o klasickou vícenásobnou regresi. b) Pro q = la Y je binární proměnná, jde o logistickou regresi. c) Pro q > 1, jde o vícerozměrnou lineární regresi (MLR). d) Pro ortogonální sloupce matice F(čili znaky jsou nekorelované) užijeme standardní vícenásobnou regresi pro každý faktor zvlášť. e) Při multikolinearitě (vysoké korelace mezi faktory v matici Z) užijeme řadu speciálních regresních metod:
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
31
Pro jednu skupinu závisle proměnných 1. Metoda parciálních nejmenších čtverců (PLS) kombinuje PCA a MLR, tj. využívá latentních vektoru k vyjádření jak závisle, tak i nezávisle proměnných. 2. Regrese na hlavních komponentách (PCR) využívá jako nezávisle proměnné jednotlivé hlavní komponenty. 3. Redundantní analýza (RA) je inverzní k PCR a určí se v ní hlavní komponenty pro matici Y příslušné skóry se pak užijí pro sérii vícenásobných regresí. 4. Vícenásobná analýza rozptylu (MANOVA), 5. Diskriminační analýza (DA) provádí zařazení objektu do některé skupiny na základe znaku matice Z. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
32
Pro více skupin závisle proměnných matice Y rozměru n x q dělena na dílčí matici Y21, rozměru n x q1, na dílčí matici Y2 rozměru n x q2 atd. Kanonická korelační analýza (CCA) využívá kombinace vektoru Y1, Y2, ..., Y0 k hledání nových proměnných (kanonických proměnných), které mají nejvyšší korelace. Analogií FA je vícerozměrná faktorová analýza (MFA), kam patří řada speciálních metod jako PARAFAC, TUCKER3, STATIS. Prokrustova analýza (PA) je srovnání tabulek vzdáleností pro stejné objekty. V první fázi se vytvoří mapy MDS a pak se hledají transformace, které přiblíží body na obou mapách co nejblíže k sobě ve smyslu nejmenších čtverců. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
33
Popisné charakteristiky vícerozměrných veličin Intenzita vztahu mezi proměnnými: Intenzita vztahu mezi proměnnými: k charakterizaci j-tého znaku 𝜉𝑗 čili sloupce zdrojové matice X se používá střední hodnota 𝐸 𝜉𝑗 = 𝜇𝑗 a rozptyl 𝐷 𝜉𝑗 = 𝜎𝑗2 . Míra intenzity vztahu mezi proměnnými 𝜉𝑖 a 𝜉𝑗 , 𝑗 = 𝐼. Druhý smíšený centrální moment, kovariance 𝑐𝑜𝑣 𝜉𝑖 , 𝜉𝑗 = 𝐸 𝜉𝑖 𝜉𝑗 − 𝐸 𝜉𝑖 𝐸(𝜉𝑗 )
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
34
Popisné charakteristiky vícerozměrných veličin Intenzita vztahu mezi proměnnými: Kovariance 𝑐(𝑥1 , 𝑥2 ) mezi dvěma proměnnými 𝑥1 a 𝑥2 je mírou jejich lineární závislosti: a) Velká absolutní hodnota kovariance indikuje silnou lineární vazbu mezi dvěma proměnnými. b) Malá hodnota kovariance znamená, že při změně 𝑥1 se příliš nezmění 𝑥2 c) Kovariance je mírou, která závisí na použitých jednotkách proměnných. d) Limitní (maximální) hodnota kovariance je rovna odmocnině z rozptylů 𝑠𝑥21 a 𝑠𝑥22 tedy 𝑐 𝑥1 , 𝑥2 =
𝑠𝑥21 𝑠𝑥21
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
35
Popisné charakteristiky vícerozměrných veličin Intenzita vztahu mezi proměnnými: e) Pozitivní kovariance znamená přímou vazbu mezi 𝑥1 a 𝑥2 , tj. při změně 𝑥1 , se změní 𝑥2 ve stejném smyslu, růst 𝑥1 , je doprovázen růstem 𝑥2 . f) Negativní kovariance znamená nepřímou vazbu mezi 𝑥1 a 𝑥2 , tj. při změně 𝑥1 se změní 𝑥2 v opačném smyslu, růst 𝑥1 je doprovázen poklesem 𝑥2 . g) Nulová kovariance znamená nekorelovanost, tj. lineární nezávislost. Ještě stále však může být mezi 𝑥1 a 𝑥2 speciální typ nelineární závislosti.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
36
Vlastnosti kovariance a) Znaménko ukazuje na trend stochastické vazby mezi j-tým a i-tým sloupcem matice. b) Je v absolutní hodnotě shora ohraničená součinem 𝜎𝑖 𝜎𝑗 tj. 𝑐𝑜𝑣 𝜎𝑖 , 𝜎𝑗 ≤ 𝜎𝑖 𝜎𝑗 . c) Je symetrickou funkcí svých argumentů. d) Nemění se posunem počátku: pro čísla a1, a2, b1, b2 pak platí, že 𝑐𝑜𝑣(𝑎1 𝜎𝑖 + 𝑏1 , 𝑎2 𝜎𝑗 + 𝑏2 ) = 𝑎1 𝑎2 𝑐𝑜𝑣(𝜎𝑖 , 𝜎𝑗 ) .
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
37
Vlastnosti kovariance e) Pro nekorelované náhodné veličiny je 𝑐𝑜𝑣(𝜎𝑖 , 𝜎𝑗 ) = 0: 1. 𝐸 𝜎𝑖 𝜎𝑗 = 0 a zároveň 𝐸 𝜎𝑖 = 𝐸 𝜎𝑗 = 0, což je případ centrovaných ortogonálních náhodných veličin, ne nutně nezávislých.
2. 𝐸 𝜎𝑖 𝜎𝑗 = 𝐸 𝜎𝑖 = 𝐸 𝜎𝑗 , což je případ nezávislých náhodných veličin.
f) Je mírou intenzity lineární závislosti.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
38
Nevýhody kovariance: hodnoty závisí na měřítku 𝜉𝑖 a 𝜉𝑗 . Velikost kovariance je omezena součinem 𝜎𝑖 𝜎𝑗 .
Pearsonův párový korelační koeficient 𝑐𝑜𝑣(𝜉𝑖 , 𝜉𝑗 ) 𝜌 𝜉𝑖 , 𝜉𝑗 = 𝜌𝑖𝑗 = 𝜎𝑖 𝜎𝑗 leží v rozmezí −1 ≤ 𝜌𝑖𝑗 ≤ 1: pokud je 𝜌𝑖𝑗 > 0, jde o pozitivně korelované náhodné veličiny, pokud je 𝜌𝑖𝑗 < O, jde o negativně korelované náhodné veličiny. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
39
Korelace Korelace mezi dvěma proměnnými x1 a x2 je praktičtější mírou lineárního vztahu, jde o standardizovanou kovarianci a bezrozměrnou míru. Standardizace se provádí podělením součinem směrodatných odchylek. Nejužitečnější mírou vnitřního lineárního vztahu mezi dvěma proměnnými x1 a x2 je korelace, definovaná Personovým korelačním koeficientem r 𝑟=
𝑛 𝑖=1(𝑥1𝑖
− 𝑥1 )(𝑥2𝑖 − 𝑥2 ) 𝑛 𝑛 (𝑥 − 𝑥 ) 1𝑖 1 𝑖=1 𝑖=1(𝑥2𝑖 − 𝑥2 )
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
40
Vlastnosti korelace: a) |𝜌𝑖𝑗 | = 1 ukazuje, mezi 𝜉𝑖 a 𝜉𝑗 existuje přesně lineární vztah. b) Pokud jsou 𝜉𝑖 a 𝜉𝑗 vzájemně nekorelované, je 𝜌𝑖𝑗 = 0.
c) 𝜉𝑖 a 𝜉𝑗 pocházejí z vícerozměrného rozdělení a 𝜌𝑖𝑗 = 0 znamená, že proměnné jsou vzájemně nezávislé. d) I pro nelineárně závislé náhodné veličiny může být 𝜌𝑖𝑗 = 0. e) Korelační koeficient je invariantní vůči lineární transformaci 𝜉𝑖 , 𝜉𝑗 . Pro čísla a1, a2, b1, b2 platí vztah 𝜌 𝑎1 𝜉𝑖 + 𝑏1 , 𝑎2 𝜉𝑗 + 𝑏2 = 𝑠𝑖𝑔𝑛 𝑎1 , 𝑎2 𝜌(𝜉𝑖 , 𝜉𝑗 ) kde sign(x) je znaménková funkce, pro kterou platí −1 𝑝𝑟𝑜 𝑥 < 0 𝑝𝑟𝑜 𝑥 = 0 𝑠𝑖𝑔𝑛 𝑥 = 0 1 𝑝𝑟𝑜 𝑥 > 0 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
41
Koeficient determinace Koeficient determinace 𝐷 = 𝑟 2 popisuje podíl celkového rozptylu, který lze objasnit tímto lineárním vztahem. Korelace 0.0 značí, že mezi dvěma proměnnými není lineární vztah. Korelace 1.0 značí, že mezi dvěma proměnnými je pozitivní lineární vztah. Korelace -1.0 značí, že mezi dvěma proměnnými je negativní lineární vztah. 100D *%+ vyjádřený v procentech je mírou k vystižení korelace, protože nezávisí na znaménku korelačního koeficientu.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
42
Kauzalita versus korelace Korelace je statistický pojem pro vyjádření míry lineárního vztahu a jde o čisté pojmovou míru. Například: ročenky o demografii ukazují, že například počet narozených děti na vesnicích ve Skandinávii koreluje s počtem čápu vyskytujících se v tomto kraji s korelačním koeficientem 𝑟 ≈ 0.75. Přesto nelze přítomnost čápů v tomto kraji brát jako příčinu narozených dětí.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
43
Ověření normality Nejjednodušší metodou ověřování normality je test vícerozměrné šikmosti 𝑔1,𝑚 a vícerozměrné špičatosti 𝑔2,𝑚
𝐻0 : 𝑔1,𝑚 = 0 a 𝐻1 : 𝑔2,𝑚 = 𝑚(𝑚 + 2).
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
44
Odhady parametrů polohy a rozptýlení: Z vícerozměrného výběru definovaného n-ticí m𝑇
𝒙𝑇𝑖
rozměrných objektů = 𝑥𝑖,1 , 𝑥𝑖,2 , … , 𝑥𝑖,𝑚 , 𝑖 = 1, … 𝑛, je možno stanovit výběrový vektor středních hodnot 𝜇 určený vztahem 1 𝝁= 𝑛
𝑛
𝒙𝑇𝑖 𝑖=1
• Pro odhad kovarianční matice 𝑆 0 platí 𝑛 1 0 𝑆 = 𝒙𝑖 − 𝝁 𝒙𝑖 − 𝝁 𝑛
𝑇
𝑖=1
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
45
Míra polohy náhodného vektoru se charakterizuje pomocí vektoru středních hodnot 𝝁 𝑇 = [𝐸 𝜉1 , … , 𝐸 𝜉𝑚 ]. Míra rozptýlení pomocí kovarianční matice řádu m x m … 𝑐𝑜𝑣 𝜉1 , 𝜉𝑖 𝐷 𝜉1 𝑐𝑜𝑣 𝜉1 , 𝜉2 … 𝑐𝑜𝑣 𝜉1 , 𝜉𝑚 … … … 𝜉1 , 𝜉2 𝐷 𝜉2 … … 𝑪 = 𝑐𝑜𝑣 … … … … … … 𝑐𝑜𝑣 𝜉𝑖 , 𝜉𝑚 … 𝐷 𝜉 𝑐𝑜𝑣 𝜉 , 𝜉 𝑐𝑜𝑣 𝜉 , 𝜉 1
𝑚
2
𝑚
𝑚
Místo kovarianční matice užijeme její normovanou verzi korelační matici 𝜌12 … 𝜌1𝑖 … 𝜌1𝑚 1 … … … 1 12 … … 𝑹 = 𝜌… … … … … 𝜌1𝑚 𝜌2𝑚 … 𝜌𝑖𝑚 … 1 má na diagonále samé jedničky a mimodiagonální prvky jsou Perasonovy párové korelační koeficienty. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
46
Pro vektor výběrových středních hodnot platí 𝐸 𝝁 =𝝁a𝐷 𝝁 =
1 𝑪. 𝑛
Odhad 𝝁, je nevychýlený. 0
𝑛−1 𝑪 𝑛
U odhadu kovarianční matice 𝐸(𝑺 ) = jde o vychýlený odhad. Používá se výběrová korigovaná kovarianční matice 𝑛−1 0 𝑺 = 𝑺 𝑛 která je již nevychýleným odhadem kovarianční matice 𝑪. Matice 𝑺0 je výběrová kovarianční matice.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
47
Míry tvaru Pokud máme dva vektory 𝜉1 a 𝜉2 , které jsou nezávislé a rozdělené se střední hodnotou 𝝁 a kovarianční maticí C, je vícerozměrná šikmost dána vztahem 𝑔1,𝑚 = 𝐸 𝝃1 − 𝝁 𝑇 𝑪−1 𝝃2 − 𝝁 3 a pro vícerozměrnou špičatost platí 𝑔2,𝑚 = 𝐸 𝝃1 − 𝝁 𝑇 𝑪−1 𝝃𝟏 − 𝝁 2 Platí: 𝑔1,𝑚 = 0 a 𝑔2,𝑚 = 𝑚(𝑚 + 2).
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
48
Příklad 4.1 Popisné charakteristiky Na úloze B4.02 Účinky neuroleptik při tlumení rozličných psychóz si ukážeme odhady polohy, rozptýlení a tvaru vícerozměrné analýzy dat. K analýze znaků užijeme škálovaná data. Řešení:1. Popisné statistiky: klasické odhady měr polohy a rozptýlení
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
49
PŘÍKLAD 9.4 Vytvoření dendrogramu neuroleptik Neuroleptika redukují nežádoucí účinky přebytečného dopaminu a liší se ve svých účincích: potlačují nervozitu, záchvaty, třes, ospalost, parkinsonismus, vynechávání menstruace, vyrážky, zvýšené slinění atd. Cílem je provést klasifikaci neuroleptik do shluků podobných účinků. Data: Data Neuroleptika (převrácená hodnota mediánové účinné dávky 1/ED50 [kg/mg]): • Lek název neuroleptika, • Nervoz potlačení nervozity, • Stereo potlačení stereotypního chování, • Tres potlačení záchvatu a třesu a • Usmr dávka smrtícího účinku. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
50
Data
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
51
Platí: je-li korelace mezi znaky malá, není třeba užít PCA a FA.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
52
Struktury ukryté v datech: Přirozeně se nalezne vždy nčjaká korelace mezi sloupci matice X. V řadě úloh jde o současný vliv několika rozličných znaků čili jeden znak je lineární kombinací ostatních znaků. Pokud jde o strukturovaná data a výsledek y závisí na jediném znaku a kovariance 𝑐(𝑦, 𝑥𝑗 ) je dostatečné vysoká, jde o tzv. "selektivní znak". případe vektoru vstupních veličin existuje více úrovní selektivity. Data obsahují často znaky, které mohou být irrelevantní k výsledku y, které se pak zařazují mezi chyby. Instrumentální sum a ostatní náhodné chyby budou vždy přítomny v datech. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
53
Například, analýzou spekter koncentraci látky A, ve směsi s B a C. Obr.1.1 Analýza signálu látky A při rušení signálem dvou látek, B a C Signál látek B a C zde bude v roli šumu.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
54
Co představuje rušivý šum? Co je cílem stanovení, co je vytýčený model a co do modelu nepatří? Vícerozměrná pozorování se proto modelují jako dvou součet složek: struktura a šum. Struktura představuje část signálu, která objasňuje jak se X projeví při vysvětlování y, respektive Y. Šum představuje všechno ostatní, příspěvky od ostatních znaků a přístrojový šum. Šumová složka je vždy zkreslující a uživatel si ji obvykle přeje odstranit. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
55
Vybočující body Pro vybočující body platí vlastnosti a) zkreslují odhady vektoru středních hodnot a kovarianční matice, b) znehodnocují testy těchto parametrů, c) ovlivňují výrazně výsledky vícerozměrných statistických metod, a d) neumožňují tvorbu a selekci strukturních modelů. Pro identifikaci odlehlých měření je obecně třeba: 1. definovat „čistá data", 2. určit pravděpodobnostní model dat a často i vybočujících bodů, 3. odhadnout parametry tohoto modelu. Množina indexů i = 1,2, ..., n odpovídá objektům, které rozkládá na podmnožinu potenciálně dobrých dat D a potenciálně vybočujících bodů V. Platí, že I = (D, V). 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
56
Vybočující body Počet potenciálně dobrých dat je 𝑛𝐷 . Počet potenciálně vybočujících bodů je 𝑛𝑉 . Podíl vybočujících bodů je pak 𝑒 = 𝑛𝑉 /𝑛. Hodnota výběrového průměru ze všech dat je pak 𝐸 𝑥 = 𝝁0 + 𝑒𝝁 a očekávaná hodnota výběrové kovarianční matice S je 𝐸 𝑺 = 1 − 𝑒 𝑪0 + 𝑒𝛀 + 𝑒 1 − 𝑒 𝝁𝝁𝑇 . Výběrové průměry a kovarianční matice ze všech dat jsou závislé jak na podílu vybočujících bodů, tak i na jejich parameterech. Běžný postup indikace vlivných bodů spočívá ve vypouštění skupin bodu (objektů), výpočtu korigovaných průměrů 𝒙𝑘 a kovarianční matice SK a porovnání těchto parametrů s původními odhady 𝒙 a S.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
57
Vybočující body
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
58
K porovnání se používá Mahalanobisovy vzdálenosti • 𝑑𝑖𝑗 =
𝒙𝑖 − 𝒙𝐴𝐷
𝑇
𝑤 𝑫, 𝒑 𝑺𝑫
−1 (𝒙 𝑖
− 𝒙𝐴𝐷 )
• kde 𝒙𝐴𝐷 a SD jsou vektor aritmetických průměrů a kovarianční matice určené z potenciálně dobrých dat. • Korekční faktor 𝑤 𝑫, 𝒑 byl zaveden Hadim ve tvaru • 𝑤 𝑫, 𝒑 = 1 +
2 𝑛𝐷 −1−3𝑚
+
𝑚+1 2 𝑛𝐷 −𝑚
• Techniky indikace vybočujících bodů jsou citlivé na tzv. maskování, kdy se vybočující body jeví jako korektní, vlivem zvětšení kovarianční matice. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
59
Překryv Může nastat také překryv, kdy přítomnost vybočujících měření způsobí, že některá správná měření se dostanou mimo akceptovatelnou oblast, a to zkreslením kovarianční matice.
Vybočující body jsou na obrázku tmavé a znázornění vychází z faktu, že elipsa tvoří hraniční oblast oddělující dobrá (D) a vybočující (V) data. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
60
PŘIKLAD 1.1 Analýza zdrojově matice dat Hrách Zdrojová matice dat Hrách obsahuje znaky smyslového posouzení znaku odrůd hrachu. Objekty jsou vzorky pěti odrůd hrachu A až E, sklízené v pěti rozličných obdobích 1 až 5. Posouzení 10 porotci dvojmo, smyslové charakteristiky od 1 (nejhorší) do 9 (nejlepší), získáno 1200 řádků (objektů) tj. 60 vzorků x 2 krát opakováno 10 porotců. Původně ordinální dala se tak vlastně kardinalizovala. Cílem je 1. průmčrovat data, 2. vynést původní data do grafu a 3. vypočítat popisné jednorozměrné statistiky. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
61
Data Data: matice dat n = 1200, m = 12 byla průměrována a výsledkem je matice 60 x 12 průměrných hodnot senzorického hodnocení pro znaky: Aro je aroma, Slad je sladkost, Med je medovost, Bez je bezchuťovost, Klas je klasovost, Tvrd je tvrdost, Bel je bělost, Bar1 je barva 1, Bar2 je barva2, Bar3 je barva3, Slup je slupka, Ztr je ztráta.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
62
Zdrojová matice dat
24.2.2010
63
Řešení • Řešení: užity STATISTICA, SCAN, QC-Expert a MINITAB. • Průzkumová analýza dat: byly vypuštěny znaky týkající se barvy hrachu Bar1 až Bar3 a k analýze byla použita matice rozměru 60 x 9. • Grafy původních dat: informaci v datech získáme z maticového grafu a korelačního koeficientu r a koeficientu determinace D = 𝑟 2 . 100%.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
64
Matice korelačních koeficientů znaků
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
65
Maticový graf řekne více než matice korelačních koeficientů Maticový graf korelace znaků matice Hrách . Na osách jsou min. a maximální hodnoty znaků (SCAN)
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
66
Exploratorní analýza dat Znaky se vyšetří diagnostikami EDA: histogram, jádrový odhad hustoty pravděpodobnosti, kvantilový graf, rankitový Q-Q graf, krabicový graf, graf polosum a symetrie, kruhový graf, atd Zkoumá se vliv typu hrachu (A - E) a období sklizně (1-5) na znaky, rozdělení a odlehlé objekty,
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
67
Obr. 1.3a Histogram, graf hustoty pravděpodobnosti, krabicový graf a graf polosum pro znaky (zleva) Aro, Slad, Med, Ber a Klas, (QCEXPERT).
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
68
Obr. 1.3b Histogram, graf hustoty pravděpodobnosti, krabicový graf a graf polosum pro znaky (zleva) Tvrd, Bel, Slup a Ztr9 (QCEXPERT). EDA zde slouží především k odhalení velikosti proměnlivosti a odlehlých hodnot u všech sledovaných znaků, dále symetrie rozdělení a homogenity rozdělení.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
69
Vyšetříme, který znak dosahuje u objektů největší proměnlivosti a podle kterých znaků lze nejlépe rozlišovat mezi druhy hrachu.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
70
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
71
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
72
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
73
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
74
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
75
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
76
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
77
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
78
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
79
Descriptive statistics
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
80
Zdrojová matice dat
24.2.2010
81
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
82
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
83
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
84
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
85
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
86
Závěr Grafy zobrazují proměnlivost znaků při zobrazení všech objektů matice dat Hrách. Nejmenší proměnlivost mají poslední dva znaky. Závěr: byl ukázán první pokus o zjištění proměnlivosti v datech, číselně i graficky. Popisné statistiky ukázaly, že prvních šest znaků vykazuje největší rozptyl a lze je s výhodou využít ve vícerozměrné analýze dat.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
87
Zdrojová matice dat výběru HRACH
Překopírovat 1. sloupec do nulového
Odstranit nadbytečné řádky zdrojové matice
Odstranit nadbytečné řádky zdrojové matice, a to od 61. případu (řádku) do 82. případu
Kliknete na Grafy a v submenu vyberte Maticové grafy
Zadáte proměnné kliknutím na Proměnné
Zvolíte míru Centimetry a můžete nastavit velikost obrázku
Ve volbě Možnosti grafu zvolíte za Typ matice poloviční pod diagonálou
Odstraníte nadpisy, jsou zde zbytečné.
Zmenšíte velikost značek bodů
Vypnete Zobrazení popisů bodů
Obdržíte takovýto maticový diagram korelace
Korelační matici v tabelární formě získáme kliknutím v menu na Statistiky a pak Základní statistiky/tabulky
Pak zvolíte Korelace a parciální korelace a po zadání proměnných v záložce Základní výsledky kliknete na Souhrn:Korelace
V korelační matici jsou červeně vyznačeny statisticky významné hodnoty Pearsonova korelačního koeficientu. Matice je symetrická dle diagonály.
Po zadání zavolených (jenom některých) proměnných lze i zde zobrazit diagram korelace kliknutím na Matice bod.grafů zvolených proměnných
Diagram korelace je obvykle třeba upravit čili zformátovat….
Zadání znaků pro maticový graf do kolonky Proměnné:
Upravíme matici k zobrazení pouze dolní poloviny.
Změna barvy pozadí
Změna barvy pozadí a velikosti grafu
Změna barvy pozadí a velikosti grafu
Změna velikosti fontu nadpisu
Změna barvy bodů a volba bodů zobrazovaných
Změna velikosti grafu
Výsledný maticový graf je přehlednější s pouhou dolní polovinou.
Zadání tvorby krabicového grafu pro všechny znaky.
Zadání vyčíslení všech popisných statistik pro zdrojovou matici Hrách
Zadání testu významnosti jednotlivých korelačních koeficientů u vyčíslení korelační matice.
Statistická analýza vektoru středních hodnot A. Testování nulové hypotézy H0: 𝝁 = 𝝁0 v závislosti na alternativní H1: 𝝁 ≠ 𝝁0 . Data X jsou náhodným výběrem velikosti n z m-rozměrného normálního rozdělení 𝑁(𝝁, 𝑪). Parametry 𝝁 a 𝑪 jsou neznámé a odhadují se pomocí výběrových charakteristik ji, S. K testování se používá Hotellingovy T2 -statistiky 𝑇2 = 𝑛 𝝁 − 𝝁0 𝑇 𝑺−1 𝝁 − 𝝁0
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
122
Testování 2
2
𝛼 ), 2
2
2
𝛼 ), 2
1. Je-li 𝑇 ≤ 𝑇 (1 − je na hladině významnosti 𝛼 hypotéza 𝐻0: 𝝁 = 𝝁0 přijata. 2. Je-li 𝑇 > 𝑇 (1 − hypotéza 𝐻0: 𝝁 = 𝝁0 se zamítá. Při platnosti 𝐻0 má veličina 𝐶 = (𝑛 − 𝑚) 𝑇2/ (𝑚 (𝑛 − 1)) F-rozdělení s 𝑚 a 𝑛 − 𝑚 stupni volnosti. Pokud je 𝐻0 neplatná, má veličina C necentrální Frozdělení. Pomocí veličiny C lze testovat hypotézu 𝐻0 Ftestem. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
123
Testování Využitím T2-statistiky lze konstruovat konfidenční oblasti pro vektor 𝝁. Platí totiž, že 100(1 − 𝛼)% oblast 𝑚-rozměrného vektoru je ohraničena povrchem elipsoidu ve tvaru 𝑚 𝑛−1 T −1 𝝁−𝝁 𝐒 𝝁−𝝁 = 𝐹𝑚,𝑛−𝑚 1 − 𝛼 , 𝑛 𝑛−𝑚 kde 𝐹𝑚,𝑛−𝑚 1 − 𝛼 je kvantil F-rozdělení s m a n - m stupni volnosti a rovnicí je definován m-rozměrný elipsoid se středem v místě 𝝁. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
124
PŘIKLAD 4.5 Magnetizační vlastnosti ocelí (učebnice) Pro 10 náhodně vybraných taveb železa (výběr V1) byla zkoumána magnetická indukce x1 [T] a koercitivní síly x2 [A . m-1 + ocelí. Účelem je testovat nulovou hypotézu H0: 𝝁 = (1.75 70) a zkonstruovat 95% oblast spolehlivosti vektoru středních hodnot 𝝁. Data: Výběr V1
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
125
Řešení Pro odhad vektoru středních hodnot platí 𝝁 = (1.769, 66.82)T a výběrová kovarianční matice a k ní matice inverzní mají tvar 0.002 0.376 781.6 −1.592 𝑺= , 𝑺−1 = 0.376 184.3 −1.592 0.0087 Protože je 𝝁0 = (1.75, 70)T, lze dosazením do rovnice vyčíslit Hotellingovu T2-statistiku 781.6 −1.592 0.019 𝑇 2 = 10 0.019, −3.18 = 5.503. −1.592 0.0087 −3.18 Odpovídající hodnota je C = 9 ⋅ 5.503/18 = 2.446. Kvantil Frozdělení F2,9(0.95) = 4.459. Protože je C menší než tento kvantil, hypotéza H0 je přijata na hladině významnosti 𝛼 = 0.05.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
126
Závěr Při konstrukci konfidenčního elipsoidu dostaneme
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
127
B. Test shody dvou vícerozměrných středních hodnot 𝝁𝟏 a 𝝁𝟐 čili 𝐻𝟎 : 𝝁𝟏 = 𝝁𝟐 a 𝐻𝟏 : 𝝁𝟏 ≠ 𝝁𝟐 . Vychází se ze dvou náhodných výběrů X1 a X2 vícerozměrných normálních rozdělení 𝑁(𝝁1 , 𝑪1 ) a 𝑁(𝝁2 , 𝑪2 ). Testování závisí na tom, zda kovarianční matice C1 a C2 jsou shodné či nikoli: 1. Obě rozdělení mají shodnou kovarianční matici C1 = C2 = C Za odhad matice C se užije společná (pooled) výběrová kovarianční matice Sp dle 𝑺𝑝 =
𝑛1 −1 𝑺1 + 𝑛2 −1 𝑺2 , 𝑛1 +𝑛2 −2
kde 𝑺1 a 𝑺2 jsou kovarianční
matice výběru X1 a X2 . Hotellingova testační statistika má tvar 𝑛 𝑛 2 𝑛1 +𝑛2 −𝑚 −1 𝑇 2 = 1 2 𝝁1 − 𝝁2 T 𝑺−1 𝝁 − 𝝁 . Veličina 𝐶 = 𝑇 á 𝑝 1 2 𝑛1 +𝑛2
𝑚(𝑛1 +𝑛2 −2)
za při platnosti hypotézy H0 F-rozdělení s m a n1 + n2 - m - 1 stupni volnosti. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
128
2. Kovarianční matice se významně liší, 𝑪1 ≠ 𝑪𝟐 . (vícerozměrný Behrensův-Fisherův problém) Vychází se ze dvou výběrů X1 velikosti n1 a X2 velikosti n2 pocházejících z m-rozměrných normálních rozdělení 𝑁(𝝁1 , 𝑪1 ) a 𝑁(𝝁2 , 𝑪2 ). Nejdříve jsou určeny odhady středních hodnot 𝝁1 a 𝝁2 , respektive kovariančních matic S1, S2. Protože C1 ≠ C2, nelze pro určení společné kovarianční matice SP použít dřívější rovnici ale lze sestavit statistiku 𝑇𝑁2 = 𝝁1 − 𝝁2
T 𝑺1 𝑛1
+
𝑺2 𝑛2
𝝁1 − 𝝁2 .
Tato veličina 𝑇𝑁2 však již nemá ani 𝜒2-rozdělení ani Hotellingovo
rozdělení. Použije se proto
𝑓−𝑚−1 2 veličina 𝐶𝑁 = 𝑇𝑁 má 𝑚𝑓 tr 𝑽2 + tr 𝑽 2
a 𝑓 stupni volnosti dle vztahu 𝑓 =
𝑽𝑖 = 𝑺𝑖 𝑛𝑖 a 𝑽 =
2 𝑖=1
F-rozdělení s m
, tr 𝑽2 + tr 𝑽 2 /(𝑛𝑖 −1)
kde
2 𝑖=1 𝑽𝑖 .
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
129
Johansen doporučuje použití statistiky −1 6𝐴 𝐶𝐽 = 𝑚 + 2𝐴 − 𝑇𝑁2 , 𝑚 𝑚−1 +2 která má opět F-rozdělení ale s 𝑓1 stupni volnosti, a veličina A se vyčíslí dle 2
𝐴=
tr 𝐸 −
−1 2 −1 𝑉 𝑉𝑖
+
tr 2
𝐸−
−1 2 −1 𝑉 𝑉𝑖
/2 𝑛𝑖 − 1
𝑖=1
a𝑓1 = 𝑚(𝑚 + 3)/𝐴. Ke zjednodušení dojde v případě, kdy n1 = n2, tj. velikosti výběrů jsou stejné. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
130
C. Hotellingova statistika se užívá i pro diferenční data 𝒁 = 𝑿𝟏 − 𝑿𝟐 Pro dvourozměrnou normalitu obou výběrů mají data vektor středních hodnot 𝝁𝑍 = 𝝁1 − 𝝁2 kovarianční matici Cz = C1 + C2. Z dat Z se vypočtou popisné charakteristiky a matice Sz a pak statistika 𝑇 2 = 𝑛𝝁𝑇𝑍 𝑺𝑍−1 𝝁𝑍 . Nulová hypotéza H0: 𝝁1 = 𝝁2 je tím převedena na ekvivalentní nulovou hypotézu H0: 𝝁𝑍 = 0 Došlo tím ke ztrátě n- 1 stupňů volnosti oproti případu, kdy C1 = C2. Veličina 𝐶 =
𝑛−𝑚 2 𝑇 𝑚(𝑛−1)
má F-rozdělení s m a n - m stupni
volnosti. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
131
Příklad 4.6 Testování shody vektoru středních hodnot 𝝁𝟏 = 𝝁𝟐 (učebnice) Za stejných podmínek jako u předešlého příkladu 4.5 byly u dalších deseti náhodně vybraných taveb železa (výběr V2) zkoumány magnetické indukce 𝑥1 *T+ a koercitivní síly x2 [A . m"1] ocelí. Testováním prověřte, zda má výběr V1 a výběr V2 shodný vektor středních hodnot, tj. 𝝁𝟏 = 𝝁𝟐 Data: Výběr V2
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
132
Řešení Úlohu budeme řešit 1. jednak pro shodné kovarianční matice C1 = C2, 2. tak i pro různé kovarianční matice C1 ≠ C2. 0.00204 0.376 Pro výběr V1 platí 𝝁𝑇𝟏 = (1.769, 66.82), 𝑺1 = 0.376 186.3 0.00134 0.245 a pro výběr V2 platí 𝝁𝑇𝟏 = (1.79, 70.4), 𝑺2 = 0.245 141.5 ad 1) Řešení pro případ shodných kovariančních matic C1 = C2. 0.00169 0.31 Výběrová kovarianční matice j e rovna 𝑺𝒑 = a 0.31 162.9 testovací T2-statistika je pak T2 = 1.425, což odpovídá veličině C = 1.425 ⋅ 17/36 = 0.673 a kritická hodnota F2,17(0.95) = 3.5915 je větší než C, a proto je přijata nulová hypotéza H0 o shodě vektorů středních hodnot obou výběrů. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
133
Řešení ad 2) Řešení pro případ odlišných kovariančních matic C1 ≠ C2. Protože jev obou výběrech stejný počet prvků n, bude po odečtení prvků obou výběrů 𝝁𝑍 = ((−0.0219, −3.58), 𝑺𝑍 = 0.0023 0.508 0.508 199.6 Testovací 𝑇 2 -statistika = 2.244 a C = 8 ⋅ 2.244/ 18 = 0.997 a kritická hodnotaF2,8(0.95) = 4.459 je značně větší než C, přijímá se nulová hypotéza H0 o shodě vektorů středních hodnot obou výběrů. Závěr: Je patrné, že pro tento příklad nezávisle na shodě kovariančních matic vychází pro oba výběry shodné vektory středních hodnot 𝝁1 = 𝝁2 . 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
134
D. Test shody celkem r středních hodnot 𝝁𝒊 tzn. nulovou hypotézu H0: 𝝁𝟏 = 𝝁𝟏 = ⋯ = 𝝁𝒓 proti alternativní HA: 𝝁𝒊 ≠ 𝝁𝒋 . Vychází se z k-tice náhodných výběrů Xk velikosti 𝑛𝑘 o kterých se předpokládá, že pocházejí z rozdělení 𝑁(𝝁𝑖 , 𝑪) lišících se pouze středními hodnotami. Z těchto výběrů jsou vypočteny odhady 𝝁𝑗 a 𝑪𝒋 . Označí se 𝑉𝑆 = 𝑘𝑗=1 𝑉𝑗 , 𝑛 = 𝑘𝑗=1 𝑛𝑗 . a průměr 𝝁 = 𝑘 𝑛𝑖 𝑖=1 𝝁𝑖 . 𝑛
Pak se vyčíslí matice 𝑉𝐶 = 𝑘𝑖=1 𝝁𝒊 − 𝝁 𝝁𝒊 − 𝝁 𝑇 . Z řady podobných testů k testování uvedené hypotézy uvedeme pouze Wilcoxovo 𝜆 kritérium 𝜆 = det 𝑽𝑆 / det(𝑽𝑆 + 𝑽𝐶 ) Kvantily rozdělení veličiny 𝜆, jsou publikovány v tabulkách. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
135
E. Test hypotézy o shodnosti všech složek vektoru H0: 𝝁 = 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑚 , kde 𝑨 = 𝒊 = 1,1, … , 1 𝑇 , 𝒈 = 𝝁 a 𝑟 = 1. (Podobně lze formulovat hypotézy o shodě pouze některých složek, respektive jejich nulitě). Při testování se vychází z výběru X velikosti n, na jehož základě se konstruuje výběrový průměr 𝝁 a výběrová kovarianční matice S. K testování nulové hypotézy H0: 𝝁 = 𝑨𝒈 se používá statistika 𝑛 − 𝑚 + 𝑟 𝑇 −1 𝑃1 = 𝑛𝝁 𝑽 − 𝑽−1 𝑩𝑽−1 𝝁, 𝑚−𝑟 která má v případě platnosti hypotézy H0 F-rozdělení s 𝑚 − 𝑟 a 𝑛 − 𝑚 + 𝑟 stupni volnosti, a matice B zde má tvar 𝑩 = 𝑨 𝑨𝑇 𝑽−1 𝑨 −1 𝑨𝑇 . 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
136
PŘIKLAD 4.7 Vliv přípravy vzorku na stanovení zinku v pšenici Stryjewska určovala obsah kovů v obilovinách diferenciální pulzní voltametrií. Rozklad vzorku zrn byl prováděn mineralizací za mokra x1, suchým zpopelněním x2 a vysokotlakou mineralizací v autoklávu x3. Na šesti vzorcích pšenice byl stanoven obsah zinku *ppm+ pro všechny tři způsoby rozkladu. Testujte nulovou hypotézu H0, že způsob rozkladu neovlivňuje významně stanovení zinku. Data:
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
137
Řešení Řešení: Označíme-li střední hodnotu znaku x1 jako 𝜇1 a podobně střední hodnotu 𝑥2 jako 𝜇2 a u x3 jako 𝜇3 , můžeme přepsat uvedenou nulovou hypotézu na tvar H0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇. Předpokládejme, že hodnoty 𝑥𝑖𝑗 𝑗= 1, 2, 3, pocházejí z třírozměrného normálního rozdělení. Odhady středních hodnot jsou 𝝁 =(43.717, 35.1, 35.1) a odpovídající matice 𝑺 = 𝑛 − 1 −1 𝑽, respektive 𝑺 mají tvar 34.31 1.83 7.91 0.038 −0.025 −0.034 𝑆 = 1.83 4.00 −0.84 , 𝑆 −1 = −0.025 0.271 0.045 7.91 −0.84 9.46 −0.034 0.045 0.138 Je zřejmé, že pro tento případ je r= 1, m = 3, n = 6. Matice 𝑨 je 𝑨 = (1, 1, 1 )T = 𝒊𝒊𝑇 𝒊𝑇 𝑽−1 𝒊
𝒊. Matice 𝑩 má pak tvar 𝑩 = = 𝑲𝒊𝒊𝑇 , v němž 𝒊𝒊𝑇 je matice rozměru (3x3 ) obsahující samé jedničky. Pro koeficient 𝐾 je 𝐾 = 3𝑖=1 3𝑗=1 𝑉𝑖𝑗 = 0.0837 , kde 𝑉𝑖𝑗 jsou prvky matice 𝑽−1 .
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
138
Závěr Matice
𝑽−1 − 𝑽−1 𝑩𝑽−1
0.0017 = −0.0049 −0.0069
−0.0049 0.0539 0.0089
−0.0069 0.0089 0.0376
a
0.0077 −0.0049 −0.0069 43.72 4 𝑃1 = 6 43.72 35.1 35.1 −0.0049 0.0539 0.0089 35.1 = 2 −0.0069 0.0089 0.0276 35.1 24 = 100.8059 = 1209.67 2 Kvantil F-rozdělení F2,4(0.95) = 6.9443. Protože je P1 značně vyšší, nelze přijmout hypotézu H0 o shodě vektorů středních hodnot všech tří složek x1, x2, x3. Závěr: Způsob přípravy vzorku významně ovlivní určení obsahu zinku v pšenici. 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
139
Statistická analýza kovariančních matic Z m-rozměrné normálně rozdělené náhodné veličiny 𝑁(𝝁, 𝑪) se konstruuje náhodný výběr 𝑿 velikosti n, který má prvky 𝑥𝑖𝑗, 𝑖 = 1, … , 𝑛, 𝑗 = 1, … , 𝑚. Při testování se využívá odhadů 𝝁 a S nebo výběrové korelační matice 𝑹. A. Test sféricity: testuje se nulová hypotézaH0: C= 𝜎 2 𝑬 proti alternativě HA: 𝑪 ≠ 𝜎 2 𝑬, kde 𝜎 2 > 0 je rozptyl a E je jednotková matice. Testační statistika k testování sféricity je 𝑇𝑆 = det 𝑺
tr 𝑺 𝑚 , 𝑚
kde tr 𝑺 je stopa
matice S. Tabulky kvantilů statistiky Ts jsou uvedeny v trabulkách. B. Pro velké rozsahy výběru n. Použije se statistika 𝑆𝑇 = − 𝑛 − 1 − 𝑚−1 𝑚+2 2
2𝑚2 +𝑚+2 6𝑚
ln 𝑇𝑆 která má 𝜒2-rozdělení s
stupni volnosti.
Při znalosti vlastních čísel 𝜆1 , … , 𝜆𝑚 kovarianční matice S lze statistiku Ts vyjádřit ve tvaru 24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
140
𝑛
𝑇𝑆 =
𝑛
𝜆𝑖 / 𝑖=1
𝑖=1
𝜆𝑖 𝑚
𝑚
.
Test sféricity je ekvivalentní testu rovnosti všech vlastních čísel kovarianční matice S, tj. H0: 𝜆1 = 𝜆2 = ⋯ = 𝜆𝑚 . Použijeme-li místo matice S korelační matici R, testuje se vlastně nulová hypotéza H0: R = E proti alternativní HA: R ≠ E. (čili hypotéza H0 vyjadřuje nezávislost složek vícerozměrného normálního rozdělení). Testovací statistika má jednoduchý tvar 𝑇𝑅 = − 𝑛 ln det 𝑹 a má asymptotické 𝜒2-rozdělení s 𝑚(𝑚 − 𝑙)/2 stupni volnosti.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
141
C. Bartelletův a Sugirův test: Je možno použít také Bartelletovy statistiky 𝑄 = − 𝑛 − přibližně 𝜒2-rozdělení s 𝑚(𝑚 − 𝑙)/2 stupni volnosti. Sugirův test s testační statistikou 𝑇𝑆𝑆 =
𝑛−1 𝑚 𝑚 tr 𝑆 2 ( 2 tr 𝑆 2
2𝑚+11 6
ln det 𝑹
− 1).
Veličina 𝑇𝑆𝑆 má přibližně 𝜒2-rozdělení s (𝑚 − 1)(𝑚 + 2)/2 stupni volnosti. Uvedené testy jsou speciálním případem testování nulové hypotézy H0: C = C0 proti alternativní HA: C ≠ C0, kdy testační statistika má tvar 𝐿𝑐 = (𝑛 − 1) (ln det 𝑪0 − 𝑚 − ln det 𝑺 + tr(𝑺 𝑪−1 0 )) . Platí, že 𝐿 = 𝐿𝑐(1 − 𝐷1 ) má přibližně 𝜒2-rozdělení s 𝑚(𝑚 + 1)/2 stupni volnosti a pro parametr 𝐷1 lze psat 𝐷1 =
2𝑚2 +3𝑚−1 . 6(𝑛−1)(𝑚+1)
Další aproximace spolu s kvantily lze nalézt v tabulkách.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
142
D. Test správnosti korelační matice: Test korelační matice R, která by se měla rovnat známé korelační matici R0, čili test nulové hypotézy H0: R = R0 proti alternativní HA: R ≠ R0. Testační statistika má tvar det 𝑹0 𝐿𝑅 = 𝑛 − 1 [ln − 𝑚 + tr(𝑹𝑹0−1 )] det 𝑹 Asymptoticky má statistika 𝐿𝑅 𝜒 2 –rozdělení s 𝑚(𝑚 − 1)/2 stupni volnosti.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
143
PŘIKLAD 4.8 Ověření nezávislosti stanovení zinku v pšenici na přípravě vzorků (učebnice) Pro data z příkladu 4.7 ověřte nulovou hypotézu H0. 𝑹 = 𝑬, tj. že jednotlivé způsoby rozkladu vzorku poskytují nezávislé výsledky. f 1 0.156 0.439 0.156 1 -0.136 0.439 -0.136 1 1 0.156 0.439 Řešení: Korelační matice je 𝑹 = 0.156 1 −0.136 a pro její 0.439 −0.136 1 determinant platí det 𝑹= 0.745. Použije se Bartelletovy statistiky 𝑄 = − 6−
17 6
ln 0.745 = 0.932.
2 Jelikož je kvantil 𝜒2-rozdělení 𝜒0.95 3 = 2.353 vyšší než statistika Q, hypotéza H0 je přijata. Závěr: Na základě uvedeného testu vychází, že způsoby rozkladu vzorku lze považovat za nezávislé.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
144
E. Test shodnosti kovariančních matic: Při testování shody vektorů středních hodnot je třeba testovat také shodu několika kovariančních matic, C1 = C2 = ... = Ck. Vychází se z výběrů 𝑋𝑖 , 𝑖 = 1, … , 𝑘, velikosti 𝑛𝑖 , pro které jsou určeny kovarianční matice Si. Společná kovarianční matice je 𝑺𝑃 =
𝑘 𝑖=1 𝑛𝑖 −1 𝑺𝑖 𝑘 𝑛 −𝑘 𝑖=1 𝑖
K testování hypotézy H0: C1 = C2 = ... = Ck lze použít testační statistiky 𝑘
𝑘
𝐿𝑈 =
𝑛𝑗 − 𝑘 ln det 𝑺𝑃 − 𝑗=1
𝑛𝑗 − 1 ln det 𝑺𝑗 𝑗=1
Pro větší výběry je statistika 𝑏𝐿𝑈 přibližně s 𝜒2-rozdělením s (𝑚 + 1)𝑚(𝑘 − 1)/2 stupni volnosti a koeficient 𝑏 je roven 𝑘
𝑏 =1− 𝑗=1
1 − 𝑛𝑗 − 1
1 2𝑚2 + 3𝑚 − 1 . 𝑘 𝑗=1 𝑛𝑗 − 𝑘 6 𝑚 + 1 𝑘 − 1
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
145
PŘIKLAD 4.9 Shoda kovariančních matic u dvou výběrů popisujících vlastnosti ocelí (učebnice) Pro výběry taveb V1 a V2 z příkladů 4.5 a 4.6 je třeba před ověřením shody vektorů středních hodnot ověřit shodu kovariančních matic. Proveďte tento test s využitím statistiky 𝐿𝑈 . Řešení: Na základě údajů z příkladu 4.12 určíme, že 𝐿𝑈 = 0.4625 a 2 1 8+6−1 𝑏 =1− − = 0.879. 9 18 6⋅3 2 Kvantil 𝜒2-rozdělení je roven 𝜒0.95 (3)= 2.353. Protože je hodnota 𝑏𝐿𝑈 = 0.407 výrazně nižší než kritická hodnota 2.353, je H0 o shodnosti kovariančních matic přijata. Závěr: Oba vzorky ocelí mají shodné kovarianční matice. Protože mají také shodné vektory středních hodnot, jde o dva homogenní výběry, pocházející z téhož rozdělení.
24.2.2010
INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ
146