Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie
SE M E S T R Á L N Í
P R Á C E
Licenční studium
Statistické zpracování dat při managementu jakosti
Předmět
Určení vnitřní struktury analýzou vícerozměrných dat
Iva Škopová Baxter Bio Science s.r.o. Bohumil 15.05.2006
Obsah:
1. 1.1. 1.2. 1.3. 1.4. 1.4.1. 1.4.2. 1.4.3. 1.4.4. 1.4.5. 1.4.6. 1.7.
Metoda hlavních komponent PCA- Charakteristika meziprokuktu Zadání Data Program Řešení Korelační analýza Kovariační analýza EDA pro vybrané znaky Průzkumová analýza vícerozměrných dat Analýza hlavních komponent PCA Graf komponentních vah Závěr
Přílohy:
3 3 3 4 4 5 6 7 8 10 11 13
2. 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 2.10. 2.11.
Faktorová nalýza FA Zadání Data Program Průzkumová analýza Korelační a kovariační matice Vyšetření Cattelova indexového grafu Faktorové váhy pro jednotlivé proměnné (bez rotace) Faktorové váhy pro jednotlivé proměnné (po rotaci Varimax) Faktorové skóre jednotlivých objektů (po rotaci Varimax) Shluková analýza Závěr
14 14 15 16 16 17 18 19 20 21 22 22
CD disk
Strana 2 z 22
1.
Metoda hlavních komponent PCA – Charakteristika meziproduktu
1.1.
Zadání Na 49 vzorcích influenzy bylo sledováno 9 parametrů jedné technologické části. Dva parametry (obsah Tweenu 80 a obsah proteinů) jsou určovány v laboratoři kontroly kvality. Ostatní parametry jsou snímány pomocí automatických záznamů při řízení procesu. Cílem je rozhodnout, zda uvedené informace mohou poskytnout dostatečnou informaci o kvalitě meziproduktu.
1.2.
Data Tabulka 01: Zdrojová data OBSAH TWEENU 80
OBSAH PROTEINÚ
CENTRIF. 1 OTÁČKY
CENTRIF. 1 DOBA
CENTRIF. 2 OTÁČKY
CERTIF. 2 DOBA
TŘEPÁNÍ
TEPLOTA INKUBACE
DOBA INKUBACE
mg/l
mg/l
1000ot./min
min
1000ot./min
min
počet
°C
min
312 226 342 134 261 453 216 423 125 486 743 684 761 463 589 467 468 316 468 148 752 143 624
78 56 86 34 65 120 54 106 31 122 186 80 190 116 147 117 110 79 117 50 190 36 156
5 4,5 5 4,5 5 4,5 5 4,5 4 4 4,5 4 5 4,5 5 4,5 5 4,5 5 4 4 5 4,5
Twee 30 50 20 30 55 35 55 25 60 60 60 65 55 60 60 65 35 60 20 60 25 65
5 4,5 4 4 4,5 4 5 4,5 5 5 4,5 4 4 4,5 4 5 4,5 5 4,5 4 4 4,5 4
7 6 9 5 7 8 10 10 5 10 14 12 15 10 12 10 10 10 10 6 7 5 12
3 2 3 3 3 1 3 2 3 3 2 3 1 2 1 1 1 2 3 2 1 2 3
100 120 126 124 123 102 104 103 92 102 105 111 120 103 105 103 124 105 124 123 102 104 103
65 60 62 63 61 52 58 62 60 63 59 58 57 56 64 67 59 64 57 64 58 58 64
530 452 164 351 436 254 701 256 431 560 129 542 435 261 435 346 258 462 345 234 561 423 198 342 164 235
1.3.
133 113 41 88 109 64 175 80 108 110 32 136 109 65 109 87 65 116 86 59 140 106 46 86 57 59
5 4,5 5 4,5 5 4 4 4 4 5 4,5 5 4,5 5 5 5 4 4 5 4,5 5 4,5 5 4,5 5 4
50 45 25 40 60 35 65 35 45 50 30 40 50 25 50 40 40 50 40 35 50 45 25 40 25 35
5 4,5 5 4 4,5 4 4,5 4 5 4,5 5 5 4,5 4 4 4,5 4 5 4,5 4,5 4 4 5 4 5 4,5
10 9 6 8 8 6 10 5 8 10 6 12 8 5 8 6 5 7 5 6 10 8 4 8 5 6
1 2 2 3 1 1 2 2 3 2 2 3 3 3 3 3 1 1 2 2 1 2 3 3 1 2
92 102 105 111 120 103 105 124 123 102 104 103 92 124 123 102 104 103 92 102 105 111 120 103 105 102
62 60 64 61 43 62 45 63 59 58 57 56 43 62 45 63 59 58 57 56 64 67 59 64 57 64
Program Expert 2.27, Statgraphics – vícerozměrné statistiky, Statistika 2.7.
1.4.
Řešení
1.4.1
Korelační analýza Byla spočtena korelační matice ze všech získaných dat, která obsahuje korelační koeficienty pro uvedený počet vzorků. Jedná se lineární závislosti mezi dvěma náhodnými veličinami. Korelační koeficient blížící se 1 (v Tabulce 03 zvýrazněn červenou barvou) ukazuje silný korelační vztah. Záporné znaménko u korelačního koeficientu znamená sestupnou tendenci korelačního vztahu. Pokud je velikost korelačního koeficientu menší než 0,5, nelze mezi proměnnými hovořit o závislosti. Strana 4 z 22
Tabulka 02: Základní charakteristiky (QCExpert)
Základní charakteristiky Proměnná Průměr Obsah Tweenu 80 389,9795918 Obsah proteinů 96,02040816 Centr 1 otáčky 4,591836735 Centr 1 doba 44,18367347 Centr 2 otáčky 4,459183673 Centr 2 doba 8,142857143 Počet třepání 2,12244898 Inkubace teplota 108,3673469 Inkubace doba 59,16326531
Směr. odchylka 177,0198306 41,85564966 0,4040610178 13,6300426 0,4061600502 2,590045045 0,8070691075 10,00352829 5,569062379
Rozptyl 31336,02041 1751,895408 0,1632653061 185,7780612 0,1649659864 6,708333333 0,6513605442 100,0705782 31,01445578
Minimum 125 31 4 20 4 4 1 92 43
Maximum 761 190 5 65 5 15 3 126 67
Z výsledků korelační matice vyplývá, že nejvýraznější vztah je mezi obsahem Tweenu 80 a proteinů, dále mezi obsahem Tweenu 80 a dobou první centrifugace a pak mezi obsahem proteinů dobou první centrifugace. Jako významný je možné označit i vztah mezi obsahem Tweenu 80 a dobou druhé centrifugace a pak mezi obsahem proteinů dobou druhé centrifugace. Vysoká korelace mezi dobou první a druhé centrifugace nebude brána na zřetel, protože je ovlivněna nastavením technologických parametrů. Tabulka 03: Korelační matice (QCExpert) Obsah Tweenu 80 Obsah Tweenu Obsah proteinů Centr 1 otáčky Centr 1 doba Centr 2 otáčky Centr 2 doba Počet třepání Inkubace teplota Inkubace doba
Obsah proteinů
Centr 1 otáčky
Centr 1 doba
Centr 2 otáčky
Centr 2 doba
Počet třepání
Inkubace teplota
Inkubace teplota
1 0,9460462082
1
0,02909985757
0,001344978754
1
0,8863293458
0,8512653276
0,02393206699
1
-0,2210993203
-0,1972528252
0,1185249071
-0,1660826942
1
0,8094582533
0,7525306583
0,1365047266
0,7617006904
0,06365590831
-0,2190083352
-0,294254967
0,06062586639
-0,2558660914
0,07911969229
-0,113737526
-0,1147572022
0,1383736436
0,09248757905
-0,3320861601
-0,2148525977
-0,2103171331
-0,0669807315
-0,261689454
0,01541335739
1 0,07830786276 0,05272455056 0,05220256516
1 0,1852655155
1
0,02790563389
0,001472938807
1 Strana 5 z 22
1.4.2
Kovariační analýza Tabulka 04: Kovariační matice (QCExpert) Obsah Tweenu 80 Obsah Tweenu 80 Obsah proteinů Centr 1 otáčky Centr 1 doba Centr 2 otáčky Centr 2 doba Počet třepání Inkubace teplota Inkubace doba
Obsah proteinů
Centr 1 otáčky
Centr 1 doba
Centr 2 otáčky
Centr 2 doba
Počet třepání
Inkubace teplota
Inkubace teplota
31336 7009
1751,895
-2,0814
-0,022746
0,163265
2138
485,6420
-0,131802
185,7780
-15,896
-3,353316
0,0194515
-0,919430
0,164965
371,127
81,58035
0,142857
26,8898
-0,0669642
6,708333
-31,289
-9,94005
0,0197704
-2,81462
0,0259353
-0,163690
0,651360
-201,409
-48,04931
0,559311
-12,6105
-1,34927
-1,36607
1,495748
100,070
-211,809
-49,02423
-0,150722
-19,86394
-0,0348639
-0,752976
0,1254251
-0,082057
31,0144
Kovariace byla použita k testování sad dat. Vysoká hodnota kovariace mezi daty v jedné a druhé sadě značí velkou závislost mezi testovanými daty (vysoké hodnoty v obou sadách – kladná kovariace, vysoké hodnoty v jedné sadě proti nízkým hodnotám v druhé – záporná kovariace). Z tabulky lze odhadnout vysokou závislost mezi obsahem Tweenu a proteinů a mezi dobou první centrifugace a obsahem Tweenu a proteinů. Výsledky kovariační analýzy odpovídají závěrům z předchozích diagnostik.
Strana 6 z 22
1.4.3
EDA pro vybrané znaky Obsah Tweenu 80
Obsah proteinů
Centr 1 doba
Centr 2doba
Obrázek 01: Vybrané diagnostiky EDA (QCExpert)
EDA prokázala, že data mají normální rozdělení, mají dostatečnou variabilitu a neobsahují výrazně odlehlé hodnoty.
Strana 7 z 22
1.4.4
Průzkumová analýza vícerozměrných dat Grafické zkoumání podobnosti objektů Počet paprsků odpovídá počtu proměnných, střed polygonu představuje průměr a délka paprsku 2n násobek směrodatné odchylky. Z vizuálního posouzení vyplývá, že data neobsahují měření, které by se výrazně vymykalo. Nebyl nalezen tvar, který tvarem nebo velikostí nemá alespoň jednoho nebo dva podobné objekty.
T ře p á n í O b s a h T w e e n u _ 8 0 O b s a h p ro te in ů In k u b a c e _ te p lo ta
C e n trif_ 1 _ d o b a C e n trif_ 1 _ o t C e n trif_ 2 _ d o b a C e n trif_ 2 _ o t In k u b a c e _ d o b a
Obrázek 02: Klíč ke grafu slunečních paprsků
Strana 8 z 22
1 2 3 4 6 7 8 9 11 12 13 14 16 17 18 19 21 22 23 24
5 10 15 20 25
Obrázek 03: Graf hvězdicový pro prvních 25 proměnných
1 6 1 1 1 6 2 1
2 7 1 2 1 7 2 2
3 8 1 3 1 8 2 3
4 9 1 4 1 9 2 4
5 1 0 1 5 2 0 2 5
Obrázek 04: Graf slunečních paprsků pro prvních 25 proměnných
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
6
7
8
9
10
11
12
13
14
15
11
12
13
14
15
16
17
18
19
20
16
17
18
19
20
21
22
23
24
21
22
23
24
Obrázek 05: Graf hvězdicový pro zbytek proměnných
Obrázek 06: Graf slunečních paprsků pro zbytek proměnných
Poznámka: Statgraphics zpracovává najednou pouze 25 proměnných.
Strana 9 z 22
Analýza hlavních komponent PCA
1.4.5
Vlastní čísla korelační matice Pouze aktiv. proměnné
Tabulka 05: Kovariační matice (Statistika) Vlastní čís la korelační matice a s ouvisející s tatistiky (PCA_TWN) Pouze aktiv. proměnné vl. číslo % celk. Kumulativ. Kumulativ. Pořadí vl.č. rozptylu vl. číslo % 1 3,694579 41,05088 3,694579 41,0509 2 1,356651 15,07390 5,051230 56,1248 3 1,187485 13,19428 6,238715 69,3191 4 0,970282 10,78091 7,208997 80,1000 5 0,884496 9,82774 8,093494 89,9277 6 0,525755 5,84172 8,619248 95,7694 7 0,199923 2,22137 8,819171 97,9908 8 0,139006 1,54451 8,958177 99,5353 9 0,041823 0,46470 9,000000 100,0000
4,5 4,0
41,05%
3,5
Vlast. číslo
3,0 2,5 2,0 15,07% 13,19% 10,78% 9,83%
1,5 1,0
5,84% 0,5
2,22% 1,54% ,46%
0,0 -0,5 -1
0
1
2
3
4
5
6
7
8
9
10
11
Pořadí vl. č ísla
Obrázek 07: Cattelův indexový graf úpatí vlastních čísel (Statistika) Pomocí analýzy hlavních component lze určit důvod , proč spolu některé proměnné souvisí. Pomůže nalézt hlavní komponenty (společné latentní proměnné), které v co největší míře popisují a vystihují variabilitu v analyzovaných datech. Metodou hlavních komponent lze snížit počet původních proměnných tak, že ze zdrojových proměnných je vytvořena lineárníkombinace, která vysvětluje největší část její variability. V tabulce 05 jsou uvedeny výsledky analýzy hlavních komponent. Při výpočtu byla použita standardizace, protože vstupní data nejsou ve stejném měřítku. Z posledního sloupce této tabulky a grafu (Vlastní čísla korelační matice – tj. Cattelův indexový graf úpatí vlastních čísel) lze určit optimální počet hlavních komponent, kterými lze dostatečně popsat jednotlivé proměnné. Aby bylo vyhověno požadavku, že součet prvních nejvyšších komponent je 85 -90 % muselo by být zvoleno 5 komponent. Pro jednodušší práci byly zvoleny poze 3 hlavní komponenty, které popisují proměnné ze 70 %.
Strana 10 z 22
Graf komponentních vah, shluková analýza
1.4.6
Projekce proměnných do faktorové roviny
( 1 x 2)
Projekce proměnných do faktorové roviny
1,0
( 1 x 3)
1,0 centr.2ot
0,5
0,5 inkub.-doba
Protein centr.1doba Tw een centr.2doba
inkub.-doba
0,0
Protein centr.1doba Tw een
0,0
incub.-t
centr.1ot.
centr.2doba
trepani
Faktor 3 : 13,19%
Faktor 2 : 15,07%
-0,5
incub.-t -1,0
trepani centr.2ot -0,5 centr.1ot.
-1,0 -1,0
-0,5
0,0
0,5
Faktor 1 : 41,05%
Obrázek 08: Graf komponentních vah (Statistika)
1,0
Aktiv.
-1,0
-0,5
0,0
0,5
1,0
Aktiv.
Faktor 1 : 41,05%
Obrázek 09: Graf komponentních vah (Statistika)
Strana 11 z 22
Projekce proměnných do faktorové roviny
Str. diagram pro 9 Proměnné
( 2 x 3)
Jednoduché spojení
1,0
Euklid. vzdálenosti
Tw een
0,5
Protein
inkub.-doba incub.-t
0,0
centr.1ot.
Protein centr.1doba Tw een incub.-t
centr.2ot
centr.2doba
Faktor 3 : 13,19%
trepani
trepani
centr.2ot
-0,5
centr.2doba centr.1doba
centr.1ot.
inkub.-doba
-1,0 -1,0
-0,5
0,0
0,5
Faktor 2 : 15,07%
Obrázek 10: Graf komponentních vah (Statistika)
1,0
Aktiv.
0
500
1000
1500
2000
2500
Vzdálen. spojení
Obrázek 11: Dendrogram (Statistika)
3D Bodový graf Tw een
vs. Protein vs. centr.1doba Všechny případy
Obrázek 12: 3D graf (Statistika)
Strana 12 z 22
Interpretace grafů komponentních vah vede k následujícím závěrům. PC1 PC2: Obsah Tweenu, obsah proteinů a doba druhé centrifugace spolu pozitivně korelují, naproti tomu doba inkubace je spředchozími ukazately v negativní korelaci. Vzájemně negativně korelovány jsou i otáčky druhé centrifugace a teplota inkubace. PC1 PC3: Pozitivně spolu korelují otáčky druhé centrifugace, třepání a inkubace ¨, přestože má malou variabilitu v datech a neposkytuje tedy dostatečnou informaci. Další skupinou pozitivně korelujících ukazatelů jsou Tween, protein a doba druhé centrifugace, stejně jako v předchozím grafu. PC2 PC3: Tento graf poskytuje nejméně informací, a jeho výstupy korespondují s předcházejícími závěry. Dendogram: Z uspořádání jednotlivých faktorů (na základě euklidovských vzdáleností) je zřejmé, že je lze rozdělit do dvou skupin (viz Obr. 11).
1.5.
Závěr Pokud vezmeme v úvahu fakt, že při biologických testech lze očekávat vyšší rozptyl a nejednoznačnost jednotlivých ukazatelů, lze říci, že i přes ne zcela ideální počet hlavních komponent, lze tuto metodu použít pro získání první rychlé informace o kvalitě meziproduktu, dříve, než bude možné provést řadu dalších testů v následujících krocích výroby.
Strana 13 z 22
2.
Faktorová analýza (FA)
2.1.
Zadání Nalezení vzájemných vazeb v datech, zařazení do skupin. Pro každou sezónu je vyraběno několik různých chřipkových kmenů. Každý kmen během výroby vykazuje v některých parametrech jiné hodnoty. Cílem úlohy je určit, podle jakých proměnných lze určit chřipkový kmen. Testy na obsah hemaglutininu, celkový protein, bakteriální endotoxiny, mikrobiologickou nezávadnost a obsah proteinů zVero buněk jsou prováděny v laboratořích Kontroly kvality. Test na zbytkovou Vero DNA je prováděn externě v zahraničí.
2.2.
Data Tabulka 06 Influenza Strain
Unit
SRD-test / Haemagglutinin Assay
Protein Assay / Bradford Method
Ratio Haemagglutinin / Total Protein
Bacterial Endotoxines / LAL test
Total Viable Content of Ratio Count / Vero Cell Vero Protein / Membrane Protein / 1% Haemagglutinin Filtration ELISA
Rest VERO DNA / PCR
µg HA/ml
µg/ml
EU/ml
CFU/ml
µg/ml
1NC99
142,6
374
0,38
0,75
0
11,50
0,08
14,20
1NC99
133,3
348
0,38
0,75
0
9,33
0,07
17,40
1NC99
162,6
402
0,40
0,75
0
12,93
0,08
11,20
1NC99
146,4
265
0,55
0,70
0
9,10
0,06
9,90
1NC99
148,7
239
0,62
0,70
0
9,02
0,06
12,10
1NC99
186,1
354
0,53
0,70
0
12,70
0,07
20,90
1NC99
190,3
332
0,57
0,70
0
13,72
0,07
24,20
1NC99
142,2
288
0,49
0,70
0
8,74
0,06
12,00
1NC99
186,8
349
0,54
0,70
0
11,99
0,06
22,90
1NC99
159,6
312
0,51
0,70
0
15,27
0,10
20,80
1NC99
127,4
257
0,50
0,70
0
7,75
0,06
14,60
1NC99
159,2
324
0,49
0,70
0
14,97
0,09
17,90
1NC99
124,7
301
0,41
0,70
0
11,81
0,09
10,30
1NC99
124,6
294
0,42
0,70
0
10,65
0,09
9,80
1NC99
134,8
305
0,44
0,70
0
11,42
0,08
14,30
BJS03
305,1
912
0,33
0,75
0
39,25
0,13
601,00
BJS03
409,8
1097
0,37
1,00
1
65,44
0,16
642,00
BJS03
361,6
800
0,45
1,00
0
45,23
0,13
497,00
BJS03
321,5
821
0,39
1,00
0
42,64
0,13
536,00
BJS03
316,0
760
0,42
0,80
0
45,45
0,14
228,00
BJS03
303,2
803
0,38
1,00
1
43,08
0,14
461,00
ng/ml
Strana 14 z 22
BJS03
394,4
848
0,47
1,00
0
46,92
0,12
675,00
BJS03
316,8
815
0,39
0,80
0
36,54
0,12
403,00
BJS03
385,6
949
0,41
1,00
0
57,79
0,15
784,00
BJS03
438,9
961
0,46
1,00
0
52,63
0,12
507,00
BJS03
325,7
732
0,44
0,80
0
37,28
0,11
275,00
BJS03
397,5
827
0,48
1,00
0
50,01
0,13
757,00
BJS03
482,3
993
0,49
1,00
0
55,11
0,11
505,00
BJS03
396,5
769
0,52
1,00
0
47,16
0,12
598,00
BJS03
379,1
920
0,41
1,00
0
37,85
0,10
424,00
BJS03
385,0
881
0,44
1,00
0
39,82
0,10
295,00
3WY03
333,4
752
0,44
1,00
0
13,94
0,04
86,20
3WY03
268,6
519
0,52
1,00
0
10,05
0,04
124,00
3WY03
363,7
832
0,44
1,00
0
18,91
0,05
93,40
3WY03
279,9
487
0,57
1,00
0
11,59
0,04
74,00
3WY03
217,5
424
0,51
1,00
0
12,61
0,06
55,00
3WY03
327,8
596
0,55
1,00
0
13,18
0,04
125,00
3WY03
255,1
505
0,51
1,00
0
13,38
0,05
79,00
3WY03
212,4
363
0,59
1,00
0
10,56
0,05
74,60
3WY03
321,5
551
0,58
1,00
0
13,92
0,04
129,00
3WY03
254,0
482
0,53
1,00
0
11,77
0,05
25,00
3WY03
222,6
331
0,67
1,00
0
10,64
0,05
43,00
3WY03
254,6
512
0,50
1,00
0
13,85
0,05
72,00
3WY03
209,7
408
0,51
1,00
0
11,13
0,05
55,00
3WY03
177,2
304
0,58
1,00
0
8,24
0,05
28,20
3WY03
253,7
475
0,53
1,00
0
14,30
0,06
31,00
3PA99
313,1
467
0,67
0,75
0
11,64
0,04
25,90
3PA99
292,2
418
0,70
0,75
0
7,12
0,02
41,20
3PA99
305,7
462
0,66
0,75
0
11,76
0,04
23,70
3PA99
295,8
506
0,58
0,75
0
12,78
0,04
23,00
3PA99
276,5
457
0,61
0,75
0
10,25
0,04
33,80
3PA99
280,2
477
0,59
0,75
0
11,62
0,04
32,10
3PA99
228,3
397
0,58
0,75
0
7,98
0,03
29,20
3PA99
239,8
406
0,59
0,75
0
7,22
0,03
20,20
3PA99
238,3
399
0,60
0,75
0
7,46
0,03
19,80
3PA99
330,8
433
0,76
0,75
0
9,41
0,03
40,10
3PA99
356,8
474
0,75
0,75
0
9,58
0,03
43,00
3PA99
393,7
527
0,75
0,75
0
10,63
0,03
32,20
3PA99
336,5
434
0,78
0,75
0
8,01
0,02
34,30
3PA99
356,3
468
0,76
0,75
0
8,12
0,02
27,00
3PA99
449,2
604
0,74
0,75
0
12,17
0,03
36,10 Strana 15 z 22
2.3.
Program STATISTIKA – vícerozměrné průzkumové techniky
2.4.
Průzkumová analýza – kritika dat (popisné statistiky měr polohy a rozptýlení)
Ikonový graf (FA.sta 9v*61c)
Krabicový graf (FAst.sta 9v*61c) Medián; Box: 25%-75%; Whisker: Rozsah neodleh. 6 5 4 3 2 1 0 -1
-3
KTJ
BET
Rest Vero DNA r ěVero/Hem Pom
Obsah Vero Cell
Poměr Hem/Tot
Tot protein
Obrázek 13: Ikonový graf – na první pohled jsou patrné rozdíly v jednotlivých proměnných v závislosti na kmenu a částečně i na typu kmenu
-2
Hemaglutinin
Pravotočivě: Hemaglutinin Tot protein Poměr Hem/Tot BET KTJ Obsah Vero Cell Poměr Vero/Hem Rest Vero DNA
Medián 25%-75% Rozsah neodleh. Odlehlé Extrémy
Obrázek 14: Většina proměnných poskytuje dostatečný rozptyl v datech, pouze KTJ s jedním extrémem a BET nemají žádný významný rozptyl. Proměnná Rest Vero DNA má několik odlehlých bodů, jejich odstraněním by však došlo k velkým ztrátám na datech.
Strana 16 z 22
2.5.
Průzkumová analýza – kritika dat (popisné statistiky měr polohy a rozptýlení) Tabulka 07 Korelace (FAst.sta) ChD vynechána případově N=61 Hemaglutinin Tot protein Poměr Hem/Tot Obsah Vero Cell Pom¨§r Vero/Hem Rest Vero DNA Hemaglutinin
1,00
0,83
0,12
0,63
0,23
0,63
Tot protein
0,83
1,00
-0,43
0,89
0,65
0,87
Poměr Hem/Tot 0,12
-0,43
1,00
-0,55
-0,77
-0,49
Obsah Vero Cell 0,63
0,89
-0,55
1,00
0,88
0,95
Poměr Vero/Hem 0,23
0,65
-0,77
0,88
1,00
0,81
Rest Vero DNA 0,63
0,87
-0,49
0,95
0,81
1,00
Korelační maticový (po standardizaci a vyřazení KTJ a BET) diagram ukazuje hodnoty Pearsonových korelačních koeficientů a největší hodnoty korelace proměnných (jsou zobrazeny červeně). Tabulka 08 Kovariance (FAst.sta) ChD vynechána případově N=61 Hemaglutinin Tot protein Poměr Hem/Tot Obsah Vero Cell Pom¨§r Vero/Hem Rest Vero DNA Hemaglutinin
1,00
0,83
0,12
0,63
0,23
0,63
Tot protein
0,83
1,00
-0,43
0,89
0,65
0,87
Poměr Hem/Tot 0,12
-0,43
1,00
-0,55
-0,77
-0,49
Obsah Vero Cell 0,63
0,89
-0,55
1,00
0,88
0,95
Poměr Vero/Hem 0,23
0,65
-0,77
0,88
1,00
0,81
Rest Vero DNA 0,63
0,87
-0,49
0,95
0,81
1,00
Strana 17 z 22
Korelace (FAst.sta 7s*61ř) Hemaglutinin
Tot protein
Poměr Hem/Tot
Obsah Vero Cell
Poměr Vero/Hem
Rest Vero DNA
Obrázek 15: Histogramy a maticový graf korelace
Vyšetření Cattelova indexového grafu úpatí vlastních čísel
2.6.
Tabulka 09 Vlastní čísla korelační matice a související statistiky (FAst.sta) Pouze aktiv. proměnné
Vlastní čísla korelační matice Pouze aktiv. proměnné 5,0 4,5
vl. číslo
71,58%
% celk.
Kumulativ.
Kumulativ.
4,0
1 4,294806
71,58010
4,294806
71,5801
3,5
2 1,360902
22,68171
5,655708
94,2618
3,0
3 0,241870
4,03116
5,897578
98,2930
2,5
4 0,083388
1,38980
5,980967
99,6828
5 0,010318
0,17197
5,991285
99,8547
6 0,008715
0,14525
6,000000
100,0000
2,0 Vlast. číslo
22,68%
1,5 1,0 0,5
4,03%
1,39%
,17%
0,0
,15%
-0,5 -1
0
1
2
3
4
5
6
7
8
Pořadí vl. čísla
Obrázek 16: Graf vlastních čísel
Strana 18 z 22
T
Ve sloupci vlastních čisel jsou uvedeny čísla matice X X . První faktor popisuje 71,5 % proměnlivosti v datech a druhý faktor 22,7 %. První dva faktory tedy popisují celkem 94,26 % proměnlivosti v datech. Protože pro FA se většinou používají jen ty faktory, jejich vl. číslo je větší než 1a i hodnota Kaiserova kritéria vede ke 2 faktorům, bude FA provedena na dvou faktorech.
Faktorové váhy pro jednotlivé proměnné (bez rotace)
2.7.
Tabulka 10 Faktor. zátěže (Bez rot. ) (FAst.sta) Extrakce: Hlavní faktory (komunality = více R^2) (Označené zatěže jsou >,700000)
Faktor. zátěže, faktor 1 ku faktoru 2 Rotace: Bez rot.
Faktor
Faktor
Hemaglutinin
-0,643831
-0,749111
Tot protein
-0,933237
-0,273354
Poměr Hem/Tot
0,603833
-0,709357
Obsah Vero Cell
-0,986892
-0,006391
Poměr Vero/Hem
-0,866411
0,424833
Rest Vero DNA
-0,937794
-0,056197
Výkl.roz
4,254145
1,322759
Prp.celk
0,709024
0,220460
Extrakce: Hlavní faktory (komunality = více R^2) 0,6 Poměr Vero/Hem 0,4
0,2 Obsah Vero Cell 0,0 Rest Vero DNA
Faktor 2
-0,2
Tot protein
-0,4
-0,6 Poměr Hem/Tot
Hemaglutinin -0,8 -1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
Faktor 1
Obrázek 17: Graf faktorových vah
Faktorové váhy jsou vlastně korelace mezi faktory a znaky. Na této informaci je založena interpretace faktorů. Faktorově nejčistší jsou Poměr Vero/hem a poměr Hem/Tot. Jako faktorově nečisté lze označit proměnné Obsah Vero Cell, rest Vero DNA a Total protein, které tvoří shluk.
Strana 19 z 22
2.8.
Faktorové váhy pro jednotlivé proměnné (po rotaci Varimax) Tabulka 11 Faktor. zátěže (Varimax pr.) (FAst.sta) Extrakce: Hlavní faktory (komunality = více R^2) (Označené zatěže jsou >,700000)
Faktor. zátěže, f aktor 1 ku f aktoru 2 Rotace: Varimax pr.
Faktor
Faktor
Hemaglutinin
0,982435
-0,102499
Tot protein
0,866146
0,442090
Extrakce: Hlav ní f aktory (komunality = v íce R^2) 1,0
Poměr Vero/Hem
0,8
Obsah Vero Cell Rest Vero DNA
0,6
Poměr Hem/Tot
0,048109
-0,930315
0,4
Obsah Vero Cell
0,721842
0,673010
0,2
Poměr Vero/Hem
0,338151
0,903773
Tot protein
0,0
Faktor 2
Rest Vero DNA
0,720347
0,603088
-0,2
Výkl.roz
2,872004
2,704900
-0,4
Prp.celk
0,478667
0,450817
Hemaglutinin
-0,6 -0,8 Poměr Hem/Tot -1,0 -1,2 0,0
0,2
0,4
0,6
0,8
1,0
1,2
Faktor 1
Obrázek 18: Graf faktorových vah
Otočení faktorů v prostoru je libovolné a slouží pro dosažení dobré reprodukovatelnosti korelace mezi faktory a znaky. Po otočení znak Hemaglutinin dosahuje maximální hodnoty faktoru 0,98 a znak Poměr Hem /Tot minimální hodnoty faktoru - 0,93. Faktorově nejčistší jsou poměr Hem/Tot proti shluku Obsah Vero Cell, rest Vero DNA a Total protein. První faktor tedy popisuje znaky Obsah Vero Cell, Rest Vero DNA a Total protein, tedy testy, které stanovují obsah Vero buněk, obsah zbytkové DNA z Vero buněk a obsah celkových proteinů. Všechny tyto testy udávají míru znečištění Influenzy a zejména testy Obsah Vero Cell, Rest Vero DNA spolui biologicky úzce souvisí, což dokazují i výsledky FA. Druhý faktor vykazuje nejvyšší váhu pro znak Poměr Hem / Tot, tedy výsledek, který je dán matematickým výpočtem z výsledků testů na obsah celkových proteinů a specifického proteinu hemaglutininu. Toto číslo udává jednak čistotu Influenzy a jednak její sílu, co se týče výtěžku.
Strana 20 z 22
2.9.
Faktorové skóre jednotlivých objektů (po rotaci Varimax) Tabulka 12 Faktor. skóre (FAst.sta) Rotace: Varimax pr. Extrakce: Hlavní faktory (komunality = více R^2) Faktor 1
Faktor 2
Faktor 1
Faktor 2
Faktor 1
Faktor 2
1
-1,44960
0,86777
21
0,44513
1,64822
41
-0,31413
-0,32643
2
-1,52958
0,75217
22
1,40239
0,73133
42
-0,43473
-0,66932
3
-1,23176
0,74728
23
0,49563
1,19479
43
-0,30751
-0,10785
4
-1,23328
0,10073
24
1,49418
1,60427
44
-0,69903
-0,06662
5
-1,13108
-0,11008
25
1,85977
0,77479
45
-0,92076
-0,26228
6
-0,89862
0,14314
26
0,57553
0,85628
46
-0,28959
-0,21848
7
-0,81003
0,02948
27
1,49146
0,74713
47
0,28389
-1,17052
8
-1,33387
0,27410
28
2,28009
0,44729
48
0,10631
-1,35673
9
-0,88361
0,06229
29
1,42651
0,46004
49
0,21922
-1,09251
10 -1,16974
0,56361
30
1,09351
0,78027
50
0,08257
-0,71991
11 -1,46597
0,29700
31
1,15221
0,68101
51
-0,07657
-0,80952
12 -1,19378
0,60923
32
0,32850
-0,22615
52
-0,05006
-0,70029
13 -1,61979
0,91255
33
-0,20030
-0,46250
53
-0,50753
-0,55933
14 -1,59957
0,78392
34
0,64551
-0,09885
54
-0,40728
-0,71523
15 -1,47871
0,70342
35
-0,05696
-0,65769
55
-0,41108
-0,71503
16 0,45595
1,75274
36
-0,62536
-0,02309
56
0,48813
-1,67211
17 1,83111
2,04687
37
0,33235
-0,74548
57
0,67208
-1,78497
18 1,04796
0,94116
38
-0,30016
-0,16733
58
0,95183
-1,93723
19 0,63413
1,42408
39
-0,60727
-0,35233
59
0,52410
-1,80303
20 0,56446
1,46141
40
0,31642
-0,81159
60
0,65520
-1,87168
61
1,38118
-2,18420
Strana 21 z 22
2.10.
Shluková analýza Tabulka
13 Euklid. vzdálenosti (FAst.sta)
Str. diagram pro 6 Proměnné Jednoduché spojení Euklid. vzdálenosti
Poměr Hemagl Tot Hem/To utinin protein t
Hemaglutinin
Tot protein
Obsah Vero Cell
Rest Vero DNA
Obsah Poměr Vero Vero/He Cell m
Rest Vero DNA
Hemaglutinin
0,0
4,5
10,3
6,7
9,6
6,6
Tot protein
4,5
0,0
13,1
3,6
6,5
4,0
Poměr Hem/Tot
10,3
13,1
0,0
13,7
14,6
13,4
Obsah Vero Cell 6,7
3,6
13,7
0,0
3,7
2,6
Poměr Vero/Hem 9,6
6,5
14,6
3,7
0,0
4,8
4,0
13,4
2,6
4,8
0,0
Rest Vero DNA
6,6
Poměr Vero/Hem
Poměr Hem/Tot
1
2
3
4
5
6
7
8
9
10
11
Vzdálen. spojení
Obrázek 19: Dendogram
Výsledky shlukové analýzy potvrdily strukturu dat, které bylo dosaženo pomocí FA.
2.11.
Závěr Bylo zjištěno, že data jsou vhodná pro zpracování pomocí dvoufaktorového modelu, protože jejich pomocí bylo popsáno 94 % proměnlivosti v datech. Byla nalezena taková struktura v datech, kterou lze vysvětlit i z biologického hlediska a odpovídá logickým souvislostem ve výsledcích jednotlivých testů i při použití dat více rozdílných kmenů a typů Influenzy.
Strana 22 z 22