Závěrečná práce Ing. Jiří Pokorný Téma: Využití statistické analýzy vícerozměrných dat k hodnocení vlivu faktorů ovlivňujících prodejnost dětské školní fotografie Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. Datum: podzim 2010
Cíle práce:
určit vnitřní skryté vazby mezi daty prodejnosti dětské školní fotografie a daty možných vlivů na tuto prodejnost zjistit vnitřní strukturu dat prodejnosti jednotlivých produktů znázornit podobnost či rozdílnost jednotlivých okresů ČR (kriteria třídění = vybrané znaky)
Zdrojová matice dat
Znaky / vlastnosti (8): Prodeje dvou základních produktů Počty nafocených produktů Hrubá mzda Nezaměstnanost Porodnost Objekty 77 okresů ČR
Charakter matice vícerozměrných dat
Krabicové grafy
6 5
Median
4
25%-75%
3
Min-Max
2 1 0 -1 -2 -3 -4 -5 Prodej základ
Počet sérií
Prodej skupin
Počet skupin
Počet základ
Mzda
Nezaměstnan
Porodnost
Charakter matice vícerozměrných dat
Maticový graf
Prodej základ
Prodej skupina
Počet sérií
Počet zákla
Počet skupina
Nezaměstnanost
Mzda
Porodnost
Průzkumová analýza vícerozměrných dat
Hvězdicové grafy
Metoda hlavních komponent
Cattelův indexový graf
2.5
29,52%
Výběr hl. komponent: 24,44%
2.0
18,83%
1.5
1.0 vlastní číslo
10,19%
Výsledek: 6,88%
0.5
5,66%
3,84% ,66%
0.0 0
1
2
3
4
P variabilita 70 – 90 % Kaiserovo kriterium Pravidlo „Zlomené hole“
5
index vlastního čísla
6
7
8
Volíme tři hlavní komponenty
Metoda hlavních komponent
Grafy komponentních vah/zátěží 1.0
1.0
Mzda
Porodnost Počet základ
0.5 Mzda
0.5
. Nezaměstnanost Počet sérií
0.0
Počet skupin . Porodnost Počet sérií Prodej základ/skupinek . Počet základ
.
0.0 Počet skupin
PC3 : 18,83%
PC 2 : 24,44%
-0.5 Prodej základ Prodej skupin
-1.0
-0.5 Nezaměstnanost
-1.0 -1.0
-0.5
0.0 PC1 : 29,52%
0.5
1.0
-1.0
-0.5
0.0 PC1 : 29,52%
PC1 = počty nafocených produktů PC2 = prodejnost vers. porodnost a mzda PC3 = ekonomická prosperita okresu
0.5
1.0
.
Metoda hlavních komponent Rozptylový diagram komponentního skóre 1,2 4
3
Most 03 Náchod 03 Jabl. n/N. 03 Č.Lípa Nymburk 03 Liberec 0303 Louny 03
Kladno 03
l
Děčín 03
2
Ústí n/L. 03 Chomutov 12 03 Teplice 03Litoměřice . Jičín 03 Praha 03Hr.Králové . 03 1 Semily Kolín Beroun 03 Mělník 0303 Praha-vých 03 03 Praha-záp 03
M.Boleslav 03
PC2: 24,44%
Žďár n/Sáz. 14 Ostrava 10 Havl.Brod 14 Chrudim 14 10Bruntál 10 Rychnov n/K. Č. Krumlov 1214 Opava 0 Benešov 14 10Prachatice Brno-venk 15 12 Ústí n/Orl. Trutnov 0315 Sokolov N. Jičín 10 12 Blansko 10 12 Jihlava 14 PřerovFrýd-Místek 10 Cheb Znojmo 15 12 J.Příbram Hradec 14 Tachov 12 Plz-sever 12 14 Strakonice 12 Třebíč 15 K. Vary 12 Č. Budějice 12 Klatovy 12Hodonín Pelhřimov 14 Plz-město 12 Písek 12 Jeseník 10 Vyškov 15 Pardubice Svitavy 15 14 -1 Vsetín 10 Šumperk Tábor . 1210 Břeclav 15Karviná 10 Kroměříž 15 Prostějov12 10 15 Zlín K.Hora 14 Plzeň-jih Rakovník 12 Rokycany 12 Uh. Hradiště 15
-2
0
2
PC1: 29,52%
4
Brno-měst 15
Olomouc 10
6
.
Metoda hlavních komponent Rozptylový diagram komponentního skóre 1,3 5
Praha 03
4 Praha-vých 03 Praha-záp . Brno-město 15
3 Ml. Boleslav 03
2
PC3: 18,83%
03 BenešovBeroun 14 Č.Budějice 12 . Plzeň-měs 12 Kladno 03 Plz-sever 12 Plzeň-jih 12 1 Mělník 03 Kolín Ostrava 10 03 Pardubice Vyškov 15 14 Prachatice 12 Břeclav 15 Nymburk 03 Zlín 15 03 Kutná Hora 14 Hr. Králové Jihlava 14 Frýd-Místek Příbram 12 Rychnov n/K. 14 10 Domažlice 12 Rakovník Blansko 12 15 Rokycany 12 Uh. Hradiště 15 N. Jičín 10 J. Hradec 14 Tábor 12 Žďár n/Sáz. 14 PelhřimovKlatovy 14 12 0 Semily 03 Prostějov 10 Č.Lípa 03 Náchod 03 Havl.Brod 14 Strakonice 12 Č. Krumlov 1212 03 Ústí n/L. 03 Litoměřice Písek Chrudim 14 Liberec 03 Trutnov 03 Opava Kroměříž 15 Jabl. n/N. 03 K. 12Vary 12 10 Jičín 03 VsetínCheb Svitavy 15 Karviná 10 10Šumperk Louny 03 10 Chomutov 12 Teplice 03 Přerov 10 Třebíč Hodonín 15 -1 Znojmo 15 14 Tachov 12Sokolov 12
-2
Bruntál 10 Děčín 03 Most 03
Jeseník 10
-2
Olomouc 10
0
2
PC1: 29,52%
4
6
.
Faktorová analýza
Grafy faktorových vah/zátěží Graf faktorových vah 1,2 0.6
0.7
Prodej_skupinek Prodej_zaklad
F akto r_2
0.4
0.2
Pocet_skupinek
0.2
Pocet_serii
0.0
Nezamestnanost Mzda
-0.2 -0.4
0.2
0.4
0.6
0.8
Faktor_1
0.0
Pocet_skupinek Pocet_serii Pocet_zaklad
Porodnost Prodej z/skup
-0.2 -0.4 -0.7
Pocet_zaklad
Porodnost -0.6 0.0
Mzda
0.5
F akto r_3
0.8
Graf faktorových vah 1,3
1.0
Nezamestnanost 1.2
1.4
-0.9 0.0
0.2
0.4
0.6
0.8
1.0
1.2
Faktor_1
Faktor_1 = proměnná vyjadřuje počty nafocených produktů Faktor_2 = proměnná vyjadřuje prodejnost Faktor_3 = proměnná vyjadřuje ekonomickou prosperitu
1.4
Faktorová analýza Rozptylový diagram faktorového skóre 1,2,3
Praha 03
zobrazení ve 3D velmi podobné PCA jeden hlavní shluk z něj vybočují objekty = okresy všemi směry faktorům jsou přiřazeny logické vlastnosti metoda Varimax
Brno 15 Praha-vých 03 Praha-záp 03 M.Boleslav 03 Olomouc . 10 Plzeň 12 . Č.Budějice 12 Benešov 14 Plzeň-j . Beroun Pardubice 14 . 03 Brno-ven 15Ostrava 10 Zlín 15 . K. Hora 14 . Jihlava 14 Mělník Kolín 03 Blansko 1503 Kladno 03 H.Králové 03 Klatovy 12 N. Jičín 10 Karviná 10 Písek 12 . K. Vary10 12 12 VsetínŠumperk 10 Cheb . 14 Třebíč Hodonín 15 Ústí n/L. 03 Č.Lípa 03 Chomutov 12 Sokolov Jičín12 03 Liberec 03 Teplice 03 Náchod 03 Bruntál 10 Louny 03 . Jeseník 10 . Děčín 03 Most 03
Analýza shluků Dendrogram znaků
Porodnost Mzda
Nezaměstnan Počet skupinek
Počet sérií
Počet základ Prodej základ
Prodej skupinek
4
6
8
10
12
vzdálenost spojení
14
shlukování metodou váženého průměru použity euklediovské vzdálenosti podobnost s PCA i FA vytvořeny shluky na základě podobnosti není vyjádřena záporná korelace
Analýza shluků Dendrogram objektů 8
7
6
5
4
vzdálenost spojení
3
2
1
0
Benešov 14 Ml. Boles Beroun 03 Kolín Praha-záp 03 Praha-vý Mělník 03 Blansko 15 Pardubice Uh. Hrad Zlín 15 Brno-ve Č. Budě Plz-sever 1 Domažlice Vyškov 15 Plz-město Rakovník 1 Plzeň-jih 12 Frýd-Mís Klatovy 12 Příbram 12 N. Jičín 10 J. Hradec 1 Tábor 12 Pelhřimov Kroměříž Prostějov11 Bruntál 10 Vsetín 10 Šumperk Sokolov 1210 K. Vary 12 Svitavy 15 Opava 10 Cheb 12 Chrudim 14 Hodonín 15 Znojmo 15 Třebíč 14 Ústí n/Orl. Č. Krumlo Strakonic Prachatic Rychno Jeseník 10 Kutná Tachov 12 Ho Přerov 10 Rokycany 1 Hr. Králov1 Havl.Brod Písek 12 Ústí n/L. 03 Litoměřic Teplice 03 Žďár Břeclav 15n/S Karviná1410 Jihlava Ostrava 10 Č. Lípa 03 Liberec 03 Děčín 03 Chomutov Most 03 Jabl. n/N. 0 Louny 03 Náchod 03 03 Nymburk Kladno 03 Praha 03 Brno-mě Olomouc 10
Srovnání PCA a FA Grafy komponentních vs. faktorových vah Graf komponentních vah 1,2
Graf faktorových vah 1,2 1.0
1.0
Porodnost
Porodnost
0.5
Počet základ
0.5 Mzda
Počet základ Mzda Nezaměstnanost
. Nezaměstnanost Počet sérií
0.0
PC 2 : 24,44%
-0.5
Počet sérií
0.0
Faktor 2
Počet skupin
.
Počet skupin .
-0.5
Prodej základ Prodej skupin
Prodej základ Prodej skupin
-1.0 -1.0
-0.5
0.0 PC1 : 29,52%
0.5
1.0
-1.0 -0.8 -0.6 -0.4 -0.2
0.0
0.2
Faktor 1
0.4
0.6
0.8
1.0
.
Srovnání PCA a FA Grafy komponentních vs. faktorových vah Graf komponentních vah 1,3
Graf faktorových vah 1,3 1.0
1.0
Mzda
Mzda
0.8 0.6
0.5
0.4 Počet skupin . Porodnost Počet sérií Prodej základ/skupinek . Počet základ
0.0
Porodnost Prodej základ/skupin .
. 0.2
0.0
Počet skupin . Počet sérií Počet základ
PC3 : 18,83%
Faktor 3
-0.2 -0.4
-0.5
-0.6
Nezaměstnanost
Nezaměstnanost
-0.8
-1.0 -1.0
-0.5
0.0 PC1 : 29,52%
0.5
1.0
-1.0 -0.8
-0.6
-0.4
-0.2
0.0
0.2
Faktor 1
0.4
0.6
0.8
1.0
.
Srovnání PCA a FA Rozptyl. diagram komponent. a faktorového skóre Diagram komponentního skóre 1,2,3
Diagram faktorového skóre 1,2,3
Praha 03 Praha 03
Brno-město 15
Brno 15 Praha-vých 03 Praha-záp 03
Praha-vých 03 Olomouc 10 Praha-záp 03 Ostrava 10 Plzeň Ml. 12 Boleslav 03 . Č. Budějice 12 Břeclav 15 Plzeň-jih 12 Pardubice Benešov 14. 14 Jihlava Zlín 15 Beroun Hradiště 15 03 14 K.Rokycany Hora 14 Tábor 12. 12 12 Karviná 10 Příbram Blansko 15 J.Klatovy Hradec 14 Kolín Prostějov 10 Pelhřimov 1412 Kladno 03 Mělník 03 03 H. Králové N. Jičín 10 Písek 12 K. 15 Vary 12. 10 Kroměříž Opava Chrudim 14 Třebíč Šumperk Trutnov 10 03 14 Hodonín Cheb Ústí n/L. 03 Vsetín .12 1515 Znojmo Nymburk 03 SemilyLitoměřice 03 03 Chomutov 12 Č. Lípa 03 Přerov 10 Sokolov 12 Liberec 03 Tachov 12Bruntál Teplice 10 03 Náchod . Louny0303Děčín Jeseník 10 . 03 Most 03
M.Boleslav 03 Olomouc . 10 Plzeň 12 . Č.Budějice 12 Benešov 14 Plzeň-j . . 03 Ostrava 10 Beroun Pardubice 14 Brno-ven 15 Zlín 15 K. Hora 14 . . Jihlava 14 Mělník Kolín 03 Blansko 1503H.Králové Kladno 03 03 Klatovy 12 N. Jičín 10 Karviná 10 Písek 12 . K. Vary10 12 12 VsetínŠumperk 10 Cheb . 14 Třebíč Hodonín 15 Ústí n/L. 03 Č.Lípa 03 Chomutov 12 Sokolov Jičín12 03 Liberec 03 Teplice 03 Náchod 03 Bruntál 10 Louny 03 . Jeseník 10 . Děčín 03 Most 03
Závěr práce
byla objasněna vnitřní struktura dat prodejnosti dětské školní fotografie a dat vlivů na tuto prodejnost třem latentním proměnným byly přiřazeny logické vlastnosti
ve 3D prostoru byla znázorněna podobnost či rozdílnost jednotlivých okresů ČR (tříděných dle našich znaků)
Otázka 1: Co lze v práci vyčíst z grafu faktorových zátěží? Uveďte závěry své diagnozy v analýze prodejnosti fotografií. Graf faktorových zátěží 1,2 0.6
0.7
Prodej_skupinek Prodej_zaklad
F akto r_2
0.4
0.2
Pocet_skupinek
0.2
Pocet_serii
0.0
Nezamestnanost Mzda
-0.2 -0.4
0.2
0.4
0.6
0.8
Faktor_1
0.0
Pocet_skupinek Pocet_serii Pocet_zaklad
Porodnost Prodej z/skup
-0.2 -0.4 -0.7
Pocet_zaklad
Porodnost -0.6 0.0
Mzda
0.5
F akto r_3
0.8
Graf faktorových zátěží 1,3
1.0
Nezamestnanost 1.2
1.4
-0.9 0.0
0.2
0.4
0.6
0.8
1.0
1.2
Faktor_1
Faktor_1 = proměnná vyjadřuje počty nafocených produktů Faktor_2 = proměnná vyjadřuje prodejnost Faktor_3 = proměnná vyjadřuje ekonomickou prosperitu
1.4
Otázka 2: Co lze v práci vyčíst z grafu faktorového skóre? Uveďte závěry své diagnozy. Jaký je zde rozdíl mezi PCA a FA? 3D graf faktorového skóre 1,2,3
Praha 03 Brno 15 Praha-vých 03 Praha-záp 03 M.Boleslav 03 Olomouc . 10 Plzeň 12 . Č.Budějice 12 BenešovBeroun 14. Plzeň-j Pardubice 14 . 03 Brno-ven 15Ostrava 10 Zlín 15 K. Hora 14 . . Jihlava 14 Mělník Kolín 03 Blansko 1503 Kladno 03 H.Králové 03 Klatovy 12 N. Jičín 10 Karviná 10 Písek 12 . K. Vary10 12 12 VsetínŠumperk 10 Cheb . 14 Třebíč Hodonín 15 Ústí n/L. 03 Č.Lípa 03 Chomutov 12 Sokolov Jičín12 03 Liberec 03 Teplice 03 Náchod 03 Bruntál 10 Louny 03 . Jeseník 10 . Děčín 03 Most 03
Otázka 3: Jak se indikuje interakce znaků a objektů ve dvojném grafu? Dvojný graf (Biplot) 1,2 – metoda PCA PC_2
PC_1
Otázka 4: Jak se pozná v maticovém diagramu znaků, zda data potřebují škálování? Jaké informace pro předúpravu dat poskytla EDA? Krabicový graf neškálovaných dat 30000
Krabicový graf škálovaných dat 6 Median
Median 25%-75% Min-Max
25000
4
25%-75% Min-Max
20000 2
15000 0
10000 -2
5000 -4
0
-6
-5000
Porodnos
Mzda Nez
Počet s
Počet z
Počet sér
Prodej
Prodej
Porodnost
Mzda Neza
Počet sk
Počet zá
Počet sérií
Prodej s
Prodej z
Otázka 5: Uveďte postup analýzy PCA. Vedle Cattelova grafu úpatí, grafu komponentního vah a skóre s dvojným grafem bývá zvykem analyzovat též rezidua objektů a znaků, která by měla vesměs prokazovat dostatečnou těsnost proložení. Co učinit, když tomu tak není? Graf vlivných bodů statistické analýzy reziduí objektů (metoda PCA) Olomouc
60
50
Brno
40
(NCSS)
Praha
30 Náchod Jablonec
rezidua T2
20
Kladno Jičín
Most
Praha-záp Teplice Praha-vých Chomutov Hradec Kut. Hora Nymburk Č. Lípa Ostrava Břeclav . Děčín Tachov Karviná Ml. Rychnov n/K Boleslav Písek Hodonín Mělník Ústí n/L. 10 Louny Prachatice Jeseník Liberec Pardubice Rokycany 12 Hradiště Semily Žďár Znojmo Plz-město Č. Krumlov Trutnov Brno-ven Litoměřice Benešov Přerov 10 ÚstíVyškov n/Orl. Bruntál Plzeň-jih Cheb J. Havl.Brod Strakonice Pelhřimov Sokolov Blansko Beroun Zlín Hradec Jihlava Kolín Tábor Rakovník 12 Třebíč Č. Budějice Svitavy Prostějov Opava Plz-sever Kroměříž N. Jičín Domažlice ChrudimK. Vary Příbram 12Šumperk Vsetín Klatovy F-Místek 0 1 7 13 19 25 31 37 43 49 55 61 67 73
Pořadí objektů