VYSOKÁ ŠKOLA BÁŇSKÁ - TECHNICKÁ UNIVERZITA OSTRAVA Hornicko-geologická fakulta institut geoinformatiky
STATISTIKA MIGRANTŮ PRO REGIONY V MORAVSKOSLEZSKÉM KRAJI A PRO KRAJ V OBDOBÍ 1992 - 2005 Speciální metody analýzy dat
6.1.2007
GN260
Igor IVAN
Úvod Část tohoto projektu bude součástí diplomové práce s názvem Analýzy vývoje migrace obyvatelstva v Moravskoslezském kraji. Data, která jsou zde použita pocházejí z tzv. běžné evidence migrace. Tyto záznamy vycházejí z povinnosti občana k přihlášení se k trvalému pobytu – Hlášení o stěhování – které zpracovávají matriky, resp. ČSÚ. Tento datový zdroj umožňuje, kromě územní lokalizace, také analyzovat migranta podle některých základních demografických a socioekonomických znaků. V první kapitole, která se zabývá explorační analýzou, budu zkoumat zvlášť dvě skutečnosti. Jelikož bych rád využil část projektu v diplomové práci, tak jednotlivé grafy a slovní vyhodnocení grafů budou zaměřeny na analýzu přistěhovalých a vystěhovalých do/z jednotlivých regionů1 MSK v analyzovaném období 1992 – 2005. Ve druhé části projektu, která již nebude součástí diplomové práce, se program zabývá počty přistěhovalých a vystěhovalých do/z MSK jako celku a to opět v období 1992 - 2005.
1
7 regionů, které byly vytvořeny v téže diplomové práci podle metodiky Martina Hampla. Data pro vytvoření jednotlivých regionů pochází ze Sčítání domů, lidu a bytů z roku 2001
2
3
Jednorozměrná explorační analýza dat V této části se budeme zabývat vývojem přistěhovalých a vystěhovalých v jednotlivých letech a regionech. Pro každý z roků byly vypočteny základní statistické charakteristiky. Histogram popisuje vývoj počtu přistěhovalých a vystěhovalých do, z regionů v MSK. Jednotlivé grafy musely být rozděleny do dvou samostatných oddílů z nichž každý má jiný rozsah na ose y. Důvodem je rozdílný počet migrantů – v regionu Ostravsko je řádově 4x více migrantů než v ostatních regionech. Na první pohled je patrné, že ve všech regionech převyšuje počet vystěhovalých ty přistěhované. Lze tedy konstatovat, že migrační saldo (rozdíl přistěhovalí vystěhovalí) je negativní – obyvatelstvo ztrácí na migraci. Nejlépe nám vychází dva regiony – Frýdecko-Místecko a Novojičínsko. Obzvláště prvně jmenovaný region je v posledních letech v kladných hodnotách migračního salda a to zhruba od roku 2000. Tento trend se dá vysvětlit tzv. deurbanizací. Mezi hlavní znaky deurbanizace patří velké snižování počtu obyvatelstva v centrech měst i vnějších městských částech. Dochází ke stěhování na venkov, do menších měst, do nových měst nebo do metropolí. Novojičínsko mělo vyrovnaný stav zhruba v druhé polovině 90. let, ale poté znova propadlo do záporných čísel. Jednoznačně nejhůře je na tom region Ostravsko a Bruntálsko a v posledních letech také Opavsko. U Ostravska se to dá vysvětlit právě již výše zmíněnou deurbanizací, u Bruntálska patrně nízkou životní úrovní, velkým procentem nezaměstnaných. Lze také vyčíst útlum v migračních pohybech vůbec a to v období druhé poloviny 90. let, kdy ve všech regionech je patrný propad. V posledních letech se opět čísla zvětšují, bohužel v některých regionech pouze ta o vystěhovalých.
4
5
6
Jak bylo již zmíněno výše, tak právě na těchto histogramech je patrný negativní vývoj migrace v jednotlivých regionech MSK, vyjímaje regionu Frýdek-Místek. Zde po roce 2000 je patrný obrat v migračním vývoji.
7
U výsečových grafů je cílem analyzovat cíle přistěhovalců, respektive odkud se vystěhovalci vystěhovávají. Opět se jedná o totožné období, jako u předchozí analýzy a to
roky
1992
–
2005.
Tyto
výsledky nám bohužel neukazují nějaké zásadní změny ve vývoji migrace. Po celou dobu je jasným cílem migrantů region Ostravsko a to většinou kolem 48% všech přistěhovalých. Toto je způsobeno velkým počtem obyvatel v tomto regionu větším
a
tak počtem
přímoúměrným migrantů.
Zajímavější je ale souboj o druhé místo mezi regiony Novojičínsko a Frýdeckomístecko. Opět rok 2000 zde hraje hraniční roli. Počínaje tímto rokem se dostává na druhé místo Frýdeckomístecko, což opět potvrzuje myšlenku deurbanizace. Pokud se podíváme na koláčové grafy, které se týkají
8
vystěhovalých, tak jsou výsledky obdobné, jako u přistěhovalých. Jasně na prvním místě je Ostravsko, ale tentokráte je podíl na celkovém čísle vystěhovalých vyšší a to zhruba 49% a v posledních letech se dostává přes 50%. Na druhém místě zůstává po celou dobu analýzy Novojíčínsko. Zajímavá je opět situace u FrýdeckoMístecka.
U
toho
se
podíl
vystěhovaných postupně snižuje a postupně se přibližuje k Opavsku, u kterého se naopak podíl zvyšuje. V roce 1992 činil rozdíl mezi těmito regiony 2,5% a v roce 2005 už jen 0,26%. Pokud se podíváme na další regiony, tak je zajímavé pozorovat, jak si v jednotlivých letech vyměňují vzájemně pořadí regiony Třinecko a Bruntálsko. V dalším kroku se dostáváme k liniovým grafům. Ty jsou, stejně jako sloupcové, rozděleny do dvou částí. Opět se potvrzuje předchozí
9
zjištění. Většina regionů má záporné migrační saldo. Tento graf nám navíc hezky ukáže vzrůstající rozdíl mezi počtem přistěhovaných a vystěhovaných. Toto je patrné zejména u regionu Ostravsko a Bruntálsko. Obzvláště u Ostravska je rozdíl postupem let narůstající. U Opavska je vývoj relativně totožný po celou dobu
analýzy,
negativní.
bohužel
Novojičínsko
rovněž má
podobný vývoj jako Krnovsko, dobou se střídají období, kdy je saldo
pozitivní
s negativním
s obdobím
saldem.
Opět
výjimečný je region FrýdeckoMístecko. I zde se ukazuje změna ve vývoji regionu zhruba od roku 2000,
kdy
s negativním
se
střídá
saldem
s pozitivním stavem.
období
s obdobím I u těchto
grafů je patrný propad v migračním chování v polovině devadesátých let.
10
11
Rok
1992
1993
1994
1995
1996
1997
1998
Platné
7,00
7,00
7,00
7,00
7,00
7,00
7,00
Chybějící
0,00
0,00
0,00
0,00
0,00
0,00
0,00
Průměr
3726,86
3399,57
2900,86
2762,71
2574,14
2554,71
2615,14
Medián
2182,00
2255,00
1847,00
1669,00
1561,00
1678,00
1639,00
Dolní kvartil
1790,00
1668,00
1427,00
1309,00
1216,00
1239,00
1216,00
Horní kvartil
3265,00
2827,00
2606,00
2365,00
2164,00
2227,00
2224,00
Směrodatná odchylka
4214,64
3518,27
3059,75
2999,50
2817,20
2647,87
2805,45
Minimum
956,00
1024,00
877,00
760,00
735,00
834,00
710,00
13127,00 11250,00
9714,00
9451,00
8868,00
8454,00
8867,00
N
Maximum Sum
26088,00 23797,00 20306,00 19339,00 18019,00 17883,00 18306,00
Rok
1999
2000
2001
2002
2003
2004
2005
Platné
7,00
7,00
7,00
7,00
7,00
7,00
7,00
Chybějící
0,00
0,00
0,00
0,00
0,00
0,00
0,00
Průměr
2557,71
2583,43
2607,57
2800,00
2615,71
2708,43
2923,86
Medián
1676,00
1991,00
1660,00
1858,00
1798,00
1803,00
2009,00
Dolní kvartil
1307,00
1274,00
1097,00
1294,00
1257,00
1210,00
1290,00
Horní kvartil
2106,00
2214,00
2316,00
2629,00
2078,00
2189,00
2552,00
Směrodatná odchylka
2764,37
2596,07
2794,26
2898,86
2853,78
2930,87
3049,97
Minimum
685,00
777,00
728,00
688,00
707,00
750,00
764,00
Maximum
8734,00
8352,00
8817,00
9209,00
8995,00
9253,00
9693,00
N
Suma
17904,00 18084,00 18253,00 19600,00 18310,00 18959,00 20467,00 Tabulka 1 - Explorační analýza pro přistěhovalé do MSK 1992 – 2005
V této části se analýza liší od těch předchozích. Jak již bylo uvedeno v úvodu, tak počínaje touto pasáží se analýza bude věnovat MSK jako celku a nebude ho rozdělovat do jednotlivých regionů. Tato tabulka ukazuje statistické vyhodnocení vývoje v počtu přistěhovalých do MSK za jednotlivé roky v období 1992 – 2005. I zde jde vidět pokles v počtu přistěhovalých do MSK, kde minima dosahuje v roce 1999. Zároveň lze 12
vidět, jak se jednotlivé migrační toky v období druhé poloviny 90. let zmenšují a počínaje roku 2000 se opět začínají růst. Toto nám ukazuje medián, který se postupně zmenšuje a ke konci analýzy opět roste. To, že je medián menší než průměr ukazuje na extrémně velké hodnoty v počtu přistěhovalých. Bude se jistě jednat opět o region Ostravsko, kam bude přicházet řádově více migrantů než například do regionu Krnovsko. Taky rozdíl mezi dolním kvartilem a mediánem je mnohem menší než naopak rozdíl mezi horním kvartilem a mediánem, což opět potvrzuje myšlenku o rapidně větším množství menších migračních toků. Vysvětlení pojmů – •
Průměr – součet všech hodnot vydělený jejich počtem
•
Medián2 – je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Jestliže n je sudé číslo, pak medián odpovídá x = 0,5( x n + x n ) . Jestliže n je liché číslo, pak x = x( n +1) . 2
2
+1
2
•
Dolní a horní kvartil – oddělují ze statistického souboru čtvrtiny
•
Směrodatná odchylka – vypovídá o tom, jak moc se od sebe navzájem liší typické případy v souboru zkoumaných čísel. Je-li malá, jsou si prvky souboru většinou navzájem podobné, a naopak velká směrodatná odchylka signalizuje velké vzájemné odlišnosti. Směrodatná odchylka je nejužívanější míra variability.
2
Zdroj: HENDL Jan: Přehled statistických metod zpracování dat. Praha, 1. vydání, 2004. ISBN 80-7178-820-1. 584 stran
13
Také v této pasáži se analýza zabývá Moravskoslezským krajem jako celkem a přestává ho, až na jednu výjimku u jednofaktorové analýzy rozptylu ANOVA, dělit do jednotlivých regionů. Nyní následuje explorační analýza pro přistěhovalé a vystěhovalé do/z MSK pro analyzované období 1992 – 2005. Stem-and-Leaf Display for PRISTEHOVALI: unit = 100,0 1|2 represents 1200,0 1 (7) 6 4 3
2|5 2|6777777 2|88 3|1 3|3 HI|4046,0 4361,0
Summary Statistics for PRISTEHOVALI Počet sledování Průměrný počet přistěhovalých Směrodatná odchylka Minimum Maximum
14 3021,5 545,185 2506,0 4361,0
Je vidět, že počty přistěhovalých se v analyzovaném období pohybují nejčastěji v intervalu 2400 – 2900 migrantů. Z krabicového grafu jsou patrné dvě odlehlé hodnoty, které přesahují hodnotu 4000. Právě tyto dvě extrémní hodnoty zvyšují hodnotu průměru nad medián. Tyto hodnoty jsou z počátku analýzy z roku 1992 a 1993. Dá se říci, že v té době byl ještě charakter MSK jiný než v dalších letech, jelikož průmyslový útlum byl teprve v začátcích.
14
Graf Stem-and-Leaf znázorňuje data podobně jako histogram četností. Oproti histogramu ale navíc prezentuje zjištěná data s přesnosti na stovky přistěhovalých. Hodnoty umístěné ve sloupci před lomítky představuji tisíce přistěhovalých. Do sloupce za lomítky pak jsou zapsány stovky přistěhovalých pro příslušné hodnoty před lomítky. Např. druhý řádek tak odpovídá sedmi zjištěným hodnotám – 2600 a 6 x 2700 přistěhovalých. Graf zároveň znázorňuje dvě odlehlé hodnoty o velikosti 4046,0 a 4361,0.
Stem-and-Leaf Display for VYSTEHOVALI: unit = 100,0 1|2 represents 1200,0 1 4 4 (4) 6 4 3 2 1
4|1 4|233 4| 4|6777 4|99 5|0 5|2 5|4 5|6
Summary Statistics for VYSTEHOVALI Počet sledování Průměrný počet vystěhovalých Směrodatná odchylka Minimum Maximum
14 4818,14 455,164 4195,0 5632,0
Malý rozdíl mezi průměrem a mediánem zapříčinil, že oproti výsledkům pro přistěhovalé se zde nevyskytují extrémní hodnoty. Také histogram naznačuje vyrovnanější vývoj, bez žádných extrémních výkyvů, pro vystěhovalé než pro přistěhovalé.
15
Dvouvýběrový test střední hodnoty: Budeme testovat, zda na základě dat o počtu přistěhovalých/vystěhovalých do/z kraje v období 1992 – 2005 lze prohlásit, že se střední hodnota počtu přistěhovalých a vystěhovalých liší. Jako vstupní údaje jsou potřeba: Přistěhovalí Počet sledování Průměrná hodnota Směrodatná odchylka
14 3021,50 545,19
Vystěhovalí 14 4818,14 455,16
Testujeme hypotézu o rovnosti středních hodnot:
H0: µ1= µ2
přistěhovalí = vystěhovalí
Oproti alternativě:
HA: µ1< µ2
přistěhovalí < vystěhovalí
Hypothesis Tests Sample means = 3021,5 and 4818,14 Sample standard deviations = 545,16 and 455,16 Sample sizes = 14 and 14 95,0% upper confidence bound for difference between means: -1796,64 + 323,748 [-1472,89] Null Hypothesis: difference between means = 0,0 Alternative: less than Computed t statistic = -9,46536 P-Value = 3,2864E-10 Reject the null hypothesis for alpha = 0,05.
Zamítáme hypotézu H0. Z dodaného vzorku 14 pozorování pro přistěhovalé a vystěhovalé do/z kraje, lze konstatovat, že je více vystěhovalých než přistěhovalých, což potvrzuje demografické analýzy v úvodu této práce – obyvatelstva v MSK ubývá díky převažující migraci ven z kraje.
Jednofaktorová analýza rozptylu – ANOVA Analýza zda existuje závislost mezi počtem přistěhovalých a jednotlivými regiony v MSK v období 1992 – 2005. Testujeme hypotézu: H0: µ1 = µ2 = µ3 = µ4 = µ5 = µ6 = µ7 HA: neplatí H0 kde
µ1 je střední hodnota počtu přistěhovalých do regionu Bruntál µ2 je střední hodnota počtu přistěhovalých do regionu Frýdek-Místek µ3 je střední hodnota počtu přistěhovalých do regionu Krnov µ4 je střední hodnota počtu přistěhovalých do regionu Nový Jičín µ5 je střední hodnota počtu přistěhovalých do regionu Opava µ6 je střední hodnota počtu přistěhovalých do regionu Ostrava µ7 je střední hodnota počtu přistěhovalých do regionu Třinec
ANOVA Table Source Between groups Within groups Total (Corr.)
Sum of Squares 7,53154E8 2,55542E7 7,78709E8
Df 6 91 97
Mean Square 1,25526E8 280816,
F-Ratio 447,00
P-Value 0,0000
P-value je menší než 0,05, tedy existuje statisticky významný rozdíl mezi středními hodnotami jednotlivých tříd, a proto budu dále specifikovat bližší určení rozdílů mezi jednotlivými třídami.
17
Multiple Range Tests Method: 95,0 percent LSD Count Krnov 14 Bruntál 14 Třinec 14 Opava 14 Frýdek_Místek 14 Nový Jičín 14 Ostrava 14
Mean 785,357 1379,0 1519,29 1811,79 2323,29 2362,07 9484,57
Homogeneous Groups X X XX X X X X
Z výsledků jednofaktorové analýzy rozptylu je jasně patrné, že kvůli extrémním výsledkům pro region Ostrava, jsou rozdíly mezi výsledky pro ostatní regiony nevýrazné. Proto nyní bude tatáž analýza provedena opět a region Ostrava z ní bude vyloučen, aby výsledky byly přesvědčivější a názornější.
18
ANOVA Table Source Between groups Within groups Total (Corr.)
Sum of Squares 2,53614E7 4,5884E6 2,99498E7
Df 5 78 83
Mean Square 5,07228E6 58825,7
F-Ratio 86,23
P-Value 0,0000
Multiple Range Tests Method: 95,0 percent LSD Count Krnov 14 Bruntál 14 Třinec 14 Opava 14 Frýdek_Místek 14 Nový Jičín 14
Mean 785,357 1379,0 1519,29 1811,79 2323,29 2362,07
Homogeneous Groups X X X X X X
19
Z výše uvedených údajů je zřejmé, že existuje závislost mezi počtem přistěhovalých osob a regionem do kterého míří. Jsou viditelné zajímavé rozdíly mezi počtem přistěhovalých v jednotlivých regionech. Osamocený je region Krnov (také region Ostrava, který je z analýzy vyloučena). U ostatních regionů je vidět určitá podobnost. Podle analýzy počtu přistěhovalých tvoří regiony homogenní skupiny: •
Bruntál – Třinec
•
Třinec – Opava
•
Nový Jičín – Frýdek-Místek. Tento závěr potvrzuje také grafické srovnání 95% intervalů spolehlivosti pro
jednotlivé střední hodnoty, kde jsou jednotlivé skupiny označeny barevně.
20
Regrese Pokusíme se zjistit, zda-li existuje nějaká závislost mezi počtem přistěhovalých a vystěhovalých v MSK v období 1992 – 2005. Pokud existuje, tak určíme, jak je významná. Simple Regression - PRISTEHOVALI vs. VYSTEHOVALI Dependent variable: PRISTEHOVALI Independent variable: VYSTEHOVALI Linear model: Y = a + b*X Coefficients Parameter Intercept Slope
Least Squares Estimate 227,845 0,57982
Analysis of Variance Source Sum of Squares Model 905452, Residual 2,95849E6 Total (Corr.) 3,86395E6
Standard Error 1463,78 0,302555
Df 1 12 13
T Statistic 0,155655 1,91641
Mean Square 905452, 246541,
P-Value 0,8789 0,0794
F-Ratio 3,67
P-Value 0,0794
Correlation Coefficient = 0,48408 R-squared = 23,4334 percent R-squared (adjusted for d.f.) = 17,0528 percent Standard Error of Est. = 496,529 Mean absolute error = 378,418 Durbin-Watson statistic = 0,230925 (P=0,0000) Lag 1 residual autocorrelation = 0,664272
V tabulce ANOVA vyšlo p-value vyšší než 0,05 (přesněji 0,0794), tudíž nemá smysl vůbec žádnou regresi provádět, neboť proměnné X a Y jsou nezávislé (regresní křivka specifikuje typ závislosti mezi proměnnými. Nemá tedy smysl ji dělat pro nezávislé proměnné). Koeficient R-squared udává, jak těsná je závislost mezi proměnnými X, Y, resp. jak přesné je nahrazení závislosti zvolenou regresní křivkou. Čím je R-squared blíže jedničce, o to přesnější aproximaci se jedná. Pokud je R-squared blízko nule, je zvolená funkce nevhodná pro aproximaci dané závislosti anebo mezi uvažovanými veličinami vůbec neexistuje těsná závislost, což je tento případ, jelikož R-squared vyšlo 23,4334%.
21