Odhady polohy mzdového rozdělení pomocí vybraných robustních odhadových funkcí

Odhady polohy mzdového rozdělení pomocí vybraných robustních odhadových funkcí 1. Úvod Odhady polohy rozdělení náhodné proměnné patří k základním statistickým otázkám. Aritmetický průměr v mnoha případech není zcela vhodnou volbou k odhadu polohy, protože není příliš odolný vůči působení odlehlých pozorování náhodné proměnné. Pro správné řešení tohoto problému za podmínek nesplnění předpokladu normality rozdělení náhodné proměnné je výhodné použití tzv. robustních estimátorů polohy. Mzdy a jejich rozdělení představují důležitý ekonomický fenomén, který se bezprostředně dotýká veškerého ekonomicky aktivního obyvatelstva. Proto je správné stanovení polohy mzdového rozdělení velmi důležitý statistický a zároveň i citlivý společenský problém. Obecná úroveň mzdy je častým argumentem různých ekonomických komentářů, které vysvětlují příjmy domácností resp. zaměstnanecké populace. Na průměrnou mzdu se často obracíme v diskusích o příjmech a životní úrovni obyvatelstva. Srovnáváme také její velikost mezi jednotlivými státy. Od obecné mzdové hladiny odvozujeme rovněž průměrné náklady práce a další důležité ekonomické veličiny, jako je např. životní minimum, minimální mzda apod. Jaké jsou zdroje informací o mzdách zaměstnanců ? Ke zkoumání mzdové úrovně jsou k dispozici údaje pocházející z Českého statistického úřadu – jde o tzv. statistické výkaznictví a šetření diferenciace mezd zaměstnanců – a z Informačního systému o průměrném výdělku (dále ISPV) jako rezortního zjišťování pod gescí MPSV. Uvedeným zdrojům také odpovídá různé pojetí obecné mzdové úrovně. Zatímco ve statistickém výkaznictví se jako obecná úroveň mzdy považuje mzda počítaná jako aritmetický průměr, v šetření diferenciace mezd zaměstnanců a v rezortním zjišťování MPSV, (tj. ISPV) je uznávána jako reprezentativní úroveň mzda mediánová, tedy mzda prostřední. V článku je provedeno posouzení vybraných odhadových funkcí, které se používají k odhadu polohy rozdělení. Jedná se o funkce odhadu více či méně odolné (robustní) vůči extrémním, resp. odlehlým hodnotám. Hlavním kriteriem pro výběr funkcí odhadu byla jejich praktická použitelnost a rozumná interpretovatelnost. Do příspěvku byl tedy vybrán výběrový medián jako nejrobustnější funkce odhadu mzdového rozdělení, aritmetický průměr jako funkce nejméně odolná vůči odlehlým hodnotám a různé varianty funkcí odhadu mezi uvedenými extrémními případy. Pro posuzované funkce odhadu však obecně platí, že se jedná o lineární formy s koeficienty představujícími systém vah. Při odhadování polohy rozdělení mezd se jako váhové systémy nejčastěji uplatňují pouze takové systémy, které potlačují význam krajních hodnot mezd (zejména nejvyšších). Proto systémy vah, které jsou rozebírány v tomto příspěvku, buď zcela nebo částečně omezují vliv krajních pozorování a relativně zvyšují význam skupiny střední příjmové skupiny. Uvedený teoretický rozbor je náplní kapitoly 2. V kapitole 3 jsou zaznamenány výsledky experimentálních odhadů polohy reálného mzdového rozdělení za použití výše uvedených odhadových funkcí. Jedná se o rozdělení nesymetrické, kde skupina mezd vysokopříjmových zaměstnanců způsobuje vysokou variabilitu výsledné průměrné mzdy. Pro účely tohoto příspěvky byly použity údaje o mzdách z Informačního systému o průměrném výdělku.

1

2. Vybrané funkce odhadu polohy rozdělení mezd 2.1. Problém robustnosti odhadu polohy rozdělení

Problém citlivosti odhadové funkce na přítomnost odlehlých, resp. extrémních hodnot, tj. „datových bodů, které se odchylují od rozložení hlavní části datové množiny“ [1], vedl k zavedení robustních měr polohy. Robustnost funkce odhadu je měřena jako hodnota bodu zvratu odhadu. Bod zvratu odhadu [2] informuje o tom, jak velký podíl pozorování v souboru lze libovolně zaměnit, aniž by došlo k úplnému selhání odhadu. Například aritmetický průměr má hodnotu bodu zvratu asymptoticky rovnou 0 %, zatímco medián jako odhad polohy je velmi robustní s hodnotou bodu zvratu odpovídající 50 % [1]. 2.2. Robustní míry odhadu polohy

Podle [1] se odhady parametrů polohy rozdělení obecně dělí do několika rozdílných tříd odhadů, a to na třídu maximálně věrohodných odhadů, tzv. M-odhady, na třídu R-odhadů, které jsou založeny na odhadech z pořadových testů, a na třídu L-odhadů, které představují lineární funkce pořádkových statistik. V oblasti mzdových rozdělení jsou nejpoužívanějšími odhadovými funkcemi jsou lineární kombinace pořádkových statistik, tedy třída L-odhadů. Podle [2] se L-odhady parametru rozdělení se nazývá libovolná statistika ve tvaru n

Lˆ n =∑ w i ⋅ X ( i ) ,

(1)

i=1

kde X(1) ≤ X(2) ≤…≤ X(n) jsou pořádkové statistiky odpovídající náhodnému výběru X1, …, Xn a wi, i = 1, 2, …, n; je funkce vah, pro kterou platí: n

∑w

i

= 1.

(2)

i=1

Hodnoty váhové funkce jsou téměř vždy nezáporné a volí se zpravidla tak, aby se omezil nebo potlačil vliv odlehlých nebo extrémních pozorování na odhadovanou hodnotu. V praxi se pro krajní pořádkové statistiky používají menší hodnoty vah než pro pořádkové statistiky ležící uprostřed uspořádané množiny dat. Mezi hlavní výhody L-odhadů podle [2] patří jednoduchost výpočtu a rozumná interpretovatelnost výsledných odhadů. Vhodnou volbou váhové funkce (2) ve statistice (1) lze konstruovat odhadové funkce, které se vyznačují různou robustností vůči odlehlým pozorováním. K typickým zástupcům odhadové funkce ve tvaru (1) patří zejména aritmetický průměr, medián, useknutý průměr, winsorizovaný průměr a nově navržené míry polohy - useknutý L-průměr[4] a tanh průměr[5]. Systémy vah u vybraných funkcí odhadu polohy jsou znázorněny v Grafu 1. 2.3. Aritmetický průměr

Aritmetický průměr je nejrozšířenější statistickou mírou a nejznámější odhadovou funkcí parametru polohy pro mzdová rozdělení. Hodnoty váhové funkce (2) jsou pro všechny vybrané prvky stejné tj. pro všechny wi platí, že 1 w i = = konst . (3) n Dosazením váhové funkce (3) do (1) vzniká odhadová funkce aritmetického průměru ve tvaru

2

n

1 Lˆ A = ⋅ ∑ X (i ) . n i=1

(4)

Aritmetický průměr nepatří k robustním funkcím odhadu, neboť i jeden odlehlý bod v datech může způsobit odhad polohy nekonečně malý nebo nekonečně velký. Hodnota bodu zvratu je rovna 0 %. 2.4. Medián

Výběrový medián náleží do třídy L-odhadů parametru polohy rozdělení (1). Odhadová funkce výběrového mediánu však není založena na všech pořádkových statistikách výběrového souboru, nýbrž pouze na několika vybraných pořádkových statistikách. Tomu odpovídají hodnoty váhové funkce (2), které jsou nenulové pouze pro vybrané pořádkové statistiky tj. pro které platí, že w n+1 = 1, je-li velikost výběrového souboru n liché číslo a (5) 2

wn = wn 2

2

+1

= 0.5 ,

je-li velikost výběrového souboru n sudé číslo.

(6)

Výběrový medián náleží k velmi robustním funkcím odhadu, neboť ani jedno odlehlé nebo extrémní pozorování nemůže ovlivnit medián jako odhad polohy. Nevýhoda výběrového mediánu jako míry polohy spočívá v jeho přílišné robustnosti, neboť se při odhadu neuvažuje velká část vzorku dat. Hodnota bodu zvratu je rovna 50 %. 2.5. Useknutý průměr

Useknutý průměr opět náleží do třídy L-odhadů parametru polohy rozdělení (1) a odpovídá aritmetickému průměru hodnot datového vzorku, z něhož bylo odstraněno p nejvyšších a p nejnižších pozorování. Příslušná odhadová funkce useknutého průměru není lineární kombinací všech pořádkových statistikách výběrového souboru, nýbrž pouze n-2p vybraných pořádkových statistik (n je rozsah výběrového souboru a p je počet odstraněných pozorování). Odpovídající hodnoty váhové funkce (2), které jsou (podobně jako u mediánu) nenulové pouze pro vybrané pořádkové statistiky, jsou  1  pro p+1 ≤ i ≤ n-p w i =  n-2 ⋅ p . (7)  0 jinak Aplikace useknutých průměrů snižuje vliv extrémních datových hodnot na výsledek odhadování polohy. Na rozdíl od mediánu však tato odhadová funkce do míry polohy zahrnuje podstatnou část napozorovaných dat. Hodnota bodu zvratu je rovna p %. 2.6. Winsorizovaný průměr

Winsorizovaný průměr opět náleží do třídy L-odhadů parametru polohy rozdělení (1) a je podobný useknutému průměru. Na rozdíl od useknutého průměru, kdy jsou data na obou koncích rozdělení jednoduše uřezána, winsorizovaný průměr tyto uřezaná data nahrazuje k nim nejbližším pozorováním. Odhadová funkce (2) winsorizovaného průměru odpovídá váhové funkci useknutého průměru s výjimkou toho, že každé odřezané pozorování je

3

nahrazeno nejbližším neodřezaným. Odpovídající hodnoty váhové funkce, které jsou (stejně jako u useknutého průměru) nenulové pouze pro vybrané pořádkové statistiky, jsou  pro i ≤ p nebo i ≥ n- ( p-1) 0  p+1 (8) wi =  i = p + 1 nebo i = n - p .  1n  pro p+2 ≤ i ≤ n- ( p+1) n Použití winsorizovaných průměrů snižuje ztrátu informace v důsledku zanedbání odlehlých datových hodnot na výsledek odhadu nahrazením odstraněných pozorování. Stejně jako useknutý průměr tato odhadová funkce do míry polohy zahrnuje podstatnou část napozorovaných dat. Stupeň useknutí se volí na základě tvaru rozdělení. Hodnota bodu zvratu je rovna p %. 2.7. Useknutý L-průměr

Zobecněním L-momentů [3] byly v [4] navrženy useknuté L-momenty. Useknuté Lmomenty mohou být odhadnuty z výběrového souboru jako lineární kombinace pořádkových statistik ve tvaru  i-1 ⋅ n-i p  p i!  pro p+1 ≤ i ≤ n-p , kde i . (9) wi =  = n p p! ⋅ ( i-p )!  2 ⋅ p+1  0 jinak

( )( ) ( )

()

Stejně jako v případě useknutých průměrů zanedbáním konců mzdového rozdělení se snižuje vliv extrémních a odlehlých pozorování na výsledný odhad polohy rozdělení. Hlavním rozdílem odlišujícím funkci odhadu useknutého průměru (7) od funkce odhadu useknutého Lprůměru (9) je skutečnost, že useknutý L-průměr využívá nerovnoměrný systém vah s nejvyššími vahami pro pozorování blízko mediánu. Hodnota bodu zvratu je rovna p %. 2.8. Tanh průměr

Nově navrženou[5] mírou pro odhad polohy rozdělení je tanh (tangens hyperbolický) průměr. Váhový systém je počítán s využitím funkce tangens hyperbolický následujícím způsobem n n+1  tanh k ⋅ i s pro i ≤ , resp. i ≤ , je-li n sudé, resp. liché [ ]  2 2 wi =  (10) n n+1  -tanh  k ⋅ ( i - n - 1)  - s pro i > , resp. i > , je-li n sudé, resp. liché  2 2

kde k je faktor řídící sklon váhové funkce pro extrémní a odlehlá pozorování a s determinuje vertikální zdvih. Oba parametry váhového systému – faktor sklonu k a faktor vertikálního posuvu s jsou zpravidla optimalizovány [5] k dosažení nejlepší možné hodnoty vybraného měřitelného ukazatele u zjišťovaných veličin, např. minimalizace vychýlení odhadovaného parametru nebo minimalizace jeho rozptylu. Po dosazení váhového systému (10) do funkce L-odhadu (1) získáme funkci odhadu polohy rozdělení ve tvaru tanh (tangens hyperbolický) průměr. Tanh průměr je počítán s využitím funkce tangens hyperbolický následujícím způsobem

4

n n+1 , resp. 2 2

Lˆ TH =

∑

n

X( i ) ⋅  tanh ( k ⋅ i ) - s 

i=1 n n+1 , resp. 2 2

∑ i=1

 tanh ( k ⋅ i ) - s 

∑

+

n n+1 i= +1, resp. +1 2 2 n

∑

{

}

X( i ) ⋅ -tanh  k ⋅ ( i - n - 1)  - s

{-tanh k ⋅ ( i - n - 1) - s}

. (11)

n n+1 +1 i= +1, resp. 2 2

Podobně jako u useknutého L-průměru se jedná o symetrický váhový systém, kdy je nejvyšších vah dosahováno v oblasti prostředních pozorování. Míru robustnosti lze nastavovat parametry sklonu a vertikálního posunu. Limitní hodnota bodu zvratu je rovna 0 %. 3. Výsledky praktického experimentu odhadování polohy rozdělení mezd 3.1. Popis základního souboru

Základní soubor vybraný k provedení praktického odhadování polohy mzdového rozdělení obsahuje reálné hodnoty zaměstnaneckých výdělků. Jedná se o soubor velmi nesymetrický vyznačující se „těžkým“ koncem v oblasti vyšších výdělků. Toto je způsobeno početně nevelkou skupinou vysokopříjmových zaměstnanců, která však má velký vliv na tvar celého rozdělení mezd a jeho základní charakteristiky. Vykazovaný vysoký koeficient špičatosti mzdového rozdělení je důsledkem nesymetrie rozdělení mezd, protože více než 60 % napozorovaných výdělků má hodnotu menší, než je průměrná hrubá měsíční mzda. Nejdůležitější charakteristiky základního souboru jsou uvedeny v příloze (viz Tabulka 1 Charakteristiky základního souboru). Empirické rozdělení relativních četností hrubých měsíčních mezd je znázorněno v příloze (viz Graf 2 Empirické rozdělení relativní četnosti měsíčních mezd v základním souboru). 3.2. Experimentální odhadování polohy mzdového rozdělení

Pro experimentální odhadování polohy mzdového rozdělení byly vybrány odhadové funkce s váhovými systémy, o kterých bylo pojednáno v kap. 2. Vybrané funkce odhadu polohy rozdělení mezd. V prováděných výběrech byla zjišťovány výběrová rozdělení charakteristik, které se využívají k odhadu polohy rozdělení. Jedná se tedy o aritmetický průměr a průměry vážené výše uvedenými váhovými systémy, včetně výběrového mediánu. Ke srovnání vlivu velikosti výběru (tzv. „malé“ – do 30 hodnot a „velké“- při 30 a více vybíraných hodnotách), byly velikosti výběrových souborů stanoveny na 10 a 50. Velikost výběrového souboru pro „velké“ výběry tj. 50 vybíraných prvků byla zvolena z ohledem na překonání vlivu velmi nesymetrického základního rozdělení výdělků. Při praktickém odhadování polohy mzdového rozdělení bylo provedeno 5 000 náhodných výběrů. Robustnost vážených průměrů byla sledována pomocí aplikovaných váhových systémů. Useknutí, resp. winsorizace u useknutých, resp. winsorizovaných odhadových funkcí byla nastavena na podíl 10 % a 25 % relativně vzhledem k celkové velikosti výběrových souborů. Jako estimátor nejodolnější vůči odlehlým, resp. extrémním mzdovým hodnotám se použil výběrový medián. Hlavním zástupcem nerobustních funkcí odhadu polohy s velkou citlivostí na odchylky v datech byl aritmetický průměr s rovnoměrným váhovým systémem. Pro získání názornější představy o váhových systémech aplikovaných u výše uvedených odhadových funkcí je znázorněn jejich průběh v příloze graficky (viz Graf 1 Systémy vah u funkcí odhadu polohy rozdělení). Volba parametrů sklonu a vertikálního posunu u tanh průměru vychází ze [5], přičemž jejich hodnota se experimentálně zvolila tak, aby se snížil vliv 10 %, resp. 25 %

5

krajních hodnot výběrového souboru. V realizaci tohoto experimentu byl vertikální posun tanh průměru nastaven na nulu a jeho robustnost byla řízena parametrem sklonu. Výsledkem každého uskutečněného náhodného výběru je tabulka v příloze (viz Tabulka 2. až Tabulka 5), která obsahuje údaje o počtu provedených výběrů, velikosti výběrových souborů a nejdůležitějších výběrových statistikách za odhady polohy mzdového rozdělení. Tyto výběrové charakteristiky jsou vyčísleny samostatně za příslušnou odhadovou funkci. K doplnění informací o výběrovém rozdělení jednotlivých odhadů jsou v příloze připojeny i grafické průběhy výběrových rozdělení sledovaných odhadů (viz Graf 3, 4, 5 a 6). Vliv změny useknutí na výběrové rozdělení odhadovaného je zaznamenán v Grafu 7 pro výběrové soubory o velikosti 50 pozorování. V Grafu 7 je zachyceno průběh výběrového rozdělení odhadu polohy odhadované pomocí winsorizovaného průměru, kdy míra winsorizace činí 10 % a 25 %. Podobný obsah vyjadřuje Graf 8. Rozdíl spočívá s předchozím grafem spočívá pouze v tom, že jde o odhady z výběrových souborů o velikosti 10 pozorování a odhady polohy mzdového rozdělení jsou založeny na useknutém průměru. Míra useknutí je stejná jako v případě Grafu 7. 4. Vyhodnocení a závěr

Na závěr tohoto příspěvku o odhadech polohy mzdového rozdělení pomocí vybraných robustních odhadových funkcí bude provedeno stručné vyhodnocení. Hodnocení výše popsaných odhadových funkcí bude vycházet z výsledků realizovaného výběrového experimentu. Kriteriem ke vzájemnému porovnání kvality jednotlivých funkcí odhadu je tzv. relativní efektivita. Podle [6] se relativní efektivitou dvou nevychýlených odhadů rozumí poměr jejich rozptylů, tj. var θˆ 1 (12) η= , kde θˆ 1 , θˆ 2 var θˆ 2

( ) ( )

jsou nevychýlené odhady. Poměr (12) vychází [6] z Cramerova-Raova pravidla o nejnižší hranici rozptylu. Vztah (12) vyjadřuje velikost rozptylu jednoho odhadu relativně vzhledem k velikosti rozptylu odhadu druhého. Ke správnému posouzení výběrových rozdělení vzniklých použitím vybraných odhadových funkcí dobře poslouží Tabulka 7 Celkové srovnání odhadů polohy a jejich relativní efektivita vzhledem k funkci odhadu aritmetického průměru (rozptyl aritmetického průměru je referenční hodnotou, tj. rovná se 100) uvedená v příloze příspěvku. V této tabulce jsou soustředěny veškeré údaje pro jednotlivé systémy odhadu polohy mzdového rozdělení. Jak již vyplývá z názvu dotčené tabulky, rozptyly jednotlivých středních hodnot odhadnutých průměrů jsou vztaženy k rozptylu střední hodnoty aritmetického průměru. Jako další pomocné kriterium kvality lze brát do úvahy také variační koeficienty středních hodnot jednotlivých odhadů. Při vzájemném srovnání příslušných odhadových funkcí je třeba mít také na paměti, že se prováděly výběry malé, tj. s výběrovými soubory o 10 pozorováních a výběry velké, kde velikost jednotlivých výběrových souborů dosahovala 50 napozorovaných mzdových hodnot. Ve skupině výběrů s velikostí výběrových souborů 50 prvků na základě kriteria (12) dosáhla nejlepších výsledků funkce odhadu pro tanh průměr. Relativní efektivita tohoto odhadu byla zjištěna na úrovni 57,4 % při uřezání krajních hodnot o 10 % a 52,1 % při uřezání krajních hodnot o 25 %. Podobné výsledky byly zaznamenány u odhadu useknutého průměru. Relativní efektivita uřezaného průměru se dostala na hodnotu 52,2 % při uřezání

6

krajních hodnot o 10% a na 54,4 % při uřezání krajních hodnot o 25 %. Naopak nejhorší výsledek v relativní efektivitě odhadu byl dosažen odhadovou funkcí mediánovou, přičemž tato relativní efektivita se pohybovala v rozmezí 65,7 % až 67,9 % vzhledem k variabilitě aritmetického průměru. Obdobné tendence v hodnocené kvalitě odhadových funkcí se projevily i z hlediska velikosti variačních koeficientů. I na základě tohoto měřítka nejhůře dopadl odhad polohy zjišťovaný mediánovou funkcí odhadu. Nejlépe obstály odhadové funkce useknutého průměru a tangens hyperbolického průměru. Hodnotí-li se skupina výběrů malých, tj., kde velikost výběrových souborů činila toliko 10 pozorování, je třeba si uvědomit, že výběrová rozdělení budou do značné míry ovlivněna vlastnostmi základního rozdělení. Ve srovnání s předchozími výběry se u nich limitní vlastnosti projevují méně. V této skupině výběrů s velikostí výběrových souborů 10 prvků na základě kriteria (12) byly nejlepší výsledky zaznamenány u funkce odhadu pro useknutý L-průměr. Relativní efektivita tohoto odhadu byla zjištěna na úrovni 55,6 % při uřezání krajních hodnot o 10% a 59,5 % při uřezání krajních hodnot o 25 %. Podobné výsledky byly vykázány u odhadu useknutého průměru. Relativní efektivita useknutého průměru se dostala na hodnotu 58,1 % při uřezání krajních hodnot o 10% a na 58,5 % při uřezání krajních hodnot o 25 %. Naopak nejhorší výsledek v relativní efektivitě odhadu byl dosažen odhadovou funkcí tangens hyperbolického průměru, přičemž tato relativní efektivita se pohybovala ve výši 71,9 % při 10 % uřezání krajních hodnot a 63,9 % při 25 % uřezání krajních hodnot. Nízkou relativní efektivitu vykázal mediánový odhad, a to až 67,7 % vzhledem k variabilitě aritmetického průměru. Velikosti variačních koeficientů v hodnocené kvalitě odhadových funkcí zaujaly podobné poměry. I na základě tohoto měřítka nejhůře dopadly odhady polohy zjišťované mediánovou funkcí odhadu a tangens hyperbolického průměru. Nejlépe obstály odhadové funkce useknutého průměru a useknutého L-průměru. V uskutečněných experimentálních výběrech byly zjištěny následující skutečnosti. V případě malých výběrů jsou nejvhodnějšími funkcemi odhadu polohy rozdělení funkce useknutého průměru a useknutého L-průměru, a to i v případě mzdového rozdělení s vysokou špičatostí a „těžkým“ koncem. V případě realizace velkých výběrů se jeví nejvhodnějšími odhadovými funkcemi hyperbolický průměr a useknutý průměr. Mediánová funkce odhadu byla vyhodnocena jako relativně nejméně efektivní, což bylo potvrzeno i nejvyššími hodnotami variačních koeficientů odhadů výběrových mediánů. Rozdělení mezd je zcela reálně vykazováno jako nesymetrické, silně špičaté, protože v něm převažují mzdy podprůměrné. Šikmost mzdového rozdělení je zvyšována i přítomností malé skupiny výdělků, u kterých jsou zjišťovány extrémní hodnoty (jedná se o mzdy manažerů a špičkových zaměstnanců). Za takových podmínek není určení polohy mzdového rozdělení jednoduchým úkolem. Velmi také záleží na vhodné volbě odhadové funkce. Na základě zjištění, které byly získány při tvorbě tohoto příspěvku se jako nejvhodnější funkcí odhadu polohy jeví tangens hyperbolický průměr a useknuté průměry u velkých výběrů a useknutý L-průměr u výběrů malých. Odhadování průměrů neváženým aritmetickým průměrem není vzhledem k vysoké variabilitě a tvaru mzdového rozdělení vhodným řešením. Naopak ani použití mediánu jako nejrobustnější funkce odhadu polohy neposkytuje dobré odhady. Přílišná robustnost mediánu způsobuje příliš velké useknutí mzdových hodnot ve výběru, při současné vysoké variabilitě odhadů. Tyto vlastnosti mediánového průměru se byly vykázány nejen vysokými hodnotami rozptylu, ale i variačního koeficientu. Pro zvýšení kvality odhadů je možné použít např. useknuté průměry s nesymetrickým useknutím, odhadové funkce s adaptivní robustností a tak podobně.

7

5. Literatura

[1] HAMPEL, F.-R. - RONCHETTI, E. M. - ROUSSEEUW, P. J. - STAHEL, W.: Robastnost v statistike: Podchod na osnove funkcii vlijanija. Moskva, Mir 1989. ISBN 503-001003-3 [2] BARTOŠOVÁ, J.: Robustní metody odhadů. In: Vědecký seminář doktorandů FIS , únor 2003. ISBN 80-245-0518-5 [3] HOSKING J. L-moments: Analysis and estimation of distributions using linear combinations of order statistics. Journal of Royal Statistical Society B52, 105 -124, 1990. [4] ELAMIR, E. – SEHEULT A. - H: Trimmed L-moments. In: Computational Statistics & Data Analysis 43, 299 – 314, 2003 [5] LEONOVICZ, Z. - KARVANEN, J. - SHISHKIN, S. - L.: Trimmed estimators for robust averaging of event-related potentials. Journal of Neuroscience Methods, Volume 142, Issue 1, pages 17-26, 2005 [6] LEBANON, G.: Relative Effciency, Efficiency, and the Fisher Information. Purdue University. Dept of Statistics, 2006. www.stat.purdue.edu/~lebanon/notes /efficiency.pdf

Summary The Wage Distribution Location Estimating with the Assistance of Some Choosen Robust Estimating Functions

The article points out some estimates of sample chracteristics. It refers to the fact that the good location estimates may do only with the good estimating fuctions. This article deals with some choosen location estimation function with or without a certain robustness. There are illustrated robust characteristics of several commonly used L-estimates. It describes some types of symmetrical estimators, namely – arithmetic mean, median, α-trimmed mean, αwinsored mean, α-trimmed L-mean and tanh mean. This article was written for wage distribution location estimating. Every reviewed estimator was subjugated some theoretical analysis and it was determined a breakdown point for each reviwed robust estimator. Finally it was accomplished a sample experiment, which offered some practical comparing estimator´s performances. This random sampling went off with for 5 000 times on samples of the lenght 10 and/or 50. The α-trimming for trimmed means reached the trim level 10 % and/or 25 %. Adjusted results of this random sampling finger on the using a too robustless location estimator (arithmetic mean) or too robustness location estimator (median). An optimal loaction estimator is a fuction with some weight system, which a shape of own curve correspond the wage distribution shape. It may be some trimmed mean with non-sysmmetrical trimming, some estimating function with a sofisticated weighted systém (e. g. with a shape has the normal curve form) a may be some adaptive robust estimator. The estimator´s quality was compared with a relative efficiency criterion. The best of the analysed group of estimators as resulting from the practical random sample experiment was won the α-trimmed mean and the tanh mean in the large-sample case and the α-trimmed mean and the α-trimmed L-mean.

8

6. Příloha

Základní statistika

Hrubá měsíční mzda 321 277 8 311 17 084 912 4 133 0,497 6,421 119,224 185 479 2 076 4 879 5 963 7 500 9 691 12 314 187 555

Počet pozorování Průměr Rozptyl Směrodatná odchylka Variační koeficient Koeficient šikmosti Koeficient špičatosti Rozpětí Minimální hodnota 1. decil 1. kvartil medián 3. kvartil 9. decil Maximální hodnota

Tabulka 1.

Charakteristiky základního souboru

Počet provedených výběrů

5 000

Velikost výběrového souboru Funkce odhadu polohy

50 Aritmetický průměr

Medián

Useknutý průměr 10%

Winsorizovaný průměr 10%

Useknutý Lprůměr 10%

Tanh průměr 10%

Průměr

8 325

7 536

7 834

7 976

7 611

7 982

Rozptyl

343 590

233 240

179 378

191 377

191 945

197 316

586

483

424

437

438

444

Směrodatná odchylka Variační koeficient

0,070

0,064

0,054

0,055

0,058

0,056

Koeficient šikmosti

0,911

0,292

0,176

0,209

0,191

0,255

Koeficient špičatosti

5,178

3,087

3,032

3,025

2,989

3,112

Rozpětí

5 558

3 503

3 142

3 139

3 097

3 206

Minimální hodnota

6 776

6 069

6 590

6 641

6 327

6 673

1. decil

7 656

6 924

7 290

7 422

7 058

7 428

1. kvartil

7 922

7 197

7 547

7 681

7 304

7 678

medián

8 256

7 517

7 822

7 956

7 601

7 959

3. kvartil

8 643

7 851

8 111

8 257

7 901

8 269

9. decil

9 068

8 161

8 382

8 549

8 179

8 565

12 334

9 572

9 732

9 780

9 424

9 879

Maximální hodnota

Tabulka 2.

Odhady polohy (5 000 výběrů, velikost výběrových souborů 50)

9


5 000



Medián




Tanh průměr 10%

Průměr

8 292

7 595

7 882

7 971

7 796

8 084

Rozptyl

1 613 640

1 015 839

936 827

1 026 126

896 805

1 160 032

1 270

1 008

968

1 013

947

1 077


0,153

0,133

0,123

0,127

0,121

0,133


2,013

0,512

0,598

0,893

0,479

1,068


18,968

3,430

4,142

6,674

3,446

8,006

Rozpětí

23 256

7 327

9 306

12 958

7 275

15 347

5 133

4 775

5 083

5 095

5 076

5 108

Minimální hodnota 1. decil

6 927

6 385

6 716

6 768

6 656

6 846

1. kvartil

7 463

6 877

7 202

7 268

7 123

7 347

medián

8 130

7 505

7 817

7 891

7 736

7 987

3. kvartil

8 886

8 224

8 474

8 571

8 389

8 693

9. decil

9 786

8 947

9 122

9 240

9 042

9 425

28 389

12 101

14 388

18 052

12 351

20 455

Maximální hodnota

Tabulka 3.



5 000



Medián




Tanh průměr 25%

Průměr

8 319

7 530

7 643

7 743

7 552

7 810

Rozptyl

346 235

227 314

188 477

189 983

205 444

180 379

Směrodatná odchylka

588

477

434

436

453

425

Variační koeficient

0,071

0,063

0,057

0,056

0,060

0,054


0,897

0,386

0,293

0,250

0,360

0,177


5,335

3,335

3,179

3,118

3,289

2,989

Rozpětí

6 487

3 479

3 192

3 405

3 262

2 898

Minimální hodnota

6 429

6 100

6 230

6 201

6 107

6 538

1. decil

7 628

6 954

7 095

7 190

6 997

7 279

1. kvartil

7 921

7 191

7 344

7 440

7 232

7 509

medián

8 255

7 501

7 627

7 732

7 527

7 806

3. kvartil

8 646

7 824

7 918

8 024

7 837

8 085

9. decil Maximální hodnota

Tabulka 4.

9 053

8 150

8 208

8 304

8 143

8 363

12 916

9 579

9 422

9 606

9 369

9 436


10


5 000



Medián




Tanh průměr 25%

Průměr

8 294

7 618

7 747

7 811

7 702

7 950

Rozptyl

1 597 715

1 080 906

935 195

957 391

950 485

1 021 141

Směrodatná odchylka

1 264

1 040

967

978

975

1 011


0,152

0,136

0,125

0,125

0,127

0,127


1,729

0,585

0,555

0,562

0,560

0,697


11,647

4,022

4,170

4,226

4,115

4,617

Rozpětí

17 697

9 706

9 728

9 848

9 731

9 533

Minimální hodnota

5 282

4 492

5 067

5 184

4 880

5 119

1. decil

6 941

6 370

6 577

6 636

6 530

6 755

1. kvartil

7 487

6 870

7 068

7 126

7 011

7 257

medián

8 122

7 525

7 690

7 746

7 635

7 862

3. kvartil

8 911

8 257

8 336

8 398

8 296

8 539

9. decil Maximální hodnota

Tabulka 5.

9 758

8 993

9 016

9 093

8 991

9 248

22 979

14 198

14 795

15 032

14 611

14 651



5 000


50 Useknutý průměr 10%






Průměr

7 882

7 643

7 976

7 743

7 611

7 552

Rozptyl

936 827

188 477

191 377

189 983

191 945

205 444

968

434

437

436

438

453


0,123

0,057

0,055

0,056

0,058

0,060


0,598

0,293

0,209

0,250

0,191

0,360


4,142

3,179

3,025

3,118

2,989

3,289

Rozpětí

9 306

3 192

3 139

3 405

3 097

3 262

Minimální hodnota

5 083

6 230

6 641

6 201

6 327

6 107

1. decil

6 716

7 095

7 422

7 190

7 058

6 997

1. kvartil

7 202

7 344

7 681

7 440

7 304

7 232

medián

7 817

7 627

7 956

7 732

7 601

7 527

3. kvartil

8 474

7 918

8 257

8 024

7 901

7 837

9. decil

9 122

8 208

8 549

8 304

8 179

8 143

14 388

9 422

9 780

9 606

9 424

9 369

Maximální hodnota

Tabulka 6.

Srovnání odhadů polohy (5 000 výběrů, velikost výběrových souborů 50)

11

Aritmetický průměr Velikost výběrového souboru Useknutí (winsorizace) v % Průměr Rozptyl

10

Useknutý průměr

Medián 10

10

Winsorizovaný průměr 10

Useknutý L-průměr 10

Tanh průměr 10

0

50

10

10

10

10

8 292

7 595

7 882

7 971

7 796

8 084

1 613 640 1 015 839

936 827

1 026 126

896 805

1 160 032


0,153

0,133

0,123

0,127

0,121

0,133

Relativní efektivita odhadu

100,0

63,0

58,1

63,6

55,6

71,9

Velikost výběrového souboru Useknutí (winsorizace) v %

50

50

50

50

50

50

0

50

10

10

10

10

Průměr

8 325

7 536

7 834

7 976

7 611

7 982

Rozptyl

343 590

233 240

179 378

191 377

191 945

197 316


0,070

0,064

0,054

0,055

0,058

0,056


100,0

67,9

52,2

55,7

55,9

57,4

10

10

10

10

10

10

0

50

25

25

25

25

8 294

7 618

7 747

7 811

7 702

7 950

1 597 715 1 080 906

935 195

957 391

950 485

1 021 141

Velikost výběrového souboru Useknutí (winsorizace) v % Průměr Rozptyl Variační koeficient

0,152

0,136

0,125

0,125

0,127

0,127


100,0

67,7

58,5

59,9

59,5

63,9

50

50

50

50

50

50

Velikost výběrového souboru Useknutí (winsorizace) v %

0

50

25

25

25

25

Průměr

8 319

7 530

7 643

7 743

7 552

7 810

Rozptyl

346 235

227 314

188 477

189 983

205 444

180 379


0,071

0,063

0,057

0,056

0,060

0,054


100,0

65,7

54,4

54,9

59,3

52,1

Tabulka 7.

Celkové srovnání odhadů polohy a jejich relativní efektivita vzhledem k funkci odhadu aritmetického průměru (rozptyl aritmetického průměru = 100)

12

Váha

Systém vah u funkcí odhadu polohy rozdělení

0,50

Aritmetický průměr Medián Useknutý průměr

0,40

Winsorizovaný průměr Useknutý L-průměr Tanh průměr

0,30

0,20

0,10

0,00 0

5

10

15

20

25

30

35

40

45

50

Graf 1 Systémy vah u funkcí odhadu polohy rozdělení

Relativní četnost

0,30

Rozdělení relativní četnosti mezd v základním souboru 0,25

0,20

0,15

0,10

0,05 Hrubá měsíční mzda [Kč/měs] 0,00 0

20 000

40 000

60 000

80 000

100 000

120 000

140 000

160 000

180 000

Graf 2 Empirické rozdělení relativní četnosti měsíčních mezd v základním souboru

13

200 000

0,050 0,045

Relativní četnost

0,055

Rozdělení relativních četností hrubé měsíční mzdy (5 000 výběrů o velikosti n = 50)

Aritmetický průměr Medián

0,040

Useknutý průměr 25 % Winsorizovaný průměr 25 %

0,035

Useknutý L-průměr 25 % Tanh průměr 25 %

0,030 0,025 0,020 0,015 0,010 0,005

Mzda [Kč/měs] 0,000 5 000

6 000

7 000

8 000

9 000

10 000

11 000

12 000

13 000

14 000

0,050 0,045 0,040

Relativní četnost

Graf 3 Empirické rozdělení relativní četnosti měsíčních mezd (výběrový soubor 50 vzorků)


Aritmetický průměr Medián

0,035

Useknutý průměr 10 % Winsorizovaný průměr 10 %

0,030

Useknutý L-průměr 10 % Tanh průměr 10 %

0,025 0,020 0,015 0,010 0,005 Mzda [Kč/měs] 0,000 5 000

6 000

7 000

8 000

9 000

10 000

11 000

12 000

13 000


14


Relativní četnost

0,10 0,09 0,08

Aritmetický průměr Medián Useknutý průměr 10 %

0,07

Winsorizovaný průměr 10 % Useknutý L-průměr 10 %

0,06

Tanh průměr

0,05 0,04 0,03 0,02 0,01 Mzda [Kč/měs] 0,00 0

2 500

5 000

7 500

10 000

12 500

15 000

17 500

20 000

22 500

25 000

27 500

30 000


Relativní četnost

0,08

0,07

0,06


Aritmetický průměr Medián Useknutý průměr 25 % Winsorizovaný průměr 25 %

0,05

Useknutý L-průměr 25 % Tanh Průměr 25 %

0,04

0,03

0,02

0,01 Mzda [Kč/měs] 0,00 0

2 500

5 000

7 500

10 000

12 500

15 000

17 500

20 000

22 500

25 000


15

0,035

Relativní četnost

0,040

Rozdělení relativních četností hrubé měsíční mzdy (odhady polohy winsorizovaným průměrem)

0,030

Winsorizovaný průměr 10 % Winsorizovaný průměr 25 %

0,025

0,020

0,015

0,010

0,005

0,000 5 000

Mzda [Kč/měs] 5 500

6 000

6 500

7 000

7 500

8 000

8 500

9 000

9 500

10 000

10 500

0,035

0,030

Relativní četnost

Graf 7 Změny v rozdělení relativní četnosti měsíčních mezd při změně useknutí (50 vzorků)

Rozdělení relativních četností hrubé měsíční mzdy (odhady polohy useknutým průměrem)

Useknutý průměr 10 % Useknutý průměr 25 %

0,025

0,020

0,015

0,010

0,005 Mzda [Kč/měs] 0,000 5 000

5 500

6 000

6 500

7 000

7 500

8 000

8 500

9 000

9 500

10 000

10 500

Graf 8 Změny v rozdělení relativní četnosti měsíčních mezd při změně useknutí (10 vzorků)

16

Odhady polohy mzdového rozdělení pomocí vybraných robustních odhadových funkcí

Recommend Documents