Odhady polohy mzdového rozdělení pomocí vybraných robustních odhadových funkcí 1. Úvod Odhady polohy rozdělení náhodné proměnné patří k základním statistickým otázkám. Aritmetický průměr v mnoha případech není zcela vhodnou volbou k odhadu polohy, protože není příliš odolný vůči působení odlehlých pozorování náhodné proměnné. Pro správné řešení tohoto problému za podmínek nesplnění předpokladu normality rozdělení náhodné proměnné je výhodné použití tzv. robustních estimátorů polohy. Mzdy a jejich rozdělení představují důležitý ekonomický fenomén, který se bezprostředně dotýká veškerého ekonomicky aktivního obyvatelstva. Proto je správné stanovení polohy mzdového rozdělení velmi důležitý statistický a zároveň i citlivý společenský problém. Obecná úroveň mzdy je častým argumentem různých ekonomických komentářů, které vysvětlují příjmy domácností resp. zaměstnanecké populace. Na průměrnou mzdu se často obracíme v diskusích o příjmech a životní úrovni obyvatelstva. Srovnáváme také její velikost mezi jednotlivými státy. Od obecné mzdové hladiny odvozujeme rovněž průměrné náklady práce a další důležité ekonomické veličiny, jako je např. životní minimum, minimální mzda apod. Jaké jsou zdroje informací o mzdách zaměstnanců ? Ke zkoumání mzdové úrovně jsou k dispozici údaje pocházející z Českého statistického úřadu – jde o tzv. statistické výkaznictví a šetření diferenciace mezd zaměstnanců – a z Informačního systému o průměrném výdělku (dále ISPV) jako rezortního zjišťování pod gescí MPSV. Uvedeným zdrojům také odpovídá různé pojetí obecné mzdové úrovně. Zatímco ve statistickém výkaznictví se jako obecná úroveň mzdy považuje mzda počítaná jako aritmetický průměr, v šetření diferenciace mezd zaměstnanců a v rezortním zjišťování MPSV, (tj. ISPV) je uznávána jako reprezentativní úroveň mzda mediánová, tedy mzda prostřední. V článku je provedeno posouzení vybraných odhadových funkcí, které se používají k odhadu polohy rozdělení. Jedná se o funkce odhadu více či méně odolné (robustní) vůči extrémním, resp. odlehlým hodnotám. Hlavním kriteriem pro výběr funkcí odhadu byla jejich praktická použitelnost a rozumná interpretovatelnost. Do příspěvku byl tedy vybrán výběrový medián jako nejrobustnější funkce odhadu mzdového rozdělení, aritmetický průměr jako funkce nejméně odolná vůči odlehlým hodnotám a různé varianty funkcí odhadu mezi uvedenými extrémními případy. Pro posuzované funkce odhadu však obecně platí, že se jedná o lineární formy s koeficienty představujícími systém vah. Při odhadování polohy rozdělení mezd se jako váhové systémy nejčastěji uplatňují pouze takové systémy, které potlačují význam krajních hodnot mezd (zejména nejvyšších). Proto systémy vah, které jsou rozebírány v tomto příspěvku, buď zcela nebo částečně omezují vliv krajních pozorování a relativně zvyšují význam skupiny střední příjmové skupiny. Uvedený teoretický rozbor je náplní kapitoly 2. V kapitole 3 jsou zaznamenány výsledky experimentálních odhadů polohy reálného mzdového rozdělení za použití výše uvedených odhadových funkcí. Jedná se o rozdělení nesymetrické, kde skupina mezd vysokopříjmových zaměstnanců způsobuje vysokou variabilitu výsledné průměrné mzdy. Pro účely tohoto příspěvky byly použity údaje o mzdách z Informačního systému o průměrném výdělku.
1
2. Vybrané funkce odhadu polohy rozdělení mezd 2.1. Problém robustnosti odhadu polohy rozdělení
Problém citlivosti odhadové funkce na přítomnost odlehlých, resp. extrémních hodnot, tj. „datových bodů, které se odchylují od rozložení hlavní části datové množiny“ [1], vedl k zavedení robustních měr polohy. Robustnost funkce odhadu je měřena jako hodnota bodu zvratu odhadu. Bod zvratu odhadu [2] informuje o tom, jak velký podíl pozorování v souboru lze libovolně zaměnit, aniž by došlo k úplnému selhání odhadu. Například aritmetický průměr má hodnotu bodu zvratu asymptoticky rovnou 0 %, zatímco medián jako odhad polohy je velmi robustní s hodnotou bodu zvratu odpovídající 50 % [1]. 2.2. Robustní míry odhadu polohy
Podle [1] se odhady parametrů polohy rozdělení obecně dělí do několika rozdílných tříd odhadů, a to na třídu maximálně věrohodných odhadů, tzv. M-odhady, na třídu R-odhadů, které jsou založeny na odhadech z pořadových testů, a na třídu L-odhadů, které představují lineární funkce pořádkových statistik. V oblasti mzdových rozdělení jsou nejpoužívanějšími odhadovými funkcemi jsou lineární kombinace pořádkových statistik, tedy třída L-odhadů. Podle [2] se L-odhady parametru rozdělení se nazývá libovolná statistika ve tvaru n
Lˆ n =∑ w i ⋅ X ( i ) ,
(1)
i=1
kde X(1) ≤ X(2) ≤…≤ X(n) jsou pořádkové statistiky odpovídající náhodnému výběru X1, …, Xn a wi, i = 1, 2, …, n; je funkce vah, pro kterou platí: n
∑w
i
= 1.
(2)
i=1
Hodnoty váhové funkce jsou téměř vždy nezáporné a volí se zpravidla tak, aby se omezil nebo potlačil vliv odlehlých nebo extrémních pozorování na odhadovanou hodnotu. V praxi se pro krajní pořádkové statistiky používají menší hodnoty vah než pro pořádkové statistiky ležící uprostřed uspořádané množiny dat. Mezi hlavní výhody L-odhadů podle [2] patří jednoduchost výpočtu a rozumná interpretovatelnost výsledných odhadů. Vhodnou volbou váhové funkce (2) ve statistice (1) lze konstruovat odhadové funkce, které se vyznačují různou robustností vůči odlehlým pozorováním. K typickým zástupcům odhadové funkce ve tvaru (1) patří zejména aritmetický průměr, medián, useknutý průměr, winsorizovaný průměr a nově navržené míry polohy - useknutý L-průměr[4] a tanh průměr[5]. Systémy vah u vybraných funkcí odhadu polohy jsou znázorněny v Grafu 1. 2.3. Aritmetický průměr
Aritmetický průměr je nejrozšířenější statistickou mírou a nejznámější odhadovou funkcí parametru polohy pro mzdová rozdělení. Hodnoty váhové funkce (2) jsou pro všechny vybrané prvky stejné tj. pro všechny wi platí, že 1 w i = = konst . (3) n Dosazením váhové funkce (3) do (1) vzniká odhadová funkce aritmetického průměru ve tvaru
2
n
1 Lˆ A = ⋅ ∑ X (i ) . n i=1
(4)
Aritmetický průměr nepatří k robustním funkcím odhadu, neboť i jeden odlehlý bod v datech může způsobit odhad polohy nekonečně malý nebo nekonečně velký. Hodnota bodu zvratu je rovna 0 %. 2.4. Medián
Výběrový medián náleží do třídy L-odhadů parametru polohy rozdělení (1). Odhadová funkce výběrového mediánu však není založena na všech pořádkových statistikách výběrového souboru, nýbrž pouze na několika vybraných pořádkových statistikách. Tomu odpovídají hodnoty váhové funkce (2), které jsou nenulové pouze pro vybrané pořádkové statistiky tj. pro které platí, že w n+1 = 1, je-li velikost výběrového souboru n liché číslo a (5) 2
wn = wn 2
2
+1
= 0.5 ,
je-li velikost výběrového souboru n sudé číslo.
(6)
Výběrový medián náleží k velmi robustním funkcím odhadu, neboť ani jedno odlehlé nebo extrémní pozorování nemůže ovlivnit medián jako odhad polohy. Nevýhoda výběrového mediánu jako míry polohy spočívá v jeho přílišné robustnosti, neboť se při odhadu neuvažuje velká část vzorku dat. Hodnota bodu zvratu je rovna 50 %. 2.5. Useknutý průměr
Useknutý průměr opět náleží do třídy L-odhadů parametru polohy rozdělení (1) a odpovídá aritmetickému průměru hodnot datového vzorku, z něhož bylo odstraněno p nejvyšších a p nejnižších pozorování. Příslušná odhadová funkce useknutého průměru není lineární kombinací všech pořádkových statistikách výběrového souboru, nýbrž pouze n-2p vybraných pořádkových statistik (n je rozsah výběrového souboru a p je počet odstraněných pozorování). Odpovídající hodnoty váhové funkce (2), které jsou (podobně jako u mediánu) nenulové pouze pro vybrané pořádkové statistiky, jsou 1 pro p+1 ≤ i ≤ n-p w i = n-2 ⋅ p . (7) 0 jinak Aplikace useknutých průměrů snižuje vliv extrémních datových hodnot na výsledek odhadování polohy. Na rozdíl od mediánu však tato odhadová funkce do míry polohy zahrnuje podstatnou část napozorovaných dat. Hodnota bodu zvratu je rovna p %. 2.6. Winsorizovaný průměr
Winsorizovaný průměr opět náleží do třídy L-odhadů parametru polohy rozdělení (1) a je podobný useknutému průměru. Na rozdíl od useknutého průměru, kdy jsou data na obou koncích rozdělení jednoduše uřezána, winsorizovaný průměr tyto uřezaná data nahrazuje k nim nejbližším pozorováním. Odhadová funkce (2) winsorizovaného průměru odpovídá váhové funkci useknutého průměru s výjimkou toho, že každé odřezané pozorování je
3
nahrazeno nejbližším neodřezaným. Odpovídající hodnoty váhové funkce, které jsou (stejně jako u useknutého průměru) nenulové pouze pro vybrané pořádkové statistiky, jsou pro i ≤ p nebo i ≥ n- ( p-1) 0 p+1 (8) wi = i = p + 1 nebo i = n - p . 1n pro p+2 ≤ i ≤ n- ( p+1) n Použití winsorizovaných průměrů snižuje ztrátu informace v důsledku zanedbání odlehlých datových hodnot na výsledek odhadu nahrazením odstraněných pozorování. Stejně jako useknutý průměr tato odhadová funkce do míry polohy zahrnuje podstatnou část napozorovaných dat. Stupeň useknutí se volí na základě tvaru rozdělení. Hodnota bodu zvratu je rovna p %. 2.7. Useknutý L-průměr
Zobecněním L-momentů [3] byly v [4] navrženy useknuté L-momenty. Useknuté Lmomenty mohou být odhadnuty z výběrového souboru jako lineární kombinace pořádkových statistik ve tvaru i-1 ⋅ n-i p p i! pro p+1 ≤ i ≤ n-p , kde i . (9) wi = = n p p! ⋅ ( i-p )! 2 ⋅ p+1 0 jinak
( )( ) ( )
()
Stejně jako v případě useknutých průměrů zanedbáním konců mzdového rozdělení se snižuje vliv extrémních a odlehlých pozorování na výsledný odhad polohy rozdělení. Hlavním rozdílem odlišujícím funkci odhadu useknutého průměru (7) od funkce odhadu useknutého Lprůměru (9) je skutečnost, že useknutý L-průměr využívá nerovnoměrný systém vah s nejvyššími vahami pro pozorování blízko mediánu. Hodnota bodu zvratu je rovna p %. 2.8. Tanh průměr
Nově navrženou[5] mírou pro odhad polohy rozdělení je tanh (tangens hyperbolický) průměr. Váhový systém je počítán s využitím funkce tangens hyperbolický následujícím způsobem n n+1 tanh k ⋅ i s pro i ≤ , resp. i ≤ , je-li n sudé, resp. liché [ ] 2 2 wi = (10) n n+1 -tanh k ⋅ ( i - n - 1) - s pro i > , resp. i > , je-li n sudé, resp. liché 2 2
kde k je faktor řídící sklon váhové funkce pro extrémní a odlehlá pozorování a s determinuje vertikální zdvih. Oba parametry váhového systému – faktor sklonu k a faktor vertikálního posuvu s jsou zpravidla optimalizovány [5] k dosažení nejlepší možné hodnoty vybraného měřitelného ukazatele u zjišťovaných veličin, např. minimalizace vychýlení odhadovaného parametru nebo minimalizace jeho rozptylu. Po dosazení váhového systému (10) do funkce L-odhadu (1) získáme funkci odhadu polohy rozdělení ve tvaru tanh (tangens hyperbolický) průměr. Tanh průměr je počítán s využitím funkce tangens hyperbolický následujícím způsobem
4
n n+1 , resp. 2 2
Lˆ TH =
∑
n
X( i ) ⋅ tanh ( k ⋅ i ) - s
i=1 n n+1 , resp. 2 2
∑ i=1
tanh ( k ⋅ i ) - s
∑
+
n n+1 i= +1, resp. +1 2 2 n
∑
{
}
X( i ) ⋅ -tanh k ⋅ ( i - n - 1) - s
{-tanh k ⋅ ( i - n - 1) - s}
. (11)
n n+1 +1 i= +1, resp. 2 2
Podobně jako u useknutého L-průměru se jedná o symetrický váhový systém, kdy je nejvyšších vah dosahováno v oblasti prostředních pozorování. Míru robustnosti lze nastavovat parametry sklonu a vertikálního posunu. Limitní hodnota bodu zvratu je rovna 0 %. 3. Výsledky praktického experimentu odhadování polohy rozdělení mezd 3.1. Popis základního souboru
Základní soubor vybraný k provedení praktického odhadování polohy mzdového rozdělení obsahuje reálné hodnoty zaměstnaneckých výdělků. Jedná se o soubor velmi nesymetrický vyznačující se „těžkým“ koncem v oblasti vyšších výdělků. Toto je způsobeno početně nevelkou skupinou vysokopříjmových zaměstnanců, která však má velký vliv na tvar celého rozdělení mezd a jeho základní charakteristiky. Vykazovaný vysoký koeficient špičatosti mzdového rozdělení je důsledkem nesymetrie rozdělení mezd, protože více než 60 % napozorovaných výdělků má hodnotu menší, než je průměrná hrubá měsíční mzda. Nejdůležitější charakteristiky základního souboru jsou uvedeny v příloze (viz Tabulka 1 Charakteristiky základního souboru). Empirické rozdělení relativních četností hrubých měsíčních mezd je znázorněno v příloze (viz Graf 2 Empirické rozdělení relativní četnosti měsíčních mezd v základním souboru). 3.2. Experimentální odhadování polohy mzdového rozdělení
Pro experimentální odhadování polohy mzdového rozdělení byly vybrány odhadové funkce s váhovými systémy, o kterých bylo pojednáno v kap. 2. Vybrané funkce odhadu polohy rozdělení mezd. V prováděných výběrech byla zjišťovány výběrová rozdělení charakteristik, které se využívají k odhadu polohy rozdělení. Jedná se tedy o aritmetický průměr a průměry vážené výše uvedenými váhovými systémy, včetně výběrového mediánu. Ke srovnání vlivu velikosti výběru (tzv. „malé“ – do 30 hodnot a „velké“- při 30 a více vybíraných hodnotách), byly velikosti výběrových souborů stanoveny na 10 a 50. Velikost výběrového souboru pro „velké“ výběry tj. 50 vybíraných prvků byla zvolena z ohledem na překonání vlivu velmi nesymetrického základního rozdělení výdělků. Při praktickém odhadování polohy mzdového rozdělení bylo provedeno 5 000 náhodných výběrů. Robustnost vážených průměrů byla sledována pomocí aplikovaných váhových systémů. Useknutí, resp. winsorizace u useknutých, resp. winsorizovaných odhadových funkcí byla nastavena na podíl 10 % a 25 % relativně vzhledem k celkové velikosti výběrových souborů. Jako estimátor nejodolnější vůči odlehlým, resp. extrémním mzdovým hodnotám se použil výběrový medián. Hlavním zástupcem nerobustních funkcí odhadu polohy s velkou citlivostí na odchylky v datech byl aritmetický průměr s rovnoměrným váhovým systémem. Pro získání názornější představy o váhových systémech aplikovaných u výše uvedených odhadových funkcí je znázorněn jejich průběh v příloze graficky (viz Graf 1 Systémy vah u funkcí odhadu polohy rozdělení). Volba parametrů sklonu a vertikálního posunu u tanh průměru vychází ze [5], přičemž jejich hodnota se experimentálně zvolila tak, aby se snížil vliv 10 %, resp. 25 %
5
krajních hodnot výběrového souboru. V realizaci tohoto experimentu byl vertikální posun tanh průměru nastaven na nulu a jeho robustnost byla řízena parametrem sklonu. Výsledkem každého uskutečněného náhodného výběru je tabulka v příloze (viz Tabulka 2. až Tabulka 5), která obsahuje údaje o počtu provedených výběrů, velikosti výběrových souborů a nejdůležitějších výběrových statistikách za odhady polohy mzdového rozdělení. Tyto výběrové charakteristiky jsou vyčísleny samostatně za příslušnou odhadovou funkci. K doplnění informací o výběrovém rozdělení jednotlivých odhadů jsou v příloze připojeny i grafické průběhy výběrových rozdělení sledovaných odhadů (viz Graf 3, 4, 5 a 6). Vliv změny useknutí na výběrové rozdělení odhadovaného je zaznamenán v Grafu 7 pro výběrové soubory o velikosti 50 pozorování. V Grafu 7 je zachyceno průběh výběrového rozdělení odhadu polohy odhadované pomocí winsorizovaného průměru, kdy míra winsorizace činí 10 % a 25 %. Podobný obsah vyjadřuje Graf 8. Rozdíl spočívá s předchozím grafem spočívá pouze v tom, že jde o odhady z výběrových souborů o velikosti 10 pozorování a odhady polohy mzdového rozdělení jsou založeny na useknutém průměru. Míra useknutí je stejná jako v případě Grafu 7. 4. Vyhodnocení a závěr
Na závěr tohoto příspěvku o odhadech polohy mzdového rozdělení pomocí vybraných robustních odhadových funkcí bude provedeno stručné vyhodnocení. Hodnocení výše popsaných odhadových funkcí bude vycházet z výsledků realizovaného výběrového experimentu. Kriteriem ke vzájemnému porovnání kvality jednotlivých funkcí odhadu je tzv. relativní efektivita. Podle [6] se relativní efektivitou dvou nevychýlených odhadů rozumí poměr jejich rozptylů, tj. var θˆ 1 (12) η= , kde θˆ 1 , θˆ 2 var θˆ 2
( ) ( )
jsou nevychýlené odhady. Poměr (12) vychází [6] z Cramerova-Raova pravidla o nejnižší hranici rozptylu. Vztah (12) vyjadřuje velikost rozptylu jednoho odhadu relativně vzhledem k velikosti rozptylu odhadu druhého. Ke správnému posouzení výběrových rozdělení vzniklých použitím vybraných odhadových funkcí dobře poslouží Tabulka 7 Celkové srovnání odhadů polohy a jejich relativní efektivita vzhledem k funkci odhadu aritmetického průměru (rozptyl aritmetického průměru je referenční hodnotou, tj. rovná se 100) uvedená v příloze příspěvku. V této tabulce jsou soustředěny veškeré údaje pro jednotlivé systémy odhadu polohy mzdového rozdělení. Jak již vyplývá z názvu dotčené tabulky, rozptyly jednotlivých středních hodnot odhadnutých průměrů jsou vztaženy k rozptylu střední hodnoty aritmetického průměru. Jako další pomocné kriterium kvality lze brát do úvahy také variační koeficienty středních hodnot jednotlivých odhadů. Při vzájemném srovnání příslušných odhadových funkcí je třeba mít také na paměti, že se prováděly výběry malé, tj. s výběrovými soubory o 10 pozorováních a výběry velké, kde velikost jednotlivých výběrových souborů dosahovala 50 napozorovaných mzdových hodnot. Ve skupině výběrů s velikostí výběrových souborů 50 prvků na základě kriteria (12) dosáhla nejlepších výsledků funkce odhadu pro tanh průměr. Relativní efektivita tohoto odhadu byla zjištěna na úrovni 57,4 % při uřezání krajních hodnot o 10 % a 52,1 % při uřezání krajních hodnot o 25 %. Podobné výsledky byly zaznamenány u odhadu useknutého průměru. Relativní efektivita uřezaného průměru se dostala na hodnotu 52,2 % při uřezání
6
krajních hodnot o 10% a na 54,4 % při uřezání krajních hodnot o 25 %. Naopak nejhorší výsledek v relativní efektivitě odhadu byl dosažen odhadovou funkcí mediánovou, přičemž tato relativní efektivita se pohybovala v rozmezí 65,7 % až 67,9 % vzhledem k variabilitě aritmetického průměru. Obdobné tendence v hodnocené kvalitě odhadových funkcí se projevily i z hlediska velikosti variačních koeficientů. I na základě tohoto měřítka nejhůře dopadl odhad polohy zjišťovaný mediánovou funkcí odhadu. Nejlépe obstály odhadové funkce useknutého průměru a tangens hyperbolického průměru. Hodnotí-li se skupina výběrů malých, tj., kde velikost výběrových souborů činila toliko 10 pozorování, je třeba si uvědomit, že výběrová rozdělení budou do značné míry ovlivněna vlastnostmi základního rozdělení. Ve srovnání s předchozími výběry se u nich limitní vlastnosti projevují méně. V této skupině výběrů s velikostí výběrových souborů 10 prvků na základě kriteria (12) byly nejlepší výsledky zaznamenány u funkce odhadu pro useknutý L-průměr. Relativní efektivita tohoto odhadu byla zjištěna na úrovni 55,6 % při uřezání krajních hodnot o 10% a 59,5 % při uřezání krajních hodnot o 25 %. Podobné výsledky byly vykázány u odhadu useknutého průměru. Relativní efektivita useknutého průměru se dostala na hodnotu 58,1 % při uřezání krajních hodnot o 10% a na 58,5 % při uřezání krajních hodnot o 25 %. Naopak nejhorší výsledek v relativní efektivitě odhadu byl dosažen odhadovou funkcí tangens hyperbolického průměru, přičemž tato relativní efektivita se pohybovala ve výši 71,9 % při 10 % uřezání krajních hodnot a 63,9 % při 25 % uřezání krajních hodnot. Nízkou relativní efektivitu vykázal mediánový odhad, a to až 67,7 % vzhledem k variabilitě aritmetického průměru. Velikosti variačních koeficientů v hodnocené kvalitě odhadových funkcí zaujaly podobné poměry. I na základě tohoto měřítka nejhůře dopadly odhady polohy zjišťované mediánovou funkcí odhadu a tangens hyperbolického průměru. Nejlépe obstály odhadové funkce useknutého průměru a useknutého L-průměru. V uskutečněných experimentálních výběrech byly zjištěny následující skutečnosti. V případě malých výběrů jsou nejvhodnějšími funkcemi odhadu polohy rozdělení funkce useknutého průměru a useknutého L-průměru, a to i v případě mzdového rozdělení s vysokou špičatostí a „těžkým“ koncem. V případě realizace velkých výběrů se jeví nejvhodnějšími odhadovými funkcemi hyperbolický průměr a useknutý průměr. Mediánová funkce odhadu byla vyhodnocena jako relativně nejméně efektivní, což bylo potvrzeno i nejvyššími hodnotami variačních koeficientů odhadů výběrových mediánů. Rozdělení mezd je zcela reálně vykazováno jako nesymetrické, silně špičaté, protože v něm převažují mzdy podprůměrné. Šikmost mzdového rozdělení je zvyšována i přítomností malé skupiny výdělků, u kterých jsou zjišťovány extrémní hodnoty (jedná se o mzdy manažerů a špičkových zaměstnanců). Za takových podmínek není určení polohy mzdového rozdělení jednoduchým úkolem. Velmi také záleží na vhodné volbě odhadové funkce. Na základě zjištění, které byly získány při tvorbě tohoto příspěvku se jako nejvhodnější funkcí odhadu polohy jeví tangens hyperbolický průměr a useknuté průměry u velkých výběrů a useknutý L-průměr u výběrů malých. Odhadování průměrů neváženým aritmetickým průměrem není vzhledem k vysoké variabilitě a tvaru mzdového rozdělení vhodným řešením. Naopak ani použití mediánu jako nejrobustnější funkce odhadu polohy neposkytuje dobré odhady. Přílišná robustnost mediánu způsobuje příliš velké useknutí mzdových hodnot ve výběru, při současné vysoké variabilitě odhadů. Tyto vlastnosti mediánového průměru se byly vykázány nejen vysokými hodnotami rozptylu, ale i variačního koeficientu. Pro zvýšení kvality odhadů je možné použít např. useknuté průměry s nesymetrickým useknutím, odhadové funkce s adaptivní robustností a tak podobně.
7
5. Literatura
[1] HAMPEL, F.-R. - RONCHETTI, E. M. - ROUSSEEUW, P. J. - STAHEL, W.: Robastnost v statistike: Podchod na osnove funkcii vlijanija. Moskva, Mir 1989. ISBN 503-001003-3 [2] BARTOŠOVÁ, J.: Robustní metody odhadů. In: Vědecký seminář doktorandů FIS , únor 2003. ISBN 80-245-0518-5 [3] HOSKING J. L-moments: Analysis and estimation of distributions using linear combinations of order statistics. Journal of Royal Statistical Society B52, 105 -124, 1990. [4] ELAMIR, E. – SEHEULT A. - H: Trimmed L-moments. In: Computational Statistics & Data Analysis 43, 299 – 314, 2003 [5] LEONOVICZ, Z. - KARVANEN, J. - SHISHKIN, S. - L.: Trimmed estimators for robust averaging of event-related potentials. Journal of Neuroscience Methods, Volume 142, Issue 1, pages 17-26, 2005 [6] LEBANON, G.: Relative Effciency, Efficiency, and the Fisher Information. Purdue University. Dept of Statistics, 2006. www.stat.purdue.edu/~lebanon/notes /efficiency.pdf
Summary The Wage Distribution Location Estimating with the Assistance of Some Choosen Robust Estimating Functions
The article points out some estimates of sample chracteristics. It refers to the fact that the good location estimates may do only with the good estimating fuctions. This article deals with some choosen location estimation function with or without a certain robustness. There are illustrated robust characteristics of several commonly used L-estimates. It describes some types of symmetrical estimators, namely – arithmetic mean, median, α-trimmed mean, αwinsored mean, α-trimmed L-mean and tanh mean. This article was written for wage distribution location estimating. Every reviewed estimator was subjugated some theoretical analysis and it was determined a breakdown point for each reviwed robust estimator. Finally it was accomplished a sample experiment, which offered some practical comparing estimator´s performances. This random sampling went off with for 5 000 times on samples of the lenght 10 and/or 50. The α-trimming for trimmed means reached the trim level 10 % and/or 25 %. Adjusted results of this random sampling finger on the using a too robustless location estimator (arithmetic mean) or too robustness location estimator (median). An optimal loaction estimator is a fuction with some weight system, which a shape of own curve correspond the wage distribution shape. It may be some trimmed mean with non-sysmmetrical trimming, some estimating function with a sofisticated weighted systém (e. g. with a shape has the normal curve form) a may be some adaptive robust estimator. The estimator´s quality was compared with a relative efficiency criterion. The best of the analysed group of estimators as resulting from the practical random sample experiment was won the α-trimmed mean and the tanh mean in the large-sample case and the α-trimmed mean and the α-trimmed L-mean.
8
6. Příloha
Základní statistika
Hrubá měsíční mzda 321 277 8 311 17 084 912 4 133 0,497 6,421 119,224 185 479 2 076 4 879 5 963 7 500 9 691 12 314 187 555
Počet pozorování Průměr Rozptyl Směrodatná odchylka Variační koeficient Koeficient šikmosti Koeficient špičatosti Rozpětí Minimální hodnota 1. decil 1. kvartil medián 3. kvartil 9. decil Maximální hodnota
Tabulka 1.
Charakteristiky základního souboru
Počet provedených výběrů
5 000
Velikost výběrového souboru Funkce odhadu polohy
50 Aritmetický průměr
Medián
Useknutý průměr 10%
Winsorizovaný průměr 10%
Useknutý Lprůměr 10%
Tanh průměr 10%
Průměr
8 325
7 536
7 834
7 976
7 611
7 982
Rozptyl
343 590
233 240
179 378
191 377
191 945
197 316
586
483
424
437
438
444
Směrodatná odchylka Variační koeficient
0,070
0,064
0,054
0,055
0,058
0,056
Koeficient šikmosti
0,911
0,292
0,176
0,209
0,191
0,255
Koeficient špičatosti
5,178
3,087
3,032
3,025
2,989
3,112
Rozpětí
5 558
3 503
3 142
3 139
3 097
3 206
Minimální hodnota
6 776
6 069
6 590
6 641
6 327
6 673
1. decil
7 656
6 924
7 290
7 422
7 058
7 428
1. kvartil
7 922
7 197
7 547
7 681
7 304
7 678
medián
8 256
7 517
7 822
7 956
7 601
7 959
3. kvartil
8 643
7 851
8 111
8 257
7 901
8 269
9. decil
9 068
8 161
8 382
8 549
8 179
8 565
12 334
9 572
9 732
9 780
9 424
9 879
Maximální hodnota
Tabulka 2.
Odhady polohy (5 000 výběrů, velikost výběrových souborů 50)
9
Počet provedených výběrů
5 000
Velikost výběrového souboru Funkce odhadu polohy
10 Aritmetický průměr
Medián
Useknutý průměr 10%
Winsorizovaný průměr 10%
Useknutý Lprůměr 10%
Tanh průměr 10%
Průměr
8 292
7 595
7 882
7 971
7 796
8 084
Rozptyl
1 613 640
1 015 839
936 827
1 026 126
896 805
1 160 032
1 270
1 008
968
1 013
947
1 077
Směrodatná odchylka Variační koeficient
0,153
0,133
0,123
0,127
0,121
0,133
Koeficient šikmosti
2,013
0,512
0,598
0,893
0,479
1,068
Koeficient špičatosti
18,968
3,430
4,142
6,674
3,446
8,006
Rozpětí
23 256
7 327
9 306
12 958
7 275
15 347
5 133
4 775
5 083
5 095
5 076
5 108
Minimální hodnota 1. decil
6 927
6 385
6 716
6 768
6 656
6 846
1. kvartil
7 463
6 877
7 202
7 268
7 123
7 347
medián
8 130
7 505
7 817
7 891
7 736
7 987
3. kvartil
8 886
8 224
8 474
8 571
8 389
8 693
9. decil
9 786
8 947
9 122
9 240
9 042
9 425
28 389
12 101
14 388
18 052
12 351
20 455
Maximální hodnota
Tabulka 3.
Odhady polohy (5 000 výběrů, velikost výběrových souborů 10)
Počet provedených výběrů
5 000
Velikost výběrového souboru Funkce odhadu polohy
50 Aritmetický průměr
Medián
Useknutý průměr 25%
Winsorizovaný průměr 25%
Useknutý Lprůměr 25%
Tanh průměr 25%
Průměr
8 319
7 530
7 643
7 743
7 552
7 810
Rozptyl
346 235
227 314
188 477
189 983
205 444
180 379
Směrodatná odchylka
588
477
434
436
453
425
Variační koeficient
0,071
0,063
0,057
0,056
0,060
0,054
Koeficient šikmosti
0,897
0,386
0,293
0,250
0,360
0,177
Koeficient špičatosti
5,335
3,335
3,179
3,118
3,289
2,989
Rozpětí
6 487
3 479
3 192
3 405
3 262
2 898
Minimální hodnota
6 429
6 100
6 230
6 201
6 107
6 538
1. decil
7 628
6 954
7 095
7 190
6 997
7 279
1. kvartil
7 921
7 191
7 344
7 440
7 232
7 509
medián
8 255
7 501
7 627
7 732
7 527
7 806
3. kvartil
8 646
7 824
7 918
8 024
7 837
8 085
9. decil Maximální hodnota
Tabulka 4.
9 053
8 150
8 208
8 304
8 143
8 363
12 916
9 579
9 422
9 606
9 369
9 436
Odhady polohy (5 000 výběrů, velikost výběrových souborů 50)
10
Počet provedených výběrů
5 000
Velikost výběrového souboru Funkce odhadu polohy
10 Aritmetický průměr
Medián
Useknutý průměr 25%
Winsorizovaný průměr 25%
Useknutý Lprůměr 25%
Tanh průměr 25%
Průměr
8 294
7 618
7 747
7 811
7 702
7 950
Rozptyl
1 597 715
1 080 906
935 195
957 391
950 485
1 021 141
Směrodatná odchylka
1 264
1 040
967
978
975
1 011
Variační koeficient
0,152
0,136
0,125
0,125
0,127
0,127
Koeficient šikmosti
1,729
0,585
0,555
0,562
0,560
0,697
Koeficient špičatosti
11,647
4,022
4,170
4,226
4,115
4,617
Rozpětí
17 697
9 706
9 728
9 848
9 731
9 533
Minimální hodnota
5 282
4 492
5 067
5 184
4 880
5 119
1. decil
6 941
6 370
6 577
6 636
6 530
6 755
1. kvartil
7 487
6 870
7 068
7 126
7 011
7 257
medián
8 122
7 525
7 690
7 746
7 635
7 862
3. kvartil
8 911
8 257
8 336
8 398
8 296
8 539
9. decil Maximální hodnota
Tabulka 5.
9 758
8 993
9 016
9 093
8 991
9 248
22 979
14 198
14 795
15 032
14 611
14 651
Odhady polohy (5 000 výběrů, velikost výběrových souborů 10)
Počet provedených výběrů
5 000
Velikost výběrového souboru Funkce odhadu polohy
50 Useknutý průměr 10%
Useknutý průměr 25%
Winsorizovaný průměr 10%
Winsorizovaný průměr 25%
Useknutý Lprůměr 10%
Useknutý Lprůměr 25%
Průměr
7 882
7 643
7 976
7 743
7 611
7 552
Rozptyl
936 827
188 477
191 377
189 983
191 945
205 444
968
434
437
436
438
453
Směrodatná odchylka Variační koeficient
0,123
0,057
0,055
0,056
0,058
0,060
Koeficient šikmosti
0,598
0,293
0,209
0,250
0,191
0,360
Koeficient špičatosti
4,142
3,179
3,025
3,118
2,989
3,289
Rozpětí
9 306
3 192
3 139
3 405
3 097
3 262
Minimální hodnota
5 083
6 230
6 641
6 201
6 327
6 107
1. decil
6 716
7 095
7 422
7 190
7 058
6 997
1. kvartil
7 202
7 344
7 681
7 440
7 304
7 232
medián
7 817
7 627
7 956
7 732
7 601
7 527
3. kvartil
8 474
7 918
8 257
8 024
7 901
7 837
9. decil
9 122
8 208
8 549
8 304
8 179
8 143
14 388
9 422
9 780
9 606
9 424
9 369
Maximální hodnota
Tabulka 6.
Srovnání odhadů polohy (5 000 výběrů, velikost výběrových souborů 50)
11
Aritmetický průměr Velikost výběrového souboru Useknutí (winsorizace) v % Průměr Rozptyl
10
Useknutý průměr
Medián 10
10
Winsorizovaný průměr 10
Useknutý L-průměr 10
Tanh průměr 10
0
50
10
10
10
10
8 292
7 595
7 882
7 971
7 796
8 084
1 613 640 1 015 839
936 827
1 026 126
896 805
1 160 032
Variační koeficient
0,153
0,133
0,123
0,127
0,121
0,133
Relativní efektivita odhadu
100,0
63,0
58,1
63,6
55,6
71,9
Velikost výběrového souboru Useknutí (winsorizace) v %
50
50
50
50
50
50
0
50
10
10
10
10
Průměr
8 325
7 536
7 834
7 976
7 611
7 982
Rozptyl
343 590
233 240
179 378
191 377
191 945
197 316
Variační koeficient
0,070
0,064
0,054
0,055
0,058
0,056
Relativní efektivita odhadu
100,0
67,9
52,2
55,7
55,9
57,4
10
10
10
10
10
10
0
50
25
25
25
25
8 294
7 618
7 747
7 811
7 702
7 950
1 597 715 1 080 906
935 195
957 391
950 485
1 021 141
Velikost výběrového souboru Useknutí (winsorizace) v % Průměr Rozptyl Variační koeficient
0,152
0,136
0,125
0,125
0,127
0,127
Relativní efektivita odhadu
100,0
67,7
58,5
59,9
59,5
63,9
50
50
50
50
50
50
Velikost výběrového souboru Useknutí (winsorizace) v %
0
50
25
25
25
25
Průměr
8 319
7 530
7 643
7 743
7 552
7 810
Rozptyl
346 235
227 314
188 477
189 983
205 444
180 379
Variační koeficient
0,071
0,063
0,057
0,056
0,060
0,054
Relativní efektivita odhadu
100,0
65,7
54,4
54,9
59,3
52,1
Tabulka 7.
Celkové srovnání odhadů polohy a jejich relativní efektivita vzhledem k funkci odhadu aritmetického průměru (rozptyl aritmetického průměru = 100)
12
Váha
Systém vah u funkcí odhadu polohy rozdělení
0,50
Aritmetický průměr Medián Useknutý průměr
0,40
Winsorizovaný průměr Useknutý L-průměr Tanh průměr
0,30
0,20
0,10
0,00 0
5
10
15
20
25
30
35
40
45
50
Graf 1 Systémy vah u funkcí odhadu polohy rozdělení
Relativní četnost
0,30
Rozdělení relativní četnosti mezd v základním souboru 0,25
0,20
0,15
0,10
0,05 Hrubá měsíční mzda [Kč/měs] 0,00 0
20 000
40 000
60 000
80 000
100 000
120 000
140 000
160 000
180 000
Graf 2 Empirické rozdělení relativní četnosti měsíčních mezd v základním souboru
13
200 000
0,050 0,045
Relativní četnost
0,055
Rozdělení relativních četností hrubé měsíční mzdy (5 000 výběrů o velikosti n = 50)
Aritmetický průměr Medián
0,040
Useknutý průměr 25 % Winsorizovaný průměr 25 %
0,035
Useknutý L-průměr 25 % Tanh průměr 25 %
0,030 0,025 0,020 0,015 0,010 0,005
Mzda [Kč/měs] 0,000 5 000
6 000
7 000
8 000
9 000
10 000
11 000
12 000
13 000
14 000
0,050 0,045 0,040
Relativní četnost
Graf 3 Empirické rozdělení relativní četnosti měsíčních mezd (výběrový soubor 50 vzorků)
Rozdělení relativních četností hrubé měsíční mzdy (5 000 výběrů o velikosti n = 50)
Aritmetický průměr Medián
0,035
Useknutý průměr 10 % Winsorizovaný průměr 10 %
0,030
Useknutý L-průměr 10 % Tanh průměr 10 %
0,025 0,020 0,015 0,010 0,005 Mzda [Kč/měs] 0,000 5 000
6 000
7 000
8 000
9 000
10 000
11 000
12 000
13 000
Graf 4 Empirické rozdělení relativní četnosti měsíčních mezd (výběrový soubor 50 vzorků)
14
Rozdělení relativních četností hrubé měsíční mzdy (5 000 výběrů o velikosti n = 10)
Relativní četnost
0,10 0,09 0,08
Aritmetický průměr Medián Useknutý průměr 10 %
0,07
Winsorizovaný průměr 10 % Useknutý L-průměr 10 %
0,06
Tanh průměr
0,05 0,04 0,03 0,02 0,01 Mzda [Kč/měs] 0,00 0
2 500
5 000
7 500
10 000
12 500
15 000
17 500
20 000
22 500
25 000
27 500
30 000
Graf 5 Empirické rozdělení relativní četnosti měsíčních mezd (výběrový soubor 10 vzorků)
Relativní četnost
0,08
0,07
0,06
Rozdělení relativních četností hrubé měsíční mzdy (5 000 výběrů o velikosti n = 10)
Aritmetický průměr Medián Useknutý průměr 25 % Winsorizovaný průměr 25 %
0,05
Useknutý L-průměr 25 % Tanh Průměr 25 %
0,04
0,03
0,02
0,01 Mzda [Kč/měs] 0,00 0
2 500
5 000
7 500
10 000
12 500
15 000
17 500
20 000
22 500
25 000
Graf 6 Empirické rozdělení relativní četnosti měsíčních mezd (výběrový soubor 10 vzorků)
15
0,035
Relativní četnost
0,040
Rozdělení relativních četností hrubé měsíční mzdy (odhady polohy winsorizovaným průměrem)
0,030
Winsorizovaný průměr 10 % Winsorizovaný průměr 25 %
0,025
0,020
0,015
0,010
0,005
0,000 5 000
Mzda [Kč/měs] 5 500
6 000
6 500
7 000
7 500
8 000
8 500
9 000
9 500
10 000
10 500
0,035
0,030
Relativní četnost
Graf 7 Změny v rozdělení relativní četnosti měsíčních mezd při změně useknutí (50 vzorků)
Rozdělení relativních četností hrubé měsíční mzdy (odhady polohy useknutým průměrem)
Useknutý průměr 10 % Useknutý průměr 25 %
0,025
0,020
0,015
0,010
0,005 Mzda [Kč/měs] 0,000 5 000
5 500
6 000
6 500
7 000
7 500
8 000
8 500
9 000
9 500
10 000
10 500
Graf 8 Změny v rozdělení relativní četnosti měsíčních mezd při změně useknutí (10 vzorků)
16