ROBUST’2004
c JČMF 2004
PŘÍSPĚVEK K ANALÝZE ROZDĚLENÍ PŘÍJMŮ DOMÁCNOSTÍ V ČR Jitka Bartošová Klíčová slova: Příjmové rozdělení, teoretický model, test odlehlosti. Abstrakt: Pro správné ohodnocení příjmové stránky životní úrovně obyvatelstva i pro správné rozhodování ohledně opatření v této oblasti je nezbytné znát úplné rozdělení příjmů daného období, tj. znát obsazení ve všech příjmových skupinách. Vzhledem k probíhající transformaci hospodářství z plánované formy na tržní dochází ke změnám ve složení příjmů obyvatelstva. Aktuálním úkolem současnosti je ověření platnosti dosud používaného statistického modelu rozdělení ročních příjmů domácností v ČR. Tento příspěvek se zabývá ověřováním platnosti dosud používaného statistického modelu rozdělení příjmů domácností získaných z výběrového šetření ČSÚ Mikrocensus 1996.
1
Důvody zkoumání příjmových rozdělení
Modely příjmových rozdělení umožňují zhodnocení životní úrovně všech obyvatel státu bez rozdílu, stejně jako srovnání životní úrovně příslušníků různých společenských skupin nebo obyvatel různých regionů. Jsou rovněž ukazatelem relativní životní úrovně obyvatelstva vybraného státu ve srovnání s dalšími státy. Pro správnou kvantifikaci té složky životní úrovně obyvatelstva, která přímo závisí na příjmech, je potřeba vystihnout úroveň, strukturu a vývojový trend příjmů obyvatelstva komplexně, tj. nalézt vhodné statistické modely příjmových rozdělení pro jednotlivé sociální skupiny i pro obyvatelstvo jako celek, bez ohledu na sociální skupinu.
2 2.1
Statistický model příjmových rozdělení Volba teoretického modelu
Základním úkolem při konstrukci statického modelu rozdělení ročních příjmů domácností je nalezení takové teoretické distribuční funkce, která maximálně odpovídá empirickému rozdělení četností. Dosud používaným statistickým modelem příjmových rozdělení bylo logaritmicko – normální rozdělení se dvěma (popřípadě se třemi parametry) LN (µ, σ 2 ) (popřípadě LN (µ, σ 2 , γ), kde parametr γ je teoretické minimum náhodné veličiny X). Logaritmicko - normální rozdělení (především jeho varianta se třemi parametry) zatím představovalo dobrou aproximaci příjmových rozdělení pro většinu sociálních skupin. Různost zdrojů, ze kterých příjmy pocházejí, a současný proces diferenciace mezd, který probíhá v některých skupinách velmi bouřlivě, může mít za následek jednak nesourodost příjmových rozdělení jednotlivých sociálních skupin a jednak vysokou variabilitu uvnitř těchto skupin. Empirické
452
Jitka Bartošová
rozdělení četností příjmů v některých sociálních skupinách by proto mohlo být lépe vystiženo některým jiným modelem (např. normálním, Weibullovým, nebo Γ-rozdělením atd.). Odchylky empirického rozdělení ročních příjmů domácností od předpokládaného teoretického modelu mohou být zapříčiněny rovněž přítomností odlehlých hodnot, popřípadě heterogenitou dat, odpovídající např. směsi několika navzájem posunutých logaritmicko - normálních křivek, popřípadě směsi logaritmicko - normálního rozdělení s některým jiným rozdělením, např. normálním apod. S tímto problémem se můžeme setkat nejenom u rozdělení příjmů všech obyvatel bez rozdílu sociální skupiny, ale i u rozdělení příjmů v některých jednotlivých sociálních skupinách. Testování shody empirické a teoretické distribuční funkce FE (x) a FT (x) můžeme provádět buď početně, pomocí testovacích statistik, nebo graficky. Často používanou početní metodou pro testování nulové hypotézy o shodě výběrového příjmového rozdělení s předpokládaným teoretickým modelem je 2 Pk i) χ2 -test dobré shody ([1]), který pracuje se statistikou χ2 = i=1 (ni −nπ , nπi kde ni a nπi (πi ) jsou absolutní empirické a absolutní (relativní) teoretické četnosti, k je počet tříd, n je rozsah výběru. Dalšími měrami shody empirického a teoretického rozdělení jsou např. suma čtverců (popřípadě suma absolutních hodnot) odchylek empirického rozdělení od teoretického, reprezentoPk Pk vaná statistikou M SE = i=1 (pi − πi )2 (popřípadě M AE = i=1 |pi − πi |), kde pi = nni a πi jsou relativní četnosti empirického a teoretického rozdělení. Na hodnoty empirické distribuční funkce FE (x), a tedy i na hodnoty uvedené testovací statistiky χ2 , má vliv volba velikosti třídních intervalů h při min . Odhad počtu tříd seskupování dat, která určuje počet tříd k ≈ xmax −x h ˆ podle Sturgessova pravidla, který je dán vztahem k ≈ 1 + 3,3 log10 n, kde n je rozsah výběru, je vhodný pro pouze menší výběry. Pro velké výběry je toto dělení příliš „hrubéÿ. V takovém případě je vhodnější použít k odhadu šířky intervalů h a tedy i k určení počtu tříd k Scottovo pravidlo ([10]), popřípadě robustní Freedmanovo-Diaconisovo pravidlo.
2.2
Identifikace odlehlých hodnot
Problém vzrůstu variability příjmů celkem i uvnitř jednotlivých sociálních skupin je způsoben především vznikem skupin obyvatel s extrémně nízkými popřípadě extrémně vysokými příjmy. Tyto hodnoty příjmů, které můžeme z hlediska zvoleného modelu považovat za odlehlá pozorování, způsobují narušení vybraného teoretického modelu a snižují jeho shodu s empirickým rozdělením četností. Proto v případě, že v příjmech některé sociální skupiny byla detekována odlehlá pozorování, je vhodné omezit vliv těchto hodnot na odhad parametrů modelu buď jejich úplným vyloučením nebo použitím některé z robustních metod odhadu ([2], [8], [4], [5]). Tímto způsobem můžeme v dosáhnout výrazného zvýšení shody teoretického modelu s empirickým rozdělením příjmů u většiny sociálních skupin. Identifikaci odlehlých hodnot lze realizovat opět buď graficky (např. s vy-
Příspěvek k analýze rozdělení příjmů domácností
453
užitím krabicových diagramů) nebo početně (pomocí vhodných testů odlehlosti). Testové metody identifikace odlehlých pozorování jsou propracovány především pro soubory s normálním rozdělením, dále pak pro soubory s exponenciálním a rovnoměrným rozdělením. Pokud je rozdělení souboru jiného typu, lze v mnoha případech vhodnou transformaci docílit toho, aby transformovaná data y = f (x) měla některé z výše uvedených rozdělení. (Např. transformace na normální rozdělení je pro data s logaritmicko - normálním rozdělením dána vztahy y = ln(x), y = ln(x − γ) nebo y = ln x−γ δ−x , kde γ, δ jsou hodnoty teoretického minima a maxima, atd.) Vzhledem k tomu, že předpokládaným statistickým modelem příjmových rozdělení je ve většině případů logaritmicko - normální rozdělení, můžeme po transformaci dat použít některou z metod identifikace odlehlých pozorování založené na předpokladu normality výběru. K nejčastěji používaným inkluzivním testům existence jednoho nebo dvou odlehlých pozorování v datovém souboru s normálním rozdělením patří test založený na modifikovaném studentizovaném reziduu. Např. test odlehlosti x −¯ x maxima x(n) pracuje se statistikou T1 = (n)σˆ1 1 , kde x ¯1 a σ ˆ1 jsou odhady průměru a směrodatné odchylky získané z redukovaného výběru, tj. z výběru, který vznikne vypuštěním hodnoty x(n) , kde x(n) je n-tá pořádková statistika. H q0 zamítáme na hladině významnosti α, pokud je splněna nerovnost n T1 > n−2 · t1− αn (n − 2), kde t1− αn (n − 2) je 100(1 − α n )%-ní kvantil Studen-
tova rozdělení s (n − 2) stupni volnosti. S uvedeným testem úzce souvisí test založený na klasickém studentizovaném reziduu a exkluzivní test Grubbsův. Velmi dobré vlastnosti mají také Dixonovy r-statistiky, které jsou založeny na porovnávání různých vzdáleností mezi pořádkovými statistikami. Potřebné kvantily lze pro uvedené testovací statistiky nalézt např. v [3]. Pro maximalizaci shody empirického rozdělení s teoretickým v případě kontaminovaného modelu je důležitý odhad stupně kontaminace εˆ. Vzhledem k tomu, že rozdělení příjmů je téměř ve všech skupinách asymetrické, lze očekávat, že i kontaminace bude mít asymetrický charakter a hodnoty optimálních useknutí dat α ˆd a α ˆ h , které odpovídají stupni kontaminace zdola εˆd a shora εˆk , budou mít různou velikost. K odhadu stupně kontaminace je nezbytné použít některou z metod detekce většího počtu odlehlých pozorování. K tomuto problému můžeme přistupovat dvěma způsoby. Buď můžeme testovat hypotézu H0 : „Ve výběru neexistují odlehlá pozorováníÿ proti alternativě H1 : „Ve výběru je právě r odlehlých pozorováníÿ - tj. provádět tzv. blokové testy odlehlosti, nebo můžeme testovat hypotézu H0 : „Ve výběru je méně než k odlehlých pozorováníÿ proti alternativě H1 : „Ve výběru je právě k odlehlých pozorováníÿ, kde k nabývá postupně hodnot r, r − 1, r − 2, . . . , 1 a testovací statistiky se určují z příslušných podmnožin výběru – tj. provádět tzv. sekvenční testy odlehlosti. V případě správného určení hodnoty r mají blokové testy optimální vlastnosti. V praxi jsou však častěji používány sekvenční testy, které nevyžadují velkou přesnost při odhadu předpokládaného počtu odlehlých pozorování r.
454
Jitka Bartošová
Mezi nejznámější sekvenční testy patří ESD test, který pracuje s tzv. extrémní studentizovanou odchylkou. Při určování příslušné testovací statistiky vycházíme z posloupnosti podmnožin výběru {A0 , A1 , . . . , Ar−1 }, kde první člen posloupnosti je tvořen celým výběrem, tj. A0 = {x(1) , x(2) , . . . , x(n) }, a každý následující člen posloupnosti je dán rekurzivně vztahem Ai+1 = Ai − {x(Ai )}, kde x(Ai ) je nejvzdálenější prvek od průměru x ¯(Ai ) na množině Ai . To znamená, že pro tuto hodnotu musí platit |x(Ai ) − x ¯(Ai )| = max |xj − x ¯(Ai )|, xj ∈Ai
kde x ¯(Ai ) je průměr na podmnožině Ai , i = 0, 1, . . . , r − 1. Extrémní studentizovaná odchylka na podmnožině Ai , tj. veličina ESDi+1 , je dána vztahem ESDi+1 =
maxxj ∈Ai |xj − x ¯(Ai )| , s(Ai )
kde s(Ai ) je směrodatná odchylka na podmnožině Ai , i = 0, 1, . . . , r − 1. H0 zamítáme na hladině významnosti α, pokud je splněna nerovnost ESDi+1 > Li+1 , kde příslušné kvantily jsou stanovené aproximativně v [9]. Při detekci odlehlých pozorování sekvenční metodou postupujeme iterativně, tzv. „zpětným krokovánímÿ. To znamená, že porovnání vypočtených hodnot provádíme od poslední (nejmenší) vytvořené podmnožiny Ai , i = r. Pokud ESDi+1 > Li+1 , pak i = r, to znamená, že ve výběru bylo identifikováno r odlehlých pozorování. Sekvenční identifikační procesy jsou vhodné pro počítačové zpracování například pomocí softwarových produktů Matlab, Matematika, MS-Excel apod. Další skupinu testů, užívaných k detekci většího počtu odlehlých hodnot, tvoří tzv. jednokrokové procedury. Jedná se o postup, kdy procházíme celým souborem (krok za krokem) a testujeme postupně všechny jeho prvky. K rozhodnutí o odlehlosti přitom používáme některou ze statistik vhodných pro identifikaci jedné odlehlé hodnoty. Pokud je model příjmového rozdělení kontaminován odlehlými pozorováními, projeví se vliv těchto výrazně odlišných hodnot snížením shody empirického rozdělení s předpokládaným teoretickým logaritmicko - normálním modelem. Opětného zvyšování této shody můžeme docílit v tomto případě vhodným useknutím výběrového souboru. Odhady stupňů useknutí dat zdola α ˆd a shora α ˆ h by měly zároveň tvořit horní hranice pro odhadnuté stupně kontaminace εˆd a εˆh , aby byly splněny nerovnosti (αd ≥ εd ) ∧ (αh ≥ εh ). Odhad horní hranice kontaminace příjmových rozdělení může být tedy v jednotlivých sociálních skupinách získán odhadem optimální hodnoty useknutí dat. Takovýto odhad lze realizovat např. prostřednictvím dvojrozměrné numerické maximalizace shody empirického rozdělení ročních příjmů domácností s teoretickým modelem. K určení aktuální useknuté hodnoty může být v iteračním kroku použita výše popsaná metoda identifikace nejvzdálenějšího prvku od průměru. Odhad optimálních hodnot useknutí α ˆd a α ˆh,
Příspěvek k analýze rozdělení příjmů domácností
455
odpovídající maximální dosažitelné shodě empirického a teoretického rozdělení, lze provést např. pomocí numerické minimalizace testovací statistiky 2 P P i) , popřípadě M SE = ki=1 (pi − πi )2 apod. Odhadnuté χ2 = ki=1 (ni −nπ nπi hodnoty optimálních useknutí budou vždy závislé nejenom na konkrétním výběrovém souboru příjmů a na jeho rozdělení do tříd, ale také na volbě teoretického modelu, na počtu parametrů modelu a na metodě použité k jejich odhadu.
3 3.1
Některé dílčí výsledky analýzy příjmových rozdělení Použité metody a dosažené výsledky
Zkoumaný datový soubor příjmů domácností pochází z celostátního statistického šetření Mikrocensus 1996. Obsahuje jednak hodnoty ročních příjmů domácností, počty členů domácností a zařazení domácnosti do sociální skupiny podle typu zaměstnání osoby v čele domácnosti. K účelům zkoumání rozdělení ročních příjmů obyvatelstva byly vybrány následující ukazatele: (a) Sociální skupina osoby v čele domácnosti (1 - dělník, 2 - samostatně činný (mimo zemědělství), 3 - zaměstnanec, 4 - samostatně hospodařící rolník, 5 - družstevní rolník, 6 - důchodce v domácnosti s ekonomicky aktivními členy, 7 - důchodce v domácnosti bez ekonomicky aktivních členů, 8 - nezaměstnaný, 0 - ostatní), (b) Počet členů domácnosti, (c) Čistý peněžní příjem domácnosti (v Kč za rok). Bez újmy na obecnosti se zde můžeme soustředit např. pouze na analýzu souborů dat ročních peněžních příjmů na domácnost. Vizualizací datových souborů (pomocí histogramů a P-P grafů) byly vytipovány „problémovéÿ soubory, které vykazovaly odlišnosti od předpokládaného teoretického modelu logaritmicko - normální rozdělení se dvěma parametry LN (µ, σ 2 ) (popřípadě se třemi parametry LN (µ, σ 2 , γ). Jedná se o výběrové soubory ročních příjmů domácností bez ohledu na sociální skupinu a skupin 1, 3 a 7 ([6]). Po grafickém průzkumu byl v celém datovém souboru i v každé sociální skupině proveden χ2 test shody empirického rozdělní s příslušným logaritmicko - normálním modelem. Vzhledem k tomu, že shoda empirického rozdělení četností příjmů na domácnost s teoretickým model byla prokázány pouze u sociálních skupin 5, 6, 8 a 0, bylo provedeno useknutí datových souborů odpovídající stupni kontaminace odhadnutému pomocí jednokrokové procedury využívající klasický t-test standardizovaných reziduí na 5%-ní hladině významnosti (viz tab. 1). K významnému zvýšení shody empirického rozdělení s teoretickým modelem po useknutí došlo pouze u skupin 0, 2 a 4. Naproti tomu u skupin 6 a 8 došlo ke snížení oproti původní situaci a u skupiny č. 5 došlo ke zvýšení pouze u dat seskupených do tříd podle Sturgesova pravidla. Skutečnost, že podle dalších použitých pravidel seskupování došlo ke snížení, může být zapříčiněna změnou počtu tříd při výpočtech χ2 statistik z celých výběrů (v programu MS Excel) a z useknutých výběrů (v programu Statgraphics for Windows). ([6]).
456
Jitka Bartošová Sociální skupina všechny 1 2 3 4 5 6 7 8 0
Stupeň kontaminace εd εh 0% 3,055% 3,817% 0% 0% 3,261% 0% 3,210% 0% 3,053% 0% 5,128% 0% 3,374% 0% 1,676% 0% 2,692% 0% 3,390%
Tabulka 1: Odhad stupně kontaminace zdola a shora rozdělení příjmů na domácnost t-testem standardizovaných reziduí (α = 0,05). Sociální skupina 0 2 4 5 6 8
Stupeň useknutí αd αh 1% 9% 2% 2% 7,5% 1,5% 2% 4% 0% 1% 6% 1%
χ2 test p-value 0,869695 0,432965 0,739458 0,797002 0,153245 0,848642
Tabulka 2: Odhad optimálního stupně useknutí zdola a shora v souborech příjmů na domácnost pomocí numerické minimalizace χ2 statistiky. Z důvodu nejednotnosti vlivu useknutí podle výše odhadnutého stupně kontaminace na shodu empirického rozdělení četností s logaritmicko - normálním modelem byla provedena úprava odhadu stupně useknutí zdola α ˆd a shora α ˆh pomocí numerické minimalizace χ2 statistiky (viz tab. 2). Odhady byly realizovány v programu MS Excel. Z tabulky vyplývá, že bylo dosaženo výrazného zvýšení shody empirického rozdělení s teoretickým, a proto můžeme považovat logaritmicko - normální rozdělení za vhodný model pro většinu sociálních skupin. Další odhad stupně kontaminace příjmových rozdělení v jednotlivých sociálních skupinách, tj. počtů hodnot odlehlých zdola rd a shora rh , byl realizován prostřednictvím dvou sekvenčních testů – klasické a modifikované veze ESD testu. Modifikace ESD testu spočívala v tom, že procesy identifikace aktuální „podezřeléÿ hodnoty a jejího testování na odlehlost probíhají současně – v témž iteračním kroku. Metoda vychází ze skutečnosti, že nadhodnocení předpokládaného počtu odlehlých pozorování r má na efektivnost
457
Příspěvek k analýze rozdělení příjmů domácností Sociální skupina 0 2 4 5 6 8
Rozsah n 236 1748 131 195 1156 260
Klas. ESD rd rh 0 0 0 3 0 2 0 0 0 1 0 0
Modif. ESD rd rh 1 3 0 1 1 4 5 0 0 1 0 0
Num. optimalizace rd′ rh′ 3 27 36 36 15 3 4 8 0 12 18 3
Tabulka 3: Odhady počtu odlehlých hodnot příjmů na domácnost určené sekvenčními testy a odhady jejich horních hranic určené numerickou optimalizací. použitého testu minimální vliv ([7]) a zároveň musí být splněna nerovnost r ≤ [ n4 ]. Při realizaci modifikované verze ESD testu je setříděný soubor příjmů na domácnost nejprve symetricky maximálně redukován, tzn. že z každé strany je useknuto [ n4 ] hodnot, takže prvním členem posloupnosti podmnožin výběru {Ar , Ar−1 , . . . , A0 } je množina Ar = {x([ n4 ]+1) , . . . x(n−[ n4 ]) }, každý následující člen pak odpovídá rekurzivnímu vztahu Ai−1 = Ai + {x(Ai )}. Iterační krok spočívá ve vyhledání a otestování odlehlosti „nejbližšíÿ useknuté hodnoty x(Ai ), která má od průměru aktuálního redukovaného souboru x ¯(Ai ) minimální vzdálenost. Pro každou hodnotu x(Ai ) je určena statistika ESDi+1 , která je porovnána s hodnotou příslušného kvantilu Li+1 . Pokud je splněna nerovnost ESDi+1 > Li+1 , iterační cyklus končí a r = rd + rh = i. Rozdíl mezi klasickou a modifikovanou formou testu je především ve startovacím bodě testovacího procesu a v určení hodnoty x ¯(Ai ). Iterační procedura obou sekvenčních testů byla realizována v programu MS Excel. K odhadu počtu hodnot vhodných k useknutí zdola rd′ a shora rh′ prostřednictvím numerické optimalizace shody empirického rozdělení s dvouparametrickým Pk logaritmicko - normálním modelem byla použita statistika M SE = i=1 (pi − πi )2 . Optimalizační procedura byla realizována v programu Matlab. Výsledky (viz tab. 3) ukazují, že počty identifikovaných odlehlých hodnot příjmů na domácnost, získané prostřednictvím obou sekvenčních testů, jsou ve všech sociálních skupinách srovnatelné, nezávislé na rozsahu souborů a relativně velmi malé (0 ≤ rd ≤ 5), (0 ≤ rh ≤ 4). Naproti tomu při numerické optimalizaci bylo ve většině sociálních skupin dosaženo maximální shody empirického rozdělení s teoretickým modelem až po useknutí většího počtu hodnot příjmů (0 ≤ rd′ ≤ 36), (3 ≤ rh′ ≤ 36). Ani zde nebyla prokázána závislost optimálního počtu useknutých hodnot na rozsahu souboru. Vyjádříme-li si procentuální velikosti kontaminace εd = rnd , εh = rnh a procenr′
r′
tuální velikosti optimálních useknutí αd = nd , αh = nh , zjistíme, že ve všech sociálních skupinách je zachována platnost vztahu (εd ≤ αd ) ∧ (εh ≤ αh ), to znamená, že odhady useknutí lze ve všech případech považovat za horní hranice odhadů kontaminace.
458
3.2
Jitka Bartošová
Závěry
Probíhající transformace hospodářství České Republiky z plánované formy na tržní, která byla zahájena před více než deseti lety, se projevila v úrovni a struktuře čistých ročních peněžních příjmů domácností získaných z Mikrocensu 1996 pouze částečně. Došlo především k výrazné diferenciaci příjmů, tj. ke vzniku (malého počtu) domácností s výrazně vysokými a s výrazně nízkými příjmy, které způsobují narušení teoretického modelu a snižují jeho statistickou významnost. Naproti tomu uvedená analýza rozdělení ročních příjmů domácností získaných z Mikrocensu 1996 prokázala u většiny sociálních skupin platnost logaritmicko - normálního modelu, kontaminovaného malým podílem odlehlých hodnot. Pro nalezení optimálního statistického modelu rozdělení příjmů je proto vhodné nejprve provést v každé sociální skupině detekci odlehlých pozorování, popřípadě optimalizaci stupně useknutí souboru. K odhadu charakteristik modelu je z výše zmíněných důvodů vhodné použít některou z robustních metod odhadu.
Reference [1] Anděl J. (2002). Základy matematické statistiky. Preprint MFF UK, Praha. [2] Antoch J., Vorlíčková D. (2004). Vybrané metody statistické analýzy dat. ACADEMIA, Praha. [3] Barnett V., Lewis T. (1978). Outliers in statistical data. 1st edn. John Wiley, Chichester [4] Bartošová J. (2003). Robustní metody odhadů. Oeconomica, Praha, 234 – 246. [5] Bartošová J. (2003). Příjmové modely. Výpočtová štatistika, SŠDS, Bratislava, 7 – 11. [6] Bartošová J. (2004) [7] Jain R. B., Pingel L. A. (1981). A procedure for estimating the number of outliers. Commun. Statist. Theor. Meth. 10, 10029 – 10041. [8] Jurečková J. (2001). Robustní statistické metody. Karolinum, Praha. [9] Militký J., Militká D. (1985). Moderní matematicko-statistické metody v hutnictví. Základní statistické metody III. Dvůr Králové. [10] Scott, D. W. (1992). Multivariate density estimation. Theory, practice and visualization. J. Willey, New York. Adresa: J. Bartošová, Vysoká škola ekonomická, Fakulta managementu, katedra managementu informací, Jarošovská 1117/II, 377 01 Jindřichův Hradec, ČR E-mail :
[email protected]