KE STATISTICKÉ DEFINICI DOMÁCNOSTI Jaromír Běláček (9.SLOVENSKÁ DEMOGRAFICKÁ KONFERENCIA „RODINA“, 17.-19.9.2003, Tajov pro Banskej Bystrici)
1 ÚVOD Při úlohách vztažených k analýze a prezentaci výsledků výběrových šetření o příjmech a výdajích domácností, které jsou prováděny na ČSÚ v souvislosti s Mikrocensy, Statistikou rodinných účtů a dalšími kvantitativními šetřeními u domácností, se opakovaně objevuje problém statistické definice domácnosti. Pro různé typy účelových výstupů se používají definice různé, sestavované z různých, často nestejně definovaných „pomocných proměnných“, které nemají společný „etymologický“ základ a uvádějí tak externího (a to i dlouhodobého) uživatele výstupů do nejistoty a do zmatku. Nic na tom nemění ani skutečnost, že v každé oficiální publikaci ČSÚ jsou „přesné definice“ použitých klasifikací domácnosti detailně popsány v příslušné metodice a periodické publikace zachovávají v každém jednotlivém případě jednotný klasifikační koncept. Jako příklady „nejrůznějších“ definic uveďme následující klasifikace podle: A/ druhu cenzové domácnosti: úplné rodiny, neúplné rodiny, vícečlenné nerodinné domácnosti, domácnosti jednotlivců (viz.[3]); B/ sociální skupiny domácnosti (podle osoby v čele domácnosti/přednosty) - viz.[2]: 1.dělník/zemědělec (ozn.D/Z); 2.osoba samostatně výdělečně činná (OSVČ); 3.zaměstnanec (ZAM); 6.nezaměstnaný a ostatní ekonomicky aktivní (NEZ); 7.důchodce (DUCH); C/ počtu osob v „hospodařící domácnosti“: 1, 2, 3, 4, 5, 6+ . Navíc všechny výše uvedené klasifikace domácností jsou resp. mohou být kombinovány například podle: D/ pohlaví a věku partnerů resp. přednosty; E/ rodinného stavu přednosty; F/ vzdělání, postavení v zaměstnání (KZAM) nebo odvětví ekonomické činnosti (OKEČ) přednosty resp. ekonomicky aktivních členů domácnosti; G/ zdrojů příjmů domácnosti: ze závislé činnosti, z podnikání, sociální (důchody; nemocenské resp. jiné dávky, přídavky a podpory) a „ostatní“ (z kapitálového majetku, z pronájmů, z prodeje, dary, výhry, stipendia apod.); H/ peněžních vydání: spotřební vydání (klasifikace CZ-COICOP) resp. neklasifikovaná jako spotřební (daně, povinné pojištění, půjčky); I/ počtu závislých dětí; J/ typu bydlení: rodinný dům, bytový dům, jiný; K/ regionu: kraje nebo oblasti ČR; L/ místa nebo velikosti místa bydliště: např. „do 5000“, „5-50 tisíc“, „50 tisíc-1 milion“, „více než 1 milion“ obyvatel.
1
Toto vše jsou kritéria, jejichž užití resp. použitelnost závisí samozřejmě na účelu. Důvtipný nebo do problematiky zainteresovaný čtenář však již nepochybně vnímá takřka neomezenou pestrost možností „definic domácností“ vytvářených z kombinací položek výše uvedených.“. Pro úplnost poznamenejme, že např. každá ze standardních klasifikací KZAM, OKEČ nebo COICOP obsahují minimálně 10 hlavních klasifikačních tříd, které jsou dále členitelné do dalších podrobností skýtajících již téměř nepřehledné množství možných účelově smysluplných definic. Účelem níže uvedeného textu je navrhnout pragmatický a metodicky jednotný koncept domácnosti, který by byl přirozený z hlediska toho, čím každá jednotlivá domácnost skutečně je (socio-ekonomický nebo možná lépe ekonomicko-sociální typ domácnosti, její demografická struktura) a jaké naplňuje potenciální funkce (ekonomická podpora nebo sociální zátěž státu, péče o děti). Koncept definice by měl být dostatečně jednoduchý, aby nenahrazoval „složité struktury stávajících třídících proměnných“ pouze „obdobně komplikovanou strukturou alternativní“ a na druhou stranu dostatečně podrobný, aby umožňoval agregace do většiny již standardně používaných klasifikací a hlavně – byl použitelný pro systematickou strukturální analýzu. Právě zde narážíme na pravděpodobně hlavní zdroj problémů při klasifikaci domácností, který se odvíjí historicky od dob prvních „moderních“ sčítání lidu uskutečněných na území dnešní ČR po druhé světové válce. Ve snaze podržet jednotnou metodickou linii se do současnosti respektuje jako základní koncept „definice domácnosti podle druhu cenzovní domácnosti“ (referovaný v tomto textu ad A/). Tato „klasická“ definice podporuje v zásadě „centralistický“ koncept státu, kde hlavním kritériem byla „kvantita“ tj. počet závislých dětí a od něj se odvíjející „sociální podpora státu vícepočetným rodinám“. Zhruba od poloviny 90.let minulého století však tento koncept již přestal být relevantní. Kritéria pro „klasifikaci rodiny“ se čím dál tím více transformují do „ekonomického pojetí“, kde aspekty „sociální“ samozřejmě hrají svoji roli, ale přenášejí se zatím - vzhledem k dramaticky se snižujícím počtům závislých dětí a demografickému stárnutí obyvatelstva čím dál tím více na generaci v důchodovém věku. Budoucnost „pojetí rodiny“ je tedy v klasifikaci charakterizující spíše „hospodařící domácnosti“, kde o postavení rodiny na společenském žebříčku hodnot rozhoduje počet resp. struktura osob v domácnosti „podle zdrojů příjmů“ a samotné „počty závislých dětí“ se redukují na úroveň sice nesmírně významného, ale v zásadě kvalitativního ukazatele. Ve smyslu statistické definice „domácnosti“ lze tedy patrně považovat za správnou preferenci respektující „ekonomizující hlediska“ a „dříve primární cenzovní tj. konceptuálně pouze rodinné pojetí“ přesunout do pozice spíše „alternativního klasifikačního kritéria“.
2 NÁVRH KONCEPTU STATISTICKÉ DEFINICE DOMÁCNOSTI Základní koncept pro analýzu byl zvolen na úrovni statisticky významných kombinací klasifikace „sociální skupiny domácnosti (podle jejího přednosty)“ tak jak byla definována v 1B/ a reprezentace domácnosti podle „počtu členů ve třech resp. čtyřech statisticky nejvýznamnějších skupinách ekonomické aktivity“ v širším pojetí tj. v členění na: i/osoby závislé (ozn. pdeti); ii/osoby ekonomicky aktivní /s vlastním zdrojem příjmu/ (ozn. pea); iii/nezaměstnaní a ostatní ekonomicky aktivní /dospělé/ osoby (ozn. pnez); iv/nepracující 2
důchodci (ozn. npduch). V oprávněných a ve speciálních případech může být toto pojetí snadno rozšířeno o doplňková kritéria jako je např. pohlaví přednosty domácnosti (ozn. pohlp). Pro získání elementární představy zaveďme proměnnou předpisem
MANCAT5 definovanou
mancat5=skup7*10000+pdeti*1000+pea*100+pnez*10+npduch ,
kde SKUP7 nabývá týchž hodnot jako „sociální skupina domácnosti“ v 1B/ a navíc hodnoty 4.“zaměstnaný“ (ozn. EA), když nechceme nebo nemůžeme přímo specifikovat skupinu 1.(D/Z) nebo 2.(OSVČ) nebo 3.(ZAM). MANCAT5 reprezentuje nyní pětimístný kód, který například na souboru 10599 domácností z šetření „o sociální situaci domácností 2000“ představuje 326 „atomizovaných typů domácností v rozpětí od 1 do 1670 četností výskytu (n) v jednotlivých typech domácností. Výběrem nejvýznamnějších z nich a agregací do několika zbytkových skupin byl tento soubor předefinován do dákladní klasifikace (proměnné) MANCAT4: mancat4=99999. if (skup7=4) mancat4=49699. if ((skup7=4)&(pdeti=0) &(pea=1)&(npduch=1)) mancat4=40191 . if ((skup7=4)&(pdeti=0) &(pea=2)&(npduch=1)) mancat4=40291 . if ((skup7=4)&(pdeti=0) &(pea=3)&(npduch=0)) mancat4=40390 . if ((skup7=4)&(pdeti=0) &(pea=4)&(npduch=0)) mancat4=40490 . if ((skup7=4)&(pdeti=1) &(pea=3)&(npduch=0)) mancat4=41390 . if ((skup7=1)&(pdeti=0) &(pea=1)&(npduch=0)) mancat4=10190 . if ((skup7=1)&(pdeti=0) &(pea=2)&(npduch=0)) mancat4=10290 . if ((skup7=1)&(pdeti=1) &(pea=1)&(npduch=0)) mancat4=11190 . if ((skup7=1)&(pdeti=1) &(pea=2)&(npduch=0)) mancat4=11290 . if ((skup7=1)&(pdeti>=2)&(pea=1)&(npduch=0)) mancat4=12190 . if ((skup7=1)&(pdeti>=2)&(pea=2)&(npduch=0)) mancat4=12290 . if ((skup7=2)&(pdeti=0) &(pea=1)&(npduch=0)) mancat4=20190 . if ((skup7=2)&(pdeti=0) &(pea=2)&(npduch=0)) mancat4=20290 . if ((skup7=2)&(pdeti=1) &(pea=1)&(npduch=0)) mancat4=21190 . if ((skup7=2)&(pdeti=1) &(pea=2)&(npduch=0)) mancat4=21290 . if ((skup7=2)&(pdeti>=2)&(pea=1)&(npduch=0)) mancat4=22190 . if ((skup7=2)&(pdeti>=2)&(pea=2)&(npduch=0)) mancat4=22290 . if ((skup7=3)&(pdeti=0) &(pea=1)&(npduch=0)) mancat4=30190 . if ((skup7=3)&(pdeti=0) &(pea=2)&(npduch=0)) mancat4=30290 . if ((skup7=3)&(pdeti=1) &(pea=1)&(npduch=0)) mancat4=31190 . if ((skup7=3)&(pdeti=1) &(pea=2)&(npduch=0)) mancat4=31290 . if ((skup7=3)&(pdeti>=2)&(pea=1)&(npduch=0)) mancat4=32190 . if ((skup7=3)&(pdeti>=2)&(pea=2)&(npduch=0)) mancat4=32290 . if (skup7=6) mancat4=69989 . if (skup7=6)&((pdeti=0)&(rezid=1)) mancat4=60010 . if (skup7=6)&((pdeti>=1)&(rezid=1)) mancat4=61010 . if (skup7=7) mancat4=79997 . if (skup7=7)&(pdeti=0) &(pea=0) &(npduch=1)&(pohlp=1)) mancat4=70091.1 . if (skup7=7)&(pdeti=0) &(pea=0) &(npduch=1)&(pohlp=2)) mancat4=70091.2 . if (skup7=7)&(pdeti=0) &(pea=0) &(npduch=2)) mancat4=70092 . if (skup7=7)&(pdeti=0) &(pea=1) &(npduch=1)) mancat4=70191 . if (skup7=7)&(pdeti=0) &(pea=1) &(npduch=2)) mancat4=70192 . if (skup7=7)&(pdeti>=1)&((npduch=1)or(npduch=2)))mancat4=71991.5.
do 34 reprezentativních typů. Kód „99999“ na prvním řádku slouží pouze pro formální kontrolu, že rozklad do níže definovaných skupin je úplný. 3
3 APLIKACE NA MODEL SOUHRNNÉHO ROČNÍHO ČISTÉHO PŘÍJMU DOMÁCNOSTÍ Na obr. č.1 je znázorněn empirický histogram rozdělení souhrnných ročních čistých příjmů na reprezentativním vzorku 10594 náhodného výběru domácností ČR z šetření „o sociální situaci 2000“. (5 domácností s příjmy „nad 1,5mil.Kč“ bylo pro účely níže uvedené analýzy z původního souboru vyčleněno.) Histogram je uspořádán vzestupně po 2500Kč (středy ekvidistantních příjmových intervalů na horizontální ose) a kumulativně (na vertikální ose) podle 34 výše definovaných typologických skupin domácností. Jako dominantní shledáváme skupiny domácností jednočlenných důchodců-žen (pod kódem „70091.2“) s odhadnutým průměrným čistým příjmem v r.2000 mírně nad 78tis.Kč a dvoučlenných domácností důchodců (pod kódem „70092“) s ročním průměrem 150686Kč. Na „barevné“ verzi histogramu bychom identifikovali ještě další významně přispívající skupiny domácností jako např. v dolním příjmovém pásmu ještě důchodci-muži s kódem „70092.1“ a s průměrem o poznání vyšším než u žen, ve středním příjmovém pásmu např. kategorie domácností přednostů-dělníků/rolníků s ještě další ekonomicky aktivní osobou (bez dětí pod kódem „10290“ s průměrem 215266Kč anebo s dětmi pod kódem „12290“ s průměrným čistým celkovým příjmem 240853Kč); ve vyšším příjmovém spektru jde pak zejména o vyšší zastoupení domácností se třemi a více zdroji příjmů (jmenovitě např. pod kódy „40390“, „41390“ a „40490“ s čistými příjmy vyššími než 350tis.Kč ročně). V zásadě je histogram příjmové struktury domácností (až na náhodné odchylky podmíněné rozsahem výběru domácností a response-kvalitou dat) vytvářen dvěma dominantními skupinami domácností (jednotlivců a dvojic) důchodců a směsí rozdělení na všech ostatních (výše definovaných) skupinách domácností, které se kumulují do jednoho agregačního jednovrcholového rozdělení. Kvantitativní představu o struktuře rozložení četností v jednotlivých položkách definice MANCAT4, o výběrových průměrech (M1) a o směrodatných odchylkách (SD1, které byly odhadnuty standardně odmocninou z výběrového rozptylu), získáme zevrubným prozkoumáním sloupců 2-5 níže uvedené tabulky. Všimněme si nyní, že rozpětí směrodatných odchylek SD1 (ve sloupci 5) je značně variabilní: s nejnižšími hodnotami u všech výše zmíněných skupin domácností důchodců (charakteristické pro řádově stejnocenné výše nominálních důchodů), s nejvyššími ve skupinách domácností s přednostou OSVČ. V předposledním sloupci tabulky jsou uvedeny alternativy/korekce směrodatných odchylek (SD2) pořízené na základě formální matematicko-statistické aproximace histogramu (z obr. č.1) pro každou z 34 výše definovaných skupin domácností. (Parametry každé z 34 modelových křivek byly zvoleny tak, aby zachovávaly střední hodnoty/empirické průměry uvedené ve 4.sloupci tabulky a současně aby minimalizovaly součet čtverců mezi empirickými hodnotami odpovídajících částí histogramu a teoretickými křivkami ze zvolené rodiny standardních dvouparametrických Gamma rozdělení.) Alternativní odhady směrodatných odchylek (SD2) můžeme považovat (oproti konzervativním SD1) za přesnější, neboť lépe odpovídají skutečnému (nenormálnímu) charakteru dat. V posledním sloupci tabulky jsou (v %) vyčísleny podíly SD2/SD1, které vyjadřují „úsporu na přesnosti výsledků“ (např. na intervalech spolehlivosti pro očekávané hodnoty průměrných příjmů ve skupinách), kterou jsme získali prostřednictvím teoretického „Gamma modelu“. Modelové Gamma křivky nám umožňují vykreslit model teoretického rozložení struktury příjmů domácností. Na obr.2 jsou modelové křivky navrstveny kumulativně ve srovnatelném měřítku s empirickými (z obr.1). Obrázek č.2 průzračně zvýrazňuje již výše popsané nejvýznamnější skupiny domácností. Při „optické“ interpretaci mějme na paměti, že dílčí teoretické Gamma křivky zachovávají strukturu středních hodnot jako ve 4.sloupci níže uvedené tabulky. 4
250
Obr.1: histogram rozdělení ročního čistého příjmu domácností
200 150 100 50
50
250
441250
398750
356250
313750
271250
228750
186250
143750
101250
58750
8750
0
571250
526250
613750
613750
100
10290 11290 12290 20290 21290 22290 30290 31290 32290 40291 40490 49699 61010 70091,1 70092 70192 79997
571250
150
10190 11190 12190 20190 21190 22190 30190 31190 32190 40191 40390 41390 60010 69989 70091,2 70191 71991,5
526250
200
483750
441250
398750
356250
313750
271250
228750
186250
143750
Obr.2: model rozdělení ročního čistého příjmu domácností
483750
250
101250
58750
8750
0
Obr.3: simulace rozdělení ročního čistého příjmu domácností
200 150 100 50
5
586250
536250
496250
456250
416250
376250
336250
296250
256250
216250
176250
96250
136250
...
56250
8750
0
Tabulka: Výběrové charakteristiky statistické definice/struktury proměnné MANCAT4 MANCAT4 10190,0 10290,0 11190,0 11290,0 12190,0 12290,0 20190,0 20290,0 21190,0 21290,0 22190,0 22290,0 30190,0 30290,0 31190,0 31290,0 32190,0 32290,0 40191,0 40291,0 40390,0 40490,0 41390,0 49699,0 60010,0 61010,0 69989,0 70091,1 70091,2 70092,0 70191,0 70192,0 71991,5 79997,0 CELKEM
n 319 439 165 325 245 501 124 148 72 142 111 222 406 377 254 307 216 405 449 129 359 111 178 485 172 171 116 424 1307 1369 148 121 154 123 10599
%n 3,01% 4,14% 1,56% 3,07% 2,31% 4,73% 1,17% 1,40% 0,68% 1,34% 1,05% 2,10% 3,83% 3,56% 2,40% 2,90% 2,04% 3,82% 4,24% 1,22% 3,39% 1,05% 1,68% 4,58% 1,62% 1,61% 1,09% 4,00% 12,34% 12,92% 1,40% 1,14% 1,45% 1,16% 100%
M1(Kč) SD1 125716,5 52530,3 215266,1 62523,3 166326,8 94082,3 233506,4 80508,5 191773,4 57491,4 240853,4 69931,2 202517,0 165483,1 307851,6 165641,7 261175,9 222967,7 318389,7 155603,1 226961,3 152363,5 321641,9 159468,2 152934,7 84659,5 303115,4 138776,2 192807,4 118900,3 298354,0 112583,6 206239,1 108481,0 308163,0 124258,1 205637,2 84019,7 310497,8 96898,2 357298,2 145882,9 444532,9 135686,9 356848,6 141608,1 340777,2 145698,1 121387,8 112238,5 147428,3 106841,2 173131,1 117063,9 89243,0 59355,6 78183,0 23968,8 150686,1 33025,8 202725,6 68585,2 258720,6 64414,2 197508,2 125322,2 275854,9 99174,6 207674,2 132048,3
%SD2/SD1 SD2 27816,4 52,95% 25668,9 41,05% 32236,0 34,26% 46759,1 58,08% 37942,2 66,00% 42460,1 60,72% 30973,2 18,72% 99793,1 60,25% 96713,2 43,38% 92570,2 59,49% 45508,0 29,87% 83097,3 52,11% 46684,9 55,14% 77214,5 55,64% 70857,7 59,59% 52012,6 46,20% 41015,2 37,81% 62725,7 50,48% 42763,0 50,90% 44298,1 45,72% 66854,4 45,83% 55350,2 40,79% 67345,8 47,56% 107866,0 74,03% 90457,7 80,59% 51381,1 48,09% 48807,4 41,69% 13884,0 23,39% 8268,6 34,50% 16188,7 49,02% 34270,4 49,97% 31596,0 49,05% 48221,5 38,48% 56075,2 56,54% -----
Teoretické rozdělení (směs) znázorněné na obr. 2 lze konečně použít jako generátor náhodných veličin reprezentujících příjmovou strukturu domácností libovolně velkého rozsahu. Jedna náhodně vygenerovaná verze simulačního experimentu pro (stratifikovaný) výběr o rozsahu 10594 je znázorněna na obr.3 . Je zřejmé, že pro dobře postavenou statistickou definici domácnosti „optimální“ ve smyslu zadaných kvalitativních resp. účelových kritérií, může být uvedený model velmi efektivní i pro kvantitativní dopočty na úrovni chybějících pozorování (no-response). Jedinou podmínkou pro úspěšné řešení takovéto úlohy je dostatečně reprezentativní vzorek response-domácností, na kterém lze vymodelovat statistické vazby podstatné pro pevně zadanou soustavu požadavků např. pro předpokládaná výstupní tabelační třídění, záměrné (předem metodicky ujasněné) korektury, přepočty apod. Literatura: [1] Holý D.: Vývoj diferenciace mezd zaměstnanců za období ekonomické transformace, str.105-111, Statistika 3/35, ČSÚ, 1998; [2] Příjmy, vydání a spotřeba domácností statistiky rodinných účtů za rok 2002, periodikum ČSÚ; [3] Sčítání lidu, domů a bytů 2001, vybrané informace, ČSÚ, Praha, květen 2003
6