1 Měření závislosti statistických znaků 1.1 Dvourozměrný statistický soubor Při analýze ekonomických skutečností nás často nezajímají jednotlivé veličiny jako takové, ale i vztahy mezi nimi. Ptáme se, jak závisí poptávka na ceně produktu, platy zaměstnanců na věku, vzdělání rodičů a dětí apod. V takových případech nestačí zkoumat jen jeden statistický znak, ale současně sledovat znaků více. Dosud jsme se v tomto modulu zabývali tzv. jednorozměrným statistickým souborem. U každé statistické jednotky nás vždy zajímal pouze jeden znak, který jsme dále analyzovali – sestrojili jsme tabulku a graf četností, spočítali střední hodnotu nebo směrodatnou odchylku. Pokud zkoumáme vztah dvou nebo více znaků v rámci jednoho souboru, mluvíme o vícerozměrném statistickém souboru (dvourozměrném, třírozměrném,…). U vícerozměrného souboru budeme zkoumat vzájemné vztahy sledovaných statistických znaků. Chceme-li zobrazit rozložení hodnot dvou kategoriálních znaků (nebo číselných znaků s malým počtem obměn) v rámci vícerozměrného statistického souboru, můžeme sestrojit tzv. kontingenční tabulku. Kontingenční tabulka je vlastně dvourozměrnou analogií tabulky rozdělení četností, kterou znáte již z předcházející kapitoly. Její obecný tvar představuje obrázek 3.1. Y1
Y2
…
YS
CELKEM
X1
n11
n12
…
n1s
n1
X2
n21
n22
…
n2s
n2
…
…
…
…
…
…
XR
nr1
nr2
…
nrs
nr
n
n
…
n
n
CELKEM
1
2
s
Obr. 3.1 Kontingenční tabulka pro dva kategoriální znaky Četnosti n11 (čteme „en – jedna – jedna“), n12, …, nrs v kontingenční tabulce jsou četnostmi kombinací hodnot obou statistických znaků (např. X a Y) a nazývají se sdružené četnosti. Jejich součtem je počet prvků souboru n. 2
r
s
n11 n12 nrs
nij
n
i 1 j 1
Dva symboly sumy v předcházejícím vzorci znamenají, že sčítáme všechny sdružené četnosti přes řádky i sloupce. Řádkové a sloupcové součty tabulky v posledním sloupci, resp. řádku tabulky, se nazývají marginální (neboli okrajové) četnosti – představují vlastní jednorozměrná rozdělení obou samostatných proměnných X a Y. Také pro marginální četnosti platí: r
s
ni
n j
i 1
n
j 1
Kontingenční tabulku lze vytvořit i v Excelu jednoduše pomocí stejnojmenného nástroje Kontingenční tabulka. Jako vstup přitom slouží jednoduchá datová tabulka, jejíž první řádek obsahuje názvy znaků a ostatní řádky příslušná data. Kromě absolutních četností nij můžeme v kontingenční tabulce uvádět také relativní četnosti pij přepočtené na celkový rozsah souboru n. Relativní četnosti spočítáme obdobně jako u jednorozměrného rozdělení četností: pij
nij n
Z praktických důvodů se někdy uvádí kontingenční tabulka relativních četností, jejíž řádkové (nebo sloupcové) součty jsou rovny 1. Tyto četnosti získáme jako podíl sdružených četností nij a odpovídajících řádkových četností ni (nebo sloupcových četností n j). Tyto četnosti nazýváme podmíněné řádkové (sloupcové) relativní četnosti a slouží k porovnání rozdělení hodnot v jednotlivých řádcích (nebo sloupcích) tabulky. Ukázku tabulky s podmíněnými sloupcovými četnostmi vidíte na obrázku 3.2. Z tabulky je možné například vyčíst, že ve sledované skupině osob muži sledují více kanál ČT2 než ženy, zatímco ženy se dívají častěji na Novu než muži.
3
MUŽI
ŽENY
ČT1
24%
25%
ČT2
20%
15%
NOVA
38%
42%
PRIMA
18%
18%
celkem
100%
100%
Obr. 3.2 Kontingenční tabulka s podmíněnými sloupcovými četnostmi Dvourozměrné rozdělení četností lze znázornit také graficky – pomocí sloupcového grafu neboli histogramu. K tomu však potřebujeme trojrozměrný souřadnicový systém, kde na dvě osy vynášíme hodnoty obou znaků, na třetí osu jejich četnosti ve formě sloupců.
Obr. 3.3 Histogram 3D pro dvě proměnné Takový třírozměrný graf (3D histogram) působí sice efektně, ale má řadu nevýhod. Například pokud budou v popředí hodnoty s většími četnostmi, zakryjí nižší sloupce grafu odpovídající hodnotám s nižšími četnostmi. Proto se v praxi používá spíše tzv. skupinový sloupcový graf (histogram), který zobrazuje rozdělení hodnot jednoho znaku pro všechny obměny znaku druhého.
4
45% 40% 35% 30%
ČT1
25%
ČT2
20% 15%
Nova
10%
Prima
5% 0% muži
ženy
Obr. 3.4 Skupinový histogram pro dvě proměnné Pokud jsou oba znaky ve dvourozměrném souboru číselné (kvantitativní, metrické), lze soubor graficky zobrazit pomocí bodového diagramu (dot plot nebo XY plot), kde každé dvojici hodnot [xi ; yj] v souboru odpovídá bod o těchto souřadnicích v dvourozměrné soustavě souřadnic. Tento typ grafu se však příliš nehodí pro soubory, kde se jednotlivé kombinace hodnot znaků X a Y opakují, protože všechny takové dvojice se v XY grafu zobrazí jako jediný bod. Bodový diagram 105 100 95 90
Y
85 80 75 70 65 60 174
176
178
180
182
184
186
188
190
192
X
Obr. 3.5 Ukázka bodového diagramu pro dvě proměnné
1.2 Číselné charakteristiky dvourozměrného souboru Jsou-li obě proměnné v dvourozměrném souboru číselné, lze je popsat obdobnými číselnými charakteristikami jako u souboru jednorozměrného. 5
U jednotlivých znaků lze spočítat míry polohy a variability podle stejných vzorců jako pro jednorozměrný statistický soubor. Tyto charakteristiky vyjadřují vlastnosti každé proměnné zvlášť, nazýváme je obdobně jako u kontingenční tabulky marginální charakteristiky. Je-li soubor zadaný pomocí uspořádaných dvojic hodnot [xi ; yi], můžeme střední hodnoty obou proměnných X a Y vypočítat podle vzorců: n
n
xi x
yi
i 1
y
n
i 1
n
Obdobně můžeme spočítat (výběrové) rozptyly obou zkoumaných statistických znaků: n
n
xi2 s
2 x
yi2
n x
i 1
s
n 1
2 y
n y
i 1
n 1
Vzájemné vztahy mezi oběma znaky vyjadřují charakteristiky, které se nazývají sdružené. Do této skupiny charakteristik patří kovariance a korelační koeficient. Míru vzájemného vztahu znaků X a Y vyjadřuje charakteristika, která se nazývá kovariance (někdy též vzájemný rozptyl). Spočítá se obdobně jako rozptyl jedné proměnné podle vzorce: n
xi yi sxy
n x y
i 1
n 1
Na rozdíl od rozptylu může mít kovariance kladnou i zápornou hodnotu, znaménko kovariance určuje směr (orientaci) závislosti mezi oběma proměnnými. Platí přitom: •
•
•
pokud je kovariance kladná (sxy > 0), je mezi oběma znaky přímá (pozitivní) závislost – se zvyšující se hodnotou jednoho znaku se hodnota druhého znaku také spíše zvyšuje pokud je kovariance záporná (sxy < 0), je mezi oběma znaky nepřímá (negativní) závislost – se zvyšující se hodnotou jednoho znaku se hodnota druhého znaku spíše snižuje jestli je kovariance rovna nule (sxy = 0), není mezi oběma znaky závislost – znaky jsou nezávislé
Čím větší má kovariance absolutní hodnotu, tím je závislost mezi oběma znaky silnější. Aby bylo možné určit míru závislosti mezi oběma znaky, případně porovnat dvě různé závislosti mezi sebou, zavádí se takzvaný korelační koeficient. Ten se určuje podle vzorce:
6
rxy
sxy sx s y
Korelační koeficient nabývá hodnot vždy z intervalu -1 až +1. Je tedy relativní charakteristikou vyjadřující sílu vztahu mezi dvěma znaky v témže statistickém souboru. Znaménko korelačního koeficientu určuje stejně jako u kovariance směr závislosti, absolutní hodnota korelace intenzitu (sílu) závislosti. 0,0
ŽÁDNÁ ZÁVISLOST
0,0 - 0,1
velmi slabá závislost
0,1 – 0,3
slabá závislost
0,3 – 0,7
střední závislost
0,7 – 0,9
silná závislost
0,9 – 1,0
velmi silná závislost
1,0
absolutní závislost
Obr. 3.6 Korelační koeficient a síla závislosti V programu Excel slouží k výpočtu korelačního koeficientu funkce CORREL. Parametry funkce jsou obě proměnné. Při absolutní závislosti dvou číselných znaků X a Y (rxy = 1 nebo rxy = -1) lze vztah mezi hodnotami obou znaků vyjádřit pomocí lineární funkce: yij
b0 b1 xij
V takovém případě všechny body v bodovém diagramu leží v přímce. Proto také říkáme, že korelační koeficient měří sílu lineární závislosti.
1.3 Jednoduchá lineární regrese Ideální lineární závislost mezi dvěma číselnými znaky není v praxi obvyklá. Přesto však i v takovém případě můžeme vztah mezi dvěma statistickými proměnnými vyjádřit pomocí lineární regresní funkce: Y
b0 b1 x
Koeficienty b0 a b1 volíme tak, aby vzniklá přímka co nejlépe vystihovala daný statistický soubor – viz obrázek 3.7.
7
Obr. 3.7 Dvourozměrný soubor a lineární regresní funkce V regresním modelu bude každé pozorované hodnotě nezávislé proměnné xi odpovídat jednak skutečná (empirická) hodnota závislé proměnné yi, jednak teoretická (modelová, vypočtená) hodnota Yi, která leží na regresní přímce. Ze všech přímek v rovině volíme jako nejlepší tu, u které je součet druhých mocnin (čtverců) odchylek teoretických hodnot závislé proměnné Yi od empirických yi minimální – odtud název metoda nejmenších čtverců. Obrázek 3.8 ukazuje čtverce odchylek na konkrétním příkladu.
Obr. 3.8 Metoda nejmenších čtverců – princip Bez odvození a důkazu si nyní uvedeme, že koeficient b1 rovnice regresní přímky splňující podmínku metody nejmenších čtverců má hodnotu:
8
sxy
b1
sx2
Tento koeficient se nazývá regresní koeficient a někdy se také značí byx. V Excelu ho můžeme spočítat jednoduše pomocí funkce SLOPE. Parametry funkce se udávají v pořadí – závisle proměnná Y, nezávisle proměnná X. Význam regresního koeficientu je: a) směrnice regresní přímky b) průměrný přírůstek závisle proměnné Y, pokud se nezávislá proměnná X změní o jednotku Obdobně koeficient b0 se dá zjistit ze vztahu: b0
y b1x
Tento koeficient vyjadřuje odhad závisle proměnné Y při nulové hodnotě X (pokud je taková interpretace smysluplná). V Excelu jej spočítáme pomocí funkce INTERCEPT. Zajímavou vlastností regresní přímky je, že prochází průsečíkem středních hodnot obou proměnných, tedy bodem o souřadnicích x ; y . Tento bod se také nazývá těžiště (dvourozměrného) statistického souboru. Koeficienty regresní funkce mají často interpretaci, která závisí na konkrétních datech. Například v obecné ekonomii vyjadřujeme vztah mezi spotřebou domácností C a jejich příjmem (důchodem) Y rovnicí: C
C0 c Y
kde C0 je takzvaná autonomní spotřeba a c mezní sklon ke spotřebě. Kvalitu dané lineární regresní funkce vyjadřuje ukazatel R2, který se nazývá index determinace (nebo determinační koeficient) a spočítá se podle vzorce: R
kde:
2
sY2 s y2
sY2 … teoretický rozptyl (rozptyl teoretických hodnot Y)
s y2 … empirický rozptyl (rozptyl naměřených hodnot y) Teoretický rozptyl spočítáme jako rozptyl hodnot Y získaných dosazením jednotlivých hodnot nezávislé proměnné x do regresní rovnice. Empirický rozptyl je pak „normální“ rozptyl hodnot závislé proměnné y. 9
Index determinace R2 nabývá hodnoty od 0 do 1 (od 0 do 100%) a určuje, jakou část variability závislé proměnné Y lze vysvětlit vlivem nezávislé proměnné X. Čím vyšší je tato hodnota, tím lépe vystihuje regresní přímka skutečnou závislost mezi X a Y. Pro lineární regresi platí mezi indexem determinace R2 a korelačním koeficientem r jednoduchý a jednoznačný vztah:
R2
r2
1.4 Závislost znaků v kontingenční tabulce Podobně jako mezi číselnými znaky můžeme vyjadřovat sílu závislosti také mezi dvěma kategoriálními znaky X a Y v kontingenční tabulce. Závislost mezi kvalitativními znaky se nazývá také asociace. Tím je vyjádřena rozdílnost od závislosti číselných znaků, které říkáme korelace. Pokud by byly znaky X a Y v kontingenční tabulce skutečně nezávislé, musel by mezi sdruženou relativní četností a marginálními relativními četnostmi platit vztah: pij
pi p j
Tento vztah by platil pro libovolnou dvojici indexů i a j, resp. dvojici hodnot xi a yj. Neboť v praxi mnohem častěji nežli s relativními četnostmi pracujeme s četnostmi absolutními, lze výše uvedený vztah vyjádřit ve tvaru: eij
ni nj n
Hodnota eij se nazývá očekávaná četnost (z angl. expected = očekávaný). Takovou hodnotu by měla sdružená četnost nij v případě, že by znaky X a Y byly skutečně nezávislé. Z hodnot očekávaných četností eij lze sestavit analogii kontingenční tabulky – tzv. tabulku očekávaných četností. Potom platí, že pokud se skutečná kontingenční tabulka a tabulka očekávaných četností shodují, jsou sledované znaky X a Y nezávislé. Čím větší jsou naopak rozdíly mezi oběma tabulkami, tím větší je mezi oběma znaky X a Y v kontingenční tabulce závislost. Na sledování této rozdílnosti lze proto postavit míry asociace. Základním individuálním ukazatelem je tzv. individuální chi-kvadrát (χ2) míra asociace: Gij
nij
eij
2
eij
10
Pokud je hodnota Gij větší než 5, můžeme v kontingenční tabulce i-tý řádek a j-tý sloupec považovat za závislé. Celková
2
-míra asociace se vypočte jako součet všech individuálních hodnot Gij přes celou
tabulku, tj. přes všechny kombinace xi a yj: r
s
G
r
s
Gij i 1 j 1
i 1 j 1
nij
eij
2
eij
Statistika G nabývá hodnoty z intervalu 0 až n h , kde n je počet jednotek souboru a h je menší z hodnot r - 1, s - 1. Vyjadřuje v podstatě rozptyl mezi skutečnými a očekávanými četnostmi v kontingenční tabulce. Aby bylo možné srovnávat míry závislosti ze dvou různých kontingenčních tabulek, byla zavedena relativní míra asociace, tzv. Cramerův kontingenční koeficient V:
V
G n h
Hodnota Cramerova koeficientu kontingence se pohybuje mezi 0 a 1, přičemž platí, že čím vyšší je hodnota V, tím je závislost mezi oběma znaky silnější. Hodnota V = 0 vyjadřuje statisticky nezávislé znaky X a Y. Až na znaménko je tedy význam koeficientu kontingence srovnatelný s korelačním koeficientem. V Excelu nemáme žádné speciální funkce ani nástroje pro měření asociace v kontingenční tabulce. Nejjednodušší je dodržet následující postup: 1. určit kontingenční tabulku empirických (absolutních) četností nij; 2. spočítat tabulku očekávaných četností eij; 3. s pomocí předcházejících tabulek vyjádřit tabulku individuálních chi-kvadrátů Gij. Součet všech hodnot v tabulce individuálních chi-kvadrátů je celková míra asociace G. Z ní lze již jednoduše podle výše uvedeného vzorce spočítat Cramerův koeficient kontingence V.
11
Vyzkoušejte si sami 1. U patnácti vybraných domácností byla zjištěna obytná plocha a nájemné: číslo
plocha nájemné (m2) (Kč) 82,6 970 57,3 795 70,4 1400 65,0 200 48,4 390 103,8 2320 73,6 1010 43,5 280
1 2 3 4 5 6 7 8
číslo 9 10 11 12 13 14 15
plocha nájemné (m2) (Kč) 66,1 1600 93,0 830 52,6 225 70,0 1325 84,2 1900 55,0 615 81,3 560
a) Vypočítejte charakteristiky obou znaků a pomocí korelačního koeficientu určete, zda je mezi oběma proměnnými závislost. b) Vyjádřete tuto závislost pomocí lineární regresní funkce a dále zkuste odhadnout výši nájmu v bytě s rozlohou 90 m2. 2. V průzkumu názorových postojů studentů byly zjišťovány odpovědi na otázku „Jste pro zavedení školného na vysokých školách?“ (znak X) s možnými odpověďmi: ano – nevím – ne. Současně byla zjišťována politická orientace studentů (znak Y) s možnými variantami levice – střed – pravice. Do průzkumu bylo zařazeno 280 studentů, výsledky zobrazuje tabulka: X\Y
LEVICE STŘED PRAVICE
ANO
11
20
28
NEVÍM
32
53
22
NE
43
52
19
a) Doplňte tabulku o marginální četnosti znaků X a Y. Z tabulky odečtěte, kolik studentů odpovědělo „nevím“. b) Změřte sílu závislosti postoje studentů k zavedení školného na vysokých školách na jejich politické orientaci pomocí Cramerova kontingenčního koeficientu.
12