9. Měření závislostí ve statistice Měření závislostí ve statistice se zabývá především zkoumáním vzájemné závislosti statistických znaků vícerozměrných souborů. Závislosti přitom mohou být například pevné, volné, jednostranné, oboustranné, příčinné, zdánlivé ad.
9.1. Pevná a volná závislost Pro pochopení závislostí je potřebné poznat především pevnou a volnou závislost. 9.1.1. Závislost pevná Pevná závislost se obvykle vyskytuje u některých přírodních jevů, kdy změna jednoho jevu způsobuje změnu jevu druhého a to v přesně odpovídající intenzitě. Například délka kovové tyče je ve funkčním vztahu závislá na teplotě, v geometrii plocha čtverce funkčně závisí na jeho straně a pod. Příklad: Pevná (funkční, deterministická) závislost — volný pád:
Dráha [m]
4000
s
1 2 gt 2
3000
2000 pozorované hodnoty
1000
0
10
20
30 Čas [s]
Obr. 9.1 Pevná závislost dráhy na čase při volném pádu
Pozorovanými hodnotami lze přesně proložit spojitou křivku o známé rovnici. Případné odchylky od křivky jsou způsobeny pouze chybami měření. Počet naměřených hodnot neovlivňuje přesnost závěrů. Situaci lze kdykoli přesně opakovat.
1
9.1.2. Závislost volná Některé jevy mohou být na sobě závislé jen volně, např. závislost výnosu plodiny na spotřebě hnojiv, závislost poptávky na ceně zboží apod. I zde se projeví závislost, avšak vztah je více či méně volný. Změna jednoho jevu podmiňuje úroveň jiného jevu jen s určitou pravděpodobností a rovněž intenzita změny druhého jevu může být různá. Tuto závislost můžeme zkoumat jen při větším množství jevů.
Poptávka po zboží [ks]
Volná (stochastická) závislost — tržní poptávka:
50 pozorované hodnoty
40
30 10
20
30
40
Cena zboží [Kč] Obr. 9.2 Volná závislost poptávky a ceny zboží
Všemi pozorovanými hodnotami nelze proložit křivku. Odchylky od „ideálního průběhu― závislosti jsou dány individuálními zvláštnostmi jednotlivých případů. Informace o závislosti se zpřesňují s přibývajícím počtem případů. Situaci se nikdy nepodaří znovu přesně reprodukovat. Předmětem zájmu statistiky je volná závislost, která je typická pro sociálně ekonomické i mnohé jiné vysoce komplikované jevy.
2
9.2. Klasifikace statistických závislostí Statistika se zabývá především zkoumáním volné závislosti. V rámci tohoto zkoumání ale můžeme odhalit i závislosti pevné Podle druhu statistických znaků, můžeme závislosti členit následovně: korelační závislost – závislost mezi kvantitativními znaky (např. vztah mezi spotřebou krmiva a dosahovaným přírůstkem u zvířat, mezi délkou klasu pšenice a počtem zrn v klasu, mezi výnosem plodiny na straně jedné a spotřebou hnojiv), asociační závislost – závislost mezi kvalitativními alternativními znaky (např. vztah mezi postřikem stromů a červivostí ovoce,), kontingenční závislost – závislost mezi kvalitativními znaky množnými (např. citlivost různých druhů zvířat na některé stresové podněty, vliv různých technologií na výnos jednotlivých druhů obilnin) Veškeré závislosti můžeme rozdělit na závislosti příčinné a závislosti zdánlivé. Smysl zkoumat mají pouze závislosti příčinné, kde vystupuje: jeden jev jako příčina — „nezávislá― proměnná (X), druhý jev jako účinek — „závislá― proměnná (Y). Statistika zkoumá příčinné volné závislosti. 9.2.1. Klasifikace statistických závislostí číselných znaků Každá závislost číselných znaků má dva vzájemně neoddělitelné atributy (vlastnosti): intenzitu závislosti - korelace. průběh závislosti - regrese, Statistika měří průběh a intenzitu závislosti číselných znaků. Příčinné závislosti číselných znaků klasifikujeme z různých hledisek: na závislosti jednostranné a závislosti oboustranné (vždy však vzájemné), na závislosti přímočaré a křivočaré, některé (zejména přímočaré) na závislosti pozitivní a závislosti negativní (toto hledisko má pouze okrajový význam), podle matematických funkcí použitých na zkoumání průběhu závislosti na závislosti lineární a závislosti nelineární, podle počtu příčin (nezávislých proměnných) na závislosti párové (jednoduché, s jednou nezávislou proměnnou) a závislosti mnohonásobné (s nejméně dvěma současně působícími nezávislými proměnnými),atd. V praxi se většina úloh omezuje jen na párové a lineární nebo křivočaré závislosti.
3
Druhy korelační závislosti: Podle počtu znaků: - jednoduchá (prostá) - vícenásobná
Y = f (X) Y = f (X1, X2, …, Xn)
Podle typu regresní funkce: nelineární závislost
lineární závislost
yi
yi
xi
xi Podle směru regresní funkce: kladná (přímá) závislost
záporná (nepřímá závislost
křivočará závislost
yi
yi
yi
xi
xi
xi
Podle stupně závislosti (korelace) znaků: nezávislost
yi
yi
pevná závislost
volná závislost nižší stupeň vyšší stupeň
yi
xi
yi
xi
xi
Obr. 9.4 Příklady korelační závislosti
4
xi
9.3. Korelační analýza Korelační analýza zkoumá korelační závislost mezi kvantitativními (číselnými) znaky. Při zkoumání korelační závislosti rozeznáváme dva základní pojmy: Korelace = stupeň (těsnost) závislosti. Regrese = průběh závislosti prostřednictvím matematické funkce (zpravidla přímky), změna závislé proměnné podle nezávisle proměnné. Při malém počtu statistických jednotek je základem pro zkoumání závislostí základní - datová tabulka, do které zaznamenáváme hodnoty statistických znaků pro všechny statistické jednotky od i = 1 až po i = n. Tab. 9.1 Základní - datová tabulka na zkoumání závislosti Statistická jednotka
Hodnoty statistických znaků Znak xi
Znak yi
1
x1
y1
2
x2
y2
.
.
.
n
xn
yn
V této podobě jde jen o záznam výsledků zjišťování za n členný statistický soubor. Při velkém rozsahu dat je pracovní tabulka nepraktická a nepřehledná. Výhodnější je v této situaci tzv. korelační tabulka, v které jsou uvedeny četnosti kombinací obměn hodnot obou znaků. Pokud jde o nezávislé proměnné je možné vykonat třídění podle proměnné x i podle proměnné y. Tab. 9.2 Korelační tabulka na zkoumání závislosti Znak xi
Znak yi
ni
y1
y2
…….
yl
x1
n11
n12
…….
n1l
nx1
x2
n12
n22
…….
n2l
nx2
x3
n13
n23
…….
n3l
nx3
.
.
.
…….
.
.
ny1
ny2
…….
.
n
5
Příklad: Za 10 rodin máme údaje o počtu dětí v rodině (proměnná x) a velikosti bytu (proměnná y) vyjádřené počtem místností. Tab. 9.3 Základní - datová tabulka Statistické znaky rodiny Počet dětí v rodině (proměnná x) Počet místností (proměnná y)
1 1
2 1
3 0
4 2
5 0
2
3
3
3
1
Rodina 6 7 1 2 2
3
8 0
9 3
10 2
2
4
4
Tab. 9.4 Korelační tabulka Počet dětí (proměnná x) 1 1 1
0 1 2 3 Celkem
Počet místností (proměnná y) 2 3 1 1 2 1 2 3 4
Celkem 4 1 1 2
3 3 3 1 10
Prostředkem grafické prezentace závislostí číselných znaků je korelační bodový graf. Body v grafu představují jednotlivé statistické jednotky, kterým odpovídají obměny příslušných statistických znaků na osách x a y. Poznámka: Když se vyskytne více statistických jednotek se stejnými obměnami statistických znaků, body se v bodovém korelačním grafu překrývají. Pro lepší názornost je možné v tomto případě použít pseudo-3D graf.
Počet letokruhů
Příklad: U nařezaných prken můžeme zkoumat závislost jejich tloušťky a počtu letokruhů. 12 10 8 6 4 2 0
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
Tloušťka prkna [cm]
Obr. 9.3 Korelační bodový graf na zkoumání závislosti tloušťky prken a počtu jejich letokruhů
6
9.4. Korelační a regresní úloha Korelační analýza má dvě základní úlohy: regresní úloha, korelační úloha. 9.4.1. Korelační úloha Analytický nástroj korelace se může použít k testování závislosti dvou číselných statistických znaků. Korelační úloha spočívá ve zkoumání těsnosti korelačního vztahu. Závislost znamená, že hodnoty jednoho znaku odpovídají přímo úměrně (kladná korelace) nebo neúměrně (záporná korelace) hodnotám ve druhého znaku. Mírou korelace je koeficient, nebo index korelace r. Má hodnoty od -1 do 1, udávající, jak přesně odpovídají předpokládané (očekávané) hodnoty, vyjádřené regresní funkcí - spojnicí trendu (trend, vývoj, směr, vyrovnání měřených veličin), skutečným datům. Spojnice trendu je nejspolehlivější v případě, že se hodnota indexu (koeficientu) korelace - spolehlivosti blíží nebo rovná hodnotě 1. Pokud jsou hodnoty obou znaků nezávislé, bude korelace blízká nule. Index (koeficient) korelace se vypočítá podle vztahu: n
r 1
( yi y ( xi ))2 i 1 n
(y i 1
i
n
yi
yi ) 2
y i 1
i
n
kde x je x-ová souřadnice datového bodu y je y-ová souřadnice datového bodu n je počet datových bodů Podle hodnoty Indexu (koeficientu) korelace určuje míru závislosti. Když bude mít Index (koeficient) korelace hodnoty: r r r r r
= = = = =
0,0 – 0,2 0,3 – 0,4 0,5 – 0,6 0,7 – 0,8 0,9 – 1,0
jedná se o žádnou nebo velmi slabou závislost jedná se o slabou jedná se o průměrnou závislost jedná se o silnou závislost jedná se o velmi silnou závislost
7
9.4.2. Regresní úloha Regresní úloha korelační analýzy má za cíl popsat průběh zkoumaného vztahu statistických znaků a použít její výsledky při prognózách. Jde o to, aby jsme vyjádřili průběh korelační závislosti t.j. změny závisle proměnné na změnách nezávisle proměnné. Tento vztah nazýváme regrese. Regresi popisujeme regresní funkcí.
R2 = regresní koeficient = koeficient spolehlivosti případné předpovědě Přesnost regresní funkce je přímo závislá na rozsahu souboru. Pomocí regresní analýzy, prodloužením spojnice trendu, se dají stanovit hodnoty za, nebo před zobrazenými daty. Tím se dá provést matematická předpověď. Přesnost matematického předvídání je úměrná velikosti korelační závislosti. K určení parametrů (koeficientů) regresní funkce se používá metoda nejmenších čtverců.
8
9.4.3. Metoda minimálních čtverců Význam metody minimálních čtverců Metoda minimálních čtverců je univerzální metodou stanovení (odhadu) parametrů b0 , b1 ,..., bm funkce nahrazující původní naměřené hodnoty yi závisle proměnné Y. Znamená to, že hledáme funkci, která má součet čtverců odchylek měřených údajů od teoretických co nejmenší. V geometrické představě to znamená, že hledáme takovou křivku, která co nejtěsněji přiléhá k jednotlivým bodům. Funkce této křivky by měla být co nejjednodušší, aby se dala snadno používat k výpočtu dalších potřebných hodnot. Tuto funkci nazýváme regresní funkcí. Původně neznámé koeficienty b j jsou parametry regresní funkce. Výběr typu funkce (tj. např. kvadratická, lomená apod.) je v kompetenci řešitele úlohy. Metoda minimálních čtverců nalezne pak parametry „nejlepší― funkce předem zvoleného typu. čtverec odchylky pozorované a vypočtené hodnoty závislé proměnné
každé pozorované hodnotě yi odpovídá
yi
hodnoty zavislé promenné Y
hodnota vypočtená
regresní funkce
pozorované hodnoty závislé proměnné yi
hodnoty nezávislé proměnné X Obr. 9.7 Grafické znázornění metody kritéria minimálních čtverců
9
y
Metoda minimálních čtverců minimalizuje součet čtverců odchylek pozorovaných (naměřených) hodnot závisle proměnné a zvolené regresní funkce. Spočívá tedy v hledání takové regresní funkce pro kterou bude platit vztah n
y y i 1
2
i
i
min
Platí pro funkce lineární i nelineární, jednoduché i vícenásobné. Je-li rozsah souboru roven n, je kritérium minimálních čtverců n
n
i 1
i 1
( yi yi ) 2 [ yi
m
b j f j ( xi )]2 min .
j 0
Dá se ukázat, že vyhovuje-li určitá funkce kritériu minimálních čtverců, splňuje auton maticky též
( yi yi ) 0
i 1 regresní funkce se kompenzuje).
(součet kladných a záporných odchylek kolem
Tato podmínka však regresní funkci neurčuje jednoznačně. Existuje jediná regresní funkce zvoleného typu, která pro konkrétní data vyhovuje podmínce minimálních čtverců.
Y
yi ´i
yi
X Obr. 9.8 Grafické znázornění kritéria minimálních čtverců
10
9.5. Základní typy regresních funkcí a jejich aplikace Regresní funkce - spojnice trendů může mít různý tvar. Nejčastěji se používají funkce: lineární, exponenciální, mocninná, logaritmická, polynomická, 9.5.1. Vyrovnání lineární funkcí. Lineární spojnice trendu je přizpůsobená přímka používaná u jednoduchých lineárních množin dat. Data jsou lineární, jestliže průběh jejich datových bodů připomíná přímku. Lineární spojnice trendu obvykle zobrazuje, že něco roste nebo klesá konstantní měrou
y a bx
Příklad: Vyrovnání výdajů věduazvýzkum HDP lineární funkcí Procentavývoje z HDP na na vědu
Slovensko EU
2,5
Procenta
2 y = 0,023x - 44,115 R2 = 0,9653
1,5
1
y = -0,025x + 50,645 R2 = 0,8929
0,5
0 1998
1999
2000
2001
2002
2003
2004
2005
2006
Roky
Obr. 9.9 Porovnání vývoje podílu vědy z HDP SR a EU
11
2007
9.5.2. Vyrovnání mocninnou funkcí Mocninná spojnice trendu je křivka používaná u dat porovnávajících stoupající hodnoty naměřené v určitých intervalech. Například zrychlení auta v intervalech po 1 sekundě. Mocninnou spojnici trendu nelze vytvořit, jestliže data obsahují nulové nebo záporné hodnoty. b
y ax
9.5.3. Vyrovnání logaritmickou funkcí Logaritmická spojnice trendu je přizpůsobená křivka používaná u dat, která rychle stoupají nebo klesají a postupně se vyrovnávají. U logaritmické spojnice trendu je možné použít kladné i záporné hodnoty.
y a ln( x) b 9.5.4. Vyrovnání polynomickou funkcí Polynomická spojnice trendu je křivka používaná u dat, která kolísají. a nedají se tedy aproximovat jednodušší funkcí. Stupeň polynomu může být určen počtem kolísání v datech nebo počtem zakřivení (maxim a minim) v křivce. Stupeň 2 má obvykle jeden vrchol. Stupeň 3 má obvykle jeden nebo dva vrcholy. Stupeň 4 má obvykle až tři vrcholy.
y a b1 x b2 x 2 ...... b6 x6 Příklad: Vyrovnání počtu požárů za roky 1996 – 2006 polynomem 20
Počty požárů ve stavebnictví v ČR 250 y = 1,428x 2 - 5730x + 6E+06 R2 = 0,9673
Počet požárů
200
150
100
50
0 1 994
1 996
1 998
2 000
2 002
2 004
2 006
Roky Obr. 9.9 Vývoj počtu požáru za roky 1996 - 2006
12
2 008
9.5.5. Vyrovnání exponenciální spojnicí Exponenciální spojnice trendu je křivka, která se používá v případě, že hodnoty dat stoupají nebo klesají ve stále větších krocích. Tuto spojnici nelze vytvořit, jestliže data obsahují nulové nebo záporné hodnoty.
y aebx Příklad Další graf udává statistický soubor vytvořený z reálně vysledovaných údajů v letecké dopravě. Počet smrtelných úrazů připadajících na 1 milion nalétaných kilometrů je vysledován v rocích 1950 až 2005 Soubor byl vyrovnán exponenciální funkci. Koeficient spolehlivosti R2 = 0.9682 je dost vysoký, aby se exponenciální funkce mohla použít pro statistické předvídání .
Počty požárů ve stavebnictví v ČR Graf smrtelných úrazů y = 5E+72e-0,08443x R2 = 0,9682
250 18
y = 1,428x 2 - 5730x + 6E+06 R2 = 0,9673
200
150
100
50
12
Úrazy
Počet požárů
15
9 6 3 0 1950
1960
1970
1980
1 998
2 000
Roky 2 002
0 1 994
1 996
1990
2 004
2000
2 006
2010
2 008
Roky Obr. 9.9 Vývoj smrtelných úrazů v letecké dopravě na 1 mil. nalétaných kilometrů za roky 1996 - 2007
Předvídané údaje jsou nesmírně cenné informace pro strategii krizového plánování. Tyto a obdobně vyhodnocené další vysledované informace se dají aplikovat na každé letiště. To umožňuje připravit odpovídající dimenzi místních záchranných sil a prostředků, připravit potřebnou kapacitu zdravotnických a technických zařízení, organizaci záchranné hasičské i lékařské služby, vytvořit si obraz o řídících pracích apod. 13
9.6. Asociační závislost Asociační závislost je závislost mezi dvěma kvalitativními alternativními (dvojnými) znaky: Tab. 9.5 Základní - datová tabulka na zkoumání asociační závislosti přítomnost znaku nepřítomnost znaku znak A a znak B b Tab. 9.6
Znak A a
Všeobecná asociační tabulka Znak B Celkem b β nab naβ
na
α
nαb
nαβ
nα
Celkem
nb
nβ
n
Koeficient asociace
Qab
Koeficient „korelace―
Rab
Odchylka od nezávislosti
nab n na nb nab n na nb nab n na nb na n nb n
nab
na nb n
Příklad: Soubor pracovníků podniku „B―, rok 2001,n = 450 alternativní znaky: A … očkování, B … onemocnění Očkování (A) ano ne
a Koeficient asociace
Qab
Onemocnění (B) ano ne b 12 323 53 62 65 385
nab n na nb nab n na nb
12 62 323 53 0,92 12 62 323 53
Koeficient asociace ukazuje vysoký stupeň účinnosti očkování.
14
335 115 450
9.7. Kontingenční závislost Kontingenční závislost mezi kvalitativními množnými znaky
Tab. 9.7 Všeobecná kontingenční tabulka Znak B Znak A
Celkem
b1 b2
bj
bl
a1
n11
n12
n1 j
n1l
n1
a2
n 21
n22
n2 j
n2 l
n 2
ai
ni1
ni 2
nij
nil
ni
ak
nk1
nk 2
nkj
nkl
nk
Celkem
n 1
n 2
n j
n l
n
Čtvercová kontingence 2
ni n j n n 2 ij k l k l k l n n nij2 n ij 2 n n n n n n n i 1 j 1 i i 1 j 1 i 1 j 1 i j i j j
Čuprovův koeficient kontingence
K
15
2
n k 1l 1
Příklad: U 350 zákazníků byla hodnocena spokojenost s poskytovanými službami vybrané firmy. Tab. 9.7 Kontingenční tabulka na zkoumání závislosti spokojenosti a využívání služeb zákazníky Zákazníci
Spokojenost se službami firmy ano ne
Celkem
Využívání
zřídka
10
210
220
služeb
často
20
10
30
velmi často
85
15
100
115
235
350
Celkem
102 2102 202 102 350 ( 115 220 235 220 115 30 235 30 2
852 152 ) 350 218,72 115 100 235 100
K
218,72 0 ,442 350 ( 3 1 )( 2 1 )
Z výsledku vyplývá, že existuje průměrný vztah (závislost) mezi spokojeností se službami firmy a frekvencí jejich využívání.
16