´ VAZBA STATISTICKA
Obsah 1
Korelacˇnı´ analy´za 1.1 Statisticka´ vazba . . . . . . . . . . . . . . . . . . . . . . . 1.2 Motivacˇnı´ prˇ´ıklady . . . . . . . . . . . . . . . . . . . . . . 1.3 Sdruzˇena´ distribucˇnı´ funkce a neza´vislost na´hodny´ch velicˇin 1.4 Charakteristiky statisticke´ vazby dvou na´hodny´ch velicˇin . . 1.5 Variancˇnı´ a korelacˇnı´ matice . . . . . . . . . . . . . . . . . 1.6 Oveˇrˇova´nı´ neza´vislosti . . . . . . . . . . . . . . . . . . . . 1.7 Prˇ´ıklad vyuzˇitı´ korelacˇnı´ analy´zy . . . . . . . . . . . . . . . 1.8 Vy´beˇrova´ variancˇnı´ matice . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Literatura Prˇ´ıklady k procvicˇenı´
1 1.1
. . . . . . . .
. . . . . . . .
1 1 1 2 4 5 6 7 7 9 10
Korelacˇnı´ analy´za Statisticka´ vazba
V prakticky´ch situacı´ch je velmi cˇasta´ u´loha rozhodnout, jaky´ je vza´jemny´ vztah dvou (nebo i vı´ce na´hodny´ch velicˇin), mluvı´me o tom, jaka´ je statisticka´ vazba mezi teˇmito na´hodny´mi velicˇinami. Pro popis intenzity statisticke´ vazby mezi na´hodny´mi velicˇinami a pro jejı´ cˇ´ıslene´ vyja´drˇenı´ se ve statistice pouzˇ´ıvajı´ metody korelacˇnı´ analy´zy, pro analyticky´ popis te´to vazby se pouzˇ´ıvajı´ metody regresnı´ analy´zy.
1.2
Motivacˇnı´ prˇ´ıklady
Za´kladnı´ u´lohu regresnı´ a korelacˇnı´ analy´zy lze jednodusˇe demonstrovat na na´sledujı´cı´ch dvou prˇ´ıkladech. 1. Na obra´zku 1 a) je graficky zna´zorneˇn ru˚st cen ve meˇsteˇ Taiwan v obdobı´ 1940 – 1946. Neza´visla´ promeˇnna´ X je prˇ´ıslusˇny´ rok sledova´nı´, za´visla´ promeˇnna´ (regresor) Y je index popisujı´cı´ na´ru˚st ceny. Je videˇt, zˇe uvedene´ body sledujı´ prˇiblizˇneˇ linea´rnı´ trend (s jednı´m odlehly´m bodem v roce 1943), ktery´ je v obra´zku zna´zorneˇny´ prˇ´ımkou a da´le, zˇe variabilita jednotlivy´ch bodu˚ kolem te´to prˇ´ımky je znacˇna´. Operacˇnı´ program Vzdeˇla´va´nı´ pro konkurenceschopnost Na´zev projektu: Inovace magisterske´ho studijnı´ho programu Fakulty ekonomiky a managementu Registracˇnı´ cˇı´slo projektu: CZ.1.07/2.2.00/28.0326 ˇ TEM C ˇ ESKE´ REPUBLIKY. ´ LNI´M FONDEM A STA´TNI´M ROZPOC PROJEKT JE SPOLUFINANCOVA´N EVROPSKY´M SOCIA
2. Na obra´zku 1 b) je zna´zorneˇna za´vislost brzdne´ dra´hy automobilu Y (meˇrˇena´ v metrech) na jeho rychlosti X (meˇrˇene´ v km/hod). Data byla zı´ska´na prˇi testova´nı´ kvality noveˇ vyrobeny´ch pneumatik. Z tohoto obra´zku je videˇt, zˇe brzdna´ dra´ha sleduje nelinea´rnı´ trend a variabilita nameˇrˇeny´ch hodnot kolem prolozˇene´ krˇivky je mala´. Zjednodusˇeneˇ rˇecˇeno, z obou obra´zku˚ jsou dobrˇe patrne´ cı´le korelacˇnı´ analy´zy, tedy popis velikosti statisticke´ vazby mezi X a Y , a cı´le regresnı´ analy´zy, tedy popis pru˚beˇhu te´to stochasticke´ vazby matematickou funkcı´.
Obra´zek 1: a) ‚ Index ru˚stu ceny ve meˇsteˇ Taiwan v obdobı´ 1940 – 1946, b) ‚ Za´vislost brzdne´ dra´hy automobilu na jeho rychlosti
1.3
Sdruzˇena´ distribucˇnı´ funkce a neza´vislost na´hodny´ch velicˇin
Prˇi popisu statisticke´ vazby mezi na´hodny´mi velicˇinami X a Y mohou nastat dveˇ krajnı´ situace. V prvnı´m prˇ´ıpadeˇ mu˚zˇe by´t vazba mezi promeˇnny´mi X a Y deterministicka´, tedy pevneˇ dana´ neˇjaky´m forma´lnı´m prˇedpisem. Tak je tomu trˇeba prˇi studiu fyzika´lnı´ch za´konitostı´, kdy naprˇ. ujetou dra´hu Y lze prˇesneˇ vyja´drˇit jako linea´rnı´ funkci cˇasu X (za dany´ch prˇesneˇ specifikovany´ch podmı´nek). Prˇi experimenta´lnı´m oveˇrˇova´nı´ te´to skutecˇnosti, jizˇ mohou by´t meˇrˇene´ velicˇiny ovlivneˇny na´hodnou chybou meˇrˇenı´ a graficky zna´zorneˇne´ nameˇrˇene´ hodnoty cˇasu X a ujete´ dra´hy Y jizˇ potom kolı´sajı´ v u´zky´ch mezı´ch kolem prˇ´ımky. Naru˚stajı´cı´ kolı´sa´nı´ hodnot promeˇnne´ Y v za´vislosti na hodnota´ch promeˇnne´ X bylo zna´zorneˇno na obra´zku 1 b), kdy sˇlo o popis za´vislosti brzdne´ dra´hy na rychlosti vozidla. Jesˇteˇ veˇtsˇ´ı kolı´sa´nı´, tedy jesˇteˇ mensˇ´ı statistickou vazbu mezi velicˇinami X a Y lze pozorovat na obra´zku 1 a), kdy index ru˚stu cen Y pomeˇrneˇ volneˇ linea´rneˇ za´visı´ na cˇase X. V druhe´m krajnı´m prˇ´ıpadeˇ mohou by´t obeˇ sledovaneˇ velicˇiny X a Y neza´visle´. Tak by tomu mohlo trˇeba by´t prˇi sledova´nı´ rychlosti vozidla Y a hmotnostı´ jeho rˇidicˇe X. Oveˇrˇova´nı´ neza´vislosti na´hodny´ch velicˇin je velmi cˇastou praktickou u´lohou, proto pojem neza´vislosti nejdrˇ´ıve forma´lneˇ zavedeme. Budeme uvazˇovat dveˇ na´hodne´ velicˇiny X a Y a pomocı´ nich zavedeme dva na´hodne´ jevy X ≤ x a Y ≤ y. Kdyzˇ bude pravdeˇpodobnost spolecˇne´ho nastoupenı´ obou teˇchto jevu˚ rovna soucˇinu jejich pravdeˇpodobnostı´ pro libovolne´ rea´lne´ hodnoty x a y, budeme rˇ´ıkat, zˇe na´hodne´ velicˇiny X a Y jsou neza´visle´. Jednodusˇeji lze neza´vislost na´hodny´ch velicˇin zave´st pomocı´ tzv. sdruzˇene´ distribucˇnı´ funkce F (x, y), ktera´ je rovna pravdeˇpodobnosti spolecˇne´ho nastoupenı´ jevu˚ X ≤ x a Y ≤ y. Tedy F (x, y) = Operacˇnı´ program Vzdeˇla´va´nı´ pro konkurenceschopnost Na´zev projektu: Inovace magisterske´ho studijnı´ho programu Fakulty ekonomiky a managementu Registracˇnı´ cˇı´slo projektu: CZ.1.07/2.2.00/28.0326
Statisticka´ vazba
2 , σY2 , ρ) pro ru˚zne´ hodnoty Obra´zek 2: Hustota dvourozmeˇrne´ho norma´lnı´ho rozdeˇlenı´ N2 (µX , µY , σX 2 , σY2 a ρ parametru˚ µX , µY , σX
P (X ≤ x ∧ Y ≤ y). Obecneˇ lze rˇ´ıci, zˇe sdruzˇena´ distribucˇnı´ funkce F (x, y) vycˇerpa´vajı´cı´m zpu˚sobem popisuje pravdeˇpodobnostnı´ chova´nı´ obou na´hodny´ch velicˇin X a Y . Neˇktere´ dvojice na´hodny´ch velicˇin majı´ sdruzˇenou distribucˇnı´ funkce popsanou prˇesnou matematickou funkcı´ podobneˇ, jako tomu bylo u distribucˇnı´ch funkcı´ jednotlivy´ch na´hodny´ch velicˇin. Prˇ´ıkladem takove´ distribucˇnı´ funkce je distribucˇnı´ funkce dvourozmeˇrne´ho norma´lnı´ho rozdeˇlenı´. 2 , DY = σY2 Toto rozdeˇlenı´ za´visı´ na strˇednı´ch hodnota´ch EX = µX , EY = µY , rozptylech DX = σX a na parametru ρ, jeho vy´znam bude vysveˇtlen v na´sledujı´cı´m odstavci. Toto rozdeˇlenı´ je zobecneˇnı´m 2 , σY2 , ρ). drˇ´ıve zavedene´ho jednorozmeˇrne´ho norma´lnı´ho rozdeˇlenı´, budeme jej znacˇit N2 (µX , µY , σX Grafem jeho hustoty je zna´ma´ zvonovita´ funkce a je zna´zorneˇna na obra´zku 2 pro ru˚zne´ hodnoty 2 parametru˚ µX , µY , σX , σY2 a ρ. Po zavedenı´ sdruzˇene´ distribucˇnı´ funkce lze snadno charakterizovat neza´vislost na´hodny´ch velicˇin X a Y . Na´hodne´ velicˇiny X a Y jsou neza´visle´, pra´veˇ kdyzˇ mezi distribucˇnı´ funkcı´ sdruzˇenou a distribucˇnı´mi funkcemi FX (x) na´hodne´ velicˇiny X a FY (y) na´hodne´ velicˇiny Y (tzv. margina´lnı´mi distribucˇnı´mi funkcemi) platı´ multiplikativnı´ vztah F (x, y) = FX (x) · FY (y) pro libovolne´ hodnoty promeˇnny´ch x a y. Podobneˇ lze neza´vislost charakterizovat pomocı´ sdruzˇene´ hustoty ve spojite´m prˇ´ıpadeˇ nebo pomocı´ sdruzˇene´ pravdeˇpodobnostnı´ funkce v diskre´tnı´m prˇ´ıpadeˇ. V diskre´tnı´m prˇ´ıpadeˇ, kdy obor hodnot na´hodne´ velicˇiny X je nejvy´sˇe spocˇetna´ mnozˇina M1 a obor hodnot na´hodne´ velicˇiny Y je nejvy´sˇe spocˇetna´ mnozˇina M2 zava´dı´me sdruzˇenou pravdeˇpodobnostnı´ funkci dvojice X a Y vztahem p(x, y) = P (X = x ∧ Y = y) pro (x, y) ∈ M1 × M2 . Jsou-li potom 3
Statisticka´ vazba p1 (x) = P (X = x) a p2 (y) = P (Y = y) pravdeˇpodobnostnı´ funkce velicˇin X a Y , lze jednodusˇe neza´vislost diskre´tnı´ch na´hodny´ch velicˇin X a Y charakterizovat vztahem p(x, y) = p1 (x)p2 (y) pro (x, y) ∈ M1 × M2 . Analogicky ve spojite´m prˇ´ıpadeˇ, lze pravdeˇpodobnostnı´ chova´nı´ na´hodne´ velicˇiny popsat hustotou. Sdruzˇene´ distribucˇnı´ funkci F (x, y) pak ve spojite´m prˇ´ıpadeˇ odpovı´da´ hustota f (x, y), kterou lze 2 F (x,y) stanovit podle vzorce f (x, y) = ∂ ∂x∂y pro vsˇechna rea´lna´ x a y, kde uvedena´ derivace existuje. Je-li f1 (x) hustota na´hodne´ velicˇiny X a f2 (y) hustota na´hodne´ velicˇiny Y, lze jednodusˇe neza´vislost spojity´ch na´hodny´ch velicˇin X a Y charakterizovat vztahem f (x, y) = f1 (x)f2 (y) pro libovolne´ rea´lne´ hodnoty x a y. Prˇi popisu skupinove´ neza´vislosti komplexu k na´hodny´ch velicˇin X1 , X2 , . . . , Xk se postupuje podobneˇ, zavede se sdruzˇena´ distribucˇnı´ funkce F (x1 , x2 , . . . , xk ) = P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ · · · ∧ Xk ≤ xk ) na´hodny´ch velicˇin X1 , X2 , . . . , Xk . Pak se na´hodne´ velicˇiny X1 , X2 , . . . , Xk povazˇujı´ za neza´visle´, kdyzˇ platı´, zˇe F (x1 , x2 , . . . , xk ) = F1 (x1 ) · F2 (x2 ) · · · Fk (xk ), kde distribucˇnı´ funkce na prave´ straneˇ jsou margina´lnı´ distribucˇnı´ funkce na´hodny´ch velicˇin X1 , X2 , . . . , Xk . V te´to souvislosti se k-tice na´hodny´ch velicˇin (X1 , X2 , . . . , Xk ) nazy´va´ na´hodny´m vektorem a znacˇ´ı se X . Na´hodne´ vektory budeme da´le v tomto textu zapisovat do sloupce, tedy budeme psa´t X1 X2 X = (X1 , X2 , . . . , Xk )0 = .. , . Xk prˇicˇemzˇ (X1 , X2 , . . . , Xk )0 znacˇ´ı transpozici vektoru (X1 , X2 , . . . , Xk ). Analogicky lze neza´vislost diskre´tnı´ch (nebo spojity´ch) na´hodny´ch velicˇin (X1 , X2 , . . . , Xk ) charakterizovat pomocı´ sdruzˇene´ pravdeˇpodobnostnı´ funkce (nebo sdruzˇene´ hustoty).
1.4
Charakteristiky statisticke´ vazby dvou na´hodny´ch velicˇin
Nejdrˇ´ıve se budeme veˇnovat statisticke´ vazbeˇ mezi dveˇma na´hodny´mi velicˇinami X a Y . Popı´sˇeme ji pomocı´ kovariance a korelacˇnı´ho koeficientu. Kovarianci na´hodny´ch velicˇin X a Y oznacˇ´ıme cov(X, Y ) a zavedeme ji pomocı´ strˇednı´ hodnoty soucˇinu odchylek obou na´hodny´ch velicˇin od jejich strˇednı´ hodnoty. Tedy vztahem cov(X, Y ) = E(X − EX)(Y − EY ) = E(X − µX )(Y − µY ). Kovariance cov(X, Y ) na´hodny´ch velicˇin naby´va´ hodnot mezi −σX · σY a σX · σY . Pro na´hodnou velicˇinu X platı´, zˇe cov(X, X) = DX. Kdyzˇ jsou na´hodne´ velicˇiny X a Y neza´visle´, je jejich kovariance rovna nule. V prˇ´ıpadeˇ, zˇe vı´me, zˇe sdruzˇene´ rozdeˇlenı´ na´hodny´ch velicˇin X a Y je norma´lnı´, je cov(X, Y ) rovna nule, pra´veˇ kdyzˇ jsou na´hodne´ velicˇiny X a Y neza´visle´. Pomocı´ kovariance potom zavedeme korelacˇnı´ koeficient na´hodny´ch velicˇin X a Y , neˇkdy se nazy´va´ Pearsonu˚v korelacˇnı´ koeficient a znacˇ´ı se ρ nebo detailneˇji ρ(X, Y ). Je definova´n vztahem ρ(X, Y ) =
cov(X, Y ) . σX · σY 4
Statisticka´ vazba Korelacˇnı´ koeficient je snad nejcˇasteˇji uzˇ´ıvanou mı´rou statisticke´ vazby mezi na´hodny´mi velicˇinami X a Y . Jeho vy´hodou oproti kovarianci je, zˇe naby´va´ hodnot mezi −1 a 1. Kdyzˇ naby´va´ hodnoty 1, je mezi X a Y prˇ´ımy´ linea´rnı´ vztah, kdyzˇ naby´va´ hodnoty −1, je mezi X a Y neprˇ´ımy´ linea´rnı´ vztah. V obou teˇchto prˇ´ıpadech lze pru˚beˇh statisticke´ vazby mezi Y a X popsat prˇ´ımkou a pozorovane´ hodnoty dvojice X a Y lezˇ´ı na te´to prˇ´ımce. Tedy v te´to situaci je mezi Y a X deterministicky´ linea´rnı´ vztah. V prˇ´ıpadeˇ, zˇe hodnota korelacˇnı´ho koeficientu je rovna nule, rˇ´ıka´me, zˇe na´hodne´ velicˇiny X a Y jsou nekorelovane´. Pro na´hodnou velicˇinu X platı´, zˇe korelacˇnı´ koeficient ρ(X, X) = 1. 2 V prˇ´ıpadeˇ, zˇe sdruzˇene´ rozdeˇlenı´ na´hodny´ch velicˇin X a Y je norma´lnı´ N2 (µX , µY , σX , σY2 , ρ), je parametr ρ roven korelacˇnı´mu koeficientu ρ(X, Y ). Da´le v tomto prˇ´ıpadeˇ platı´, zˇe korelacˇnı´ koeficient ρ(X, Y ) = 0, pra´veˇ kdyzˇ jsou obeˇ velicˇiny X a Y neza´visle´. Velikost korelacˇnı´ho koeficientu urcˇuje, jak silna´ je statisticka´ vazba mezi velicˇinami X a Y . Cˇ´ım je absolutnı´ hodnota korelacˇnı´ho koeficientu blı´zˇe 1, tı´m je sledovana´ vazba mezi X a Y veˇtsˇ´ı. Druha´ mocnina korelacˇnı´ho koeficientu se nazy´va´ koeficientem determinace. Jeho hodnota vyja´drˇena´ v procentech, budeme ji znacˇit d, uda´va´ v procentech variabilitu promeˇnne´ Y , kterou lze vysveˇtlit variabilitou promeˇnne´ X. Tedy d = 100ρ2 . Celkoveˇ je mozˇne´ rˇ´ıci, zˇe kovariance a korelacˇnı´ koeficient jsou kvalitnı´ mı´ry statisticke´ vazby mezi na´hodny´mi velicˇinami X a Y v situaci, kdy lze tuto vazbu charakterizovat jako linea´rnı´.
1.5
Variancˇnı´ a korelacˇnı´ matice
Popis statisticke´ vazby mezi k na´hodny´mi velicˇinami X1 , X2 , . . . , Xk se cˇasto jednodusˇe prova´dı´ pomocı´ popisu statisticke´ vazby mezi dvojicemi promeˇnny´ch, tedy zavedou se kovariance a korelacˇnı´ koeficienty mezi velicˇinami Xi a Xj pro vsˇechny mozˇne´ dvojice indexu˚ i a j a ty se pak usporˇa´dajı´ do matice. Matici kovariancı´ a rozptylu˚ DX1 cov(X1 , X2 ) . . . cov(X1 , Xk ) cov(X2 , X1 ) DX2 . . . cov(X2 , Xk ) X) = V ar(X .. .. .. . . . . . . cov(Xk , X1 ) cov(Xk , X2 ) . . . DXk pak nazy´va´me variancˇnı´ maticı´ na´hodne´ho vektoru X = (X1 , X2 , . . . , Xk )0 . Matici korelacˇnı´ch koeficientu˚ 1 ρ(X1 , X2 ) . . . ρ(X1 , Xk ) ρ(X2 , X1 ) 1 . . . ρ(X2 , Xk ) X) = Cor(X .. .. .. .. . . . . ρ(Xk , X1 ) ρ(Xk , X2 ) . . . 1 pak nazy´va´me korelacˇnı´ maticı´ na´hodne´ho vektoru X = (X1 , X2 , . . . , Xk )0 . Variancˇnı´ matice popisuje pravdeˇpodobnostnı´ chova´nı´ na´hodne´ho vektoru podobneˇ, jako rozptyl popisuje pravdeˇpodobnostnı´ chova´nı´ na´hodne´ velicˇiny. Korelacˇnı´ matice (a podobneˇ variancˇnı´ matice) pak popisuje strukturu statisticky´ch vazeb mezi studovany´mi na´hodny´mi velicˇinami. Pro popis statisticke´ vazby na´hodne´ velicˇiny Y na na´hodne´m vektoru X lze zave´st koeficient mnohona´sobne´ korelace ρ(Y, X ) . Je to vlastneˇ korelacˇnı´ koeficient mezi na´hodnou velicˇinou Y a 5
Statisticka´ vazba jejı´ nejlepsˇ´ı linea´rnı´ predikcı´ zı´skanou pomocı´ na´hodne´ho vektoru X . Konecˇneˇ pro popis statisticke´ vazby mezi na´hodny´mi velicˇinami Y a Z prˇi soucˇasne´ eliminaci vlivu, ktery´ mu˚zˇe by´t zpu˚sobem X ). Kromeˇ dalsˇ´ımi velicˇinami X1 , X2 , . . . , Xk se zava´deˇjı´ tzv. parcia´lnı´ korelacˇnı´ koeficienty ρ(Y, Z|X toho existuje rˇada dalsˇ´ıch meˇr statisticke´ vazby (naprˇ. Spearmanu˚v korelacˇnı´ koeficient, Kendallu˚v korelacˇnı´ koeficient apod.), ktere´ se uzˇ´ıvajı´ v za´vislosti na tom, s jaky´m typem na´hodny´ch velicˇin se pracuje. Bude o nich pojedna´no pozdeˇji.
1.6
Oveˇrˇova´nı´ neza´vislosti
Budeme prˇedpokla´dat, zˇe sledujeme dveˇ na´hodne´ velicˇiny X a Y a cı´lem je oveˇrˇit jejich neza´vislost. K tomu porˇ´ıdı´me datovy´ soubor, kdy budeme na n neza´visly´ch statisticky´ch jednotka´ch pozorovat hodnoty obou znaku˚. V matematicke´ terminologii to znamena´, zˇe provedeme na´hodny´ vy´beˇr rozsahu n ze sdruzˇene´ho rozdeˇlenı´ na´hodny´ch velicˇin X a Y . Oznacˇ´ıme xi a yi pozorova´nı´ dvojice X a Y zjisˇteˇne´ na i-te´ statisticke´ jednotce, i = 1, 2, . . . , n. Z teˇchto hodnot potom vypocˇteme vy´beˇrovy´ pru˚meˇr x¯ znaku X a vy´beˇrovy´ pru˚meˇr y¯ znaku Y podle vzorcu˚ n
n
1X a y¯ = yi . n i=1
1X xi x¯ = n i=1
Lze uka´zat, zˇe platı´ E x¯ = µx , E y¯ = µy . To znamena´, zˇe hodnoty pru˚meˇru˚ kolı´sajı´ kolem nezna´my´ch odhadovany´ch strˇednı´ch hodnot µx , µy a takove´ odhady se nazy´vajı´ nestranne´ nebo nevychy´lene´. Da´le stanovı´me vy´beˇrove´ rozptyly sx a sy podle vzorcu˚ n
sx =
n
1 X (xi − x¯)2 n − 1 i=1
a
sy =
1 X (yi − y¯)2 . n − 1 i=1
Podobneˇ jako pro vy´beˇrove´ pru˚meˇry platı´ i pro vy´beˇrove´ rozptyly sx a sy , zˇe jsou nevychy´leny´mi 2 odhady rozptylu˚ σX a σY2 . Konecˇneˇ vypocˇteme vy´beˇrovou kovarianci sxy podle vzorce n
sxy
1 X (xi − x¯)(yi − y¯). = n − 1 i=1
Uvedeny´ odhad je opeˇt nevychy´leny´. Konecˇneˇ stanovı´me vy´beˇrovy´ korelacˇnı´ koeficient rxy podle vzorce sxy rxy = . (1) sx sy Tento odhad jizˇ nenı´ nevychy´leny´, ale pro velke´ hodnoty rozsahu vy´beˇru n je prˇiblizˇneˇ nevychy´leny´, to znamena´, zˇe jeho hodnoty kolı´sajı´ kolem nezna´me´ hodnoty korelacˇnı´ho koeficientu ρ(X, Y ). Oveˇrˇit neza´vislost znaku˚ X a Y lze prove´st za prˇedpokladu, zˇe sdruzˇene´ rozdeˇlenı´ na´hodny´ch 2 velicˇin X a Y je norma´lnı´ N2 (µX , µY , σX , σY2 , ρ). Pak je neza´vislost ekvivalentnı´ nekorelovanosti a lze ji oveˇrˇit statisticky´m testem, ktery´ vycha´zı´ z testovacı´ statistiky t= p
√ rxy n − 2. 2 1 − rxy 6
Statisticka´ vazba Kdyzˇ platı´, zˇe |t| > t1− α2 (n−2), zamı´ta´me na hladineˇ vy´znamnosti α hypote´zu neza´vislosti na´hodny´ch velicˇin X a Y a za´vislost X a Y povazˇujeme za statisticky proka´zanou na hladineˇ vy´znamnosti α. Symbolem t1− α2 (n−2) rozumı´me (1− α2 )-kvantil Studentova t-rozdeˇlenı´ o n−2 stupnı´ch volnosti (pro stanovenı´ kvantilu˚ lze pouzˇ´ıt prakticky kazˇdy´ dostupny´ statisticky´ software ‚ naprˇ. Excel, Statistica, MATLAB apod.).
1.7
Prˇ´ıklad vyuzˇitı´ korelacˇnı´ analy´zy
Prˇi sledova´nı´ provozu firmy po zavedenı´ nove´ vy´robnı´ linky byl po dobu 7 meˇsı´cu˚ sledova´n pocˇet hodin provozu te´to linky ‚ promeˇnna´ X a za´rovenˇ meˇsı´cˇnı´ na´klady na jejı´ u´drzˇbu v tisı´cı´ch Kcˇ ‚ promeˇnna´ Y . Vy´sledky jsou zaznamena´ny v tabulce 1. Cı´lem je zjistit, jak pocˇet hodin provozu linky koreluje s na´klady na jejı´ provoz a otestovat, zda statisticka´ vazba mezi teˇmito promeˇnny´mi je vy´znamna´. xi yi
275 149
350 170
250 140
325 164
375 192
400 200
300 165
Tabulka 1: Pocˇet hodin provozu vy´robnı´ linky (promeˇnna´ X) v za´vislosti na meˇsı´cˇnı´ch na´kladech na jejı´ u´drzˇbu (promeˇnna´ Y )
ˇ esˇenı´: Uzˇitı´m vy´sˇe uvedeny´ch vzorcu˚ snadno zjistı´me, zˇe x¯ = 325, y¯ = 168,571, sx = 54,006, R sy = 21,493, rxy = 0,973 a d = 94,6. Za prˇedpokladu normality lze prove´st test neza´vislosti obou velicˇin. Zvolı´me hladinu vy´znamnosti α = 0,05, vypocˇteme t = 9,387 a ve statisticky´ch tabulka´ch najdeme kvantil t1− α2 (n−2) = t0,975 (5) = 2,571 Studentova t-rozdeˇlenı´ o n−2 = 5 stupnı´ch volnosti. Protozˇe |t| > t1− α2 (n − 2), zamı´ta´me na hladineˇ vy´znamnosti α = 0,05 hypote´zu o neza´vislosti obou velicˇin X a Y . Za´rovenˇ lze rˇ´ıci, zˇe na´klady na u´drzˇbu linky lze z d = 94,6 procent vysveˇtlit dobou provozu linky. Zbyle´ procento odpovı´da´ jiny´m nekontrolovany´m vlivu˚m.
1.8
Vy´beˇrova´ variancˇnı´ matice
Na za´veˇr tohoto odstavce jesˇteˇ zmı´nı´me vy´pocˇet vy´beˇrove´ variancˇnı´ a korelacˇnı´ matice na´hodne´ho vektoru X = (X1 , X2 , . . . , Xk )0 . Podobneˇ jako v prˇ´ıpadeˇ dvou na´hodny´ch velicˇin, budeme prˇedpokla´dat, zˇe je na n statisticky´ch jednotka´ch pozorova´n vektor X . Vy´sledkem teˇchto pozorova´ni je potom datova´ matice x11 . . . x1k .. . D = ... . . . . xn1 . . . xnk V jejı´m i-te´m rˇa´dku je pozorova´nı´ vektoru X , na i-te´ statisticke´ jednotce a v j-te´m sloupci jsou pozorova´nı´ promeˇnne´ Xj na vsˇech statisticky´ch jednotka´ch. Vy´beˇrova´ variancˇnı´ matice je matice X ), kde kovariance cov(Xi , Xj ) jsou nahrazeny vy´beˇrovy´mi proteˇjsˇky sij . Vy´beˇrovou variancˇnı´ V ar(X
7
Statisticka´ vazba matici budeme znacˇit S a lze ji stanovit ze vzorce 1 1 0 S= D I − E D, n−1 n kde I je jednotkova´ matice typu n × n a E je matice samy´ch jednicˇek typu n × n. Podobneˇ vy´beˇrovou korelacˇnı´ matici oznacˇ´ıme R a lze ji stanovit podle vzorce R = Diag −1 (s1 , s2 , . . . , sk ) · S · Diag −1 (s1 , s2 , . . . , sk ), kde Diag −1 (s1 , s2 , . . . , sk ) znacˇ´ı inverznı´ matici k diagona´lnı´ matici Diag Diag(s1 , s2 , . . . , sk ) s prvky √ si = sii , i = 1, 2 . . . , n, na hlavnı´ diagona´le.
8
Statisticka´ vazba
Literatura Za´kladnı´ MANN, P.S. Introductory Statistics. 6th edition. Hoboken: Wiley, 2007. ISBN 978-0-471-75530-2. ´ DL, P. Matematika pro studenty ekonomie. 1. vyd. Grada 2010. ISBN 978-80MOUCˇKA, J., RA 247-3260-2. NEUBAUER, J., SEDLACˇI´K, M., KRˇI´Zˇ, O. Za´klady statistiky – Aplikace v technicky´ch a ekonomicky´ch oborech. Grada 2012.ISBN: 978-80-247-4273-1. ˇ EZANKOVA ´ , H. Analy´za dat z dotaznı´kovy´ch sˇetrˇenı´. 2. vyda´nı´, Professional Publishing, 2010. R ISBN: 9788074310195.
Doporucˇena´ AGRESTI, A. Categorical Data Analysis. Second Edition. Wiley 2002. ISBN: 0-471-36093-7. ANDEˇL, J. Statisticke metody. 3. vyda´nı´. Praha: Matfyzpress, 2003. ISBN 80-86732-08-8. ANDEˇL, J. Za´klady matematicke´ statistiky. 2. vyd. Praha: Matfyzpress, 2007, 358 s. ISBN 97880-7378-001-2. ´ GNER, M. Integra´lnı´ pocˇet funkcı´ jedne´ promeˇnne´. 1. vyda´nı´. Brno: UO, 2005,126 s. ISBN VA 80-7231-025-9. ´ GNER, M., KASˇTA ´ NKOVA ´ , V. Posloupnosti a rˇady. 1. vyda´nı´. Brno: UO, 2006. ISBN 80VA 7231-131-X.
9
Statisticka´ vazba
Prˇ´ıklady k procvicˇenı´ Prˇ´ıklad 1.1 Na´hodne´ velicˇiny X a Y majı´ sdruzˇenou hustotu f (x, y) = x + y pro 0 < x < 1, 0 < y < 1, jinak je tato hustota rovna 0. Stanovte korelacˇnı´ koeficient %(X, Y ). Prˇ´ıklad 1.2 Zjisˇt’ovalo se kolik mg kyseliny mle´cˇne´ je ve 100 ml krve u matek prvorodicˇek (hodnoty Xi ) a u jejich novorozencu˚ (hodnoty Yi ). Byly zı´ska´ny vy´sledky uvedene´ v na´sledujı´cı´ tabulce: Xi Yi
40 33
64 46
34 15 23 12
57 56
45 40
Vypocˇteˇte vy´beˇrovy´ korelacˇnı´ koeficient a rozhodneˇte, zda je mezi mnozˇstvı´m kyseliny mle´cˇne´ v krvi matek a v krvi jejich novorozencu˚ statisticky vy´znamny´ rozdı´l. Prˇ´ıklad 1.3 Zjisˇt’ovalo se jak za´visı´ ve vybrany´ch evropsky´ch zemı´ch spotrˇeba alkoholu (promeˇnna´ X)a u´mrtnost na ciro´zu jater (pocˇet zemrˇely´ch na tuto diagno´zu na 100 000 obyvatel - promeˇnna´ ´ daje jsou prˇevzaty z monografie Andeˇl: Statisticke´ metody. Byly zı´ska´ny vy´sledky uvedene´ v Y ). U na´sledujı´cı´ tabulce: Zemeˇ X Y)
FIN 3,9 3,6
NOR 4,2 4,3
IRL 5,6 3,4
NLD 5,7 3,7
SWE 6,6 7,2
GBR 7,2 3,0
BEL 10,8 12,3
AUT 10,9 7,0
DEU 12,3 23,7
ITA 15,7 23,6
FRA 24,7 46,1
´ daje jsou prˇevzaty z monografie Andeˇl: Statisticke´ metody. Vypocˇteˇte vy´beˇrovy´ korelacˇnı´ koeficient a U rozhodneˇte, zda je mezi mnozˇstvı´m spotrˇeby alkoholu a u´mrtnostı´ na ciro´zu jater statisticky vy´znamny´ rozdı´l. Prˇ´ıklad 1.4 V tabulce nı´zˇe jsou uvedena data podle monografie Andeˇl: Statisticke´ metody o pocˇtu u´mrtı´ v Londy´neˇ (hodnoty promeˇnne´ Y ) od 1. do 15. 12. 1952, kdy Londy´n postihla mimorˇa´dneˇ silna´ mlha. Da´le jsou uvedeny hodnoty promeˇnne´ X, ktera´ prˇedstavuje pru˚meˇrne´ znecˇisˇteˇnı´ vzduchu v County Hall uva´deˇne´ v mg/m3 a hodnoty promeˇnne´ Z, ktera´ prˇedstavuje pru˚meˇrny´ obsah oxidu sirˇicˇite´ho (pocˇet cˇa´stic na jeden milion). Den
Yi
xi
zi
Den
Yi
xi
zi
1
112
0,30
0,09
9
430
1,22
0,47
2
140
0,49
0,16
10
274
1,22
0,47
3
143
0,61
0,22
11
255
0,32
0,22
4
120
0,49
0,14
12
236
0,29
0,23
5
196
2,64
0,75
13
256
0,50
0,26
6
294
3,45
0,86
14
222
0,32
0,16
7
513
4,46
1,34
15
213
0,32
0,16
8
518
4,46
1,34 10
Statisticka´ vazba Stanovte korelacˇnı´ koeficienty r(X, Y ), r(X, Z) a r(Y, Z) a otestujte hypote´zy, zˇe mezi dvojicemi promeˇnny´ch je statisticky vy´znamna´ za´vislost.
11