SEMINÁRNÍ PRÁCE
Zadání:
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
Data:
Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné kategoriální, alespoň 2 proměnné číselné spojité a 2 proměnné číselné nespojité).
Statistické metody:
1) Vypočítejte a popište základní charakteristiky jedné číselné spojité a jedné číselné nespojité proměnné, nakreslete vhodné grafy. 2) Pro zkoumání vztahů mezi proměnnými použijte: a) kontingenční tabulku b) analýzu rozptylu (nepovinné) c) korelační tabulku d) jednoduchou regresní analýzu e) vícenásobnou regresní analýzu 3) Výsledky okomentujte a doplňte vhodnými grafy.
Průzkum dovolených, strávených v zahraničí v roce 2006, provedený v obci Vysoké Mýto Pozorování
Cestovní kancelář
Destinace
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
žádná žádná CK Union CK Sunny Day žádná CK Sunny Day CK Jiří Kalousek žádná CK Uion žádná CK Sunny Day žádná žádná CK Union CK Union CK Jiří Kalousek CK Sunny Day CK Union CK Jiří Kalousek žádná CK Jiří Kalousek žádná CK Sunny Day CK Union CK Jiří Kalousek žádná CK Union žádná CK Union CK Sunny Day
Chorvatsko Irsko Francie Španělsko Norsko Chorvatsko Španělsko Francie Chorvatsko Norsko Španělsko Francie Chorvatsko Francie Španělsko Chorvatsko Francie Norsko Španělsko Irsko Francie Chorvatsko Španělsko Francie Španělsko Chorvatsko Norsko Francie Chorvatsko Španělsko
Délka pobytu v zahraničí 12 13 10 12 20 10 10 12 12 25 12 5 13 10 10 10 15 10 10 29 5 13 10 11 10 11 10 11 11 12
Věk
Cena pobytu v zahraničí
Měsíční příjem
39 28 53 48 24 37 44 39 41 26 35 25 28 31 42 37 55 47 50 22 33 46 38 20 34 46 27 29 49 38
4 900,00 Kč 18 500,00 Kč 6 330,00 Kč 11 990,00 Kč 20 000,00 Kč 14 790,00 Kč 7 789,00 Kč 6 500,00 Kč 6 580,00 Kč 22 500,00 Kč 15 390,00 Kč 4 000,00 Kč 4 300,00 Kč 5 800,00 Kč 8 999,00 Kč 8 699,00 Kč 6 590,00 Kč 10 380,00 Kč 5 989,00 Kč 23 000,00 Kč 6 999,00 Kč 5 500,00 Kč 9 790,00 Kč 6 330,00 Kč 7 299,00 Kč 4 000,00 Kč 10 380,00 Kč 5 500,00 Kč 6 580,00 Kč 12 490,00 Kč
12 600,00 Kč 25 600,00 Kč 9 400,00 Kč 12 400,00 Kč 22 400,00 Kč 14 400,00 Kč 24 200,00 Kč 16 800,00 Kč 10 200,00 Kč 23 800,00 Kč 17 400,00 Kč 13 000,00 Kč 11 400,00 Kč 15 400,00 Kč 14 600,00 Kč 21 500,00 Kč 14 400,00 Kč 16 400,00 Kč 10 600,00 Kč 23 800,00 Kč 16 000,00 Kč 14 600,00 Kč 16 800,00 Kč 12 800,00 Kč 13 800,00 Kč 12 400,00 Kč 11 600,00 Kč 18 400,00 Kč 17 000,00 Kč 19 600,00 Kč
1) Vypočítejte a popište základní charakteristiky jedné číselné nespojité a jedné číselné spojité proměnné, nakreslete vhodné grafy. Pozorování 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Délka pobytu v zahraničí 12 13 10 12 20 10 10 12 12 25 12 5 13 10 10
Cena pobytu v zahraničí
Pozorování
4 900,00 Kč 18 500,00 Kč 6 330,00 Kč 11 990,00 Kč 20 000,00 Kč 14 790,00 Kč 7 789,00 Kč 6 500,00 Kč 6 580,00 Kč 22 500,00 Kč 15 390,00 Kč 4 000,00 Kč 4 300,00 Kč 5 800,00 Kč 8 999,00 Kč
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Délka pobytu Cena pobytu v zahraničí v zahraničí 10 15 10 10 29 5 13 10 11 10 11 24 11 11 12
8 699,00 Kč 6 590,00 Kč 10 380,00 Kč 5 989,00 Kč 23 000,00 Kč 6 999,00 Kč 5 500,00 Kč 9 790,00 Kč 6 330,00 Kč 7 299,00 Kč 4 000,00 Kč 10 380,00 Kč 5 500,00 Kč 6 580,00 Kč 12 490,00 Kč
a) Délka pobytu v zahraničí – číselná nespojitá proměnná One-Way Frequencies délka pobytu
Frequency
Percent
Cumulative Frequency
Cumulative Percent
5
2
6.67
2
6.67
10
10
33.33
12
40.00
11
4
13.33
16
53.33
12
6
20.00
22
73.33
13
3
10.00
25
83.33
15
1
3.33
26
86.67
20
1
3.33
27
90.00
24
1
3.33
28
93.33
25
1
3.33
29
96.67
29
1
3.33
30
100.00
Původně nesetříděná data jsme uspořádali do tabulky rozdělení četností. Z ní můžeme vyvodit např. následující závěry: - v souboru jsou 2 osoby, které strávili v zahraničí 5 dní, 10 osob, které pobývali v zahraničí 10 dní, 4 osoby, které strávili v cizině11 dní atd. - osoby, které pobývali na dovolené 5 dní tvoří 6,67% všech dotázaných osob, osoby, které strávili v zahraničí 10 dní, tvoří 33,33% všech dotázaných atd.
-
2 osoby strávili v zahraničí 5 dní, což je 6, 67% všech dotázaných, 12 osob strávilo v zahraničí 5 nebo 10 dní, což je 40 % všech dotázaných, ani jedna osoba nestrávila v zahraničí více než 29 dní, což znamená, že všechny dotázané osoby pobývali v zahraničí 29 a méně dní.
Tento graf znázorňuje vertikální sloupcový graf četností pro znak délka pobytu v zahraničí.
V následujících tabulkách se uvádějí míry úrovně a to v tomto pořadí: - největší hodnota, aritmetický průměr, nejmenší hodnota, dolní kvartil, medián, horní kvartil, variační rozpětí, výběrová směrodatná odchylka, součet a výběrový rozptyl Jak vidíme, maximální doba strávená v zahraničí je 29 dní, a nejkratší 5 dní. V průměru stráví lidé v zahraničí 12,6 dní. Variační rozpětí, které se vypočítá jako rozdíl nejvyšší a nejmenší hodnoty, je 24. Směrodatná odchylka je 5,282 dní. Umocníme-li směrodatnou odchylku, dostaneme rozptyl. Rozptyl je tedy 27,9. Dolní kvartil odděluje čtvrtinu nejnižších hodnot znaku délka pobytu a jeho hodnota je 10 dní. Medián neboli prostřední hodnota je 50 % kvantil, který člení statistický soubor na dvě stejně četné poloviny, je v našem případě 11 dní. Horní kvartil odděluje 75 % nejnižších hodnot znaku od zbývajících 25 % hodnot znaku a v našem případě je 13 dní. Celkem všech 30 dotázaných osob strávilo v roce 2006 v zahraničí 378 dní. Analysis Variable : délka pobytu Maximum
Mean
Minimum
Lower Quartile
Median
Upper Quartile
29.0000000
12.6000000
5.0000000
10.0000000
11.0000000
13.0000000
Analysis Variable : délka pobytu Range
Std Dev
Sum
Variance
24.0000000
5.2823715
378.0000000
27.9034483
Krabičkový graf, který vidíme níže, nám znázorňuje extrémní hodnoty souboru a kvartily. Spodní horizontální čára určuje dolní kvartil, střední je medián a nejvyšší znázorňuje horní kvartil. Hodnoty délky pobytu se pohybují nejvíce v oblasti „krabičky“ a dále podél vertikální úsečky. Body, které vidíme na obou stranách grafu nejsou spojeny úsečkou, protože mezi poslední hodnotou na úsečce a těmito body nejsou žádné hodnoty. Jsou to extrémní hodnoty, které mohou zkreslovat například průměrnou délku pobytu v zahraničí. Proto je objektivnějším hodnocením medián než aritmetický průměr.
b) Cena pobytu v zahraničí – číselná spojitá proměnná
Původně nesetříděná data jsem opět uspořádala do tabulky intervalových rozdělení četností. Interval 1 2 3 4 5 6 Celkem
Cena pobytu v zahraničí (hranice intervalu) dolní horní 3500 7000 7000 10500 10500 14000 14000 17500 17500 21000 21000 24500 x x
Střed intervalu 5250 8750 12250 15750 19250 22750 x
Četnost absolutni 14 8 2 2 2 2 30
relativni 0,467 0,267 0,067 0,067 0,067 0,067 1,000
Kumulativní četnost absolutní 14 22 24 26 28 30 x
relativní 0,467 0,733 0,800 0,867 0,933 1,000 x
Z tabulky můžeme vyvodit např. následující závěry: - v souboru je 14 osob, jež zaplatily za pobyt v zahraničí od 3 500 do 7 000 Kč, 2 osoby, které zaplatily od 10 500 do 14 000 Kč, 2 osoby, které dovolená stála v rozmezí od 21 000 až 24 500 Kč atd. - osoby, které zaplatily za dovolenou od 7 000 do 10 500 Kč tvoří 26,7% všech dotázaných osob, osoby, které zaplatily od 17 500 do 21 000 Kč tvoří 6,7 % atd. - 14 osob, zaplatilo za pobyt od 3 500 do 7 000 Kč, což je 46,7% všech dotázaných, 26 osob zaplatilo od 14 000 do 17 500 Kč, což je 86,7 % všech dotázaných, ani jedna osoba nezaplatila za pobyt v zahraničí více než 24 500 Kč, což znamená, že všech 30 dotázaných osob zaplatilo za pobyt v zahraničí 24 500 Kč a méně.
V následujících tabulkách se uvádějí míry úrovně a to v tomto pořadí: - největší hodnota, aritmetický průměr, nejmenší hodnota, dolní kvartil, medián, horní kvartil, variační rozpětí, výběrová směrodatná odchylka, součet a výběrový rozptyl Jak vidíme, maximální cena pobytu činí 23 000 Kč, a nejnižší 4 000 Kč. V průměru zaplatí lidé za pobyt v zahraničí 9 596,47 Kč. Variační rozpětí, které se vypočítá jako rozdíl nejvyšší a nejmenší hodnoty, je 19 000 Kč. Směrodatná odchylka je 5 439,08 Kč. Umocníme-li směrodatnou odchylku, dostaneme rozptyl. Rozptyl je tedy 29 583 636,95. Dolní kvartil odděluje čtvrtinu nejnižších hodnot znaku cena pobytu a jeho hodnota je 5 989 Kč. Medián neboli prostřední hodnota je 50 % kvantil, který člení statistický soubor na dvě stejně četné poloviny, je v našem případě 7 149 Kč. Horní kvartil odděluje 75 % nejnižších hodnot znaku od zbývajících 25 % hodnot znaku a je 11 990 Kč. Celkem všech 30 dotázaných osob zaplatilo v roce 2006 za pobyt v zahraničí 287 894 Kč. Analysis Variable : cena pobytu Maximum
Mean
Minimum
Lower Quartile
Median
Upper Quartile
23000.00
9596.47
4000.00
5989.00
7149.00
11990.00
Analysis Variable : cena pobytu Range
Std Dev
Sum
Variance
19000.00
5439.08
287894.00
29583636.95
Krabičkový graf, který vidíme níže, nám opět znázorňuje extrémní hodnoty souboru a kvartily. Spodní horizontální čára určuje dolní kvartil, střední je medián a nejvyšší znázorňuje horní kvartil. Hodnoty délky pobytu se pohybují nejvíce v oblasti „krabičky“ a dále podél vertikální úsečky. Body, které vidíme na v horní části grafu nejsou spojeny úsečkou, protože mezi poslední hodnotou na úsečce a těmito body nejsou žádné hodnoty. Jsou to extrémní hodnoty, které mohou zkreslovat například průměrnou cenu pobytu v zahraničí. Proto je objektivnějším hodnocením medián než aritmetický průměr.
2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které vycestovaly v roce 2006 do ciziny byla sestavena následující kontingenční tabulka. Destinace/CK Přímořské (1) Poznávací (2) Celkem
CK Jiří Kalousek (1) CK Sunny Day (2) 5 6 0 0 5 6
CK Union (3) 6 2 8
Žádná CK (4) 7 4 11
Celkem 24 6 30
Francie, Chorvatsko a Španělsko sloučíme do skupiny přímořské destinace a Norsko a Irsko do skupiny poznávací destinace. Máme rozhodnout, zda výběr cestovní kanceláře závisí na vybrané destinaci. Table Analysis Frequency Expected Col Pct
Table of radek by sloupec sloupec radek
Total
1
2
3
4
1
5 4 100.00
6 4.8 100.00
6 6.4 75.00
7 8.8 63.64
24
2
0 1 0.00
0 1.2 0.00
2 1.6 25.00
4 2.2 36.36
6
Total
5
6
8
11
30
Na prvním místě v buňce jsou zobrazeny sdružené absolutní četnosti, na druhém očekávané četnosti a na třetím místě jsou zobrazeny sdružené relativní četnosti v procentech. Pomocí Chí-kvadrát testu testujeme hypotézu H0: výběr cestovní kanceláře nezávisí na vybrané destinaci. Alternativní hypotéza je H1: non H0.
V této tabulce nalezneme výsledek testované hypotézy. Statistics for Table of radek by sloupec Statistic
DF
Value
Prob
Chi-Square
3
4.7159
0.1938
Likelihood Ratio Chi-Square
3
6.6062
0.0856
Mantel-Haenszel ChiSquare
1
4.1763
0.0410
Phi Coefficient
0.3965
Contingency Coefficient
0.3686
Cramer's V
0.3965
Sample Size = 30
Hodnota v řádku Chi-Square a sloupci Value udává hodnotu testového kritéria a je tedy 4,7159. Hodnota ve sloupci Prob je vyšší než 0,05, tj. 0,1938, a proto na 5% hladně významnosti testovanou hypotézu H0 nezamítáme. Výběr cestovní kanceláře nezávisí na vybrané destinaci. 3) Korelační tabulka – korelační analýza Předmětem korelační analýzy je zkoumání lineárních vztahů mezi dvěma nebo více proměnnými. Mírou těsnosti těchto vztahů jsou korelační koeficienty. Korelační koeficient může nabývat hodnot z intervalu <-1, +1>, přičemž znaménko určuje směr závislosti. Hodnoty blízké nule znamenají slabou lineární závislost mezi pozorovanými hodnotami proměnných X1 a X2, hodnoty blízké +1 znamenají vysokou kladnou korelaci (body odpovídající dvojicím X1 a X2 leží v blízkosti přímky s kladnou směrnicí), hodnoty blízké -1 znamenají vysokou zápornou korelaci (body odpovídající dvojicím hodnot X1 a X2 leží v blízkosti přímky se zápornou směrnicí). Máme výběr 30 obyvatel města Vysoké Mýto, kteří v roce 2006 vycestovali do zahraničí. Zajímá nás jak spolu souvisí délka pobytu v zahraničí s cenou pobytu. Délka pobytu v zahraničí 12 13 10 12 20 10 10 12 12 25 12 5 13 10 10
Cena pobytu v zahraničí 4 900,00 Kč 18 500,00 Kč 6 330,00 Kč 11 990,00 Kč 20 000,00 Kč 14 790,00 Kč 7 789,00 Kč 6 500,00 Kč 6 580,00 Kč 22 500,00 Kč 15 390,00 Kč 4 000,00 Kč 4 300,00 Kč 5 800,00 Kč 8 999,00 Kč
Délka pobytu v zahraničí 10 15 10 10 29 5 13 10 11 10 11 24 11 11 12
Cena pobytu v zahraničí 8 699,00 Kč 6 590,00 Kč 10 380,00 Kč 5 989,00 Kč 23 000,00 Kč 6 999,00 Kč 5 500,00 Kč 9 790,00 Kč 6 330,00 Kč 7 299,00 Kč 4 000,00 Kč 10 380,00 Kč 5 500,00 Kč 6 580,00 Kč 12 490,00 Kč
Testovaná hypotéza H0: ς = 0 (neexistuje lineární vztah mezi X1 a X2) Alternativní hypotéza H1: ς ≠ 0 (existuje lineární vztah mezi X1 a X2) 1 With Variables:
cena pobytu
1 Variables:
delka pobytu
Pearson Correlation Coefficients, N = 30 Prob > |r| under H0: Rho=0 delka pobytu cena pobytu
0.73516 <.0001
V tabulce je uvedena hodnota korelačního koeficientu (0,73516) a P-hodnota (<.0001), která odpovídá hodnotě testové statistiky. Protože α = 0,05 je větší než P-value, testovanou hypotézu H0 zamítáme. Jak je vidět mezi proměnnými délka pobytu a cena pobytu lze pozorovat přímou silnou lineární závislost (korelaci), což vyplývá i z grafu uvedeného níže. Lze tedy říci, že s rostoucími hodnotami jedné proměnné střední hodnota druhé proměnné také roste.
Hodnoty korelačního koeficientu a test hypotézy H0: ς = 0 proti H1: ς ≠ 0 lze určit i z výstupu lineární regrese. Pokud cena pobytu je vysvětlovaná proměnná a délka pobytu je vysvětlující proměnná, pak dostaneme tyto výstupy: Linear Regression Dependent Variable: cena pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
-428.73214
1876.42191
-0.23
0.8209
delka pobytu
1
826.17023
143.97146
5.74
<.0001
Variable
Z tabulky odečteme hodnotu regresního koeficientu b12 = 826,17023. Korelační koeficient souvisí s koeficientem determinace modelu regresní přímky. Absolutní hodnotu korelačního koeficientu dostaneme odmocněním koeficientu determinace, který je uveden v následující tabulce. Root MSE
3752.84382
R-Square
0.5405
Dependent Mean
9595.46667
Adj R-Sq
0.5240
Coeff Var
39.11059
Korelační koeficient: r = √R2 = √0,5405 = 0,735187. Z hodnoty koeficientu determinace plyne, že modelem regresní přímky je vysvětleno 54,05 % variability závislé proměnné (cena pobytu). Pokud za vysvětlovanou proměnnou zvolíme délku pobytu a vysvětlující proměnnou bude cena pobytu, pak obdržíme tyto výstupy:
Linear Regression Dependent Variable: delka pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
5.85630
1.25230
4.68
<.0001
cena pobytu
1
0.00065417
0.00011400
5.74
<.0001
Variable
Z tabulky odečteme hodnotu regresního koeficientu b21 = 0,00065417. Korelační koeficient souvisí s koeficientem determinace modelu regresní přímky. Absolutní hodnotu korelačního koeficientu dostaneme odmocněním koeficientu determinace, který je uveden v následující tabulce.
Root MSE
3.33941
R-Square
0.5405
Dependent Mean
12.13333
Adj R-Sq
0.5240
Coeff Var
27.52262
Korelační koeficient: r = √R2 = √0,5405 = 0,735187. Z hodnoty koeficientu determinace opět plyne, že modelem regresní přímky je vysvětleno 54,05 % variability závislé proměnné (délka pobytu).
Závěrem lze shrnout: Korelační koeficient je symetrickou mírou lineární závislosti a jeho odhad získáme odmocněním koeficientu determinace modelu regresní přímky, případně doplněním záporného znaménka. Závisle proměnnou přitom může být kterákoli ze dvou uvažovaných proměnných. K testu hypotézy H0: ς = 0 proti H1: ς ≠ 0 můžeme použít ekvivalentní test H0: βj = 0 proti H1: βj ≠ 0, jehož výsledek najdeme na příslušném výstupu lineární regrese.
4) Jednoduchou regresní analýza
Cílem regresní analýzy je nalezení vztahu mezi vysvětlovanou nebo závisle proměnnou Y a jednou nebo více vysvětlujícími proměnnými (nezávisle proměnnými) X1, X2, … , Xk a konstrukce vhodného modelu. Nejznámější charakteristikou kvality regresního modelu je koeficient determinace R2. Koeficient determinace nabývá hodnot z intervalu <0;1> a udává, jakou část celkové variability pozorovaných hodnot lze vysvětlit daným modelem. Každý dotázaný je již vydělávající osobou. Chceme zjistit, zda cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši jejich měsíčních příjmů. a) Regresní přímka: y=β0 + β1 + ε
Linear Regression Dependent Variable: cena pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
-3609.16087
2781.32495
-1.30
0.2050
mesícní príjem
1
0.81965
0.16643
4.93
<.0001
Variable
Tabulka obsahuje odhady parametrů regresní přímky, směrodatné chyby těchto odhadů, hodnoty testové statistiky při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = -3609,16087 β1 = 0,81965
P-Value = 0,2050 ›0,05 → H0 nezamítáme, β0 je statisticky nevýznamný parametr P-Value <.0001, tj. 0 ‹ 0,05 → H0 zamítáme, β1 je statistiky významný parametr
Tato funkce (přímka) není vhodná pro vystižení závislosti.
b) Parabola: Yi = β0 + β1 xi + β2 xi2
Linear Regression Dependent Variable: cena pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
11683
10852
1.08
0.2912
mesicni prijem
1
-1.06167
1.30254
-0.82
0.4222
mesicni prijem2
1
0.00005376
0.00003693
1.46
0.1570
Variable
Tabulka obsahuje odhady parametrů regresní paraboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, 2, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = 11 683 β1 = 0,81965 β2 = 0,00005376
P-Value = 0,2912 ›0,05 → H0 nezamítáme, β0 je statisticky nevýznamný parametr P-Value = 0,4222 › 0,05 → H0 nezamítáme, β1 je statistiky nevýznamný parametr P-Value = 0,1570 › 0,05 → H0 nezamítáme, β2 je statistiky nevýznamný parametr
Tato funkce (parabola) není vhodná pro vystižení závislosti.
3) Exponenciála: Yi = β0 x β1xi
→
ln Yi = ln β0 x xi ln β1
Linear Regression Results Dependent Variable: ln cena pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
7.85797
0.26543
29.61
<.0001
mesicni prijem
1
0.00007322
0.00001588
4.61
<.0001
Variable
Tabulka obsahuje odhady parametrů regresní paraboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = 7,85797 β1 = 0,00007322
P-Value = <.0001 ‹ 0,05 → H0 zamítáme, β0 je statisticky významný parametr P-Value = <.0001 ‹ 0,05 → H0 zamítáme, β1 je statisticky významný parametr
Tato funkce (exponenciála) je vhodná pro vystižení závislosti.
→
ln Yi = 7,85797 + 0,00007322 xi
→
Yi = exp (7,85797 + 0,00007322 xi)
Analysis of Variance DF
Sum of Squares
Mean Square
F Value
Pr > F
1
3.17897
3.17897
21.26
<.0001
Error
28
4.18750
0.14955
Corrected Total
29
7.36647
Source Model
Testové kritérium F-Value = 21,26. P-Value = <.0001, tj. 0 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc? Root MSE
0.38672
R-Square
0.4315
Dependent Mean
9.03762
Adj R-Sq
0.4112
Coeff Var
4.27902
Koeficient determinace R2 = 0,4315. To znamená, že tento model vysvětluje 43,15 % celkové variability závisle proměnné. Linear Regression Dependent Variable: ln cena pobytu Durbin-Watson D Number of Observations 1st Order Autocorrelation
1.940 30 0.018
Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,940), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně. Níže je uvedeno grafické znázornění závislosti.
Regression Analysis Plots
4) Hyperbola: Y = b0 + b1 1/x Linear Regression Dependent Variable: cena pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
21821
3183.39572
6.85
<.0001
inv_mesicni prijem
1
-183256611
46152615
-3.97
0.0005
Variable
Tabulka obsahuje odhady parametrů regresní hyperboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = 21 821 β1 = -183 256 611
P-Value = <.0001, tj. 0 ‹ 0,05 → H0 zamítáme, β0 je statisticky významný parametr P-Value = 0,0005 ‹ 0,05 → H0 zamítáme, β1 je statisticky významný parametr
Tato funkce (hyperbola) je vhodná pro vystižení závislosti. →
Yi = 21 821 -183 256 611 xi
Analysis of Variance DF
Sum of Squares
Mean Square
F Value
Pr > F
1
309127164
309127164
15.77
0.0005
Error
28
548995165
19606970
Corrected Total
29
858122329
Source Model
Testové kritérium F-Value = 15,77. P-Value = 0,0005 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc? Root MSE
4427.97586
R-Square
0.3602
Dependent Mean
9595.46667
Adj R-Sq
0.3374
Coeff Var
46.14654
Koeficient determinace R2 = 0,3602. To znamená, že tímto modelem je vysvětleno 36,02 % celkové variability závisle proměnné. Linear Regression Dependent Variable: cena pobytu Durbin-Watson D Number of Observations 1st Order Autocorrelation
1.500 30 0.245
Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,500), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně. Níže je uvedeno grafické znázornění závislosti.
Regression Analysis Plots
5) Logaritmická regrese: Y = b0 + b1 ln(x) Linear Regression Dependent Variable: cena pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
-114564
27624
-4.15
0.0003
ln_mesicni prijem
1
12866
2861.30682
4.50
0.0001
Variable
Tabulka obsahuje odhady parametrů logaritmické regrese, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = -114 564 β1 = 12 866
P-Value = 0,0003 ‹ 0,05 → H0 zamítáme, β0 je statisticky významný parametr P-Value = 0,0001 ‹ 0,05 → H0 zamítáme, β1 je statisticky významný parametr
Tato funkce (logaritmická) je vhodná pro vystižení závislosti. →
Y = -114 564 + 12 866 ln(x)
Analysis of Variance DF
Sum of Squares
Mean Square
F Value
Pr > F
1
359810948
359810948
20.22
0.0001
Error
28
498311381
17796835
Corrected Total
29
858122329
Source Model
Testové kritérium F-Value = 20,22. P-Value = 0,0001 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc? Root MSE
4218.62952
R-Square
0.4193
Dependent Mean
9595.46667
Adj R-Sq
0.3986
Coeff Var
43.96482
Koeficient determinace R2 = 0,4193. To znamená, že tímto modelem je vysvětleno 41,93 % celkové variability závisle proměnné. Linear Regression Dependent Variable: cena pobytu Durbin-Watson D Number of Observations 1st Order Autocorrelation
1.585 30 0.203
Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,585), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně.
Níže je uvedeno grafické znázornění závislosti. Regression Analysis Plots
Závěr: ejvhodnější regresní funkcí pro modelování závislosti ceny pobytu na výši měsíčních příjmů je exponenciála.
5) Vícenásobnou regresní analýza Zkoumá závislost y nejen na vysvětlující proměnné x1 ale též na dalších vysvětlujících proměnných x2 , x3 , x4,… Jsou dána data o délce pobytu v zahraničí, věku osob a měsíčním příjmu. Chceme zjistit, zda délka pobytu v zahraničí závisí na ostatních proměnných. Délka pobytu v zahraničí (y) 12 13 10 12 20 10 10 12 12 25 12 5 13 10 10
Věk (x1)
Měsíční příjem (x2)
Délka pobytu v zahraničí (y)
Věk (x1)
Měsíční příjem (x2)
39 28 53 48 24 37 44 39 41 26 35 25 28 31 42
12 600,00 Kč 25 600,00 Kč 9 400,00 Kč 12 400,00 Kč 22 400,00 Kč 14 400,00 Kč 24 200,00 Kč 16 800,00 Kč 10 200,00 Kč 23 800,00 Kč 17 400,00 Kč 13 000,00 Kč 11 400,00 Kč 15 400,00 Kč 14 600,00 Kč
10 15 10 10 29 5 13 10 11 10 11 10 11 11 12
37 55 47 50 22 33 46 38 20 34 46 27 29 49 38
21 500,00 Kč 14 400,00 Kč 16 400,00 Kč 10 600,00 Kč 23 800,00 Kč 16 000,00 Kč 14 600,00 Kč 16 800,00 Kč 12 800,00 Kč 13 800,00 Kč 12 400,00 Kč 11 600,00 Kč 18 400,00 Kč 17 000,00 Kč 19 600,00 Kč
Testovaná hypotéza H0: I2 = 0 (nezávislost) Alternativní hypotéza H1: I2 ≠ 0 (závislost) →
Yi = β0 + βyx1.x2X1 + βyx2.x1X2 + εi Linear Regression Dependent Variable: delka pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
6.69860
5.23994
1.28
0.2120
vek
1
-0.06740
0.08788
-0.77
0.4498
mesicni prijem
1
0.00049229
0.00018806
2.62
0.0143
Variable
Z tabulky můžeme opět vyčíst hodnoty regresních parametrů. β0 = 6,69860 β1 = - 0,06740 β2 = 0, 00049229
P-Value = 0,2120 › 0,05 → H0 nezamítáme, β0 je statisticky nevýznamný
parametr
P-Value = 0,4498 › 0,05 → H0 nezamítáme, β1 je statisticky nevýznamný
parametr
P-Value = 0,0143 ‹ 0,05 → H0 zamítáme, β2 je statisticky významný
parametr
Parametry β0 a β1 musíme z modelu vyřadit, jelikož jsou statisticky nevýznamné. Nejprve vyřadíme konstantu β0. Tím získáme následující hodnoty: Linear Regression Dependent Variable: delka pobytu Parameter Estimates DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
vek
1
0.02569
0.04975
0.52
0.6097
mesicni prijem
1
0.00068488
0.00011383
6.02
<.0001
Variable
Protože proměnná β1 i nadále zůstává statisticky nevýznamná, musíme jí také vyřadit z modelu. Nyní již zbývá v modelu jen vysvětlující proměnná měsíční příjem. β2 = 0,00073836 (VIZ níže)
P-Value <.0001, tj. 0 ‹ 0,05 → H0 zamítáme, β2 je statisticky
významný parametr
Linear Regression Dependent Variable: delka pobytu Parameter Estimates Variable
DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
1
0.00073836
0.00004662
15.84
<.0001
mesicni prijem
→
Yi = 0,00073836X2 + εi Analysis of Variance DF
Sum of Squares
Mean Square
F Value
Pr > F
1
4567.93230
4567.93230
250.86
<.0001
Error
29
528.06770
18.20923
Uncorrected Total
30
5096.00000
Source Model
Testové kritérium F-Value = 250,86. P-Value <.0001, tj. 0 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Délka pobytu v zahraničí závisí pouze na výši měsíčního příjmu. Jak moc? Root MSE
4.26723
R-Square
0.8964
Dependent Mean
12.13333
Adj R-Sq
0.8928
Coeff Var
35.16946
Koeficient determinace R2 = 0,8964. To znamená, že tento model vysvětluje 89,64 % celkové variability závisle proměnné. Linear Regression Dependent Variable: delka pobytu Durbin-Watson D Number of Observations 1st Order Autocorrelation
2.402 30 -0.213
Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 2,402), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně.