KORELACE A REGRESE
1
Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021) za přispění finančních prostředků EU a státního rozpočtu České republiky
VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR Vícerozměrný statistický soubor je množina C souběžných realizací určitého počtu veličin X1, X2, …, Xm. Množina C vznikne získáním hodnot znaků X1, X2, …, Xm na prvcích množiny n. C je potom množina uspořádaných mtic hodnot [x1, x2, …, xm] znaků X1, X2, …, Xm. n-tý x 1T OBJEKT
2
x1,1 x1,i x1,m C = x Tj = x j,1 x j,i x j,m m-tá VELIČINA x T x n ,1 x n ,i x n ,m n
STATISTICKÁ ZÁVISLOST
3
STATISTICKÁ ZÁVISLOST pokud měříme v příliš malém intervalu, nemusí se závislost prokázat!!
4
STATISTICKÁ ZÁVISLOST jedna proměnná je násobkem druhé – v tom případě je možné jednu proměnnou z analýzy vyloučit bez ztráty informace
5
STATISTICKÁ ZÁVISLOST korelace – popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a platí pro kvantitativní (měřené) znaky; kontingence – popisuje závislost kvalitativních (slovních, popisných) znaků, které mají více než dvě alternativy, tzv. množných znaků (např. druh dřeviny, národnost, apod.);
6
asociace - popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze dvě alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, …).
KORELACE typy podle počtu korelovaných znaků jednoduchá – popisuje vztah dvou znaků, mnohonásobná – popisuje vztahy více než dvou znaků, parciální – popisuje závislost dvou znaků ve vícerozměrném statistickém souboru při vyloučení vlivu ostatních znaků na tuto závislost·
7
KORELACE typy podle smyslu změny hodnot kladná – se zvyšováním hodnot jednoho znaku se zvyšují i hodnoty druhého znaku záporná - se zvyšováním hodnot jednoho znaku se zmenšují hodnoty druhého znaku
8
KORELACE typy podle tvaru závislosti přímková (lineární) – grafickým obrazem závislosti je přímka (lineární trend) křivková (nelineární) – grafickým obrazem závislosti je křivka (nelineární trend)
9
KORELAČNÍ POČET korelační analýza
zjišťuje existenci závislosti a její druhy, měří těsnost závislosti, ověřuje hypotézy o statistické významnosti závislosti;
regresní analýza
10
zabývá se vytvořením vhodného matematického modelu závislosti, stanoví parametry tohoto modelu, ověřuje hypotézy o vhodnosti a důležitých vlastnostech modelu.
MÍRA KORELAČNÍ ZÁVISLOSTI x2 CELKOVÁ VARIABILITA Y (odchylka měřené hodnoty od průměru)
REZIDUÁLNÍ VARIABILITA (odchylka měřených a modelových - vypočítaných – hodnot)
x2 VARIABILITA VYSVĚTLENÁ MODELEM (odchylka modelových hodnot od průměru)
x1
11
MÍRA LINEÁRNÍ KORELAČNÍ ZÁVISLOSTI REZIDUÁLNÍ VARIABILITA (odchylka měřených a modelových - vypočítaných – hodnot)
x2 CELKOVÁ VARIABILITA Y (odchylka měřené hodnoty od průměru)
x2 VARIABILITA VYSVĚTLENÁ MODELEM (odchylka modelových hodnot od průměru)
x1
n
∑(x
2i
i=1
n 12
- x2 )
n
∑ ( x′
2
2i
=
i=1
- x2 )
n
∑ ( x2i - x′2i )
2
+
n
i=1
n
2
MÍRA LINEÁRNÍ KORELAČNÍ ZÁVISLOSTI KOEFICIENT DETERMINACE 2
R =
S S
2 x′2 2 x2
= 1-
S
2 x1 x 2 2 x2
S
KOEFICIENT KORELACE
R= 13
S 2x′2 S
2 x2
= 1-
S 2x1x2 S
2 x2
KOEFICIENT DETERMINACE vyjadřuje, jakou část celkové variability závisle proměnné (vysvětlované proměnné) objasňuje regresní model. r2 = 0.9
r2 = 0.05
14
r2 = 1
KORELAČNÍ KOEFICIENT PRO JEDNODUCHOU KORELACI párový - zvláštní případ vícenásobného korelačního koeficientu, kdy vyjadřuje míru lineární stochastické závislosti mezi náhodnými veličinami Xi a Xj, Pearsonův Spearmanův (korelace pořadí)
15
KORELAČNÍ KOEFICIENT PRO VÍCENÁSOBNOU KORELACI vícenásobný - definuje míru lineární stochastické závislosti mezi náhodnou veličinou X1 a nejlepší lineární kombinací složek X2, X3, ..., Xm náhodného vektoru X parciální - definuje míru lineární stochastické závislosti mezi náhodnými veličinami Xi a Xj při zkonstantnění dalších složek vektoru X x1 x2 x3 x4 x1 x2 x3 x4
16
PEARSONŮV KORELAČNÍ KOEFICIENT (r) podmínkou je dodržení dvourozměného normálního rozdělení
= normovaná kovariance
rx1x 2 = rx 2 x1 = 17
cov x1x 2 S x1 ⋅ S x 2
PEARSONŮV KORELAČNÍ KOEFICIENT (r) KOVARIANCE: míra intenzity vztahu mezi složkami vícerozměrného souboru je mírou intenzity lineární závislosti je vždy nezáporná její limitou je součin směrodatných odchylek je symetrickou funkcí svých argumentů její velikost je závislá na měřítku argumentů ⇒ nutnost normování
18
cov x1x 2
1 n = ∑ (x1i − x1 ) ⋅ (x 2i − x 2 ) n i=1
PEARSONŮV KORELAČNÍ KOEFICIENT (r) Základní vlastnosti Pearsonova korelačního koeficientu:
19
je to bezrozměrná míra lineární korelace; nabývá hodnoty 0 – 1 pro kladnou korelaci, 0 – (-1) pro zápornou korelaci; hodnota 0 znamená, že mezi posuzovanými veličinami není žádný lineární vztah (může být nelineární) nebo tento vztah zůstal na základě dat, které máme k dispozici, neprokázán; hodnota 1 nebo (-1) indikuje funkční závislost; hodnota korelačního koeficientu je stejná pro závislost x1 na x2 i pro opačnou závislost x2 na x1.
Souvislost mezi velikosti Pearsonova korelačního koeficientu a typem závislosti
r =1,000
r =-1,000
r =0,000
r =0,934
r =0,967
r =0,857
r =-0,143
r =0,608
PEARSONŮV KORELAČNÍ KOEFICIENT (r) – výpočet v Excelu
Pearsonův R 21
SPEARMANŮV KORELAČNÍ KOEFICIENT neparametrický korelační koeficient, vycházející nikoli z hodnot, ale z jejich pořadí. Používá se tehdy, nejsou-li závažným způsobem splněny předpoklady pro použití Pearsonova korelačního koeficientu. diference mezi n 2 pořadími hodnot X i a Y v jednom řádku
rS = 1 −
22
6⋅∑d i =1 3
n −n
SPEARMANŮV KORELAČNÍ KOEFICIENT vlivné body Pearsonův R = -0,412 (započítává se účinek vlivných bodů)
23
Spearmanův R = +0,541 (účinek vlivných bodů je značně omezen)
MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT vyjadřuje sílu závislosti jedné proměnné na dvou a více jiných proměnných
xI 1 xII 1 xIn xIIn
24
xIII 1 xm1 xIIIn xmn
MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT - vlastnosti Základní vlastnosti: 0≤R≤1 pokud je R = 1, znamená to, že závisle proměnná x1 je přesně lineární kombinací veličin x2, ..., xm pokud je R = 0, potom jsou také všechny párové korelační koeficienty nulové s růstem počtu vysvětlujících (nezávislých) proměnných hodnota vícenásobného korelačního koeficientu neklesá, tj. platí R1(2) ≤ R1(2,3) ≤ ... ≤ R1(2, ..., m)
25
MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT - výpočet R 1( 2,3,..., m ) = 1 −
det(R ) det(R (11) )
korelační koeficient 1. a 2. proměnné
1 R 21 R= R i1 26 R m1
R 12 1
R 1i
1
1
R m 2 R mi
= determinant korelační matice = determinant korelační matice s vypuštěným sloupcem a řádkem odpovídajícím té proměnné, jejíž závislost na zbytku matice se vypočítává
R 1m Korelační matice R R im 1 1
MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT
R1(2,3,...,m )
27
1 R 21 Ri1 Rm1 1 R 21 Ri1 Rm1
R12
R1i
1
1
1
Rm 2 R12 1
1
Rmi R1i 1
Rm 2 Rmi
R1m ⇒ det(R ) Rim 1 1 det(R ) ⇒ 1− R1m det(R (11) ) ⇒ det(R (11) ) Rim 1 1
MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT – výpočet v Excelu
28
MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT – výpočet v Excelu
det(R ) = DETERMINANT(R) 1− = 1− = det(R (11) ) = DETERMINANT(R (11) )
29
0.004755585 = 1− = 0.74577 0.010714947
MNOHONÁSOBNÝ KORELAČNÍ KOEFICIENT – výpočet v Excelu
30
Nástroje ⇒Analýza dat ⇒Regrese
PARCIÁLNÍ KORELAČNÍ KOEFICIENT používá se k posouzení síly závislosti dvou veličin ve vícerozměrném souboru při vyloučení vlivu ostatních veličin podle počtu „vyloučených“ proměnných se stanovují řády parciálního R – v příkladu vlevo to je parciální korelace III. řádu (3 „vyloučené“ proměnné) 31
PARCIÁLNÍ KORELAČNÍ KOEFICIENT - výpočet „Klasický“ výpočet je velmi zdlouhavý – vychází se z korelační matice, poté se počítají parciální korelace I. řádu (s jednou vyloučenou proměnnou), z nich II. řádu (dvě vyloučené proměnné), atd. až do potřebného řádu. Při využití Excelu je možné využít vzorce
R ij(1, 2,..., m ) =
32
(−1) j ⋅ det(R (ij) ) det(R (ii ) ) ⋅ det(R ( jj) )
PARCIÁLNÍ KORELAČNÍ KOEFICIENT – výpočet v Excelu R ij(1, 2,..., m ) = Rij (1,2,...,m ) =
33
(−1) j ⋅ det(R (ij) ) det(R (ii ) ) ⋅ det(R ( jj) ) (−1) 2 ⋅ det( R(12) ) det( R(11) ) ⋅ det( R(22) )
PARCIÁLNÍ KORELAČNÍ KOEFICIENT – výpočet v Excelu
det(R(11)) = 0.010715
det(R(12)) = 0.006086
det(R(22)) = 0.010248 34
PARCIÁLNÍ KORELAČNÍ KOEFICIENT – výpočet v Excelu
R12(3,4,5)
(−1) 2 ⋅ det( R(12) ) = det( R(11) ) ⋅ det( R(22) )
1 ⋅ 0.00608 = 0.58082 0.01071 ⋅ 0.01025
Parciální korelační koeficient III. řádu pro závislost proměnných X1 a X2 (při vyloučení vlivu proměnných X3, X4 a X5) je 0.58.
35
REGRESNÍ ANALÝZA Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Snažíme se nahradit každou měřenou (experimentální, empirickou, zjištěnou) hodnotu závisle proměnné (vysvětlované proměnné) Y hodnotou teoretickou (modelovou, vyrovnanou, predikovanou), tj. hodnotou ležící na spojité funkci (modelu) nezávisle proměnné (vysvětlující proměnné) X (X)
36
Francis Galton (1822-1911)
• položil základy regresní analýzy (vztah mezi výškou syna a výškou otce) • zázračné dítě, bratranec Charlese Darwina • zakladatel eugeniky (nauky o zlepšování genetického základu)
REGRESNÍ ANALÝZA měřené hodnoty
závisle proměnná Y
modelové (vypočítané) hodnoty
nezávisle proměnná X 38
REGRESNÍ MODEL y1 x11 x12 x1 j x1m β1 ε1 y x x x x β ε 21 22 2j 2m 2 2 2 ⋅ + = yi xi1 xi 2 xij xim β j ε i yn xn1 xn 2 xnj xnm β m ε n
y
závisle proměnná
39
X
nezávisle proměnná
y=Xβ+ε
β
ε
regresní náhodná parametry chyba
REGRESNÍ MODEL
závisle proměnná Y
regresní parametr 1 absolutní člen
nezávisle proměnná X
40
REGRESNÍ MODEL - typy Regresní model předpokládá, že nezávislá proměnná (proměnné) je nenáhodná (tj. pevně určena, např. experimentátorem) a závislá proměnná je náhodná (měřená).Tento předpoklad nebývá v praxi striktně naplněn (v mnoha případech jsou obě nebo všechny veličiny náhodné, tj. měřené, potom mluvíme o tzv. korelačním modelu). Rozeznáváme: regresní modely lineární – mají lineární postavení parametrů regresní modely nelineární –mají nelineární postavení parametrů 41
REGRESNÍ MODEL - typy Příklady lineárních regresních modelů: y = a + bx - přímka - parabola y = a + bx + cx2 y = a + (b/x) - hyperbola
lineární modely jsou i některé, jejichž grafickým vyjádřením je křivka!!
Příklady nelineárních regresních modelů: y = a⋅xb y = a⋅ebx
42
y = a⋅e
k x
Výhody – jsou schopny modelovat složité reálné děje, např. růst, včetně reálné predikce. Nevýhody – složitý výpočet
POSTUP REGRESNÍ ANALÝZY Podstatou řešení regresní analýzy je: stanovit nejvhodnější tvar regresního modelu (tedy určit příslušnou rovnici, která bude popisovat závislost Y na X) stanovit jeho parametry (tj. stanovit konkrétní hodnoty parametrů β) stanovit statistickou významnost modelu (tj. zda model podstatným způsobem přispěje ke zpřesnění odhadu závisle proměnné oproti použití průměru) výsledky dané modelem interpretovat z hlediska zadání 43
STANOVENÍ VHODNÉHO TVARU MODELU 1) najít množinu modelů, které svými vlastnostmi vyhovují řešenému problému (např. růstové funkce) 2) teprve mezi nimi najít podle statistických kritérií ten model, která nejlépe vyhovuje měřeným datům
Je nutné věnovat velkou pozornost tomu, aby byla modelována REÁLNÁ PŘÍČINNÁ ZÁVISLOST!!
44
hodnoty závisle proměnné Y
STANOVENÍ PARAMETRŮ MODELU METODA NEJMENŠÍCH ČTVERCŮ
yˆ
i
měřená hodnota
yi
Y
reziduum
xi
hodnota vypočítaná
čára regresní
n
reziduum
∑(y
i
i=1
45
- yˆ i ) = min. 2
hodnoty nezávisle proměnné X
MNČ PRO PŘÍMKU n
2 ( ) − + ⋅ = min . y a b x yˆ = a + bx ⇒ ∑ i i i =1
Parciální derivace podle parametrů: n
∂ ∑ (y i − a + b ⋅ x i )
2 n
= 2∑ (y i − a − b ⋅ x i ) ⋅ (− 1) = 0
i =1
∂a n
i =1
∂ ∑ (y i − a + b ⋅ x i )
2
i =1
46
∂b
n
= 2∑ (y i − a − b ⋅ x i ) ⋅ (− x i ) = 0 i =1
MNČ PRO PŘÍMKU Získáme soustavu normálních rovnic:
n ∑ yi = n ⋅ a + b ∑ x i i=1 i =1 n n n 2 xi yi = ∑ xi a + b ∑ xi ∑ =i 1 =i 1 i=1 n
47
MNČ – obecný postup n n xi ∑ ∑ yi n a i =1 i =1 = ⋅ n n n 2 b x x x y ∑ ∑ ∑ i i i i b i =1 i =1 i =1 g
A
g - A ⋅b = 0 48
MNČ – obecný postup 1 g = x1
n y1 ∑ yi 1 i =1 T ⋅ = = ⋅ X y n xn yn ∑ xi yi i =1
n 1 x n xi 1 ∑ 1 1 i =1 T ⋅X = A ⋅ = = X n n x x n 2 1 1 xn ∑ xi ∑ xi = i 1 =i 1
49
MNČ – obecný postup
g - A ⋅b = 0 b=
X y − X X ⋅b = 0 T
(X
T
⋅ X) ⋅ X ⋅ y −1
T ˆ= y X ( X ⋅ X) ⋅ X ⋅ y T
50
T
−1
projekční matice H
T
obecný vztah pro výpočet regresních parametrů lineárního modelu obecný vztah pro výpočet predikovaných (modelových) lineárního modelu
PŘEDPOKLADY MNČ 1) Regresní parametry β mohou teoreticky nabývat jakýchkoli hodnot. 2) Regresní model je lineární v parametrech. 3) Jednotlivé nezávislé proměnné jsou skutečně vzájemně nezávislé, tedy mezi nimi nedochází k tzv. multikolinearitě. 4) Podmíněný rozptyl D(y/x) = σ2 je konstantní (tzv. podmínka homoskedasticity). 5) Náhodné chyby mají nulovou střední hodnotu E(εi) = 0, mají konečný rozptyl E(εi2) = σ2 a jsou nekorelované. 51
MULTIKOLINEARITA y1 x11 x12 x1 j x1m β1 ε1 y x x x x β ε 21 22 2j 2m 2 2 2 ⋅ + = yi xi1 xi 2 xij xim β j ε i yn xn1 xn 2 xnj xnm β m ε n
y
52
X
β
ε
Vektory matice X musí být skutečně navzájem nezávislé (jejich párové R musí být nulové nebo statisticky nevýznamné). Pokud tomu tak není, dochází k multikolinearitě, která způsobuje početní i statistické problémy.
MULTIKOLINEARITA – proč je „nebezpečná“ Početní problémy: způsobuje špatnou podmíněnost matice XT X, (determinant této matice je nula nebo číslo blízké nule) potíže při invertaci matice (regresní model není jednoznačně řešitelný (singularita matice)).
53
Statistické problémy: nelze odděleně sledovat skutečný vliv jednotlivých vysvětlujících vstupních proměnných na vysvětlovanou (závislou) proměnnou nespolehlivé určení parametrů regresního modelu (interval spolehlivosti parametrů je tak velký, že odhad parametrů ztrácí smysl) nestabilita odhadů regresních parametrů (např. malá změna hodnot závisle proměnné znamená zásadní změnu parametrů)
MULTIKOLINEARITA – příčiny Příčiny: přeurčenost regresního modelu („zbytečně“ mnoho nezávislých proměnných) skutečně existující závislost mezi „nezávislými“ proměnnými povaha modelu (např. polynom) nevhodné rozmístění experimentálních bodů (např. malá variabilita hodnot nezávisle proměnné)
54
MULTIKOLINEARITA – vliv variability nezávisle proměnné správný průběh regresní čáry chyba měření nesprávný průběh regresní čáry
55
malá variabilita nezávisle proměnné
MULTIKOLINEARITA – vliv variability nezávisle proměnné
vhodná variabilita nezávisle proměnné 56
MULTIKOLINEARITA - testování VIF – variance inflation factor – diagonální prvky inverzní matice ke korelační matici nezávisle proměnných (diag(R-1)) VIF > 10 ⇒ kritická multikolinearita korelační matice R =INVERZE(B2..F6) Ctrl+Shift+Enter
inverzní matice R-1
57
kriticky vysoké hodnoty VIF
MULTIKOLINEARITA - řešení K odstranění (nebo zmenšení nepříznivého vlivu) multikolinearity může vést: snížení počtu nezávisle proměnných použití jiného modelu použití jiné metody výpočtu (obvykle metody regrese hlavních komponent – PCR)
58
HOMOSKEDASTICITA x HETEROSKEDASTICITA
závisle pr oměnná
závisle pr oměnná
Homoskedasticita znamená, že hodnoty závisle proměnné y mají pro všechny hodnoty nezávisle proměnné X konstantní rozptyl (variabilitu, proměnlivost). malá var iabilita hodnot y pr o hodnotu x1
vysok á var iabilita hodnot y pr o hodnotu x2
nezávisle proměnná
homoskedasticita 59
x1
x2
nezávisle proměnná
heteroskedasticita
HOMOSKEDASTICITA - princip
měřené hodnoty
nejpravděpodobnější hodnota veličiny Y (modelová)
60
HOMOSKEDASTICITA - testování Test trendu reziduí = D
n
∑ R ( eˆ ) − i i =1
6 ρs = 1− 3 ⋅D n −n
i
Testujeme významnost Spearmanova korelačního koeficientu ρs
tR = 61
2
ρs ⋅ n − 2 1 − ρs
2
HOMOSKEDASTICITA - testování Vycházíme z předpokladu, že rozptyl naměřené hodnoty yi je určitou funkcí proměnné xi β (např. exponenciální funkcí) Cookův - Weisbergův test 2
2 2 ′ ′ ∑ (y i − y ) e i Sf = i=1 n 2 ⋅ σ 4 ∑ (y′i − y′)2 n
i =1
62
Pokud v datech není heteroskedasticita, potom platí, že Sf < χ2(1)
HOMOSKEDASTICITA – řešení Nejobvyklejším způsobem je použití metody vážených nejmenších čtverců, kdy se podmínka sumy reziduí násobí vhodně zvolenými váhami
U (b) ∑ yiVii − ∑Vii xij b j = =i 1 = j 1 n
m
2
V běžných případech je možné jako váhy volit hodnoty 1/yi nebo 1/yi2 . 63
INTERVALY SPOLEHLIVOSTI V KORELAČNÍ A REGRESNÍ ANALÝZE IS korelačního koeficientu (koeficientu determinace) IS regresních parametrů IS modelových hodnot (modelu) IS predikovaných hodnot (pás spolehlivosti)
64
INTERVAL SPOLEHLIVOSTI R (IS) IS vymezuje interval možných hodnot korelačního koeficientu základního souboru ρ (s pravděpodobností 1 - α) Protože rozdělení výběrových korelačních koeficientů není normální, musíme použít Fisherovu transformaci
1+ R Z(R ) = arctgh(R ) = 0.5 ln 1− R která má přibližně normální rozdělení se střední hodnotou E(Z) = Z(ρ) a rozptylem D(Z) = 1/(n-3). 65
INTERVAL SPOLEHLIVOSTI R polovina IS
Postup výpočtu IS R: R
Fisherova transformace v Excelu funkce FISHER(R) statistické tabulky
Z ( R) ± z1− α
2
Z(R)
1 ⋅ n−3
horní a dolní retransformace Z(R) na korelační koeficient hranice IS ve Fisherově v Excelu funkce FISHERINV(Z(R)) transformaci statistické tabulky
66
horní a dolní hranice IS ve Fisherově transformaci
horní a dolní hranice IS korelačního koeficientu
INTERVAL SPOLEHLIVOSTI R Fisherova proměnná
R = 0.95305
FISHER(0.95305) = 1.864
IS Fisherovy proměnné: 1 Z ( ρ ) = 1.864 ± 1.96 ⋅ = 1.864 ± 0.65333 = 12 − 3 = 1.2107; 2.51737 1.21
1.864
2.517
IS korelačního koeficientu: =FISHERINV(1.2107) = 0.83689 =FISHERINV(2.5174) = 0.98707
67
0.837
0.953
0.987
INTERVAL SPOLEHLIVOSTI REGRESNÍCH PARAMETRŮ vyjadřuje interval na číselné ose, ve kterém se s pravděpodobností 1 - α vyskytuje neznámý parametr β základního souboru
β j =± b j t α ,n − m ⋅ sb 2
j
Pokud IS obsahuje nulu – tedy dolní hranice je záporná a horní kladná - je daný parametr statisticky nevýznamný. Směrodatné odchylky pro přímku:
= sa 68
s yx
2
x ⋅ 1+ 2 sx n−2
sb =
sxy sx n − 2
IS REGRESNÍCH PARAMETRŮ - příklad 100 90 80 70 60 50 40 30 20 10 0 -10 -20 -30
69
a b
Bodový odhad -8.62 1.56
Inter valový odhad dolní hor ní -23.53 6.29 1.21 1.91
průběh přímky pro dolní hranici IS (1,21) průběh přímky pro hodní hranici IS (1,91)
IS REGRESNÍCH PARAMETRŮ - příklad 100
a b
80
Bodový odhad 0 1.37
Inter valový odhad dolní hor ní 0 0 1.23 1.51
10
20
60
40
20
0 0 -20
70
30
40
50
60
70
INTERVAL SPOLEHLIVOSTI MODELOVÝCH HODNOT IS jedné modelové hodnoty
JEDNA HODNOTA REGRESNÍHO MODELU (tyto hodnoty platí jen pro jeden konkrétní výběr, ze kterého byly vypočítány)
horní hranice IS
dolní hranice IS plocha, ve které se s pravděpodobností 1 - α nacházejí všechny možné modely vypočítané z jakéhokoliv výběru pocházejícího z daného základního souboru
71
IS MODELOVÝCH HODNOT Pro model přímky:
směr.odchylka reziduí
n(x i − x) σ µ y′ = y′i ± t α ,n −2 ⋅ ⋅ 1+ n 2 n−2 2 ∑ (x i − x) 2
i =1
modelová hodnota
72
polovina IS modelu přímky
IS Y HODNOT – PÁS SPOLEHLIVOSTI udává rozpětí, ve kterém se budou v základním souboru nacházet hodnoty závisle (vysvětlované) proměnné se zvolenou pravděpodobností 1 - α
y i (min,max) = y′i ± t α 2
73
;n − m
⋅σ
IS MODELU A PÁS SPOLEHLIVOSTI příklad 45 40
šířka listu (mm)
35 30 25 20 15 10 20
25
30
35
40
45
50
55
60
délka listu (mm)
74
měřené hodnoty
intervalový odhad modelu
modelové hodnoty
pás spolehlivosti měřených hodnot
65
IS MODELU - příklad 100 90 80 70 60 50 40 30 20 10 0 10
75
20
30
40
50
60
70
TESTY VÝZNAMNOSTI V REGRESNÍ ANALÝZE – proč musíme testovat?
Y
skutečný regresní model platný pro základní soubor (neznáme ho !!!) – statisticky nevýznamný
X
76
Regresní model získaný na základě výběru („nešťastný“ výběr dat) – vede k závěru, že model je statisticky významný
Statistický test významnosti modelu určí, zda na základě dat získaných z výběru můžeme „uvěřit“, že model je významný i v základním souboru
TESTY VÝZNAMNOSTI V KORELAČNÍ A REGRESNÍ ANALÝZE test významnosti korelačního koeficientu test významnosti modelu jako celku test významnosti jednotlivých regresních parametrů test shody lineárních regresních modelů a mnoho dalších …..
77
TEST VÝZNAMNOSTI R Test významnosti odpovídá na otázku, zda je korelace mezi výběrovými proměnnými (R) natolik silná, abychom mohli tuto korelaci považovat za prokázanou i pro základní soubor (ρ). Pro párový R:
tR =
Pro násobný R:
R 2 (n − m ) FR = 1 − R 2 (m − 1)
Pro parciální R: 78
R⋅ n−2 1− R
(
tR =
2
)
R⋅ n−k −2 1 − R2
KH tα,n-2
n – počet hodnot výběru
tα,n-m
m – počet proměnných
tα,n-k-2
k – počet „vyloučených“ proměnných
TEST VÝZNAMNOSTI REGRESNÍHO MODELU – co testujeme Y = b0 + b1x1 + b2x2 + b3x3 + … + bmxm
Testujeme JEDNOTLIVÉ PARAMETRY (jestliže je daný parametr nevýznamný, příslušná proměnná xj nijak nepřispívá ke zpřesnění odhadu závisle proměnné a je v modelu zbytečná). 79
Testujeme MODEL JAKO CELEK (zda příslušná kombinace nezávisle proměnných statisticky významně zpřesní odhad závisle proměnné oproti použití jejího průměru)
TEST VÝZNAMNOSTI REGRESNÍHO MODELU JAKO CELKU 1. Test významnosti korelačního koeficientu 2. Pomocí analýzy rozptylu Zdroj variability
Součet čtverců odchylek
Počet stupňů volnosti
n
regresní model
S REG DFREG S MR = R DFR
Testové kritérium
S REG = ∑ (y′i − y )2 DFREG = m –1 M REG = i =1
reziduum (nevysvětleno regresním modelem)
Průměrný čtverec odchylek (rozptyl)
n
S R = ∑ (y i − y′i )2 i =1
DFR = n – m
F=
M REG MR
n
Celkový
SC = ∑ (y i − y )2 i =1
DFC = n - 1
Testové kritérium F se porovná s kritickou hodnotou Fα;m-1;n-m. 80
TEST VÝZNAMNOSTI REGRESNÍCH PARAMETRŮ H0: βj = 0, tj. j-tý regresní parametr je nevýznamný
t=
bj − β j sb
pro βj = 0
t=
bj sb
Pokud platí, že t> tα2;n-m, potom je j-tý regresní parametr statisticky významný a příslušná proměnná musí zůstat v modelu.
81
HODNOCENÍ MODELU Z HLEDISKA VÝSLEDKŮ TESTŮ VÝZNAMNOSTI Výsledek F testu TEST CELÉHO MODELU nevýznamný
významný významný významný
82
Výsledek t –testu TEST JEDNOTLIVÝCH PARAMETRŮ
Hodnocení modelu
posuzované veličiny jsou lineárně všechny nezávislé nebo model je nevhodný nevýznamné (nevystihuje variabilitu závisle proměnné) vhodný (ale nemusí být optimálně všechny významné navržen) některé vhodný (je možné vypustit nevýznamné nevýznamné členy modelu) zvláštní případ způsobený všechny multikolinearitou – je nutné upravit nevýznamné nebo zcela změnit model
TEST SHODY REGRESNÍCH MODELŮ Porovnává se: empirický model (modely) s teoretickým dva nebo více empirických modelů mezi sebou H0: Porovnávané modely jsou shodné (tj. shodují se ve směrnici i v úseku).
83
TEST SHODY REGRESNÍCH MODELŮ
84
A
B
C
D
TEST SHODY REGRESNÍCH MODELŮ SHODA EMPIRICKÉHO A TEORETICKÉHO MODELU: H0: Empirický model y’ = a + bx pochází ze základního souboru, jehož model y’ = α + βx je shodný s teoretickým modelem y’0 = α0 +β0x, tj. platí α = α0, β =β0.
a − α0 t= sa 85
b − β0 t= sb
TEST SHODY REGRESNÍCH MODELŮ SHODA DVOU EMPIRICKÝCH MODELŮ: H0: βj,1 = βj,2, tj. regresní koeficienty obou modelů jsou v základním souboru shodné Vycházíme z testování shody regresních parametrů dvou lineárních modelů y1 = X1β1 + ε1 a y2 = X2β2 + ε2
86
Při tomto testu využijeme tzv. složeného modelu, tj. oba porovnávané výběry sloučíme do jednoho a také pro něj stanovíme parametry stejného modelu jako pro oba dílčí výběry
TEST SHODY REGRESNÍCH MODELŮ
(RSC s − RSC1 − RSC 2 )(n − 2m) FC = (RSC1 + RSC 2 ) ⋅ m n RSCs RSC1 RSC2
87
celkový počet prvků obou výběrů, tj. n1 + n2 reziduální součet čtverců složeného modelu reziduální součet čtverců prvního modelu reziduální součet čtverců druhého modelu
HODNOCENÍ KVALITY REGRESNÍHO MODELU střední kvadratická chyba predikce (MEP)
e i2 1 n MEP = ∑ n i=1 (1 − H ii )2
ei2 čtverec reziduí modelu Hii i-tý diagonální prvek projekční matice H
Akaikovo informační kritérium (AIC)
RSC AIC = n ⋅ ln + 2m n
RSC m
reziduální součet čtverců počet parametrů
Čím je AIC (MEP) menší, tím je model vhodnější. 88
REGRESNÍ DIAGNOSTIKA – stačí vždy jen testování modelu a parametrů? Výběr A
Výběr B
12
12
10
10
8
8
Y
14
Y
14
6
6
y = 0,5x + 3,0 R = 0,8164
4 2
2
0
0 4
6
8
10 X
89
y = 0,5x + 3,0 R = 0,8162
4
12
14
16
4
6
8
10 X
12
14
16
REGRESNÍ DIAGNOSTIKA – stačí vždy jen testování modelu a parametrů? Výběr C
Výběr D
12
12
10
10
8
8 Y
14
Y
14
6
6
y = 0,5x + 3,0 R = 0,8162
4 2
2
0
0 4
6
8
10 X
90
y = 0,5x + 3,0 R = 0,8165
4
12
14
16
4
9
14 X
19
24
REGRESNÍ DIAGNOSTIKA Zkoumá regresní triplet data (kvalitu dat pro navržený model) model (kvalitu modelu pro daná data) metoda odhadu (splnění předpokladů metody MNČ)
91
REGRESNÍ DIAGNOSTIKA – analýza reziduí
Používá se grafická analýza reziduí - tři typy grafů:
92
Typ grafu
Osa X
Osa Y
I II III
pořadové číslo bodu i j-tá nezávislá proměnná xj vypočítaná (modelová) hodnota y’i
reziduum ei reziduum ei reziduum ei
REGRESNÍ DIAGNOSTIKA – analýza reziduí „mrak“ bodů – graf nesignalizuje žádný problém
93
REGRESNÍ DIAGNOSTIKA – analýza reziduí „klín“ bodů – indikace heteroskedasticity (nekonstantního rozptylu)
94
REGRESNÍ DIAGNOSTIKA – analýza reziduí indikace chybného modelu
95
REGRESNÍ DIAGNOSTIKA – vlivné body Vlivné body (data, jejichž zařazení do modelu průběh modelu podstatně ovlivní): 1) hrubé chyby - jsou způsobeny chybou měření nebo pozorování, 2) body s vysokým vlivem (tzv. „zlaté body“) jsou speciálně vybrané body, které byly přesně změřeny a zpravidla zlepšují predikční schopnosti modelu; 3) zdánlivě vlivné body - jsou způsobeny nevhodným modelem; 96
REGRESNÍ DIAGNOSTIKA – vlivné body
odlehlé body
v pořádku
n − m −1 e Ji = e Si ⋅ n − m − e Si
ei e Si = σ 1 − H ii
i-tý diagonální prvek projekční matice H
97
REGRESNÍ DIAGNOSTIKA – kvalita modelu 1) Graf reziduí 2) Parciální regresní grafy vyjadřuje závislost mezi vysvětlovanou proměnnou (tedy vektorem y) a jednou vysvětlující proměnnou xj při statisticky neměnném vlivu ostatních vysvětlujících proměnných, které tvoří matici X(j) (vynechaná j-tá proměnná). Je to tedy určitá grafická obdoba parciálního korelačního koeficientu u korelačních modelů. 98
REGRESNÍ DIAGNOSTIKA – kvalita modelu Zajímá nás, zda všechny proměnné x1-3 jsou v modelu oprávněně. Postup je ukázán pro proměnnou x1.
X x1 x2 x3
y
u1 99
X(1)
y
Proměnná x1 do modelu patří
x1 x2 x3
u1
v1
x1=f(X(1)) regrese
v1 rezidua
y=f(X(1)) regrese
u1 rezidua
Proměnná x1 do modelu nepatří
v1
REGRESNÍ DIAGNOSTIKA – kvalita modelu pokud body parciálního regresního grafu leží na přímce s nulovým úsekem (absolutním členem), potom existuje skutečná lineární závislost mezi y a xj směrnice přímky proložené body parciálního regresního grafu číselně odpovídá příslušnému regresnímu koeficientu bj původního (posuzovaného) regresního modelu korelační koeficient mezi uj a vj odpovídá parciálnímu korelačnímu koeficientu rezidua regresní přímky mezi uj a vj odpovídají reziduím původního modelu 100
REGRESNÍ DIAGNOSTIKA – podmínky MNČ multikolinearita – VIF heteroskedasticita – testy heteroskedasticity (např. Cook Weinsberg) autokorelace reziduí – test významnosti autokorelačního koeficientu normalita reziduí – testy normality
101
REGRESNÍ MODEL - typy Příklady lineárních regresních modelů: y = a + bx - přímka - parabola y = a + bx + cx2 y = a + (b/x) - hyperbola
lineární modely jsou i některé, jejichž grafickým vyjádřením je křivka!!
Příklady nelineárních regresních modelů: y = a⋅xb y = a⋅ebx
102
y = a⋅e
k x
Výhody – jsou schopny modelovat složité reálné děje, např. růst, včetně reálné predikce. Nevýhody – složitý výpočet
NELINEÁRNÍ REGRESNÍ MODELY Platí podmínka, že 1. parciální derivace regresního modelu podle parametrů
δ f ( x, β ) gj = δβ j je alespoň pro jeden parametr jeho funkcí.
103
NELINEÁRNÍ REGRESNÍ MODELY Regresní modely se dělí na: neseparabilní – všechny parametry jsou v nelineárním postavení separabilní – část parametrů je lineárních, část nelineárních linearizovatelné – vhodnou transformací je lze převést na lineární model
104
NELINEÁRNÍ REGRESNÍ MODELY pro lineární model: účelová (minimalizační) funkce
105
jednoznačné řešení
pro nelineární model:
NELINEÁRNÍ REGRESNÍ MODELY
1. odhad parametrů 1. aproximace 2. odhad parametrů (první vypočítaný) 2. aproximace 3. odhad parametrů (druhý vypočítaný)
106
NELINEÁRNÍ REGRESNÍ MODELY
lokální min. (zde není optimální řešení)
sedlový bod globální minimum (optimální řešení)
107
NELINEÁRNÍ REGRESNÍ MODELY Metody odhadů parametrů nederivační metody přímého hledání (např. krokové hledání minima, Rosenbrockova metoda) simplexové metody (postupné vytváření adaptivních polyedrů – simplexů a jejich „překlápění“ směrem k minimu) metody využívající náhodných čísel
derivační (tendence k lokálním minimům, závislost na prvních odhadech, vhodné k jemnému nalezení minima jako pokračování nederivačních metod)
Gauss-Newton Levenberg-Marquart dog-leg 108
HODNOCENÍ NELINEÁRNÍHO REGRESNÍHO MODELU 1. Kvalita nalezených odhadů parametrů a) podle intervalů spolehlivosti (čím menší interval spolehlivosti, tím lépe)
β j = b j ± Cmm ⋅ m ⋅ s ⋅ F1−α ;m;n − m 2
b) podle rozptylů parametrů, kde by pro kvalitní odhad mělo platit
2 ⋅ D(b j ) < b j
109
HODNOCENÍ NELINEÁRNÍHO REGRESNÍHO MODELU 2. Kvalita dosažené těsnosti proložení 1. a) podle reziduálního rozptylu b) podle regresního rabatu, což je v procentech vyjádřený koeficient determinace (čím více se blíží 100 %, tím lepší proložení) 3. Vhodnost navrženého modelu Akaikovo informační kritérium(AIC) - (čím je AIC menší, tím vhodnější je model).
110
HODNOCENÍ NELINEÁRNÍHO REGRESNÍHO MODELU 4. Predikční schopnost modelu střední kvadratická chyba predikce (MEP) - čím je MEP menší, tím je predikční schopnost modelu lepší 5. Kvalita experimentálních dat a) na základě analýzy reziduí b) na základě analýzy vlivných bodů (podle Jackknife reziduí, Cookovy vzdálenosti, diagonální prvky projekční matice a věrohodnostní vzdálenost). 111