Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistika I. - Teorie
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Krabicový graf - data zobrazena pomocí kvartilů (maximum)
1) Statistika - Číselné údaje o hromadných jevech. Praktická činnost - sběr, zpracování a vyhodnocování statistických údajů - Teoretická disciplína - metody k odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy - Etapa statistického – zjišťování (šetření), zpracování zjištěných údajů, vyhodnocování a statistického usuzování (rozbor, analýza)
(minimum)
- Spojnicový graf četnost
15 10
2) Statistické znaky
5 0 1
2
3
4
Známka z matematiky
- Sloupcový graf- tvořen obdobně jako graf spojnicový, hodnoty ve sloupcích
četnost
15 10
- Vlastnost statistické jednotky (příjem, zisk, velikost). - Kvantitativní (číselné) - určují množství (v SPSS – SCALE) -- Pořadové a Měřitelné (dělení viz dále): --- Nespojité (diskrétní) – nabývají celočíselných hodnot (počet studentů na PaE a PaA), výstupem: izolované body (sloupcový graf) -- Spojité – nabývají všech hodnot daného intervalu (zlomky, desetinná čísla),(např. míra nezaměstnanosti), výstupem: spojitá přímka - Kvalitativní (slovní) - určují kvalitu -- Alternativní - pouze 2 možnosti (ano/ne; muž/žena) --Množné - nabývají více možností 3) Pojmy
5
- Statistická jednotka – subjekt, který zkoumáme (domácnost, podnik)
0 1
2 3 Známka z matematiky
4
- Statistický soubor – obsahuje konkrétní data
- Sektorový (výsečový) graf - znázornění relativních četností vyjádřených v procentech.
1
- Základní soubor – obsahuje všechny jednotky, které jsou předmětem statistického zkoumání (studenti PEF), mohou být konečné i nekonečné. (výsledek úplného šetření) - Výběrový soubor – obsahuje pouze část jednotek (Studenti statistiky PAA) (výsledek neúplného šetření)
2
- Kategoriální proměnná (kvalitativní) – proměnná, kterou není možno měřit, kvantifikovat, ale jen zařadit do tříd (např. svobodný, ženatý, rozvedený, vdovec) 4) (6) Pravděpodobnost - náhodný pokus – opakovatelná činnost, prováděná za stejných podmínek, která může, v závislosti na náhodě, vést k různým výsledkům (Hod mincí)
-1-
- náhodný jev – výsledek náhodného pokusu (Panna) - množina všech výsledků hodu kostkou U = {1, 2, 3, 4, 5, 6} = {E1, E2, E3, E4, E5, E6} -2-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Pravděpodobnost - (P. S. Laplace) číslo, které vyjadřuje míru možnosti realizace náhodného jevu m
P( A) =
n
m …… počet nastoupení jevu A n ……. celkový počet pokusů
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. -- Zákon rozdělení náhodné veličiny: --- Diskrétní náhodné veličiny - řada rozdělení, distribuční funkce F(x) --- Spojité náhodné veličiny - hustota pravděpodobnosti f(x), distribuční funkce F(x) -- Číselné charakteristiky náhodné veličiny - Střední hodnota E(X) charakterizuje polohu rozdělení, Rozptyl rozdělení D(X) charakterizuje variabilitu rozdělení 7) Distribuční funkce a hustota pravděpodobnosti
- Statistická definice – (R. von Mises) S rostoucím počtem pokusů se relativní četnost stabilizuje a přibližuje se k určitému konstantnímu číslu. - Vlastnosti pravděpodobnosti
1) 0 ≤ P(A) ≤ 1 2) P(U) = 1, protože pro jistý jev m = n 3) P(V) = 0, protože pro nemožný jev m = 0
M P(A) = lim N → +∞ N
- univerzální možnost vyjádření zákona rozdělení náhodné veličiny, F(x) = P(X < x) pro všechna x Є (- ∞, + ∞ ) - Diskrétní n. v. - F(x) nespojitá zprava v bodech, které reprezentují hodnoty X - Spojité n. v. – F(x) spojitá - Vlastnosti distribuční funkce 1) 0≤F(x)≤1 2) distribuční funkce je neklesající funkce, pro všechna x1<x2 platí F(x1)≤F(x2) 3) lim F ( x) = 0 , neboť F(-∞)=P(X<-∞)=0 x → −∞
4) P(A) = 1 - P(A)
lim F ( x) = 1 , neboť F(+∞)=P(X<+∞)=1 x → +∞
5) Sčítání a násobení pravděpodobnosti - Věta o sčítání pravděpodobnosti - Pro vyjádření pravděpodobnosti sjednocení náhodných jevů.
4) P(a≤X
P( AU B) = P( A) + P( B) − P( AI B)
f ( x) =
dF ( x) = F ′( x) dx
P( AU B) = P( A) + P( B) 8) (6) Normální (Gaussovo) rozdělení - E(X) = µ
- Jedná-li se o jevy neslučitelné. - Věta o násobení pravděpodobností - Pro vyjádření pravděpodobnosti průniku náhodných jevů.
P(AI B) = P(A/B) ⋅ P(B) = P(B/A) ⋅ P(A)
-- Pojem závislosti náhodných jevů - Jev A je nezávislý na jevu B, jestliže výskyt jevu B neovlivní pravděpodobnost výskytu jevu A. Platí P(A/B) = P(A) a také P(B/A) = P(B)
P(AI B) = P(A) ⋅ P(B)
D(X) = σ2
-- Podmíněná pravděpodobnost -
P(A/B) =
P(A ∩ B) P(B)
6) (6) Pravděpodobnostní rozdělení a náhodná veličina - Pravděpodobnostní rozdělení – Diskrétní (např. Poissonovo) a Spojité (např. Normální) - Náhodná veličina – proměnná, která nabývá konkrétních hodnot, nebo hodnot z určitého intervalu - Hod kostkou - šest možných výsledků, každý nastává s pravděpodobností 1/6, platí:p1+p2+…+pn=1 -3-
-4-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Dvě rozdělení se stejným rozptylem, ale odlišnou střední hodnotou
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Distribuční funkce F(x) = P( X < x ) p-procentní kvantil xp F(xp) = P( X < xp )=p
- Výpočet pravděpodobnosti P(a < X < b) Dvě rozdělení se stejnou střední hodnotou, ale odlišným rozptylem
- Pravidlo tří sigma (3σ)
- Distribuční funkce normálního rozdělení
x
F(x) = ∫ f(t) dt −∞
-5-
-6-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 9) Normální normované rozdělení - X L N µ, σ 2
(
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
)
U L N (0,1) X −µ - Standardizace U = -
σ
- Výpočet pravděpodobnosti P(a < X < b)
b−µ a −µ P(a < X < b) = F(b) − F(a) = Φ − Φ σ σ 12) Intervalové rozdělení četností - znak spojitý nebo diskrétní s velkým počtem obměn. - Je nutno řídit se několika pravidly: počet intervalů → podstatné rysy,
- Distribuční funkce normálního normovaného rozdělení Φ(u) Φ(-u) = 1 – Φ(u) 10) (4) Třídění - rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů - uspořádání údajů do přehledné formy včetně jejich zhuštění - Jednostupňové – podle obměn jednoho znaku - Vícestupňové – podle obměn více znaků najednou 11) Prosté rozdělení četností - nespojité statistické znaky, údaje uspořádáme do rostoucí posloupnosti a každé hodnotě znaku přiřadíme počty (četnosti) příslušných statistických jednotek k
- Absolutní četnost ni
n1 + n2 + n3 + L + nk = ∑ ni = n
- Relativní četnost fi
n fi = i , n
i =1
k
f1 + f 2 + f 3 + L + f k = ∑ f i = 1 i =1
- Kumulativní četnost – absolutní (Ni), relativní (Fi), kolik jednotek souboru, resp. jaká poměrná část souboru má variantu znaku menší nebo rovnou určité dané obměně N1 = n1 N2 = n1 + n2 N3 = n1 + n2 + n3
- Stanovení počtu intervalů k
R - Délka intervalu h = k
= n , Sturgesovo pravidlo k ≅ 1+ 3,3 log n
, Střed intervalu h/2 a zaokrouhlit,
R = variační rozpětí (R = xmax – xmin) - extrém → otevřené intervaly - jednoznačně určit, do jakého intervalu hodnota patří 13) Popisná statistika - Popisné statistické charakteristiky - charakterizují ve zhuštěné formě podstatné vlastnosti celého rozdělení. - Člení se na: - charakteristiky polohy rozdělení - průměry (ze všech hodnot souboru) a ostatní střední hodnoty (založeny na některých vybraných hodnotách souboru) - charakteristiky variability - charakteristiky šikmosti rozdělení - charakteristiky špičatosti rozdělení - Kvantilové charakteristiky 14) Charakteristiky polohy rozdělení
k
N k = n1 + n2 + n3 + L + nk = ∑ ni
- Průměr: (harmonický menší nebo roven geometrickému menší nebo roven aritmetickému) n
i =1
-- Aritmetický - Prostý (nesetříděná data)
- Vážený (setříděná data)
x + x + L + xn x= 1 2 = n
∑x i =1
i
n
x n + x n + L + xk nk x= 1 1 2 2 = n1 + n2 + L + nk
k
∑xn i =1 k
∑n i =1
-7-
-8-
i i
i
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. -- Geometrický – Prostý (n-tá odmocnina ze součinu xi … xn), Vážený (n-tá odmocnina ze součinu xini) -- Harmonický – Prostý (n / (suma 1/xi)), Vážený (n/(suma ni/xi)) - Ostatní střední hodnoty: (Nezabývají se krajními)
ˆ nejčastěji se vyskytující hodnota v souboru (pokud se hodnoty vyskytují -- Modus - x pouze jednou – modus není, pokud je n-hodnot se stejnou nejvyšší četností, je n-modusů)
n
~x
-- Medián prostřední hodnota z řady čísel uspořádaných podle velikosti (pokud má řada sudý počet prvků je mediánem aritmetický průměr dvou středních hodnot) 15) Charakteristiky variability - Měří rozptýlení hodnot příslušného souboru. Rozšiřují informace o statistickém souboru - Využívají se k posouzení vypovídací schopnosti aritmetického průměru. - Absolutní: -- Variační rozpětí - rozdíl největšín a nejmenší hodnoty znaku -- Rozptyl - Prostá forma
s02 =
, Výpočtový tvar
n k
- Vážená forma
s = 2 0
∑ (x − x ) i =1
2
i
n
s02 =
∑x i =1
n
2 i
, Výpočtový tvar k
∑ xi2 ⋅ ni i =1
n
k ∑ xi ni − i =1 n
[%]
17) (4) Kvantilové charakteristiky - Kvantily - míra polohy rozdělení pravděpodobnosti náhodné veličiny - Kvartily - dolní kvartil Q0,25 (25% prvků má hodnoty menší než dolní kvartil), prostřední kvartil (medián), horní kvartil Q0,75 - decily, percentily, k-té (Qk/10 , Qk/100) - Kvantilové rozpětí - kvartilové rozpětí (Q0,75 - Q0,25), decilové (Q0,9 - Q0,1) -9-
α=
ns 3
i
i =1
3
⋅ ni
ns 3
- ∝ 0 polovina malých hodnot znaku má menší variabilitu než polovina velkých hodnot (zešikmené doleva) ∝ 0 souměrnost rozdělení ∝ 0 polovina malých hodnot znaku má větší variabilitu než polovina velkých hodnot znaku (zešikmené doprava)
2
16) (3) Relativní charakteristiky variability - Srovnávání variability různých statistických znaků a souborů. Posouzení relativní velikosti rozptýlenosti dat vzhledem k průměru. - Porovnání rozptýlenosti dat skupin měření stejné proměnné s různým průměrem.
s0 ⋅100 x
i =1
∑ (x − x)
− x2
-- Směrodatná odchylka - uvádí se ve stejných měrných jednotkách jako zkoumaný znak
v=
i
⋅ ni
s02 =
- Variační koeficient –
α=
∑ (x − x)
n
3
n
∑ ( xi − x ) 2 i =1
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 18) Míry šikmosti - srovnání stupně nahuštěnosti malých a velkých hodnot sledovaného znaku - stejný stupeň hustoty malých a velkých hodnot → symetrie rozdělení - výpočet: stanovení třetího centrálního momentu, forma prostá nebo vážená
19) Míry špičatosti - stupeň koncentrace hodnot znaku kolem charakteristiky úrovně - srovnání stupně nahuštěnosti hodnot prostřední velikosti se stupněm nahuštěnosti ostatních hodnot, resp. všech hodnot proměnné - Plochý tvar rozdělení - podíl četností prostředních hodnot srovnatelný s četnostmi ostatních hodnot - Špičatý tvar rozdělení - větší stupeň koncentrace (nahuštění) prostředních hodnot ve srovnání s četnostmi všech (ostatních) hodnot proměnné n
β=
∑ (x − x) i =1
i
ns 4
n
4
−3
β=
0 rozdělení je špičatější než normální, plošší než normální - 10 -
∑ (x − x) i =1
i
4
⋅ ni
ns 4
0 normální rozdělení,
−3 0 rozdělení je
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 20) Statistická indukce - Proces, při kterém lze z výběrového souboru usuzovat na soubor základní - Vhodné vlastnosti statistiky – nestranná, konzistentní, vydatná, postačující - Vyčerpávající informace o sledovaném jevu obdržíme pouze ze základního souboru - Obvykle základní soubor neznáme, popisujeme na základě známých výběrových charakteristik - Dvě oblasti - Teorie odhadu a Testování statistických hypotéz 21) (8) Teorie odhadu - Jejím úkolem je odhadnout neznámé parametry základního souboru na základě výběrových dat. Výsledkem je jediné číslo. - Základní soubor - Výběrový soubor, Zjišťování úplné - Zjišťování výběrové
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 23) (7) Intervalové odhady - Neznámou hodnotu parametru odhadneme tak, že uvedeme interval spolehlivosti, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS. - P(T1 ≤ θ ≤ T2) = 1 – α - Spolehlivost odhadu (1 – α), Pravděpodobnost α, Přesnost odhadu - Intervalový odhad průměru ZS - Je potřeba vycházet z několika předpokladů: -- základní soubor má normální rozdělení nebo rozdělení ZS neznáme, ale náhodný výběr má velký rozsah, -- známe nebo neznáme rozptyl ZS σ2, --zda se jedná o výběr s vracením nebo bez vracení a zda půjde o interval jednostranný nebo oboustranný. -- P ( x − ∆ < µ < x + ∆ ) = 1 − α , - Interval spolehlivosti pro populační průměr – (viz. vzorce) 24) Rozšířené výpočty pro intervalové odhady - Výpočet přípustné chyby - maximální možná chyba, které se lze dopustit při konstrukci intervalu spolehlivosti. (viz. vzorce) - Stanovení rozsahu souboru – pro požadovanou spolehlivost a přípustnou chybu. (viz. vzorce) - Určení spolehlivosti odhadu - (viz. vzorce) - Rozdělení t lze za obecných podmínek aproximovat normálním rozdělením, → distribuční funkci normovaného normálního rozdělení. P(-1,34< u <1,34) = F(1,34) – F(-1,34) = F(1,34) – [1-F(1,34)] = 0,9099 –(1 – 0,9099) = 0,8198 - Interval spolehlivosti pro populační relativní četnost - (viz. vzorce) - Interval spolehlivosti pro populační rozptyl - (viz. vzorce)
22) Bodové odhady - Na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS. - Bodový odhad průměru ZS můžeme tedy psát µ = x .
µ=
1 N
N
∑ Xi
je výběrový průměr
x=
i =1
1 n ∑ xi n i =1
- Bodovým odhadem rozptylu ZS není rozptyl souboru s02 (viz. vzorce) - Bodový odhad variačního koeficientu ZS
V ´= v ⋅
n n −1
N −1 N
- Bodový odhad relativní četnosti ZS - Bodovým odhadem relativní četnosti ZS je výběrová relativní četnost fi. π = fi
- 11 -
25) Intervalový odhad parametru p (π π) alternativního rozdělení (intervalový odhad relativní četnosti ZS) - Bodovým odhadem je výběrová relativní četnost fi = m/n, kde n je rozsah výběrového souboru a m počet jednotek s určitou vlastností. - Tento výběrový podíl je nestranným odhadem parametru p. - Je nutno rozlišovat, zda pracujeme s malými nebo velkými výběry. (Velký je n minimálně 100) - Jedná-li o výběrový soubor velkého rozsahu, lze rozdělení výběrové relativní četnosti m/n aproximovat normálním rozdělením se střední hodnotu p a směrodatnou odchylkou
p(1 − p) n 26) Statistická hypotéza - Předpoklad týkající se neznámého rozdělení populace - Tvrzení o parametrech nebo tvaru rozdělení zkoumaného znaku - Nulová hypotéza (testovaná hypotéza) H0 - θ0 – hypotetická hodnota zkoumaného parametru H0: θ = θ0 - Alternativní hypotéza H1 - H1: θ ≠ θ0 ⇒ oboustranná alternativa - H1: θ > θ0 ⇒ pravostranná alternativa - H1: θ < θ0 ⇒ levostranná alternativa - 12 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 27) (8) Testování hypotéz - Proces ověřování platnosti statistických hypotéz na základě výsledků získaných náhodným výběrem - Test – Parametrické nebo neparametrické. Jedno, dvou nebo vícevýběrové. Oboustranné nebo jednostranné (pravostranné nebo levostranné) - Kritický obor - obor možných hodnot testového kritéria T je rozdělen na disjunktní množiny kritickou hodnotou -- Kritický obor K (zamítáme H0), Obor přijetí R (výskyt hodnot T, které nejsou v rozporu s H0) - Postup testování statistických hypotéz: - Formulace nulové a alternativní hypotézy. Volba hladiny významnosti α. - Volba testového kritéria (a testu). Výpočet hodnoty testového kritéria T z výběrových hodnot - určení kritického oboru K (vyhledání tabulkové hodnoty podle zvoleného testu) - formulace výsledků testu (rozhodnutí). ROZHODNUTÍ: vypočtená hodnota > tabulková hodnota → H1 28) (2) Parametrické testy jednovýběrové - Test hypotézy o průměru normálního rozdělení - H0: µ = µ0 – výpočet TK (viz. vzorce), uα a tα(n-1) jsou tabulkové hodnoty - Test hypotézy o parametru p alternativního rozdělení (relativní četnost) - H0: π = π0 – výpočet TK (viz. vzorce), uα je tabulková hodnota 29) (7) Parametrické testy dvouvýběrové 2 2 - Test rozdílu dvou výběrových rozptylů (F-test) - H 0 : σ 1 = σ 2 - výpočet TK (viz. vzorce), Fα (f1, f2) je tabulková hodnota - Dvouvýběrový test o shodě dvou průměrů (Existuje významný rozdíl mezi dvěma soubory?) -- 1. krok F – test (test H0 σ21=σ22) -- 2. krok - Dvouvýběrový t-test není-li H0 F-testu zamítnuta(σ21=σ22) zamítnuta - výpočet TK (viz. vzorce), Welchův test je-li H0 F-testu (σ21>σ22) - výpočet TK (viz. vzorce) - Dvouvýběrový test o shodě dvou průměrů – závislé výběry (párový t-test) (dvě pozorování na jedné skupině jednotek)
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 31) (6) Model analýzy rozptylu jednoduchého třídění - xij kolísá okolo průměru v důsledku efektu ai a náhodného efektu eij → N (0,σ2)
xij = x + ai + eij
-vyvážený nebo nevyvážený model. Předpoklady modelu (normalita rozdělení a nezávislost výběrů a homogenita rozptylů) - Postup sestavení modelu: -- formulace nulové hypotézy (H0: µ1 = µ2 = … = µm nebo H0: a1 = a2 = … = am = 0) -- alternativní hypotéza H1 - slovně – alespoň v jedné ze srovnávaných dvojic existuje m významný rozdíl 2
H1 : ∑ ai > 0 i =1
-- ověření normality (v praxi se neověřuje, nemá vliv na výsledky testu); ověření homogenity rozptylu – Bartlettův test; rozklad celkového rozptylu na rozptyly dílčí s2 = s12 + sr2 -- F-test; formulace dílčích závěrů; v případě platnosti (H0 → test končí, H1 → mnohonásobné porovnání) 32) Podrobnější vyhodnocení výsledků ANOVA (případ platnosti H1) - Scheffého metoda (S – metoda) – univerzální (viz. vzorce) - Tuckeyova metoda (T – metoda) - vyvážený model (viz. vzorce) - Duncanova metoda - vyvážený model, seřazení výběrových průměrů dle velikosti, odhad rozptyl výběrových průměrů --R p; (f); α -
s x2 =
sr2 ⇒ s x = s x2 n
-- H0: µ1 = µ2 → H0: µd = 0, d µd je průměr souboru diferencí di - výpočet TK (viz. vzorce) tα(n-1) je tabulková hodnota - Test rozdílu dvou výběrových relativních četností - H0: π1 = π 2, velké rozsahy n1 a n2 (n1 > 100; n2 > 100) - výpočet TK (viz. vzorce), uα je tabulková hodnota 30) (4) Parametrické vícevýběrové testy - Smysl analýzy rozptylu jednoduchého třídění - vícevýběrový test, vliv jednoho nebo více faktorů na výsledný znak kvantitativní X --1 faktor – jednofaktorová ANOVA (jednoduchého třídění), 2 faktory – dvoufaktorová ANOVA (dvojného třídění), atd. -- rozklad celkového rozptylu na rozptyly dílčí, tyto dílčí rozptyly nesou informaci, která ovlivňuje hodnoty sledovaného znaku xij v daném třídění - s2 → rozptyl mezi třídami s12 a rozptyl uvnitř tříd (reziduální) sr2 - 13 -
- 14 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistika I. - Příklady
P(AI B) = P(A) ⋅ P(B)
Pravděpodobnost - Laplace –
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Jevy A a B jsou nezávislé, jestliže pro ně platí P(A/B) = P(A) a také P(B/A) = P(B). Pak lze větu o násobení pravděpodobností zapsat: - Př. Pan Novák lže s pravděpodobností P(A)=0,2 Pan Horák lže s pravděpodobností P(B)=0,3 Zeptáte-li se obou (nezávisle na sobě!) na informaci, jaká je pravděpodobnost, že budou oba lhát?
m P( A) = n
m …… počet nastoupení jevu A n ……. celkový počet pokusů - Př. Ve třídě je 12 dívek a 8 chlapců. Jaká je pravděpodobnost, že bude (při náhodném výběru) vyvolána dívka? m=12 n=20 P(A)=12/20 - Vlastnosti pravděpodobnosti
1) 0 ≤ P(A) ≤ 1 2) P(U) = 1, protože pro jistý jev m = n 3) P(V) = 0, protože pro nemožný jev m = 0
P(A ∩ B) = P(A) ⋅ P(B) = 0,2 ⋅ 0,3 = 0,06 Jaká je pravděpodobnost, že oba řeknou pravdu?
P(AI B) = P(A) ⋅ P(B) = 0,8 ⋅ 0,7 = 0,56 Jaká je pravděpodobnost, že alespoň jeden řekne pravdu?
P(A ∪ B) = 0,8 + 0,7 − 0,8 ⋅ 0,7 = 0,94 P(A ∪ B) = 1 − P(A ∩ B) = 1 − 0,06 = 0,94
4) P(A) = 1 - P(A) - von Mises –
P(A) = lim
N → +∞
- Podmíněná pravděpodobnost -
M N
U B) = P( A) + P( B) − P( AI B)
- Věta o sčítání pravděpodobnosti – P ( A
- Př. Telefonní operátor zjistil, že 75% zákazníků požaduji telefon s funkci „psaní SMS“, 80% „fotografování“ a 65% požaduje obě funkce. Jaká je pravděpodobnost, že zákazník bude požadovat alespoň jednu z uvedených možností? A… SMS P(A)=0,75 B… fotografování P(B)=0,8 P(A∩B)=0,65
P(A ∪ B) = P(A) + P(B) - P(A ∩ B) =
P(A/B) =
- Př. - Házíme dvěma kostkami, bílou a černou. Jaká je podmíněná pravděpodobnost, že na bílé kostce padne 5 za podmínky, že součet na obou kostkách bude devět? B5={(5,1),(5,2),(5,3),(5,4),(5,5),(5,6)} S9={(3,6),(4,5),(5,4),(6,3)}
P(B5 /S9 ) =
P(B5 ∩ S9 ) 1 = P(S9 ) 4
Pravděpodobnostní rozdělení - Náhodná veličina - řada (tabulka) rozdělení náhodné veličiny (Pro hrací kostku) šest možných výsledků, každý nastává s pravděpodobností 1/6,
= 0,75 + 0,80 - 0,65 = 0,90 - Jedná-li se o jevy neslučitelné -
P ( AU B ) = P ( A) + P ( B )
- Věta o násobení pravděpodobností – P(A
I B) = P(A/B) ⋅ P(B) = P(B/A) ⋅ P(A) platí: p1+p2+…+pn=1
- 15 -
P(A ∩ B) P(B)
- 16 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Distribuční funkce – (Pro hrací kostku)
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Intervalové rozdělení četnosti - Př. - Jsou k dispozici údaje o výdělcích brigádníků za určitý měsíc. Setřiďte hodnoty do přehlednější formy.
Stanovení počtu intervalů
k = n = 30 = 5,477
Stanovení šířky intervalu
h=
R 15100 − 4200 = = 1816,666 k 6
Normální a normální normované rozdělení - Př. Náhodná veličina X má normální rozdělení s průměrem µ=100 a směrodatnou odchylkou σ=50. Pak hodnota veličiny U pro X=160 je:
U=
X − µ 160 − 100 = = 1,2 σ 50
Hodnota X je 1,2násobek směrodatné odchylky (1,2 x 50=60) nad průměrem (100).
Sturgesovo pravidlo → počet intervalů zhruba stejný
k ≅ 1 + 3,3 log n = 1 + 3,3 log 30 = 5,87 Charakteristiky polohy rozdělení - Aritmetický průměr prostý Př. - Vypočítejte průměrnou výšku (cm) hráček volejbalového družstva. Hodnoty jsou: 185, 178, 175, 175, 181, 172. n
x=
- 17 -
∑x i =1
n
i
=
185 + 178 + 175 + 175 + 181 + 172 = 177,66 6
- 18 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Aritmetický průměr vážený Př. - Pojišťovna si zjišťuje průměrný věk aut ze své databáze.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Př. - Máme data týkající se věku pojištěných aut. Tento soubor chceme popsat pomocí charakteristik variability.
∑ x ⋅n x= ∑n i
Frequency Counts
i
Count
Value
10 19 27 10 9 7 8 5 3 2
1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 8.0000 9.0000 10.0000
i
1⋅10 + 2 ⋅19 + 3 ⋅ 27 + 4 ⋅10 + 5 ⋅ 9 + 6 ⋅ 7 + 7 ⋅ 8 + 8 ⋅ 5 + 9 ⋅ 3 + 10 ⋅ 2 100 399 x= = 3,99 100 x=
Cell Percent
Cum Percent
10.0 19.0 27.0 10.0 9.0 7.0 8.0 5.0 3.0 2.0
10.0 29.0 56.0 66.0 75.0 82.0 90.0 95.0 98.0 100.0
399 = 3,99 100
x= - Př. - Zajímá nás průměrný výdělek na studenta za určitý měsíc.
s0 = s02 = 5,29 = 2,3 v=
x=
∑ xi ⋅ ni ∑n
i
k
260000 = = 8666,67 30
s = 2 0
Charakteristiky polohy rozdělení - Variabilita Př. - Máme k dispozici následující data: 2 Chceme popsat variabilitu tohoto souboru.
∑x
x=
i
n n
s02 =
∑ (x i =1
i
=
9
10
1
0
i =1
2
i
n
⋅ ni
=
(1 − 3,99)2 ⋅10 + ... + (10 − 3,99)2 ⋅ 2 = 528,99 = 5,29 100
5.
35 =5 7
− x)2
n
8
∑ (x − x )
s0 2,3 ⋅100 = ⋅100 = 57,64 % x 3,99
=
(2 − 5)2 + (8 − 5)2 + ... + (5 − 5)2 7
=
100 = 14,29 7
s0 = s02 = 14,29 = 3,78 v=
s0 3,78 ⋅100 = ⋅100 = 75,60 % x 5
- 19 -
- 20 -
100
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Př. - Zajímá nás variabilita měsíčních výdělků vybraných studentů.
x=
∑ x ⋅n ∑n i
i
i
k
s = 2 0
∑ (x − x )
2
i
i =1
n
⋅ ni
=
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Základní charakteristiky - Soubor A = soubor B = soubor C
~ x = 15 =
260000 = 8666,67 30
208666666,7 = 6955555,56 30
x = 15
xˆ = 15
s 2 = 13,2653
Soubor A – rozdělení četností je souměrné okolo průměru ,B a C – rozdělení četností je nesouměrné Rozdělení souboru B – polovina malých hodnot znaku má menší variabilitu než polovina velkých hodnot → rozdělení s kladnou šikmostí (zešikmené doleva). Rozdělení souboru C – polovina malých hodnot znaku má větší variabilitu než polovina velkých hodnot znaku → rozdělení se zápornou šikmostí (zešikmené doprava). Výpočet míry šikmosti – vzhledem k provedené třídění je nutno použít váženou formu Soubor A
s = s = 6955555,56 = 2637,34 2 0
v=
2 0
s0 2637,34 ⋅100 = ⋅100 = 30,43 % x 8666,67
- Míry šikmosti Př. –
n
α=
∑ (x i =1
i
− x ) 3 ⋅ ni ns
3
=
0 =0 50 ⋅ 48,3143
Soubor B - α = 1,86280 sešikmení doleva Soubor C - α = -1,86280 sešikmení doprava - Míry špičatosti Př. –
- 21 -
Rozsah n = 1000, stejný aritmetický průměr, medián, modus v hodnotě 4, stejný rozptyl a stejnou šikmost α = 0; liší se …... Soubor D - 22 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Spolehlivost pro průměr Př. - Z velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce.
4,091 4,091 < µ < 116 + 1,96 ⋅ 400 400 116 − 0,4 < µ < 116 + 0,4 116 − 1,96 ⋅
n
β=
∑ (x − x)
4
i
i =1
ns
⋅ ni
4
=
7200 − 3 = −0,78222 1000 ⋅ 3,2465
P (115,6 < µ < 116,4) = 0,95
Interval pravostranný
Soubor D – plošší rozdělení četností
µ < 116 + 1,6448 ⋅
4,091 400
P (µ < 116,3364) = 0,95
Soubor E - Stanovení rozsahu souboru Př. - Požadujeme spolehlivost 95 % a přípustnou chybu odhadu 1 mm. Kolik jednotek je potřeba vybrat? 1,96 2 ⋅ 4,0912 s = 4,091 t0,05 (399) = 1,96
n=
12
= 64,29 =& 65
- Určení spolehlivosti odhadu Př. - Jaká bude spolehlivost odhadu, pokud požadujeme šířku intervalu 2 mm a výběr nelze dále rozšířit? 12 ⋅ 30 s = 4,081 n = 30
tα =
n
β=
∑ (x − x) i =1
i
ns
4
⋅ ni
4
=
16200 − 3 = 1,99 1000 ⋅ 3,2465
4,0912
= 1,34
Rozdělení t lze za obecných podmínek aproximovat normálním rozdělením, → distribuční funkci normovaného normálního rozdělení. P(-1,34< u <1,34) = F(1,34) – F(-1,34) = F(1,34) – [1-F(1,34)] = 0,9099 –(1 – 0,9099) = 0,8198
vyšší koncentrace hodnot okolo střední hodnoty, špičatější rozdělení četností - Intervalový odhad parametru alternativního rozdělení Př. - U 100 pojištěných aut bylo zjištěno, že 18 aut je starších než 7 let. Chceme stanovit 95% interval spolehlivosti pro podíl aut starších 7 let v základním souboru.
fi =
ni 18 = = 0,18 n 100
∆ = uα ⋅
uα = u0, 05 = 1,96
f i (1 − f i ) 0,18 ⋅ (1 − 0,18) = 1,96 ⋅ = 0,0753 = 7,53 % n 100
P (0,18 − 0,0753 < π < 0,18 + 0,0753) = 0,95 P (0,1047 < π < 0,2553) = 0,95 Intervalové odhady - 23 -
- 24 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Jak velký výběrový soubor bychom potřebovali v případě, že požadujeme velikost přípustné chyby pouze 5 %?
uα2 ⋅ f i ⋅ (1 − f i ) ∆2 1,96 2 ⋅ 0,18 ⋅ (1 − 0,18) n= = 226,81 = 227 0,05 2 n=
Jakou spolehlivost zaručuje výběr 100 respondentů s přípustnou chybou 5 %?
uα =
∆2 ⋅ n 0,052 ⋅100 = = 1,3 f i ⋅ (1 − f i ) 0,18 ⋅ 0,82
P(-1,3 < u < 1,3) = F(1,3) – F(-1,3) = 2F(1,3) – 1 = 2 · 0,9032 – 1 = 0,8064 Parametrické testy jednovýběrové - Test hypotézy o průměru normálního rozdělení Př. - Z velké zásilky součástek jsme jich náhodným výběrem vybrali 40 a zjistili pro některý jejich rozměr průměr 116 mm a směrodatnou odchylku 4,081 mm. Podle technické normy má tento rozměr dosahovat úrovně 118 mm. Ověřte na hladině významnosti 0,05, zda uvedená zásilka splňuje danou normu. n = 40 s02 = 4,0812 = 16,65456 s0 = 4,081 µ = 118
x = 116
H0: µ = µ0 H1: µ ≠ µ0
tα (n-1) = t0,05 (40-1) = 2,021 | t | > tα (n-1) ⇒ H0 se zamítá Závěr:
s 2 = s02 ⋅
t=
n 40 = 16,65456 ⋅ = 17,0816 n −1 39
x − µ0 2
s n
- 25 -
=
116 − 118 = −3,06052 17,0816 40
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Test hypotézy o parametru p alternativního rozdělení Př. - U 100 pojištěných aut bylo zjištěno, že 18 aut je starších než 7 let. Podle předpokladů a odhadů pojišťovny má podíl aut starších 7 let dosahovat podílu 25 %. Ověřte, zda podíl aut starších než 7 let je skutečně jiný než uvedený předpoklad o 25% podílu. fi = 0,18 π0 = 0,25 fi − π 0 0,18 − 0,25 u= = = −1,61658 H0: π ≠ π 0 0,25 ⋅ (1 − 0,25) H1: π = π 0 POZOR, změna oproti slidům π 0 ⋅ (1 − π 0 ) uα = 1,96 IuI < uα ⇒ H0 se nezamítá Závěr:
n
100
- Test rozdílu dvou výběrových rozptylů (F-test) Př. - Z velké zásilky součástek jsme jich náhodným výběrem vybrali 30 a zjistili pro některý jejich rozměr směrodatnou odchylku 4,081 mm. Ze zásilky od druhého dodavatele jsme vybrali 25 součástek a zjistili jsme pro stejný rozměr rozptyl 18,25. Na základě těchto údajů chceme ověřit, zda variabilita sledovaného parametru je u obou dodávek shodná. m = 30
n = 25
30 = 17,22886 29
2 s01 = 16,654561
s12 = 16,654561 ⋅
2 s02 = 18,25
25 = 19,01042 24 s 2 19,01042 F = 12 = = 1,103406 s2 17,22886
H 0 : σ 12 = σ 22
H1 : σ 12 > σ 22
s22 = 18,25 ⋅
Fα (f1, f2) = F0,05 (24; 29) = 1,90 F < Fα (f1, f2) ⇒ H0 nezamítáme a variabilita obou dodávek je v ZS shodná.
- 26 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Dvouvýběrový test o shodě dvou průměrů Př. - Máme k dispozici údaje o mzdách (tis. Kč) náhodně vybraných zaměstnancích určité firmy z regionu A a B. Je možné konstatovat, že z hlediska průměrné mzdy existuje významný rozdíl mezi regiony A a B?
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 2. t–testem pro variantu shodných rozptylů
[
]
1 ⋅ (m − 1) ⋅ s12 + (n − 1) ⋅ s22 m+n−2 1 s2 = ⋅ ( 14 ⋅ 85, 8824 + 9 ⋅ 67, 3179 ) = 78,618 15 + 10 − 2 x−y 58,033 − 53,23 t= = = 1,327 1 1 1 1 s⋅ + 78,618 ⋅ + m n 15 10 s2 =
t0,05 (15+10-2) = 2,069 t = 1,327 < tα = 2,069 t < tα (f) ⇒ H0: µ1 = µ2 - Př. - Máme k dispozici údaje o mzdách náhodně vybraných zaměstnanců dvou různých společností A a B (tis. Kč). Je možné konstatovat, že jsou průměrné mzdy obou společností významně odlišné? H0: µ1 = µ2 – průměrné mzdy se významně neliší H1: µ1 ≠ µ2
n = 25 x2 = 56,112
m = 15 x1 = 58,033
n = 10 x2 = 53,23
m = 25 x1 = 71,116
s12 = 85,8824
s22 = 67,3179
s12 = 34,0264
s22 = 81,11027
1. F–test
H 0 : σ 12 = σ 22
s12 85,8824 F= 2 = = 1,2758 s2 67,3179
H1 : σ 12 > σ 22
H0: µ1 = µ2 – průměrná mzda se významně neliší H1: µ1 ≠ µ2 1. F–test
H 0 : σ 12 = σ 22
F0,05 (14; 10) = 2,86 F < Fα (f1, f2) ⇒ H0 se nezamítá, tzn. že variabilita obou souborů v ZS je shodná
H1 : σ 12 > σ 22
F=
F0,05 (24; 24) = 1,98 F > Fα (f1, f2) ⇒ H0 se zamítá - 27 -
- 28 -
s12 81,11027 = = 2,384 s22 34,0264
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 2. t–testem pro variantu rozdílných rozptylů, Welchův test
t=
x−y s12 s22 + m n
71,116 − 56,115 = 6,9915 34,0264 81,11027 + 25 25
=
2
2 s12 s22 34 , 0264 81 , 11027 + + m n 25 25 = = 41,12 f = 2 2 2 2 s12 s22 34,0264 81,11027 25 + 25 m + n 24 24 m −1 n −1
t0,05 (41) = 2,021 t = 6,99 > tα = 2,021 t > tα (f) ⇒ H0: µ1 = µ2 se zamítá - Dvouvýběrový test o shodě dvou průměrů – závislé výběry (párový t-test) Př. - Máme k dispozici údaje o výkonech žáků ve skoku do dálky při tréninku a při závodě. Je možné konstatovat, že jsou výkony žáků při tréninku a při závodě shodné?
H0: µ1 = µ2 H1: µ1 ≠ µ2
∑ di
0,15 2 d= = = 0,0125 sd = n 12 d 0,0125 t= = = 0,2813 2 0,02369 sd 12 n
∑ (d
−d )
2
i
n −1
=
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Test rozdílu dvou výběrových relativních četností Př. - Máme k dispozici údaje o počtu narozených dětí v rámci dvou regionů. V regionu A zjistili, že během sledovaného období se v rámci 120 dětí narodilo 51 chlapců, zatímco v regionu B se za stejné období narodilo celkem 150 dětí, z toho 66 děvčat. Je možné konstatovat, že pravděpodobnost narození chlapce je u obou regionů stejná? H0: π1 = π 2 H1: π 1 ≠ π 2 m2 = 84 m1 = 51 n1 = 120 n2 = 150
p=
m1 + m2 51 + 84 = = 0,5 n1 + n2 120 + 150
n=
51 84 − f1 − f 2 120 150 u= = = −2,2045 p⋅q 0,5 ⋅ 0,5 n 66, 6 uα = u0,05 = 1,96 u> uα ⇒ H0 se zamítá
0,260625 = 0,02369 11
tα(n-1) = t0,05 (11) = 2,201 t < tα (n-1) ⇒ H0 se nezamítá
- 29 -
- 30 -
n1 ⋅ n2 120 ⋅150 = = 66, 6 n1 + n2 120 + 150
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistika I. – Studijní materiál 1 ANALÝZA ROZPTYLU-ANOVA= dělá se při dvouvýběrovém testu; pozorované veličiny jsou nezávislé s normálním rozdělením a stejným rozptylem; zkoumá, zda některá z porovnávaných dvojic (průměrů) se liší, pomocí ANOVY se testuje nulová hypotézapokud není zamítnuta, práce končí; pokud je zamítnuta pokračujeme dál testováním Analýza rozptylu = soubor metod, pomocí kterých lze sledovat vliv jednoho nebo více faktorů na populační průměr, specielně porovnat průměry m populací, kde m > 2
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. TYPY GRAFŮ= a) boxplot (krabičkový graf)-graficky znázorňuje numerická data pomocí kvartilů, umožňuje posouzení mediánu, symetrie, variabilitu datového souboru a extrémních hodnot
MEDIÁN=patří spolu s průměrem a modusem mezi charakteristiky polohy, značí se x s vlnovkou, hodnota mediánu udává střední hodnotu řady, která je vzestupná, dělí ji tak na 2 poloviny CHARAKTERISTIKY POLOHY=neboli rozdělení podle umístění (v řadě); patří sem průměr, medián (viz. výše) a modus; průměr-sečteme všechny hodnoty a vydělíme jejich počtem, modus-hodnota nejčastějšího znaku (hodnoty) VARIABILITA A CHARAKTERISTIKY VARIABILITY Variabilita = proměnlivost, odchylnost od normálu, hodnota rozptýlení dat v souboru, různorodost, odchylka hodnot od průměru Míry variability = Pomocí jen měr polohy nelze přesně popsat výběr, protože mnoho dat má stejné nebo přibližně stejné hodnoty jednotlivých parametrů měr polohy, přesto jsou na první pohled odlišné (s) směrodatná odchylka-kvadratický průměr odchylek hodnot znaku od jejich aritmetického průměru; (s2)rozptyl-střední hodnota kvadrátů odchylek od střední hodnoty; (V) variační koeficient- směrodatná odchylka / průměr * 100; (R) variační rozpětí-rozdíl mezi nejmenší a největší hodnotou řady KATEGORIÁLNÍ PROMĚNNÉ- nominální (znaky většinou pro 2 typy (muž žena, nemocný zdravý, ale i pro barvu – např. 5 barev; nezávislé na sobě), ordinální (můžeme je vzestupně/sestupně řadit-dosažené vzdělání a kvantitativní (číselné-hodnota v číslehmotnost, výška…) proměnné; slovní proměnné (kvalitativní) dělíme ještě na spojité (mohou zasahovat i desetinná čísla-váha,výška..) a nespojité (počty mláďat,počet snesených vajec..); používají se pro testy relativní četnosti
1. první kvartil; 2. medián; 3. třetí kvartil
b) histogram (stem and laef)-lodyha a listy- graf ukazující relativní četnosti (hustota) a jednotlivé hodnoty; vlevo-četnosti (např 2-tzn. 2x), vpravo- první číslice desítky, pak jednotky…tzn. Např. 2…..4. 89 -> cena 48,49 (2 ceny začínající 40->40+8,40+9 Četnosti; Lodyha & Listy 2,00 4 . 89 4,00 5 . 1334 11,00 5 . 5556677 c) sloupcový graf d) koláčový graf
- 31 -
- 32 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. NORMÁLNÍ A NORMOVANÉ ROZDĚLENÍ-ROZDÍL- u normovaného má „ný“ (střední hodnota) hodnotu 0 a „s“ (směrodatná odchylka) hodnotu 1; normální; Normované N (0,1)
-
DISTRIBUČNÍ FUNKCE Distribuční funkce = možno použít pro diskrétní, tak i pro spojité náhodné veličiny. Je to fce, která každému reálnému číslu přiřazuje ppst, že náhodná veličina nabude hodnoty menší než toto číslo. Je to ppst a ta leží v intervalu <0,1>, je neklesající NORMÁLNÍ ROZDĚLENÍ-GAUSSOVO (GAUSSOVA KŘIVKA)=běžné rozdělení, je nejdůležitějším pravděpodobnostním rozdělením a používá se hlavně jako model pro rozdělení náhodných chyb měření, které jsou způsobené množstvím malých, na sobě nezávislých náhodných jevů, předpokladem je dostatečně velký rozptyl přibližných hodnot (aproximace), obvykle 9, větší než 25 nezaručují dobré přiblížení; střední hodnota µ a rozptyl σ2
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistický znak=pohlaví vzdělání, věk, bydliště…(1 konkrétní položka statistické jednotky Základní soubor = soubor všech statistických jednotek, na něž se vztahuje příslušné statistické zkoumání. (populace, zvířata) Může být konečný i nekonečný (experimentální výzkum – technologický, biologický), (lze za stále stejných podmínek pozorování nepřetržitě opakovat. Výběrový soubor = soubor určitého konečného počtu n jedinců vybraných ze základního souboru, u kterých je provedeno praktické sledování (měření) zkoumané vlastnosti. (zvířata v pražské ZOO) Na základě poznání vlastností výběrového souboru se usuzuje na vlastnosti celé populace, proto by měl být výběrový soubor co nejlepším představitelem základního souboru.
NULOVÁ A ALTERNATIVNÍ HYPOTÉZA+JEDNOSTRANNÁ, OBOUSTRANNÁ Nulová hypotéza = vždy tvrzení o shodě (rovnosti), shoda mezi skutečností a předpokladem, neexistuje statisticky významný rozdíl mezi předpokladem a skutečností Alternativní hypotéza = neshoda, rozdíl mezi předpokladem a skutečností, popírá 0 hypotézu, existuje statisticky významný rozdíl mezi předpokladem a skutečností. Je oboustranná, pravostranná a levostranná NÁHODNÁ VELIČINA=číselné vyjádření náhodného jevu; výsledek za předpokladu určitých podmínek vlivem náhodných činitelů->různé hodnoty -veličina, kterou lze opakovaně měřit u různých objektů, v různých místech nebo v různém čase (např. teplota v určitou hodinu měřená každý den, počet teček při hodu kostkou…) -nabývá konkrétních hodnot či hodnot z různých intervalů v závislosti na náhodě -dělíme na nespojité=diskrétní (celá čísla-počet snesených vajec, počet poruch přístroje) a spojité (interval-výška člověka, váha zvířete, míra nezaměstnanosti, spotřeba paliva…) NAHODILÝ JEV, POKUS Náhodný pokus = opakovatelná činnost prováděná za stejných podmínek (hod kostkou) Náhodný jev = výsledek náhodného pokusu (padne trojka) Sjednocení náhodných jevů = náhodný jev, který nastane, nastane-li alespoň jeden z jevů A aB Průnik = současný nástup jevů A a B
3 SIGMA výsledky náhodného pokusu neleží od střední hodnoty dále než sigma doleva a sigma doprava (poté 2 sigma a 3 sigma); intervaly: (µ – σ, µ + σ) s pravděpodobností 68,27%, (34,1+34,1…cca 68,2) (µ – 2σ, µ + 2σ) s pravděpodobností 95,45%, (68,2+13,6+13,6…95,4) (µ – 3σ, µ + 3σ) s pravděpodobností 99,73% (95,4+2,1+2,1…99,6) STATISTICKÝ ZNAK, STATISTICKÁ JEDNOTKA, ZÁKLADNÍ A VÝBĚROVÝ SOUBOR= statistický soubor (databáze-rostliny, lidé, firmy…); Statistická jednotka = jeden konkrétní prvek statistického souboru (zaměstnanec); - 33 -
BODOVÝ A INTERVALOVÝ ODHAD Bodový odhad = na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru základního souboru. Intervalový odhad = můžeme neznámou hodnotu odhadnout tak, že uvedeme interval, který s předem danou ppstí obsahuje danou hodnotu parametru základního souboru (pokrývá neznámou hodnotu parametru souboru) CHYBA 1. A 2. ŘÁDU Chyba 1. řádu – zamítnutí správné nulové hypotézy (která je pravdivá) – pravděpodobnost chyby 1. druhu – hladina významnosti alfa Chyba 2. řádu – přijetí nesprávné nulové hypotézy – pravděpodobnost chyby 2. druhu – beta Síla testu (1 - beta) – ppst zamítnutí nesprávné nulové hypotézy - 34 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. MOŽNOST VÝBĚRU Z POPULACE a)výběr na základě dobrovolnosti b)výběr na základě dostupnosti c)kvótní výběr d)náhodný výběr: prostý náhodný výběr – každý prvek populace má stejnou pravděpodobnost, že bude vybrán - každý výběrový soubor o rozsahu n má stejnou pravděpodobnost výběru
3)
4)
5) KLASICKÁ A STATISTICKÁ TEORIE PRAVDĚPODOBNOSTI Statistická teorie = (Richard von Mieses) – definice spojena s pojmem relativní četnost. = zvyšujícím se počtem pokusů se relativní četnost stabilizuje a přibližuje se k určitému konstantnímu číslu Klasická teorie = (Pierre Simon Laplace) = Může-li určitý pokus vykázat konečný počet n různých výsledků (prvotních jevů), které jsou stejně možné a jestliže m těchto výsledků má za následek nastoupení jevu A, kdežto zbylých n-m je vylučuje, potom pravděpodobnost jevu A položíme rovnu... P (A) = m/n PARAMETRICKÉ A NEPARAMETICKÉ TESTY Parametrické - je nutné znát tvar rozdělení, předpokládáme normální rozdělení - sigma, mý. Jsou to t-testy -jednovýběrový a dvouvýběrový, analýza rozptylu, F-test,…) Neparametrické - není nutná znalost tvaru rozdělení, jsou jednodušší na výpočet, pro malé výběrové soubory, nevýhodou je menší síla testu a pracujeme s pořadovými čísly (Kruskal Wallisův test, Wilcoxonův test, dvouvýběrový Wilcoxonův,…)
6) 7)
8)
9)
95% INTERVAL SPOLEHLIVOSTI Hladina významnosti (chyba alfa)-> 95% šance, že zamítneme H0, 5% že H0 bude platit. Čím menší je alfa, tím menší je šance, že H0 bude platit a tím je měření přesnější.
10)
RELATIVNÍ ČETNOST Relativní četnost udává, kolik procent hodnot znaku ze statistického souboru je rovno hodnotě z. Relativní četnost znaku z vypočteme takto: r=za / |S|, kde za je absolutní četnost znaku z a |S| je rozsah statistického souboru, tj. počet prvků
11)
Statistika I. – Studijní materiál 2
12)
1)
2)
Definujte pojem statistika. - věda o sběru dat a zpracování hromadných údajů, zabývá se jevy, které mají hromadný charakter - hromadnost studována na statistických souborech Co je to popisná statistika? - elementární metody sběru a zpracování informací - jednotkou je statistický soubor (osob, podniků, institucí, zvířat, zemí, atd.). - statistické soubory jsou tvořeny statistickými jednotkami, mají vlastnosti jednoznačně vymezeny. - 35 -
13)
14)
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Co je matematická statistika a jak se dělí. - moderní – zabývá se složitějšími metodami sběru a zpracování hromadných údajů; vytváří zvláštní druh matematických modelů – tzv. pravděpodobnostní modely – teorie pravděpodobnosti Typy statistických ukazatelů - okamžikové, intervalové, primární, sekundární, extenzivní, intenzivní, stejnorodé, nestejnorodé Druhy statistických vlastností (2) Statistické jednotky - elementární jednotky stat. pozorování, jsou nositeli znaků Statistické znaky - vlastnosti jednotek, která je předmětem zkoumání - kvalitativní – slovně vyjádřené – alternativní (2 obměny znaku); množné (více než 2 obměny) - kvantitativní – číselně vyjádřené, diskrétní (celočíselné), spojité (desetinné číslo, logaritmy) Statistický soubor - množina jedinců, na kterých je prováděno statistické šetření - základní soubor – všechny jednotky s danou vlastností - výběrový soubor – vybrán ze základního, podmnožina je menší Rozdíl mezi ZS a VS - VS je vlastně část ZS - VS je menší než ZS (úplné zjišťování, tvořen všemi jednotkami), VS(neúplné zjišťování) Základní etapy statistických prací - statistické šetření (zjišťování) - získávání neznámých informací o znacích statistických jednotek , výsledkem statistického zjišťování jsou neuspořádané údaje - statistické zpracování - statistická analýza Co je statistické zjišťování? - získávání neznámých informací o znacích statistických jednotek - výsledkem statistického zjišťování jsou neuspořádané údaje - ankety, dotazníky, experiment, výsledek vědeckého experimentu - pro zpřehlednění se data třídí Základní míry polohy rozdělení a k čemu slouží - průměry: aritmetický; vážený ar. prům.; harmonický; geometrický; celkový ar. prům.; chronologický - ostatní střední hodnoty: medián, modus - měly by jedním číslem popsat střední úroveň hodnoty statistického znaku a umožnit jeho hlubší analýzy - reprezentují vhodnou střední hodnotu daného souboru kolem níž se soustřeďují hodnoty tohoto souboru Prosté x vážené charakteristiky polohy – rozdíl (3) - prosté – u nesetříděných dat, máme-li relativní četnosti - vážené – u setříděných dat (tabulka rozdělení četností Průměr aritmetický - součet všech hodnot znaků dělený počtem znaků - 36 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 15) Průměr geometrický - n-tá odmocnina ze součinu znaků 16) Jaké znáte míry založené na geometrickém průměru? - všude tam, kde má smysl násobit hodnoty, např. průměrný koeficient růstu nebo Fisherův index 17) V jakém oboru statistiky se můžeme setkat s geometrickým průměrem - používá se u časových řad – průměrné tempo růstu (koeficient růstu) 18) Průměr harmonický - podíl počtu pozorování a sumy převrácených hodnot znaků 19) Kdy a k čemu používáme harmonický průměr (3) -v indexní analýze; průměr převrácených hodnot 20) Průměr chronologický - použití v okamžikové časové řadě - prostá forma – tam, kde délka mezi rozhodnými obdobími je stejná) - vážená forma – kde vahami jsou počty dní v měsíci,… 21) Tempo a průměrný koeficient tempa růstu - počítání geometrického průměru 22) Medián - x s vlnovkou - prostřední hodnota znaku v souboru uspořádaná podle velikosti - lichý počet hodnot v souboru - střední hodnota - sudý počet hodnot - průměr střední hodnoty 23) Modus - hodnota, která se nejčastěji vyskytuje, hodnota znaku s největší četností 24) Jak vypočítáte modus a medián spojité náhodné veličiny, znáte-li její distribuční funkci? - pokud má spojitá náhodná veličina normální rozdělení je medián a modus roven střední hodnotě. 25) Uveďte situaci, kdy může medián popsat polohu statistického souboru lépe než průměr. - medián může popsat polohu statistického souboru lépe, pokud je nějaká hodnota hodně vychýlená, tzn., že se hodně liší od ostatních - pak je průměr zkreslený a medián je lepší měrou polohy statistického souboru. př.: 4, 5, 5, 5, 5, 7, 48 26) Pro která pravděpodobnostní rozdělení je jejich střední hodnota rovna mediánu a zároveň modu? Vysvětlete a uveďte příklady. Pro symetrická (Normální, studentovo) 27) K čemu se používají podmíněné průměry – je to nejjednodušší způsob určení regresní závislosti (přímka podmíněných průměrů)nelze však na jejich základě provádět odhady 28) Co se stane s průměrem, rozptylem, směrodatnou odchylkou, mediánem a rozpětím statistického souboru, jestliže každá hodnota statistického souboru se: a) zvětší dvakrát - průměr a medián se zdvojnásobí, rozptyl se zvýší čtyřikrát; směrodatná odchylka a rozpětí statistického souboru se zvýší dvakrát b) zvětší o čtyři – průměr a medián se zvětší o čtyři; rozptyl se nezmění; směrodatná odchylka a rozpětí statistického souboru se nezmění
- 37 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 29) Rozdělení četnosti a co je intervalové rozdělení četnosti - rozdělení četností - u nespojitých znaků původně neuspořádané údaje roztřídit do rozdělení četností 30) Jak se stanovuje interval relativní četnosti ZS u malých VS - výběr relativní četnosti se řídí binomickým rozdělením v případě výběru bez vracení se řídí hyperbolickým rozdělením - výpočet vede ke složitým variacím, proto máme sestaveny tabulky a přímo odečítáme meze intervalu z tabulek 31) Definice pojmu kumulativní četnost - absolutní a relativní - vznikají postupným načítáním 32) Druhy grafů - spojnicové, sloupcové(polygon, histogram), bodové, výsečové, speciální (kvartogram) 33) Histogram - sloupcový graf - u intervalového rozdělení četností 34) Které charakteristiky statistického souboru můžete přibližně zjistit z histogramu četnosti, aniž byste prováděli výpočet? - počet intervalů a jejich šířku, absolutní četnost intervalu a pokud jsou intervaly stejně dlouhé i modus 35) Jaký graf používáme u jednorozměrných četností. - sloupcový 36) Základní míry variability - absolutní: rozptyl, směrodatná odchylka, variační rozpětí, prům. odchylka - relativní: variační koeficient, relativní průměrná odchylka 37) Rozptyl - aritmetický průměr čtverců individuálních odchylek jednotlivých hodnot znaku od aritmetických průměrů - nedostatek – jednotky jsou druhou mocninou původních jednotek 38) Směrodatná odchylka v souboru výběrových průměrů - měří abs. Variabilitu - je uvedena ve stejných měrných jednotkách jako zkoumaný stat. znak; s=odm.s na2 - prostá: S0=odm. z((sum(xi-x)na 2)/n) - vážená: S0=odm. z((sum(xi-x)na 2*ni)/(sum.ni)) - informuje o proměnlivosti jednotlivých hodnot znaku kolem výběr. aritm. průměru 39) Variační rozpětí - jednoduchá míra adaptability - pouze odchylky mezi sebou - orientační 40) Relativní ukazatele variability. - variační koeficient, relativní průměrná odchylka 41) K čemu slouží variační koeficient? Jaká je jeho přednost? - variační koeficient je zákl. mírou relativní variability - může se použít i tehdy pokud se znaky liší svou úrovní, což je výhoda - počítá se jako podíl směrodatné odchylky a průměru 42) Jak se změní variační koeficient, přičteme-li ke všem hodnotám souboru stejnou konstantu? Směrodatná odchylka v čitateli zůstane stejná a průměr ve jmenovateli se zvětší tuto konstantu => variační koeficient se sníží - 38 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 43) Lze vždy vypočítat variační koeficient souboru dat? Názor zdůvodněte. Ne. Variační koeficient se počítá jako podíl směr. odchylky a průměru => je-li např. průměr nulový, Variační koeficient vypočítat nelze. 44) Kvantil - je hodnota, která rozděluje soubor hodnot na dvě části 45) Kvartil - dělí soubor po 25% 46) Rozdíl mezi charakteristikami šikmosti a špičatosti (3) - charakteristika šikmosti (nesouměrnosti)– ukazuje, jak soubor vypadá, stupeň koncentrace malých a velkých hodnot v souboru - charakteristika špičatosti - ukazuje, jak jsou hodnoty nahloučeny kolem průměru 47) Význam výběrového šetření v praxi (3) - pořizujeme výběrový soubor, aby nám poskytl informace o celém souboru - hlavním nedostatkem je, že jsou zatíženy výběrovou chybou 48) Výhody úplného zjišťování oproti neúplnému výběrovému zjišťování - úplné – při práci se základním souborem, nákladné, zdlouhavé, občas nemožné - neúplné – při práci s výběrovým souborem, výběrový soubor musí být dobrým reprezentantem 49) Vysvětlete pojmy oblastní a vícestupňový náhodný výběr - vícestupňový - výběr provádíme na více stupních (města – školy – fakulty – ročníky – studenti) - oblastní - dvoustupňový výběr; v 1. stupni vybíráme oblast a ve 2. stupni vybíráme z oblasti jednotku 50) Kvótní výběr - v čem spočívá - typ mechanického výběru při náhodném výběru 51) Jaké znáte techniky pořízení náhodného výběru? - losování – opora výběru – výběr zastoupíme lístky - tabulky náhodných čísel – generátor náhodných čísel - mechanický výběr – systematické, každá n-tá jednotka v náhodně uspořádané posloupnosti speciální výběr 52) Existuje rozdíl mezi stanovením intervalu u vracení a bez vracení? - s vracením – jednotku po výběru vracíme zpět - bez vracení – rozsah ZS se zmenšuje, pravděpodobnost vybrání se zvětšuje - u velkých souborů zbytečné zbytečné pracovat s vracením 53) Jaký test k ověřování náhodnosti výběrového souboru? (3) - dle prezentace z vše – testy náhodnosti slouží k ověření zda jsou náhodná čísla skutečně náhodná (frekvenční test, test autokorelace) měl by to být ale také znaménkový test a spearmanův koeficient (bez záruky) 54) Metoda základního masivu - kdy se soubor skládá z několika velkých a mnoha malých jednotek - zjišťování provádíme na velkých jednotkách 55) Záměrný výběr - značná míra subjektivity toho, kdo vybírá - vybere ty, o kterých si myslí, že dobře zastoupí soubor, ty blízké průměru, nelze vyvodit chyba
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 56) Dělení (druhy) náhodného výběru - s vracením, bez vracení - s nestejnou pravděpodobností vybrání - prostý – se stejnými pravděpodobnostmi 57) Náhodný jev - jev, který může nastat nebo nenastane v závislosti na náhodě a je výsledkem náhodného pokusu (charakterizuje výsledek náhodného pokusu kvalitativně) 58) Náhodný pokus - realizace podmínek a vlivů, z nichž některé jsou známé a jiné náhodné 59) Jev jistý, náhodný, nemožný - jev jistý - takový, který vždy nastane při každém provedení náhodného pokusu - jev náhodný - jevy, které v závislosti na náhodě mohou, ale nemusí při uskutečňování daného komplexu podmínek nastat - jev nemožný - náhodný jev, který nenastane při žádném provedení náhodného pokusu 60) Klasické a statistické definice pravděpodobnosti - klasická - může li určitý pokus vykázat konečný počet n různých výsledků, které jsou stejně možné a jestliže m těchto výsledků má za následek nastoupení jevu A, kdežto zbylých n-m vylučuje: potom P(A)=m/n - statistická - spojena s pojmem relativní četnosti; s rostoucím počtem pokusů se relativní četnost stabilizuje a přibližuje se k určitému konstrukčnímu číslu. P(A)= lim při n ku nekonečnu * M/N 61) Matematická charakteristika pravděpodobnosti > - Podle geometrické definice je pravděpodobnost jevu A určena jako , kde S je > obsah plochy představující všechny možné výsledky náhodného pokusu a ω je obsah > plochy, která představuje výsledky, při nichž dojde k výskytu jevu A. Také > geometrická definice vychází z předpokladu, že všechny výsledky náhodného pokusu > jsou stejně pravděpodobné. 62) Rozdíl mezi náhodnou veličinou a náhodným jevem (2) - náhodný jev – takový jev, který v závislosti na náhodě může, ale nemusí při uskutečňování daného komplexu podmínek nastat; charakterizuje výsledek náhodného pokusu kvalitativně (slovně) - náhodná veličina – libovolná kvantitativní charakteristika náhodného pokusu; proměnná, která nabývá konkrétních hodnot, či hodnot z různých intervalů v závislosti na náhodě 63) Zákon rozdělení náhodné veličiny - pravidlo, které každé hodnotě, nebo množině hodnot z každého intervalu přiřazuje pravděpodobnost, že náhodná veličina nebude této hodnoty, nebo hodnoty z tohoto intervalu - tento zákon může být vyjádřen různou formou: jako řada rozdělení pravděpodobností (grafem je polygon, diskrétní veličiny) distribuční fce (univerzální zákon rozdělení, diskrétní i náhodné veličiny) hustota pravděpodobnosti (spojité náhodné veličiny) 64) Druhy rozdělení náhodných veličin - spojité (normální, exponenciální, chí-kvadratické,Studentovo t-rozdělení, F-rozdělení, rovnoměrné rozdělení) - nespojité - diskrétní (Alternativní, Binomické, Poissonovo, Hypergeometrické, Geometrické)
- 39 -
- 40 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 65) Charakterizujte normální rozdělení - náhodná veličina se řídí normálním rozdělením, je-li její střední hodnota µ a rozptyl ∂2 - grafem hustoty pravděpodobnosti je Gaussova křivka - speciálním případem normálního rozdělení je normované normální rozdělení 66) Binomické rozdělení je (možnosti) (2) - nejdůležitější typ rozdělení diskrétní náhodné veličiny - rozdělením náhodné veličiny, která představuje počet výskytů jevu A při n nezávislých pokusech, přičemž pravděpodobnost výskytu jevu A je v každém pokusu konstantní 67) Jaký je vztah binomického a Poissonova rozdělení? - má-li náhodná veličina X binomické rozdělení takové, že počet pokusů n je dostatečně veliké (nad 30), pravděpodobnost výskytu sledovaného jevu v jednom pokuse pod 0,1 a n konečné číslo, je možno toto rozdělení aproximovat Poissonovým rozdělením 68) Pravidlo tří sigma - i když náhodná veličina X, která má normální rozdělení, může nabývat hodnot z intervalu od (- ∞,∞), je téměř nemožné, aby se pozorované hodnoty této veličiny odchylovaly od střední hodnoty o více než 3 sigma 69) Co vyjadřuje zákon velkých čísel? - se zvyšováním počtu náhodných pokusů dochází k přibližování se empirické charakteristiky popisující výsledky těchto pokusů k charakteristice teoretické 70) Co vyjadřuje centrální limitní věta? - vyjadřuje konvergenci pravděpodobnostních rozdělení k normálnímu rozdělení při dostatečně velkém rozsahu souboru. 71) Co je normovaná náhodná veličina, jaké má charakteristiky a jaký má význam? - má normální rozdělení se střední hodnotou 0 a rozptylem 1 - význam je ve výpočtu distribuční funkce, která se z normálního rozdělení počítá obtížně 72) V čem spočívá z pohledu teorie pravděpodobnosti průnik jevů A,B a sjednocení jevů A,B - průnik jevu A,B - spočívá v současné realizaci jak jevu A, tak jevu B - sjednocení jevů A,B - spočívá v nastoupení alespoň jednoho z jevů a nebo B 73) Je možné, aby existovaly 2 náhodné jevy, že pravděpodobnost jejich průniku je větší než pravděpodobnost jejich sjednocení? - Ne. Protože pravd. průniku může být max. rovná pravděp. sjednocení, když množiny splývají nebo je menší nebo množiny nemají průnik. 74) Při výpočtu pravděpodobnosti projiti třemi zkouškami, z nichž každá má svou pravděpodobnost úspěchu používáme: a) sčítání b) násobení c) rozdíl 75) Podmínky pro sčítání pravděpodobností a vzorec - jsou-li jevy A a B slučitelné, potom pravděpodobnosti jejich sjednocení se rovná součtu pravděpodobností jednotlivých jevů zmenšenému o pravděpodobnost jejich průniků - v případě neslučitelných jevů je průnik těchto jevů jev nemožný - 41 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 76) Co jsou kvalitativní znaky, jak se dělí, příklady - kvalitativní znaky jsou znaky slovní, získané z anket, dotazníků - dělíme na znaky alternativní 77) Jak ověříte nezávislost dvou kvalitativních znaků? Kontingenční tabulkou 78) Jakým způsobem můžete zjistit, jestli existuje závislost mezi dvěma kvalitativními znaky a jakým v případě kvantitativních znaků? - závislost mezi 2 kvalitativními znaky ověřujeme kontingenční tabulkou a testem chikvadrát. - závislost mezi 2 kvantitativními znaky měříme klasicky pomocí regresní a korelační analýzy, celkový F-test, Test t pro jednotlivé parametry a koeficienty - u 1 kvalitativního a 1 kvantitativního znaku se používá jednofaktorová analýza rozptylu 79) Koeficient asociace slouží k: - vyjádření těsnosti 2 alternativních znaků 80) Jak určíme nejvhodnější typ funkce při měření závislosti dvou kvantitativních znaků - zkušenost, logika, emp. metoda-korelační pole - zkoušet = počítat - zpětně vybrat ten s nejvyšším korelačním charakterem 81) Jaké jsou hlavní úlohy při měření závislosti 2 kvantitativních znaků - vystihnout průběh závislosti závisle proměnné na nezávisle proměnné, tak abychom mohli provádět odhady závisle proměnné na základě daných hodnot nezávisle proměnné - změřit sílu závislosti, abychom mohli posoudit její sílu, intenzitu a abychom mohli zároveň posoudit přesnost odhadů z 1 bodu - 1. úkol - regrese, 2. úkol – korelace 82) Teoretický soubor výběrových průměrů - ze základního souboru vybereme všechny teoreticky možné VS, těch je nekonečně mnoho; v každém výběrovém souboru si vypočítáme výběrový průměr, všechny tyto průměry nám vytvoří teoretický soubor výběrových průměrů 83) Statistická indukce - nejprve pořídíme výběrový soubor, na základě VS si spočítáme výběrové charakteristiky, na základě výběrových charakteristik odhadujeme charakteristiky ZS 84) Jaké známe odhady (3) - bodový – jedno konkrétní číslo, které vybereme z VS, aby nám nahradilo ZS - intervalový – stanovení intervalu, ve kterém ta neznámá charakteristika bude ležet, a určitou pravděpodobností 85) Co je bodový odhad? - bodový – jedno konkrétní číslo, které vybereme z VS, aby nám nahradilo ZS 86) Jaké znáte vlastnosti bodových odhadů a co vyjadřují, jaké jsou na ně kladeny požadavky? - nezkreslenost, nestrannost odhadu (střední hodnota výběrové statistiky = odhadované charakteristice) - konzistence (odhad se s rostoucím rozsahem výběru blíží odhadované charakteristice základního souboru) - vydatnost (co nejmenší rozptyl) - postačujícnost (mimo ní neexistuje žádná jiná statistika poskytující další doplňující informace o odhadované charakteristice základního souboru) - 42 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 87) Proč musí být bodový odhad v základním souboru vydatný - můžeme použít více charakteristik odhadu, za nejvydatnější je ta, která má nejmenší rozptyl 88) Jak spolu souvisí přesnost odhadu a spolehlivost odhadu? - čím širší interval spolehlivosti, tím ale menší přesnost - spolehlivost = pravděpodobnost, se kterou bude odhadovaná charakteristika ležet v tom vymezeném intervalu; = maximální chyba, které se při odhadu s danou spolehlivostí můžeme dopustit 89) Co znamená, že odhad je vychýlený? Znáte některé vychýlené odhady? - E(g) - G je tzv. zkreslení neboli vychýlení - takový odhad vede k systematickému nadhodnocování či podhodnocování odhadované charakteristiky ZS 90) Přípustná chyba u intervalového odhadu a k čemu jí používáme - chyba, které se při odhadu můžeme dopustit, aby hodnota padla do intervalu - přesnost intervalového odhadu je charakterizována přípustnou chybou odhadu delta, která představuje polovinu délky intervalu spolehlivosti 91) Přesnost odhadu: (2) - pravděpodobnost, s jakou se charakteristika nachází v intervalu - vyneseme kritickou hodnotu příslušného rozdělení - max chyba, které se při odhadu s danou spolehlivostí dopustíme vyjádřena hodnotou směrodatné odchylky souboru výběrových prům. - ani jedna správně 92) Jaké znáte metody pro získání odhadů parametrů regresních funkcí lineárních v parametrech? Napište princip metod. - požadavek kompenzace kladné a záporné odchylky empirických hodnot od hodnot vyrovnaných a metoda nejmenších čtverců (aby součet čtverců popsaných odchylek byl minimální) 93) Jaké znáte metody pro získání odhadů parametrů regresních funkcí nelineárních v parametrech? - pro funkce nelineární v parametrech používáme linearizující transformaci - pak použijeme metodu nejmenších čtverců, parciální derivace, dále dostaneme soustavu normálních rovnic a nakonec pomoci Cramerova pravidla (determinanty) vyjádříme b0, b1, ... 94) U kterých z uvedených regresních funkcí lze k odhadu parametrů použít metodu nejmenších čtverců: přímka, parabola, exponenciála? Názor vysvětlete. - u přímky a paraboly, protože jsou lineární v parametrech na rozdíl od exponenciály, která není - tam je nutná lineární transformace. 95) Pojmy: (3) a) alternativní hypotéza – popírá platnost nulové hypotézy b) testovací kritérium – míra nesouhlasu výsledků pokusu s testovanou hypotézou (odpovídají-li data nulové hypotéze-testovací kritérium je rovno nule; čím více se výběrové hodnoty blíží k alternativní hypotéze, tím roste i testovací kritérium) c) hladina významnosti – pravděpodobnost chyby 1. druhu; udává výši rizika, s jakým se H0 zamítá, i když platí 96) Alternativní hypotéza - popírá platnost nulové hypotézy - přijímáme ji jestliže jsme nulovou hypotézu zamítli jako nesprávnou
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 97) Vysvětlete pojem hladina významnosti a kritický obor. - hladina významnosti - pevná, předem zvolená pravděpodobnost chyby I. Druhu - kritický obor - podprostor výběrového prostoru obsahující hodnoty svědčící ve prospěch alternativní hypotézy 98) Vysvětlete pojem "síla testu" a "hladina významnosti". - síla testu - s jakou pravděpodobností se nedopustíme chyby II. druhu - hladina významnosti - pevná, předem zvolená pravděpodobnost chyby I. druhu 99) Co udává hladina významnosti alfa - udává výši rizika s jakým H0 zamítá, i když platí pravděpodobnost chyby 1. druhu; alfa=P(T je elem. K\H0) 100) Testovací kriterium je - veličina vypočtená z výběrových hodnot, řídí se rozdělením(norm. studentovým), porovnáváme s krit. hodnotou 101) Interval spolehlivosti a k čemu slouží - interval, ve kterém leží neznámé charakteristiky s určitou předem známou pravděpodobností. Prostřednictvím intervalu spol. posuzujeme přísnost odhadu. s rostoucí šířkou intervalu spol. klesá přesnost odhadu. 102) Čím můžeme ovlivnit velikost intervalu spolehlivosti? - zvolenou hladinou spolehlivosti. Čím širší interval spolehlivosti, tím ale menší přesnost. 103) Vysvětlete pojmy chyba I. druhu, chyba II. druhu a síla testu. a) Zamítnutí nulové hypotézy, ačkoliv ve skutečnosti platí b) přijmutí nulové hypotézy, ačkoliv ve skutečnosti platí hypotéza alternativní c) s jakou pravděpodobností se nedopustíme chyby II. druhu 104) Jakým způsobem můžeme snížit pravděpodobnost chyby I. druhu a jak pravděpodobnost chyby II. druhu (při dané chybě I. druhu)? - chybu I. druhu snížíme tak, že místo 95% hladiny významnosti volíme 99% - chybu II. druhu snížíme tím, že zvýšíme rozsah souboru 105) Rozdíl mezi dvoustranným a jednostranným intervalem - dvoustranný - charakteristiky ZS jsou omezeny zdola i shora - jednostranný - charakteristiky ZS jsou omezeny shora nebo zdola 106) Obecný postup statistického testování - vybereme vhodný test (parametrický a neparametrický) - formulace nulové a alternativní hypotézy - volba hladiny významnosti - volba testovacího kriteria - určení kritického oboru - výpočet hodnoty testovacího kriteria z výběrových hodnot - rozhodnutí: jestliže vyp. hodnota t.k. padne do kritického oboru H0 se zamítá jinak se H0 nezamítá 107) Rozdíl mezi parametrickými a neparametrickými testy - Parametrické - testy sloužící k ověřování hypotéz, které se týkají hodnot parametrů rozdělení - spolehlivé, vyžadují znalost ZS a hodnotu parametrů - Neparametrické - místo původních hodnot pracujeme s pořadovými čísly jednoduché, menší síla testu, nevyžadují znalost ZS
- 43 -
- 44 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 108) Jaký závěr lze učinit, vede-li celkový F-test o regresní funkci k zamítnutí testované hypotézy (nejdříve uveďte, jak jsou při tomto testu formulovány testovaná a alternativní hypotéza). - testovaná = neexistence vlivu faktoru (o nezávislosti znaku Y na zkoumaném faktoru); Alternativní = existence - závěr = podobnost skupinových průměrů na celý soubor 109) Lze zvětšením rozsahu výběru ovlivnit šíři intervalu spolehlivosti odhadu střední hodnoty? Pokud ano, vysvětlete jak. - pokud máme větší rozsah souboru, vede to k užšímu intervalu spolehlivosti. Vzorek je více interpretativní. 110) "Jestliže hypotézu = 0 zamítneme při jednostranném testu na určité hladině významnosti, pak jí zcela určitě zamítneme i při oboustranné alternativě při stejné hladině významnosti." Souhlasíte? Vysvětlete proč. - neplatí vždy <= dvoustranný test má při stejné hladině významnosti poloviční alfu a hodnota se do něj může, ale nemusí vejít 111) Postup při použití testu minimální průkazové definice - u vyváženého modelu: dělíme diference mezi průměry ale neseřazujeme je podle velikosti; spočítáme hodnotu Dmin=g=odmocnina z (sr na 2/n); porovnáme diference s touto hodnotou; jestli je dif. větší než Dmin tak je rozdíl mezi průměrem statisticky významný 112) Při testování spotřeby automobilu určité značky používáme: a) F-test b) t-test c) Bartlettův test 113) Při testování více než dvou rozptylů se nepoužívá a) Hartleyův test b) Bartlettův test c) F-test 114) Bartelův test - test rozptylu více souborů, H0 rozptyly se rovnají - testuje, zda můžeme udělat analýzu rozptylů - podmínka - shodné rozptyly z normálního rozdělení - pokud nesplňuje: a) transformace hodnot; b) doměření hodnot; vyloučení ext. hodnot 115) Cochranův test - stejné rozsahy n 116) Hartleyův test - řídí se f rozdělením 117) Ferrarův – Glauberův test, k čemu se používá 118) Rozdílové testy > napr. Test rozdílu dvou výběrových rozptylů, 2 výběrových průměrů, test o > rozdílu 2 relativních četností, test o rozdílu více než 2 výběřových průměrů > (ANOVA) 119) Pořadové testy
- 45 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 120) Rozptyl a jak jej definujeme - aritmetický průměr čtverců individuálních odchylek jednotlivých hodnot znaku x od aritmetických průměrů, charakteristika variability - informuje o proměnlivosti jednotlivých hodnot znaku kolem výběr. ar. prům. - výběrový rozptyl s na 2 souboru: pozorované x1, x2....xn 121) Jak provádíme rozklad celkového rozptylu? (4) - rozklad celkového rozptylu všech hodnot na dílčí rozptyly (vyjadřují podíl jednotlivých faktorů na celkovém rozptylu) a na rozptyl reziduální (zbytkový, vyjadřuje podíl faktorů působících náhodně ) 122) Kde prakticky využíváme rozklad rozptylu? - při počítání vnitro a meziskup. variability - u regres. a korel. analýzy ke konstrukci indexů 123) K čemu slouží analýza rozptylu a jaké jsou předpoklady jejího použití - zobecnění t-testů na více než 2 VS rozklad výběr. rozptylu na něk. částí, které jsou příslušné jednotlivým uvažovaným zdrojům variability, zkoumáme li vliv jednoho či více faktorů ne výsledky kvantitavního znaku - analýza rozptylu je založena na předpokladu, že ze zjištěných hodnot lze provést odhad rozptylů - 2 způsoby: uvnitř tříd, mezi třídami - typické použití v zemědělství - plemenictví 124) Analýza rozptylu je (možnosti) (2) - je obecný postup, který patří do oblasti statistických metod – metodologický nástroj - technika pro zakládání a vyhodnocování experimentu - je více výběrový test, který testuje rozdíl mezi průměry - zkoumá vliv jednoho i více faktorů na výsledný znak kvantitativní, každý faktor je sledován na několika úrovních (třídách), každá úroveň představuje 1 výběrový soubor; faktorem může být znak kvantitativní i kvalitativní - pokud je úroveň každého faktoru pevně fixována – model analýzy rozptylu s pevnými efekty - pokud jsou úrovně faktorů náhodně vybrány – model s náhodnými efekty 125) Jaké míry jsou založeny na rozkladu rozptylu? - korelační koeficienty 126) Jakou metodu byste použili k posouzení, jestli je prodej určitého zboží v průběhu dne rovnoměrně rozložen? Možná rozptyl - nebo řetězový index 127) Kde prakticky využíváme rozklad rozptylu? - při počítání vnitro- a meziskup. variability a u regres. a korel. analýzy ke konstrukci indexů. 128) Metody podrobnějšího hodnocení výsledků analýzy rozptylu - metody mnohonásobných porovnání, s-metoda (Scheffeho metoda), t-metoda (metoda minimální důkazové diference), Cramerova metoda, Duncanova metoda 129) Duncanova metoda > - podrobné vyhodnocení analýzy rozptylu jednoduchého třídění, používající se pro > modely vyvážené, velmi pracná a citlivá metoda (průměry uspořádáme podle > velikosti sestupně, určíme diference mezi průměry, vypočítáme kritickou hodnotu > diferencí, vypočtené diference mezi průměry porovnáme s kritickou hodnotou > daného řádku) je-li vypočtená diference větší než kritická hodnota daného řádku, > je rozdíl mezi průměry statisticky významný na hladině alfa - 46 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 130) Postup při použití Duncanova testu - hodnotám přiřadíme pořadové číslo a spočítáme diferenci - uspořádáme do tabulky, určíme krit. hodnotu diference a porovnáme diference s kritickými, jeli dif. větší než krit. pak je rozdíl statisticky významný 131) Kramerova metoda a k čemu slouží - pomocí ní se provádí podrobnější hodnocení výsledku v analýze rozptylu u neváženého modelu - rozdíl mezi průměry je statisticky významný, jestliže jejich diference je větší než výraz na pravé straně nerovnosti 132) Scheffeho metoda - rozdíl mezi průměry je stat. významný, jestliže jejich diference je větší než vypočítaná hodnota 133) Tukeyův test - metoda podrobného vyhodnocení analýzy rozptylu u vyváženého modelu 134) Rozdíl mezi vyváženým a nevyváženým modelem analýzy rozptylu - vyvážený - stejný počet opakování v každém řádku - nevyvážený - různý počet opakování v ... 135) Rozdělení F při analýze rozptylu - F,alfa (m-1; n-m) - rozdělení F pro f1=m-1 a f2=n-m stupňů volnosti 136) K čemu se používá F-test - test o rozdílu 2 výběrových rozptylů 137) Jaké testy předcházejí analýze rozptylu a) Bartletův b) Cochranův c) Hartleyův) 138) Kdy používáme analýzu rozptylu + podmínky použitelnosti (1) používá se, když zkoumáme vliv jednoho či více faktorů na výsledný znak kvantitativní (2) pomínky použitelnosti - normalita rozdělení ZS z kt. jsou pořízeny VS; statistická nezávislost náhodných chyb; existence shodných rozptylů ZS ze kt. jsou pořízeny VS 139) Co je interakce u AR? > - při realizaci experimentu se dvěma či více faktory často dochází nejen k > izolovanému působení jednotlivých faktorů, ale častějí dochází k současnému > působení faktorů na výsledný znak. Toto současné působení se nazývá interakce 140) Jak se provádí a proč podrobnější vyhodnocení AR? jestliže F-testem zamítáme nulovou hypotézu, potom existuje alespoň jeden > průměr, který se statisticky významně liší od ostatních průměrů. Metodami > podrobnějšího vyhodnocení pak lze tento průměr (průměry) nalézt. (Duncanova > metoda, Krameriova metoda, Scheffeho metoda, Tukeyův test) 141) Modely AR dvojného třídění - zobecnění t-testů na více než 2 VS rozklad výběr. rozptylu na něk. částí, které jsou příslušné jednotlivým uvažovaným zdrojům variability, zkoumáme li vliv jednoho či více faktorů ne výsledky kvantitavního znaku - analýza rozptylu je založena na předpokladu, že ze zjištěných hodnot lze provést odhad rozptylů - 2 způsoby: uvnitř tříd, mezi třídami - typické použití v zemědělství - plemenictví - 47 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 142) Vypište neparametrické testy - testy dobré shody – χ2 test, Kalgor- Smirnovův test - vlastní neparametrické testy – Wilcox- Whiteův test (parametrický t-test), znaménkový test (parametrický pár. t-test), Wilcoxonův test (parametrický t-test), Kruskal-Wallisův test (parametrická analýza rozptylu), Dixonův test, Friedmanův test, test iterací 143) Výhody a nevýhody neparametrických testů (3) - v praxi se často setkáváme s výběry poměrně malých rozsahů, které pocházejí z výrazně nenormálních souborů, nebo ze souborů, o jejichž rozdělení nic nevíme - nepředpokládáme specifikované rozdělení základního souboru, z něhož se získává náhodný výběr - výhoda – nezávislost na tvaru rozdělení studovaných náhodných veličin, použitelnost pro studium jak znaků kvantitativních, tak znaků kvalitativních (obecnější použití); výpočetní jednoduchost - nevýhody – menší síla (schopnost odhalit nesprávnost testované hypotézy) 144) Které testy používáme jako neparametrickou obdobu párového t-testu a jak je provádíme - znaménkový: spočítáme diference mezi páry hodnot; počet kladných hodnot z+; počet záporných hodnot z-; menší z oboru je testovací kritérium z: z je větší než z,alfa (sečtou se počty ve skupinách a min. výsledná hodnota je testové kriterium, které se porovná s tabulkovou hodnotou) - wilcoxonův: spočítáme diference; k nenulovým diferencím přiřadíme vzestupně pořadová čísla; pořadová čísla roztřídíme zpětně do dvou skupin podle znamének diferencí; v obou skupinách pořadová čísla sečteme a dostaneme W+ a W-; Wmin(W+,W-) menší z obou čísel je test. krit.; W je menší než W,alfa - H0 se zamítá; 145) Který test používáme jako neparametrickou obdobu jednoduché analýzy rozptylu a jak se tento test provádí - Kruskal-Wallisův test: hodnoty sloučíme do jednoho výběru; seřadíme od největší do nejmenší; očíslujeme vzestupně; sečteme pořadová čísla pro každý řádek zvlášť; výpočet test. kritérium, porovnáme s kritickou hodnotou 146) Postup při Wilcoxon-Whiteova testu - hodnoty sloučíme do jednoho výběru - seřadíme od nejmenší do největší - očíslujeme hodnoty vzestupně - zpětně roztřídíme do VS - sečteme pořadová čísla; T=min(Tx;Ty); T je menší než T,alfa - H0 se zamítá - u souboru n větší než 20 normální aproximace odhadnem 147) Test o shodě průměru základního souboru (2) - je určen k testování rozdílů mezi průměry u nezávislých výběrů - používá se v případě párových výběrů - používá se k testování rozdílu mezi výběrovým prům. a předpokládanou hodnotou prům. základního souboru - určuje, zda prům. zákl. souboru je stat. významný - ani jedna správně 148) K čemu je Friedmanův test? (4) - máme více než 2 závislé soubory, tzn. k >2
- 48 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 149) Uveďte aspoň 3 testy, u nichž použijete jako kritické hodnoty kvantity rozdělení chí-kvadrát. Uveďte, čeho se týkají a co říkají. - chi-kvadrát dobré shody - test o parametru delta exponenciálního rozdělení - test hypotézy o rozptylu v základním souboru 150) Jaké znáte testy shody? K čemu slouží? - Chi-kvadrát test dobré shody, shoda 2 průměrů, rozptylů - porovnávají dva různé soubory 151) Uveďte alespoň dva případy, kdy použijete při testování hypotézy testované kriterium, které má rozdělení chí-kvadrát. - chi-kvadrát dobré shody, test o parametru delta expon. rozdělení a test hypotézy o rozptylu v zákl. souboru. 152) Kdy používáme Fisherův test - když je n menší než 20 nebo n je prvkem (20,40) a jednina rel. čet. 15 153) V kterých tabulkách se provádí χ2 test? v kontingenčních tabulkách 154) Jaké jsou základní předpoklady Kolmogorov-Smirnovova testu 155) Kdy používáme chí-kvadrát test? Chí-kvadrát test se používá pro zjištění, zda vzorek dat odpovídá > předpokládanému rozdělení (např. chí-kvadrát test dobré shody). Jedná se o dva > různé soubory s dostatečným rozsahem. 156) Jak dělíme metody vícerozměrné stat. analýzy z hlediska klasifikace jednotek - shluková analýza - diskriminační analýza - faktorová analýza... 157) Shluková analýza - vícerozměrná statistika - souhrnný název pro řadu výpočetních postupů, jejichž cílem je rozklad daného souboru na několik relativně homogenních množin (shluků) a to tak, aby jednotky uvnitř jednotlivých shluků si byly co nejvíce podobné a jednotky patřící do jiných shluků co nejvíce nepodobné - míra vzdálenosti - je jejím určením - vytváří celky metody - nejbližšího souseda, nejvzdálenějšího souseda, průměrná vzdálenost - centrální, mediánová, warolová(graf) 158) Diskriminační analýza - řeší problematiku vícerozměrné klasifikace - předmětem je nalezení statisticky nejvhodnějšího způsobu rozlišení mezi 2 či více soubory statistických jednotek - klasická úloha diskriminační analýzy spočívá v tom, že jsou předem známy 2 či více skupin jednotek a o každé víme do které skupiny patří - na základě naměřených údajů se pro každou skupinu vypočítá diskriminační fce sloužící k dodatečnému zařazování nových jednotek - do určité skupiny je zařazena ta jednotka, pro níž je pravděp. příslušnost této jednotky ke skupině největší - slouží k dodatečnému zařazení znaků do předem stanovených skupin
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 159) Faktorová analýza - umožňuje objasnit strukturu pozorovaných závislostí, redukuje počet výchozích proměnných pomocí hypotetických faktorů při minimální ztrátě informací a odhaduje skryté vztahy mezi proměnnými - použití při zpracování dotazníků 160) Kovarianční analýza - umožňuje rozčlenění variability proměnné y na části, které jsou přiřaditelné jednak kvalitativním a jednak kvantitativním vlivům 161) Analýza hlavních komponent - podstatou je transformace souboru napozorovaných proměnných do nových proměnných, tzv. hlavních komponent, které jsou vzájemně nezávislé a jsou seřazeny dle velikosti svého příspěvku ke vysvětlení celkového rozptylu napozorovaných proměnných - tato metoda citlivá na delta jednotek větší, než hodnoty normují - použití: odhalení skrytých vztahů mezi proměnnými - založena na bezezbytkovém vysvětlení celkového rozptylu proměnných 162) Kanonická korelační analýza - vychází z logického členění proměnných do 2 skupin (výchozí + cílové veličiny) každá skupina je charakterizována 1 soubornou veličinou = kanonickou proměnnou = lineární kombinace původních proměnných dané skupiny 163) Jak se provádí odhad pro celou regresní přímku? - k testování regresní funkce jako celku bez ohledu nelinearitu se používá > upravený model analýzy rozptylu (intervalový odhad – pás spolehlivosti kolem > regresní přímky) 164) Rozdíl mezi jednoduchým a vícenásobným modelem regrese a korelace - počet nezávisle proměnných - v modelu jednoduché stat. závislosti je předpokládáno, že změny závisle proměnných jsou vyvolány změnami jediné nezávislé proměnné, ostatní vlivy jsou považovány za náhodné - teorie vícenásobné regrese a korelace je zobecněním teorie jednoduché regrese a korelace 165) Korelace x regrese (2) - korelace –těsnost, síla, míra závislosti mezi kvantitativními statistickými znaky - regrese – popis průběhu závislosti mezi kvantitativními znaky pomocí regresního modelu ( tímto modelem je regresní funkce 166) Základní podmínka metody nejmenších čtverců - ∑ di2=0 - vede k jednomu závěru - ∑ di=min - můžeme spočítat parametry 167) Metoda nejmenších čtverců a k čemu se používá - matematická metoda s jejíž pomocí můžeme vypočítat parametry regresních fcí(s výjimkou fcí, které nemůžeme převést na aditivní tvar) 168) Pás spolehlivosti regresní přímky – vysvětlit (3) 169) Jaká je regresní funkce nelineární v parametrech, jak parametry určujeme (3) např. exponenciální, logaritmická, kvadratická (lineární transformace, MNČ > atd.) 170) Co se dá zjistit z regresní přímky? > - regresní koeficienty, sklon přímky …
- 49 -
- 50 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 171) Co vyjadřuje regresní index a koeficient? - míru, těsnost závislosti (regresní index –nelineární regrese, regresní > koeficient – lineární regrese) 172) Test regresního koeficientu. - jedná se o test výběrové charakteristiky, pokud je stat.významná – odhadujeme > velikost v ZS (výpočet dle vzorce + testovací kriterium – porovnání s kritickou > hodnotou) 173) Podle jakých kritérií se vybírá nejvhodnější funkce pro vícenásobnou nelineární regresi? podle korelačních a dílčích korelačních indexů (čím vyšší, tím lepší) 174) Postup při metodě stupňovité regrese (4) > - výpočty jsou složitější, dostáváme se do třírozměrného a vícerozměrného > prostoru (nesestrojíme již korelační pole, ze zkušenosti nebo programem > proložíme závislost řadou vícenásobných funkcí, k určování konkrétní funkční > rovnice používáme opět MNČ a po úpravách soustavu normálních rovnic) 175) Napište rovnici regresní funkce a korelační koeficient, když máš zadáno x s pruhem (celkový průměr), y s pruhem (celkový průměr), s x, s y a s xy 176) Lze testovat významnost regresní funkce a určit její interval spolehlivosti? Pokud ano, napište stručný postup. > - ano dle analýzy rozptylu. Její interval spolehlivosti se stanoví pomocí pásu > spolehlivosti + vzorec 177) Určení závislosti u nelineární regrese korelačním indexem 178) Vícenásobná regresní funkce a jednoduchá regresní funkce – rozdíl v počtu proměnných (jednoduchá pouze x1, vícenásobná x1,x2,x3….xn) 179) Regrese na hlavních komponentách - vícenásobný regresní model předpokládá nezávislost nezávislé proměnné - tento předpoklad bývá v praxi často nahrazen a proto se doporučuje do vícenásobní regrese nahradit nezávislé proměnou hlavními komponentami 180) Regresní koeficient u lineární regrese - byx - vyjadřuje o kolik se změní závisle proměnná y, jestliže se nezávisle proměnná x změní o jednotku - použití k odhadům změny 181) Aditivita vícenásobného regresního modelu - funkci pro vícenásobnou regresi získáme jako součet jednoduchých regres. fcí 182) Jakým způsobem určujeme parametry regresních funkcí? (3) - metoda nejmenších čtverců – obecná soustava normálních rovnic 183) Beta koeficienty a k čemu se používají - normované přepočtení regresní koeficienty - k určení podílu jedn. nezávisle proměnné u regres. odhadu závisle proměnné.(vícenásobná lineární regrese) 184) Jak postupujeme při určení nejvhodnějšího typu regresní funkce - na základě zkušenosti, logické posouzení, empirické posouzení (korel. pole), výpočet mnoha funkcí-výběr nejlepší 185) Jak provádíme výběr nejvhodnější nelineární regresní funkce? (3) - podle toho, která nelineární regresní funkce má nejvyšší hodnotu indexu korelace - 51 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 186) Co jsou to sdružené regresní přímky - hodnoty korelačních koef. převádí v hodnoty z a vždy se řídí alespoň přibližně normálním rozdělením (obrácená závislost X na Y) 187) Typy nelineárních regresních fcí - polynom, parabola 2. st., exponenciála, mocninná funkce, hyperbola, růstová funkce 188) Interakce ve vícenásobné regresní analýze (2) - podíl nezávisle proměnných na regresním odhadu závisle proměnné - posuzuje vhodnost regresní funkce - představuje vzájemné působení proměnných (nejde to slovo přečíst) - vyjmenuj vztahy mezi koeficienty - ani jedna možnost 189) Korelační pole - empirická metoda pro nalezení vhodné regresní funkce, vyjádření párové závislosti - vyjadřuje vzdálenost mezi teoretickou a skutečnou hodnotou u vybrané funkce 190) Korelační tabulka - kombinační tabulka, která vyjadřuje průběh závislosti 2 proměnných (kvalitativní znaky) - na úhlopříčce je pevná závislost - čím jsou více soustředěné kolem úhlopříčky, tím je silnější závislost a naopak - těsnost závislostí v ní měříme korelačním poměrem 191) Korelační tabulka - kombinační tabulka. která vyjadřuje průběh závislosti 2 proměnných(kvalit znaky) - těsnost závislostí v ní měříme korelačním poměrem 192) K čemu slouží Spearmanův koeficient korelace pořadových čísel - charakterizuje těsnost jednoduché závislosti kvantitativních znaků - nabývá hodnot 0-1 původní hodnoty nahradíme pořadovými čísly je to u korel. - jedná se o neparametrickou charakteristiku - měří těsnost jakékoli statistické závislosti, která je monotónní - poskytuje rychlou a dostatečně přesnou informaci o těsnosti sledované závislosti 193) Totální koeficient korelace a determinace - totální koeficient korelace - vyjadřuje těsnost závislosti Y na všech nezávislých prom. X - totální koeficient determinace - druhá mocnina korelace; udává z kolika % je nez. proměnná Y ovlivněna všemi uvažovanými nezávisle proměnnými X 194) Koeficient vícenásobné totální korelace -měří těsnost závislosti závisle proměnných na všech uvažovaných nezávisle proměnných 195) Koeficient parciální korelace -měří těsnost závisle proměnných na jedné z uvažovaných nezávisle proměnných 196) Korelační index je (možnosti) (2) - měříme jím těsnost závislosti u nelineárních funkcí - je v intervalu od 0 do 1, čím více se blíží 1 tím je závislost silnější, čím blíže 0 tím je závislost slabší
- 52 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 197) Jak ověřujeme statistickou významnost korelačního indexu a korelačního koeficientu? (3) - korelační koeficient – podle t-Studentova rozdělení, tabulky kritických hodnot korelačního koeficientu , neprovádíme test, pouze porovnáváme hodnotu korel. koeficientu s tabulkovou , je-li vypočtená > tabulková, můžeme rovnou korel. koeficient považovat za statisticky významný - korelační index - netestujeme 198) Co měří dílčí korelační koeficient a co vícenásobný korelační koeficient? - dílčí korelační koeficient vyjadřuje těsnost lineárního vztahu mezi dvěma proměnnými při vyloučení vlivu jedné nebo více dalších proměnných - vícenásobný koeficient korelace charakterizuje těsnost závislosti jedné proměnné na lineární kombinaci jiných proměnných 199) Koeficient determinace - r2; vyjádření v % - udává z kolika % je závisle proměnná ovlivněna uvažovanou nezáv. Proměnnou (u lineární regrese a korelace) 200) Totální koeficient determinace - vyjadřujeme v % a udává nám z kolika % je závislá proměnná ovlivněna uvažovanými nezávisle proměnnými 201) K čemu lze prakticky využít determinační index? O čem na jeho základě můžeme rozhodnout? - index determinace vynásobený 100 udává relativně v procentech tu část rozptylu závisle proměnné z, kterou se podařilo vysvětlit použitou regresní funkcí - čím bližší je jedné, tím je daná závislost silnější. 202) Může být vícenásobný korelační koeficient menší než některý z jednoduchých korelačních koeficientů? - nemůže <= vícenásobný je složen z jednoduchých 203) Jakou metodu byste použili k posouzení, jestli je prodej určitého zboží v průběhu dne rovnoměrně rozložen? - rozptyl nebo řetězový index 204) Posuďte, která varianta vztahů mezi koeficienty je možná: a) byx=-5 , bxy=-0,2 b) ryx=-0,72 , bxy=-2,1 c) byx=0,5 , bxy=2,1 d) byx=-0,1 , bxy=0,7 Možná je varianta A - Nesmí mít opačná znaménka a jejich součin musí být menší nebo roven jedné. 205) Je možné, aby se korelační koeficient rovnal korelačnímu poměru? Kdy? - ano. Když je daná závislost naprosto shodná se svou regresní přímkou. 206) Na jakém principu je založena konstrukce měr těsnosti závislosti? - na principu rozkladu rozptylů 207) U kterých z uvedených regresních funkcí lze k odhadu parametrů použít metodu nejmenších čtverců: přímka, parabola, exponenciála ? Názor vysvětlete. - u přímky a paraboly, protože jsou lineární v parametrech na rozdíl od exponenciály, která není - tam je nutná lineární transformace.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 208) Jak určíme ve vícenásobné lineární regresní funkci podíl jednotlivých nezávisle proměnných v regresním odhadu závisle proměnné – β koeficienty regresní fce (dílčí regresní koeficienty na které jsou přepočítány nezávislé odchylky)- o kolik směrodatných odchylek se změní závisle proměnná jestliže se nezávisle proměnná změní o 1 odchylku 209) Co je multikolinearita a jak ji zjistíš? (5) - je to závislost mezi vysvětlujícími proměnnými - informace o ní čerpáme z matice korelačních koeficientů a jejího determinantu - jestliže jsou párově nekorelované, multikolinearita neexistuje a D=1, pokud D=0, potom mluvíme o úplné multikolinearita - většinou je škodlivá od hodnoty 0,75 - jestliže multikolinearita existuje, tak je některá proměnná x v modelu zbytečná 210) Co je zdánlivá korelace? - zdánlivá korelace spočívá v tom, že je někdy možné pozorovat silnou závislost mezi proměnnými i v případě, kdy mezi proměnnými ve skutečnosti závislost buď skoro, nebo vůbec neexistuje. 211) Doprovodná regrese - u analýzy určujeme, zda kromě regrese na kvantitativním znaku existuje i regrese na kvalitativním znaku - f-test 212) Čím měříme těsnost závislosti - u lineárních závislostí - koef korelace, determinace - u nelineárních závislostí - index korelace, determinace 213) Kanonická korelační analýza - vycházejí z logického členění proměnných do dvou skupin - každá skupina proměnných je charakterizována 1 souhrnnou veličinou, tzv. kanonickou proměnnou = lineární kombinace pův. prom. dané skup. 214) Jak zjistíme zda je rozdíl korelačních koeficientů statisticky významný - tabulky - pomocí testu o korelačním koeficientu - tr=ryx/(odm(1-r na 2xy)/(n-2)) - tr - má studentovo rozdělení pro n-2 stupňů volnosti - t větší než t alfa - statisticky významný 215) z-transformace, kdy ji používáme, její význam - hodnoty r1 převádíme na z1 a r2 na z2 u testu o rozdílu 2 korelačních koeficientů - metoda pro intervalový odhad korelačního koeficientu, jestliže n<100 - při intervalovém odhadu korelačního koef. v případě že n je menší než 100 není možná normální aproximace 216) Fischerova Z-transformace - speciální postup, kdy hodnoty korelačního koeficientu převádíme(pomocí tabulky) na hodnotu Z(r1=Z1, r2=Z2) - testovací kriterium - u=(Z1/Z2)/(odm(1/(n1-3))+(1/(n2-3))) - u je větší než u alfa ... H0 se zamítá 217) Koeficient korelace – co vyjadřuje, jaké známe (4) těsnost závislosti závisle proměnné na nezávisle proměnné (totální koeficient > korelace, parciální koeficient korelace,..) 218) Jak určíme parametry mocninné funkce - stejně jako u postupu při nalezení parametrů nelineární funkcí (lineární > transformace, MNČ, parciální derivace, obecná soustava normálních rovnic)
- 53 -
- 54 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 219) Kdy se používá korelační poměr, jakých nabývá hodnot je v určitém smyslu obecnější míra závislosti než index korelace a koeficient > korelace, protože na rozdíl od nich nezávisí na tvaru regresní funkce. Při > statistické závislosti se se změnami nezávisle proměnné x mění podmíněné > rozdělení pravděpodobnosti závisle proměnné y, a tedy také její průměry. Jejich > variabilitu měříme rozptylem podmíněných průměrů . Nabývá hodnot 0 – značí > nekorelovanost až 1 – plná funční závislost 220) Rozdíl mezi dílčím a totálním korelačním koeficientem dílčí korelační koeficient vyjadřuje závislost závisle proměnné vždy na jedné > nezávisle proměnné a ostatní jsou považovány za konstantní. Totální korelační > koeficient měří těsnost závislosti závisle proměnné na všech nezávisle > proměnných. 221) Rozdíl mezi volnou a pevnou závislostí pevná závislost – stejným hodnotám jedné proměnné odpovídají i stejné hodnoty > druhé proměnné, jde o vztah, který se projeví s jistotou. Volná závislot – jde o > vztah, kdy hodnotám např.jedné proměnné odpovídají sice hodnoty jiné proměnné, > ale kdy lze hovořit o jakési „tendenci“, která se projevuje při změnách hodnot > těchto proměnných. Neboli výskyt jednoho jevu ovlivňuje výskyt druhého v tom > smyslu, žes se zvýšila pravděpodobnost nastoupení druhého jevu při nastoupení > prvního. 222) Index korelace – co to je, co vyjadřuje, jak je vymezen, kdy se používá index pro vyjádření těsnosti závislosti závisle proměnné na nezávisle proměnné > u nelineárních funkcí. Nabývá hodnot od 0 do 1, čím více se blíž hodnota k 1 > tím je závislost těsnější. 223) Jakých hodnot nabývá korel. index a jak ho interpretujeme; co vyjadřuje index determinace - korelační index nabývá hodnot<0;1>, čím více se blíží 1 tím je závislost silnější, čím blíže 0 tím je závislost slabší - index determinace - I na 2xy - vyjádřen v % udává z kolika % je závisle proměnná ovlivněna uvažovanou nezávisle proměnnou 224) Uveďte vztah mezi korelačním koeficientem a regresními koeficienty – ryx = √byx.bxy 225) Čím měříme těsnost závislosti – korelačním koeficientem (lineární regrese), korelačním indexem (nelineární regrese) 226) Jak se vyjadřuje doprovodná regrese u kovariance? 227) Je možné, aby se korelační koeficient rovnal korelačnímu poměru? Kdy? Ano. Když je daná závislost naprosto shodná se svou regresní přímkou. 228) Množné znaky - kontingenční tabulka - alespoň 1 znak většinou více než 2, měříme pouze test závislosti; Pearsenův koeficient kontingence vyzívá chí-test 229) K čemu slouží normovaný koeficient kontingence - kontingenční tabulky mají různý počet řádků a sloupců - používáme ho pro porovnávání 230) Koeficient asociace slouží k: - vyjádření těsnosti 2 alternativních znaků - 55 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 231) Čím určujeme těsnost závislosti v asociační tabulce - koeficient asociace <-1;1>, obdoba koeficientu korelace 232) Asociační tabulka - vyjadřuje vztah 2 alternativních znaků - asociační přímka, těsnost, koeficient asociace (Yuelův koeficient asociace) v tabulce prvky a a b b - používají se zde upravené chí-testy 233) Jaké funkce popisují průběh závislosti v asociační tabulce - lineární fce 234) Jak měříme těsnost závislosti v kontingenční tabulce - Pearssonův koef kontingence - C (0,1) - čupronův koef kont. - K (0,1) - normovaný koef kontingence - Cn (0,1) - vyjádřit průběh závislosti v kontingenční tabulce neumíme 235) Jak ověřujeme závislost znaků v asociační tabulce - chí-kvadrát test, fischerův test 236) Jaké funkce lze použít k popisu průběhu závislosti v asociační tabulce - pouze lineární asoc. přímku 237) Rozdíl mezi korelační a kontingenční tabulkou? korelační tabulka – závislost dvou kvantitativních znaků, kontingenční tabulka > – závislost dvou kvalitativních znaků 238) Kontingenční tabulka, nakreslit obecné schéma A/B b1 b2 bs ∑ > a1 a1b1 a1b2 a1bs (a1) > a2 a2b1 a2b2 a2bs (a2) > ar arb1 arb2 arbs (ar) > ∑ (b1) (b2) (bx) n 239) Fischer-pravděpodobnostní test tabulek > - v asociační tabulce místo chí-kvadrát testu, pokud n < 40 nebo 20 < n < 40 a > zároveň je alespoň 1 teoretická četnost menší než pět. (spočítají se jednotlivé > pravděpodobnosti a jejich součet se porovnává s hladinou alfa) 240) K čemu slouží normovaný koeficient kontingence - kontingenční tabulky mají různý počet řádků a sloupců - používáme ho pro porovnávání - aby byl dostačující - postačující odhad 241) Jaké testy se používají v asociační tabulce - upravený chý-kvadrát test; fisherův test - jakými způsoby lze vyjádřit trend časové řady - graficky, mechanicky (klouzavé prům.), analyticky(trend. fce.) 242) Charakteristické rysy časových řad - uspořádaná řada údajů, které odlišují v čase - rysy – trend (vývojové tendence v čr-vzestupný, sestupný, stacionární), kolísání (odchylky od rovnoměrného vývoje-periodické(cyklické, sezónní), náhodné(okamžikové, intervalové)) 243) Elementární charakteristiky čas. Řad - slouží k rychlé informaci o charakteru a chování ukazatele v čas. Řadě
- 56 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 244) Harmonická analýza, podstata, k čemu se používá a kde - soubor postupů používaných při analýze vlnitých pohybů u přírodních jevů - v některých ČŘ se přesně pravidelně odchylují skutečné hodnoty od celkové tendence - graf připomíná spojité periodické funkce goniometrického typu 245) Co je autokorelace? Kde se s ní setkáváme a jak ji měříme? - je korelace mezi sousedními odchylkami od trendu - ověřujeme ji pomocí Durbin- Watsonova testu - závislost mezi 2 po sobě jdoucími členy v čř - u takové čř nelze provést měření těsnosti závislosti - zjišťuje se pomocí koeficient autokorelace (nízké hodnoty - neexistuje autokorelace) 246) Jak se měří průměr v okamžikové a intervalové ČŘ? 247) Analýza časových řad - trend x periodická složka x náhodná složka 248) Kdy používáme klouzavé průměry - při mechynickém popisu trendu - očištuje čř od náhodného a period. kolísání 249) K čemu používáme klouzavé průměry? - k vyrovnávání ČŘ - nevyrovnáme ji celou najednou, ale po částech 250) Co si představujete pod pojmem "dekompozice časové řady"? - rozklad čas. řady na 4 složky: trend, sezónní kolísání, cyklické kolísání a náhodná složka - u aditivního modelu to sčítáme, u multiplikativního násobíme 251) Jaké jsou předpoklady o náhodné složce časové řady? Proč ověřujeme jejich splnění a co to znamená, když se přesvědčíme, že nejsou splněny? - kompenzace v rámci časové řady, homoskedasticita (jejich variabilita se v čase nemění), jsou vzájemně nekorelované - nesplnění = nepodařilo se v časové řadě eliminovat systematickou složku beze zbytku 252) Co je extrapolace časové řady a jaký má význam? - dělání prognóz do budoucnosti - nejčastější způsob použití extrapolačních kritérií je založen na simulaci spočívá v tom, že z analýzy řady oddělíme určitou část pozorování a na vhodný T funkce usuzujeme podle toho, jak dobře extrapoluje tato pozorování. 253) Pomocí jakých měr posoudíte přesnost extrapolace? - Index korelace a determinace, u lin. záv. pomocí korel. koeficientu. Nebo pokud nemůžu model popsat žádnou závislosí tak poměrem determinace. 254) Jak vyberete vhodnou metodu pro extrapolaci časové řady? - nakreslím graf a posoudím průběh, potom analyzuji růstové charakteristiky a diference 255) Z údajů časových řad dvou ukazatelů y a x byl vypočten korelační koeficient ryx = 0,8. Jaké závěry z této hodnoty můžeme učinit? - mezi y a x existuje středně silná lineární závislost 256) Z údajů časových řad ukazatele y a ukazatele x byl vypočten korelační koeficient ryx = 0,6. O čem vypovídá? Středně silná závislost 257) Časová řada čtvrtletních údajů je rostoucí a sezónní indexy rostou úměrně trendu. Jak byste posoudili sezónnost takové časové řady? - jedná se o proporcionální sezónnost
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 258) Co chápeme pod pojmem paralelismus časových řad a co způsobuje? Souběh časových řad: Systematické složky časových řad, zejm. celkový vývoj tendence, mohou mít velmi podobný průběh v čase, což může vést k pozorování silné závislosti mezi proměnnými, jež ve skutečnosti vůbec závislé nejsou. Proto je třeba zjistit, zda existuje nějaký vztah mezi náhodnými složkami, a pak teprve pak usuzovat na souv, mezi ČŘ. 259) Popište základní princip exponenciálního vyrovnávání časové řady. Pozorování blízká současnosti jsou pro odhad parametrů důležitější, než pozorování vzdálenější, starší, a měla by jim proto být přisuzována větší váha. 260) Jaké znáte metody pro získání odhadů parametrů trendových funkcí nelineárních v parametrech? - linearizovat model vhodnou transformací, pak požadavek kompenzace kladné a záporné odchylky empirických hodnot od hodnot vyrovnaných a metoda nejmenších čtverců (aby součet čtverců popsaných odchylek byl minimální) 261) Náhodné kolísání časové řady, jak ho měříme - výsledek náhodných jevů, které nelze předurčit - pomocí abs. prům. odch. a rel. prům. odch. 262) Jak se určí průměr časové řady okamžikové a intervalové - okamžiková: y s pruhem=((y1/2+y2+...+yn-1*yn/2)/(n-1)) - intervalová - počítá se jako prostý ar. průměr 263) Jakými zp. lze vyjádřit trend časové řady - graficky, mechanicky(klouz. prům.), analyticky(trend. fce.) 264) Jak počítáme v čas. řadě koef. růstu a prům. koef. růstu - koef. růstu - Ki=(yi/(yi-1))*100 - prům. koef. růstu - k=ntá odm. z (k1*k2*...*kn) 265) Sezónní index je - poměr skutečných a teoretických hodnot 266) Extrapolace - jedná se o statistické prognózování kdy pomocí trendové fce a sezónních indexů je možno odhadnout budoucí vývoj daného ukazatele 267) Interpolace - přibližné určení chybějící hodnoty sledováného ukazatele v ČR za předpokladu, že známe sousední hodnoty - provádí se 2 způsoby: prostřednictvím 2 sousedních údajů; prostřednictvím všech hodnot v ČŘ 268) Popište základní princip exponenciálního vyrovnávání časové řady. - Pozorování blízká současnosti jsou pro odhad parametrů důležitější, než pozorování vzdálenější, starší, a měla by jim proto být přisuzována větší váha. 269) Co jsou odvozené časové řady a aspoň dva typy (z druhotných ukazatelů, např. HDP/na obyvatele) 270) Čím vyjadřujeme vliv sezónního kolísání 271) Co je stacionární časová řada časová řada která není ovlivněna trendem, je rovnoběžná s osou x 272) Odvozené časové řady 273) Postup při korelaci časové řady. - 1.) očistíme časovou řadu od trendu a periodického kolísání, 2.) náhodnou > složku vyjádříme jako odchylku, 3.) vypočítáme koeficient korelace reziduí
- 57 -
- 58 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 274) Co jsou bazické a co řetězové indexy a jaký je mezi nimi vztah? - jsou to indexy, které se týkají časové posloupnosti - bazický index má základ v zákl. období, řetězový vždy v předchozím období - bazické se dají konstruovat pomocí násobení řetězových a řetězové zase dělením bazických 275) Jaký index (indexy) použijete k posouzení změny cen vyráběné produkce u podniku, který vyrábí 7 různých výrobků? - Souhrnný index - různé druhy výrobků nemůžeme sčítat - Laspeyesův, Paascheho, Fischerův... 276) Která znáte rozdělení spojitých náhodných veličin? Uveďte oblasti jejich použití. Normální, Logaritmicko-normální, Exponenciální, Chí-kvadrát, Studentovo, Rozdělení F 277) Jaká je hlavní myšlenka rozkladu indexů metodou postupných změn? Index hodnot analyzovaného ukazatele rozkládáme na dílčí analytické indexy, které se skládají součinem. 278) Může nastat situace, že index ceny hovězího masa stoupne, i když ve všech prodejnách cena poklesla? Zdůvodněte svůj názor. Z ekonomického hlediska ano. Asice v případě, že by indexy cen ostatního zboží a služeb stouply více. 279) Jak budete postupovat, chcete-li zjistit, jak se na změně průměrné dovozní ceny určitého výrobku podílely změny cen z jednotlivých dovozních zemí a jak změna struktury dovozu podle dovozních zemí? Indexem proměnlivého složení 280) Charakterizujte situaci, kdy použijete složený individuální cenový index a kdy souhrnný cenový index. Složený index: Chceme-li zjistit, jak se na změně průměrné ceny určitého výrobku podílely změny jednotlivých cen, a jak změna struktury Souhrnný index: nemůžeme-li sčítat různé druhy výrobků - Laspeyesův, Paascheho, Fischerův... 281) Podle jakých hledisek dělíme indexy - věcné, časové, prostorové 282) Sezónní index - podíl pův. hodnot a hodnot očištěných od sez. vlivů 283) Souhrnné indexy úrovně - (2) - Indexy stejnorodý intenzity ukazatele; nestejnorodý extenzity ukazatele; srovnávající nest. prod.; nest. intenzity ukazatele; ani jedna 284) Výsledný ukazatel intenzity je stejnorodý pokud: - oba intenzivní ukazatele jsou stejnorodé; oba extenzivní ukazatele jsou stejnorodé; oba nestejnorodé; jeden extenziv. uk. je stejnorodý, druhý nestejnorodý 285) Stejnorodé a nestejnorodé ukazatele - stejnorodé - lze li srovnat ext. ukaz. součtem v přir. měrných jedn. - nestejnorodé - nelze je mezi sebou spočítat 286) Indexy - podíl dvou hodnot téhož ukazatele; individuální a souhrnný; věcný, prostorový, časový - individuální - indexy stejnorodých ukazatelů - souhrnné - indexy nestejnorodých ukazatelů - obě tyto skupiny se dělí na indexy množství a indexy úrovně - 59 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 287) Typy stat. ukazatelů - okamžikové, intervalové, primární, sekundární, extenzivní, intenzivní, stejnorodé, nestejnorodé 288) Rozklad indexu hodnoty. 289) Rozdíl mezi souhrnným indexem množství a indexem úrovně. 290) souhrnný index množství – nestejnorodé extenzivní ukazatele, souhrnný index > úrovně – nestejnorodé intenzitní ukazatele 291) Fischerův index – k čemu se používá. dle přednášek – snaží se odstranit nedostatky a využít přednosti Laspeyeusova > a Paascheho indexu – jde o geometrický průměr těchto indexů. Nevýhoda – obtížná > interpretovatelnost – omezuje možnosti jeho použití 292) Montgomeryho index – k čemu (3) k porovnání a výpočtu cenových indexů 293) Stejnorodé a nestejnorodé ukazatele - stejnorodé - lze li srovnat ext. ukaz. součtem v přir. měrných jedn. - nestejnorodé - nelze je mezi sebou spočítat 294) K čemu Guttmanův koeficient prediktability (3) koeficient založený na optimalizaci odhadu 295) Co je to vydatnost? - co nejmenší rozptyl u VS 296) K čemu využíváme Theilův koeficient? k posouzení modelů časových řad pro její extrapolaci 297) Co vyjadřuje Bayesův vzorec? - v případě, že jsou známy nejen nepodmíněné pravděpodobnosti P(Bi), ale i podmíněné pravděp. P(A/Bi) a je známo, že výsledkem je nastoupení jevu A, lze P(Bi) spočítat podle vzorce: P(Bi) = P(Bi)*P(A/Bi) / sum P(Bi)*P(A/Bi) 298) Zemědělský závod - souhrn pozemků větších než 0,1 ha na kterých se hospodaří - souhrn pozemků menší než 0,1 ha když: 299) Jak odhadujeme v zemědělství ha výnosy - subjektivní odhad - celé území se rozdělí na obvody a v každém se odhaduje prům. výnos - objektvní metoda - výběrové šetření, přímé měření; sledují se ha výnosy - klouz. prům. 300) Kultura - pozemek s trvale určeným způsobem využívání půd(orná půda, vinice), plodina brambory rané... 301) Rozdíl mezi sklizňovou plochou a sklizenou plochou. sklizňová plocha – plocha ze které byla skutečně provedena sklizeň, sklizená > plocha – rozsah, objem sklizně 302) Statistická síť pro zemědělství. sleduje hospodaření výsledků podniků v zemdědělství 303) Co je šetření Agrocenzus a kdy se toto šetření naposled uskutečnilo zemědělský cenzus, který se provádí v rámci celosvětového sčítání v > zemědělství, naposledy se uskutečnil v roce 2000 - 60 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 304) Systém rodinných účtů provádí ČSÚ – sleduje hospodaření soukromých domácností poskytuje informace o > výši jejich vydání a struktuře spotřeby 305) Vyjmenovat sčítací testy 306) Agrocenz - vychází z prahových hodnot; výběrová šetření; vysoké náklady 307) Jaká měření provádí statistika v zemědělské rostlinné výrobě např. sledování hospodaření podniků v zemědělství (FADN)
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistika II. - Teorie 1) Statistické závislosti v regresní a korelační analýze - Jednostranné - y (závisle proměnná, vždy jen jedna), x (nezávisle proměnná, jedna a více), Oboustranné - původní závisle proměnná se promění v nezávislou a naopak - Závislosti: -- Příčinná - jeden jev (příčina) vyvolává existenci jevu druhého (důsledek), Pevná výskytu jednoho jevu nutně odpovídá výskyt druhé jevu, lze charakterizovat průběh určitou matematickou funkcí -- Volná - jeden jev podmiňuje jev jiný jen s určitou pravděpodobností a v různé intenzitě, lze charakterizovat teoretický průběh závislosti a její těsnost, Statistická - volná závislost týkající se kvantitativních statistických znaků - Druhy podle: -- Počtu kvantitativních znaků - jednoduchá (dva znaky), vícenásobná (více než dva znaky) -- Typu regresní funkce – lineární, nelineární, Směru změn kvantitativních znaků pozitivní (kladná, přímá), negativní (záporná, nepřímá) 2) (4) Regrese - vyjadřuje průběh závislosti mezi kvantitativními znaky pomocí matematického modelu (regresní fce) - Regresní analýza - vystihnout průběh závislosti - tendenci změn abychom mohli provádět odhady závisle proměnné - Regresní koeficient (b) - udává, jak se změní závislá proměnná, pokud se nezávislá proměnná změní o jednotku
- 61 -
- 62 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Schéma proložení regresní funkce korelačním polem
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 5) Jednoduchá nelineární závislost - Aditivní typ funkcí: -- Kvadratická
n
Cílem řešení je
Hyperbolická
2
∑ ( yi − yi′ )
→ min
Logaritmická
i =1
3) (4) Korelace - vyjadřuje sílu - měří těsnost (sílu, intenzitu, míru) závislosti mezi kvantitativními znaky (korelační koeficient) - Korelační analýza - změřit sílu (intenzitu) závislosti, abychom mohli říci, jak je závislost silná a abychom mohli posoudit přesnost regresních odhadů z předcházejícího bodu - Koeficient korelace (Pearsonův) v intervalu <–1;+1>: -- r = ±1, existuje mezi proměnnými lineární funkční závislost, r = 0, jedná se o lineární nezávislost proměnných. -- + r přímá závislost, - r nepřímá závislost, r2 = koeficient determinace
- Multiplikativní typ funkcí: -- Exponenciální
Mocninná
4) Jednoduchá lineární závislost - Regresní analýza - Odhad parametrů rovnice metodou nejmenších čtverců pro přímku pomocí soustavy normálních rovnic (viz. vzorce) yi′ = a yx + byx .xi -- Rovnice regresní přímky (závislost y na x) Rovnice sdružené regresní přímky (závislost x na y)
xi′ = a xy + bxy . yi
- Korelační analýza – Korelační koeficient (viz. vzorce) -- Spearmanův koeficient - více využívaný u nelineárních, u lineárních méně účinný --- u veličin, kdy nelze předpokládat linearitu očekávaného vztahu nebo normální rozdělení sledovaných proměnných x a y, (viz. vzorce, di = pi - qi) - 63 -
- 64 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Index korelace posouzení kvality regresní funkce i nelineární závislosti a ke zjištění síly závislosti – v intervalu (0;1), 0 < | r | ≤ 0,3 závislost slabá, 0,3 < | r | ≤ 0,8 závislost mírná (střední), 0,8 < | r | ≤ 1 závislost silná (viz. vzorce)
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. -- Koeficient vícenásobné (totální, úplné) korelace - Ryx1x2 - Těsnost závislosti závisle proměnné na všech nezávislých proměnných najednou -- Koeficient vícenásobné determinace
2
- Index determinace I - z kolika % jsou změny závisle proměnné vysvětlitelné změnami nezávisle proměnné, ϵ (0;1) -- To co chybí do 100% jsem závisle nepostihli - nepostihnutelné údaje ( vlivy dalších jiných faktorů, které působí na y – nemoc, počasí, ...) 6) (4) Testování významnosti a odhady charakteristik regrese a korelace (lineární závislost)
R y2. x1 x2
8) Časové řady a jejich druhy - Posloupnost v čase uspořádaných údajů, zpravidla ve směru minulost - přítomnost, z nichž každý se vztahuje buď k určitému časovému úseku (intervalu) nebo k časovému bodu (okamžiku) - Druhy časových řad podle:
- Test významnosti korelačního koeficientu
H 0 : ρYX = 0
závislost v ZS neexistuje
-- Rozhodného časového hlediska - Intervalové - týden, rok (vývoj HDP v letech 2011 2012), aritmetický průměr, Okamžikové - k rozhodujícímu okamžiku (sčítání lidu), chronologické průměry
A : ρYX ≠ 0
Testové kritérium (viz. vzorce) porovnám s tabulkovou hodnotou
t > tα ( n − 2 )
-- Periodicity sledování - Krátkodobé (méně jak 1 rok), Střednědobé (za 1 rok), Dlouhodobé (delší jak 1 rok)
H0 se zamítá, je statisticky významný
- Intervalový odhad korelačního koeficientu:
-- Druhu sledovaných ukazatelů - Původní hodnoty (Primární) - vývoj HDP v letech, Odvozené ukazatele (Sekundární) - HDP na obyvatele v letech
-- Velké soubory >100 (viz. vzorce), Malé soubory <100 - Fisherova Z – transformace (viz. vzorce, tabulky příloha 16.1) a „z“ převedeme zpět na „r“
-- Způsobu vyjádření údajů - Naturálních (změřit, zvážit), Peněžních
- Test významnosti regresního koeficientu
9) Cíle analýzy ČŘ a srovnatelnost údajů v ČŘ
H 0 : β YX = 0
přímka nemá směrnici, je statisticky nevýznamná
A : β YX ≠ 0
Testové kritérium (viz. vzorce) porovnám s tabulkovou hodnotou
t > tα ( n − 2 ) - Odhady regresního koeficientu – Bodový
βYX = bYX
- Cíle analýzy ČŘ - Charakterizovat dynamiku vývoje ukazatele v čase v referenčním období pomocí elementárních charakteristik ČŘ a na základě dosavadních vývojových tendencí předpovídat = predikovat úroveň ukazatele budoucnosti - ČŘ z hlediska srovnatelnosti údajů:
, Intervalový (viz. Vzorce) -- Věcné - každý musí být stejně metodicky vymezen (stejná míra nezaměstnanosti)
7) Vícenásobná lineární závislost -- Prostorové - Porovnání regionu - formace prostoru stále stejná (kraje) - Vícenásobná lineární regrese: -- Časové - pouze u intervalových ČŘ zachovaná (1 měsíc, 1 rok) -- Parciální regresní koeficienty b1,….bk - průměrná změny „y“ při jednotkové změně jté vysvětlující proměnné „x“ za předpokladu, že velikosti ostatních vysvětlujících proměnných jsou konstantní -- Výpočtové tvary parametrů (viz. vzorce)
-- Cenové - podceňováno, peníze ve stálých cenách, buď sami stanovit, nebo ve spolupráci s ČSÚ
- Vícenásobná lineární korelace: -- Párové korelační koeficienty - ryx1, ryx2, rx1x2, Parciální korelační koeficienty - ryx1x2, ryx2x1, rx1x (viz. vzorce) - 65 -
- 66 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 10) Základní charakteristiky ČŘ - Posouzení úrovně ČŘ:
y=
-- Průměr aritmetický - u intervalové ČŘ
∑y
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Postižení trendu - vyrovnání ČŘ: -- Mechanické pomocí klouzavých průměrů - Při postupném výpočtu průměrů postupujeme („kloužeme“) vždy o jedno pozorování dopředu, přičemž zároveň nejstarší (tj. první) pozorování z té skupiny, z níž je průměr počítán, vypouštíme (k je délka klouzavého průměru)
i
n
-- Průměr chronologický - u okamžikové ČŘ
Prostý
Vážený
y + yn 1 y1 + y2 y2 + y3 1 + + L + n −1 y1 + y2 + y3 + L + yn −1 + yn 2 2 2 2 y= =2 n −1 n −1
y1 + y2 (t 2 − t1 ) + y2 + y3 (t3 − t2 ) + L + yn−1 + yn (tn − tn−1 ) 2 2 2 y= t n − t1
- Posouzení dynamiky vývoje ČŘ:
y1 + y2 + ... + yk k
y2 + y3 + ... + yk +1 k
-- Analytické pomocí trendové funkce - Soustava normálních rovnic (viz. vzorce), obdobně jako v případě regrese 12) Předpověď z trendové funkce - Bodová předpověď (y´t+i) - Intervalová prognóza - Na zohlednění náhodného kolísání a vyjádření přípustné chyby odhadu -- Stanoví se interval spolehlivosti, ve kterém se odhadovaná hodnota s určitou pravděpodobností (1 – α) nachází -, ,
P( yt + i − tα ⋅ s y , ≤ yt + i ≤ yt +i + tα ⋅ s y , ) = 1 − α , t +i
-- Absolutní charakteristiky
y
První diference
∆1t = yt − yt −1 , t = 2, 3,..., n
Druhá diference
∆t2 = ∆t1 − ∆t1−1 = (yt + 2 − yt +1 ) − (yt +1 − yt ), t = 3,4 ,...,n
Koeficient růstu (řetězový index)
Průměrný koeficient růstu
, t +i
t +i
yt y0 y kt = t , t = 2 ,3,...,n yt −1
kt =
k = n −1 k1 ⋅ k 2 ⋅ ...... ⋅ k n −1 = n −1
t +i
... bodová předpověď na období (t + i)
... kritická hodnota Studentova t-rozdělení pro hladinu významnosti α a (n - 2) stupně tα volnosti (např. přímka),
s y,
-- Relativní charakteristiky Bazický index
y3 + y4 + ... + yk + 2 k
... směrodatná chyba předpovídané hodnoty
--
s y,
t +i
) ((
)
n n 2 − 1 + 12 i 2 = sy ⋅ 1− I ⋅ 2 n − 1 ⋅ (n − 2)
(
2
)
2
yn y1
I je index determinace, sy je směrodatná odchylka hodnot časové řady i = 1, 2, ... je horizont předpovědi
11) Dekompozice časové řady - Složky časové řady: -- Trendová (T) - hlavní tendence dlouhodobého vývoje (rostoucí, klesající,konstantní) -- Periodická (P) - periodické ′výkyvy ukazatelů okolo trendu, cyklické (délka vlny delší y = Tt + Ptnež + εjeden t než jeden rok), sezónní (délka tvlny kratší rok nebo přesně jeden rok), krátkodobé -- Náhodná (ε) - nelze ji popsat žádnou funkcí času, jejím zdrojem jsou drobné, vzájemně nezávislé příčiny
13) Posouzení vhodnosti modelů ČŘ - Míry těsnosti závislosti - Iyt, Iyt2 – pokud se blíží jedné, je funkce zvolena vhodně, silná závislost - Pomocí zhodnocení velikosti chyby: -- M.E. (střední chyba odhadu), M.S.E. (střední kvadratická chyba odhadu) -- M.A.E. (střední absolutní chyba odhadu) M.P.E. (střední procentní chyba odhadu) -- M.A.P.E. - střední absolutní procentní chyba odhadu, větší jak 10% nevhodný model, (viz. vzorce) - Pomocí pseudoprognózy - Relativní chyba prognózy „r“, Theilův koeficient nesouladu „T2“, Relativní chyba extrapolace „T“, (viz. vzorce)
- 67 -
- 68 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 14) Analýza periodických ČŘ - Sezónní kolísání (zemědělství, stavebnictví, musí mít periodické kolísání) - Cyklické kolísání (demografická info, hospodářská krize může a nemusí být periodické kolísání) - Faktory - Objektivní (klima, roční období), Subjektivní (působí omezeně na území – tradice, prázdniny, náboženství, svátky) - Úprava kolísání pomocí sezónních indexů: -- Vyrovnaná hodnota (průměr řady (ČŘ bez trendu), průměr za rok, klouzavé průměry (ČŘ s trendem), hodnota vyjádřená z trendové funkce (ČŘ s trendem)) -- Postup pro vyjádření z trendové funkce (výpočet trendové funkce, vyrovnaných hodnot z á č á funkce (y´i), sezónních indexů ( ), průměrných á
á
sezónních indexů pro jednotlivá období
n12 n22
….. …..
n1j n2j
….. …..
n1s n2s
n1. n2.
……
…..
ni2
ar celkem
nr1 n.1
…..
…..
ni1
…..
ai
sdružené nij četnosti
…..
nr2 n.2
….. …..
nrj n.j
….. …..
a c a+c
b d b+d
a+b c+d n
- Testování závislosti - χ2 test, Fisherův faktoriálový test (za nesplnění podmínek pro použití χ2 testu) - Měření těsnosti závislosti - Koeficient asociace V v intervalu <–1;+1> ((viz. vzorce) 17) χ2 test v asociační tabulce - Podmínky použití - Rozsah souboru - n > 40, je-li 20 < n ≤ 40, žádná očekávaná četnost nesmí být menší než 5, je-li n ≤ 20 nelze χ2 – test použít
(a + b)(a + c) n (c + d )(a + c) c0 = n a0 =
- Očekávané četnosti
(a + b)(b + d ) n (c + d )(b + d ) d0 = n
b0 =
- H0: znaky A a B jsou nezávislé, A: znaky A a B jsou závislé - Testové kritérium (viz. vzorce) porovnáme s tabulkovou hodnotou - χ2 > χ2α(1) ⇒ H0 se zamítá na α a závislost mezi znaky je prokázána 18) Fischerův faktoriálový test
nis
ni.
- Formulace nulové a alternativní hypotézy, volba hladiny významnosti α
nrs n.s
nr. n
- Hledá se nejnižší četnost, sestavují se pomocné tabulky, kde tuto nejnižší četnost vždy snížíme o 1, v poslední tabulce bude mít hodnotu 0
okrajové (marginální) četnosti
- 69 -
Celkem
…..
n11 n21
b1
…..
celkem
b0
…..
bs
Znak B Znak A a0 a1 Celkem
…..
…..
…..
bj
…..
…..
…..
b2
…..
b1
…..
Znak B Znak A a1 a2
…..
y 15) Analýza závislosti kvalitativních znaků si = i - Kvalitativní statistické znaky: yi′ -- Nominální - Nemůžeme řadit (barva vlasů, kraje ČR) -- Ordinální - Můžeme seřadit od nejnižších po nejvyšší (dosažené vzdělání, výsledek zkoušky) -- Alternativní (pohlaví, ano/ne, účast/neúčast) -- Množné (dosažené vzdělání, barva vlasů) - Kontignenční tabulka: -- Úlohy 1) ověřit (otestovat) závislost mezi znaky 2) změřit sílu závislosti
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 16) (4) Kontingenční tabulka 2x2 (asociační tabulka) - Asociace - zkoumáme vztah mezi dvěma proměnnými, které mají alternativní znaky - Asociační tabulka
- Přímý výpočet pravděpodobnosti, s níž se může ve výběru o rozsahu n vyskytnou seskupení četností (a), (b), (c), (d) v dané tabulce, nebo jakékoliv jiné uspořádání četností, jež je H0 méně příznivé
- Pro původní i pomocné tabulky se spočítá pravděpodobnost, spočítá se výsledná pravděpodobnost ∑pi - Porovná se výsledná pravděpodobnost ∑pi s hladinou α: je-li α > ∑pi → zamítá se H0 o nezávislosti znaků
- 70 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 19) Kontingenční tabulka r x s - Podmínky použití χ2 testu: - Méně než 20 % teoretických četností menších než 5, v žádném políčku kontingenční tabulky nesmí být očekávaná četnost menší než 1 - Řešení při nesplnění podmínek: sloučení takových sousedících kategorií, aby došlo ke splnění podmínek -
χ > χ [(r − 1)(s − 1)] 2
2 α
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 22) (4) Vzorce pro jednoduché a složené indexy - Jednoduchý individuální index množství
Iq =
q1 q0
∆q = q1 − q0
- Jednoduchý individuální index úrovně
Ip =
p1 p0
∆p = p1 − p0
zamítáme H0 o nezávislosti znaků
- Měření těsnosti závislosti: -- Pearsonův koeficient kontingence - Jsou-li zkoumané znaky nezávislé, je hodnota tohoto koeficientu nula. Maximální hodnota, dosažená při úplné závislosti, je však menší než 1 a mění se podle toho, do kolika tříd byly zkoumané znaky rozděleny (viz. vzorce)
- Složený individuální index množství
Iq =
∑q ∑q
0
-- Normalizovaný koeficient kontingence Cn - Pro porovnání síly závislosti mezi několika kontingenčními tabulkami různého rozměru (viz. vzorce)
Cmax
r −1 = , kde r = min(r,s). r
20) (4) Indexní analýza - Cíle - Porovnání ukazatelů z hlediska věcného, prostorového nebo časového
∆q = ∑ q1 − ∑ q0
1
- Složený individuální index úrovně (index proměnlivého složení)
∆p =
∑pq −∑p q ∑q ∑q 1 1
0 0
1
0
∑pq ∑q = ∑p q ∑q
1 1
IPS =
p1 p0
1
0 0 0
- Vymezení a typy ukazatelů dle: 23) (4) Souhrnné indexy -- Způsobu zjišťování - primární (prvotní), sekundární (odvozené), Způsobu vyjádření – absolutní (rozdíl, abs. přírůstek/úbytek), relativní (podíl, index) -- Doby zjišťování – okamžikové, intervalové, Možnosti shrnování - stejnorodé, nestejnorodé, Povahy ukazatelů – extenzitní, intenzitní
- Představují indexy nestejnorodých extenzivních ukazatelů, jsou nesouměřitelné, jejich součet nemá pro celkem význam - Proto je nutné, abychom je učinili alespoň podmíněně souměřitelnými a to pomocí společných intenzitních ukazatelů (souměřitelů)
-- Porovnáváme hodnoty ukazatele vzhledem k - stejnému období (bázi, indexy bazické), k období předchozímu (indexy řetězové)
- Souměřitel - Hodnota, která srovnává nesrovnatelné, např. cena
21) Individuální indexy
- Index hodnotový - souhrnný index charakterizující změnu vytvořené hodnoty
- Jednoduché - indexy stejnorodého ukazatele, srovnáváme dvě hodnoty
24) Souhrnné indexy úrovně
- Složené - indexy stejnorodého extenzitního/intenzitního ukazatele, dílčí hodnoty shrnujeme za celek
- Souhrnné indexy úrovně - cenové indexy - vyjadřují vliv změny cen -- Laspeyresův cenový index (vahami je množství základního období)
- Intenzitní ukazatel p - měří intenzitu, úroveň - Extenzitní ukazatel q - absolutní, které charakterizují množství, rozsah, objem - Ceny c, Běžné období 1, Základní období 0
∑c q ∑c q ∑c q = ∑c q
I cL =
1 0 0 0
Paascheho cenový index (vahami je množství běžného období)
I cP
1 1
0 1
- 71 -
- 72 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Souhrnné indexy množství - objemové indexy nestejnorodého extenzitního ukazatele vyjadřují vliv změny množství -- Laspeyresův objemový index (uvažujeme cenu základního období)
∑c q ∑c q ∑c q = ∑c q
I qL =
0 1
0 0
-- Paascheho objemový index (uvažujeme cenu běžného období)
0
=
0
příjem
spotřeba
12
186
14
220
16
239
18
276
20
303
∑c q ⋅ ∑c q ∑c q ∑c q
450
1 1
1 0
1 1
24
359
0
1 0
26
400
28
421
30
456
0
500
400 s p o tře b a (K č )
1. způsob rozkladu 1 1
Jednoduchá lineární závislost
1 0
- Index hodnotový = ind. cenový * ind. objemový
∑c q ∑c q
I qP
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistika II. - Příklady
350 300 250 200 150 100 50 0 0
5
10
15
20
25
30
35
příjem (tis. Kč)
2. způsob rozkladu
∑c q ∑c q
1 1
0
0
=
∑c q ⋅ ∑c q ∑c q ∑c q 1 1
0 1
0 1
0
Výpočet korelačního koeficientu
n∑ xi yi − ∑ xi ∑ yi
0
ryx =
[n∑ x − (∑ x ) ].[n∑ y 2
2 i
2 i
i
− (∑ yi )
2
9 ⋅ 64648 − 188 ⋅ 2860
ryx =
[9 ⋅ 4256 − 188 ][. 9 ⋅ 982160 − 2860 ] 2
2
n
n
i =1
i =1
n.a yx + b yx ∑ xi = ∑ yi
n
n
n
i =1
i =1
i =1
a yx ∑ xi + byx ∑ xi2 = ∑ xi yi
9 a + 188 b = 2860 188 a + 4256 b = 64648 a = 317,78 – 20,89 b 188 (317,78 – 20,89 b) + 4256 b = 64648 59742,64 – 3927,32 b + 4256 b = 64648 328,68 b = 4905,36 b = 14,92 - 73 -
- 74 -
=
= 0,999
Koeficient determinace r2 = 99,81 % - Výpočet regresní přímky
]
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. a = 317,78 – 20,89 * 14,92 a = 6,2 yi´= 6,2 + 14,9 xi
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
Jednoduchá nelineární závislost V rámci marketingového výzkumu byl v prodejně počítačových her sledován počet zákazníků a výše tržeb v tis. Kč. Popište vztah pomocí vhodné regresní rovnice a určete sílu závislosti 18
počet zákazníků
výše tržeb
20
5
21
6
26
7
27
7
28
8
29
9
30
10
31
11
16
32
12
14
34
13
16
výše tržeb ( tis. Kč)
14
12
10
8
6
13
37
14
38
14
39
16
42
15
44
15
48
14
49
13
51
13
20
25
30
18
výše tržeb (tis. Kč)
35
4 15
35
40
45
50
55
poč et z ák az ník ů
Výpočet parametrů regresní funkce
a.n + b∑ xi + c∑ xi2 = ∑ yi
12
19 a + 661 b + 24477 c = 215
10
a ∑ xi + b∑ xi2 + c∑ xi3 = ∑ yi xi 661 a + 24477 b + 957607 c = 7940
8
6
4
2 15
a ∑ xi2 + b∑ xi3 + c ∑ xi4 = ∑ yi xi2 20
25
30
35 počet zákazníků
40
45
50
55
24477 a + 957607 b + 39254841 c = 307634
yi′ = −21,3411 + 1,6112 ⋅ xi − 0,0182 ⋅ xi2
- 75 -
- 76 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Spearmanův koeficient Pro závislost hodnoty produkce na výši investic u souboru 10 vybraných strojírenských podniků vyjádřete hodnotu Spearmanova koeficientu pořadové korelace Produkce (mil. Kč)
Investice (tis. Kč)
6,28
142
5,86
138
6,42
165
5,00
112
6,48
152
6,39
148
6,31
142
6,20
124
6,51
172
6,52
169
rs = 1 −
Výpočet indexu korelace 2
I yx =
i
i
2
= 1−
i
Index determinace
I yx2
21,34 = 0,8964 = 0,9468 206,105
= 89,64 %
(
)
n n −1 2
= 1−
6 ⋅ 6,5 = 0,96 10(100 − 1)
Statistická indukce v regresi a korelaci příjem
spotřeba
12
186
14
220
16
239
18
276
20
303
24
359
26
400
28
421
30
456
500 450 400 s p o tře b a (K č )
∑ ( y − y′ ) 1− ∑ (y − y )
6∑ d i2
350 300 250 200 150 100 50 0 0
5
10
15
20
příjem (tis. Kč)
- 77 -
- 78 -
25
30
35
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Vícenásobná lineární závislost V souboru 27 farem byla sledována závislost hrubé produkce v Kč/ha (y) na přímých pracovních nákladech v Kč/ha (x1) a přímých materiálových nákladech v Kč/ha (x2).
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Výpočet korelačního koeficientu
ryx =
[n∑ x
n∑ xi yi − ∑ xi ∑ yi
2 i
][
− (∑ xi ) . n∑ yi2 − (∑ yi ) 2
2
]
=
Párové korelační koeficienty jsou následující: ryx1 = 0,64 ryx2 = 0,53 rx1x2 = 0,41
ryx =
9 ⋅ 64648 − 188 ⋅ 2860
[9 ⋅ 4256 − 188 ][. 9 ⋅ 982160 − 2860 ] 2
2
Vypočtěte: a) koeficienty dílčí (parciální) korelace
= 0,999
ryx1 . x2 = Koeficient determinace r2 = 99,81 %
H 0 : ρYX = 0 A : ρYX ≠ 0 testovací kritérium
ryx2 . x1 = závislost spotřeby na příjmu v ZS neexistuje
ryx1 − ryx2 ⋅ rx1x2
(1 − r )(1 − r )
=
(1 − r )(1 − r )
=
2 yx2
2 x1 x2
ryx2 − ryx1 ⋅ rx1 x2 2 yx1
2 x1 x2
0,64 − 0,53 ⋅ 0,41
(1 − 0,53 )(1 − 0,41 ) 2
2
0,53 − 0,64 ⋅ 41
(1 − 0,64 )(1 − 0,41 ) 2
2
= 0,5465 = 0,3818
b) koeficient úplné korelace a jemu odpovídající koeficient determinace
t=
0,999 1 − 0,9981
tabulková hodnota tα ( n − 2 )
⋅ 9 − 2 = 60,51
R y . x1x2 =
= t 0, 05( 7 ) = 2,365
1 − rx21 x2
=
0,64 2 + 0,532 − 2 ⋅ 0,64 ⋅ 0,53 ⋅ 0,41 = 1 − 0,412
R 2 y . x1 x2 = 0,4957
R y . x1 x2 = 0,4956797 = 0,70404
Fisherova Z – transformace A) převede se „r“ na „z“ (r=0,999 → z=3,8002)
Bylo vybráno 35 podniků, u nichž byly zjištěny následující údaje: Produkce v Kč/ha, Přímé pracovní náklady v Kč/ha, Přímé materiálové náklady v Kč/ha
Odhad „s“
y′ = −48,1 + 2,31x1 + 1,23x2
1 1 = = 0,408 n−3 9−3 P(3,8002 − 1,96 ⋅ 0,408 < Z < 3,8002 + 1,96 ⋅ 0,408) = 0,95 s zr =
a) vysvětlete význam dílčích regresních koeficientů b) vypočtěte, jakou je možno očekávat úroveň produkce u podniků, jejichž majitel vynaložil 2 800 Kč pracovních nákladů a 4 900 Kč přímých nákladů
P(3,20 < Z < 3,80) = 0,95
x1 = 2800 Kč, x2 = 4900 Kč
B) převedeme „z“ zpět na „r“
y′ = −48,1 + 2,31 ⋅ 2800 + 1,23 ⋅ 4900 = 12446,9
c) posuďte, zda dosahuje farma s produkcí na 1 ha 13 420 Kč nadprůměrné nebo podprůměrné využití nákladů, když na uvedenou produkci vynaložila 2 650 Kč/ha pracovních nákladů a 5 140 Kč/ha materiálových nákladů
P(0,97574 < ρYX < 1) = 0,95
Závislost spotřeby na příjmu v ZS existuje ( A : ρYX a je statisticky významná ( t
ryx2 1 + ryx2 2 − 2.rx1 x2 .ryx1 .ryx2
> tα ( n − 2 ) )
t
≠0)
y′ = −48,1 + 2,31x1 + 1,23x2 y1 = 13420 Kč, x1 = 2650 Kč, x2 = 5140 Kč
y′ = −48,1 + 2,31 ⋅ 2650 + 1,23 ⋅ 5140 = 12395,6 y1/y´ = 1,0826
- 79 -
- 80 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Posouzení vhodnosti trendové funkce
Posouzení úrovně časové řady Spotřeba drůbežího masa
y=
∑y n
i
=
211,6 = 21,6 10
Počet zaměstnanců ve firmě 1. 1. 1995 - y1 = 26 - t1 = 31 1. 2. 1995 - y2 = 28 – t2 = 62 1. 3. 1995 - y3 = 25 – t3 = 90 1. 4. 1995 - y1 = 30 - t1 = 121
26 + 28 28 + 25 25 + 30 31 + 28 + 31 2 2 2 = 27,017 y= 90
Předpověď z trendové funkce
∑ ( y − y′ ) ∑ (y − y )
2
I yx = 1 −
i
i
2
= 1−
i
12,4805 = 0,96 162,904
I 2 yx = 0,923 yi = 13,3861+1,445* x
26
Posouzení vhodnosti prognózy (viz. předchozí příklad)
24
yi′ = 13,3861 + 1,445ti
22
20 yi
Odhad 2005, ti = 10
yi′ = 13,3861 + 1,445 ⋅10 = 27,8361 Skutečnost 2005 = 26,1
18
16
14
10 a + 55 b = 211,6 55 a + 385 b = 1275,5 a = 13,73
Odhad pro rok 2007
Je prognóza relativně spolehlivá? 12 1996
ti = 12
yi′ = 13,73 + 1,35 ⋅12 yi′ = 29,9 kg
r=
P−S 27,83 − 26,1 ⋅100 = ⋅100 = 6,63 % S 26,1
b = 1,35
yi′ = 13,73 + 1,35ti
- 81 -
1997
- 82 -
1998
1999
2000
2001
2002
2003
2004
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Periodické časové řady
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Výpočet vyrovnaných hodnot a sezónních indexů
400
350
300
prodej
250
200
150
100
50
0 1Q05 2Q05 3Q05 4Q05 1Q06 2Q06 3Q06 4Q06 1Q07 2Q07 3Q07 4Q07 yi = 121,4394+11,1888* t 400
300
′ = 121,43 + 11,19 ⋅12 = 255,71 y12
prodej
250
200
Výpočet průměrných sezónních indexů
150
12 a + 78 b = 2330 78 a + 650 b = 16745
si =
y1′ = 121,43 + 11,19 ⋅1 = 132,62
350
Výpočet trendové funkce
yi′ = 121,43 + 11,19ti
100
50
0 1Q05 2Q05 3Q05 4Q05 1Q06 2Q06 3Q06 4Q06 1Q07 2Q07 3Q07 4Q07
a = 121,43 b = 11,19
yt′ = Tt + Pt + ε t yi′ = 121,43 + 11,19ti
Odhad prodeje pro 2. čtvrtletí 2008 ti = 14
′ = 121,43 + 11,19 ⋅14 = 278,09 y14 Sezónní index pro 2. Čtvrtletí
s2 = 1,546
Odhad prodeje: 278,09 * 1,546 = 429,9
- 83 -
- 84 -
yi yi′
58 = 0,44 132,62 205 s12 = = 0,80 255,71 s1 =
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Fischerův faktoriálový test Ovlivňuje pohlaví respondenta zájem o typ dovolené?
n=27
vyšetřit očekávané četnosti
( a + b)(a + c) 17 ⋅12 a0 = = = 7,556 n 27 (c + d )(a + c) 10 ⋅12 c0 = = = 4,444 n 27
b0 =
(a + b)(b + d ) 17 ⋅ 15 = = 9,444 n 27
d0 =
(c + d )(b + d ) 10 ⋅15 = = 5,556 n 27
χ2 test v asociační tabulce a měření těsnosti závislosti Ovlivňuje pravidelná účast na přednáškách úspěch v prvním termínu zkoušky? Pomocné tabulky
n ⋅ (a ⋅ d − b ⋅ c ) 80 ⋅ (30 ⋅ 25 − 10 ⋅15) χ = = (a + b )(a + c )(b + d )(c + d ) 40 ⋅ 45 ⋅ 40 ⋅ 35 2
2
2
17 ! ⋅10 ! ⋅12 !⋅ 15 ! = 0,0503 27 ! ⋅10 ! ⋅ 7 ! ⋅ 2 ! ⋅ 8!
17 ! ⋅10 ! ⋅12 !⋅ 15 ! = 0,00712 27 ! ⋅11! ⋅ 6 ! ⋅1! ⋅ 9 ! 17 ! ⋅10 ! ⋅12 !⋅ 15 ! p2 = = 0,00036 27 ! ⋅12 ! ⋅ 5! ⋅ 0 ! ⋅10 !
p1 =
H0: znaky A a B jsou nezávislé χ2=11,42857 χ20,05(1)=3,841 χ2 > χ2α(1) zamítáme H0 na α
V=
p0 =
30 ⋅ 25 − 10 ⋅15 = 0,378 (30 + 10)(15 + 25)(30 + 15)(10 + 25)
p = ∑ pi = 0,05778 p>α
nezamítáme H0, znaky jsou nezávislé
středně silná závislost - 85 -
- 86 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Kontingenční tabulka r x s očekávané četnosti
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Souhrnné indexy
χ2=4,934 χ20,05(3-1)(3-1)= χ20,05(4)=9,488 χ2 < χ2α(4) nezamítáme H0 na α = 0,05 nebyla prokázána závislost Individuální indexy
- 87 -
- 88 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistika II. – Studijní materiál 1 Regresní a korelační analýza = popisuje průběh a těstnost závislosti kvantitativních znaků, zjištuje příčinnou souvislost mezi nimi = řadí se mezi vícerozměrné statistické metody Závislost: -jednostranné – y = závisle proměnná (vždy pouze jedna) x = nezávisle proměnná (1 a více) -oboustranné – původní závisle proměnná se promění v nezávislou a naopak 1, vystihnout průběh závislosti – tzv. tendenci změn, abychom mohli provádět odhady závisle proměnné = vlastní regresní analýza 2, změřit sílu neboli intenzitu závislosti, abychom mohli říci, jak je závislost silná a zároveň abychom mohli posoudit přesnost regresních odhadů z předcházejícího bodu = korelační analýza Regrese - vyjadřuje průběh závislosti mezi kvantitativními znaky pomocí matematického modelu. Regresní koeficient (b) – udává, jak se změní závislá proměnná, pokud se nezávislá proměnná změní o jednotku Korelace - vyjadřuje sílu závislosti. Měří se korelačním koeficientem Korelační koeficient (r) – udává sílu závislosti, čím víc se blíží extrémům, tím je silnější závislost r ϵ 〈-1;1 〉 Přímá r ϵ (0;1⟩ Nepřímá r ϵ ⟨-1;0) Hodnoty korelačního koeficientu: - pod 0,3 = velmi slabá závislost - nad 0,8 = velmi silná závislost Fischerova Z- transformace = metoda, kdy převádíme hodnoty r na hodnoty z, hodnoty z se blíží normálnímu rozdělení. pro Interval spolehlivosti dílčího korelačního koeficientu Fisherův test - založen na přímém výpočtu pravděpodobnosti, s jakou se dané uskupení četností vyskytne ve výběru o rozsahu n. Nelineární regrese - určení funkce = zkušenosti, předchozí výpočty, znalosti problematiky, grafické znázornění – korelační pole Určení konkrétní funkční rovnice - najít parametry funkce = nejpoužívanější metoda k výpočtu parametrů regresních fcí v aditivním tvaru = METODA NEJMENŠÍCH ČTVERCŮ Těsnost závislosti vyjadřujeme: o korelační poměr – používáme ho tehdy, pokud je těsnost závislosti vystižena podmíněnými průměry o korelační koeficient nebo jeho druhá mocnina = koeficient determinace – používá se tehdy, je-li průběh závislosti vystižen rovnicí přímky o korelační index = měří míru těsnosti závislosti, jestliže je závislost vystižena jinou funkcí než je přímka, závisí na pořadí závislosti, neboť Iyx ≠ Ixy a směr závislosti musí být tedy zachován - 89 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Závislosti mezi dvěma či více znaky kvantitativními zajímají nás příčinné (kauzální) souvislosti – výskyt jednoho znaku je svázán s výskytem druhého znaku o pevná závislost – výskyt jednoho znaku je neoddělitelně spjat s výskytem druhého znaku (pravděpodobnost výskytu druhého znaku při výskytu prvního znaku je 1) o volná závislost – s výskytem jednoho znaku se zvyšuje pravděpodobnost výskytu druhého znaku Výpočet podmíněných průměrů - nejjednodušší způsob vyjádření průběhu závislosti - vystižení průběhu závislosti pomocí podmíněných průměrů je poměrně přesné, ale má jeden závažný nedostatek – na základě podmíněných průměrů nedokážeme provádět odhady Těsnost závislosti - to můžeme provést tzv. korelačním poměrem - nabývá hodnot < 0,1> a čím více se vypočtená hodnota blíží k 1, tím je závislost silnější a čím více se hodnota blíží k 0, tím závislost slabší Rozptyl regrese - odchylky jednotlivých hodnot od těch teoretických Přímková regrese - nejjednodušší,taková regrese, kdy průběh závislosti je vystižen regresní přímkou Rovnice regresní přímky: y‘ = ayx + byx x kde indexy yx udávají směr závislosti – y závisí a na x Korelační tabulka - jedna z forem kombinačních tabulek - znázorňuje dvourozměrné rozdělení četností (zobrazují se většinou intervaly) a poskytuje přehled – orientaci v té závislosti Index determinace - Vyjádřen v procentech, udává z kolika procent je závisle proměnná ovlivněna nezávisle proměnnou Výpočet parametrů - Pomocí metody nejmenších čtverců. Rekurentní vzorce - K výpočtu dílčích regresních koeficientů – pomocí regresních koeficientů nižších řádů. Beta koeficienty - Slouží k přepočtení na standardizovanou (srovnatelnou) základnu. Úplný (totální) korelační koeficient - Těsnost závislosti závisle proměnné na všech nezávislých proměnných najednou. Úplný (vícenásobný) koeficient determinace – Vyjádřen v procentech, udává z kolika procent je závisle proměnná ovlivněna všemi uvažovanými nezávislými proměnnými. Dílčí (parciální) korelační koeficient - Vyjadřují těsnost závislosti závisle proměnné na nezávisle proměnné před tečkou, za předpokladu, že všechny ostatní nezávisle proměnné jsou konstantní. Vysvětlující proměnné mohou být na sobě nezávislé, ale mohou být na sobě vzájemně závislé = MULTIKOLINEARITA – vzájemná závislost nezávisle proměnných. Multikolinearita je nežádoucí, negativně ovlivňuje výsledek = r > 0,75. = počítáme DETERMINANT, pokud R < 1 = existuje multikolinearita
- 90 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Vícenásobná regrese a korelace -modely charakterizují závislost závisle proměnné y na více nezávisle proměnných x najednou -řešíme stejné úkoly jako u párové regrese a korelace o 1. vystihnout průběh závislosti – vícenásobná regresní funkce a provádět odhady na základě této funkce o 2. měření těsnosti závislosti -výpočty jsou již složitější; nedokážeme si to již představit – dostáváme se do třírozměrného a vícerozměrného prostoru o máme dvě nezávisle proměnné x a jednu závisle proměnnou y – plochy v trojrozměrném prostoru o více nezávisle proměnných x a jednu závisle proměnnou y – vícenásobná parabola, vícenásobná hyperbola, . . . Určování typu funkce: o Nesestrojíme již korelační pole o Ze zkušenosti nebo programem, kdy proložíme závislost řadou vícenásobných funkcí o K určování konkrétní funkční rovnice používáme opět metodu nejmenších čtverců (dosadíme do podmínek nejmenších čtverců a po úpravách dostaneme soustavu normálních rovnic) Vícenásobná lineární regrese - jako geometrický útvar nám vzniká regresní rovina (položíme-li nekonečně mnoho regresních přímek položených vedle sebe), je nejjednodušší a dokážeme interpretovat vypočtené parametry -regresní přímka pro k – nezávisle proměnných Závislost kvalitativních znaků a) Alternativní (ano/ne – nula jedničková náhodná veličina) b) Množné (nabývají více obměn) Asociační tabulky - vyjadřují vztah dvou alternativních znaků Průběh závislosti - vyjadřuje závislost podílu prvku s jedním znakem na podílu prvku s druhým znakem (tzv. regrese). Průběh závislosti může být jen lineární – vztah vyjádřen přímkou, kterou nazýváme ASOCIAČNÍ PŘÍMKA. Regresní koeficient - vyjadřuje, o kolik procent se změní počet prvků se znakem b, když se počet prvků se znakem a změní o jednu jednotku Koeficient asociace - vyjadřuje, jak je závislost silná a jak jsou přesné odhady. Je totožný s korelačním koeficientem. Kontingenční tabulky = vyjadřují vztah množných znaků V kontingenční tabulce neumíme stanovit průběh závislosti, ale můžeme pouze měřit těsnost. Porovnání těsnosti závislosti mezi kontingenčními tabulkami – NORMOVANÝ KOEFICIENT KONTINGENCE Nedostatek Pearsonova koeficientu kontingence – při úplné kontingenci nedosahuje hodnoty 1 - 91 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Nedostatky koeficientů kontingence - Závislé na rozměrech a na okrajových rozděleních (dávají větší váhu k řádkům a sloupcům s menší okrajovou četností) Nové míry těsnosti závislosti Jsou asymetrické – určují, která proměnná je závislá na které. Testování v kontingenční tabulce Používáme upravený χ2-test, kde je použití χ2-testu je založeno na splnění těchto podmínek: - Nesmí být víc jak 20% teoretických četností menších než 5 - Žádná teoretická četnost nesmí být menší než 1 Při nesplnění podmínek: 1. Sloučit sousední skupiny 2. Použití exaktních testů – např. FISCHERŮV TEST Ordinální (pořadové) znaky - Řadí se mezi kvalitativní znaky, ale ve skutečnosti to jsou kvantitativní znaky - Znaky lze řadit vzestupně - Jejich rozdíl nebo podíl nelze interpretovat - Neumíme vyjádřit průběh, můžeme pouze vyjádřit monotónnost Spearmanův koeficient pořadí - tento koeficient lze použít i pro měření závislosti u kvantitativních znaků (znaky seřadíme vzestupně a označíme pořadovými čísly) Analýza časových řad Časová řada = posloupnost v čase uspořádaných údajů, kdy každý údaj se vztahuje k určitému časovému bodu (okamžiku) nebo časovému úseku (intervalu) Úkoly analýzy časových řad: 1. Číselně popsat dynamiku vývoje ukazatele v časové řadě 2. Předpovídat úroveň ukazatele v budoucnosti Druhy časových řad a) Časové hledisko - Okamžikové o Sestaveny z údajů k rozhodujícímu okamžiku o Součet časové řady nemá smysl o Průměrem je chronologický průměr o Př.: sčítání lidí, počty zaměstnanců k 1.1. - Intervalové o Obsahují údaje, které se vztahují k určitému časovému intervalu o Součet časové řady má smysl o Průměrem je prostý aritmetický průměr o Př.: vývoj HDP v letech 2000-2011 (intervalem je celý rok) b) Hledisko periodicity zjišťování - Krátkodobé (denní, týdenní, měsíční) - Střednědobé (roční) - Dlouhodobé - 92 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. c) Z hlediska druhů sledovaných ukazatelů - Primární (vývoj HDP v letech, vývoj sklizně v letech, …) - Sekundární (vypočteny na základě primárních ukazatelů – HDP na obyvatele v letech …) d) Podle způsobu vyjádření údajů - Naturální - Peněžní Srovnatelnost údajů v časové řadě Každá časová řada musí splňovat tři hlediska srovnatelnosti: a) Věcné srovnatelnosti (= stejně nazývané ukazatele musí být stejně metodicky vymezeny) b) Prostorové srovnatelnosti (= ukazatel zjištěn na stejném území) c) Časové srovnatelnosti (= respektovat u intervalových časových řad – velikost ukazatele souvisí s délkou intervalu) Elementární (= základní) charakteristiky časových řad - Používají se k popisu časových řad - slouží k rychlé informaci o charakteru a chování ukazatele v časové řadě = DYNAMIKA VÝVOJE - jsou to: a) diference různého řádu o absolutní (stejné jednotky) o relativní (%) b) tempa a průměrná tempa růstu c) průměry Charakteristické rysy průběhu časových řad Každá časová řada může obsahovat tři složky: a) Trendová složka = trend (dlouhodobá vývojová tendence) b) Periodická složka = periodické kolísání o Sezónní – pravidelná, krátkodobý charakter (např. nezaměstnanost) o Cyklická – nepravidelná, dlouhodobý charakter c) Náhodná složka = náhodné kolísání se kvantifikuje pomocí absolutní a relativní průměrné odchylky Popis a analýza neperiodických řad s trendem Existují dva typy: a) Monotónní – vykazují jediný směr vývoje b) Nemonotónní – střídá se vzestup a sestup ukazatele Popis trendové složky v časové řadě a) Graficky – pomocí korelačního pole b) Mechanicky – pomocí klouzavých průměrů (= vyloučeno kolísání) klouzavé průměry očišťují časovou řadu od periodického a náhodného kolísání, za lichý počet období (nejméně za 3 období) či sudé c) Analyticky – pomocí trendových funkcí
- 93 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Trendová funkce = obdoba jednoduché regresní funkce a) Lineární trendová funkce: u=a+b.t (přímka) b) Nelineární trendová funkce: parabola, hyperbola, exponenciální, mocninná INDEXEM KORELACE (I) stupeň přiléhavosti trendové funkce ke skutečným hodnotám časové řady, = čím je index korelace vyšší, tím daná funkce popisuje lépe trend v časové řadě INDEX DETERMINACE (I2) vyjadřuje procento vysvětlení variability údajů zvoleným trendem. Speciální trendové funkce - Logistický trend ; Řetězové funkce Analýza periodických časových řad = je výsledkem periodicky působících faktorů = časová řada vždy obsahuje periodické kolísání a může obsahovat trend a náhodné kolísání Podle délky periody: a) Sezónní kolísání (perioda ≤ 1 rok) b) Cyklické kolísání (perioda > 1 rok) Sezónní složka v časové řadě - Sezónní výkyvy jsou způsobovány dvěma typy faktorů: o Objektivní (např. střídání ročních období,…) o Subjektivní (např. tradice, prázdniny,…) - Týká se odvětví, jako je zemědělství, stavebnictví, cestovní ruch,… - Sezónní výkyvy mají negativní dopad - Popis sezónních výkyvů – SEZÓNNÍ INDEXY podíl skutečné hodnoty y a vyrovnané hodnoty Vyrovnaná hodnota pomocí: celkový průměr - u časových řad bez trendu klouzavý průměr; vypočtená hodnota u časových řad s trendem - Indexy se používají pro opravu predikcí z trendové funkce Náhodná složka v časové řadě - je výsledkem náhodně působících faktorů Korelace časových řad - V praxi se často korelují dva či více ukazatelů, které se odvíjejí v časové řadě - Pokud pracujeme s původními hodnotami, pak dochází k tzv. zdánlivé (falešné) korelaci, proto je nutné nahradit původní hodnoty reziduálními údaji Ɛ=(y-u) a tyto reziduální hodnoty v každé časové řadě skorelovat INDEXNÍ ANALÝZA - Ukazatele porovnáváme podílem nebo rozdílem – podíl dvou ukazatelů = INDEX - Hlediska porovnávání: o Časové o Věcné o Prostorové
- 94 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. - Ukazatele dělíme podle více hledisek: a) Podle shrnování Extenzivní (q) – vyjadřují množství, počet,…, získávají se měřením, vážením, počítáním Intenzivní (p) – vyjadřují úroveň, hladinu,…, vznikají jako podíl extenzivních ukazatelů (shrnují se pomocí podílu extenzivních ukazatelů) b) Podle srovnávání Stejnorodé – dají se shrnovat součtem (extenzivní) nebo průměrem (intenzivní) – např. přepravené množství Nestejnorodé – nedají se sčítat, např. objem produkce různých plodin Index – poměr 2 hodnot téhož ukazatele bez ohledu na to, jestli se jedná o srovnávání z věcného, prostorového či časového hlediska. Je to poměrné číslo, zlomek, bezrozměrná charakteristika vyjádřená většinou v %. Údaj, který je ve jmenovateli = základ indexu Typy: Individuální – jsou indexy stejnorodých ukazatelů Souhrnné – jsou indexy nestejnorodých ukazatelů Množství – jsou indexy extenzivních ukazatelů Úrovně – jsou indexy intenzivních ukazatelů Extrapolace časových řad - tzv. statistické prognózování,kdy pomocí trendové funkce a sezonních trendů můžeme odhadnout budoucí vývoj za předpokladu neměnosti dosavadního vývoje Interpolace časových řad - přibližné určení chybějící hodnoty uvnitř čas. řady za předpokladu, že známe sousední hodnoty
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 6. Co je to kvalitativní znak a jak se s ním pracuje? Je to znak, který neobsahuje číselnou hodnotu (jakákoliv definice kvalitativního znaku se dá použít) a pracuje se s ním v asociačních a kontingenčních tabulkách. 7. Jaké míry těsnosti používáme v asociačních a kontingenčních tabulkách? ASOCIAČNÍ TAB. => koeficient asociace a Yuleův koeficient a koef. koligace KONTINGENČNÍ TAB. => Pearsonův koef. kontingence, Cramerův koef. (V), Čuprovův koef. 8. Co je to koeficient růstu? Elementární charakteristika časové řady, slouží k interpolaci ččas. řad a říká nám o kolik % vzroste hodnota oproti minulému období 9. Jaké druhy kolísání v časové řadě znáte? Náhodné kolísání a periodické kolísání (sezonní, cyklické) 10. Nulová hypotéza v kontingenční tab.? Udělám chí kvadrát test a vyjde-li větší než tabulková hodnota, tak se nulová hypotéza zamítá a znaky jsou závislé a počítám těsnost 11. Index proměnlivého složení? Vyjadřuje vliv změny intenzivního a extenzivního ukazatele na výsledný intenzivní ukazatel
Statistika II. – Studijní materiál 2 1. Rozdíl mezi asociační a kontingenční tabulkou? a jakou hypotézu tím zjišťujeme? jaký test k tomu používáme? Asociační tab. = 2x2 alternativní znaky (ano/ne) Kontingenční tab. = 3 a více znaků, vztah množných znak (nabývají více obměn), neumíme stanovit průběh závislosti, měříme pouze těsnost Zjišťujeme, zda jsou A a B nezávislé či závislé (H0: A;B) Používáme test Chí-kvadrát nebo Fisherův test (ten pouze u Asoc. tabulek) 2.Jak počítáme průměrný koef. růstu v časové řadě? (tahle byla myslím na a,b,c,d) Pomocí geometrického průměru 3. Co je extrapolace v časových řadách a jak ji provádíme? Je to tzv. statistické prognózování. Odhady budoucích hodnot pomocí trendové funkce. Do t dosadíme očekávané období. 4. Jak popisujeme sezónnost v sezónních časových řadách? Pomocí sezónních indexů a odchylek Sezonní index je podíl původních hodnot a hodnot očištěných od sezóních vlivů 5. Co je souměřitel v indexní analýze? Je to hodnota, která srovnává nesrovnatelné, např. cena.
- 95 -
CO JE ASOCIAČNÍ TABULKA A K ČEMU JI POUŽÍVÁME vyjadřuje vztah (závislost) 2 alternativních kvalitativních statistických znaků, které principálně nabývají pouze dvou obměn (ano x ne, pravda x nepravda) a navzájem se tedy vylučují. Závislost ověřujeme pomocí – fisherův test a chí-kvadrát test postup: 1)formulujeme nulovou hypotézu 2) volba hladiny významnosti 3) výpočet testovacího kritéria 4)vymezení kritického oboru 5) zamítáme nulovou hypotézu a proto lze prokázat závislost mezi znaky ROZDÍL MEZI ASOCIAČNÍ A KONTINGENČNÍ TABULKOU asociační tabulka = vyjadřuje vztah 2 alternativních kvalitativních statistických znaků, nabývají pouze 2 obměny (ano x ne), umíme vyjádřit průběh závislosti kontingenční tabulka = vyjadřuje vztah 2 množných kvalitativních statistických znaků, nabývají více jak 2 obměny (ano x ne x nevím), neumíme vyjádřit průběh závislosti, pouze změřit KONTINGENČNÍ TABULKA vyjadřují vztah 2 množných znaků. Neumíme stanovit průběh závislosti, ale můžeme pouze měřit těsnost. Nabývají více jak 2 obměny (ano x ne x nevím).
- 96 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. KDY POUŽÍVÁME V SOUVISLOSTÍ S TESTY PRO ZÁVISLOST KVALITATIVNÍCH ZNAKŮ FISCHERŮV TEST když je n ˂ 20 nebo n ε (20,40) a pokud jedna relativní četnost menší než 5 používá se u asociačních tabulek (měří závislost kvalitativních znaků) JAKÝ JE ROZDÍL MEZI ČASOVOU ŘADOU INTERVALOVOU A OKAMŽIKOVOU intervalová – obsahují údaje, které se vztahují k určitému časovému intervalu (od – do), součet časové řady má smysl, průměrem je prostý aritmetický průměr (např. vývoj HDP v letech) okamžikové – sestaveny z údajů k rozhodujícímu okamžiku, součet časové řady nemá smysl, průměrem je chronologický průměr (např. sčítání lidí, počet narozených k okamžiku) CO JE TO TREND ČASOVÉ ŘADY A JAK HO VYSTIHUJEME dlouhodobá vývojová tendence (dlouhodobý růst či pokles) vyrovnává časové řady vzestupný, sestupný, stacionární způsoby vyjádření : analyticky – pomocí trendových funkcí graficky – pomocí korelačního pole mechanicky – pomocí klouzavých průměrů SEZÓNNÍ INDEX JE a) podíl původních hodnot časové řady a hodnot klouzavých průměrů b) podíl prvních a druhých diferencí c) složka bodové předpovědí d) míra náhodného kolísání časové řady
CO JSOU INTENZIVNÍ A EXTENZIVNÍ UKAZATELE extenzivní ukazatele - vyjadřují extenzitu neboli množství, objem a rozsah sledovaného ekonomického jevu; získávají se měřením, vážením, počítáním (počet pracovníků), značíme „q“, dělení podle shrnování intenzivní ukazatele - měří intenzitu neboli úroveň sledovaných ekonomických jevů. Lze je vyjádřit jako poměr dvou extenzitních ukazatelů, značíme „p“, dělení podle shrnování ČASOVÁ ŘADA uspořádaná řada údajů, které se vzájemně odlišují v čase posloupnost v čase seřazených údajů rozdělení : z hlediska času – intervalové (prostý aritmetický průměr, součet časových řad má smysl, obsahuje údaje vztahující se k určitému časovému intervalu – od – do), okamžikové (chronologický průměr, součet časových řad nemá smysl, obsahuje údaje vztahující se k časovému rozhodujícímu okamžiku) z hlediska periodicity – krátkodobé (denní, týdenní, měsíční), dlouhodobé (roční) z hlediska délky periodicity – sezónní charakter (délka periodicity kratší jak 1 rok), cyklický charakter (délka periodicity delší jak 1 rok) - 97 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. z hlediska ukazatelů – primární, sekundární další členění – věcné, časové, místní charakteristické rysy : trendová složka – dlouhodobá vývojová tendence, vyrovnává časové řady periodická složka – sezónní charakter (kratší jak 1 rok), cyklický charakter (delší jak 1 rok) náhodná složka – náhodné nepředvídatelné situace
JAKÝM ZPŮSOBEM SE VYJADŘUJE TRENDOVÁ FUNKCE trendovou funkci chápeme jako spojitou funkci času tj. vyrovnání časové řady řešíme jako regresní úlohu se závisle proměnnou, kterou je zkoumaný znak a nezávislou proměnnou, kterou je tzv. časová proměnná. ČÍM SE MĚŘÍ ZÁVISLOST V KONTINGENČNÍCH TABULKÁCH Pearssonův koeficient kontingence C (0,1); Čupronův koeficient kontingence K (0,1); Normovaný koeficient kontingence Cn (0,1); vyjádřit průběh závislosti v kontingenční tabulce
neumíme
NA CO SE POUŽÍVÁ FISCHERŮV TEST pro měření závislosti kvalitativních znaků v asociační tabulce INDEX PROMĚNLIVÉHO SLOŽENÍ A JAK HO ROZKLÁDÁME Vyjadřuje vliv změny intenzivního a extenzivního ukazatele na výsledný intenzivní ukazatel. Rozkládáme ho na index stálého složení a index struktury. 1) ((Σp1 q1)/Σq1)⁄((Σp0 q0)/Σq0) = 2) ((Σp1 q1)/Σq1)⁄((Σp0 q1)/Σq1) 3) ((Σp0 q1)/Σq1)⁄((Σp0 q0)/Σq0)1) IPS 2) ISS 3) ISTRU TRENDOVÁ FUNKCE vyrovnává časové řady přímkou y´= a + b*ti (a-absolutní člen, b-regresní člen) 2 způsoby: Σti = 0 (sudý a lichý počet), Σti ≠ 0 2 indexy: korelace Iyx <0,1>, determinace (Iyx)2 v % rozdělení: lineární – nejjednodušší případ, grafem je přímka, parametry určíme MNČ parabolický – grafem je parabola 2.stupně, parametry určíme MNČ nelineární aditivní modely – hyperbola 1. a 2. stupně, logaritmická funkce, odmocninná funkce nelineární multiplikativní modely – exponenciální funkce, mocninná funkce ADITIVNÍ MODEL – MNČ (metoda nejmenších čtverců), hyperbola 1. a 2. stupně, logaritmická funkce, odmocninná funkce MULTIPLIKATIVNÍ MODEL – převod na aditivní model pomocí logaritmů, exponenciální funkce, mocninná funkce
- 98 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. METODA NEJMENŠÍCH ČTVERCŮ – pro výpočet parametrů regresních funkcí, obecná soustava normálních rovnic, s výjimkou funkcí, které nemůžeme převést na aditivní tvar SEZÓNNÍ INDEX (si) – podíl původních hodnot časových řad a hodnot klouzavých průměrů KLOUZAVÝ PRŮMĚR – očišťuje časové řady od periodického a náhodného kolísání SEZÓNNOST ČŘ – krátkodobé kolísání max. do 1 roku SEZÓNNÍ SLOŽKA V ČŘ – sezónní výkyvy jsou způsobovány faktory : objektivní (prázdniny, svátky, tradice), subjektivní (střídání ročních období – nemůžeme ovlivnit), týká se odvětví, jako je zemědělství, cestovní ruch. Sezónní výkyvy mají negativní dopad. Popis sezónních výkyvů – sezónní indexy. REGRESNÍ A KORELAČNÍ ANALÝZA = vícerozměrné statistické metody, popisuje průběh a těsnost závislosti mezi 2 kvantitativními statistickými znaky INDEX KORELACE – nabývá hodnot od 0 do 1, měří závislost u nelineárních funkcí KOEFICIENT DETERMINACE – r2, udává, z kolika % je závisle proměnná ovlivněna nezávisle proměnnou INDEX DETERMINACE – Iyx2, udává, z kolika % je závisle proměnná ovlivněna nezávisle proměnnou INDEX KORELACE – Iyx, <0;1> měří závislost u nelineárních funkcí KORELAČNÍ KOEFICIENT – r, udává sílu závislosti, čím víc se blíží extrémům tím je silnější závislost REGRESNÍ KOEFICIENT – byx, udává, jak se změní závisle proměnná Y, pokud se nezávisle proměnná změní o jednotku KORELACE – popisuje těsnost (sílu) závislosti mezi kvantitativními znaky pomocí korelačního koeficientu
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. KVALITATIVNÍ ZNAKY – alternativní (2 obměny – ano x ne), množné (3 obměny - ano x ne x nevím) TĚSNOST ZÁVISLOSTI – asociační tabulka (koeficient asociace <-1;+1>), kontingenční tabulka (Pearsonův koef., Čupronův koef., Normovaný koef. (0;1)), lineární závislost (korelační koeficient, determinace), nelineární závislost (index korelace, index determinace) DEKOMPOZICE ČŘ – rozklad časových řad na 3 složky – trendová složka, periodická složka (sezónní a cyklický charakter), náhodná složka. U aditivního modelu sčítáme. U multiplikativního modelu násobíme. AUTOKORELACE – závislost mezi 2 po sobě jdoucími členy v čř ELEMENTÁRNÍ (= ZÁKLADNÍ) CHARAKTERISTIKY ČŘ – slouží k rychlé informaci o charakteru a chování ukazatele v časové řadě, slouží k tvorbě trendových funkcí (zvlášť diference), zachycují dynamiku čř (charakter mnou daného jevu v čase), používají se k popisu časových řad. Jsou to : a) diference různého řádu, b) tempo a průměrné tempo růstu, c) průměry hodnot ukazatelů (aritmetický nebo chronologický průměr) INTERPOLACE – přibližné určení chybějící hodnoty sledovaného ukazatele v čř za předpokladu, že známe sousední hodnoty; provádí se 2 způsoby: prostřednictvím 2 sousedních hodnot a prostřednictvím všech hodnot v čř INDEXNÍ ANALÝZA – pomocí indexní analýzy srovnáváme ukazatele (např. počet pracovníků, spotřeba potravin, průměrná mzda), což provádíme pomocí podílů či rozdílů hodnot uvažovaného ukazatele. Hlediska porovnávání (časové, věcné, prostorové). Ukazatele dělíme podle více hledisek : a)podle shrnování EXTENZIVNÍ (q) – vyjadřují množství, počet; získávají se měřením, vážením, počítáním. INTENZIVNÍ (p) – vyjadřují úroveň, hladinu; vznikají jako podíl extenzivních ukazatelů. b) podle srovnávání STEJNORODÉ – dají se shrnovat součtem (extenzivní) nebo průměrem (intenzivní) NESTEJNORODÉ – nedají se sčítat, např. objem produkce různých plodin. INDEX – poměr 2 hodnot téhož ukazatele bez ohledu na to, jestli se jedná o srovnávání z věcného, prostorového či časového hlediska. Je to poměrné číslo, zlomek, bezrozměrná charakteristika vyj. většinou v %. Údaj, který je ve jmenovateli = základ indexu. Rozdělení indexů : individuální (jsou indexy stejnorodých ukazatelů), souhrnné (jsou indexy nestejnorodých ukazatelů), množství (jsou indexy extenzivních ukazatelů), úrovně (jsou indexy intenzivních ukazatelů).
REGRESE – popisuje průběh závislost mezi kvantitativními znaky pomocí regresní funkce BETA KOEFICIENTY – normované přepočtení na regresní koeficienty MULTIKOLINEARITA – vzájemná závislost nezávisle proměnných, je nežádoucí, negativně ovlivňuje výsledek r > 0,75, informace o ní čerpáme z matice korelačních koeficientů KVANTITATIVNÍ ZNAKY – regrese, korelace - 99 -
DÍLČÍ (PARCIÁLNÍ) KORELAČNÍ KOEFICIENT – vyjadřuje těsnost závislosti závisle proměnné na nezávisle proměnné před tečkou, za předpokladu, že ostatní nezávisle proměnné jsou konstantní TOTÁLNÍ (ÚPLNÝ) KOEFICIENT KORELACE – vyjadřuje těsnost závislosti závisle proměnné na všech nezávisle proměnných najednou ÚPLNÝ (VÍCENÁSOBNÝ) KOEFICIENT DETERMINACE – v %, udává, z kolika % je závisle proměnná ovlivněna všemi nezávisle proměnnými - 100 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. TOTÁLNÍ KOEFICIENT DETERMINACE – v %, druhá mocnina korelace, udává, z kolika % je závisle proměnná ovlivněna všemi nezávisle proměnnými TOTÁLNÍ KOEFICIENT VÍCENÁSOBNÉ KORELACE - udává, z kolika % je závisle proměnná ovlivněna všemi nezávisle proměnnými STEJNORODÝ UKAZATEL – dají se shrnovat součtem (extenzivní) nebo průměrem (intenzivní), dělení podle srovnávání NESTEJNORODÝ UKAZATEL – nedají se sčítat, dělení podle srovnávání
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. NULOVÁ HYPOTÉZA A JAK SE MĚŘÍ V KONTINGENČNÍ TABULCE – nejprve udělat chí-kvadrát test, a když vyjde větší než tabulková hodnota, tak se zamítá nulová hypotéza a pak se počítají těsnosti, pokud tabulová hodnota bude větší, tak se přijímá nulová hypotéza a nepočítají se těsnosti JAKÉ TESTY SE POUŽÍVAJÍ V ASOCIAČNÍ TABULCE – upravený chí-kvadrát test, fisherův test ROZDÍL MEZI KORELAČNÍ A KONTINGENČNÍ TABULKOU korelační tabulka – závislost dvou kvantitativních znaků kontingenční tabulka – závislost dvou kvalitativních znaků
KOEFICIENT RŮSTU – o kolik % vzrostla hodnota ČŘ ti ve srovnání s hodnotou ČŘ ti-1 V KTERÝCH TABULKÁCH SE PROVÁDÍ x2 test – v kontingenčních tabulkách ADAPTIVNÍ MODELY – podobné trendovým modelům, ale liší se tím, že nepředpokládají stabilitu analytického tvaru, struktur. parametrů a spojitost trendové funkce KORELAČNÍ TABULKA – kombinační tabulka, vyjadřuje těsnost závislosti 2 kvantitativních znaků KORELAČNÍ POLE – „diagram“, množina vynesených bodů do grafu, vyjadřuje vzdálenost mezi teoretickou a skutečnou hodnotou u vybrané funkce HLEDISKA ČŘ – věcné (průměrná dojivost ZD), časové (mzda v Severočeském a Jihočeském kraji), prostorové (inflace v roce 2000 a 1999) CHÍ-KVADRÁT TEST – ověřuje závislost znaků u asociační tabulky, ke zjištění zda vzorek dat odpovídá předpokládanému rozdělení (test dobré shody) NELINEÁRNÍ REGRESNÍ FUNKCE – parabola 2. stupně, polynom, hyperbola, exponenciál, mocninná funkce, růstová funkce NELINEÁRNÍ REGRESE (URČENÍ FUNKCE) – zkušenosti, znalosti problematiky, grafické znázornění (korelační pole), předchozí výpočty JEDNODUCHÝ MODEL REGRESE A KORELACE – vyjadřuje vztah mezi 1 y a 1 x VÍCENÁSOBNÝ MODEL REGRESE A KORELACE – vyjadřuje vztah mezi 1 y a více x JAKÝM ZPŮSOBEM URČUJEME PARAMETRY (a,b) REGRESNÍCH FUNKCÍ – metodou nejmenších čtverců EXTRAPOLACE ČASOVÝCH ŘAD – určení hodnot čř za interval známých hodnot a to zpravidla do budoucího vývoje, jedná se o tzv. statické prognózování kdy s pomocí trendových funkcí a sezónních indexů je možno odhadnout budoucí vývoj SOUMĚŘITEL INDEXOVÉ ANALÝZY – cena stálá : může to být průměrná cena základního a běžného období - 101 -
INDEX PROMĚNLIVÉHO SLOŽENÍ – skládá se z indexu struktury a indexu stálého složení. Index struktury vyj. vliv změny q při celkové průměrné změně p. Index stálého složení vyj. vliv rozdílných hodnot ext. veličiny q při průměrné změně int. veličiny p KOEFICIENT ASOCIACE – vyj. jak je závislost silná a jak jsou přesné odhady. Je totožný s korelačním koef.
Statistika II. – Studijní materiál 3 1. Korelační koeficient, druhy, význam • měří míru těsnosti lineární závislosti mezi X a Y r = -0,9 silná nepřímá závislost r =< 0,3 = slabá závislost 0,3 < r = středně silná závislost 0,8 =< r = silná závislost Funkční (nejtěsnější) závislost = 1 r <-1;1> Čím více se koeficient blíží v absolutní hodnotě k jedné, tím jej lze považovat za silnější, čím více k nule, tím jej považujeme za volnější. Je-li roven 1 => přímá lineární závislost, je-li roven -1 => nepřímá lineární závislost 2. Aditivní a multiplikatnivní model V aditivním modelu se jednotlivé složky sčítají a pro hodnotu časové řady Yt pak můžeme psát Yt = T+P+e (trend+periodická složka+náhodné chyby) Pokud sezónnost neroste s úrovní časové řady, je vhodnější aditivní model. V multiplikativním modelu se jednotlivé složky násobí: Yt = T*P*e Pokud se sezónní výkyvy zvyšují zároveň se zvyšující se úrovní časové řady, svědčí to ve prospěch multiplikativního modelu. V případě multiplikativního modelu je uvažována ve své skutečně napozorované hodnotě pouze trendová složka.Ostatní složky se většinou uvádějí v relativních hodnotách vůči trendu a jsou tedy bezrozměrné - 102 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 3. Řetezové a bazické indexy, vypočet převod %& %( Bazické indexy základ srovnání je vždy stejný ; %
%
Řetězové indexy – srovnáváme vždy 2 za sebou jdoucí hodnoty v časové řadě
%& %(
;
%) %&
Bazické i řetězové indexy jde vzájemně přepočítávat, tzn. násobením řetězových získáme bazické a dělením bazických získáme řetězové. 4. Charakteristiky urcujici jak je model dobry MAPE - Mean Absolute Percentage Error (= střední absolutní procentní chyba odhadu) MAE - Mean Absolute Error (= střední absolutní chyba odhadu) MSE - Mean Squared Error (= střední čtvercová chyba odhadu) Jedná se o interpolační kritéria 5. Index proměnlivého slozeni Index vyjadřuje vliv změny intenzivního a extenzivního ukazatele na výsledný intenzivní ukazatel 6. Elementarni charakteristiky casovych rad • Mezi základní metody patří vizuální analýza chování ukazatele využívající grafů spolu s určováním elementárních statistických charakteristik • K elementárním charakteristikám řadíme diference různého řádu, tempa a průměrná tempa růstu, průměry hodnot časové řady aj. 1. Diference = absolutní přírůstky (úbytky) charakterizující rychlost změn 2. Absolutní diference = charakterizující absolutní zrychlení (zpomalení) časové řady Průměrný absolutní přírůstek, tempo růstu 7. Spearmanuv korelační koeficient udává těsnost vztahu mezi dvěma proměnnými (Spearmanův koeficient pořadové korelace- nahrazení naměřených hodnot pořadovými čísly) 8. Regresni koeficient o kolik se změní závisle proměnná, když se nezávisle proměnná změní o jednotku test významnosti- F-testem H0: není významnýβ = 0 H1: je významný β≠0 (β pro ZS, b pro VS) 9. Klouzave prumery Jsou průměry, které se používají pro jednodušší odhalování trencu časové řady. Pomocí klouzavého průměru se křivka vyhladí a lze lépe určit trend nebo změnu trendu -Jednoduchý klouzavý průměr -Exponeciální klouzavý průměr -Vyhlazený klouzavý průměr -Lineárně vážený klouzavý průměr
- 103 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 10. Chi kvadrat + podmínky (2x2 i vetsi) jake pro kvalitativní množné znaky Umožňuje ověřit, zda má náhodná veličina určité předem dané rozdělení pravděpodobnosti Test se často používá pro ověřování hypotéz v kontingenční tabulce Podmínky = asymptotický test musí mít dostatečně velký rozsah ; alespoň 80% četností musí být větších než 5 a všechny očekáváné četnosti výskytu jsou větší než 1 Pro tabulku 2x2: • n > 40 • pokud 20 < n < 40, pak je nutná úprava testového kritéria pomocí Yatesovy korekce • pokud n < 20, pak použijeme Fisherův test 11. Parcialni a totalni korelacni koeficient, rozdíl Parciální KK - o kolik se změní závisle proměnná, jestliže nezávisle proměnná uvedená v indexu před tečkou se změní o jednotku, ostatní nezávisle proměnná zůstanou konstantní (bx1.x2x3) Totální KK -měří závislost mezi všemi proměnnými (Ryx1x2x3) 12. Jak se urcuje normalni rozdeleni Pomocí Pearson-chí kvadrát testu dobré shody – Ho: výběr pochází z populace s normálním rozdělením H1: nepochází 13. Předpoklady regresního modelu náhodné chyby jsou nezávislé náhodné veličiny, které mají všechny normální rozdělení se střední hodnotou 0 a stejným rozptylem(ověření předpokladů analýzou r) 14. Linearni rovnice, regresni koeficiet o kolik se změní závisle proměnná, když se nezávisle proměnná změní o jednotku 15. Kontingenční tabulky Užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku Čtyřpolní tabulka – tabulka 2x2 (např. pohlaví a rozdělení na leváky praváky) 16. Multikolinearita -existence vztahu lineární závislosti mezi pozorováními vysvětlujících proměnných -tendence časových řad ekonomických ukazatelů (makroúdajů) vyvíjet se stejným směrem -netestuje se, jen se měří v jednom konkrétním výběru Perfektní multik. – vzniká chybou ve formulaci modelu 17. Trendová funkce Trendovou funkci lze využit k předpovědi vývoje časové řady Tvorba - Za nezávislou proměnnou je volena časová proměnná t, za závislou poté např to co pozorujeme (př. Počet obyvatel v jednotlivých letech) Typy: lineární: T=b0 + b1*t Kvadratická: T=b0 + b1*t + b2*t Exponenciální: T= b0*b1t
- 104 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 18. Adaptivní modely -Trendová složka není konstantní, ale mění se v čase, proto není možné k jejímu popisu použít 1 matematickou funkci s konstantními parametry 1. Klouzavé průměry - prosté, sezónní a náhodná složka -Trend v krátkých časových úsecích odhadujeme průměrem několika sousedních pozorování -Postupné vyrovnávání časové řady, při výpočtu kloužeme vždy o 1 pozorování dopředu -Volba klouzavé části k (délka intervalu použitého k výpočtu průměru), většinou liché délky k, sudou délku volíme pro speciální případy (čtvrtletní, měsíční řady) 2. Prosté klouzavé průměry řádu k = očištění časové řady od náhodného kolísání (případně také periodického kolísání) 3. Centrované = vážené průměry se speciálními váhami, zvolenými tak, aby eliminovali z časové řady sezónní složku 4. Vážené = každé hodnotě časové řady je přiřazena nějaká váha, která závisí na stáří hodnoty, tvoří velmi širokou třídu lineárních funkcí, které používáme k vyrovnávání časových řad 19. Parciální korelační koeficient charakterizuje sílu lineární závislosti mezi závisle proměnou a jednou nezávisle proměnou, jsou-li hodnoty zbývajících proměnných v modelu konstantní (ryx1.x2) 20. individualní indexy jednoduché - Veličiny, které bezprostředně srovnávají dvě hodnoty téhož ukazatele, nejsou nijak podrobněji členěny ani shrnovány. Složené - indexy stejnorodého extenzitního nebo intenzitního ukazatele, kdy hodnoty daného ukazatele jsou členěny na dílčí, a v rámci výpočtu indexu provádíme shrnování těchto dílčích hodnot 21. Zavislost alternativních kvalitativních znaků – jakým testem? Zkoumání závislosti mezi dvěma kvalitativními znaky rozdělíme na dvě časti: a) Nejdříve ověříme, či existuje statisticky významná závislost mezi zkoumanými znaky. b) Pokud mezi pozorovanými znaky existuje statisticky významná závislost, můžeme posoudit její intenzitu pomocí měr závislosti. Na ověřování závislosti dvou kvalitativních znaků A a B můžeme použít následující metody: 1.
χ 2 -test pro asociační tabulku 2 × 2
2. Fisherův test pro tabulku 3.
χ
2 × 2 s malými četnostmi
2
-test pro kontingenční tabulku
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 22. Složené individuální indexy, rozdělení, shrnování indexy stejnorodého extenzitního nebo intenzitního ukazatele, kdy hodnoty daného ukazatele jsou členěny na dílčí, a v rámci výpočtu indexu provádíme shrnování těchto dílčích hodnot rozdělení
Individuální – jsou indexy stejnorodých ukazatelů Souhrnné – jsou indexy nestejnorodých ukazatelů Množství – jsou indexy extenzivních ukazatelů Úrovně – jsou indexy intenzivních ukazatelů Shrnování -indexy stejnorodého extenzitního nebo intenzitního ukazatele, kdy hodnoty daného ukazatele jsou členěny na dílčí, a v rámci výpočtu indexu provádíme shrnování těchto dílčích hodnot 23. Testy shody Umožnuje z daných údajů zjistit např. typ rozdělení, nezávislost údajů či homogenitu dat Pearsonův test dobré shody - Umožňuje ověřit, zda má náhodná veličina určité předem dané rozdělení pravděpodobnosti - porovnáváme např. skutečný prodej triček v kusech v závislosti na barvě s očekávaným průměrem. - Test se často používá pro ověřování hypotéz v kontingenční tabulce 24. Homoskedascita, heteroskedascita Homoskedascita- chyby mají stejný a neznámý rozptyl Heteroskedascita – chyby mají ruzný neznámý rozptyl?
k ×m.
- 105 -
- 106 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 13. Výběrová zjišťování. Podstata náhodného výběru. Popis jednorozměrných statistických souborů. Otázka č. 13 – Studijní materiál 1 Statistika - věda o sběru a zpracování hromadných údajů popisná – zabývá se elementárními (jednoduchými) metodami sběru a zpracování hromadných údajů matematická – moderní – zabývá se složitějšími metodami sběru a zpracování hromadných údajů ekonomická – na pomezí vědy společenské a metodologické => i úvahy ekonomické Statický soubor – soubor statistických jednotek (výběrový – část základního) Jednorozměrný statický soubor – zjišťujeme na každé statistické jednotce pouze jeden statistický znak. Znaky jednotek jsou kvalitativní (slovně vyjádřené) – alternativní (2) a množné (více jak 2 obměny znaku) a kvantitativní (číselně vyjádřené) – diskrétní (celočíselné) a spojité (desetinné, logaritmy). Statistické zjišťování – získávání neznámých informací o znacích jednotek (sčítání obyvatel) Výběrová zjišťování jsou získávání neznámých informací o znacích jednotek (např.: sčítání obyvatel). Popisné statistické charakteristiky nám udávají rozhodující vlastnosti celého statistického souboru v koncentrované podobě. Charakteristiky polohy reprezentují vhodnou střední hodnotu daného souboru – průměry, ostatní střední hodnoty (medián-prostřední, modus-nejčastější). Charakteristiky variability měří rozptýlení hodnot příslušného souboru, určují rozmezí – absolutní (variační rozpětí, rozptyl, absolutní průměrná odchylka, průměrná odchylka), relativní (variační koeficient, relativní průměrná odchylka). Charakteristiky špičatosti a šikmosti. • úplná /neúplná (počítám, že neprozkoumám všechny stat.jednotky) Pořizování výběrového souboru a) Metoda základního masívu – k získání odhadu prověřujeme pouze velké jednotky, tato metoda nedovoluje zobecnění výsledku na celý soubor b) Záměrný výběr - o výběru statistických jednotek do výběrového souboru rozhodujeme subjektivní úvahou; nevýhodou je, že vyžadují určité předběžné znalosti a nemožnost seriozní generalizace. c) Náhodný výběr prostý je soubor metod a postupů, které umožňují na základě výběrového souboru usuzovat na soubor základní, nazývá se též statistická indukce. Ta se dělí na teorii odhadu a testování statistických hypotéz. V náhodném výběru jsou statistické jednotky zařazeny do výběrového souboru zcela náhodně. Náhodný výběr může být s vracením nebo bez vracení, s nestejnou pravděpodobností vybrání nebo prostý se stejnými pravděpodobnostmi. Techniky náhodného výběru: losování, pomocí tabulek náhodných čísel, mechanický výběr. d) Stratifikovaný výběr spočívá v prvotním rozdělení do homogenních skupin (věk, bydliště, vzdělání). V těchto skupinách provádíme náhodný výběr- poskytuje kvalitnější Inko o souboru. e) Dvoustupňový výběr- obdobný způsob f) Anketa prostřednictvím dotazníků, nelze považovat za obecně platný výsledek (vyplní je zhruba třetina dotázaných)=> soubor výběrový - 107 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 13 – Studijní materiál 2 Základní soubor soubor všech statistických jednotek, na něž se vztahuje příslušné statistické zkoumání a které vyhovují danému věcnému, časovému a prostorovému vymezení Výběrový soubor je pořízen předem určeným způsobem ze ZS obsahuje jenom část jednotek ze ZS od výběrového souboru požadujeme, aby byl reprezentativní Výběrová zjišťování
Υ Υ
úplné zjišťování (vyčerpávající) = provádí se na základním souboru (časově náročné, příliš nákladné, obtížné) výběrové zjišťování (nevyčerpávající) = provádí se na výběrovém souboru
statistika je založena na vztahu mezi základním a výběrovým souborem: zevšeobecnění výběrový soubor by měl být dobrým reprezentantem je důležitý rozsah výběrového souboru – tzn. kolik % základního souboru bude tvořit výběrový soubor (více jak 10; nejméně 30; větší než 100 jednotek) – průzkumy veřejného mínění mívají 2 – 3 tisíce jednotek výběrový soubor pořizujeme kvůli tomu, aby nám poskytl informace o celém základním souboru – jde o kvalitu a rozsah souboru Výběrové zjišťování: 1. anketa – dotazník; návratnost dotazníků je však nízká – 13 % 2. metoda základního masivu – soubor se skládá z několika velkých rozhodujících jednotek a z velkého počtu malých jednotek – zjišťování se pak provádí jen u těch velkých jednotek → problémem u těchto metod je zevšeobecňování 3. záměrný výběr - hledaný soubor vybírá určitý znalec dané problematiky → vybere takové jednotky o nichž předpokládá, že nám dobře zastoupí základní soubor o výběr můžeme zlepšit: vybíráme-li takové jednotky, které mají vlastnosti blízké ∅ snažíme-li se tedy, aby ve výběrovém souboru bylo přibližně stejné rozdělení četností jako u souboru základního o na základě záměrného výběru nelze stanovit objektivně tzv. chybu odhadu 4. náhodný (pravděpodobnostní) výběr o soubor rozdělíme na výběrové jednotky, které jsou zpravidla totožné se statistickými jednotkami – rozhoduje pouze náhoda o jsme schopni stanovit kvalitní odhady, které se s rostoucím rozsahem výběru zlepšují o v tomto případě se totiž zmocňujeme výhodných stránek náhody – pro zevšeobecňování – využíváme počet pravděpodobností - 108 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Náhodný (pravděpodobnostní) výběr celý soubor rozdělíme na výběrové jednotky (jsou totožné se statistickými jednotkami) a na to, kdo se dostane do výběru má vliv jen náhoda dokážeme dělat odhady u náhodného výběru – lze stanovit i chybu odhadu o NV – stejnými pravděpodobnostmi
Υ
o
Jednodušší, všechny jednotky mají stejnou možnost se dostat do výběru NV – s nestejnými pravděpodobnostmi
Υ Υ
Jednotky mají různou pravděpodobnost jednání
Každá jednotka může mít jinou pravděpodobnost vybrání Technika náhodného výběru je důležitá u náhodného výběru – musíme totiž zachovat tu náhodnost o losování – opora výběru – např. soubor studentů se musí zastoupit lístky s jejich jmény o mechanický (systematický) výběr
Υ Υ
o
bere každou n – tou jednotku
podmínka: posloupnost jednotek musí být náhodně uspořádána použití tabulek náhodných čísel
Υ
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Speciální typy výběrového zjišťování: oblastní výběr – před výběrem – základní soubor rozdělíme podle určitých hledisek do několika skupin a v každé té skupině provedeme např. prostý náhodný výběr (se stejnými pravděpodobnostmi) vícestupňový náhodný výběr – provádí se v několika stupních Charakteristiky základního a výběrového souboru Výběrový soubor o Je tvořen jednotkami x1,x2,x3, . . . xn → má n nezávislých pozorování o Veškeré informace o tomto výběrovém souboru získáme ze znalosti základního souboru (jeho charakteristiky) o Ale snažíme se vypočítat i charakteristiky výběrového souboru Charakteristika
Základní soubor
Výběrový soubor
Rozsah
N
n
Jednotky
Xi
xi
Absolutní četnost
Ni
ni
Relativní četnost
Fi
fi
Průměr
∑ Xi η= ---------N
∑ xi x = ----------n
Rozptyl
∑ (Xi - η)2 δ = -------------N
∑ (xi - x)2 so = -------------n
Směrodatná odchylka
δ = √ (δ2)
Variační koeficient
δ V = ------η
so = √ (so2) so v = ------x
u počítačů: generátor náhodných čísel
1. -
Náhodný výběr s vracením ( s opakováním) jednodušší jednotky po výběru vracíme zpět rozsah základního souboru je neustále stejný pravděpodobnost vybrání v každém dalším tahu je stejná nevýhoda: ta samá jednotka se může do výběru dostat vícekrát
2. -
Náhodný výběr bez vracení (bez opakování) jednotky po výběru nevracíme zpět nevýhoda: základní soubor se zmenšuje a pravděpodobnost vybrání pro zbylé jednotky se zvyšuje
-
v některých případech lze zanedbat rozdíl mezi náhodným výběrem s vracením a bez vracení ⇒ při výběru malého výběrového souboru z velmi rozsáhlého základního souboru
-
-
před vybráním: příprava výběru o formulovat problém, proč výběrové zjišťování provádíme o účel výběrového zjišťování o určit rozsah výběrového souboru – z hlediska nákladů a rychlosti bychom požadovali co nejmenší X z hlediska přesnosti požadujeme co největší --- musíme najít kompromis
- 109 -
2
2
veškeré informace zkoumaném výběrovém souboru obdržíme ze známého základního souboru, který je popsán pomocí N, η, δ2, δ na základě znalostí se snažíme vypočítat výběrové charakteristiky a hledáme vztah mezi charakteristikami základního souboru a výběrového souboru
Soubor výběrových průměrů dostaneme ho – pokud ze základního souboru vybereme všechny teoreticky možné výběrové soubory ( je jich nekonečně mnoho) a v každém výběrovém souboru vypočítáme výběrový průměr → a tyto všechny průměry by nám vytvořili soubor výběrových průměrů ( je nekonečný )
- 110 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 13 – Studijní materiál 3 ZÁKLADNÍ SOUBOR (POPULACE) • Soubor všech statistických jednotek, na něž se vztahuje příslušné statistické zkoumání a které vyhovují danému věcnému, časovému a prostorovému vymezení VÝBĚROVÝ SOUBOR (VZOREK) • Je pořízen předem určeným způsobem ze ZS, obsahuje jenom část jednotek ze ZS, od výběrového souboru požadujeme, aby byl reprezentativní ÚPLNÉ ZJIŠŤOVÁNÍ • Vyšetřují se všechny jednotky v souboru a žádná se nevynechá Výhody: o Poskytuje přesné charakteristiky souboru a umožňuje činit velmi spolehlivé závěry o Zabezpečuje informace nejen o souboru jako celku, ale i o každé jednotce Nevýhody: o Vysoké náklady, o Obtížné získávání některých údajů
VÝBĚROVÉ ZJIŠŤOVÁNÍ • Nevyšetřují se všechny jednotky ZS, ale pouze jednotky vybrané Výhody: o Levnější a rychlejší způsob zjišťování o V některých případech se dosahuje i přesnějších výsledků o Menší počet jednotek je možno mnohem kvalifikovaněji prověřit Nevýhody: o Údaje nebo charakteristiky takto vypočtené jsou zatíženy chybou → chybou odhadu POŘIZOVÁNÍ VÝBĚROVÉHO SOUBORU a) Metoda základního masívu o K získání odhadu prověřujeme pouze velké jednotky, tato metoda nedovoluje zobecnění výsledku na celý soubor b) Záměrný výběr o Výběru statistických jednotek do výběrového souboru rozhodujeme subjektivní úvahou o Nevýhodou je, že vyžadují určité předběžné znalosti a nemožnost seriozní generalizace c) Princip náhodného výběru o Zařazení určitých statistických jednotek do výběrového souboru rozhoduje pouze náhoda, splněn požadavek reprezentativnosti d) Anketa: o Oslovuje jen určitou vybranou část statistických jednotek pomocí sdělovacích prostředků - 111 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. NÁHODNÝ VÝBĚR Dělení náhodného výběru: 1. Prostý náhodný výběr o Představuje nejjednodušší typ náhodného výběru, tímto způsobem vybíráme, je-li soubor stejnorodý 2. Výběr s nestejnými pravděpodobnostmi o Výběrové jednotky mají přiřazeny různé pravděpodobnosti a) S vracením (s opakováním) - každá vybraná jednotka je před dalším vybíráním vrácena zpátky do souboru b) Bez vracení (bez opakování) - vybrané jednotky již nejsou vraceny do ZS → složení ZS se při každém tahu mění (žádná jednotka nemůže být vybrána více než jednou) • Rozdíl mezi prostým výběrem bez opakování a s opakováním je třeba respektovat pouze při výběrech ze základního souboru malého rozsahu, rozsáhlé soubory – rozdíl mezi způsobem I. a II. se maže TECHNIKY NÁHODNÉHO VÝBĚRU • Losováním • Pomocí tabulek náhodných čísel • Mechanický výběr • Oblastní výběr – rozdělení do skupin NÁHODNÝ VÝBĚR A CHARAKTERISTIKY • Charakteristiky ZS (charakteristiky vypočtené z údajů o všech jednotkách ZS) • Výběrové charakteristiky (byly vypočteny jen z údajů o výběrových jednotkách) Vztah mezi základními a výběrovými charakteristikami Základní soubor Hodnota znaku x Xi Absolutní četnost Ni Relativní četnost Fi aritmetický průměr x
µ=
Rozptyl
σ směrodatná odchylka
2
∑
i
N
∑ (x =
i
− µ)
N
σ = σ2
Výběrový soubor xi ni fi
x=
2
s
2 0
∑x
i
n
∑ (x =
i
− x) 2
n
s0 = s02
Na základě charakteristik VS odhadujeme charakteristiky ZS za těchto předpokladů: výběr z normálně rozděleného základního souboru rozdělení souborů výběr. průměrů se bude řídit rozdělením normálů poměrů řídí se t-Studentovým rozdělením t(n-1), je-li n>30, lze ho nahradit rozdělením normálním máme k dispozici výběr velkého rozsahu, řídí se rozdělením normálním - 112 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Jestlize na kazde statisticke jednotce zjistujeme pouze jeden statistiky znak hovorime o jednorozmernych statistickych souborech. Jestlize na kazde stat. jednotce zjistujeme vetsi pocet sta. znaku a zkoumame jejich vzajemny vztah hovorime o vicerozmernych stat. souborech. Dvouro. Tri.
-
JEDNOROZMĚRNÝ STATICKÝ SOUBOR • Znamená, že na každé statistické jednotce zkoumáme pouze JEDEN znak a znaky rozdělit na KVATITATIVNÍ (diskrétní a spojité) a KVALITATIVNÍ (alternativní a množné)
-
-
Otázka č. 13 – Studijní materiál 4 -
ZS – obsahuje všechny jednotky, VS – část ZS, je určitým způsobem vybrán ze ZS výběrové zjišťování: úplné (vyčerpávající) – provádí se na ZS výběrové (nevyčerpávající) – provádí se na VS důvody, které vedou k jeho používání: rozsáhlost ZS - zjišťování je zdlouhavé a nákladné praktická nepoznatelnost ZS - u zeměděl. plodin se provádí např. odhad sklizně abychom údaje z něj mohli zobecnit na celý ZS → nutno uvážit chyby a postupy provedené při zjišťování, řešit otázku rozsahu souboru → minimální počet je 30 jednotek, lepší je mít 100 a více jednotek 1. -
druhy výběrových zjišťování: anketa určenému okruhu osob se rozešlou dotazníky existuje vztah mezi dotazovanou skutečností a ochotnou vypovídat důraz na přípravu otázek
2. -
metoda základních masivů používá se tehdy, když se ZS skládá z několika velkých a z velkého počtu malých jednotek (ty zanedbáme) nevýhoda – nemožnost zobecňování získaných charakteristik na celý soubor
-
3. -
4. -
záměrný výběr provádí ho znalec problematiky, který vybírá takové jednotky, o kterých se domnívá, že dobře reprezentují ZS nevýhoda – zatížení určitou subjektivní možnost zlepšení: např. vybíráme jednotky s vlastnostmi blízkými průměru; snažíme se, aby ve VS bylo stejné rozdělení četností jako v ZS
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. celý soubor rozdělíme na výběrové jednotky, které jsou totožné se statistickými jednotkami ;každé jednotce ZS lze přiřadit pravděpodobnost vybrání a podle této pravděpodobnosti ji potom vybrat zbavujeme se možnosti ovlivnit výběr (tvorbu) VS → toto je založeno na pravidlech počtu pravděpodobnosti, kde je náhoda definována jako komplex drobných příčin druhy: n. výběr prostý – jedn. mají stejnou pravděpodobnost, že se dostanou do VS n. výběr s nestejnou pravděpodobností - různá pravděpodobnost vybrání výběr s vracením ( s opakováním) - jednotky po výběru vracíme zpět do ZS výhoda: zůstává stejně velký ZS; nevýhoda: jedna a ta samá jednotka se může do výběru dostat vícekrát výběr bez vracení ( bez opakování) - jednotky po výběru nevracíme do ZS techniky: losování použití tabulek náhodných čísel mechanický ( systematický ) výběr - vybíráme každou n-tou jednotku speciální výběr. oblastní výběr - ZS rozdělíme do skupin a ve skupinách provedeme prostý náhodný výběr vícestupňový výběr - vybíráme ve více stupních, na každém stupni může být výběr jiný
Popis jednorozměrného výběrového souboru: = charakteristiky - pomocí nich se snažíme zastoupit stat. soubor jednou nebo několika čísly 1.
Charakteristiky polohy = střední hodnoty vyjadřují střední úroveň hodnoty znaku v souboru průměry - jsou počítány ze všech hodnot znaku ostatní střední hodnoty – nepočítají se ze všech hodnot v souboru, pouze vybereme určitou hodnotu ze souboru
Průměry: ∑ xi aritmetický ∅ :xA = --------n ∑ xi ni xA = -----------∑ ni
- 113 -
vážená forma (počítá se z rozdělení četnost celkový ∅ z průměrů dílčích souborů, kde vahami jsou rozsahy souborů
harmonický ∅ = ∅ převrácených hodnot – aplikace v indexní analýze
náhodný (pravděpodobnostní) výběr
o tom, která jednotka ZS se dostane do VS rozhoduje pouze náhoda
prostá forma
n xH = ---------∑ 1/xi
prostá
∑ ni xH = ------------∑ ni / xi - 114 -
vážená forma
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. geometrický ∅ - aplikace včasových řadách prostá forma : xG = n√ x1 x2 . . . . . xn vážená forma: xG = k x1n1 x2n2 . . . . . . xknk kvadratický ∅ chronologický ∅ Ostatní střední hodnoty: je vybrána jedna hodnota, která nám soubor zastoupí Medián X prostřední hodnota řda pozorování uspořádané podle velikosti při určování nutno rozlišit 2 případy (n – liché číslo => medián je hodnota s pořadovým číslem (n + 1)/2; n – sudé číslo => medián je průměr) Modus X hodnota znaku, který se nejčastěji v souboru vyskytuje používá se v případě, kdy máme v souboru extrémně nízké či extrémně vysoké hodnota
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Rozptyl so2: nejdůležitější charakteristika variability nevýhoda: vyjadřuje variabilitu v jednotkách, které jsou 2. mocninou původních hodnot ∑ ( xi - x )2 definiční tvar rozptylu: so2 = ----------------n
výpočtový tvar – prostá forma:
vážená forma:
so2
Charakteristiky variability
-
vyjadřují kolísání, proměnlivost znaků v souboru požadavek: vyjadřovat variabilitu ve smyslu odchylek jednotlivých hodnot mezi sebou a ve smyslu odchylek od nějaké střední hodnoty, obvykle od průměru
∑ x2 ∑ xi = --------- - -------n n
vážená forma: so =
∑ ( xi - x)2 ----------------n ∑ ( xi - x )2 ni -------------------------∑ ni
so =
Variační rozpětí R = x max – x min nejjednodušší charakteristika vyjadřuje variabilitu pouze ve smyslu odchylek jednotlivých hodnot mezi sebou pouze orientační míra variability
Relativní charakteristiky variability
∑ xi - x d = -----------------n
d=
∑ xi - x ni -------------------∑ ni
prostá forma vážená forma
- 115 -
= x2 – ( x )2
Směrodatná odchylka so : nedostatek rozptylu nemá směrodatná odchylka a proto ji používáme, pokud chceme variabilitu v původních jednotkách
Absolutní charakteristiky variability
Průměrná odchylka d : odchylky jdou na obě strany, proto bereme absolutní tvar xi - x splňuje požadavek na charakteristiky variability, proto je lepší než variační rozpětí
2
∑ ( xi - x )2 ni = --------------------∑ ni
prostá forma: so = 2.
so2
-
so2
lze s nimi porovnávat variabilitu 2 či více souborů konstrukce spočívá v tom, že absolutní charakteristiku variability porovnáme k nějaké střední hodnotě
Relativní průměrná odchylka dR : d dR = --------- * 100 x Variační koeficient v : nejdůležitější míra relativní variability k porovnání variability dvou souborů so v = ----------- * 100 x - 116 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Kvantilové charakteristiky -
kvantily jsou hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí
Kvartily dělí uspořádaný statistický soubor na 4 stejně obsazené části: dolní kvartil x25 – odděluje 25 % nejmenších hodnot znaku od zbývajících prostření kvartil – dělí uspořádaný výběr na 2 stejně obsazené části horní x75 – odděluje 75 % uspořádaných hodnot znaku od 25 % největších hodnot znaku IQR = x75 - x25
kvartilové rozpětí
x75 - x25 o2 = ------------------2
kvartilová odchylka
kvartily spolu s x max ,x min tvoří tzv.pětičíselný souhrn statistik – grafické vyjádření = = box-and-whisker plot (boxplot)
4.
Doplňkové charakteristiky:
Charakteristiky šikmosti vyjadřují stupeň koncentrace malých a velkých hodnot ∑ ( xi - x )3 α = -------------------n * so3 Charakteristiky špičatosti vyjadřují nahuštění hodnot kolem střední hodnoty ( tedy kolem ∅ ) ∑ ( xi - x )4 β = ---------------------- - 3 n * so4
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 13 – Studijní materiál 5 Výběrová zjišťování: Nevyšetřují se všechny jednotky souboru, ale pouze jednotky vybrané. Slouží pro zjištění (určení) výběrového souboru ze základního souboru. • Výhody: Levnější a rychlejší způsob zjišťování, díky malému množství jednotek je možno výběrový soubor dokonaleji prověřit • Nevýhody: Výsledky nejsou tak přesné jak při úplném zjišťování, a proto jsou zatíženy chybou odhadu. Druhy výběru dat: • Náhodný (pravděpodobnostní) výběr dat: O výběru prvků rozhoduje pouze náhoda, proto lze považovat prvek za reprezentativní. • Záměrný (úsudkový) výběr dat: O výběru jednotek do souboru uvažujeme subjektivní úvahou, proto je prvek nereprezentativní. • Anketa: Má pouze informační charakter, proto je nereprezentativní. • Metoda základního masivu: Nelze zobecnit na celý soubor, protože obsahuje buď malý počet velkých jednotek, nebo velký počet malých jednotek. • Speciální typy výběrů: Oblastní, stratifikovaný, vícestupňový. Úplné zjišťování: Vyšetřuje všechny jednotky v souboru a žádná se nevynechá • Výhody: Poskytuje přesné charakteristiky souboru a umožňuje činit velmi spolehlivé závěry. • Nevýhody: Vysoké náklady, obtížné získávání některých údajů Typy souborů: • Základní soubor (ZS): Obsahuje všechny prvky i danou oblast • Výběrový soubor (VS): Část základního souboru. Podmínkou je, že prvek musí být reprezentativní. Náhodný výběr: • Prostý náhodný výběr: Nejjednodušší typ náhodného výběru • Pravděpodobnostní vybírání jednotek: Výběr se stejnými, nebo nestejnými pravděpodobnostmi • S ohledem na vracení jednotek zpět do souboru: o Výběr s vracením (s opakováním): Každá jednotka je před dalším vybíráním vrácena zpět do souboru. o Výběr bez vracení (bez opakování): Vybrané jednotky se po výběru do souboru nevracejí. Techniky náhodného výběru: Losování, pomocí tabulek náhodných čísel, mechanický výběr Podstata náhodného výběru: Žádným způsobem neovlivňuji výběr prvků Jednorozměrný statistický soubor: Jestliže na každé statistické jednotce (např. člověk) zjišťujeme pouze jeden statistický znak (kvantitativní (plat), kvalitativní (barva pleti)), hovoříme o jednorozměrných statistických souborech. Jestliže na každé statistické jednotce
- 117 -
- 118 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. zjišťujeme větší počet statistických znaků a zkoumáme jejich vzájemný vztah, pak hovoříme o vícerozměrných statistických souborech a to buď dvourozměrných, nebo třírozměrných,… Základní statistické charakteristiky: Kvantilové a momentové charakteristiky • Charakteristika polohy: Udávají střed, kolem kterého se soustřeďuje zkoumaný znak o Průměry: Aritmetický prostý (u netříděných dat), aritmetický vážený (u tříděných dat), geometrický, kvadratický, harmonický. o Ostatní střední hodnoty: Modus: Nejčetnější prvek v souboru (Hodnota s největší relativní četností) Medián: Prostřední hodnota řady uspořádané dle velikosti 3 5 6. V případě sudého počtu čísel udělám průměr z prostředních hodnot například z čísel 3, 5, 6, 7 je medián 5,5). Slouží k rozdělení souboru na dvě poloviny. • Charakteristiky variability (proměnlivosti): Měří proměnlivost daného znaku o Absolutní: Vyjdou v původních jednotkách (variační rozpětí, průměrná odchylka, rozptyl, směrodatná odchylka o Relativní: Bezrozměrné veličiny, porovnávající proměnlivost nejčastěji k průměru (relativní průměrná odchylka, variační koeficient) • Charakteristiky šikmosti (α): Měří vychýlení daného znaku. • Charakteristiky špičatosti (β): Měří, jak se v rozložení četností vyskytují velmi vysoké a velmi nízké hodnoty.
Otázka č. 13 – Studijní materiál 6 • • •
Statistické zjišťování: získávání neznámých informací o znacích jednotek. Náhodný výběr: proces při kterém definujeme náhodnou veličinu jako proměnnou, která nabývá různých hodnot v závislosti na náhodě. Nemůžeme přesně určit jaké hodnoty veličina nabude. Označujeme X,Y,Z. Jednorozměrný statistický soubor: zjišťujeme na každé statistické jednotce pouze jeden statistický znak. Znaky jednotek: o Kvalitativní (slovně): alternativní (2), množné (2 a více) o Kvantitativní (číselně): diskrétní(celočíselné), spojité ( desetinné, logaritmy)
- 119 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 14. Teorie odhadu. Bodový a intervalový odhad charakteristik základního souboru. Otázka č. 14 – Studijní materiál 1 Teorie odhadu – umožňuje odhadnout neznámé parametry základního souboru na základě výběrových dat (průměr, rozptyl, relativní četnost, rozsah, relativní četnost, směrodatná odchylka) Omezíme-li se na rozdělení určitého typu, potom se úloha teorie odhadu omezuje na určení hodnot parametrů rozdělení. Hodnoty těchto parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v základním souboru – hovoříme proto o odhadu parametrů. Abychom zabránili případným omylům, zavádíme odlišné označení charakteristik VS a charakteristik ZS. Intervalový odhad – vymezení intervalu spolehlivosti η=( x¯ +-∆), ve kterém se nachází s pravděpodobností P=(1-α) odhadovaná charakteristika základního souboru, nutná přesnost a spolehlivost odhadů, interval: oboustranný, jednostranný (pravo, levo), s opakováním/bez opakování, určujeme meze spolehlivosti= ∆, neboli přípustnou chybu odhadu. • Intervalový odhad průměru ZS • Intervalový odhad rozptylu ZS (lze určovat pokud znám, ale o když neznám/stává se zřídka/ průměr ZS) • Intervalový odhad relativní četnosti (pravděpodobnost výskytu jednotky s danou vlastností) Bodový odhad - η~ x¯ , σ2 ~s2, Fi~fi (~ přibližně), jedno konkrétní číslo, které vybereme z VS, aby nám nahradilo ZS (nezkreslenost, vydatnost-nutné aby měla nejmenší rozptyl, postačujícnost, konzistence-s rostoucím rozsahem výběru roste pravděpodobnost, že odhad dá hodnotu blízkou odhadované charakteristice) • bodový odhad průměru ZS • bodový odhad rozptylu ZS Otázka č. 14 – Studijní materiál 2 Základní principy odhadu na základě zkoumání náhodného výběru lze činit určité závěry o základním souboru (ZS) souhrn metod, jež toto usuzování umožňuje, se označuje statistická indukce, která se člení na teorii odhadu a testování statistických hypotéz úlohou teorie odhadu je určení typu rozdělení sledovaného znaku (některých charakteristik - střední hodnota, rozptyl atd.) a to na základě výběrových dat typ rozdělení lze často odhadnout předem, buď na základě teoretické úvahy či na základě dlouhé zkušenosti s experimenty téhož druhu omezíme-li se na rozdělení určitého typu, potom se úloha teorie odhadu omezuje na určení hodnot parametrů rozdělení hodnoty těchto parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v základním souboru – hovoříme proto o odhadu parametrů
- 120 -
-
-
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. existují dvě metody: v první metodě na základě zjištěných hodnot výběrového souboru (VS) vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS – bodový odhad – viz dále v 2. případě můžeme neznámou hodnotu parametru odhadnout tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS – interval spolehlivosti abychom zabránili případným omylům, zavádíme odlišné označení charakteristik VS a charakteristik ZS
Bodové a intervalové odhady hlavním úkolem při výběrových odhadech je statistické zevšeobecnění, jinak řečeno odhad charakteristik znaku v základním souboru na základě charakteristik VS bodový odhad: jedna konkrétní hodnota odhadne neznámou charakteristiku základního souboru charakteristika, kterou chceme použít k odhadu, musí splňovat určité požadavky požadavky: nestrannost – požadavek, aby odhadovaná charakteristika nebyla ani nadhodnocená ani podhodnocená konzistence – s rostoucím rozsahem výběru roste pravděpodobnost, že odhad dá hodnotu blízkou odhadované charakteristice vydatnost – nejvydatnější je ta charakteristika, která má nejmenší rozptyl postačující důležitost charakteristiky – jestliže shrnuje všechny informace, které poskytuje výběrový soubor intervalový odhad: stanovíme interval, ve kterém neznámá charakteristika leží s určitou předem známou pravděpodobností při tomto odhadu je třeba stanovit hodnoty dvou charakteristik t1 a t2 oboustranný interval spolehlivosti jednostranný interval spolehlivosti - levo a pravostranný interval spolehlivost spolehlivost odhadů – pravděpodobnost, se kterou neznámá charakteristika leží v intervalu přesnost odhadů – maximální chyba, které se můžeme při odhadu dopustit
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 14 – Studijní materiál 3 Základní principy výběrových odhadů chceme prostřednictvím výběrového souboru charakterizovat celý základní soubor – hlavní princip = princip zevšeobecnění pomocí náhodného výběru si pořídíme výběrový soubor – v něm si spočteme výběrové charakteristiky a na základě výběrových charakteristik odhadujeme charakteristiky základního souboru – tento postup se nazývá: statistický indukce 1. -
-
T→t η → x → x → x požadavky na výběr:
Υ Υ
Υ Υ Υ
Bodový odhad rozptylu ZS Intervalový odhad průměru ZS
Intervalový odhad parametru p alternativního rozdělení Neparametrický odhad mediánu ZS uplatnění pro svoji jednoduchost při menších VS předpokladem je spojitost náhodné veličiny - 121 -
musí být co nejkvalitnější
požadavek nestrannosti – odhad nesmí nenadhodnocovat a podhodnocovat danou charakteristiku E (t) = T (nestrannost je splněna, jestliže střední hodnota t se rovná charakteristice T ) – je-li splněn – odchylky s v průměru eliminují s rostoucím rozsahem výběru ta vychýlenost mizí – při výběrech velkého rozsahu lze požadavek nestrannosti zanedbat
Bodový odhad průměru ZS Při odhadu ZS µ zvolíme za odhadovou statistiku průměr výběrového souboru x.
Intervalový odhad rozptylu normálně rozděleného ZS
jednodušší odhad bodový je to jedna hodnota, kterou vybereme z výběrového souboru, aby nám nahradila neznámou charakteristiku základního souboru odhad: o činnost v duchu zvolené definice o zvolená charakteristika o hodnota charakteristiky výběrového souboru I neznámá charakteristika základního souboru a odhadujeme ji výběrovou charakteristikou t
-
konzistence – tzn. že s rostoucím rozsahem výběru se zvyšuje pravděpodobnost, že odhad dá hodnotu blízkou skutečné charakteristice (obvykle nestranné odhady bývají i konzistentní) vydatnost – nejvydatnější odhad = ten, který má nejmenší rozptyl
musí být postačující – je postačující tehdy, jestliže shrnuje veškeré informace o charakteristice základního souboru, které jsou k dispozici ve výběrovém souboru nevýhoda bodového odhadu: u bodového odhadu se můžeme dopustit chyby odhadu, ale u tohoto odhadu ji nedokážeme určit
2. složitější odhad intervalový stanovíme hodnoty 2 charakteristik, které nám vymezují interval spolehlivosti P ( t1 < T < t2 ) = 1 - α ⇒ hovoříme o 100 * (1 - α ) % intervalu spolehlivosti - 122 -
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 1 - α = koeficient spolehlivosti smysl mají tyto intervaly, jestliže je α malé číslo (α = 0,01 ⇒ interval spolehlivosti 99 % intervaly spolehlivosti bývají obvykle symetrické – v některých případech nesymetrické
Υ Υ
-
dvoustranný interval spolehlivosti P ( t1 < T < t2 ) = 1 - α jednostranný interval spolehlivosti : pravostranný interval spolehlivosti P ( T < t2 ) = 1 - α levostranný interval spolehlivosti P ( T > t1 ) = 1 - α
úkol – pravděpodobnost, že daná hodnota leží v daném intervalu – pravděpodobnost co nejvyšší – ale rozšiřuje se interval
Přesnost odhadu = udává maximální chybu, které se můžeme při daném odhadu s danou spolehlivostí dopustit Spolehlivost odhadu = pravděpodobnost, že neznámá charakteristika bude ležet v tom vymezeném intervalu Dvoustranný interval spolehlivosti pro neznámý průměr η základního souboru: -
jedná se o symetrický, dvoustranný interval spolehlivosti
Levostranný interval spolehlivosti: Pravostranný interval spolehlivosti: -
aby zjišťování mělo smysl, tak musí být α malé číslo ve většině praktických úloh nebudeme znát rozptyl δ2, ale budeme ho nahrazovat nestranným odhadem s2 a konstrukci odhadu opřeme o veličinu:
Υ Υ
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Intervaly spolehlivosti pro jiné charakteristiky základního souboru a) interval spolehlivosti pro neznámý rozptyl δ2 základního souboru předpoklad výběru z normálně rozděleného základního souboru tato veličina se řídí rozdělením χ2 ( n - 1) a pro tuto veličinu můžeme v tabulkách χ2 – rozdělení najdeme 2 veličiny – c1 a c2, které nám vymezují interval spolehlivosti tento interval spolehlivosti je dvoustranný, ale nesymetrický b) interval spolehlivosti pro směrodatnou odchylku c) interval spolehlivosti pro relativní četnost základního souboru Fi -
-
intervalový odhad relativní četnosti je poměrně složitý a to zvláště u výběru malého rozsahu konstrukce tohoto intervalu spolehlivosti vychází z binomického rozdělení a v případě výběru bez vracení z hypergeometrického rozdělení existují pro výpočet velmi složité vzorce X proto v praxi používáme tabulek intervalů spolehlivosti pro relativní četnost → z těchto tabulek lze přímo odečíst meze intervalu spolehlivosti v případě, že n > 100, používáme vzorce
intervalovým odhadů dáváme přednost před bodovými odhady: o intervalové jsou složitější o u intervalových odhadů lze stanovit chybu odhadu o dokážeme stanovit interval spolehlivosti s různou spolehlivostí → nejdůležitější 99 %, 95 %, a někdy vystačíme i se spolehlivostí 90 % ní. o u intervalů spolehlivosti musíme rozlišit, o co se jedná Intervaly spolehlivosti rozdílu 2 charakteristik, testování statistických hypotéz Intervaly spolehlivosti rozdílu dvou charakteristik
kritické hodnoty najdeme v tabulkách t – rozdělení P ( - tα < t < tα ) = 1 - α
je-li rozsah souboru n > 100 – tak nahrazujeme tα → uα uvedené intervaly pokrývají s pravděpodobností 1 - α neznámý průměr η základního souboru
a) rozdíl dvou průměrů máme k dispozici dva nezávislé výběrové soubory: máme k dispozici dva závislé výběrové soubory: b) rozdíl dvou relativních četností
vzorec pro výpočet přípustné chyby lze použít ke třem druhům výpočtů: o ke stanovení šířky intervalu spolehlivosti o ke stanovení nutného rozsahu výběrového souboru o ke stanovení spolehlivosti odhadů Význam konečnostního násobitele tam, kde výběrový soubor činí značnou část základního souboru interval spolehlivosti pro neznámý průměr lze vypočítat i na základě znalosti variačního koeficientu → používáme přípustnou chybu: - 123 -
- 124 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 14 – Studijní materiál 4 Teorie odhadu: Na základě výběrových charakteristik odhadujeme charakteristiky základního souboru – tento postup se nazývá: statistický indukce. Ta se člení na dvě hlavní oblasti: teorii odhadu a testování statistických hypotéz. Úkolem teorie odhadu je určení typu rozdělení sledovaného znaku resp. některých charakteristik, na základě výběrových dat.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 4. odhad intervalový Neznámou hodnotu parametru odhadujeme tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru základního souboru. Interval spolehlivosti pro η P ( x - ∆< < η < x + ∆) = 1 - α x ± ∆ → delta = chyba odhadu, vymezuje nám interval spolehlivosti a tvoří max. ½ šířky intervalu δ2 s2 ∆ = uα * ----------∆ = tα * ----------n n
Odhad je: o o
činnost v duchu zvolené definice hodnota charakteristiky výběrového souboru
Přesnost odhadu = udává chybu, které se můžeme při .odhadu s danou spolehlivostí dopustit Spolehlivost odhadu = pravděpodobnost, že neznámá charakteristika bude ležet ve vymezeném intervalu Bodový a intervalový odhad charakteristik základního souboru: 3. -
odhad bodový na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem číslo, které považujeme za odhad parametru základního souboru odhad musí být co nejkvalitnější: požadavky na výběr: o nestrannosti – nenadhodnocuje, nepodhodnocuje charakteristiku konzistence – s rostoucím rozsahem výběru se zvyšuje pravděpodobnost, že odhad dá hodnotu blízkou skutečné charakteristice o vydatnosti – nejvydatnější = ten, který má nejmenší rozptyl musí být Nevýhoda bodového odhadu: můžeme se dopustit chyby odhadu, ale nedokážeme ji určit Odhad průměru: η → x (je nestranný a konzistentní,- splňuje všechny podmínky) Odhad rozptylu: n N–1 s2 = so2 * -------- Výběr s vracením a k tomu * ------------- pro Výběr bez vracení n–1 N s2 = nestranný odhad rozptylu základního souboru , so2 = rozptyl výběrového souboru n = rozsah výběrového souboru, N = rozsah základního souboru Odhad směrodatné odchylky: s = √s2 Odhad variačního koeficientu: v´ = v *
n -------n-1 - 125 -
-
vzorec pro výpočet přípustné chyby lze použít ke třem druhům výpočtů: o ke stanovení šířky intervalu spolehlivosti x ± ∆ o ke stanovení nutného rozsahu výběrového souboru uα2 * δ2 n = ---------------∆2 o ke stanovení spolehlivosti odhadů ∆ * √n uα = -------------δ Interval spolehlivosti pro neznámý rozptyl δ2 základního souboru předpoklad výběru z normálně rozděleného základního souboru konstrukci opíráme o veličinu: interval spolehlivosti: (n – 1) s2 (n – 1) s2 2 P = ----------------- < δ < -------------- = 1 - α χ2α / 2 χ21 - α / 2 Iinterval spolehlivosti pro směrodatnou odchylku (dvoustranný nesym.) n–1 n-1 P = s --------------- < δ < s --------------- = 1 - α χ2α / 2 χ21 - α / 2 Interval spolehlivosti pro relativní četnost základního souboru Fi P fi - ∆ < F i < fi + ∆
=1-α
-
konstrukce tohoto intervalu spolehlivosti vychází z binomického rozdělení a v případě výběru bez vracení z hypergeometrického rozdělení - existují pro výpočet velmi složité vzorce X proto v praxi používáme tabulek intervalů spolehlivosti pro relativní četnost - šíře intervalu fi ± ∆ - přípustná chyba: fi ( 1 – fi ) Intervalovým odhadům dáváme přednost ∆ = uα * -----------------před bodovými odhady: jsou složitější, lze N stanovit chybu odhadu, dokážeme stanovit interval spolehlivosti s různou spolehlivostí. - 126 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 14 – Studijní materiál 5 ZÁKLADNÍ PRINCIPY ODHADU • Na základě zkoumání náhodného výběru lze činit určité závěry o základním souboru (ZS) • Souhrn metod, jež toto usuzování umožňuje, se označuje statistická indukce, která se člení na teorii odhadu a testování statistických hypotéz • Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku (některých charakteristik - střední hodnota, rozptyl atd.) a to na základě výběrových dat • Typ rozdělení lze často odhadnout předem, buď na základě teoretické úvahy či na základě dlouhé zkušenosti s experimenty téhož druhu • Omezíme-li se na rozdělení určitého typu, potom se úloha teorie odhadu omezuje na určení hodnot parametrů rozdělení • Hodnoty těchto parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v základním souboru – hovoříme proto o odhadu parametrů • Existují dvě metody: 1. V první metodě na základě zjištěných hodnot výběrového souboru (VS) vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS – bodový odhad – viz dále 2. Případně můžeme neznámou hodnotu parametru odhadnout tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS – interval spolehlivosti • Abychom zabránili případným omylům, zavádíme odlišné označení charakteristik VS a charakteristik ZS BODOVÝ ODHAD • Základním problémem teorie bodového odhadu je výběr statistiky, pomocí níž bychom získali co nejkvalitnější odhad • Jedna konkrétní hodnota odhadne neznámou charakteristiku základního souboru • Charakteristika, kterou chceme použít k odhadu, musí splňovat určité požadavky
•
•
Charakteristika: o Průměr o Rozptyl o Směrodatná odchylka o Medián o Relativní četnost o Rozsah souboru Požadavky: o Nestrannost – požadavek, aby odhadovaná charakteristika nebyla ani nadhodnocená ani podhodnocená o Konzistence – s rostoucím rozsahem výběru roste pravděpodobnost, že odhad dá hodnotu blízkou odhadované charakteristice - 127 -
o o
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Vydatnost – nejvydatnější je ta charakteristika, která má nejmenší rozptyl Postačující důležitost charakteristiky – jestliže shrnuje všechny informace, které poskytuje výběrový soubor
BODOVÝ ODHAD PRŮMĚRU základního souboru • Při odhadu základní souboru zvolíme za odhadovou statistiku průměr výběrového souboru, nejprve zjistíme, zda tato statistika vyhovuje požadavkům nestrannosti a konzistence BODOVÝ ODHAD ROZPTYLU základního souboru • Při odhadu rozptylu základního souboru zvolíme za odhadovou statistiku výběrový rozptyl s2. Víme, že E (s2) = σ2 → tím je splněna podmínka nestrannosti, statistika s2 dává rovněž konzistentní odhad základního rozptylu σ2 • Protože statistika s2 splňuje požadavky na nestrannost a konzistenci, budeme ji uvažovat jako bodový odhad rozptylu σ2 normálně rozděleného ZS
INTERVALOVÝ ODHAD • Metoda intervalového odhadu spočívá v tom, že na základě náhodného výběru určíme meze intervalu, který s předem danou pravděpodobností obsahuje neznámou hodnotu populační charakteristiky, interval nazýváme interval spolehlivosti, jeho hranice meze spolehlivosti • Pravděpodobnost, že interval spolehlivosti obsahuje neznámou základní (populační) charakteristiku, se nazývá spolehlivost odhadu (koeficient spolehlivosti) a značí se 1 −α • V praxi se obvykle požaduje, aby koeficient spolehlivosti byl blízký 1, obvykle 0,9, 0,95, 0,99 -> 90%, 95%, 99% interval spolehlivosti • Pravděpodobnost α se nazývá hladina významnosti (obvykle se tedy volí rovna některé z hodnota α = 0,1, α= 0,05) interval spolehlivosti P (T1 < θ < T2) = 1 − α • Přesnost odhadu posuzujeme podle šířky intervalu spolehlivosti, s rostoucí šířkou spolehlivosti klesá přesnost odhadu
Intervaly spolehlivosti pro charakteristiky základního souboru můžeme udávat trojím způsobem: 1. Jsou omezeny pouze shora (Pravostranný) 2. Jsou omezeny pouze zdola (Levostranný) 3. Jsou omezeny zdola i shora (Dvoustranný) o V prvních dvou případech - jednostranný interval spolehlivosti o Třetí případ - dvoustranný interval spolehlivosti o V případě, kdy je interval omezen shora -> interval pravostranný o Je-li interval omezen zdola - interval levostranný
- 128 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. INTERVALOVÝ ODHAD PRŮMĚRU základního souboru • Jestliže má ZS normální rozdělení, lze interval spolehlivosti pro průměr ZS popsat takto: o P (x(x s čárkou) - ∆ < µ < x s čárkou + ∆) = 1 – α •
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. větší početní náročnost a výhodou je že dokážeme stanovit interval spolehlivosti s různou hladinou významnosti a také můžeme stanovit chybu odhadu, proto dáváme přednost intervalovým odhadům před bodovými. •
Dvoustranný interval spolehlivosti: Pokud známe průměr ZS použijeme normální rozdělení (/0 ), pokud neznáme průměr ZS použijeme T-studentovo rozdělení (10 .) ). Stejné jako pro průměr je počítání i pro rozptyl a relativní četnost. o Pro neznámý průměr ZS: (P (*̅ - ∆ < µ < *̅ + ∆) = 1 - α) Je-li rozsah souboru (n) větší než 100, nahrazujeme T-studentovo rozdělení normálním rozdělením. o Pro neznámý rozptyl ZS: Řídíme se Ӽ2 (Chí kvadrát) rozdělením o Pro neznámou relativná četnost ZS: Pro malý VS těžko dopočitatelný, proto se v praxi používá tabulek intervalů spolehlivosti pro relativní četnost, z nichž se přímo vyčtou potřebné meze. Pro velký VS používáme normální rozdělení.
•
Jednostranný interval spolehlivosti: Při výpočtu jednostranných intervalů se počítá s jinou hladinou významnosti 2α. Jednostranný interval se dá stejně jak dvoustranný interval spolehlivosti počítat s průměrem, rozptylem, nebo s relativní četností. o Levostranný interval spolehlivosti: P (*̅ - ∆ < µ) = 1 - α o Pravostranný interval spolehlivosti: P (µ < *̅ + ∆) = 1 - α
Přípustnou chybu odhadu vyjádříme několika způsoby v závislosti na tom zda: o Je nám rozptyl základního souboru σ2 znám, či pouze odhad s2, o Se jedná o výběr s opakováním nebo bez opakování, o Jde o dvoustranný nebo jednostranný interval spolehlivosti
Otázka č. 14 – Studijní materiál 6 Statistická indukce: Vzhledem k tomu že základní soubor většinou není k dispozici, usuzujeme výsledné hodnoty prostřednictvím výběrového souboru. Proces, při kterém odhadujeme parametry základního souboru, na základě výběrových dat, se nazývá statistická indukce. Statistická indukce se provádí buď na základě teorie odhadu, nebo na základě testování statistických hypotéz. Teorie odhadu: Jejím úkolem je určení neznámých parametrů na základě výběrových dat (princip zevšeobecnění). Typ rozdělení většinou předpokládáme a odhadujeme právě parametry rozdělení (průměr, rozptyl, směrodatnou odchylku). Máme dva druhy odhadů a to buď bodový, nebo intervalový. Bodový odhad: Neznámý parametr (průměr (µ), rozptyl (σ2), nebo relativní četnost (fi)) základního souboru odhadujeme pomocí vypočtení jedné hodnoty (průměru (µ=*̅ , relativní četnosti, nebo rozptylu (σ2= ,& ∗ )) z výběrového souboru. .) • Vlastnosti: Nestrannost, konzistence (čím větší rozsah tím lépe), vydatnost, postačující (VS musí poskytovat všechny informace, které jsou obsaženy v ZS), rezistence (odolnost vůči extrémním hodnotám) • Nevýhoda: U bodového odhadu se můžeme dopustit chyby, tato chyba však u bodového odhadu nelze určit. Intervalový odhad: Neznámý parametr základního souboru odhadujeme pomocí intervalu spolehlivosti (dolní a horní meze spolehlivosti), ve kterém se parametr základního souboru nachází s určitou pravděpodobností, neboli spolehlivostí odhadu P = 1 - α (α je hladina významnosti). Spolehlivost odhadu je vlastně pravděpodobnost, že neznámý parametr bude ležet ve vymezeném intervalu. Přesnost odhadu se posuzuje podle šíře intervalu. S rostoucí šířkou intervalu klesá přesnost odhadu. Intervalový odhad se dá stejně jako bodový odhad určit z průměru, rozptylu, nebo relativní četnosti. Výpočet jednotlivých mezí intervalu pak závisí na vzorečcích a na tom jestli se jedná o výběr s vracením nebo bez vracení. Přesnost odhadu udává maximální chybu delta (∆), které se můžeme při daném odhadu s danou spolehlivostí dopustit. Vzorec pro výpočet přípustné chyby lze použít ke stanovení šířky intervalu spolehlivosti, ke stanovení nutného rozsahu výběrového souboru, nebo ke stanovení koeficientu spolehlivosti odhadů. Při výpočet intervalu stability je nutné uvažovat velikost výběrového souboru (n < 100 malý VS → speciální tabulka, n > 100 velký VS → normální rozdělení). Nevýhodou intervalových odhadů je oproti bodovým odhadům jejich - 129 -
Otázka č. 14 – Studijní materiál 7 • •
•
intervalu spolehlivosti, interval: oboustranný/jednostranný, s opakováním/bez opakování příklad: intervalový odhad průměru ZS, Intervalový odhad rozptylu ZS, Intervalový odhad relativní četnosti Bodový odhad: jedno konkrétní číslo, které vybereme Teorie odhadu: umožňuje odhadnout neznámé parametry ZS na základě výběrových dat (průměr, rozptyl, relativní četnost, směrodatná odchylka). Hodnoty parametrů nelze stanovit nikdy přesně, jsou to pouze přibližné hodnoty. Intervalový odhad: vymezení z VS, aby nám nahradilo ZS Příklad: bodový odhad průměru ZS, bodový odhad rozptylu ZS
- 130 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 15. Testování statistických hypotéz. Přehled parametrických a neparametrických testů. Použití testů při analýze ekonomických jevů. Otázka č. 15 – Studijní materiál 1 Testování statistických hypotéz je usuzování z jednotlivostí na celek (z VS na ZS) neboli statistická indukce. Nejprve vyslovím hypotézu (domněnka, předpoklad) a pak ověřuji, zda je platná či nikoliv. Testování má svá jasná pravidla a kroky, které je nutno dodržet. Provádíme ho na základě náhodného výběru. Postup testování 0. výběr vhodného testu 1. formulace nulové hypotézy (většinou volím takovou, kterou chci popřít) 2. formulace alternativní hypotézy (vyvrací nulovou hypotézu) 3. volba hladiny významnosti α (pravděpodobnost chyby 1.druhu=>zamítneme nulovou hypotézu, která platí/nezamítneme-li ji ačkoli neplatí=chyba 2.druhu=>značíme beta=síla testu) 4. určení testového kritéria 5. určení kritické hodnoty (najdu v tabulkách) 6. vymezení kritického oboru porovnáváním testovacího kritéria s kritickou hodnotou 7. závěr – interpretace výsledku • Testy parametrické – slouží k ověřování hypotéz, které se týkají hodnot parametrů, jsou spolehlivé, vyžadují znalost ZS a hodnoty parametrů (průměr, rozptyl, četnost, rozsah), jsou založeny na znalosti určitých vlastností Jednovýběrové testy: test o průměru normálního rozdělení η0 (chci prokázat očekávaný průměr)předpokládáme, že máme k dispozici náhodný výběr o rozsahu n, který pochází ze ZS s normálním rozdělením, jednovýběrový t-test test o rozptylu normálního rozdělení ZS = σ2 (k posouzení přesnosti), porovnáváme významnost rozdílu mezi předpokládanou směrodatnou odchylkou a výběrovou směrodatnou odchylkou. test o hodnotě relativní četnosti F0 - test o pravděpodobnosti výskytu určitého jevu, výsledky jsou nevěryhodné, použití pro kvalitativní znaky Dvouvýběrové testy: máme k dispozici 2 VS (jsou nejpoužívanější) -porovnáváme 2 ZS: např. spotřeba benzínu u 2 různých značek, muži a ženy a jejich schopnosti test o rozdílu 2 výběrových rozptylů ( F-test) - testovací kritérium F = s12 / s22 - podíl nestranných odhadů rozptylů, vetší číslo rozptylů dáme vždy do čitatele, jestliže je F > Fα…..zamítáme H0, předpoklad nezávislosti 2 souboborů t test o rozdílu 2 výběrových průměrů - řídí se rozdělení normálním a jestliže /u/ > uα tak zamítáme nulovou hypotézu (2 nezávislé výběrové soubory: F-test, pak T-test, 2 závislé výběrové soubory: párový T-test) test o rozdílu 2 relativních četností zajímá nás srovnání 2ZS z hlediska podílu (%), u nichž se daný zunak objevil párový t-test: předpoklad závislosti souborů (každý prvek jednoho souboru tvoří pár s prvkem druhého-např.zkoumám-li vývoj v čase) o rozsahu n,m - 131 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. • Testy neparametrické – nevyžadují splnění žádných specifických předpokladů o rozdělení ZS, vyžaduje se spojitost statistických znaků, místo původních hodnot pracují s pořadovými číslyseřazenými dle velikosti-to eliminuje negativní vliv odlehlých hodnot, jsou jednoduché (menší síla testu a menší schopnost zamítnou nesprávnou H0), použitelnost pro testování znaků kvantitativních i kvalitativních, rychlost a jednoduchost výpočtu - testy shody rozdělení – testujeme, jakým typem rozdělení se řídí náhodná veličina χ2 test dobré shody - dvouvýběrový Wilcoxonův test – (neparametrická analagie dvouvýběrového t-testu, slouží k testu hypotézy, že 2 nezávislé výběry pocházení ze stejného ZS oproti alternativě, že se významně liší svou polohou) např. mzda ve 2 různých krajích - Testy extrémních odchylek – Dixonův test - Testy náhodnosti – (náhodné uspořádání analyzovaného výběru, popíšeme test založený na bodech zvratu) podrobnější vyhodnocení: Kramerova metoda, Scheffiho metoda
Otázka č. 15 – Studijní materiál 2 Testování statistických hypotéz vztah mezi ZS a VS (zobecňování z VS do ZS) statistické hypotézy se týkají určitých předpokladů o parametrech či rozdělení zkoumaného souboru pracujeme s nevyčerpávajícím testování (vyčerpávající – příliš rozsáhlé, drahé) Hypotézy se týkají: rozdílů dvou nebo více charakteristik stejného druhu (průměru, rozptylu…) typu rozdělení extrémních hodnot souborů Statistické hypotézy: týkají se parametrů a rozdělení základního souboru, z kterého byl pořízen výběrový soubor 1. nulová hypotéza = Ho, 2. alternativní hypotéza = A – tvrdí opak nulové volbou alternativní hypotézy je určen způsob testování: dvoustranná hypotéza – dvoustranný test jednostranná hypotéza – jednostranný test Při testování se můžeme dopustit určitých chyb úsudek o Ho Ho- pravdivé zamítáme chyba I. druhu α přijímáme správní rozhodnutí 1 - α -
Ho- nepravdivé správné rozhodnutí 1- β chyba II. druhu β
je snaha, aby chyba byla co nejmenší když snižujeme pravděpodobnost jedné chyby, zvyšujeme pravděpodobnost chyby druhé. schopnost zamítnutí nepravdivé hypotézy – tzv. SÍLA TESTU - 132 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Obecný postup při testování statistických hypotéz: 1) vybereme vhodný standardní test 2) formulace Ho: 3) formulace A: 4) volba hladiny významnosti tα 5) vypočítáme testovací kriterium t (z výběrových hodnot) – řídí se zákonem rozdělení 6) vyhledáme v tabulkách kritickou hodnotu tα 7) formulujeme závěr a provedeme interpretaci výsledků Dělení hypotéz: parametrické – týkají se skutečně parametrů a typů rozdělení neparametrické- netýkají se parametrů a typů rozdělení Dělení testů: parametrické x neparametrické Parametrické testy: a) jednovýběrové- k dispozici máme 1 VS b) dvouvýběrové – k dispozici máme 2 VS c) vícevýběrové – k dispozici máme více než 2 VS Jednovýběrové testy: test o hodnotě parametrů předpokládáme, že máme k dispozici náhodný výběr o rozsahu n, který pochází ze ZS s normálním rozdělením test o hodnotě rozptylu ZS = σ2 při použití tohoto testu předpokládáme, že je proveden výběr ze ZS s normálním rozdělením tento test je na splnění této podmínky velmi citlivý a její porušení lze tolerovat pouze v případě velmi rozsáhlých VS (několik stovek jednotek) test o hodnotě relativní četnosti test o pravděpodobnosti výskytu určitého jevu výsledky jsou nevěryhodné -
Dvouvýběrové testy: máme k dispozici 2 VS (jsou nejpouživanější) test o rozdílu 2 výběrových rozptylů ( F-test) testovací kritérium F = s12 / s22 - podíl nestranných odhadů rozptylů vetší číslo rozptylů dáme vždy do čitatele jestliže je F > Fα…..zamítáme H0 t test o rozdílu 2 výběrových průměrů předpokládáme, že máme k dispozici 2 nezávislé náhodné VS řídí se rozdělení normálním a jestliže /u/ > uα tak zamítáme nulovou hypotézu test o rozdílu 2 relativních četností máme k dispozici 2 nezávislé náhodné VS, které pocházejí ze ZS s normálním rozdělením testujeme nulovou hypotézu, za předpokladu, že n1,n2 nejsou > 100 - 133 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Vícevýběrové testy: máme k dispozici více než 2 VS test o shodě více než dvou rozptylů máme k dispozici k nezávislých náhodných VS, přičemž k >2 testujeme Ho: není rozdílu mezi rozptyly k souborů x alternativní hypotéza: alespoň 2 z rozptylů jsou různé pro ověřování hypotézy používáme více testů: BARTLETŮV TEST – nejpouživanější test se řídí χ2 rozdělením, najdeme si hodnotu proχ2α(k-1) a jestliže B > χ2α(k-1) – zamítáme tuto hypotézu Bartletův test patří mezi silné testy – má dobrou schopnost zamítání nesprávné nulové hypotézy Ho, ale je velmi citlivý na dodržení požadavků normality COCHRANŮV TEST řídí se normálním rozdělením G > Gα (k, n-1)- zamítáme Ho HARTLEYŮV TEST- podmínka: rozsahy jsou stejné testovací kritérium se řídí F rozdělením, najdeme v tabulkách hodnotu Fα pokud F > Fα (k, n-1) – zamítáme nulovou hypotézu test o shodě více než 2 relativních četností máme k dispozici více než 2 VS, které pocházejí ze ZS s alternativním rozdělením testovací kritérium se řídí χ2 rozdělením jestliže G > χ2α(k-1)- zamítáme Ho analýza rozptylu (test o shodě více než 2 průměrů) zobecnění t testu na více než 2 VS spočívá v rozkladu výběrového rozptylu na několik částí, které jsou příslušné jednotlivým příslušným zdrojům variability slouží k testování průměrů AR zkoumá vliv 1 či více faktorů na výsledný znak kvantitativní faktorem je znak kvalitativní nebo kvantitativní podle počtu faktorů rozlišujeme: AR jednoduchého třídění- vliv jednoho faktoru na znak kvantitativní AR dvojného třídění – vliv dvou faktorů AR trojného třídění s růstem počtu faktorů je metoda složitější, pak používáme Exel, kde se AR nazývá ANOVA je-li úroveň faktoru pevně fixována jedná se o model AR s pevnými efekty pokud jsou úrovně faktoru náhodně vybrány z velkého počtu možných úrovní, jedná se o model s náhodnými efekty v praxi se setkáváme s kombinací těchto modelů- modely SMÍŠENÉ AR při jednoduchém třídění máme výsledky měření určitého pokusu roztříděné podle úrovní jednoho faktoru A máme k dispozici m VS o rozsahu n, které pocházejí ze ZS s normálním rozdělením A nulová hypotéza v AR jednoduchého třídění Ho: všechny střední hodnoty jsou stejné alternativní hypotéza: existuje alespoň 1 průměr, který se významně liší od ostatních průměrů
- 134 -
-
-
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. testování nulové hypotézy je založeno na rozkladu celkové variability S (reprezentované součtem čtverců odchylek) na 2 aditivní složky a to: S1 ( součet čtverců odchylek mezi třídami) a Sr (součet čtverců odchylek reziduálních) významnost rozdílů variability mezi třídami a uvnitř tříd, se posuzuje pomocí F-testu porovnáme s Fα ((m-1),m(n-1)) a pokud F > Fα- zamítáme Ho Podrobnější vyhodnocení výsledku AR: DUNCANOVA metoda uspořádávání průměrů – pouze pro modely vyvážené postup: 1) uspořádáme průměry z VS podle velkosti a to sestupně; 2) jejich variabilitu odhadneme pomocí směrodatné odchylky výběrových průměrů je-li vypočtená diference mezi průměry větší než kritická hodnota diferencí příslušného řádku, pak je rozdíl mezi těmito průměry statisticky významný na hladině významnosti α T- metoda Scheffiho metoda
Neparametrické testy jsou výpočtově založeny z pravidla na určování pořadových čísel nevýhoda: mají malou sílu (menší schopnost zamítnout nesprávnou nulovou hypotézu) výhoda: 1) použitelnost pro testování znaků kvantitativních i kvalitativních 2) rychlost a jednoduchost výpočtu rozdělení: testy shody rozdělení – testujeme jakým typem rozdělení se řídí náhodná veličina χ2 test dobré shody Kolmogorov-Smirnovův test Smirnovův test pro 2 nezávislé výběry Wilcoxon-Whiteův test – neparametrická obdoba T-testu pro 2 nezávislé soubory + Znaménkový test Kruskal – Wallisův test – neparametrická obdoba AR + Neményiho metoda podrobnějšího hodnocení AR Testy extrémních odchylek – Dixonův test Testy náhodnosti – založeny na určování bodů zvratu podrobnější vyhodnocení: a) Kramerova metoda b) Scheffiho metoda
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. nejběžnější statistické hypotézy: hypotézy o rozdílech dvou charakteristik stejného druhu hypotézy o shodě výběrové a základní charakteristiky hypotézy o tvaru rozdělení zkoumaného souboru hypotézy o extrémních hodnotách souboru testování = proces, při kterém ověřujeme, zda předem vyslovená hypotéza platí pod vlivem provedených pozorování Hypotézy a) parametrické = takové, které se týkají parametrů a typů rozdělení základního souboru b) neparametrické – např. extrémní hodnoty souborů ⇒ podle toho se dělí testy na parametrické a neparametrické Předem vyslovená hypotéza Ho = nulová hypotéza --- a proti ní stojí hypotéza alternativní A (je opakem nulové hypotézy, je postave tak, aby celé textování mělo smysl) volbou alternativní hypotézy je určen způsob testování: Dvoustranná alternativní hypotéza – dvoustranný test Jednostranná alternativní hypotéza – jednostranný test použití testu (jednostranný; dvoustranný) – je dáno formulací problémů celé testování spočívá v rozhodování mezi H0 a A → můžeme se dopustit chyby Úsudek o Ho / Ho Ho Nezamítáme Ho Zamítáme
- 135 -
Nepravdivá
správné rozhodnutí 1-α chyba I. Druhu její pravděpodobnost α
chyba II. druhu její pravděpodobnost β správné rozhodnutí 1-β
-
standardně: volíme pravděpodobnost chyby I. druhu: α = 0,05 nebo α = 0,01 potom učiníme správné rozhodnutí s pravděpodobností 95 % nebo 99 % ⇒ máme úměrnou výši rizika pokud volíme α = 0,05 nebo α = 0,01 – pak je β pro nás úměrná
-
význam pro nás má hodnota 1 - β = síla testu = schopnost testu zamítnout nepravdivou nulovou hypotézu
-
celé testování je založeno na tom, že celý prostor S si rozdělíme na 2 části a to: obor přijetí hodnot P a kritický obor K; a jestliže výsledek padne do P, pak přijímáme nulovou hypotézu, a jestliže výsledek padne do K, pak nulovou hypotézu zamítáme na které straně leží K, záleží pak na typu testu (pravostranný, levostranný) v praktických způsobech testování to řešíme jednodušším způsobem – postupujeme tak, že z hodnot výběru si vypočteme tzv. testovací kritérium t a
Otázka č. 15 – Studijní materiál 3 Testování statistických hypotéz testování patří do teorie odhadu je postaveno na vztahu základního a výběrového souboru výběrový soubor nám má poskytnout informace o celém základním souboru pracujeme s výběrovým souborem hovoříme o tzv. statistických hypotézách: = určitý předpoklad o parametrech či tvaru rozdělení zkoumaného znaku
Pravdivá
-
- 136 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. každé testovací kritérium se řídí nějakým zákonem rozdělením – v tabulkách si najdeme k němu kritickou hodnotu tα a nyní tyto hodnoty porovnáváme. -
Υ
Υ Υ Υ
Υ
Test o hodnotě rozptylu základního souboru Tam, kde testujeme přesnost, spolehlivost nějaké soustavy, strojů V oblasti měření jakosti produktů Test o shodě relativní četnosti tento test má široké praktické uplatnění při řešení rozdílu relativních četností (tj. pravděpodobností výskytu)
2. Dvouvýběrové testy dochází zde k testování rozdílu mezi dvěma výběrovými soubory
Υ
-
Υ
Test o významnosti rozdílu x a předpokládaného průměru základního souboru ηo Předpokládáme, že máme k dispozici výběrový soubor o rozsahu n, který pochází ze základního souboru s normálním rozdělením:
Υ
F – test = Test o shodě rozptylů ve 2 souborech Máme k dispozici dva nezávislé náhodné výběrové soubory 1. soubor má rozsah m, 2. n t – test = test o shodě průměrů dvou souborů předpoklad: 2 nezávislé náhodné výběrové soubory o rozsazích m a n, které pocházejí ze základních souborů s normálním rozdělením pokud máme 2 závislé výběrové soubory: pozorování bylo provedeno na těch samých objektech získané hodnoty pak vytváří párové hodnoty Test o rozdílu dvou relativních četností Jedná se o test o rozdílu pravděpodobností výskytu určitého jevu Tento test lze provést pouze za předpokladu, že n1 a n2 jsou > 100
3. Vícevýběrové testy více než 2 nezávislé výběrové soubory lze řešit i vzájemnou kombinací t-testů – (jednotlivých); je to však zdlouhavé a vytržením jednotlivých dvojic může dojít k nepřesnostem - 137 -
Testy o rozdílu více než 2 výběrových rozptylů 1) Bartlerův test 2) Cochranův test 3) Hartleyův test
1. Jednovýběrové testy máme k dispozici jeden výběrový soubor
Υ
-
Υ
-
Test o shodě více než 2 relativních četností Test o rozdílu více než 2 výběrových průměrů = Analýza rozptylu (ANOVA) Je to zobecnění t-testu na více než 2 výběrové soubory Slouží k testování průměrů Umožnila hodnotit zemědělské pokusy Poměrně rychle se dostala k nám – snad první v Evropě Analýza rozptylu – polní pokusy – speciální modely – zakládání pokusů: • metoda znáhodněných bloků • metoda latinského čtverce • metoda latinského obdélníku
analýza rozptylu je statistická metoda – vypracována pro účely zemědělského pokusnictví Používá se tehdy, zkoumá-li se vliv jednoho či více faktorů na výsledný znak kvantitativní
Podle počtu faktorů lze rozdělit metodu analýzy rozptylu na: Analýza rozptylu jednoduchého třídění (vliv jednoho faktoru na znak kvantitativní ) Analýza rozptylu dvojného třídění ( vliv dvou faktorů na znak kvantitativní ) model analýzy rozptylu s pevnými efekty (např. dávky hnojeni, způsob ošetření) model s náhodnými efekty (např. při výběru studentů s různými názory na úroveň stravování) vyvážený model = počet opakování je stejný v každé třídě n Metody podrobnějšího vyhodnocení analýzy rozptylu Duncanova metoda uspořádání průměrů Kramerova metoda (nevyvážený model) Scheffeho metoda (S – metoda, univerzální) Tukeyův test (vyvážený model) Neparametrické testy nevyžadují znalost typu rozdělení, ale následkem toho je pokles síly testu (= schopnost testu zamítnout nesprávné nulové hypotézy)
- 138 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II.
Υ
Υ
Testy dobré shody Nejsou klasickými neparametrickými testy, ale řadíme je sem ⇒ nevyžadují znalost typu rozdělení, ale použití vyžaduje znalost parametrů rozdělení Kolmogorov – Smirnovův test Klasické neparametrické testy Neznáme typ rozdělení a parametry Dochází ke ztrátě síly testu Jsou většinou konstruovány jako testy pořadové – tzn. že původní hodnoty nahrazujeme pořadovými čísly
A) Máme k dispozici dva nezávislé náhodné výběrové soubory o rozsazích m a n
Υ
Wilcoxon – Whiteův test = T-test – test o rozdílu dvou výběrových průměrů
B) Máme k dispozici dva závislé náhodné výběrové soubory Používáme párový t-test ⇒ k tomuto účelu máme u neparametrických testů dva druhy testů, kde testujeme hypotézu Ho: η1 = η2 :
Υ Υ Υ Υ
Znaménkový test Wilcoxonův test Kruskal – Wallisův test = jednoduchá analýza rozptylu Friedmanův test
Testy extrémních odchylek
Υ
Dixonův test Otázka č. 15 – Studijní materiál 4
Testování statistických hypotéz: testování patří do teorie odhadu, je postaveno na vztahu základního a výběrového souboru hovoříme o tzv. statistických hypotézách = určité tvrzení (předpoklad) o parametrech či tvaru rozdělení zkoumaného znaku testování = proces, při kterém na základě náhodného výběru ověřujeme, zda předem vyslovená hypotéza platí pod vlivem provedených pozorování Hypotézy: c)
parametrické = takové, které se týkají parametrů a typů rozdělení základního souboru d) neparametrické = tvrzení o zákonu rozdělení základního souboru ⇒ podle toho se dělí testy na parametrické a neparametrické - 139 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Testovaná předem vyslovená hypotéza Ho = nulová hypotéza --- a proti ní stojí hypotéza alternativní A (je opakem nulové hypotézy, popírá ji,). Zamítneme li nulovou hypotézu jako nesprávnou, přijímáme hypotézu alternativní.Volbou alternativní hypotézy je určen způsob testování: o Dvoustranná alternativní hypotéza – dvoustranný test o Jednostranná alternativní hypotéza – jednostranný test (levo/pravostranný) Testování spočívá v rozhodování mezi H0 a A → můžeme se dopustit chyby Úsudek o Ho / Ho Pravdivá Nepravdivá správné rozhodnutí chyba II. druhu Ho Nezamítáme 1-α její pravděpodobnost β chyba I. Druhu správné rozhodnutí Ho Zamítáme její pravděpodobnost α 1 - β chceme minimalizovat chybu - α i β co nejmenší je tu problém v tom, že to působí do určité míry proti sobě – pokud snižujeme α, pak se zvyšuje β ⇒ musíme tedy volit takové vztahy chyb I. a II. druhu, aby to bylo pro nás co nejvýhodnější - standardně: o vynecháváme chybu II. druhu o volíme pravděpodobnost chyby I. druhu: α = 0,05 nebo α = 0,01 o potom učiníme správné rozhodnutí s pravděpodobností 95 % nebo 99 % ⇒ máme úměrnou výši rizika - význam pro nás má hodnota 1 - β = síla testu = schopnost testu zamítnout nepravdivou nulovou hypotézu - v praktických způsobech testování postupujeme tak, že z hodnot výběru si vypočteme tzv. testovací kritérium t a každé testovací kritérium se řídí nějakým zákonem rozdělením – v tabulkách si najdeme k němu kritickou hodnotu tα a nyní tyto hodnoty porovnáváme: -
o t > tα o t < tα o t = tα
zamítáme nulovou hypotézu ve prospěch hypotézy alternativní nulovou hypotézu nelze zamítnout vyskytuje se jen v málo případech, nelze učinit žádné rozhodnutí
Přehled parametrických testů: - používáme obecný postup při testování hypotéz: o vybereme vhodný standardní test o volba nulové hypotézy o formulace alternativní hypotézy o volba hladiny významnosti α o výpočet testovacího kritéria z hodnot výběru o vyhledáme v tabulkách kritických hodnot příslušnou kritickou hodnotu o porovnáme hodnotu testovacího kritéria s kritickou hodnotou ( t X tα ) o formulace závěru – zamítáme či přijímáme nulovou hypotézu – snažíme se o interpretaci toho výsledku - 140 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 2. Dvouvýběrové testy - testování rozdílu mezi dvěma výběrovými soubory A) F – test = Test o shodě rozptylů ve 2 souborech Předpoklady: máme k dispozici dva nezávislé náhodné výběrové soubory, 1. soubor má rozsah m, 2. soubor má rozsah n, tyto výběrové soubory byly pořízeny ze základních souborů s normálním rozdělením Ho: δ12 = δ22 Testovací kritérium (řídí se F-rozdělením): s12 F = ---------s22 Podíl odhadů obou rozptylů (odhady základních souborů) – přičemž větší hodnota s2 se dává do čitatele. V tabulkách najdeme kritickou hodnotu Fα[ ( m – 1) ; ( n – 1) ] a porovnáme ji s testovacím kritériem a jestliže: F > Fα[ ( m – 1) ; ( n – 1) ] pak zamítáme Ho ve prospěch pravostranné alternativy A: δ12 > δ22 (u tohoto testu se používá výhradně pravostranná alternativa) B) t – test = test o shodě průměrů dvou souborů Předpoklad: 2 nezávislé náhodné výběrové soubory o rozsazích m a n, které pocházejí ze základních souborů s normálním rozdělením Ho: η1 = η2 a) známe rozptyly základních souborů: testovací kritérium se řídí rozdělením normálním a porovnáváme ho s kritickou hodnotou a jestliže: b) neznáme rozptyly základních souborů před provedením testu musíme zjistit, zda jsou rozptyly základních souborů shodné či různé a to ověřujeme pomocí F – testu δ12 = δ22 pak se testovací kritérium řídí t – rozdělením (tα[ m + n - 2]) 2 2 δ1 ≠ δ2 pak použijeme testovací kritérium řídí t – rozdělením (tα[ m + n 2] , ale tuto tabulkovou hodnotu musíme vzhledem k různosti rozptylů přepočítat): Beerens – Fischerův problém – praxi se často podceňuje a nepoužívá se F – test před ttestem a můžeme dojít k opačným výsledkům → riziko špatného rozhodnutí C) Test o rozdílu dvou relativních četností Předpoklad: máme dva výběrové soubory o rozsazích n1 a n2 – pocházejí ze základních souborů s alternativním rozdělením Ho: F1 = F2
- 142 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Testovací kritérium (lze použít pouze je-li n > 100 a pak se řídí normálním rozdělením): m1/ n1 + m2/ n2 u = --------------------------------------------------1 1 p * ( 1 - p ) * --------- + -------n1 n2 m1 + m2 - kde: p = --------------n1 + n2 Jestliže u > uα pak Ho zamítáme ve prospěch alternativní hypotézy dvoustranné A: F1 ≠ F2 4.
Vícevýběrové testy - testujeme více než 2 nezávislé výběrové soubory
A) Testy o rozdílu více než 2 výběrových rozptylů Předpoklady: k > 2 nezávislých náhodných výběrových souborů, které pocházejí ze základních souborů s normálním rozdělením Ho: δ12 = δ22 = δ32 = . . . . . . δk2 1) Bartlerův test Testovací kritérium B se řídí χ2 – rozdělením, vypočtené kritérium porovnáme s tabulkovou hodnotou χα2 (k – 1)
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. C)Test o rozdílu více než 2 výběrových průměrů = Analýza rozptylu (ANOVA) - zobecnění t-testu na více než 2 výběrové soubory - spočívá v rozkladu výběrového rozptylu na několik částí, které jsou příslušné jednotlivým uvažovaným zdrojům variability - slouží k testování průměrů, nejpoužívanější test - používá, zkoumáme-li se vliv jednoho či více faktorů na výsledný znak kvantitativní Analýza rozptylu: 1. jednoduchého třídění 2. dvojného třídění podle kolika vstupních faktorů 3. trojného třídění jsou údaje tříděny 4. čtverného třídění Předpoklad: normalita rozdělení základních souborů, shoda rozptylů – ověřujeme např. Bartletovým testem, statistická nezávislost náhodných chyb eij Ho: η1 = η2 = η3 = . . . . = ηm A) Analýza rozptylu jednoduchého třídění – vyvážený model (počet opakování v každé třídě je n) Ho: η1 = η2 = . . . . . = ηm A: existuje alespoň jeden průměr, který se statisticky významně liší od ostatních průměrů, existují alespoň dva průměry, které se nerovnají Testovací kritérium řídí se F – rozdělením a má tvar s12 F = -----------s22 s12 = rozptyl mezi třídami s22 = rozptyl reziduální (uvnitř tříd)
2) Cochranův test Ppoužívá se jenom v případě, že máme stejné rozsahy výběrových souborů Testovací kritérium G, porovnáme ho s tabulkovou hodnotou Gα( k, n – 1 ) 3) Hartleyův test Používá se v případě různého i stejného rozsahu výběrových souborů Testovací kritérium řídí se F – rozdělením, porovnáme s tab. hodnotou Fmax > Fα( k; n – 1) Všechny tyto testy slouží k ověřování předpokladů analýzy rozptylů (předpokladem analýzy rozptylů je shoda rozptylů, kterou musíme ověřit) B) Test o shodě více než 2 relativních četností Předpoklad: máme k > 2 nezávislé výběrové soubory, které pocházejí ze základních souborů s alternativním rozdělením Ho: F1 = F2 = F3 = . . . . . . . = Fk Testovací kritérium řídí se χ2 – rozdělením, s tabulkovou hodnotou a jestliže G > χα2 ( k – 1 ): 1 ( mi – ni p )2 G = -----------------------------------------p ( 1 – p) ni
- 143 -
Kritická hodnota: Fα[ ( m – 1 ) ;
m(n–1)]
Zamítáme-li Ho na hladině významnosti α ⇒ existuje alespoň jeden průměr, který statisticky významně vybočuje od všech ostatních průměrů ⇒ musíme provést podrobnější vyhodnocení analýzy rozptylu – musíme najít ty průměry, které se liší. Metody podrobnějšího vyhodnocení: Duncanova metoda uspořádání průměrů Kramerova metoda (nevyvážený model Scheffeho metoda (S – metoda, univerzální) Tukeyův test (vyvážený model) B) Analýza rozptylu jednoduchého třídění – nevyvážený model - výběrové soubory mají různý počet opakování
- 144 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. C) Analýza rozptylu dvojného třídění - analyzuje vliv současného působení dvou faktorů: a) analýza rozptylu dvojného třídění s jedním opakováním v každé podtřídě - pro každou kombinaci faktorů Ai Bj máme k dispozici pouze jedno pozorování - formulujeme dvě nulové a dvě alternativní hypotézy: b) analýza rozptylu dvojného třídění s více opakováními v každé podtřídě - dochází k současnému působení všech faktorů (interakci) - formulujeme zde celkem tři nulové hypotézy:
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Metody podrobnějšího vyhodnocení: a) Nemenyho metoda b) Dunnova metoda E) F) G)
Friedmanův test Testy extrémních odchylek Dixonův test Otázka č. 15 – Studijní materiál 5
D) Vícefaktorové modely analýzy rozptylu - při vyhodnocování pokusů zpravidla pracujeme s 1 – 4 fakotry na 2 – 6 úrovních - řeší se to pomocí výpočetní techniky Přehled neparametrických testů: - používáme je v případě, kdy neznáme typ rozdělení 1. Testy dobré shody - nejsou klasickými neparametrickými testy, ale řadíme je sem ⇒ nevyžadují znalost typu rozdělení, ale použití vyžaduje znalost parametrů rozdělení - používají se k ověřování typu rozdělení A) χ2 – test dobré shody - hledáme rozdělení, které by odpovídalo náhodnému výběru a sloužilo by nám jako teoretický model - Ho tvrdí, že základní soubor má určité rozdělení Testovací kritérium řídí se χ2 - rozdělením a porovnáváme ho s hodnotou χα2 (k – c – 1) B) Kolmogorov – Smirnovův test - dáváme mu přednost v případě výběrů malého rozsahu - Ho: říká, že existuje shoda mezi empirickým a teoretickým rozdělením 2. Klasické neparametrické testy - neznáme typ rozdělení ani parametry - jsou většinou konstruovány jako testy pořadové – tzn. že původní hodnoty nahrazujeme pořadovými čísly Máme-li k dispozici dva nezávislé náhodné výběrové soubory o rozsazích m a n A) Wilcoxon – Whiteův test = T-test – test o rozdílu dvou výběrových průměrů 1. Ho: η1 = η2 není rozdílu v průměrech základních souborů Máme-li k dispozici dva závislé náhodné výběrové soubory Ho: η1 = η2 : B) Znaménkový test C) Wilcoxonův test D) Kruskal – Wallisův test = jednoduchá analýza rozptylu - 145 -
HYPOTÉZA (domněnka) • Neprokázané tvrzení, jehož význam by měl být ověřen VĚDECKÁ HYPOTÉZA • Vědecky přijatelný předpoklad umožňující vědecké vysvětlení jevů (jejich podtřídu tvoří statistické hypotézy) TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ • Vztah mezi ZS a VS (zobecňování z VS do ZS) • Statistické hypotézy se týkají určitých předpokladů o parametrech či rozdělení zkoumaného souboru • Pracujeme s nevyčerpávajícím testování (vyčerpávající – příliš rozsáhlé, drahé) • Je postup, při kterém se ověřuje zda předem stanovená hypotéza je platná či neplatná na základě výběrového souboru Statistický TEST: nástroj testování ÚKOL STATISTICKÝCH HYPOTÉZ • Konstrukce adekvátních matematických metod, pomocí nichž posoudíme platnost či neplatnost statistických hypotézy Dvě ZÁKLADNÍ SKUPINY statistických hypotéz 1. Parametrické hypotézy o Týkají se jednoho nebo několika parametrů náhodné veličiny o K ověřování hypotéz slouží parametrické testy – ty jsou založeny na určitých předpokladech o charakteru rozdělení studovaných náhodných veličin (např. t-test předpokládá normální rozdělení) o Je nutné znát parametry rozdělení př. Průměry a rozptyly 2.
Neparametrické hypotézy o Tvrzení o zákonu rozdělení základního souboru (neznáme parametry) o K ověření – neparametrické testy – požaduje se jen, aby rozdělení zkoumaných veličin bylo spojitého typu o Není nutné znát parametry rozdělení, mají menší důraz
- 146 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. HYPOTÉZY SE TÝKAJÍ • Rozdílů dvou nebo více charakteristik stejného druhu (průměru, rozptylu…) • Typu rozdělení • Extrémních hodnot souborů STATISTICKÉ HYPOTÉZY • Týkají se parametrů a rozdělení základního souboru, z kterého byl pořízen výběrový soubor • Nulová hypotéza = Ho, 2. alternativní hypotéza = A – tvrdí opak nulové (vyvrací nulovou hypotézu) • Volbou alternativní hypotézy je určen způsob testování: Dvoustranná hypotéza – dvoustranný test Jednostranná hypotéza – jednostranný test Při testování se můžeme dopustit určitých chyb – protože hypotézy provádíme na základě náhodného výběru Úsudek o Ho Ho - pravdivé Ho - nepravdivé Zamítáme správné rozhodnutí 1- β chyba I. druhu α Přijímáme správní rozhodnutí 1 - α chyba II. druhu β • Je snaha, aby chyba byla co nejmenší • Když snižujeme pravděpodobnost jedné chyby, zvyšujeme pravděpodobnost chyby druhé. • Schopnost zamítnutí nepravdivé hypotézy – tzv. SÍLA TESTU CHYBA I. druhu • Nulová hypotéza platí, ale my ji zamítneme • Maximální přípustná pravděpodobnost chyby I. druhu (hladina významnosti) se volí ještě před pořízením výběrového souboru) CHYBA II. druhu • Nulová hypotéza neplatí, ale my ji nezamítneme (nepoznáme, že neplatí) • Síla testu závisí na zvolené testové metodě (zejména na skutečném rozdělení dat) OBECNÝ POSTUP PŘI TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ 1. Vybereme vhodný standardní test → 2. Formulace Ho: → 3. Formulace A: → 4. Volba hladiny významnosti tα → 5. Vypočítáme testovací kriterium t (z výběrových hodnot) – řídí se zákonem rozdělení → 6. Vyhledáme v tabulkách kritickou hodnotu tα → 7. Formulujeme závěr a provedeme interpretaci výsledků ZÁKLADNÍ PRINCIP TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ • Padne-li vypočtená hodnota testovacího kritéria T do kritického oboru K, zamítáme nulovou hypotézu Ho a přijímáme alternativní A - 147 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. DĚLENÍ HYPOTÉZ 1. Parametrické (týkají se skutečně parametrů a typů rozdělení) 2. Neparametrické (netýkají se parametrů a typů rozdělení) DĚLENÍ TESTŮ: Parametrické testy: a) Jednovýběrové b) Dvouvýběrové c) Vícevýběrové
Parametrické x Neparametrické (Jen při analýze kvantitativních znaků) k dispozici máme 1 VS k dispozici máme 2 VS k dispozici máme více než 2 VS
JEDNOVÝBĚROVÉ TESTY Rozhodujeme, zda neznámý parametr ZS je nebo není roven určité předpokládané číselné hodnotě o Test o hodnotě parametrů Předpokládáme, že máme k dispozici náhodný výběr o rozsahu n, který pochází ze ZS s normálním rozdělením o Test o hodnotě rozptylu normálního rozdělení = σ2 Při použití tohoto testu předpokládáme, že je proveden výběr ze ZS s normálním rozdělením. Tento test je na splnění této podmínky velmi citlivý a její porušení lze tolerovat pouze v případě velmi rozsáhlých VS (několik stovek jednotek) o Test o hodnotě relativní četnosti Test o pravděpodobnosti výskytu určitého jevu, výsledky jsou nevěryhodné o Test o průměru „ný“ Dvě varianty – zda známe nebo neznáme rozptyl základního souboru σ2 DVOUVÝBĚROVÉ TESTY Máme k dispozici 2 náhodné výběry rozsazích m, n , které byly odebrány ze základních souborů s normálním rozdělením o Test hypotézy o shodě dvou rozptylů ( F-test) Testovací kritérium F = s12 / s22 - podíl nestranných odhadů rozptylů Vetší číslo rozptylů dáme vždy do čitatele Jestliže je F > Fα…..zamítáme H0 o T test o rozdílů mezi dvěma průměry (T-test) předpokládáme, že máme k dispozici dva soubory: 1. NEZÁVISLÝ: Každý z nich prochází z jiného základního souboru 2. ZÁVISLÝ: Jednotky tohoto souboru pocházejí z jednoho základního souboru o Test při rozdílu průměrů dvou závislých výběrů (Párový T- test) Testuje rozdíly mezi průměry u dvou závislých souborů, které byly zjištěny na jediném výběrovém souboru jednotek pocházejících z normálního rozdělení o Test o rozdílu 2 relativních četností Máme k dispozici 2 nezávislé náhodné VS, které pocházejí ze ZS s normálním rozdělením Testujeme nulovou hypotézu, za předpokladu, že n1,n2 nejsou > 100 - 148 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. VÍCEVÝBĚROVÉ TESTY Máme k dispozici více než 2 VS 1.
Test o shodě více než dvou rozptylů Máme k dispozici k nezávislých náhodných VS, přičemž k >2 Testujeme Ho: není rozdílu mezi rozptyly k souborů x alternativní hypotéza: alespoň 2 z rozptylů jsou různé Pro ověřování hypotézy používáme více testů: a) -
2.
BARTLETŮV TEST – nejpoužívanější Test se řídí χ2 rozdělením, najdeme si hodnotu proχ2α(k-1) a jestliže B > χ2α(k1) – zamítáme tuto hypotézu Bartletův test patří mezi silné testy – má dobrou schopnost zamítání nesprávné nulové hypotézy Ho, ale je velmi citlivý na dodržení požadavků normality
b) -
COCHRANŮV TEST - řídí se normálním rozdělením G > Gα (k, n-1) - zamítáme Ho
c) -
HARTLEYŮV TEST - podmínka: rozsahy jsou stejné Testovací kritérium se řídí F rozdělením, najdeme v tabulkách hodnotu Fα Pokud F > Fα (k, n-1) – zamítáme nulovou hypotézu
Test o shodě více než 2 relativních četností Máme k dispozici více než 2 VS, které pocházejí ze ZS s alternativním rozdělením Testovací kritérium se řídí χ2 rozdělením Jestliže G > χ2α(k-1)- zamítáme Ho
ANALÝZA ROZPTYLU (test o shodě více než 2 průměrů) • Zobecnění T testu na více než 2 VS • Spočívá v rozkladu výběrového rozptylu na několik částí, které jsou příslušné jednotlivým příslušným zdrojům variability • Slouží k testování průměrů • AR zkoumá vliv 1 či více faktorů na výsledný znak kvantitativní • Faktorem je znak kvalitativní nebo kvantitativní • Podle počtu faktorů rozlišujeme: a) AR jednoduchého třídění - vliv jednoho faktoru na znak kvantitativní b) AR dvojného třídění – vliv dvou faktorů c) AR trojného třídění • • • •
S růstem počtu faktorů je metoda složitější, pak používáme Exel, kde se AR nazývá ANOVA Je-li úroveň faktoru pevně fixována - jedná se o model AR s pevnými efekty Pokud jsou úrovně faktoru náhodně vybrány z velkého počtu možných úrovní, jedná se o model s náhodnými efekty V praxi se setkáváme s kombinací těchto modelů - modely SMÍŠENÉ
- 149 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. • AR při jednoduchém třídění Máme výsledky měření určitého pokusu roztříděné podle úrovní jednoho faktoru A Máme k dispozici m VS o rozsahu n, které pocházejí ze ZS s normálním rozdělením A Nulová hypotéza v AR jednoduchého třídění Ho: všechny střední hodnoty jsou stejné Alternativní hypotéza: existuje alespoň 1 průměr, který se významně liší od ostatních průměrů Testování nulové hypotézy je založeno na rozkladu celkové variability S (reprezentované součtem čtverců odchylek) na 2 aditivní složky a to: S1 ( součet čtverců odchylek mezi třídami) a Sr (součet čtverců odchylek reziduálních) Významnost rozdílů variability mezi třídami a uvnitř tříd, se posuzuje pomocí Ftestu Porovnáme s Fα ((m-1),m(n-1)) a pokud F > Fα- zamítáme Ho • Podrobnější vyhodnocení výsledku AR: a) DUNCANOVA metoda uspořádávání průměrů – pouze pro modely vyvážené Postup: 1. Uspořádáme průměry z VS podle velkosti a to sestupně; 2. Jejich variabilitu odhadneme pomocí směrodatné odchylky výběrových průměrů je-li vypočtená diference mezi průměry větší než kritická hodnota diferencí příslušného řádku, pak je rozdíl mezi těmito průměry statisticky významný na hladině významnosti α b) T- metoda c) Scheffiho metoda NEPARAMETRICKÉ TESTY • Jsou výpočtově založeny z pravidla na určování pořadových čísel Nevýhoda: o Mají malou sílu (menší schopnost zamítnout nesprávnou nulovou hypotézu) Výhoda: o Použitelnost pro testování znaků kvantitativních i kvalitativních o Rychlost a jednoduchost výpočtu o Použitelné pro malé výběrové soubory o Nepožaduje znalost parametru rozdělení PRINCIP NEPARAMETRICKÝCH TESTŮ • Ověření platnosti H0 o Nevyjadřuje znalost základních statistických charakteristik a tvaru rozdělení o Testy kritérium se většinou určují pomocí pořadových čísel ROZDĚLENÍ 1. Testy shody rozdělení • Testujeme jakým typem rozdělení se řídí náhodná veličina a) χ2 test dobré shody b) Kolmogorov-Smirnovův test c) Kolmogorov-Smirnovův test pro 2 nezávislé výběry - 150 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Neparametrické klasické testy (pořadové) Místo s hodnotami náhodné veličiny v náhodném výběru se pracuje s pořadovými čísly těchto hodnot seřazenými dle velikosti a) Dvovýběrový test (t-test) b) Wilcoxon-Whiteův test –(párový test) neparametrická obdoba T-testu pro 2 nezávislé soubory + Znaménkový test Test pro dva nezávislé výběrové soubory (obdoba dvouvýběrového t- testu) U>Uα nezamítáme nulovou hypotézu za zvolené hladině významnosti alfa c) Znaménkový test (párový test) – test pro závislé soubory, velmi slabý test, spíše orientační d) Kruskal – Wallisův test – neparametrická obdoba AR + Neményiho metoda podrobnějšího hodnocení AR e) Testy extrémních odchylek – Dixonův test f) Testy náhodnosti – založeny na určování bodů zvratu podrobnější vyhodnocení: o Kramerova metoda o Scheffiho metoda
2. •
Otázka č. 15 – Studijní materiál 6 Testování statistických hypotéz: Jedná se o druhou oblast statistické indukce, která se dále dělí na testy parametrické a testy neparametrické. Statistická hypotéza je každé tvrzení o tvaru a charakteristikách rozdělení jednoho, či více statistických znaků. Při testování statistických hypotéz ověřujeme, zda předem vyslovená hypotéza je platná, nebo není platná na základě provedeného výběrového šetření. Existují dva druhy statistických hypotéz a to nulová hypotéza (H0) a alternativní hypotéza (H1). Nulová hypotéza tvrdí nějaké konkrétní tvrzení a alternativní hypotéza toto tvrzení vyvrací. Rozhodnutí o platnosti H0 nebo H1 zakládáme na provedení náhodného výběru. Informace o tomto výběru se soustřeďuje do testového kritéria. Testové kritérium je například T-studentovo rozdělení, normální rozdělení, nebo chí kvadrát rozdělení.
•
•
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Dvouvýběrové testy: Máme k dispozici dva výběrové soubory. F-test (test hypotézy o shodě dvou rozptylů, F-rozdělení), T-test (test hypotézy o shodě dvou průměrů, T-studentovo rozdělení), párový T-test (test v případě dvou závislých souborů, T- studentovo rozdělení) a test o relativní četnosti (test hypotézy o shodě dvou relativních četností, normální rozdělení). o Nezávislé soubory: Pokud jsou dva soubory na sobě nezávislé, dělám Ftest a potom T-test (v případech variability, kde vlastně chtějí jen rozptyl, dělám jen F-test) o Závislé soubory: Pokud jsou dva soubory na sobě závislé, dělám párový T-test. o Postup na příkladu: Sleduji účinek dvou způsobů hnojení na variabilitě květáku, s tím že mám zjistit, zda způsob hnojení ovlivňuje variabilitu hmotnosti květáku. První si určím, zda-li jsou tyto dva soubory na sobě závislé, nebo nezávislé, případně jestli jde o relativní četnost. V našem případě jde o nezávislé soubory, a tím že chtějí po nás variabilitu (rozptyl), počítáme jen F-test. V jiném případě nezávislých souborů bychom po F-testu dělali ještě T-test. Podle vzorečku spočítáme F-test a výsledek porovnáme s tabulkovou hodnotou F-rozdělení. Pokud bude mnou vypočtená hodnota menší než tabulková hodnota, pak nulovou hypotézu přijímám, jinak hypotézu zamítám. Vícevýběrové testy: Máme k dispozici více než dva výběrové soubory. (Bartlettův test, Hartleyeův test, Cochranův test)
Testy neparametrické: Pokud máme k dispozici výběry poměrně malých rozsahů, pocházejících z poměrně malých ZS, nebo z takových souborů, jejichž rozdělení neznáme, pak používáme neparametrické testy. • Test dobré shody: Chí kvadrát test dobré shody, Pearsonův test, Kolmogorovsmirnovův test • Testy pořadové: Wilcoxonův-Whiteův test, Wilcoxonův test, znaménkový test, Kruskalův-Wallisův test • Výhody: Nezávislost na tvaru rozdělení, použitelnost při analýze znaků kvalitativních i kvantitativní. Mnohem jednodušší a rychlejší při výpočtech. • Nevýhody: Menší síla v zamítání nesprávné H0.
Testy parametrické: Týkají se skutečně parametrů a typů rozdělení. • Jednovýběrové testy: Máme k dispozici jen jeden výběrový soubor. Test hypotézy o hodnotě rozptylu (σ2), průměru (µ), nebo relativní četnost (p) o Postup na příkladu: Snažím se zjistit, jestli průměrný obsah železa v květáku je závislý na podnebí, nebo ne. Znám normu průměrného obsahu železa v květáku. Stanovím si nulovou hypotézu a alternativní hypotézu a hladinu významnosti α = 5%. Dopočítám si průměr a dosadím vše do vzorečku, pak výsledek porovnám v tabulkách s kritickou hodnotou, kde si správný údaj vyhledám podle testového kritéria. Pro testování průměrů při neznámém rozptylu základního souboru se využívá T-studentovo rozdělení (u testování rozptylu by se jednalo o chí kvadrát rozdělení a u relativní četnosti o normální rozdělení). Pokud bude mnou vypočtená hodnota menší než tabulková hodnota, pak nulovou hypotézu přijímám, jinak hypotézu zamítám.
Použití testů při analýze ekonomických jevů: Například se pokusíme ověřit platnost Okunova zákona. Tudíž se snažíme zjistit, jestli je růst HDP závislý na nezaměstnanosti. Buď bychom mohli použít jednoduchou lineární regresy (přímku), nebo dvouvýběrový test. Vezmeme si tedy průměrnou nezaměstnanost a průměrnou hodnotu HDP. Jelikož předpokládáme jejich závislost, použijeme párový T-test. Výsledek porovnáme s tabulkovou hodnotou T-studentova rozdělení. V případě volby jednoduché lineární regrese zjistíme, do jaké míry nezaměstnanost ovlivňuje HDP. Dalším příkladem využití statistiky v ekonomii by bylo v případě trendových funkcí a časových řad, které nám dokážou předpovědět (predikovat) určité vývoje ekonomiky, případně vývoj HDP, cyklus ekonomiky, inflace, nezaměstnanosti,…
- 151 -
- 152 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 16. Měření závislosti kvantitativních znaků. Regresní model a jeho parametry. Korelační analýza. Jednoduchá a vícenásobná regrese a korelace. Zobecnění výsledků regresní a korelační analýzy. Otázka č. 16 – Studijní materiál 1 Základní pojmy: použití: vícerozměrné statistické soubory zkoumáme vztah mezi závisle proměnnou veličinou Y(vysvětlovaná) a nezávisle proměnnou X Formu závislosti zkoumá regresní analýza a sílu korelační analýza Závislost mezi znaky: funkční=dané hodnotě znaku odpovídá jediná hodnota druhé Statistická= dané hodnotě odpovídá několik hodnot druhé Rozlišujeme - jednostrannou závislost: X má jednoznačně charakter příčiny, Y následku oboustranná: závislost působí vzájemně
Regrese - průběh závislosti mezi kvantitativními znaky pomocí matematického modelu. Regresní koeficient (b) – udává, jak se změní závislá proměnná, pokud se nezávislá proměnná změní o jednotku, nabývá hodnot od <-1,+1) LINEÁRNÍ REGRESE: Korelační pole – množina bodů y, x (lze-li průběh vyjádřit přímkou=>lineární závislost) Regresní přímka: charakterizuje průběh závislost, y´= axy +bxy *x Testy hypotéz – test o hodnotě regresního koeficientu (zkoumá statistickou významnost závislosti) - intervalový odhad regres.koeficientu (interval spolehlivosti pro regres.koef.) - pás spolehlivosti (s růstem rozdílu klesá přesnost odhadu) -
NELINEÁRNÍ REGRESE: (k vystižení složitějších, nelineárních fcí)
Korelace -síla, těsnost závislosti Korelační koeficient (r) – udává sílu závislosti, čím víc se blíží extrémům, tím je silnější závislost Čím těsnější je vztah 2 veličin, tím větší bude následek změny a také přesnější odhad
- 153 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Testy hypotéz – za předpokladu dvourozměrného rozdělení (každému X odpovídá nějaké Y) - Test významnosti korelačního koeficientu- řeší stat.významnost - Test hypotézy H0 -Interval spolehlivosti -Test shody 2 koeficientů-(Například míra nezaměstnanosti a počet uchazečů v různých okresech) Pořadová korelace: těsnost závislosti kvantitativních znaků, pomocí Spearmanova koeficientu pořadové korelace, neparametrická charakteristika,nemusí být splněn princip každé X má své Y Vícenásobná regresní a korelační analýza Několik nezávislých současně ovlivňuje závislou proměnnou
Otázka č. 16 – Studijní materiál 2 Závislosti mezi dvěma či více znaky příčinné (kauzální) souvislosti – výskyt jednoho znaku je svázán s výskytem druhého znaku pevná závislost – výskyt jednoho znaku je neoddělitelně spjat s výskytem druhého znaku (pravděpodobnost výskytu druhého znaku při výskytu prvního znaku je 1) volná závislost – s výskytem jednoho znaku se zvyšuje pravděpodobnost výskytu druhého znaku Metody regresní a korelační analýzy slouží k popisu závislosti znaků závislost: o jednostranné – y = závisle proměnná, x = nezávisle proměnná o oboustranné – původní závisle proměnná se promění v nezávislou a naopak 2 hlavní úkoly: o vystihnout průběh závislosti – vlastní regresní analýza o změřit sílu neboli intenzitu závislosti = korelační analýza a) -
b)
Výpočet podmíněných průměrů nejjednodušší způsob vyjádření průběhu závislosti dále musíme změřit i těsnost závislosti – korelačním poměrem, nabývá hodnot < 0,1> a čím více se vypočtená hodnota blíží k 1, tím je závislost silnější a čím více se hodnota blíží k 0, tím závislost slabší na základě podmíněných průměrů nedokážeme provádět odhady Regresní funkce = matematické funkce
Přímková regrese taková regrese, kdy průběh závislosti je vystižen regresní přímkou kovariance = průměr součinů – součin průměrů Korelační koeficient, nabývá hodnot < -1, +1> - 154 -
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. koeficient determinace nám v procentech udává, z kolika % je závisle proměnná ovlivněna uvažovanou nezávisle proměnnou tento koeficient nabývá hodnot < 0, 1> ⇒ 0 –100 %
Spearmanův koeficient korelace pořadí tento koeficient nabývá hodnot < 0,1> slouží nám k rychlému stanovení těsnosti závislosti – je méně přísnou mírou než korelační koeficient (vyjde vždy o něco vyšší) slouží nám jako orientační míra Korelační tabulka korelační tabulka nám slouží k orientačnímu posouzení, jestli vztah mezi dvěma zkoumanými znaky existuje – čím více jsou četnosti soustředěny kolem úhlopříčky, tím je závislost těsnější Nelineární regrese = taková regrese, kdy průběh závislosti je vystižen jinou regresní funkcí než je přímka párová nelineární regrese o taková, kdy máme jednu závisle proměnou a jednu nezávisle proměnou vhodný typ funkce – nejlépe nalezneme podle korelačního pole a k určování parametru funkcí používáme metodu nejmenších čtverců a) Funkce lineární v parametrech u těchto funkcí, které jsou lineární v parametrech, lze bez problémů použít metodu nejmenších čtverců o Hyperbola o Parabola o Funkce odmocninná o Funkce regresní logaritmická b) Funkce nelineární v parametrech nelze u nich přímo využít metodu nejmenších čtverců, nejprve se musí rovnice funkce vhodně upravit o Mocninná funkce - použijeme metodu nejmenších čtverců, ale musíme většinou provést vhodnou transformaci funkce – zde provedeme tzv. logaritmickou transformaci, kdy funkci zlogaritmujeme a poté provedeme substituci o Exponenciála Korelační analýza těsnost můžeme měřit několika způsoby, z toho první dva jsme již používali: o korelační poměr – používáme ho tehdy, pokud je těsnost závislosti vystižena podmíněnými průměry o korelační koeficient nebo jeho druhá mocnina = koeficient determinace – používá se tehdy, je-li průběh závislosti vystižen rovnicí přímky o korelační index = měří míru těsnosti závislosti, jestliže je závislost vystižena jinou funkcí než je přímka - 155 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Zobecnění charakteristik Lineární 1. provádíme testování získané charakteristiky – zda-li jsou statisticky významné pokud není charakteristika statisticky významná – platí pouze pro výběrový soubor pokud je charakteristika statisticky významná – platí tedy i v základním souboru a provádíme dále bod 2. 2. provádíme bodové a intervalové odhady vypočtených charakteristik Intervalový odhad pro ς (korelační koeficient základního souboru) v případě, že n < 100 o používáme proto tzn. Fisherovu z-transformaci: Test hypotézy o dvou korelačních koeficientech o k tomuto testu použijeme Fisherovu z-transformaci: Nelineární Test korelačního indexu o nepoužívá se – nepodařilo se ho zkonstruovat vzhledem k tomu, že výběrový soubor korelačních indexů se ani při velkých rozsazích výběrových souborů neřídí normálním rozdělením – přičemž podmínka normality je podstatná Test o regresních parametrech o testujeme jím regresní parametry nelineárních regresních funkcí Testování regresní funkce jako celku k testování regresní funkce jako celku bez ohledu na linearitu používáme upravený model analýzy rozptylu testujeme významnost celé regresní funkce Ho = regresní funkce jako je statisticky významná Intervalové odhady pro lineární regresní funkce a) pás spolehlivosti kolem regresní přímky v tomto pásu se nachází skutečné (empirické hodnoty) b) intervalový odhad regresní přímky pokrývá hledanou regresní přímku základního souboru pro nelineární regresní funkce neumíme zatím intervaly spolehlivosti stanovit Vícenásobná regrese a korelace máme závisle proměnnou y a nezávisle proměnnou x1, x2 . . . xk Určování typu funkce: o Nesestrojíme již korelační pole o Ze zkušenosti nebo programem, kdy proložíme závislost řadou vícenásobných funkcí o K určování konkrétní funkční rovnice používáme opět metodu nejmenších čtverců (dosadíme do podmínek nejmenších čtverců a po úpravách dostaneme soustavu normálních rovnic) - 156 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Vícenásobná lineární regrese o jako geometrický útvar nám vzniká regresní rovina (položíme-li nekonečně mnoho regresních přímek položených vedle sebe) dílčí regresní koeficient, Totální = úplný korelační koeficient Úplný = totální koeficient determinace Dílčí korelační koeficienty: Dílčí koeficienty determinace: Podíl jednotlivých nezávisle proměnnách na změně závisle proměnné počítáme tzv. Beta koeficienty: tyto koeficienty udávají, o kolik směrodatných odchylek se změní závisle proměnná, když se nezávisle proměnná uvedená v indexu před tečkou změní o jednu směrodatnou odchylku Vícenásobná nelineární regresní funkce měření těsnosti závislosti u vícenásobné nelineární regrese = vícenásobný index korelace Interakce představuje vzájemné působení faktorů faktor působí na y a působí zároveň i na ostatní nezávisle proměnné do rovnic se proto přidává tzv. interakční člen – který vyjadřuje interakci těch faktorů = součin obou nezávisle proměnných; měl by nám pomoci zjistit, zda vzájemné působení mezi faktory existuje Otázka č. 16 – Studijní materiál 3 Měření závislosti kvantitativních znaků: Závislost: pevná závislost – výskyt jednoho znaku je neoddělitelně spjat s výskytem druhého znaku (nezabýváme se) volná ( statistická) závislost – s výskytem jednoho znaku se zvyšuje pravděpodobnost výskytu druhého znaku sledované znaky nazýváme proměnnými y – závisle proměnná, x – nezávisle proměnná: Regresní model a jeho parametry. Korelační analýza: Metody regresní a korelační analýzy slouží k popisu jednostranné či oboustranné závislosti znaků u korelační a regresní analýzy máme 2 hlavní úkoly: o vystihnout průběh závislosti, abychom mohli provádět odhady závisle proměnné = vlastní regresní analýza (slouží k provádění odhadů) o změřit těsnost (sílu) závislosti, abychom mohli říci, jak je závislost silná a abychom mohli posoudit přesnost regresních odhadů = korelační analýza - 157 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Regresní analýza a korelační analýza: a) Pomocí podmíněných průměrů - nejjednodušší způsob vyjádření průběhu závislosti - spočítáme podmíněné průměry (podmíněné proto, že jsou podmíněny hodnotám nezávisle proměnné) a ty pak vyjadřují průběh závislosti - dále musíme změřit i těsnost závislosti korelačním poměrem pyx jako druhou odmocninu podílu rozptylu podmíněných průměrů a rozptylu původních hodnot závisle proměnné - korelační poměr nabývá hodnot < 0,1> a čím více se vypočtená hodnota blíží k 1, tím je závislost silnější a čím více se hodnota blíží k 0, tím závislost slabší - poměr determinace korelační poměr2 v % - vyjadřuje z kolika % je závisle proměnná ovlivněna uvažovanou nezávislé proměnnou vystižení průběhu závislosti pomocí podmíněných průměrů je poměrně přesné, ale má jeden závažný nedostatek – na základě podmíněných průměrů nedokážeme provádět odhady b) Regresní funkce (mocniná, odmocniná) 1. úkol: určit typ funkce k popisu konkrétní závislosti: o ze zkušenosti o sestrojíme tzv. korelační pole o statistický software 2. úkol: najít konkrétní funkční rovnici – tzn. určit parametry funkce (tj. vypočítat je) o Metoda nejmenších čtverců Bodové odhady a, b parametrů alfa, beta regresní přímky se z pozorovaných dat nejčastěji zjistí metodou nejmenších čtverců 1. požadavek ( ∑odchylek se musí rovnat 0): 2. požadavek (∑odchylek byla minimální): A) Přímková regrese regrese, kdy průběh závislosti je vystižen regresní přímkou Rovnice regresní přímky: y‘ = ayx + byx x po úpravě: dostaneme se k tzv. normálním rovnicím přímky: n ayx + byx ∑ xi = ∑ yi ayx ∑ xi + byx ∑ xi2 = ∑ xi yi byx = regresní koeficient – lze ho interpretovat: vyjadřuje nám o kolik se změní závisle proměnná (zde y), když se nezávisle proměnná x změní o jednotku Korelační koeficient: v případě, že průběh závislosti je vyjádřen rovnicí přímky, pak těsnost (intenzitu) závislosti měříme tzv. korelačním koeficientem tento koeficient nabývá hodnot < -1, +1> koeficient může nabývat: o kladných hodnot – tzn. že se jedná o závislost přímou o záporných hodnot – tzn. že se jedná o závislost nepřímou čím více se regresní koeficient blíží k 1, resp. k –1, tím je závislost silnější a naopak čím více se vypočtená hodnota blíží k 0, tím je závislost slabší - 158 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Hodnocení korelačního koeficientu (stupnice hodnocení těsnost lineární závislosti X, Y): kladné znaménko = přímá závislost záporné znaménko = nepřímá závislost r ∈ ( 0 ; 0,3 ) slabá závislost r ∈ ( 0,31 ; 0,7 ) střední závislost r > 0,7 silná (těsná) závislost je-li b > 0 nepřímá (negativní) závislost je-li b< 0 přímá (pozitivní) závislost Index korelace: slouží nám jako obecná míra pro výpočet těsnosti závislosti, vyjadřuje těsnost odhadu regresních. Nabývá hodnot od 0 do1. Koeficient determinace: = korelační koeficient povýšený na druhou koeficient determinace nám v procentech udává, z kolika % je závisle proměnná ovlivněna uvažovanou nezávisle proměnnou tento koeficient nabývá hodnot < 0, 1> ⇒ 0 –100 %
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 2. Úkol – stanovit těsnost závislosti = korelační analýza těsnost můžeme měřit několika způsoby, z toho první dva jsme již používali: o korelační poměr – používáme ho tehdy, pokud je těsnost závislosti vystižena podmíněnými průměry o korelační koeficient nebo jeho druhá mocnina = koeficient determinace – používá se tehdy, je-li průběh závislosti vystižen rovnicí přímky o korelační index = měří míru těsnosti závislosti, jestliže je závislost vystižena jinou funkcí než je přímka o index determinace – je obvykle udáván v % a udává nám přibližně z kolika % je závisle proměnná ovlivňována uvažovanou nezávisle proměnnou ( Iyx2 ) Zevšeobecňování charakteristik na základní soubor: v případě práce s VS, získané výsledky (tzn. hodnota korelačního koeficientu, regresní parametry a funkce) – platí pouze pro výběrový soubor – musíme tedy zobecňovat – tedy zjistit, zda-li vše, co platí pro výběrový soubor, platí i pro základní soubor
Jak hodnotíme koeficient determinace = r2 v % těsnost nízká r2 < 10 % 10 % ≤ r2 < 50 % těsnost mírná 25 % ≤ r2 < 50 % těsnost význačná 50 % ≤ r2 < 80 % těsnost velká velmi vysoká těsnost 80 % ≤ r2
1. provádíme testování získané charakteristiky – zda-li jsou statisticky významné pokud není charakteristika statisticky významná – platí pouze pro výběrový soubor pokud je charakteristika statisticky významná – platí tedy i v základním souboru a provádíme dále bod 2.
B) Nelineární regrese = taková regrese, kdy průběh závislosti je vystižen jinou regresní funkcí než je přímka -
párová nelineární regrese o taková, kdy máme jednu závisle proměnou a jednu nezávisle proměnou
1. Úkol – vystihnout průběh závislosti odpovídající regresní funkcí = vlastní regresní analýza a) Funkce lineární v parametrech u těchto funkcí, které jsou lineární v parametrech, lze bez problémů použít metodu nejmenších čtverců o Hyperbola o Parabola o Funkce odmocninná zjednodušená odmocninná funkce: o Funkce regresní logaritmická b) Funkce nelineární v parametrech o Mocninná funkce o Exponenciála
- 159 -
2. provádíme bodové a intervalové odhady vypočtených charakteristik Regresní přímka: Test hypotézy o korelačním koeficientu (test hypotézy, že veličiny X a Y jsou nezávislé), (test významnosti korelačního koeficientu) o Ho: ς = 0 (ς = ró) o A: ς ≠ 0 zjištěná závislost platí v i základním souboru o Testovací kritérium (porovnám s vypočtenou hodnotou v tabulce): o a jestliže t > tα(n – 2) pak Ho zamítáme na hladině významnosti α a korelační koeficient považujeme za statisticky významný – tj. zjištěná závislost platí i v základní souboru, ale neznáme její sílu v základním souboru o testovací kritérium se řídí Studentovým rozdělením -
Test hypotézy o regresním koeficientu (testujeme hypotézy o hodnotách parametrů regresní přímky, respektive konstruujeme intervaly spolehlivosti pro tyto parametry) o Ho: βyx = 0 o A : βyx ≠ 0 o testovací kritérium se řídí t – Studentovým rozdělením o f = n - 2 o druhý regresní koeficient – bxy – použijeme stejný test, s tím rozdílem, že zaměníme x za y a opačně
- 160 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. v případě, že zamítáme nulovou hypotézu a zjistíme, že korelační koeficient je statisticky významný, tak nás zajímá, jaká je jeho hodnota v základním souboru – provádíme tedy intervalové a bodové odhady korelačního koeficientu: o Bodový odhad korelačního koeficientu o Intervalový odhad pro ς (korelační koeficient základního souboru) v případě, že n > 100 ς ∈ ( r ± uα sr ) sr = směrodatná odchylka souborů výběrových korelačních koeficientů o Intervalový odhad pro ς (korelační koeficient základního souboru) v případě, že n < 100 (test konstrukce intervalu spolehlivosti) tento interval spolehlivosti nelze počítat předcházejícím způsobem – nelze totiž provést aproximaci na normální rozdělení používáme proto tzn. Fisherovu z-transformaci: v případě zjištění, že regresní koeficient u výběrového souboru je statisticky významný, provádíme jeho odhady i pro základní soubor o Bodový odhad regresního koeficientu o Interval spolehlivosti pro sdružené regresní koeficienty (intervalový odhad regresního koeficientu -
-
Test hypotézy o dvou korelačních koeficientech (test hypotézy, že příslušné základní soubory mají stejný korelační koeficient, uvažujeme 2 nezávislé soubory, z nichž výběry o rozsazích n1, n2. Vypočteme korelační koeficienty r1, r2) o Ho: ς1 = ς2 A: ς1 ≠ ς2 o k tomuto testu použijeme Fisherovu z-transformaci: testovací kritérium se řídí rozdělením normálním s kritickou hodnotou uα a jestliže u > uα pak zamítáme nulovou hypotézu ve prospěch hypotézy alternativní a považujeme rozdíl mezi oběma korelačními koeficienty za statisticky významný
Nelineární (křivková) regrese: Test korelačního indexu o nepoužívá se – nepodařilo se ho zkonstruovat vzhledem k tomu, že výběrový soubor korelačních indexů se ani při velkých rozsazích výběrových souborů neřídí normálním rozdělením – přičemž podmínka normality je podstatná Test o regresních parametrech o testujeme jím regresní parametry nelineárních regresních funkcí o Ho: βj = 0: A: βj ≠ 0 o testovací kritérium se řídí t – rozdělením o jestliže je t > tα pak zamítáme nulovou hypotézu ve prospěch hypotézy alternativní, βj ≠ 0 a regresní parametry tedy považujeme za statisticky významné Interval spolehlivosti regresních parametrů - 161 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Testování regresní funkce jako celku: K testování regresní funkce jako celku bez ohledu na linearitu používáme upravený model analýzy rozptylu. Vícenásobná regrese a korelace: máme závisle proměnnou y a nezávisle proměnnou x1, x2 . . . xk modely charakterizují závislost y na více nezávisle proměnných najednou řešíme stejné úkoly jako u párové regrese a korelace o 1. vystihnout průběh závislosti – vícenásobná regresní funkce a provádět odhady na základě této funkce o 2. měření těsnosti závislosti výpočty jsou již složitější; nedokážeme si to již představit – dostáváme se do třírozměrného a vícerozměrného prostoru funkce: o máme dvě nezávisle proměnné a jednu závisle proměnnou – plochy v trojrozměrném prostoru o více nezávisle proměnných a jednu závisle proměnnou – vícenásobná parabola, Určování typu funkce: o Nesestrojíme již korelační pole o Ze zkušenosti nebo programem, kdy proložíme závislost řadou vícenásobných funkcí o K určování konkrétní funkční rovnice používáme opět metodu nejmenších čtverců (dosadíme do podmínek nejmenších čtverců a po úpravách dostaneme soustavu normálních rovnic) Vícenásobná lineární regrese: o jako geometrický útvar nám vzniká regresní rovina, je nejjednodušší o dokážeme interpretovat vypočtené parametry o regresní přímka pro k – nezávisle proměnných: byx1 . x2, x3 . . xk = dílčí regresní koeficient, lze ho interpretovat, vyjadřuje o kolik se změní závisle proměnná y, jestliže se nezávisle proměnná uvedená v indexu před tečkou změní o jednotku a ostatní nezávisle proměnné budou konstantní; lze ho použít k odhadu změn o těsnost závislosti měříme pomocí úplného korelačního koeficienu • měříme těsnost závislosti y na všech nezávisle proměnných xk • vypočtené hodnoty se pohybují v intervalu < -1;1 > • čím více se hodnota blíží k1 (respektive -1), tím je závislost silnější a čím více se hodnota blíží k 0, tím je závislost slabší Úplný = totální koeficient determinace • R2, v % udává, z kolika % je závisle proměnná ovlivněna uvažovanými nezávisle proměnnými
- 162 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Dílčí korelační koeficienty: • ryx1 . x2, x3 . . xk závislost y na x1, ryx2 . x1, x3 . . xk závislost y na x2 • vyjadřuje těsnost závislosti vždy na jedné nezávisle proměnné (uvedena v indexu před tečkou) a ostatní považujeme za konstantní • nabývá hodnot v intervalu < -1;1 > Dílčí koeficienty determinace: • udávají, z kolika % je závisle proměnná ovlivněna konkrétní nezávisle proměnnou uvedenou v indexu před tečkou Podíl jednotlivých nezávisle proměnnách na změně závisle proměnné Počítáme tzv. Beta koeficienty udávají, o kolik směrodatných odchylek se změní závisle proměnná, když se nezávisle proměnná uvedená v indexu před tečkou změní o jednu směrodatnou odchylku βyx1 . x2 = byx1 . x2 * sx1 / sy βyx2 . x1 = byx2 . x1 * sx2 / sy podíl směrodatných odchylek Tyto koeficienty jsme přepočítali na stejnou základnu, jsou tudíž vzájemně souměřitelné Zobecňování na základní soubor: Stejně jako u párové závislosti budeme pracovat obvykle s výběrovými soubory, musíme tedy nějak vybrané charakteristiky testovat a pokud se prokáže, že jsou statisticky významné, tak i odhadovat jejich velikost v základním souboru o
o o
o o
o o
Test pro koeficient korelace testovací kritérium se řídí F-rozdělením, jestliže je F > Fα[ k, n – k-1] , pak zamítáme nulovou hypotézu ve prospěch hypotézy alternativní a totální koeficient korelace považujeme za statisticky významný Bodový odhad totálního korelačního koeficientu Test pro dílčí korelační koeficienty testovací kritérium se řídí t-rozdělením, jestliže tr > tα[ n – k - 1 ], pak zamítáme nulovou hypotézu na hladině významnosti α ve prospěch hypotézy alternativní a dílčí korelační koeficienty považujeme za statisticky významné Intervalový odhad pro dílčí korelační koeficienty (používáme opět Fisherovu z-transformaci) Test vícenásobného regresního koeficientu jestliže je t > tα[ n – k - 1 ], pak zamítáme nulovou hypotézu ve prospěch hypotézy alternativní; vícenásobný regresní koeficient považujeme za statisticky významný, testovací kritérium se řídí t-rozdělením Interval spolehlivosti dílčího regresního koeficientu Testování celé vícenásobné regresní lineární funkce Používáme upravený model analýzy rozptylu - 163 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Vícenásobná nelineární regresní funkce Měření těsnosti závislosti u vícenásobné nelineární regrese = vícenásobný index korelace a vícenásobný nelineární index determinace Interakce: tento pojem používám u vícenásobné regrese, představuje vzájemné působení faktorů faktor působí na y a působí zároveň i na ostatní nezávisle proměnné do rovnic se proto přidává tzv. interakční člen – který vyjadřuje interakci těch faktorů = součin obou nezávisle proměnných; měl by nám pomoci zjistit, zda vzájemné působení mezi faktory existuje
Otázka č. 16 – Studijní materiál 4 MĚŘENÍ ZÁVISLOSTI KVALITATIVNÍCH ZNAKŮ ZÁVISLOSTI MEZI 2 ČI VÍCE KVANTITATIVNÍMI ZNAKY • Mezi kvantitativními znaky nás zajímají příčinné (kauzální) souvislosti – výskyt jednoho znaku je svázán s výskytem druhého znaku • Závislosti pak můžou být dvou typů Pevná závislost o výskyt jednoho znaku je neoddělitelně spjat s výskytem druhého znaku o ke každé obměně jednoho znaku nutně odpovídá jedna jediná hodnota či obměna druhého znaku Volná závislost o s výskytem jednoho znaku se zvyšuje pravděpodobnost výskytu druhého znaku o ke každé obměně jednoho znaku odpovídá více obměn druhého znaku • Jestliže se jedná o kvantitativní znaky, hovoříme o tzv. statistické závislosti - sledované znaky nazýváme proměnnými: o proměnná y – závisle proměnná – nabývá hodnot y1, y2, . . . yk o proměnná x – nezávisle proměnná – nabývá hodnot x1, x2, . . . xk. - K popisu závislosti používáme metody regresní a korelační analýzy.
DÁLE SE DĚLÍ ZÁVISLOST PODLE POČTU PROMĚNNÝCH 1. Jednoduchá: závislost: sledují se vztah jedné proměnné nezávislé na závislou proměnou 2. Vícenásobná závislost: • Jednoduchá i vícenásobná závislost může být lineární nebo nelineární. METODY REGRESNÍ A KORELAČNÍ ANALÝZY • Slouží k popisu závislosti znaků • Závislosti můžou být: o Jednostranné – y = závisle proměnná, x = nezávisle proměnná o Oboustranné – původní závisle proměnná se promění v nezávislou a naopak - 164 -
•
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. U korelační a regresní analýzy máme 2 hlavní úkoly: 1. Vystihnout průběh závislosti – tzv. tendenci změn, abychom mohli provádět odhady závisle proměnné = vlastní regresní analýza 2. Změřit sílu neboli intenzitu závislosti, abychom mohli říci, jak je závislost silná a zároveň abychom mohli posoudit přesnost regresních odhadů z předcházejícího bodu = korelační analýza
REGRESNÍ A KORELAČNÍ ANALÝZA • Víceúrovňová • Na každé jednotce bude sledovány 2 a více znaků • Pracuje se znaky číselnými – kvantitavními • Zabývá se popisem vztahů mezi náhodnými veličinami – statistickými znaky, proměnnými REGRESNÍ MODEL A JEHO PARAMETRY REGRESE • Popis průběhu závislosti mezi dvěma či více kvantitativními statistickými znaky pomocí regresního modelu (regresní funkce). • Zjištění průběhu závislosti mezi kvantitativními statistickými znaky pomocí matematické funkce – regresní funkce Parametry přímky: ayx - absolutní člen – posunutí přímky na ose y byx - směrnice, regresní koeficient
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Grafické vyjádření Čára podmíněných průměrů, která je nejjednodušším způsobem vyjádření průběhu závislosti
xi b) JEDNODUCHÁ LINERÁNÍ REGRESE = grafem je přímková regrese • Průběh závislosti je vyjádřen rovnicí přímky: y΄ = ayx + byx (1. index – závisle proměnná, 2. index – nezávisle proměnná) • Přímková regrese je nejjednodušší. • Jedná se o takovou regresi, kdy průběh závislosti je vystižen regresní přímkou. • Regresní přímka - má 2 parametry: y‘ = bo + b1 x, y‘ = bo - b1 x c) NELINEÁRNÍ (křivková) REGRESE • Průběh závislosti je vystižen jinou funkcí než je přímka. 1) Určíme typ funkce – vytvoříme korelační pole a z jeho tvaru zjistíme typ funkce. 2) Určíme konkrétní funkční rovnici – nalezení parametrů funkce pomocí metody nejmenších čtverců.
REGRESNÍ KOEFICIENT = byx • Který vyjadřuje, o kolik se změní závisle proměnná y, jestliže se x změní o jednotku. • Pokud provádíme odhad změny, vystačíme s odhadem dle regresního koeficientu. • Pokud chceme provést konkrétní odhad hodnoty závisle proměnné y na základě daných hodnot x, musíme k odhadům použít celou regresní přímku.
-
•
a0 ∑ v1 + a1 ∑ v12 + a 2 ∑ v1v 2 + L + a n ∑ v1vn = ∑ v1 y
•
Pokud chceme vystihnout průběh závislosti – tzv. tendenci změn, abychom mohli provádět odhady závisle proměnné, používá se vlastní regresní analýza. Jinou možností vyjádření průběhu závislosti je jednoduchá lineární regrese nebo nelineární regrese.
a) VLASTNÍ REGRESNÍ ANALÝZA • Průběh závislosti vyjádříme podmíněnými průměry, které dostaneme roztříděním hodnot y do skupin podle hodnot nezávisle proměnných x xi (intervaly)
yi
yi
x-x
y1; y4; y20
y1 y2
yi
na0 + a1 ∑ v1 + a 2 ∑ v 2 + L + a n ∑ vn = ∑ y
a0 ∑ v 2 + a1 ∑ v1v2 + a 2 ∑ v22 + L + a n ∑ v2 v n = ∑ v 2 y M a0 ∑ v n + a1 ∑ v1vn + a 2 ∑ v2 v n + L + a n ∑ v n2 = ∑ vn y -
Může se jednat například o:
y′ = a +
si2 s12
1.
Hyperbolu (
s22
2.
Parabolu 2.stupně (
= podmíněné průměry – podmíněny jednotlivým hodnotám xi
- 165 -
y′ = a + a v + a 2 v 2 + L + an v n
0 1 1 Obecný tvar: Obecná soustava normálních rovnic:
3. 4. 5. 6.
b xi ),
y′ = a + bxi + cxi2
)a
y ′ = a + bx i + c x
Odmocninou funkci ( odmocninou funkci: y´= a + b √x) Logaritmickou funkci y´i= a+ b log xi Mocninnou funkci y´i= a* xib Exponenciální y´i=a*bxi - 166 -
, někdy používáme zjednodušenou
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. KORELAČNÍ ANALÝZA = měření těsnosti závislosti KORELACE • Intenzita neboli těsnost závislosti mezi kvantitativními znaky, které měříme buď pomocí charakteristik korelace (korelační poměr, korelační koeficient či index korelace) a nebo pomocí charakteristik determinace, což je druhá mocnina charakteristik korelace a zpravidla se uvádí v %. • Zjištění síly (míry, intenzity, těsnosti závislosti mezi kvantitativními znaky pomocí charakteristické korelace) síly závislosti
•
b)
s 2y′ =
s y2
∑ (y ′ − y ) i
n
(
), (x − x) − y]
y i′ = y + b yx x i − x
kde:
2
=
∑ [y + b
2
yx
i
n
=
(
b yx2 ∑ xi − x
)
• •
2
= byx2 ⋅ s x2
n
• •
ryx = (-1, 1)
>?@A >
C
, kde
B@A
=
@ A
).
D
;
.&
pokud je t > t alfa, zamítáme nulovou hypotézu Bodové a intervalové odhady •
Korelační koeficient:
ryx =
1=
-
• •
s y2′
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Test hypotézy o regresním koeficientu H0 = βyx=0, platí pouze ve výběrovém souboru
Bodový odhad korelačního koeficientu: ςyx = D1 − (1 − F & ) ∗
.&
Intervalový odhad korelačního koeficientu (pokud n ≥ 100) Intervalový odhad korelačního koeficientu (pokud n < 100) používáme Fisherovu z-transformaci hodnoty ryx převedeme na zr výsledky se musí zpětně transformovat Bodový odhad regresního koeficientu: - βyx = byx Intervalový odhad regresního koeficientu: βyx ∈ ( byx ± tα(n – 2) * s byx ), kde sbxy viz test hypotézy o regr. koef. Test hypotézy o dvou korelačních koeficientech: H0 = ς1 = ς2 H .H u = II ; I , jestliže u > uα pak zamítáme nulovou hypotézu; používáme DJ
M
I KL J; KL
Fisherovu z-transformaci
ZÁVISLOST MŮŽE BÝT a) Přímá (pozitivní) – kladný regresní koeficient y´=a+bxi, ryx ∈ 0,1 > b) Nepřímá (negativní) – záporný regresní koeficient y´=a-bxi, ryx ∈ < −1,0)
NELINEÁRNÍ a) Testy významnosti • Významnosti korelačního koeficientu - nepoužívá se, nepodařilo se ho zkonstruovat • Test regresního parametru: H0 = βj=0
a) Jednostranná – x má jednoznačně charakter příčiny a y je následek b) Dvoustranná – závislost v obou směrech
•
1=
?N
BN
, sbj = odhad směrodatné odchylky teoretického souboru regresních
parametrů
/r/ = 1 - mezi x a y existuje závislost /r/ = 0 - x a y jsou nezávislé
•
?O
= ´ D∑(C
)
N .C)
;
, kde sd´ (odhad směrodatné chyby regresního odhadu):
) ∑( R . ´R );
0 < /r/ ≤ 0,3 slabá závislost 0,3 < /r/ ≤ 0,8 mírná (střední) závislost 0,8 < /r/ ≤ 1 silná závislost
• b) •
JEDNODUCHÁ A VÍCENÁSOBNÁ REGRESE A KORELACE Viz. základy statistiky v příkladech str. 18-26
´ =D
.&
jestliže je t > tα pak zamítáme nulovou hypotézu
Interval spolehlivosti (intervalový odhad) regresního parametru βj ∈ (bj ± tα(n – k) * sbj)
Zobecnění výsledků LINEÁRNÍ a) Testy významnosti regresního koeficientu – pokud je testovaná charakteristika statisticky významná, platí i v základním souboru, pokud ne, platí pouze ve výběrovém souboru • Test hypotézy o korelačním koeficientu H0 = ς=0, platí pouze ve výběrovém souboru | | ∗ √< − 2 pokud je t > t alfa, zamítáme nulovou hypotézu: 1 = ; - 167 -
.)
√).
- 168 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 16 – Studijní materiál 5
•
Měření závislosti kvantitativních znaků: Zkoumá závislost mezi dvěma či více znaky. Závislost může být příčinná, pevná, nebo volná. Regresní a korelační analýza: Zabývá se popisem závislosti vztahů mezi veličinami (statistickými znaky, proměnnými). Existují dva druhy proměnných a to buď závisle proměnná (y), nebo nezávisle proměnná (x). Cílem je vystihnout průběh závislosti (tendenci změn) a změřit sílu závislosti (abychom byli schopni posoudit přesnost regresních odhadů). Regresní model a jeho parametry: Regrese: Popisuje průběh závislosti kvantitativních znaků pomocí matematických funkcí •
Jednoduchá: Závislou proměnou (y) ovlivňuje pouze jedna proměnná (x) o Lineární: Průběh závislosti vyjádřen rovnicí přímky. Přímková regrese o Nelineární: Průběh závislosti vystižen jinou funkcí než je přímka. Nelineární funkce může být hyperbolická, parabolická, exponenciální, kvadratická, logaritmická, atd. K nalezení parametrů funkce se využívá metoda nejmenších čtverců.
•
Vícenásobná: Závislou proměnou (y) ovlivňuje více než jedna proměnná (x1, x2) o Lineární: Regresní rovina o Nelineární: Regresní dvoufaktorová funkce (hyperbolická, parabolická)
Jednoduchá lineární regrese: • Sdružená regresní přímka: Inverzní funkce vyjadřující závislost x na y. • Absolutní člen (S C ): Určuje posunutí přímky na ose y. • Sdružené regresní koeficienty (TC , T C ): Směrnice přímky. Říká, o kolik se změní závisle proměnná, když se nezávisle proměnná změní o jednotku.
•
Vícenásobná korelace: • Totální (úplný) korelační koeficient (R VW).W& ): Měří sílu závislosti závisle proměnné (y) na všech nezávisle proměnných (x). Vypočtené hodnoty se pohybují v intervalu < 0;1 > • Dílčí (parciální) korelační koeficienty (rVW).W& ): Vyjadřuje těsnost závislosti na jedné nezávisle proměnné (x), uvedené v indexu před tečkou, přičemž ostatní nezávisle proměnné budou konstantní. Vypočtené hodnoty se pohybují v intervalu < -1;1 >. • Párové korelační koeficienty (F C) ,FC)C& ,F C& ): Měří sílu závislosti mezi dvěma proměnnými.
Otázka č. 16 – Studijní materiál 6 • • •
Vícenásobná lineární regrese: • Dílčí regresní koeficient (bVW).W& , bVW&.W) ): Vyjadřuje, o kolik se změní závisle proměnná y, jestliže se nezávisle proměnná uvedená v indexu před tečkou změní o jednotku a ostatní nezávisle proměnné budou konstantní. Lze ho použít k odhadu změn. • Beta koeficienty (β): Bezrozměrné veličiny, které popisují vliv jednotlivých faktorů na závisle proměnnou y. •
Korelační analýza: Korelace: Určuje sílu (těsnost, intenzitu) závislosti (jak moc jsou na sebe proměnné závislé). Jednoduchá korelace: • Korelační pole: Ukazuje závislosti y na x v grafu, slouží k výběru vhodné funkce u jednoduché regrese.
- 169 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Korelační koeficient (Index korelace): o Lineární (F C ): <-1,1> F C = 0 → Neexistuje závislost mezi Y a X F C = (0,1> → Přímá závislost F C = <-1,0) → Nepřímá závislost o Nelineární (I): <0,1> Koeficient determinace (Index determinace) (r2*100%): Z kolika procent jsou změny závisle proměnné (y) ovlivněny nezávisle proměnou (x). Zbytek do 100% jsou vlivy dalších faktorů, které neuvažujeme.
•
Pro měření používáme ne/lineární jednoduchou/vícenásobnou korelaci a regresi. Zkoumáme vztah mezi závisle proměnnou veličinou Y(vysvětlovaná) a nezávisle proměnnou X Regrese: popis průběhu závislosti stat. znaků, pomocí regres fce. o Regresní koeficient (b) – udává, jak se změní závislá proměnná, pokud se nezávislá proměnná změní o jednotku, nabývá hodnot od <-1,+1) o Korelační pole: množina bodů y,x (lze-li průběh vyjádřit přímkou = lineární závislost) o Regresní přímka: charakterizuje průběh závislosti. Y´ = axy+bxy*X o Příklady nelineárních fce: kvadratická, mocninná, odmocninná, kubická, lomená, hyperbolická, exponenciální, logaritmická Korelace: měření síly závislosti mezi kvantitativními statistickými znaky. o Korelační koeficient (r) – udává sílu závislosti, čím víc se blíží k extrémům, tím je silnější závislost. Čím těsnější je vztah 2 veličin, tím větší bude následek změny a také přesnější odhad. Vícenásobná regresní a korelační analýza: několik nezávislých současně ovlivňuje závislou proměnnou.
- 170 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 17 – Studijní materiál 2
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 17. Měření závislosti kvalitativních znaků. Analýza v asociačních a kontingenčních tabulkách. Testování. -
kvalitativní znaky jsou takové znaky, které se vyjadřují slovně (ne číselně)
Otázka č. 17 – Studijní materiál 1
Υ
Kvalitativní znaky – nelze je vyjádřit číselně alternativní= nabývají 2 obměn => asociační závislost množné= více obměn =>kontingence při zpracování tabulek zkoumám:existenci závislosti a její sílu
Υ
množné – to jsou takové, které nabývají více jak dvou obměn (barva vlasů) Znaky alternativní - Asociace sledovaný vztah vyjadřujeme v tzv. asociační tabulce tabulka je čtyřpolní (je to tzv. kombinační tabulka) a uvnitř políček se nacházejí četnosti, které odpovídají výskytu jednotlivých znaků o okrajové četnosti získáme jako řádkový součet četností:
Asociační tabulky 2x2 Znak A Ano Ne Celkem
Znak B Ano a c a+c
Ne b d b+d
Znak A / Znak B a α
Celkem a+b c+d n
Testy o nezávislosti znaků: 1. χ2-test nezávislosti (rozsah souboru >20 a zároveň každá očekávaná četnost >5) 2. Fisherův faktoriálový test (rozsah <20, nebo 20-40 a zároveň alespoň 1 četnost <5) V obou případech platí H0: mezi sledovanými znaky neexistuje závislost Výpočet míry závislosti v asociační tabulce=> koeficient asociace V Kontingenční tabulky -vztah 2 a více znaků, kde aspoň jeden je množný Testy o nezávislosti znaků: 1. χ2-test nezávislosti (podíl teoretických četností <5 nesmí nepřekročit 20% a žádná nesmí být <1=> není-li tato podmínka splněna je nutno sloučit slabší skupiny) V kontingenční tabulce neumíme stanovit průběh závislosti, můžeme pouze měřit těsnost. Míry těsnosti závislosti v kontingenční tabulce Pearsonův koeficient kontingence C = <0,1> Cramerův koeficient kontingence V= <0,1> Obecný postup statistického testování 1. výběr vhodného testu (parametrický a neparametrický) 2. formulace nulové a alternativní hypotézy 3. volba hladiny významnosti 4. volba testovacího kriteria 4. určení kritického oboru 5. výpočet hodnoty testovacího kriteria z výběrových hodnot 6. rozhodnutí: jestliže vypočtená hodnota testovacího kritéria padne do kritického oboru H0 se zamítá jinak se H0 nezamítá - 171 -
alternativní – to jsou takové, které nabývají pouze dvou obměn (ano/ne, muž/žena)
B (ab) (αb)
β (aβ) (αβ)
(a) (α)
(b)
(β)
n
1) stanovit průběh závislosti protože se jedná o znaky kvalitativní se dvěma obměnami, průběh závislosti je tedy vystižen lineárně a to tzv. asociační přímkou, která je obdobou regresní přímky tato přímka nám vyjadřuje závislost podílu prvků se znakem B na podílu prvků se znakem A Bba je vlastně regresní koeficient – lze ho interpretovat a používat k odhadu změn a udává nám, o kolik % se změní podíl prvků se znakem B, jestliže se podíl prvků se znakem A změní o 1 % 2) změřit sílu (těsnost; intenzitu) závislosti Koeficient asociace < -1;1 > Yuelův koeficient asociace [Jůlův] 1;1>Koeficient koligace
<-
Testování Upravený χ2 – test - používáme ho, když chceme zjistit, zda se jedná o znaky závislé (Ho = znaky jsou nezávislé) uvedený test lze použít, jestliže je rozsah souboru n > 40 jestliže je 20 < n < 40 – test lze použít pouze za předpokladu, že žádná teoretická četnost není menší než 5 Teoretické četnosti vypočteme jako součin příslušných okrajových četností dělený rozsahem souboru
- 172 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Fisherův test - n < 20 nebo 20 < n < 40 a jedna teoretická četnost je menší než 5 = nelze tedy použít χ2 – test
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. ASOCIACE • Zkoumá vztah mezi dvěma či více kvalitativními alternativními znaky
1. zvolíme si hladinu významnosti α (0,05; 0,01) 2. výsledky pozorování uspořádáme do asociační tabulky 3. vyhledáme nejnižší četnost a snižujeme ji o 1 4. poslední pomocnou tabulkou bude tabulka, kde minimální četnost = 0 5. spočítáme výsledné pravděpodobnosti pro tabulku původní, i pro pomocné 6. vypočteme celkovou pravděpodobnost P = ∑ pi
ASOCIAČNÍ TABULKA • Výsledky třídění statistického souboru podle dvou alternativních statistických znaků se uspořádávají co asociační tabulky (typ tabulky 2x2)
Vyhodnotíme: P ≤ α - pak zamítáme H0 a považujeme za prokázanou existenci vztahů mezi oběma znaky Znaky množné - Kontingence = vztah mezi dvěma (a více) kvalitat. znaky z nichž alespoň jeden je množný - u kontingenční tabulky neumíme vyjádřit průběh závislosti a určujeme pouze těsnost závislosti: Pearsonův koeficient kontingence < 0;1 >, nevýhodou je, že ani při úplné kontingenci nedosáhne hodnoty 1 Čuprovův koeficient kontingence Normovaný koeficient kontingence- používá se tehdy, chceme-li porovnat kontingenci mezi několika kontingenčními tabulkami – přičemž tabulky mohou mít různý počet řádků a sloupců Cramerův koeficient Upravený χ2 - Používáme ho tehdy, chceme-li zjistit, zda jsou znaky závislé, nelze ho použít v případě, že více než 20 % teoretických četností je menších než 5 anebo jedna teoretická četnost je menší než 1. K tomuto testu, ale nemáme náhradní test a pokud tedy nejsou splněny podmínky použitelnosti, tak sloučíme sousední skupiny a tím se četnost (teoretická) zvětší a podmínky se pak po sloučení splní
A (nezávisle proměnná) / B (závisle proměnná) a0 a1 CELKEM
DĚLENÍ KVALITATIVNÍCH ZNAKŮ (slovní znaky): 1. ALTERNATIVNÍ • Nabývají pouze dvou obměn (ano/ne, 0/1), můžeme si vybírat ze dvou možností • Vztah dvou alternativních znaků se nazývá asociace a je uspořádán do asociační tabulky (čtyřpolní) - 173 -
b1
CELKEM
a c a+c
b d b+d
a+b c+d N = rozsah souboru (součet sloupečků = součet řádku)
a+c,b+d,a+b,c+d – marginální četnosti DEFINICE DVOU ÚKOLŮ Pravidla pro volbu testů: n>40 -χ χ2test nezávislosti n<20 – fisherův faktorový test <20
nutnost zjistit očekávané četnosti: S0 =
( M?)( M )
T0 =
( M?)(?M )
Z0 =
( M )( M )
[0 =
( M )(?M )
Pokud jsou všechny očekávané četnosti větší než 5, použijeme χ2test nezávislosti Je-li alespoň jedna očekávaná četnost menší než 5, je nutné použít Fisherův faktoriálový test. •
Pokud chceme vztah zobecnit i na základní soubor, používáme testy o (ne) závislosti znaků V asociační tabulce používáme upravený χ2 test. Postup: 1) ZVOLÍME hladinu významnosti α (0,05 nebo 0,01) 2) VYPOČÍTÁME testovací kritérium 3) Testovací kritérium se ŘÍDÍ χ2 rozdělením 4) χ2α POROVNÁME s χ2 a pokud χ2 > χ2α -> ZAMÍTÁME Ho Tento test lze použít pouze je-li n > 40
•
Pokud nemůžeme použít 2 test použijeme náhradní FISHERŮV TEST, který je založen na přímém výpočtu pravděpodobnosti určitého seskupení četností. Postup: 1) SPOČÍTÁME očekávané četnosti 2) ZVOLÍME hladinu významnosti α (0,05 nebo 0,01) 3) VYHLEDÁME v asociační tabulce nejnižší četnost a potom sestavujeme pomocné tabulky, kde tuto nejmenší četnost vždy zmenšíme o jednu. 4) Pro původní tabulku a pro všechny pomocné tabulky vypočítáme pravděpodobnosti
Otázka č. 17 – Studijní materiál 3 ZNAK • Vlastnost statistické jednotky, která je předmětem zkoumání • Kvalitativní znaky nelze vyjádřit číselně, získáváme je na základě dotazníků a anket
b0
- 174 -
2.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 5) SPOČÍTÁME celkovou pravděpodobnost jako součet všech dílčích pravděpodobnosti P = Σ Pi 6) POROVNÁME P s hladinou významnosti α. A pokud P ≤ α zamítáme Ho a závislost mezi oběma znaky považujeme za prokázanou. MNOŽNÉ • Nabývají více než dvou možností př. V dotaznících – uzavřené odpovědí, př. Vzdělání – základní, středoškolské, vysokoškolské • Pokud alespoň 1 znak je množný - KONTINGENCE (používá se kontingence 2 znaků) – je uspořádána do KONTINGENČNÍ TABULKY (matice (r,s) A/B a1 a2
b1 n11 n21
b2 n12 n22
ai ar celkem
bj
bs n1s n2s
nij nr1 n.1
nr2 n.2
n.j
celkem n1. n2. ni.
nrs n.s
nr. N – rozsah souboru
b- závisle proměnná a – nezávisle proměnná n1., n2. , nr. , n.1, n.2, n.s – okrajové četnosti tečkový způsobem zápisu úlohy kontingenční tabulky: otestovat závislosti mezi znaky, změřit sílu závislosti KONTINGENGE • Je vztah dvou či více kvalitativních statistických znaků, z nichž alespoň jeden je znakem množným •
•
V kontingenční tabulce neumíme vyjádřit průběh závislosti, ale měříme těsnost závislosti pomocí: Pearsonův koeficient kontingence: koeficient C nabývá hodnot (0,1), čím více se blíží k 1, tím je závislost silnější. Čuprovův koeficient kontingence: při úplné kontingenci dosáhne hodnoty 1 Normovaný koeficient kontingence - při porovnávání těsnosti závislosti mezi různými typy tabulek Při zobecnění na ZS vycházíme z Ho, která říká, že znaky jsou nezávislé tuto Ho ověřujeme χ2 testem. Postup: 1) Zvolíme hladinu významnosti 2) Spočítáme testovací kritérium χ2 3) Najedeme tabulkovou kritickou hodnotu pro χ2α (n-1)*(s-1) 4) Porovnáme hodnoty a pokud χ2 > χ2α -> ZAMÍTÁME Ho v případě, že nejde použít χ2 test, slučujeme vedlejší řádky a sloupce tak, abychom se malých teoretických četností zbavily, potom následuje χ2 test.
- 175 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 17 – Studijní materiál 4 Kvalitativní znaky: Slovně vyjádřené znaky • Alternativní: Nabývají pouze dvou obměn (Muž, žena) • Množné: Nabývají více než dvou obměn (Ano, spíše ano, nevím, spíše ne, ne) Měření závislosti kvalitativních znaků: Kvalitativní znaky nelze vyjádřit číselně, proto se závislost kvalitativních znaků se měří pomoci asociační a kontingenční tabulky. Asociace: Zkoumá vztah mezi kvalitativními a alternativními znaky. Vztah dvou alternativních znaků se nazývá asociace a je uspořádán do asociační tabulky • Úloha regrese: Pomocí asociační přímky umožňuje určit průběh závislosti a vypočítat relativní četnosti jednotek. • Úloha korelace: Pomocí koeficientu asociace, nebo Yuleova koeficientu korelace, případně pomocí koeficientu koligace změřit sílu závislosti. Nejpřesnější z nich je koeficient asociace, ostatní dva jsou jen pro orientaci. Jinak koeficienty nabývají hodnot <-1,1>. • Podmínky na použití χ2 testu: Počet prvků (n) musí být větší než 40, nebo n je v intervalu od 20 do 40, kdy všechny teoretické očekávané četnosti jsou větší než 5, když ani jedna z podmínek není splněna, musí se použít Fisherův test. • Výpočet teoretických očekávaných četností: Pro každé číslo z tabulky se počítá jednotlivě pomocí vzorečku: ] ^ á_ í č řá ∗ ] ^ á_ í č _ \O = •
•
•
(
_
ý
č
ů)
Testování hypotéz v asociační tabulce: Podle splnění nebo nesplnění podmínek buď χ2 test, nebo Fisherův test. χ2 test: Začneme stanovením hypotéz, kde H0 říká, že prvky jsou nezávislé a H1 říká, že prvky jsou závislé. Dále zvolíme hladinu významnosti α (0,05 nebo 0,01), pak vypočteme testovací kritérium. Poté vypočtenou hodnotu porovnáme s tabulkovou hodnotou χ2 rozdělení, a pokud vyjde námi vypočtená hodnota menší, přijmeme H0 (v tomto případě půjde o nezávislé prvky), v opačném případě zamítneme H0 a přijmeme alternativní hypotézu H1 (v tomto případě by šlo o prvky závislé). Fisherův test: Začneme stanovením hypotéz, kde H0 říká, že prvky jsou nezávislé a H1 říká, že prvky jsou závislé. Dále zvolíme hladinu významnosti α (0,05 nebo 0,01). Poté vypočtu novou tabulku, kde nejmenší číslo původní tabulky snížím o 1 a přes marginální četnosti dopočtu zbytek hodnot v tabulce. Takhle pokračuji vytvářením nových tabulek až do té doby než místo nejmenšího čísla nebudu mít nulu. Poté dosadím požadované hodnoty do vzorce na Fisherův test a to z každé tabulky zvlášť. Přičemž to samé dělám pro každou tabulku včetně té výchozí. Pak udělám ∑ všech výsledků (P = Σ Pi) a tuto hodnotu porovnám s hladinou významnosti. Funguje to přesně naopak než u všech jiných testů, a proto když mi mnou vypočtená hodnota vyjde větší než hladina významnosti, přijímám H0 jinak ji zamítám. V případě že přijmeme H0, prvky jsou nezávislé a nemůžeme testovat jejich závislost. V případě zamítnutí H0 a přijetí H1,jsou prvky závislé a můžu měřit sílu závislosti ideálně koeficientem asociace. - 176 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Kontingence: Je vztah dvou či více kvalitativních znaků, z nichž alespoň jeden je znakem množným. Vše se zapisuje do kontingenční tabulky. • Úloha korelace: V kontingenční tabulce neumíme vyjádřit průběh závislosti, ale měříme těsnost závislosti. Máme na výběr 4 možnosti, a to Cramerův koeficient, Čuprovův koeficient kontingence, Normovaný koeficient kontingence a nakonec Pearsonův koeficient kontingence, který je ze všech nejhorší. Všechny koeficienty pro měření síly závislosti jsou v intervalu (0,1> • Podmínky na použití χ2 testu: 80% teoretických očekávaných četností musí být větší než 5 a žádná nesmí být menší než 1. Pokud podmínka není splněna, dělá se slučování skupin. • χ2 test: Stejný princip jako u asociace, akorát s jiným vzorečkem pro χ2 test a testovací kritérium. • Slučování skupin: Dělá se v případě nesplnění požadavků na χ2 testu. Můžeme slučovat řádky nebo sloupce, přičemž slučování se provádí logicky (např. spojím spíše ano a ano, případně velmi krásně, krásně). Pokud by nešlo provést spojení a nebyla by splněná podmínka tak kontingenční tabulka nedává smysl. Vždy musí zůstat aspoň 2x2 tabulka. Po sloučení přepočítám teoretické očekávané četnosti, a pokud již jsou splněny podmínky χ2 testu, udělám χ2 test. Pokud vyjdou závislé, mohu vypočítat sílu závislosti. Pokud by se stalo, že po přepočítání teoretických očekávaných četností by stále nebyla splněna podmínka, znovu bych spojoval řádky nebo sloupce a to až do té doby než by podmínka byla splněna a pak zase udělám χ2 test.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 18. Časové řady a jejich aplikace při analýze ekonomických jevů a procesů. Trend a sezónnost v časových řadách. Prognózy na základě časových řad. Otázka č. 18 – Studijní materiál 1 Časová řada Je posloupnost v čase uspořádaných údajů, kdy každý údaj se vztahuje k určitému časovému bodu (okamžiku) nebo časovému úseku (intervalu) Úkoly analýzy časových řad: 1. Číselně popsat dynamiku vývoje ukazatele v časové řadě, 2. Předpovídat úroveň ukazatele v budoucnosti Druhy časových řad a) Časové hledisko – Okamžikové - Sestaveny z údajů k rozhodujícímu okamžiku, Součet časové řady nemá smysl, Průměrem je chronologický průměr, Př.: sčítání lidí, počty zaměstnanců k 1.1. – Intervalové - Obsahují údaje, které se vztahují k určitému časovému intervalu, Součet časové řady má smysl, Průměrem je prostý aritmetický průměr, Př.: vývoj HDP v letech 2000-2011 (interval-celý rok) b) Hledisko periodicity zjišťování - Krátkodobé (denní, týdenní, měsíční) - Střednědobé (roční) - Dlouhodobé c) Z hlediska druhů sledovaných ukazatelů - Primární (vývoj HDP v letech, vývoj sklizně v letech, …) - Sekundární (vypočteny na základě primárních ukazatelů – HDP na obyvatele v letech …) d) Podle způsobu vyjádření údajů - Naturální - Peněžní Srovnatelnost údajů v časové řadě a) Věcné srovnatelnosti (= stejně nazývané ukazatele musí být stejně metodicky vymezeny) b) Prostorové srovnatelnosti (= ukazatel zjištěn na stejném území) c) Časové srovnatelnosti (= respektovat u intervalových časových řad – velikost ukazatele souvisí s délkou intervalu) Elementární (= základní) charakteristiky časových řad - Používají se k popisu časových řad, slouží k rychlé informaci o charakteru a chování ukazatele v časové řadě = dynamika vývoje a) diference různého řádu - absolutní (stejné jednotky), relativní (%) b) tempa a průměrná tempa růstu c) průměry Charakteristické rysy průběhu časových řad: a) Trendová složka = trend (dlouhodobá vývojová tendence) b) Periodická složka = periodické kolísání o Sezónní – pravidelná, krátkodobý charakter (např. nezaměstnanost) o Cyklická – nepravidelná, dlouhodobý charakter c) Náhodná složka = náhodné kolísání Analýza časových řad pomocí klasického modelu = Vychází z dekompozice časové řady na její základní složky: trendovou, sezónní, cyklickou a náhodnou, rozklad může být dvojího typu: aditivní, multiplikativní (se převádí na aditivní pomocí logaritmické transformace)
- 177 -
- 178 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Popis a analýza neperiodických řad s trendem a) Monotónní – vykazují jediný směr vývoje b) Nemonotónní – střídá se vzestup a sestup ukazatele Popis trendové složky v časové řadě a) Graficky – pomocí korelačního pole b) Mechanicky – pomocí klouzavých průměrů (= vyloučeno kolísání), Za lichý počet období (nejméně za 3 období), za sudý počet období (centralizovat) c) Analyticky – pomocí trendových funkcí Trendová funkce = obdoba jednoduché regresní funkce, volba ti – Σ ti=0, Σ ti=/n=/0 a) Lineární trendová funkce: (přímka) b) Nelineární trendová funkce: (parabola,kubická parabola,hyperbola) – aditivní modelyMNČ (exponenciální,mocninná) – multiplikativní modely-logaritmická transformace Speciální trendové funkce - Logistický trend, Řetězové funkce Volba vhodné trendové funkce a) Věcně posoudit hodnocený jev b) Vizuální výběr trendové funkce na základě analýzy grafu korelačního pole c) Pomocí vývoje elementárních charakteristik časových řad d) Pomocí indexu korelace nebo determinace (čím vyšší, tím vhodnější funkce) e) Pomocí interpolačních kritérií (pomocí různých chyb – čím menší chyba, tím vhodnější funkce) Analýza periodických časových řad = je výsledkem periodicky působících faktorů = časová řada vždy obsahuje periodické kolísání a může obsahovat trend a náhodné kolísání Podle délky periody: a) Sezónní kolísání (perioda ≤ 1 rok) b) Cyklické kolísání (perioda > 1 rok) Sezónní složka v časové řadě -Týká se odvětví, jako je zemědělství, stavebnictví, cestovní ruch, Sezónní výkyvy mají negativní dopad, Sezónní výkyvy jsou způsobovány dvěma typy faktorů: a) Objektivní (např. střídání ročních období,…) b) Subjektivní (např. tradice, prázdniny,…) sezónní index - popis sezónních výkyvů, Indexy se používají pro opravu predikcí z trendové funkce si=skutečná hodnota yi/“vyrovnaná“hodnota y (celkový a klouzavý průměr, vypočtená hodnota ui) Náhodná složka v časové řadě = je výsledkem náhodně působících faktorů Interpolace časových řad = přibližné určení chybějící hodnoty uvnitř časové řady za předpokladu, že známe sousední hodnoty Možnosti určení chybějící hodnoty 1) Chybějící údaj doplníme prostřednictvím dvou sousedních hodnot (aritmetický průměr těchto hodnot vynásobený průměrným koeficientem růstu) 2) Prostřednictvím všech hodnot (pomocí trendové funkce) - 179 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Extrapolace časových řad = určení hodnot časové řady za horizont známých hodnot (budoucnost/minulost) – statistické prognózování 1) Pomocí klasického (analytického) modelu – trendová funkce a sezónní indexy - Klasický model předpokládá neměnnost dosavadních vývojových tendencí, tzn. každý údaj v časové řadě má stejnou váhu (význam) 2) Pomocí adaptivního modelování - Každý údaj v časové řadě má jinou váhu, nejvyšší váhu mají nejnovější údaje, starší údaje mají nižší váhu, Model se neustále přizpůsobuje novým údajům, Nejsou to spojité funkce, ale trvalé pohyby v korelačním poli - Skupiny adaptivních modelů: Modely exponenciálního vyrovnávání (Brownův, Holtův, Wintersův, model náhodné procházky), Arima modely (modelace procesů) rozebírají náhodnou složku v časové řadě Hodnocení přesnosti prognóz – většinou se provádí ex post (až potom) a) Pseudoprognóza - Zda je odhad v korelaci se skutečností, Časová řada se zkrátí o jedno období, vypočítá se model, vypočte se poslední údaj a porovnává se se skutečnou hodnotou b) Relativní chyba predikce - Musíme počkat na nejnovější známý údaj c) Interpolační kritéria pro výběr modelů Predikce budoucího vývoje veličiny Pro předpověď platí: k ≤ (n/3) a) Bodová – vypočte se jedna hodnota un+k; kde n-počet členů časové řady, k-počet kroků dopředu b) Intervalová Korelace časových řad - V praxi se často korelují dva či více ukazatelů, které se odvíjejí v časové řadě, zjišťuje se jejich závislost, korelovat lze pouze náhodné kolísání postup: 1. očistíme časovou řadu od trendu a sezónního kolísání 2. nahradíme skutečné hodnoty yi náhodnými odchylkami 3. teprve takto vypočtená data lze korelovat - často se stává, že trendová funkce byla vybrána subjektivně, proto odchylky nevyjadřují náhodné kolísání - mezi 2 po sobě jdoucími hodnotami v čas.řadě existuje tzv. autokorelace (zjišťuje se pomocí testu autokorelace, pokud těmito testy bude autokorelace prokázána, je nutno změnit typ trendové funkce)
Otázka č. 18 – Studijní materiál 2 Časová řada posloupnost v čase seřazených údajů ve směru minulost přítomnost smyslem analýzy časových řad je: hodnocení dynamiky vývoje ukazatele ve stávajícím (preferenčním) období na základě tendencí ukazatele v časové řadě provést předpověď (predikci) Základní druhy časových řad z hlediska časového časové řady intervalové - obsahují údaje, které se vztahují k určitému časovému intervalu - 180 -
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. časové řady okamžikové - z údajů, které se vztahují k určitému, k tzv. rozhodnému okamžiku z hlediska periodicity krátkodobé dlouhodobé (zpravidla roční) podle druhu sledovaných ukazatelů primární (prvotních ukazatelů) sekundární (odvozených ukazatelů) z hlediska způsobu vyjádření údajů naturálních ukazatelů peněžních ukazatelů
Srovnatelnost údajů v časové řadě každá časová řada musí splňovat 3 podmínky: hledisko věcné srovnatelnosti hledisko prostorové srovnatelnosti hledisko časové srovnatelnosti Elementární charakteristiky časových řad slouží k rychlé info o charakteru a chování ukazatele v časové řadě 3 skupiny: diference různého řádu - první absolutní diference, průměrný absolutní přírůstek, druhá absolutní diference tempa a průměrná tempa růstu - první relativní diference (tempo přírůstku), druhá relativní diference (koeficient zrychlení) průměry hodnocených ukazatelů - řetězový index, koeficient růstu, průměrný koeficient růstu, bazický koeficient Charakteristické rysy průběhu časových řad každá časová řada může obsahovat 3 základní složky: trend – dlouhodobá vývojová tendence periodická složka (kolísání) – sezónního nebo charakteru náhodná složka (odchylka, kolísání) – to co se nedá ovlivnit Analýza časových řad pomocí klasického modelu model vychází z dekompozice časové řady na 4 základní složky (trendovou, sezónní, cyklickou a náhodnou) rozklad může být dvojího typu: rozklad aditivní multiplikativní rozklad multiplikativní rozklad se převádí na aditivní pomocí logaritmické transformace Popis trendu v časových řadách graficky (podle osy korelačního pole), mechanicky (pomocí klouzavých průměrů), analyticky pomocí trendové funkce
- 181 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Časové řady lineární trend parabolický trend další nelineární trendové funkce(modely aditivní) - odmocninná funkce, lomená funkce, logaritmická funkce nelineární trendové funkce (modely multiplikativní) - exponenciální funkce, mocninná funkce další trendové funkce - logistická trendová funkce, S- křivka, řetězové funkce, modifikované exponenciální trendy Volba vhodného trendu volba trendu na základě grafu korelačního pole věcné posouzení hodnoceného jevu podle vývoje elementárních charakteristik čas. Řady podle hodnoty indexu korelace Analýza periodických časových řad periodická časová řada obsahuje vždy periodické kolísání, může obsahovat trend a náhodné kolísání podle délky periody rozlišujeme: cyklické kolísání – délka periody je delší než 1 rok sezónní kolísání – délka periody je kratší než 1 rok v praxi bývá nejčastěji periodické kolísání představováno sezónním kolísáním sezónní kolísání se kvantifikuje pomocí sezónních indexů (si) – jsou poměrná čísla skutečných a vyrovnaných hodnot vyrovnané hodnoty: aritmetický průměr skutečných hodnot za období celé periody sezónního cyklu hodnota vypočtená pomocí klouzavých průměrů nebo hodnota vypočtená z trendové funkce Interpolace přibližné určení chybějících hodnot sledovaného ukazatele uvnitř čas. řady za předpokladu, že známe sousední hodnoty 2 způsoby: prostřednictvím 2 sousedních hodnot prostřednictvím všech hodnot čas. řady (pomocí trendové funkce) Extrapolace určení hodnot čas. řady za interval známých hodnot, zpravidla do budoucnosti statistické prognózování - s pomocí trendové funkce a sezónních indexů je možno odhadnout budoucí vývoj za předpokladu neměnnosti dosavadního vývoje adaptivní prognózování - předpokládá, že nejnovější údaje jsou nejcennější - novým hodnotám přiřadí větší váhu než hodnotám starším mezi nejvýznamnější modely adaptivního plánování patří: metoda exponenciálního vyrovnání a metoda harmonických vah Hodnocení přesnosti prognóz provádí se zpravidla metodou ex post (až potom)
- 182 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 18 – Studijní materiál 3
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Predikce (předpověd) budoucího vývoje veličiny bodová x intervalová Korelace časových řad u ekonomických aplikací je často třeba zjistit, jaká je závislost (korelace) mezi 2 ekonomickými ukazateli, z nichž každý se vyvíjí v časové řadě při korelaci čas.řad je třeba každou čas.řadu rozložit na trendovou, periodickou a náhodnou složku, přičemž korelovat lze pouze náhodné kolísání postup: očistíme čas.řadu od trendu a sezónního kolísání nahradíme skutečné hodnoty yi náhodnými odchylkami teprve takto vypočtená data lze korelovat často se stává, že trendová funkce byla vybrána subjektivně, proto odchylky nevyjadřují náhodné kolísání - mezi 2 po sobě jdoucími hodnotami v čas.řadě existuje tzv. autokorelace. autokorelace se zjišťuje pomocí testu autokorelace, pokud těmito testy bude autokorelace prokázána, je nutno změnit typ trendové funkce Trend – lineární
ui = a + b ti………….. a = absolutní člen b = regresní koeficient ti = stupnice nezávisle pr. - parametry zjistíme MNČ
- nelineární – aditivní modely: parabolický trend (parabola 2. a 3. stupně), hyperbolický, odmocniný, logaritmický tr. - multiplikativní: exponenciální, mocninný trend - další používané typy: logistická trendová fce, řetězová fce, modifikované exponenciální trendy Sezónnost – periodické kolísání: dlouhodobé (cyklické, delší než jeden rok) krátkodobé (sezonní, kratší než jeden rok, faktory objektivní (počasí), subjektivní (svátky)) - pro měření intenzity sezónních výkyvů se používají sezonní indexy si - si = skutečná hodnota / teoretická hodnota - teoretická hodnota může být: a) průměr hodnot b) hodnota určená pomocí trendové funkce c) klouzavé průměry - vypočtené sezonní indexy se požívají k opravě predikce
Časová řada = posloupnost v čase seřazených údajů, zpravidla ve směru minulost přítomnost, z nichž každý se vztahuje buď k určitému časovému úseku (intervalu) nebo k časovému bodu (okamžiku) -
smyslem časových řad je: o číselně popsat dynamiku vývoje sledovaných jevů v referenčním období o prognózovat jejich budoucí vývoj
Základní druhy časových řad Z hlediska: a) časového intervalové časové řady o obsahují údaje, které se vztahují k určitému časovému intervalu (k jednomu roku, měsíci, . . .) o např. vývoj HDP v letech 1995 až 2002 okamžikové časové řady o sestaveny k určitému rozhodujícímu okamžiku, součet nemá smysl, průměr se řeší jako průměr chronologický: o např. stav zaměstnanců v roce 1998 b) -
periodicity krátkodobé - týdenní, měsíční, čtvrtletní (v ekonomice se vyskytují nejčastěji) dlouhodobé
c) -
druhu sledovaných ukazatelů ČŘ primárních ukazatelů – tj. ukazatelů prvotních ČŘ sekundárních ukazatelů – tj. ukazatelů odvozených
d) -
dle způsobu vyjadřování údajů ČŘ naturálních ukazatelů ČŘ peněžních ukazatelů
Srovnatelnost údajů v časových řadách každá časová řada musí splňovat 3 hlediska srovnatelnosti: a) hledisko věcné srovnatelnosti stejně nazývané ukazatele nemusí být stejně obsahově vymezeny b) hledisko prostorové srovnatelnosti rozdělení ČR, vnitřní reorganizace státu c) hledisko časové srovnatelnosti nutné respektovat u intervalových časových řad Elementární charakteristiky časových řad hodnocení vývoje daného ukazatele slouží k rychlé informaci o charakteru a chování ukazatele v časové řadě
- 183 -
- 184 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Charakteristické rysy průběhu časových řad o trend dlouhodobá vývojová tendence dlouhodobý základní směr vývoje o periodická složka (periodické kolísání) charakteru: • sezónního – délka periody je menší nebo rovna 1 rok • cyklického – délka periody je větší než 1 rok o náhodná složka je opravdu téměř ve všech časových řadách dle přítomnosti jednotlivých složek se časové řady člení na: o periodické a neperiodické ČŘ o ČŘ s trendem nebo ČŘ stacionární Popis a analýza neperiodických časových řad s trendem tyto časové řady lze členit na: o ČŘ monotónní – má jeden základní směr vývoje, který zásadně převažuje o ČŘ nemonotónní – má více tendencí, které zjišťujeme Popis trendu v časových řadách o Graficky - pomocí korelačního pole o Mechanicky - pomocí klouzavých průměrů • klouzavé průměry z lichého počtu období • klouzavé průměry ze sudého počtu období klouzavé průměry očišťují časovou řadu od periodického a náhodného kolísání o analyticky to znamená popsat tento trend pomocí trendových funkcí Lineární trend • Nejjednodušší typ trendové funkce Lineární trendová funkce má tvar: u i = a + b ti Parametry lineární trendové funkce – zjistíme pomocí metody nejmenších čtverců: ∑ (yi – ui)2 → minimum o A) pomocí maticového počtu o B) pomocí soustavy normálních rovnic Index korelace stupeň přiléhavosti trendové funkce ke skutečným údajům v časové řadě vyjadřujeme pomocí indexu korelace < 0,1 > Index determinace I2 Udává nám, z kolika % je změna hodno údajů v časové řadě vysvětlená změnou času (tj. trendovou funkcí) - 185 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Nelineární trend a) modely aditivní o parabolický trend – parabola 2. stupně o parabolický trend – parabola 3. stupně o hyperbolický trend o odmocninný trend o logaritmický trend b) modely multiplikativní o exponenciální trend o mocninný trend Analýza periodických časových řad tento typ časové řady vždy obsahuje periodické kolísání; může obsahovat trend a zpravidla obsahuje náhodné kolísání periodická složka je důsledkem působení periodicky se opakujícího faktoru na výsledný jev periodické kolísání: a) kolísání dlouhodobé (cyklické) – délka periody je větší než 1 rok b) kolísání krátkodobé (sezónní) – délka periody je menší nebo rovna 1 roku o sezónní kolísání je výsledkem působení objektivních faktorů (tzn. počasí) – týká se zemědělství, stavebnictví, cestovního ruchu . . . a dále také výsledkem působení subjektivních faktorů – prázdniny, svátky, náboženství . . . Náhodná složka v časových řadách nebo též tzv. náhodné kolísání náhodné kolísání se kvantifikuje pomocí absolutní a relativní průměrné odchylky Interpolace a extrapolace časových řad Interpolace časových řad = přibližné určení chybějící hodnoty sledovaného ukazatele uvnitř časové řady za předpokladu, že známe sousední hodnoty a) prostřednictvím sousedních hodnot pomocí aritmetického průměru těchto sousedních hodnot * průměrný koeficient růstu celé časové řady b) prostřednictvím všech hodnot časové řady z trendové funkce Extrapolace časových řad = určení hodnot časové řady za interval známých hodnot zpravidla do budoucnosti jedná se o tzv. statistické prognózování, kdy prostřednictvím trendových funkcí a sezónních indexů je možno odhadnout budoucí vývoj tento klasický postup předpokládá neměnnost dosavadního vývoje i do budoucnosti Korelace časových řad = měření těsnosti závislosti máme 2 a více ukazatelé v ČŘ, které se budou korelovat v ekonomických aplikacích často zjišťujeme míru závislosti (souvislosti) mezi 2 či více ukazateli, kteří se vyvíjejí v časové řadě - 186 -
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. při korelaci časových řad je třeba řadu rozložit na trendovou, periodickou a sezónní složku korelovat lze pouze náhodné složky
Postup při korelaci časových řad: 1) očistíme každou časovou řadu od trendu a periodického kolísání 2) náhodnou složku vyjádříme pro každý údaj v časové řadě jako odchylku: 3) často se stává, že trendová funkce je vybrána subjektivně (špatně) – tím odchylky nevystihují správně náhodnou složku v časové řadě – odchylky nejsou uspořádány náhodně a může mezi nimi existovat autokorelace o autokorelace = korelace mezi sousedními odchylkami od trendu ---korelační koeficient lze použít u řad, které nejsou autokorelovány o k ověření autokorelace se používá koeficient autokorelace o ty koeficienty autokorelace se pak testují a pokud je r1 statisticky významné, pak byla prokázána autokorelace Otázka č. 18 – Studijní materiál 4 Časové řady a jejich aplikace při analýze ekonomických jevů a procesů: -
-
časová řada je posloupnost v čase seřazených údajů ve směru minulost, přítomnost, z nichž každý se vztahuje k určité hodnotě časového parametru, buď úseku (období) nebo bodu (okamžiku) rozbor časových řad má značný význam nejen ve statistice, umožňuje sledovat a analyzovat dynamiku sledovaných jevů a je významným nástrojem při sestavování plánů a prognóz ukazatelů
Druhy časových řad: 1.
2.
3.
z hlediska časového a) intervalové - obsahují údaje, které se vztahují k určitému časovému intervalu (např. tržby firmy v jednotlivých měsících roku 2002), součet údajů intervalové časové řady má zpravidla reálný význam; průměr se počítá jako prostý aritmetický průměr b) okamžikové - jsou složeny z údajů, které se vztahují k určitému časovému okamžiku (např. počet pracovníků k prvnímu dni daného měsíce); součet hodnot okamžikové časové řady nemá reálný význam; průměr se počítá jako chronologický průměr z hlediska periodicity a) krátkodobé - měsíční, čtvrtletní, pololetní b) dlouhodobé - s roční a víceletou periodicitou z hlediska druhu sledovaných ukazatelů a) primární - časové řady původních ukazatelů (např. objem sklizně, plocha sklizně) b) sekundární - časové řady odvozených ukazatelů (např. ha výnos) ▪ součtové časové řady ▪ časové řady poměrových čísel ▪ časové řady klouzavých průměrů - 187 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 4. z hlediska způsobu vyjádření ukazatelů a) č.ř. naturálních ukazatelů b) č.ř. peněžních ukazatelů Srovnatelnost údajů v časové řadě: -
každá časová řada musí splňovat 3 hlediska srovnatelnosti údajů:
1.
hledisko věcné srovnatelnosti - stejně nazývané ukazatele nemusí být vždy stejně obsahově vymezeny (např. změna metodiky, cenové hladiny, technického rozvoje…) hledisko prostorové srovnatelnosti - souvisí např. s reorganizací krajů v ČR hledisko časové srovnatelnosti - je nutné respektovat u intervalových časových řad, aby délka intervalu byla všude stejná (např. různý počet dní jednotlivých měsíců roku)
2. 3.
Elementární charakteristiky časových řad slouží k rychlé informaci o charakteru a chování ukazatele v časové řadě 1. diference různého řádu (absolutní a relativní) ▪ První absolutní diference ▪ Průměrný absolutní přírůstek = ∅ z první absolutní diference v absolutních jednotkách ▪ Druhá absolutní diference = diference zrychlení ▪ První relativní diference = tempo přírůstku % nebo bezrozměrné jednotky ▪ Druhá relativní diference = diference zrychlení 2. tempa a ∅ tempa růstu ▪ Řetězový index (= index růstu = tempo růstu) - porovnáváme novou hodnotu s hodnotou předchozí; yi/yi-1 ▪ Koeficient růstu - řetězový index * 100 ▪ Průměrný koeficient růstu ▪ Bazický index yi/y0 3. průměry hodnot ukazatelů Charakteristické rysy průběhu časových řad obecně může časová řada obsahovat: 1. trend - tj. dlouhodobý základní směr vývoje 2. periodická složka (kolísání) - buď sezónního charakteru nebo dlouhodobého cyklického charakteru 3. náhodná složka (odchylka od trendu a periodického kolísání) 1. 2. 3. 4.
podle přítomnosti jednotlivých složek v č.ř. lze časové řady členit na: č.ř. s trendem č.ř. stacionární (bez trendu) č.ř. periodické č.ř. neperiodické - 188 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Modely časových řad 1. 2.
základem je dekompozice řady na 4 prvky - trend, sezónní kolísání, cyklické kolísání, náhodné kolísání aditivní model (prvky se sčítají) multiplikativní model (prvky se násobí)
logaritmickou transformací lze model 2 převést na model 1 v praxi se vyskytují také modely smíšené Trend a sezónnost v časových řadách: Popis a analýza neperiodických časových řad s trendem z hlediska směru trendové složky v č.ř. rozlišujeme časové řady: ▪ monotónní - mají jeden základní směr vývoje ▪ nemonotónní - vykazují převážně vzestup nebo sestup, přičemž jeho rychlost se v průběhu vývoje ukazatele mění Popis trendu v časové řadě: 1. graficky - podle osy korelačního pole 2. mechanicky - pomocí klouzavých průměrů, které očišťují č.ř. od periodického a náhodného kolísání 3. analyticky - pomocí tzv. trendové funkce, ta je obdobou jednoduché regresní funkce, kde nezávislá proměnná je čas a závislá proměnná je hodnota ukazatele v časové řadě; při určování parametrů trendové fce postupujeme stejně jako u regresních fcí -
Popis trendu pomocí trendových funkcí
vyrovnaná hodnota č.ř.
regresní
koeficient a) lineární trendová funkce (lineární trend) - nejjednodušší případ; u = a + bt absolutní člen stupnice nezávisle proměnné - regresní koeficient udává průměrnou změnu č.ř. při změně času o jednotku - parametry (a,b) se řeší metodou nejmenších čtverců - stupeň přiléhavosti trendové funkce ke skutečným hodnotám vyjadřuje: ▪ index korelace I ▪ index determinace I2 - vyjadřuje z kolika % je změna hodnot v čas. řadě vysvětlitelná trendovou složkou b) další typy trendových funkcí - aditivní modely (k výpočtu lze použít MNČ) ▪ parabolický trend 2. stupně ▪ parabolický trend 3. stupně - má 2 extrémy ▪ hyperbola 1. stupně ▪ logaritmická fce ▪ odmocninná fce c) multiplikativní modely (řešíme pomocí transformace na aditivní model) ▪ exponenciální ▪ mocninná - 189 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. d) další typy ▪ logistická trendová fce - nahradí se S-křivkou ▪ řetězová trendová fce ▪ modifikované exponenciální trendy Výběr vhodné trendové funkce: 1. posoudíme věcně hodnocený jev 2. zakreslíme graf korelačního pole 3. posoudíme index korelace (čím vyšší, tím lépe popisuje vývoj časové řady) 4. posoudíme hodnoty elementárních charakteristik časových řad Analýza periodických časových řad periodické časové řady zpravidla obsahují trend, vždy periodické kolísání a náhodné kolísání periodická složka je důsledkem působení periodicky se opakujících faktorů na sledovaný jev podle délky periody rozlišujeme: ▪ cyklické kolísání (perioda > 1 rok) ▪ sezónní kolísání (perioda ≤ 1 rok) - v praxi je periodické kolísání nejčastěji reprezentováno sezónním kolísáním Interpolace a extrapolace časových řad: Interpolace = přibližné určení chybějící hodnoty sledovaného ukazatele časové řady za předpokladu, že známe sousední hodnoty. Provádí se 2 způsoby: a) prostřednictvím 2 sousedních hodnot (pomocí jejich aritmetického průměru a průměrného koeficientu růstu celé časové řady) b) prostřednictvím všech hodnot časové řady (z trendové funkce) Extrapolace = určení hodnot časové řady za interval známých hodnot a to zpravidla do budoucího vývoje, jedná se o tzv. statistické prognózování, kdy s pomocí trendových funkcí a sezónních indexů je možno odhadnout budoucí vývoj. Uvedený postup naráží předpoklad neměnnosti podmínek. Nevýhodou uvedeného postupu je skutečnost, že všem hodnotám v časové řadě se přikládá stejná váha. Tuto nevýhodu odstraňuje tzv. adaptivní prognózování, které novým údajům v časové řadě přikládá větší váhu a starším údajům váhu menší. Respektuje tedy stárnutí informace. Metody adaptivního prognózování = metody exponenciálního vyrovnávání: 1. Holtovo exponenciální vyrovnávání 2. Brownovo exponenciální vyrovnávání 3. Wintersonovo exponenciální vyrovnávání Hodnocení přesnosti vypočtených prognóz: Zpravidla se provádí ex-post (následně). Můžeme to dělat celou řadou charakteristik, z nichž nejjednodušší je relativní chyba predikce:
ur =
prognóza − skutečnost ⋅ 100 [%] skutečnost .
Pokud je ur ≤ 5 %, tak se prognóza považuje za dostatečně přesnou a použitý model je vhodný pro delší předpovědi. - 190 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Statistické prognózování: Předpověď budoucího vývoje veličiny lze provést bodově nebo intervalově:
•
y′ + k
•
(n = počet členů časové řady, k = počet kroků dopředu) a) bodová: n b) intervalová: Doporučuje se, aby k ≤ 1/3 n (z desetileté řady na 3 roky dopředu) Korelace časových řad: V ekonomice časových řad velmi často posuzujeme míru závislosti mezi 2 či více ekonomickými ukazateli, přičemž, každý z nich se odvíjí v časové řadě. Ze statistického hlediska se jedná o korelaci časových řad. Při korelaci časových řad je třeba časovou řadu rozložit na trend, periodické kolísání a náhodné kolísání. Korelovat lze pouze náhodné složky, které jsou pro každou časovou řadu jedinečné a náhodně rozdělené. Jinak by mohlo dojít k tzv. zdánlivé neboli falešné korelaci. Korelace se lze zbavit vyloučením trendu. Postup při korelaci časových řad: 1. Očištění časové řady od trendu a periodického kolísání. Náhodnou složku pak
y)
vyjádříme jako odchylku (yi – ui) v časové řadě s trendem, jako odchylku (yi – v časové řadě bez trendu. Teprve tyto odchylky lze korelovat. 2. Trendová funkce bývá často vybírána subjektivně (špatně). Proto odchylky nevystihují správně náhodnou složku. Odchylky nebudou v čase náhodně uspořádány a bude mezi nimi existovat tzv. autokorelace (závislost mezi po sobě následujícími členy v časové řadě). Korelační koeficient lze určit u časových řad, které nejsou autokorelovány. K ověření autokorelace se používá testů autokorelace. Mírou závislosti po sobě jdoucích hodnot v časové řadě je koeficient autokorelace. Nízké a nevýznamné hodnoty koeficientu autokorelace umožňují přistoupit k výpočtun koeficientu korelace. 3. Výpočet koeficientu korelace náhodných složek xt − xt′ yt − y t′ x1, x2, …, xn = časová řada jednoho ukazatele t =1 x´1, x´2, …, x´n = vyrovnané hodnoty rxy = 2 n n y1, y2, …, yn = časová řada druhého ukazatele y´1, y´2, …, y´n = vyrovnané hodnoty xt − xt′ ⋅ y t − yt′ t = 1, 2, 3, …, n = čas t =1 t =1 Harmonická analýza: V některých časových řadách se přísně pravidelně odchylují skutečné hodnoty od celkové tendence. Graf připomíná spojité periodické funkce goniometrického typu, z nichž nejčastější je sinusoida. Souhrn postupů používaných ke studiu vlnitých pohybů v přírodních jevech se nazývá harmonická analýza = nejvhodnější způsob analýzy periodicity u periodické časové řady – nejčastější je modifikace Fourierovy analýzy.
∑(
∑(
)(
) ∑(
)
)
Otázka č. 18 – Studijní materiál 5 Predikce (předpověď) budoucího vývoje veličiny: • Bodový: Dosadím do trendové funkce • Intervalový: Intervalová predikce pomocí vzorce na intervalový odhad Prognózy na základě časových řad: Ukázáno na příkladu státního dluhu při elementárních charakteristikách. - 191 -
• • • •
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. První absolutní diference: Hodnota státního dluhu v novém roce – hodnota státního dluhu o rok předtím. Vyjde mi, o kolik se státní dluh snížil, nebo zvýšil. Průměrný absolutní přírůstek: (Hodnota na konci zkoumaného období – hodnota na začátku) / (počet let -1) Vyjde nám, o kolik se průměrně zvýšil státní dluh. Koeficient růstu (řetězový index): Hodnota státního dluhu v novém roce / hodnota státního dluhu o rok předtím. Vyjde nám, o kolik % se státní dluh snížil nebo zvýšil. Bazický index: Poměřuje nějaký konkrétní daný rok k úplnému počátku vždy podílem hodnot. Průměrný koeficient růstu: Zjistí podle vzorečku, o kolik % se průměrně státní dluh zvyšoval, nebo snižoval Očekávaná úroveň státního dluhu v konkrétním roce: Zjistí očekávanou hodnotu v konkrétním roce.
Analýza časových řad pomocí klasického modelu: Dělí časovou řadu na 4 složky a to na trendovou, sezónní, cyklickou a nahodilou. Popis a analýza neperiodických časových řad s trendem: Neobsahuje periodické kolísání, obsahuje trend a z pravidla i nahodilé kolísání. • Graficky: Pomocí korelačního pole • Mechanicky: Pomocí klouzavých průměrů • Analyticky: Pomocí trendových funkcí (nezávisle proměnnou je čas, závisle proměnnou je ukazatel v časové řadě) Analýza periodických časových řad: Periodická časová řada obsahuje vždy periodické kolísání (v praxi bývá nejčastěji představeno sezónním kolísáním), může obsahovat i trend a náhodné kolísání. • Podle délky periody: Cyklické kolísání (délka periody je delší než 1 rok), sezónní kolísání (délka periody je kratší než 1 rok, počítá se pomocí sezónních indexů (podíl, poměrné číslo)). Otázka č. 18 – Studijní materiál 6 • • • • • •
Časová řada: je posloupnost v čase uspořádaných údajů, kdy každý údaj se vztahuje k určitému časovému bodu (okamžiku) nebo časovému úseku (intervalu) Uplatnění časových řad sed často objevuje v prognózách určitého vývoje. Sledujeme výnosnost brambor za 10let a chceme zjistit přibližný výnos v 11roce. Prognóza může být i do minulosti, například jaká byla teplota v roce 1620….. Při počítání používáme stejných principů jako u lin. Korelace a regrese, s tím rozdílem že místo roku dáváme čísla aby dali součet 0, např.: -2,-1,0,1,2 nebo -5,-3,-1,1,3,5. Větší problém bývá při počítání sezónnosti. Například jaký bude výnos brambor v lednu žádný. Musíme srovnávat například jen čtvrtletí, či stejné měsíce. Interpolace: přibližné určení chybějící hodnoty uvnitř časové řady, za předpokladu, že známe sousední hodnoty. Extrapolace: určení hodnot časové řady za horizont známých hodnot (budoucnost/minulost) statistické prognózování - 192 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 19. Indexní analýza. Individuální a souhrnné indexy. Rozklad indexů. Otázka č. 19 – Studijní materiál 1 Indexní analýza = teorie indexů - pomocí ní provádíme srovnávání indexů 3 hlediska srovnání: věcné (srovnání průměrné mzdy…), prostorové (nezaměstnanost ve 2 regionech), časové (vývoj v čase) Index – poměr dvou hodnot téhož ukazatele bez ohledu na typ srovnání, srovnávat lze pouze ukazatele, které jsou obsahově stejně vymezeny dělení ukazatelů: - extenzivní (charakteristiky množství, objemu…získáme je z bezprostředního měření, vážení), intenzivní (vyjadřuje úroveň nějakého jevu, musíme je spočítat), stejnorodé, nestejnorodé Individuální indexy a) množství - bez shrnování (u jednoho podniku): I1/0 = q1/q0 - se shrnováním (za všechny podniky): I1/0 = Σq1/Σq0 b) úrovně - bez shrnování: I1/0 = p1/p0 - se shrnováním: index proměnlivého složení, index stálého složení – váhy ustálené na úrovni základního období nebo - váhy ustálené na úrovni běžného období Souhrnné indexy a) množství - nejsou souměřitelné, součet nemá smysl, snažíme se o tzv. podmíněnou souměřitelnost a tou dosahujeme pomocí souměřitelů (většinou intenzitní ukazatel např. ceny za naturální jednotku) ceny základního období…Σq1c0/Σq0c0 ceny běžného období…Σq1c1/Σq0c0 stálá cena nebo průměr cen základního a běžného období…Σq1c/Σq0c b) úrovně 1. V čitateli je stejnorodý, ve jmenovateli je nestejnorodý Laspeyresův index (u nás se používá při výpočtu inflace) Paascheho index (v Evropě při výpočtu inflace) Fisherův cenový index (aritmetický průměr dvou předchozích, špatná interpretovatelnost) Loweho index (význam především pro dlouhodobou srovnatelnost cen) modernější typy cenových indexů: Edgeworthův-marshallův index, Montgomeryho index 2. V čitateli je ukazatel nestejnorodý, ve jmenovateli stejnorodý - lze aplikovat na cenové indexy 3. V čitateli i ve jmenovateli ukazatele nestejnorodé - nelze upravit
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Otázka č. 19 – Studijní materiál 2 pomocí indexní analýzy provádíme srovnávání ukazatelů o podíl o rozdíl 3 hlediska srovnávání: o věcné – srovnávání průměrné mzdy o prostorové – nezaměstnanost ve 2 regionech o časové – z hlediska vývoje daného ukazatele v čase Index = vždy poměr dvou hodnot téhož ukazatele bez ohledu na typ srovnávání v praxi – nejčastěji časové hledisko poměrové číslo (zlomek) základ indexu = jmenovatel indexu (zlomku) Dělení ukazatelů: a) extenzitní charakteristiky množství, objemu, úhrny – tedy sledujeme extenzitu jevu získáme je z bezprostředního měření, vážení, pozorování . . . snadno se shrnují pomocí součtů – lze je bezprostředně sčítat b) intenzitní vyjadřují úroveň; hladinu – tedy intenzitu nějakého jevu průměrná mzda, průměrný ha výnos shrnujeme je pomocí podílu součtů extenzitních ukazatelů a podíly jsou vyjádřitelné ve formě váženého aritmetického průměru nebo ve formě harmonického průměru (tj. speciální průměr pro indexní analýzu) o
o o o
Indexy
Individuální (indexy stejnorodých ukazatelů) množství (extenzitní)
- 193 -
lze-li extenzitní ukazatel shrnovat součtem v přirozených měrných jednotkách, pak se jedná o ukazatel stejnorodý (hmotnost přepravovaných výrobků) takový extenzitní ukazatel, který nelze bezprostředně sčítat, se nazývá nestejnorodý (objem produkce různých zemědělských plodin) bude-li v čitateli i jmenovateli stejnorodý intenzitní ukazatel – pak výsledný intenzitní ukazatel bude opět ukazatelem stejnorodým když jeden z ukazatelů je nestejnorodý, pak výsledný ukazatel bude též nestejnorodý (úroveň cen různých zemědělských produktů)
Souhrnné (indexy nestejnorodých ukazatelů)
úrovně (intenzitní)
množství (extenzitní) - 194 -
úrovně (intenzitní)
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Individuální indexy a) množství extenzitní ukazatelé zkoumáme nějaké období b) -
úrovně stejnorodé intenzitní ukazatelé
Indexy struktury vliv samotné změny extenzitního ukazatele – jak se změní průměrná mzda pod vlivem samotné změny pracovníků Indexy souhrnné a) množství nestejnorodé extenzitní ukazatelé prostý součet nemá smysl = ukazatelé nesouměřitelné např. objem různorodé produkce na farmě snažíme se o tzv. podmíněnou souměřitelnost a tu dosahujeme pomocí souměřitelů: o obvykle je jím nějaký intenzitní ukazatel o např. u krmiv – kalorická hodnota krmiv o nejčastěji se používá jako souměřitelů ceny za naturální měrnou jednotku o souměřitelé – hrají roli vah indexů 1) ceny základního období - souměřitel 2) ceny běžného období - souměřitel 3) stálá cena nebo průměr ceny základního a běžného období souměřitel Souhrnné indexy b) úrovně indexy nestejnorodých ukazatelů intenzitních máme 3 typy – záleží na tom, co je ve jmenovateli a co v čitateli: 1. typ: v čitateli je stejnorodý a ve jmenovateli je nestejnorodý např. ceny za jednotku různých výrobků ukazatelé souměřitelní, ale nestejnorodí nejvíce používané indexy – celá skupina tzv. cenových indexů o cenové indexy hodnotí vývoj cen o starší typy cenových indexů: Laspeyusův index Paascheho index • Používá se v Evropě při výpočtu inflace • Více zdůrazňuje dynamiku společenského vývoje Fisherův cenový index Loweho index • Má význam především pro dlouhodobou srovnatelnost cen - 195 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. 2. typ: v čitateli je ukazatel nestejnorodý a ve jmenovateli je ukazatel stejnorodý např. produktivita práce 3. typ: v čitateli i ve jmenovateli se jedná o ukazatele nestejnorodé nedá se s tím dělat vůbec nic Rozklad některých indexů má význam především analytický je výhodnější i když jsou stejnorodí ukazatelé jedná se o tzv. fázový rozklad nejprve dochází ke změně q (lze to nadefinovat i obráceně – tj. nejprve dojde ke změně p) intenzitní ukazatel = cena --------- hodnotový index, který lze rozložit na součin indexu cenového a objemového Otázka č. 19 – Studijní materiál 3 Indexní analýza: Nachází se na pomezí matematické statistiky a ekonomických teorií. Pomocí indexní analýzy srovnáváme ukazatele (např. počet pracovníků, spotřeba potravin, průměrná mzda atd.), což provádíme pomocí podílů (poměrů) či rozdílů hodnot uvažovaného ukazatele. Hlediska srovnávání: věcná: např. průměrná dojivost zemědělských družstev; prostorová: např. mzda v Severočeském a Jihočeském kraji (vyskytuje se nejčastěji); časová: nap. inflace v roce 1999 a 2000. Index: Je poměr dvou hodnot téhož ukazatele bez ohledu a to, jestli se jedná o srovnání z věcného, prostorového či časového hlediska. Je to vlastně poměrné číslo, zlomek, bezrozměrná charakteristika vyjádřená většinou v procentech. Údaj, který je ve jmenovateli se nazývá základ indexu. Srovnáváme: ukazatele zjištěné přímo měřením, vážením ap.; pomocí indexu můžeme také porovnávat různé statistické charakteristiky (variační koeficient, průměr, rozptyl, směrodatnou odchylku atd.) Srovnávat lze pouze ukazatele, které jsou obsahově stejně vymezeny (požadavek srovnatelnosti). Např. srovnáváme z hlediska času a v ostatních hlediscích musí být shodně vymezeny. Druhy ukazatelů: extenzivní: charakterizují množství, objem, úhrn, rozsah určitého jevu; získáme je měřením, výpočtem; sčítáme je pomocí součtu, př. počet pracovníků, sklizňové plochy; - 196 -
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. intenzivní: vyjadřují určitou úroveň, hladinu, intenzitu určitého jevu; jsou to poměrné ukazatele; musíme je spočítat, proto vznikají jako podíl dvou extenzivních ukazatelů; shrnujeme je pomocí podílů součtů extenzivních ukazatelů. Tyto podíly lze vyjádřit ve formě váženého aritmetického průměru nebo váženého harmonického průměru, např. průměrná mzda, hektarový výnos.
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Individuální indexy – úrovně: Součet nelze provést pomocí prostého součtu, lze provést pomocí podílů součtů. Jednoduchý: Podíl:
p1
Rozdíl: ∆Ip = p1 – p0
Ip = p0
Druhy indexů: individuální indexy = stejnorodé indexy: množství: extenzivní ukazatel; úrovně: intenzivní ukazatel; souhrnné indexy = nestejnorodé ukazatele: množství: extenzivní ukazatel; úrovně: intenzivní ukazatel. Individuální a souhrnné indexy:
Složený: Index proměnlivého složení: vyjadřuje vliv změny obou ukazatelů
∑pq ∑q = ∑p q ∑q
1 1
I 1p/ 0
1
0
Individuální indexy:
0
Individuální jednoduché srovnávají dvě stejnorodé extenzivní či intenzivní veličiny ve dvou obdobích tak, že při tomto srovnávání není přihlíženo k žádnému shrnování srovnávaných veličin.
Index stálého složení: nebo-li index ustálené váhy srovnávaných průměrů vztažený k základnímu období:
∑pq ∑q ∑p q ∑q
Individuální indexy – množství: základní období, ke kterému srovnáváme značíme indexem = 0; běžné období, které srovnáváme, značíme indexem = 1
1
0
1
Jednoduchý:
0
Podíl:
0
q1
Rozdíl:
1
=
∑pq ∑p q 1
0
0
0
0
průměrový tvar (vážený ar. průměr):
∆Iq = q1 – q0
Iq =
p1
∑p
p0 q0
0
∑p q 0
0
q0 Složený: Σq1
Podíl:
-
Rozdíl: ∆IQ = Σq1 – Σq0
IQ = Σq0
vztažený k běžnému období: vyjadřuje dynamiku vývoje
∑pq ∑q ∑p q ∑q
∑pq pq ∑ p
1 1
Zkoumáme-li vývoj určité veličiny za delší časové období, můžeme tento vývoj charakterizovat výpočtem řady za sebou jdoucích individuálních indexů. Podle toho, k jakému období se porovnání pomocí těchto indexů provádí, rozlišujeme indexy: se stálým základem (bazické): konstruují se tak, že jedno období (nejčastěji první člen řady) se zvolí jako základní a k němu se přirovnávají všechna ostatní období; s pohyblivým základem (řetězové): vzniknout srovnáním dvou po sobě následujících členů řady, tvoří řadu s počtem členů n-1.
- 197 -
1
0
1
1
∑pq = ∑p q
1 1
1 1 0
1 1
1
1
průměrový tvar (vážený harm. průměr):
- 198 -
p0
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Index struktury: měří vliv změny ve složení nositele intenzity na průměrnou změnu intenzivního ukazatele pq
∑ ∑q ∑p q ∑q
0 1
-
1
vztažený k základnímu období:
0 0 0
∑pq ∑q ∑pq ∑q
1 1
-
1
vztažený k běžnému období:
1 0 0
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Souhrnné indexy: Základním problémem srovnávací indexní teorie je měření změn, které nastaly u celého souboru nestejnorodých extenzivních nebo intenzivních veličin. Pro tyto veličiny je charakteristické, že je nelze sčítat a v důsledku toho ani průměrovat hodnoty relativních ukazatelů z nich odvozených. Při konstrukci souhrnných indexů jde v podstatě o to vyjádřit pomocí jednoho čísla změnu stavu souhrnné veličiny, jejíž složky jsou různého typu a jsou vyjádřeny v různých měřících jednotkách. Největší pozornost je věnována souhrnným cenovým a objemovým indexům. Souhrnné indexy – množství: je to nestejnorodý extenzivní ukazatel; prostý součin nemá smysl; jsou nesouměřitelné (např. objem různorodé produkce); snažíme se dosáhnout podmíněné souměřitelnosti, čehož dosahujeme pomocí souměřitelů, což jsou intenzivní ukazatele: kalorie (u potravin); ceny (stálé, nákupní, tržní) – používají se nejčastěji. Souměřitelem je cena základního období:
Index proměnlivého složení lze rozložit na součin indexu stálého složení a indexu struktury:
∑pq ∑q ∑p q ∑q
1 1
0
0
∑pq ∑p q 1
0
0
0
0
∑pq ∑q ∑p q ∑q
1 1
0
0
0
∑pq ∑p q
1 1
0
1
1 0
1
1
c0
I1/ 0 =
∑q
[
]
I 1 / 0 = ∑ q1 c 0 − ∑ q 0 c 0
c0
q0 c0
0
∑q c
0 0
průměr. tvar:
∑p q ∑q ⋅ ∑pq ∑q
1
Souměřitelem je cena běžného období:
0
c1 I 1 / 0 =
1
1
∆
q1
0
0
=
∑q c ∑q c
0 0
0
1
I1/ 0 =
1 1
=
1
∑pq ∑q ⋅ ∑pq ∑q
c0
∑q c ∑q c
1 1 0 1
1
c1
I1/ 0 =
∆
[
c1
]
I 1 / 0 = ∑ q1c1 − ∑ q 0 c1
∑q c qc ∑ q
1 1 1 1 1
průměrový tvar:
q0
Souměřitelem je cena stálá: může to být průměrná cena základního a běžného období. - 199 -
- 200 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Souhrnné indexy – úrovně: Jsou to indexy nestejnorodých intenzivních ukazatelů, které vznikají jako podíl dvou extenzivních ukazatelů: pq p= q v čitateli je ukazatel stejnorodý (pq) a nositelem intenzity q je nestejnorodý ukazatel ve jmenovateli – nejběžnější (např. ceny za jednotku různých výrobků, což jsou nestejnorodé, ale souměřitelné ukazatelé), patří sem cenové indexy:
-
-
q0
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Edgeworthův-Marshallův index: ve tvaru aritmetického, geometrického nebo harmonického průměru (volba záleží na problematice a datech)
c
-
c
I1/ 0
-
q1
I1 / 0 =
geometrický průměr:
c
-
I1 / 0
Paascheho index: produkce běžného období, bude se u nás používat po vstupu do EU
I1/ 0
∑q c = ∑q c
1 1
1 0
∑q c = qc ∑ c
-
q1
1 1
q 0 ⋅ q1 c1 q 0 ⋅ q1 c 0
2q 0 q1 c1 0 + q1 = 2q q ∑ q +0 q1 c0 0 1
∑q
-
Montgomeryho index: je obtížně interpretovatelný
I1 / 0
∑q c ⋅ ∑q c ∑q c ∑q c 0 1
1 1
0 0
1 0
-
Loweho index: používáme stálou produkci, což může být průměrná produkce běžného a základního období
I1/ 0
+ q1 )c 0
harmonický průměr:
c0
I1 / 0 =
∑ ∑
+ q1 )c1
-
Fisherův cenový index: je geometrickým průměrem obou předchozích, odstraňuje nedostatek obou. Je méně používaný, protože je obtížné ho interpretovat
q1q0
0
1 1
1
-
∑ (q ∑ (q
0
aritmetický průměr:
Laspeyresův index: množství ustavuje na základním období, nejběžněji používaný
c1 q 0 c0 ∑ q 0 c1 c0 ∑ = = ∑ q0 c0 ∑ q 0 c0
I1/ 0 =
c1 qc 0 ∑ qc1 c0 ∑ = = ∑ qc 0 ∑ qc 0
- 201 -
-
∑ c1 q1 = ∑c q 0 0
w
w=
c ln 1 c ∑ (c1 q1 − c0 q0 ) ⋅ c q0 ln 1 1 c0 q0
∑c q − ∑c q 1 1
0
0
Σpq je ukazatelem nestejnorodým a q je stejnorodé (např. produktivita práce). Jde o ukazatele nestejnorodé, ale i nesouměřitelné. Srovnáváme převrácené hodnoty a můžeme k této analýze použít všech souhrnných indexů úrovně; Σpq je ukazatelem nestejnorodých a q je též nestejnorodé – nelze srovnávat, jsou nesouměřitelné (např. ukazatel spotřeby různých materiálů na jednotku různorodé produkce).
- 202 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Rozklad indexu: -
rozklad stejnorodého extenzivního ukazatele na složky vyjadřující vliv dvou činitelů: p a q jsou stejnorodé ukazatele:
∑pq ∑q ⋅ ∑q = ∑q ∑ p q ∑q
1 1
∑q p c ∑q p c
0
0
1
1 0
0
-
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. rozklad indexů stejnorodého extenzivního ukazatele na složky vyjadřující vliv tří ukazatelů: p, q, c jsou stejnorodé ukazatelé:
∑ p q ∑q p c ∑q ⋅ ∑q ⋅ ∑q p = ∑q ∑ p q ∑q p c ∑q ∑q p 1 1
1 1
∑pq ∑p q
-
1
1 1
0
0 0
0
1
1
1 1
1
1
0
0
0
0
0
1
0 0
0
0
0
postupných změn -
∑pq ∑p q
1 1
0
=
0
p a q jsou nestejnorodé ukazatele: na základě předpokladu vliv změny q:
∑pq ⋅∑pq ∑p q ∑pq 1
0
1 1
0
0
1
-
0
1 1
0
0
∑p q ⋅∑pq = ∑p q ∑p q 0
1
0
1 1
0
0
1 1
0
-
=
0
∑c q ⋅ ∑c q ∑c q ∑c q 1
0
1 1
0
0
1
0
rozklad na index objemu a Paascheho index:
∑c q ∑c q
1 1
0
0
=
∑c q ⋅ ∑c q ∑c q ∑c q 0 1
1 1
0
0 1
0
1
1 1
0
0 0
=
∑q ∑q
1
p 0 c0
0
p 0 c0
⋅
∑q ∑q
0
p1 c 0
0
p0 c0
⋅
∑q ∑q
0
p 0 c1
0
p0 c0
∑q p c ∑q p c 1
1 1
0
0 0
=
∑q ∑q
1
p 0 c0
0
p 0 c0
⋅
∑q ∑q
0
p1 c 0
0
p0 c0
⋅
∑q ∑q
0
p 0 c1
0
p0 c0
⋅z
1
Hodnotový index: když se p změní na c, rozkládá se na cenový index a index fyzického objemu rozklad na Laspeyresův index a index objemu:
∑c q ∑c q
∑q p c ∑q p c
Nedostatkem je víceznačnost rozkladu indexu, což vede k jednoznačnému rozkladu (kde z = zbytkový člen = vliv ostatních ukazatelů, které nejsou v modelu zařazeny):
vliv změny p:
∑pq ∑p q
p, q, c jsou nestejnorodé ukazatele: používá se častěji, z hlediska analýzy je vhodnější, někdy se používá u stejnorodých ukazatelů
Otázka č. 19 – Studijní materiál 4 Indexní analýza: Slouží k porovnání indexů. Index je vlastně poměr dvou hodnot téhož ukazatele, které jsou obsahově stejně vymezeny. • Věcné hledisko: Srovnání průměrné mzdy • Časové hledisko: Porovná základní a běžné období • Prostorové hledisko: Porovná nezaměstnanost ve dvou regionech Ukazatele podle povahy: • Extenzivní: Měří množství, počet, objem (získáme je z měření, vážení, počítáním) • Intenzivní: Vyjadřuje intenzitu zkoumaného jevu, poměrové ukazatele (podíl dvou extenzivních ukazatelů - cena za jednotku, produktivita práce) Ukazatele podle stejnorodosti ukazatelů: • Stejnorodé: Stejné povahy, můžeme je sčítat dohromady (produkce pšenice v okrese od všech pěstitelů) • Nestejnorodé: Prostý součet nedává smysl (agregovaná produkce vepřového masa a jahod dohromady)
- 203 -
- 204 -
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Indexy: Bazické (časová řada je počítaná vždy ke stejnému (bazickému) základu), řetězové (srovnání vždy za sebou jdoucí hodnoty v časové řadě) • Individuální: Indexy stejnorodých ukazatelů. o Index množství: Bez shrnování (u jednoho podniku), se shrnováním (za všechny podniky) o Index úrovně: Bez shrnování, se shrnováním (Index proměnlivého složení, index stálého složení, index stálého složení) • Souhrnné: Indexy nestejnorodých ukazatelů. o Index množství: Nejsou souměřitelné, součet nemá smysl. o Index úrovně: V čitateli stejnorodé a ve jmenovateli nestejnorodé. Paascheho index (Deflátor HDP): Používá se v Evropě při výpočtu inflace. Zohledňuje změnu cen i změnu množství. Poměřuje vlastně prodané množství v aktuálním roce za cenu v aktuálním roce ku cenám základního období s množstvím aktuálního období. Zjišťuje vlastně změnu ceny aplikovanou na množství aktuálního roku. Laspeyresův index (Index spotřebitelských cen CPI): Používá se při výpočtu inflace v ČR. Stále poměřuje k P0Q0. Nezohledňuje změnu množství, ale jen ceny. Poměřuje vlastně prodané množství základního období za cenu v aktuálním roce ku cenám základního období s množstvím základního období. Zjišťuje vlastně změnu ceny aplikovanou na množství základního období. Fisherův cenový index: Aritmetický průměr dvou předchozích let. Rozklad cenových indexů: • Rozklad dvoufaktorového indexu na složky vyjadřující vliv dvou činitelů: o
o
Stejnorodé ukazatele p, q:
∑dIeI ∑eI ∑dfef ∑ef
=
∑dfeI ∑eI ∑dfef ∑ef
*
∑dIeI ∑eI ∑dfeI ∑eI
(Index proměnlivého
složení = Index struktury * Index stálého složení). Náš cíl je, aby po zkrácení byl původní tvar nezměněn. To červené se zkrátí. V čitateli změna ceny a ve jmenovateli změna množství. Nestejnorodé ukazatele p, q: ∑g)%) ∑g)%, ∑g)%) Vliv změny q: = * Náš cíl je, aby po ∑g,%,
∑g,%,
•
Státní závěrečná zkouška – BAKALÁŘSKÁ – STA I. + II. Hodnotový index: Pomocí stejného principu rozkladu rozložíme index stejnorodých ukazatelů buď na Laspeyerův index a index objemu, nebo na index objemu a Paascheho index. ∑g)%) ∑g)%, o Rozklad na Laspeyerův index (CPI) a index objemu: = * ∑g,%,
∑g)%,
o
Rozklad na index objemu a Paascheho index (Deflátor):
∑g,%,
∑g,%,
=
∑g,%) ∑g,%,
*
∑g,%)
Vždy když se třeba v čitateli mění množství tak ve jmenovateli se mění cena při konstantní druhé veličině a naopak.
Otázka č. 19 – Studijní materiál 5 • • • • • •
Indexní analýza: hlavním přínos této analýzy je v oblasti ekonomie (inflace, reálný produkt...) Základním nástrojem je index (poměrné číslo). Index porovnává ukazatele z hlediska: věcného, časového, prostorového. „jedno číslo vydělím druhým a mám index“ Jednoduchý bazický index: mám základní číslo a každé následující ho vydělím. 0/1, 0/2, 0/3 Jednoduchý řetězový index: mám číslo a vydělím ho následujícím. 0/1, 1/2, 2/3 Indexy používáme pro srovnání úrovně. Zpravidla porovnáváme „období“ – základní (0) , běžné(1) Souhrnné indexy: indexy, které se snaží vyjádřit změnu velikosti více sledovaných veličin, odlišují se povahou nebo měrnou jednotkou například jablko a rohlík. o Indexy úrovně – sledujeme změnu ceny za určité období (kolik dnes stojí nákup skládající se z jablka, rohlíku a limonády a kolik stál stejný nákup před rokem) o Indexy množství – sledujeme změnu objemu výroby za určité období (o kolik více či méně se vyrobilo aut v únoru oproti lednu
∑g)%,
∑g,%)
zkrácení byl původní tvar nezměněn. V čitateli si povšimněte změny p0 na p1. Zbytek se už jen doplní, aby šel následně zkrátit.
- 205 -
∑g)%)
∑g)%)
zkrácení byl původní tvar nezměněn. V čitateli si povšimněte změny q0 na q1. Zbytek se už jen doplní, aby šel následně zkrátit. ∑g)%) ∑g,%) ∑g)%) Vliv změny p: : = * Náš cíl je, aby po ∑g,%,
∑g,%,
∑g)%)
- 206 -