Deskriptivní statistické metody II.
Míry polohy Míry variability
Jana Vránová, 3.lékařská fakulta UK, Praha
Náhodný výběr
všechny prvky výběru {xi}, i = 1, 2, …, n, se chápou jako náhodné veličiny, které se řídí stejným zákonem rozdělení, tj. výběr je homogenní
hodnoty xi, zahrnuté do výběru jsou vybrány nezávisle na sobě
výběr je charakterizován
střední hodnotou rozptýlením kolem střední hodnoty tvarem výběrového rozdělení
Výběrové charakteristiky
pro charakterizaci výběru se tradičně používá momentů Obecné momenty – m1, m2, …mk: n
1 j m j = ∑ xi n i =1
j = 1, 2, …, k
Centrální momenty – Cj, jsou analogií obecných momentů pro odchylky od prvního obecného momentu (x – m1), tedy:
1 n j C j = ∑ ( xi − m1 ) n i =1
j = 2, 3, …, k
Míry polohy
Míry polohy (střední hodnoty) – (Střední hodnoty určují, kde na číselné ose je výběrová distribuce umístěna).
Aritmetický průměr Geometrický průměr Modus Medián Kvantily
Aritmetický průměr
Aritmetický průměr … první obecný moment
sečteme všechny hodnoty, kterých sledovaná veličina nabyla, a vydělíme jejich počtem n
x=
∑x i =1
n
i
Vážený aritmetický průměr
Vážený aritmetický průměr
máme-li několik nezávislých náhodných výběrů o různých počtech pozorování a známe-li již aritmetické průměry v těchto výběrech, je společný průměr souboru roven k
x=
∑n x
i i
i =1
n
kde k je počet nezávislých výběrů a k
n = ∑ ni i =1
výsledek je stejný, jako kdybychom průměr počítali ze společného souboru všech pozorovaných hodnot
Modus
Modus
je hodnota nejčastěji se vyskytující … M0 nebo xˆ z histogramu je hodnota patrna na první pohled i v četnostních tabulkách … nalezneme max ni a příslušná hodnota xi je modus v intervalových tabulkách najdeme interval s max ni a přesnou hodnotu xˆ určíme ze vzorce
d1 xˆ = b + h ⋅ d1 + d 2
b … je počátek intervalu obsahujícího xˆ h … šířka tohoto intervalu d1 … je rozdíl četností intervalu s xˆ a intervalu předcházejícího d2 … je rozdíl četností intervalu s xˆ a následujícího
Medián
Medián
uspořádáme- li pozorované statistické jednotky podle velikosti sledovaného znaku, dělí medián …Me nebo x výběr na dvě stejně četné části
je-li počet n sledovaných prvků lichý, je medián hodnota toho prvku, který má pořadové číslo (n+1)/2 sudý počet prvků …pokud dva prostřední prvky s pořadími n/2 a n/2+1 mají stejnou hodnotu je medián roven této hodnotě, pokud jsou jejich hodnoty různé, je medián jejich aritmetický průměr
u intervalových četnostních tabulek najdeme snadno interval kde Jeho hodnotu určíme ze vztahu:
n − n1 x = a + h ⋅ 2 n2
x leží.
a … je počátek intervalu obsahujícího x h … šířka tohoto intervalu n2 … je počet prvků v tomto intervalu n1 … je počet všech prvků ležících před intervalem s x n … počet všech prvků
Geometrický průměr
Používáme tehdy, když má význam součin znaků
Při analýze posloupností odvozených znaků, které vznikají jako podíl dvou veličin – časové řady
xG = n x1 ⋅ x2 ⋅ ... ⋅ xn =
n
n
∏x i =1
i
Geometrický průměr
Potlačuje vliv extrémních hodnot (velmi malých i velmi velkých) Používá se:
v oblastech ochrany životního prostředí dodržování hygienických norem při sledování kvality ovzduší, vody apod. – např. při analýze koncentrace bakterií, kdy se hodnoty mohou pohybovat od 10 do 10 000 Naopak je geometrický průměr nevhodný při analýze již zlogaritmovaných dat
Geometrický průměr
Z definice vyplývá, že jej nelze spočítat v případě, kdy se jedna nebo vícero hodnot rovná 0, nebo je záporná
Dosadíme substituci např. „1“ nebo pro všechny hodnoty menší jako 2, tj. hodnoty kolem 0 a záporné dosadíme hodnotu „1,9“, tak aby nedošlo ke ztrátě informace
Kvantily
medián je hodnota, pod kterou leží 50% souboru; někdy říkáme že medián je 50%-ní kvantil (percentil)
obecně p procentní kvantil je hodnota, pod kterou leží p % souboru
vypočteme číslo a = n.p / 100. Za p procentní kvantil bereme pak a-tou hodnotu seřazeného souboru dat
užívají se pro odhad referenčních rozmezí biochemických testů, obvykle se hledá 2,5% a 97,5% kvantil
kvantil se specifikovaným p = k.10, k = 1, 2, …, 9 se nazývá k-tý decil
kvartil – odděluje z každého kraje uspořádané řady prvků 25%, mezi nimi leží 50% prvků
Kvantilová polosuma
pro rozdělení s plochými vrcholy se doporučuje jako charakteristika polohy kvantilová polosuma: ~ ~
PF = x0,75 – x0,25
v případě ohraničených rozdělení ~
xP = (xmax – xmin) / 2
kde xmax je maximální a xmin je minimální prvek výběru
Polosuma xp je efektivnější než x pro g2 > 2,2
Míry variability
Míry variability – (Rozložení se stejným průměrem může být velice mnoho, liší se těsností uspořádání jednotlivých prvků kolem průměru, VARIABILITOU)
Rozptyl Směrodatná odchylka Rozpětí Šikmost a špičatost
Rozptyl
Výběrový rozptyl … výběrový druhý centrální moment
značíme s2 a vypočteme jej pomocí vzorce n
s2 =
∑ ( xi − x )
n
2
i =1
n
=
2 x ∑i
− x2
i =1
n
kde n je počet prvků
pro četnostní tabulky k
s2 =
∑ n ⋅( x − x ) i =1
i
i
k
∑n i =1
i
k
2
=
∑n ⋅x i =1
i
n
2 i
− x2
kde k je počet řádků četnostní tabulky a k
∑n i =1
i
=n
Směrodatná odchylka
Směrodatná odchylka
značíme jí s a spočteme dle vzorce
s=+ s
2
Rozpětí
Rozpětí
nejjednodušší míra variability rozdíl mezi maximální a minimální pozorovanou hodnotou
R = xmax − xmin
pomocí R můžeme dosti dobře odhadnout s
platí totiž, že v intervalu μ ± 3σ leží 99,7% souboru, neboli skoro všechno lze aproximovat
R 6⋅s
Cheppardova korekce
při výpočtu rozptylu z dat uspořádaných do třídních intervalů se dopouštíme chyby tím, že všechny hodnoty xi patřící do jedné třídy nahrazujeme jedinou hodnotou – středem intervalu. Čím je šířka intervalu větší, tím je i tato chyba větší. Je-li sledovaná hodnota spojitá, lze opravit hodnotu rozptylu Cheppardovou korekcí: 2 kor
s
2 d 2 =s − 12
kde d = šíře intervalu
Variační koeficient
vyjadřuje poměr s a x v procentech
s ⋅100 δ =V = x Použití: V laboratoři mají králíky, morčata a myši a potřebují porovnat variabilitu váhy u jednotlivých souborů pokusných zvířat. Vzhledem k tomu, že s jsou vyjádřeny ve stejných jednotkách jako xi, počítaly by se u králíků v kg a u myší v g, což by vedlo k názoru, že variabilita u králíků je větší. Proto převádíme s na V – variační koeficient je číslo bezrozměrné (nezávislé na jednotkách)
Střední chyba průměru
náhodné kolísání způsobuje, že x, byť správně spočítané, má svou náhodnou chybu, kterou lze spočítat pomocí rozptylu s2 jednotlivých hodnot kolem průměru čím je větší rozptyl jednotlivých hodnot, tím je větší i rozptyl průměru čím je n větší, tím je rozptyl menší
2
s s = n 2 x
s sx = n
Tvarové parametry
Šikmost (skewness)
… třetí centrální moment n
g1 =
n ∑ ( xi − x )
3
i =1
n
∑(x − x ) i =1
i
32 2
Tvarové parametry
Špičatost (kurtosis)
… čtvrtý centrální moment n
g2 =
n∑ ( xi − x )
4
i =1
n
∑( x − x ) i =1
i
2 2
Náhodná veličina a její rozložení
distribuční funkce frekvenční funkce
Teorie pravděpodobnosti
teorie pravděpodobnosti studuje matematické modely náhodných pokusů, tj. takových pokusů, jejichž výsledek není zcela jednoznačně určen podmínkami pokusu
avšak nezabývá se libovolnými náhodnými pokusy ale pouze těmi, které mají vlastnost statistické stability neboli stability četností – označme písmenem A jeden z možných výsledků náhodného pokusu.
Opakujme tento pokus n-krát a označme znakem μA počet, kolikrát se v těchto n pokusech vyskytl výsledek A. Poměr μA /n se pak nazývá poměrná četnost jevu A a vlastnost stability četností záleží v tom, že při velkém n kolísá poměrná četnost jevu A nepatrně (při změně n) kolem jistého čísla
všechny pokusy lze rozdělit do tří skupin
„dobré“ pokusy – úplná stabilita výsledku – zde je všechno jasné bez teorie pravděpodobnosti „horší“ pokusy – nejsou úplně stabilní, jsou však statisticky
stabilní
„špatné“ pokusy – nejsou ani statisticky stabilní – teorie pravděpodobnosti je nepoužitelná
Náhodná veličina
Náhodná veličina
předpis, který přiřazuje každému výsledku náhodného pokusu určité číslo ... výsledkem pokusu nemusí být vždy nějaké číslo; vždy mu však nějaké číslo můžeme přiřadit
v praxi nás však daleko více zajímají pravděpodobnosti, s kterými náhodná veličina nabývá určité hodnoty nebo je obsažena v určitých intervalech hodnot
PRAVDĚPODOBNOST ROZLOŽENÍ náhodné veličiny
Distribuční funkce Distribuční funkce je pravděpodobnost, že náhodná veličina X nabude určité hodnoty x nebo hodnoty menší, tedy:
F(X) = P(X ≤ x) distribuční funkce je definována pro všechna reálná čísla x, má tedy smysl pro – ∞ < x < + ∞
Vlastnosti: 1. 2. 3. 4. 5.
0 ≤ F(x) ≤ 1 když x → – ∞, pak F(x) = 0 když x → + ∞, pak F(x) = 1 F(x) je funkce neklesající, tedy: když xi < xj, pak F(xi) ≤ F(xj) F(x) nemusí být spojitá
Frekvenční funkce d F ( x ) , pak tuto má-li F(x) pro všechna x derivaci f ( x ) = dx derivaci nazýváme
HUSTOTA PRAVDĚPODOBNOSTI neboli frekvenční funkce Vlastnosti: 1.
f ( x ) ≥ 0, pro každé x +∞
2.
∫ f (x )⋅ dx = 1
−∞
3. P ( x1 ≤ X ≤ x2 ) =
x2
∫ f (x )⋅ dx
x1
ale: pro spojité náhodné veličiny je P(X = x) = 0
Střední hodnota a rozptyl Spojité veličiny
Diskrétní veličiny
střední hodnota …míra polohy
E ( x ) = ∑ xi P ( xi )
E ( x) = ∫
+∞
−∞
i
x ⋅ f ( x ) dx
střední kvadratická odchylka od μ …míra variability
(
D ( x ) = E ( x − E ( x ))
2
)
D ( x) = E ( x ) − μ 2
2
Teoretická rozdělení Pomocí distribuční funkce, frekvenční funkce nebo pravděpodobnostní funkce jsou definována různá rozložení – distribuce náhodných veličin. Nejčastěji se setkáváme s normálním rozdělením. Existuje však řada úloh, kde předpoklad normality není zcela oprávněný.
Nejdůležitější typy rozložení:
Poissonovo rozdělení Laplaceovo rozdělení Exponenciální rozdělení Rovnoměrné rozdělení Binomické rozdělení
Bernouliho rozdělení
Logaritmicko – normální rozdělení Weibullovo rozdělení
Poissonovo rozdělení Poissonovo rozdělení pravděpodobnosti má náhodná veličina, která vyjadřuje počet výskytu málo pravděpodobných jevů v určitém časovém, popř. objemovém intervalu
např. počet výskytu jevu A v časovém intervalu ∆t musí splňovat následující
podmínky
pravděpodobnost výskytu A je úměrná délce ∆t, přičemž pravděpodobnost výskytu více než jednoho jevu v tomto úseku je zanedbatelná pravděpodobnost výskytu A v daném časovém intervalu ∆t je závislá na výskytu jevu A v předcházejícím intervalu ∆t pravděpodobnost výskytu A v časovém intervalu ∆t nezávisí na počátku intervalu
S Poissonovým rozdělením se setkáváme při strukturálních analýzách, u různých čítačů částic a výskytu poruch v plošných nebo objemových elementech
Poissonovo rozdělení Pravděpodobnostní funkce je definována vztahem:
p ( x, λ ) =
λ ⋅e x
−λ
x!
kde x je diskrétní náhodná veličina, nabývající pouze hodnot 0, 1, …, n a λ je parametr.
E(x) = λ , D(x) = λ
Laplaceovo rozdělení
oboustranně exponenciální
vyskytuje se v případě, kdy jsou náhodné veličiny měřeny za podmínek kolísání rozptylu kolem určité střední hodnoty kde x je spojitá náhodná veličina, nabývající hodnot (- ∞, + ∞), μ je parametr polohy a b je měřítko.
x−μ 1 f ( x) = e − 2b b 1 = 2b
{
e−
μ−x
if x < μ
b x−μ e− if x ≥ μ b
E(x) = μ, D(x) = 2b2 μ=5, b = 2
Exponenciální rozdělení
je jednostranně ohraničené zdola využívá se k popisu reálných dějů
uplynulý čas, resp. obsazený prostor před tím než daný jev nastal životnost součástí strojů vzdálenost, kterou urazí molekuly plynu při nízkém tlaku až do vzájemné srážky doba mezi dopadem částic do čítače
f ( x ) = λ ⋅ e−λ x
pro x ≥ 0
f ( x) = 0
pro x < 0
E(x) = λ-1 , D(x) = λ-2
Rovnoměrné rozdělení
rektangulární rozložení
nejjednodušší rozdělení pro oboustranně omezenou náhodnou veličinu, která musí ležet v zadaném intervalu a – h < x < a + h týká se náhodných veličin, které se v daném intervalu vyskytují se stejnou pravděpodobností
f ( x) =
1 b−a
f ( x) = 0
pro a < x < b pro x < a, nebo x > b
E(x) = (a+b)/2, D(x) = (b – a)2/12
Binomické rozdělení
je rozložení četnosti výskytu jevu, který může nabýt pouze dvou hodnot (jev alternativní)
označíme-li P(A) = p a P(A) = q, pak zřejmě p + q = 1 jednotlivá vybírání jsou na sobě nezávislá, proto lze spočítat pravděpodobnost jevu, že z n pokusů nastane jev A právě k-krát (a tedy jev A (n – k)-krát), pomocí rovnice (p + q)n = 1
⎛n⎞ k n−k f ( x ) = ⎜ ⎟ p ⋅ (1 − p ) ⎝k ⎠ ⎛n⎞ n! ⎜ ⎟= ⎝ k ⎠ k !( n − k ) !
Binomické rozdělení
Střední hodnota a rozptyl binomického rozložení:
E(x) = np, D(x) = np(1 – p)
Bernouliho rozdělení
speciální případ binomického rozložení nula-jedničkové rozložení náhodné veličiny jev může nabývat pouze hodnot 1 a 0
E(x) = p, D(x) = p(1 – p)
opakujeme-li tento alternativní pokus nezávisle na sobě vícekrát (n – krát), veličina X (jejímiž hodnotami je počet pokusů, z oněch n provedených, které skončily s výsledkem 1 (celkový počet úspěchů)) má binomické rozdělení
Log-normální rozdělení
nejrozšířenější alternativa normálního rozdělení pro jednostranně ohraničená data
fyzikální veličiny (teplota, tlak, objem, hmotnost, …) jsou buď kladné, nebo mají přirozeně definovaný počátek pro náhodné veličiny tohoto druhu je normální rozdělení vždy aproximací
když jsou naměřené veličiny dostatečně vzdálené od spodní meze, resp. přirozeného počátku, tato aproximace vyhovuje dobře v blízkosti počátku je tato aproximace nevhodná
měření nízké koncentrace, malé hmotnosti, malé délky distribuce prachových částic v atmosféře je-li měřená veličina náhodným podílem již náhodně vybraného celku
Log-normální rozložení Pravděpodobnostní funkce je definována vztahem:
f ( x μ ,σ ) =
1 xσ 2π
e
kde x > 0, a μ a σ jsou střední hodnota a směrodatná odchylka logaritmu proměnné
2/2 μ+σ e ,
E(x) = 2 2 σ 2μ+σ D(x) = (e – 1) e
−( ln x − μ ) /2σ 2 2
Weibullovo rozdělení
je spojité rozložení pravděpodobnosti s frekvenční funkcí
β ⎛ t −γ ⎞ f (t ) = ⎜ ⎟ η⎝ η ⎠
β −1
e
⎛ t −γ ⎞ −⎜ ⎟ η ⎝ ⎠
β
kvantitativní hodnocení bezporuchovosti (spolehlivosti) komponent technických systémů matematický popis doby do poruchy analýza přežití u karcinomů
Weibullovo rozdělení E(x) = γ + ηΓ(1+1/β) , D(x) = η2[Γ(1+2/β) – Γ2(1+1/β)]
Normální rozdělení
Gaussovo rozdělení
představuje pro statistiku nejdůležitější rozložení
v praxi se vyskytuje nejčastěji řada dalších rozložení se mu za jistých podmínek přibližuje a můžeme je tedy normálním rozložením aproximovat je charakterizován průměrem μ a směrodatnou odchylkou σ, která určuje rozptýlení hodnot kolem μ
hustota pravděpodobnosti náhodné veličiny x v intervalu (-∞, +∞) má tvar 2 ⎛ x − μ) ⎞ ( 1 f ( x) = e⎜ − ⎟ 2 ⎟ 2σ 2πσ 2 ⎜⎝ ⎠
Gaussovo rozdělení E(x) = μ, D(x) = σ2
Gaussovo rozdělení hustota pravděpodobnosti při různém σ a stejném μ
hustota pravděpodobnosti při různém μ a stejném σ
Význam normálního rozdělení
patří mezi nejdůležitější pravděpodobnostní modely matematické statistiky distribuční funkci poprvé stanovil Moivre – na základě experimentu házení mincí; sloupky histogramu proložil plynulou spojitou křivkou, jejíž matematické vyjádření vypočítal již v roce 1733 tato křivka byla znovu objevena jako Gaussova křivka chyb měření (v astronomii) na začátku 19. století její význam pak zdůraznil Quételet, který provedl řadu četných měření somatických veličin a zjistil, že se tato měření řídí stejnými zákony jako křivka chyb měření očekáváme, že normálně rozložených veličin je většina; bohužel tomu tak není, ale je dokázáno že součty (a teda i průměry) i zcela nenormálních veličin se k normálnímu rozložení blíží, a to již při poměrně malých počtech sčítanců n
Transformace normálního rozdělení
protože řada statistických metod normalitu náhodných veličin vyžaduje – převádíme nenormální náhodné veličiny na normální
xi′ = log ( xi + c )
(xi+c) > 0
x′ = x + c x′ = e kx
(xi+c) > 0
x′ = ( x k − 1) / k
k≠0
Je potřeba vždy ověřit, která transformace pro daný soubor dat nejlépe vyhovuje
Teorie odhadu
Bodové odhady Intervalový odhad
Bodový odhad
odhad parametrů náhodné veličiny (náhodného vektoru Θ ) výběrovou ˆ ) nazýváme bodový charakteristikou (známým vypočteným vektorem Θ odhad kritéria pro kvalitu odhadu – pro jeden parametr Θ platí:
ˆ je konzistentní, když pro daný rozsah n konzistence odhadu: odhad Θ výběru je pravděpodobnost toho, že jeho vzdálenost od skutečné hodnoty Θ je libovolně malá, rovna jedné nestrannost odhadu: odhad je nestranný, když pro daný rozsah výběru n je jeho střední hodnota rovna parametru souboru Θ vydatnost odhadu: odhad je vydatný, když je jeho rozptyl kolem skutečné hodnoty Θ minimální vzhledem ke všem možným odhadům tohoto parametru
nejčastěji odhadujeme:
průměr μ ... x směrodatnou odchylku σ … s
Bodový odhad
při podezření , že výběr obsahuje vychýlené hodnoty (hodnoty, které evidentně nepatří do zkoumaného rozložení), používáme pro odhad μ robustní odhady poměrně robustným odhadem průměrné hodnoty je medián takovým odhadem je také průměr vypočítaný z těch hodnot výběru, které leží mezi specifikovanými symetrickými kvantily (např. mezi 10% a 90% kvantilem)
Ze statistického hlediska mají bodové odhady malý význam, protože neříkají nic o tom, kde leží skutečné hodnoty parametrů
Intervalový odhad
poskytuje více informací, protože určuje interval, v němž se bude se zadanou pravděpodobností 1 – α nacházet skutečná hodnota daného parametru Θ neznámý parametr odhadujeme dvěma číselnými hodnotami LD a LH, které tvoří meze intervalu spolehlivosti čili konfidenčního intervalu CI … ten pokryje neznámý odhadovaný parametr s předem zvolenou, dostatečně velkou pravděpodobností P( LD < Θ < LH ) = 1 – α, kterou nazveme koeficient spolehlivosti (statistická jistota) … ten se volí obyčejně roven 95% nebo 99%
parametr α se nazývá hladina významnosti pro intervaly CI platí že:
čím je rozsah výběru n větší, tím je interval spolehlivosti užší čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší čím je vyšší statistické jistota (1 – α), tím je interval spolehlivosti širší
Odhad průměru
intervalový odhad přibližně 95% konfidenční interval
x −2
σ n
≤ μ ≤ x +2
σ n
v praxi obyčejně neznáme směrodatnou odchylku základního souboru σ a musíme ji odhadnout pomocí s. Uvažujme proto náhodný výběr rozsahu n z normálního rozložení N(μ,σ2) s neznámými parametry μ a σ2 a jejich výběrovými odhady x a s2. Jelikož má veličina x −μ
s
n
Studentovo t-rozdělení, můžeme po úpravách napsat:
s s ≤ μ ≤ x + t1−α /2 (ν ) ⋅ x − t1−α /2 (ν ) ⋅ n n
bodový odhad:
μ=x
kde t1-a/2(ν) je 100(1-α/2)% kvantil Studentova rozdělení s ν = n – 1 stupni volnosti
Odhad rozptylu
nejlepší bodový odhad populačního rozptylu σ2 pomocí výběrového rozptylu s2 je
n 2 2 σˆ = s ⋅ n −1
význam rozlišení mezi výběrovým rozptylem a odhadem populačního rozptylu má smysl pouze pro malá n, pro velká n ztrácí smysl, protože
n 1 n −1
intervalový odhad je poněkud komplikovanější
( n − 1) s χα
2 2
2
n − 1) s ( ≤σ ≤ 2 2
χ
100 −
α
2
2
kde χα , je kritická hodnota rozložení χ, které je tabelováno. Počet stupňů volnosti je n
–1
Odhad relativní četnosti Uvažujme náhodný jev. Zajímá nás jeho pravděpodobnost π. Lze ji vyjádřit buď v pravděpodobnostech (celek = 1), nebo v % (celek = 100%). Výběrovou relativní četnost značíme p, p = n1/n, kde n1 je počet kolikrát nastal jev z n pozorování. Náhodná veličina p má přibližně normální rozložení s průměrem π a směrodatnou odchylkou
σ π = π (1 − π ) / n Protože π neznáme, nahradíme je výběrovou hodnotou p a dostaneme intervaly spolehlivosti
95% … p − 1,96 p (1 − p ) / n ≤ π ≤ p + 1,96 p (1 − p ) / n 99% … p − 2,58 p (1 − p ) / n ≤ π ≤ p + 2,58 p (1 − p ) / n
Odhad relativní četnosti
pro malé n a při nesplnění podmínky p ≥ 0,05 a (1-p) ≥ 0,05 nelze použít normální aproximace interval spolehlivosti pro π spočteme přesně pomocí kritických hodnot F-rozložení
( n1 + 1) Fc,d ,α n1 ≤π ≤ n1 + ( n + 1 + n1 ) Fa ,b ,α n − n1 + ( n1 + 1) Fc ,d ,α
kde F..α je kritická hodnota F-rozložení při stupních volnosti
a = 2(n + 1 – n1) d = 2(n – n1)
b = 2n1
c = 2(n1 + 1)
avšak při volbě α = 5% dostáváme 90% interval spolehlivosti a α = 1% dostáváme 98% interval spolehlivosti, neboť rozložení F je tabelováno pro jednostranné hypotézy
Odhad mediánu μ = x
bodový odhad:
intervalový odhad
xh +1 ≤ μ ≤ xn − h
kde indexy značí pořadové číslo v uspořádané řadě hodnot xi, hodnotu h spočteme z výrazu:
( ) 99% … h = ( n − 1 − 2,58 n ) / 2 95% … h = n − 1 − 1,96 n / 2
za h bereme hodnotu celočíselnou – zaokrouhlenou. Lze použít pro n > 8
T – rozložení jako jedno z výběrových rozložení
Tvar t – rozložení je funkcí rozsahu výběru
Při narůstajícím rozsahu výběru se t – rozložení blíží normálnímu rozložení T – rozložení = normální rozložení , když rozsah výběru = velikosti populace V praktickém využití t – rozložení = normální rozložení pro N > 30 T – rozložení je funkcí stupňů volnosti, které jsou přímo dané rozsahem výběru Když se d.f. → ∞ t – rozložení se blíží normálnímu rozložení Pro každé N existuje jiná křivka Pro každé N existují jiné kritické hodnoty pro 5% riziko, že učiníme chybu I. druhu
T – rozložení jako jedno z výběrových rozložení …pokračování…
Kritické hodnoty t – rozložení
Jsou definované námi zvoleným rizikem, které jsme schopni podstoupit, že učiníme chybu I. druhu a tím, zda jde o jednostranný nebo dvoustranný test Předpokládejme, že N = 20
Při 5%-ní spolehlivosti tkrit = ± 2,093 Při 1%-ní spolehlivosti tkrit = ± 2,861 Při 10%-ní spolehlivosti tkrit = ± 1,729
N = 20
Dvoustranný test … 5%-ní spolehlivost tkrit = ± 2,093 Jednostranný test … 5%-ní spolehlivost tkrit = + 1,729 nebo – 1,729
d.f.
0,95
0,99
2
4,303
9,925
3
3,182
5,841
4
2,776
4,604
5
2,571
4,032
8
2,306
3,355
10
2,228
3,169
20
2,093
2,861
50
2,009
2,678
100
1,984
2,626
F – rozložení
Snedecorovo, nebo Fisherovo – Snedecorovo rozložení χ2 – test, F – test jsou velmi citlivé na „non – normalitu“ sledovaných veličin Je definováno jako poměr dvou χ2 – rozložení
U1 F=
U2
d1 d2
kde U1, U2 jsou dvě χ2 – rozložení s d1 a d2 stupni volnosti
F – rozložení
… pokračování …
F – rozložení
… pokračování …
χ2 – rozložení
Když X1 , X2 , …, Xk jsou nezávislé normálně rozložené náhodné veličiny se střední hodnotou rovnou 0 a směrodatnou odchylkou rovnou 1, potom náhodná veličina n
Q=∑X i =1
2 i
má χ2 – rozložení
χ2 – rozložení
… pokračování …
χ2 – rozložení
… pokračování …
děkuji za pozornost …