Deskriptivní statistické metody II. Míry polohy Míry variability

Deskriptivní statistické metody II.

Míry polohy Míry variability

Jana Vránová, 3.lékařská fakulta UK, Praha

Náhodný výběr

všechny prvky výběru {xi}, i = 1, 2, …, n, se chápou jako náhodné veličiny, které se řídí stejným zákonem rozdělení, tj. výběr je homogenní

hodnoty xi, zahrnuté do výběru jsou vybrány nezávisle na sobě

výběr je charakterizován

střední hodnotou rozptýlením kolem střední hodnoty tvarem výběrového rozdělení

Výběrové charakteristiky

pro charakterizaci výběru se tradičně používá momentů Obecné momenty – m1, m2, …mk: n

1 j m j = ∑ xi n i =1

j = 1, 2, …, k

Centrální momenty – Cj, jsou analogií obecných momentů pro odchylky od prvního obecného momentu (x – m1), tedy:

1 n j C j = ∑ ( xi − m1 ) n i =1

j = 2, 3, …, k

Míry polohy

Míry polohy (střední hodnoty) – (Střední hodnoty určují, kde na číselné ose je výběrová distribuce umístěna).

Aritmetický průměr Geometrický průměr Modus Medián Kvantily

Aritmetický průměr

Aritmetický průměr … první obecný moment

sečteme všechny hodnoty, kterých sledovaná veličina nabyla, a vydělíme jejich počtem n

x=

∑x i =1

n

i

Vážený aritmetický průměr

Vážený aritmetický průměr

máme-li několik nezávislých náhodných výběrů o různých počtech pozorování a známe-li již aritmetické průměry v těchto výběrech, je společný průměr souboru roven k

x=

∑n x

i i

i =1

n

kde k je počet nezávislých výběrů a k

n = ∑ ni i =1

výsledek je stejný, jako kdybychom průměr počítali ze společného souboru všech pozorovaných hodnot

Modus

Modus

je hodnota nejčastěji se vyskytující … M0 nebo xˆ z histogramu je hodnota patrna na první pohled i v četnostních tabulkách … nalezneme max ni a příslušná hodnota xi je modus v intervalových tabulkách najdeme interval s max ni a přesnou hodnotu xˆ určíme ze vzorce

d1 xˆ = b + h ⋅ d1 + d 2

b … je počátek intervalu obsahujícího xˆ h … šířka tohoto intervalu d1 … je rozdíl četností intervalu s xˆ a intervalu předcházejícího d2 … je rozdíl četností intervalu s xˆ a následujícího

Medián

Medián

uspořádáme- li pozorované statistické jednotky podle velikosti sledovaného znaku, dělí medián …Me nebo x výběr na dvě stejně četné části

je-li počet n sledovaných prvků lichý, je medián hodnota toho prvku, který má pořadové číslo (n+1)/2 sudý počet prvků …pokud dva prostřední prvky s pořadími n/2 a n/2+1 mají stejnou hodnotu je medián roven této hodnotě, pokud jsou jejich hodnoty různé, je medián jejich aritmetický průměr

u intervalových četnostních tabulek najdeme snadno interval kde Jeho hodnotu určíme ze vztahu:

n − n1 x = a + h ⋅ 2 n2

x leží.

a … je počátek intervalu obsahujícího x h … šířka tohoto intervalu n2 … je počet prvků v tomto intervalu n1 … je počet všech prvků ležících před intervalem s x n … počet všech prvků

Geometrický průměr

Používáme tehdy, když má význam součin znaků

Při analýze posloupností odvozených znaků, které vznikají jako podíl dvou veličin – časové řady

xG = n x1 ⋅ x2 ⋅ ... ⋅ xn =

n

n

∏x i =1

i


Potlačuje vliv extrémních hodnot (velmi malých i velmi velkých) Používá se:

v oblastech ochrany životního prostředí dodržování hygienických norem při sledování kvality ovzduší, vody apod. – např. při analýze koncentrace bakterií, kdy se hodnoty mohou pohybovat od 10 do 10 000 Naopak je geometrický průměr nevhodný při analýze již zlogaritmovaných dat


Z definice vyplývá, že jej nelze spočítat v případě, kdy se jedna nebo vícero hodnot rovná 0, nebo je záporná

Dosadíme substituci např. „1“ nebo pro všechny hodnoty menší jako 2, tj. hodnoty kolem 0 a záporné dosadíme hodnotu „1,9“, tak aby nedošlo ke ztrátě informace

Kvantily

medián je hodnota, pod kterou leží 50% souboru; někdy říkáme že medián je 50%-ní kvantil (percentil)

obecně p procentní kvantil je hodnota, pod kterou leží p % souboru

vypočteme číslo a = n.p / 100. Za p procentní kvantil bereme pak a-tou hodnotu seřazeného souboru dat

užívají se pro odhad referenčních rozmezí biochemických testů, obvykle se hledá 2,5% a 97,5% kvantil

kvantil se specifikovaným p = k.10, k = 1, 2, …, 9 se nazývá k-tý decil

kvartil – odděluje z každého kraje uspořádané řady prvků 25%, mezi nimi leží 50% prvků

Kvantilová polosuma

pro rozdělení s plochými vrcholy se doporučuje jako charakteristika polohy kvantilová polosuma: ~ ~

PF = x0,75 – x0,25

v případě ohraničených rozdělení ~

xP = (xmax – xmin) / 2

kde xmax je maximální a xmin je minimální prvek výběru

Polosuma xp je efektivnější než x pro g2 > 2,2

Míry variability

Míry variability – (Rozložení se stejným průměrem může být velice mnoho, liší se těsností uspořádání jednotlivých prvků kolem průměru, VARIABILITOU)

Rozptyl Směrodatná odchylka Rozpětí Šikmost a špičatost

Rozptyl

Výběrový rozptyl … výběrový druhý centrální moment

značíme s2 a vypočteme jej pomocí vzorce n

s2 =

∑ ( xi − x )

n

2

i =1

n

=

2 x ∑i

− x2

i =1

n

kde n je počet prvků

pro četnostní tabulky k

s2 =

∑ n ⋅( x − x ) i =1

i

i

k

∑n i =1

i

k

2

=

∑n ⋅x i =1

i

n

2 i

− x2

kde k je počet řádků četnostní tabulky a k

∑n i =1

i

=n

Směrodatná odchylka

Směrodatná odchylka

značíme jí s a spočteme dle vzorce

s=+ s

2

Rozpětí

Rozpětí

nejjednodušší míra variability rozdíl mezi maximální a minimální pozorovanou hodnotou

R = xmax − xmin

pomocí R můžeme dosti dobře odhadnout s

platí totiž, že v intervalu μ ± 3σ leží 99,7% souboru, neboli skoro všechno lze aproximovat

R 6⋅s

Cheppardova korekce

při výpočtu rozptylu z dat uspořádaných do třídních intervalů se dopouštíme chyby tím, že všechny hodnoty xi patřící do jedné třídy nahrazujeme jedinou hodnotou – středem intervalu. Čím je šířka intervalu větší, tím je i tato chyba větší. Je-li sledovaná hodnota spojitá, lze opravit hodnotu rozptylu Cheppardovou korekcí: 2 kor

s

2 d 2 =s − 12

kde d = šíře intervalu

Variační koeficient

vyjadřuje poměr s a x v procentech

s ⋅100 δ =V = x Použití: V laboratoři mají králíky, morčata a myši a potřebují porovnat variabilitu váhy u jednotlivých souborů pokusných zvířat. Vzhledem k tomu, že s jsou vyjádřeny ve stejných jednotkách jako xi, počítaly by se u králíků v kg a u myší v g, což by vedlo k názoru, že variabilita u králíků je větší. Proto převádíme s na V – variační koeficient je číslo bezrozměrné (nezávislé na jednotkách)

Střední chyba průměru

náhodné kolísání způsobuje, že x, byť správně spočítané, má svou náhodnou chybu, kterou lze spočítat pomocí rozptylu s2 jednotlivých hodnot kolem průměru čím je větší rozptyl jednotlivých hodnot, tím je větší i rozptyl průměru čím je n větší, tím je rozptyl menší

2

s s = n 2 x

s sx = n

Tvarové parametry

Šikmost (skewness)

… třetí centrální moment n

g1 =

n ∑ ( xi − x )

3

i =1

n

∑(x − x ) i =1

i

32 2

Tvarové parametry

Špičatost (kurtosis)

… čtvrtý centrální moment n

g2 =

n∑ ( xi − x )

4

i =1

n

∑( x − x ) i =1

i

2 2

Náhodná veličina a její rozložení

distribuční funkce frekvenční funkce

Teorie pravděpodobnosti

teorie pravděpodobnosti studuje matematické modely náhodných pokusů, tj. takových pokusů, jejichž výsledek není zcela jednoznačně určen podmínkami pokusu

avšak nezabývá se libovolnými náhodnými pokusy ale pouze těmi, které mají vlastnost statistické stability neboli stability četností – označme písmenem A jeden z možných výsledků náhodného pokusu.

Opakujme tento pokus n-krát a označme znakem μA počet, kolikrát se v těchto n pokusech vyskytl výsledek A. Poměr μA /n se pak nazývá poměrná četnost jevu A a vlastnost stability četností záleží v tom, že při velkém n kolísá poměrná četnost jevu A nepatrně (při změně n) kolem jistého čísla

všechny pokusy lze rozdělit do tří skupin

„dobré“ pokusy – úplná stabilita výsledku – zde je všechno jasné bez teorie pravděpodobnosti „horší“ pokusy – nejsou úplně stabilní, jsou však statisticky

stabilní

„špatné“ pokusy – nejsou ani statisticky stabilní – teorie pravděpodobnosti je nepoužitelná

Náhodná veličina

Náhodná veličina

předpis, který přiřazuje každému výsledku náhodného pokusu určité číslo ... výsledkem pokusu nemusí být vždy nějaké číslo; vždy mu však nějaké číslo můžeme přiřadit

v praxi nás však daleko více zajímají pravděpodobnosti, s kterými náhodná veličina nabývá určité hodnoty nebo je obsažena v určitých intervalech hodnot

PRAVDĚPODOBNOST ROZLOŽENÍ náhodné veličiny

Distribuční funkce Distribuční funkce je pravděpodobnost, že náhodná veličina X nabude určité hodnoty x nebo hodnoty menší, tedy:

F(X) = P(X ≤ x) distribuční funkce je definována pro všechna reálná čísla x, má tedy smysl pro – ∞ < x < + ∞

Vlastnosti: 1. 2. 3. 4. 5.

0 ≤ F(x) ≤ 1 když x → – ∞, pak F(x) = 0 když x → + ∞, pak F(x) = 1 F(x) je funkce neklesající, tedy: když xi < xj, pak F(xi) ≤ F(xj) F(x) nemusí být spojitá

Frekvenční funkce d F ( x ) , pak tuto má-li F(x) pro všechna x derivaci f ( x ) = dx derivaci nazýváme

HUSTOTA PRAVDĚPODOBNOSTI neboli frekvenční funkce Vlastnosti: 1.

f ( x ) ≥ 0, pro každé x +∞

2.

∫ f (x )⋅ dx = 1

−∞

3. P ( x1 ≤ X ≤ x2 ) =

x2

∫ f (x )⋅ dx

x1

ale: pro spojité náhodné veličiny je P(X = x) = 0

Střední hodnota a rozptyl Spojité veličiny

Diskrétní veličiny

střední hodnota …míra polohy

E ( x ) = ∑ xi P ( xi )

E ( x) = ∫

+∞

−∞

i

x ⋅ f ( x ) dx

střední kvadratická odchylka od μ …míra variability

(

D ( x ) = E ( x − E ( x ))

2

)

D ( x) = E ( x ) − μ 2

2

Teoretická rozdělení Pomocí distribuční funkce, frekvenční funkce nebo pravděpodobnostní funkce jsou definována různá rozložení – distribuce náhodných veličin. Nejčastěji se setkáváme s normálním rozdělením. Existuje však řada úloh, kde předpoklad normality není zcela oprávněný.

Nejdůležitější typy rozložení:

Poissonovo rozdělení Laplaceovo rozdělení Exponenciální rozdělení Rovnoměrné rozdělení Binomické rozdělení

Bernouliho rozdělení

Logaritmicko – normální rozdělení Weibullovo rozdělení

Poissonovo rozdělení Poissonovo rozdělení pravděpodobnosti má náhodná veličina, která vyjadřuje počet výskytu málo pravděpodobných jevů v určitém časovém, popř. objemovém intervalu

např. počet výskytu jevu A v časovém intervalu ∆t musí splňovat následující

podmínky

pravděpodobnost výskytu A je úměrná délce ∆t, přičemž pravděpodobnost výskytu více než jednoho jevu v tomto úseku je zanedbatelná pravděpodobnost výskytu A v daném časovém intervalu ∆t je závislá na výskytu jevu A v předcházejícím intervalu ∆t pravděpodobnost výskytu A v časovém intervalu ∆t nezávisí na počátku intervalu

S Poissonovým rozdělením se setkáváme při strukturálních analýzách, u různých čítačů částic a výskytu poruch v plošných nebo objemových elementech

Poissonovo rozdělení Pravděpodobnostní funkce je definována vztahem:

p ( x, λ ) =

λ ⋅e x

−λ

x!

kde x je diskrétní náhodná veličina, nabývající pouze hodnot 0, 1, …, n a λ je parametr.

E(x) = λ , D(x) = λ

Laplaceovo rozdělení

oboustranně exponenciální

vyskytuje se v případě, kdy jsou náhodné veličiny měřeny za podmínek kolísání rozptylu kolem určité střední hodnoty kde x je spojitá náhodná veličina, nabývající hodnot (- ∞, + ∞), μ je parametr polohy a b je měřítko.

x−μ 1 f ( x) = e − 2b b 1 = 2b

{

e−

μ−x

if x < μ

b x−μ e− if x ≥ μ b

E(x) = μ, D(x) = 2b2 μ=5, b = 2

Exponenciální rozdělení

je jednostranně ohraničené zdola využívá se k popisu reálných dějů

uplynulý čas, resp. obsazený prostor před tím než daný jev nastal životnost součástí strojů vzdálenost, kterou urazí molekuly plynu při nízkém tlaku až do vzájemné srážky doba mezi dopadem částic do čítače

f ( x ) = λ ⋅ e−λ x

pro x ≥ 0

f ( x) = 0

pro x < 0

E(x) = λ-1 , D(x) = λ-2

Rovnoměrné rozdělení

rektangulární rozložení

nejjednodušší rozdělení pro oboustranně omezenou náhodnou veličinu, která musí ležet v zadaném intervalu a – h < x < a + h týká se náhodných veličin, které se v daném intervalu vyskytují se stejnou pravděpodobností

f ( x) =

1 b−a

f ( x) = 0

pro a < x < b pro x < a, nebo x > b

E(x) = (a+b)/2, D(x) = (b – a)2/12

Binomické rozdělení

je rozložení četnosti výskytu jevu, který může nabýt pouze dvou hodnot (jev alternativní)

označíme-li P(A) = p a P(A) = q, pak zřejmě p + q = 1 jednotlivá vybírání jsou na sobě nezávislá, proto lze spočítat pravděpodobnost jevu, že z n pokusů nastane jev A právě k-krát (a tedy jev A (n – k)-krát), pomocí rovnice (p + q)n = 1

⎛n⎞ k n−k f ( x ) = ⎜ ⎟ p ⋅ (1 − p ) ⎝k ⎠ ⎛n⎞ n! ⎜ ⎟= ⎝ k ⎠ k !( n − k ) !

Binomické rozdělení

Střední hodnota a rozptyl binomického rozložení:

E(x) = np, D(x) = np(1 – p)

Bernouliho rozdělení

speciální případ binomického rozložení nula-jedničkové rozložení náhodné veličiny jev může nabývat pouze hodnot 1 a 0

E(x) = p, D(x) = p(1 – p)

opakujeme-li tento alternativní pokus nezávisle na sobě vícekrát (n – krát), veličina X (jejímiž hodnotami je počet pokusů, z oněch n provedených, které skončily s výsledkem 1 (celkový počet úspěchů)) má binomické rozdělení

Log-normální rozdělení

nejrozšířenější alternativa normálního rozdělení pro jednostranně ohraničená data

fyzikální veličiny (teplota, tlak, objem, hmotnost, …) jsou buď kladné, nebo mají přirozeně definovaný počátek pro náhodné veličiny tohoto druhu je normální rozdělení vždy aproximací

když jsou naměřené veličiny dostatečně vzdálené od spodní meze, resp. přirozeného počátku, tato aproximace vyhovuje dobře v blízkosti počátku je tato aproximace nevhodná

měření nízké koncentrace, malé hmotnosti, malé délky distribuce prachových částic v atmosféře je-li měřená veličina náhodným podílem již náhodně vybraného celku

Log-normální rozložení Pravděpodobnostní funkce je definována vztahem:

f ( x μ ,σ ) =

1 xσ 2π

e

kde x > 0, a μ a σ jsou střední hodnota a směrodatná odchylka logaritmu proměnné

2/2 μ+σ e ,

E(x) = 2 2 σ 2μ+σ D(x) = (e – 1) e

−( ln x − μ ) /2σ 2 2

Weibullovo rozdělení

je spojité rozložení pravděpodobnosti s frekvenční funkcí

β ⎛ t −γ ⎞ f (t ) = ⎜ ⎟ η⎝ η ⎠

β −1

e

⎛ t −γ ⎞ −⎜ ⎟ η ⎝ ⎠

β

kvantitativní hodnocení bezporuchovosti (spolehlivosti) komponent technických systémů matematický popis doby do poruchy analýza přežití u karcinomů

Weibullovo rozdělení E(x) = γ + ηΓ(1+1/β) , D(x) = η2[Γ(1+2/β) – Γ2(1+1/β)]

Normální rozdělení

Gaussovo rozdělení

představuje pro statistiku nejdůležitější rozložení

v praxi se vyskytuje nejčastěji řada dalších rozložení se mu za jistých podmínek přibližuje a můžeme je tedy normálním rozložením aproximovat je charakterizován průměrem μ a směrodatnou odchylkou σ, která určuje rozptýlení hodnot kolem μ

hustota pravděpodobnosti náhodné veličiny x v intervalu (-∞, +∞) má tvar 2 ⎛ x − μ) ⎞ ( 1 f ( x) = e⎜ − ⎟ 2 ⎟ 2σ 2πσ 2 ⎜⎝ ⎠

Gaussovo rozdělení E(x) = μ, D(x) = σ2

Gaussovo rozdělení hustota pravděpodobnosti při různém σ a stejném μ

hustota pravděpodobnosti při různém μ a stejném σ

Význam normálního rozdělení

patří mezi nejdůležitější pravděpodobnostní modely matematické statistiky distribuční funkci poprvé stanovil Moivre – na základě experimentu házení mincí; sloupky histogramu proložil plynulou spojitou křivkou, jejíž matematické vyjádření vypočítal již v roce 1733 tato křivka byla znovu objevena jako Gaussova křivka chyb měření (v astronomii) na začátku 19. století její význam pak zdůraznil Quételet, který provedl řadu četných měření somatických veličin a zjistil, že se tato měření řídí stejnými zákony jako křivka chyb měření očekáváme, že normálně rozložených veličin je většina; bohužel tomu tak není, ale je dokázáno že součty (a teda i průměry) i zcela nenormálních veličin se k normálnímu rozložení blíží, a to již při poměrně malých počtech sčítanců n

Transformace normálního rozdělení

protože řada statistických metod normalitu náhodných veličin vyžaduje – převádíme nenormální náhodné veličiny na normální

xi′ = log ( xi + c )

(xi+c) > 0

x′ = x + c x′ = e kx

(xi+c) > 0

x′ = ( x k − 1) / k

k≠0

Je potřeba vždy ověřit, která transformace pro daný soubor dat nejlépe vyhovuje

Teorie odhadu

Bodové odhady Intervalový odhad

Bodový odhad

odhad parametrů náhodné veličiny (náhodného vektoru Θ ) výběrovou ˆ ) nazýváme bodový charakteristikou (známým vypočteným vektorem Θ odhad kritéria pro kvalitu odhadu – pro jeden parametr Θ platí:

ˆ je konzistentní, když pro daný rozsah n konzistence odhadu: odhad Θ výběru je pravděpodobnost toho, že jeho vzdálenost od skutečné hodnoty Θ je libovolně malá, rovna jedné nestrannost odhadu: odhad je nestranný, když pro daný rozsah výběru n je jeho střední hodnota rovna parametru souboru Θ vydatnost odhadu: odhad je vydatný, když je jeho rozptyl kolem skutečné hodnoty Θ minimální vzhledem ke všem možným odhadům tohoto parametru

nejčastěji odhadujeme:

průměr μ ... x směrodatnou odchylku σ … s

Bodový odhad

při podezření , že výběr obsahuje vychýlené hodnoty (hodnoty, které evidentně nepatří do zkoumaného rozložení), používáme pro odhad μ robustní odhady poměrně robustným odhadem průměrné hodnoty je medián takovým odhadem je také průměr vypočítaný z těch hodnot výběru, které leží mezi specifikovanými symetrickými kvantily (např. mezi 10% a 90% kvantilem)

Ze statistického hlediska mají bodové odhady malý význam, protože neříkají nic o tom, kde leží skutečné hodnoty parametrů

Intervalový odhad

poskytuje více informací, protože určuje interval, v němž se bude se zadanou pravděpodobností 1 – α nacházet skutečná hodnota daného parametru Θ neznámý parametr odhadujeme dvěma číselnými hodnotami LD a LH, které tvoří meze intervalu spolehlivosti čili konfidenčního intervalu CI … ten pokryje neznámý odhadovaný parametr s předem zvolenou, dostatečně velkou pravděpodobností P( LD < Θ < LH ) = 1 – α, kterou nazveme koeficient spolehlivosti (statistická jistota) … ten se volí obyčejně roven 95% nebo 99%

parametr α se nazývá hladina významnosti pro intervaly CI platí že:

čím je rozsah výběru n větší, tím je interval spolehlivosti užší čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší čím je vyšší statistické jistota (1 – α), tím je interval spolehlivosti širší

Odhad průměru

intervalový odhad přibližně 95% konfidenční interval

x −2

σ n

≤ μ ≤ x +2

σ n

v praxi obyčejně neznáme směrodatnou odchylku základního souboru σ a musíme ji odhadnout pomocí s. Uvažujme proto náhodný výběr rozsahu n z normálního rozložení N(μ,σ2) s neznámými parametry μ a σ2 a jejich výběrovými odhady x a s2. Jelikož má veličina x −μ

s

n

Studentovo t-rozdělení, můžeme po úpravách napsat:

s s ≤ μ ≤ x + t1−α /2 (ν ) ⋅ x − t1−α /2 (ν ) ⋅ n n

bodový odhad:

μ=x

kde t1-a/2(ν) je 100(1-α/2)% kvantil Studentova rozdělení s ν = n – 1 stupni volnosti

Odhad rozptylu

nejlepší bodový odhad populačního rozptylu σ2 pomocí výběrového rozptylu s2 je

n 2 2 σˆ = s ⋅ n −1

význam rozlišení mezi výběrovým rozptylem a odhadem populačního rozptylu má smysl pouze pro malá n, pro velká n ztrácí smysl, protože

n 1 n −1

intervalový odhad je poněkud komplikovanější

( n − 1) s χα

2 2

2

n − 1) s ( ≤σ ≤ 2 2

χ

100 −

α

2

2

kde χα , je kritická hodnota rozložení χ, které je tabelováno. Počet stupňů volnosti je n

–1

Odhad relativní četnosti Uvažujme náhodný jev. Zajímá nás jeho pravděpodobnost π. Lze ji vyjádřit buď v pravděpodobnostech (celek = 1), nebo v % (celek = 100%). Výběrovou relativní četnost značíme p, p = n1/n, kde n1 je počet kolikrát nastal jev z n pozorování. Náhodná veličina p má přibližně normální rozložení s průměrem π a směrodatnou odchylkou

σ π = π (1 − π ) / n Protože π neznáme, nahradíme je výběrovou hodnotou p a dostaneme intervaly spolehlivosti

95% … p − 1,96 p (1 − p ) / n ≤ π ≤ p + 1,96 p (1 − p ) / n 99% … p − 2,58 p (1 − p ) / n ≤ π ≤ p + 2,58 p (1 − p ) / n

Odhad relativní četnosti

pro malé n a při nesplnění podmínky p ≥ 0,05 a (1-p) ≥ 0,05 nelze použít normální aproximace interval spolehlivosti pro π spočteme přesně pomocí kritických hodnot F-rozložení

( n1 + 1) Fc,d ,α n1 ≤π ≤ n1 + ( n + 1 + n1 ) Fa ,b ,α n − n1 + ( n1 + 1) Fc ,d ,α

kde F..α je kritická hodnota F-rozložení při stupních volnosti

a = 2(n + 1 – n1) d = 2(n – n1)

b = 2n1

c = 2(n1 + 1)

avšak při volbě α = 5% dostáváme 90% interval spolehlivosti a α = 1% dostáváme 98% interval spolehlivosti, neboť rozložení F je tabelováno pro jednostranné hypotézy

Odhad mediánu μ = x

bodový odhad:

intervalový odhad

xh +1 ≤ μ ≤ xn − h

kde indexy značí pořadové číslo v uspořádané řadě hodnot xi, hodnotu h spočteme z výrazu:

( ) 99% … h = ( n − 1 − 2,58 n ) / 2 95% … h = n − 1 − 1,96 n / 2

za h bereme hodnotu celočíselnou – zaokrouhlenou. Lze použít pro n > 8

T – rozložení jako jedno z výběrových rozložení

Tvar t – rozložení je funkcí rozsahu výběru

Při narůstajícím rozsahu výběru se t – rozložení blíží normálnímu rozložení T – rozložení = normální rozložení , když rozsah výběru = velikosti populace V praktickém využití t – rozložení = normální rozložení pro N > 30 T – rozložení je funkcí stupňů volnosti, které jsou přímo dané rozsahem výběru Když se d.f. → ∞ t – rozložení se blíží normálnímu rozložení Pro každé N existuje jiná křivka Pro každé N existují jiné kritické hodnoty pro 5% riziko, že učiníme chybu I. druhu

T – rozložení jako jedno z výběrových rozložení …pokračování…

Kritické hodnoty t – rozložení

Jsou definované námi zvoleným rizikem, které jsme schopni podstoupit, že učiníme chybu I. druhu a tím, zda jde o jednostranný nebo dvoustranný test Předpokládejme, že N = 20

Při 5%-ní spolehlivosti tkrit = ± 2,093 Při 1%-ní spolehlivosti tkrit = ± 2,861 Při 10%-ní spolehlivosti tkrit = ± 1,729

N = 20

Dvoustranný test … 5%-ní spolehlivost tkrit = ± 2,093 Jednostranný test … 5%-ní spolehlivost tkrit = + 1,729 nebo – 1,729

d.f.

0,95

0,99

2

4,303

9,925

3

3,182

5,841

4

2,776

4,604

5

2,571

4,032

8

2,306

3,355

10

2,228

3,169

20

2,093

2,861

50

2,009

2,678

100

1,984

2,626

F – rozložení

Snedecorovo, nebo Fisherovo – Snedecorovo rozložení χ2 – test, F – test jsou velmi citlivé na „non – normalitu“ sledovaných veličin Je definováno jako poměr dvou χ2 – rozložení

U1 F=

U2

d1 d2

kde U1, U2 jsou dvě χ2 – rozložení s d1 a d2 stupni volnosti

F – rozložení

… pokračování …

F – rozložení


χ2 – rozložení

Když X1 , X2 , …, Xk jsou nezávislé normálně rozložené náhodné veličiny se střední hodnotou rovnou 0 a směrodatnou odchylkou rovnou 1, potom náhodná veličina n

Q=∑X i =1

2 i

má χ2 – rozložení

χ2 – rozložení


χ2 – rozložení


děkuji za pozornost …

Deskriptivní statistické metody II. Míry polohy Míry variability

Recommend Documents