VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA STAVEBNÍ
HELENA KOUTKOVÁ
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA MODUL GA03 M3 ZÁKLADY TEORIE ODHADU
STUDIJNÍ OPORY PRO STUDIJNÍ PROGRAMY S KOMBINOVANOU FORMOU STUDIA
c Helena Koutková, Brno 2004
Obsah Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Označení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Náhodný výběr a statistiky 1.1 Náhodný výběr . . . . . . . . . . . . . . . . 1.1.1 Rozdělení četností a jejich znázornění 1.2 Statistiky . . . . . . . . . . . . . . . . . . . 1.3 Kontrolní otázky . . . . . . . . . . . . . . . 1.4 Cvičení . . . . . . . . . . . . . . . . . . . . . 1.5 Klíč a výsledky cvičení . . . . . . . . . . . . 2 Bodový odhad 2.1 Vlastnosti odhadů . . . . . . . . . 2.1.1 Nestranný odhad . . . . . 2.1.2 Nejlepší nestranný odhad . 2.1.3 Střední kvadratická chyba 2.1.4 Konzistentní odhad . . . . 2.2 Kontrolní otázky . . . . . . . . . 2.3 Cvičení . . . . . . . . . . . . . . . 2.4 Klíč a výsledky cvičení . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
4 5
. . . . . .
6 6 9 13 15 16 17
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
18 20 20 21 22 23 26 26 27
3 Intervalový odhad 3.1 Intervalové odhady parametrů normálního rozdělení 3.1.1 Intervalový odhad střední hodnoty . . . . . 3.1.2 Intervalový odhad rozptylu . . . . . . . . . . 3.2 Kontrolní otázky . . . . . . . . . . . . . . . . . . . 3.3 Cvičení . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Klíč a výsledky cvičení . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
28 30 33 40 43 44 45
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
A Tabulky
46
Literatura
51
Úvod V tomto modulu se seznámíte se základy teorie odhadu, která je částí matematické statistiky. V teorii pravděpodobnosti jste předpokládali, že máte o náhodné veličině z pravděpodobnostního hlediska úplnou informaci, tj. předpokládali jste, že znáte rozdělení pravděpodobnosti náhodné veličiny a zabývali jste se studiem jeho vlastností. Úlohou teorie odhadu je určit (odhadnout) rozdělení sledované náhodné veličiny, a to na základě jejích napozorovaných hodnot. Známe-li typ rozdělení náhodné veličiny, omezuje se úloha teorie odhadu na určení (odhad) parametrů nebo určitých funkcí parametrů tohoto typu rozdělení. Modul je rozdělen na tři kapitoly. V kapitole 2 a 3 předpokládáme, že je znám typ rozdělení náhodné veličiny. Kapitola 1 je určena k zavední základních pojmů, ze kterých vychází nejen teorie odhadu, ale celá matematická statistika. Dozvíte se, jaké napozorované hodnoty sledované veličiny máme na mysli a jakým způsobem lze tyto hodnoty popsat. Kapitola 2 je věnována bodovému odhadu a jeho vlastnostem. Ze zjištěných hodnot náhodné veličiny budeme chtít vypočítat jediné číslo, které budeme považovat za odhad parametru nebo funkce parametrů rozdělení této náhodné veličiny. Samozřejmě budeme požadovat, aby tento odhad měl nějaké rozumné vlastnosti. Kapitola 3 je věnována kvalitativně vyššímu typu odhadu. Zde budeme hledat interval, který bude s předem danou vysokou pravděpodobností obsahovat skutečnou hodnotu parametru nebo funkce parametrů rozdělení. V tomto případě budeme hovořit o intervalovém odhadu. V jednotlivých kapitolách jsou řešené příklady bezprostředně navazující na probírané učivo. Na konci každé kapitoly jsou uvedeny podkapitoly Kontrolní otázky, Cvičení a Klíč a výsledky cvičení. Pro další procvičení látky probírané v tomto a následujícím modulu autorka doporučuje literaturu [9].
Požadované znalosti Pro studium a pochopení tohoto modulu potřebujete znát základy teorie pravděpodobnosti a to především pojmy: náhodná veličina a vektor, obor hodnot náhodné veličiny a vektoru, pravděpodobnost, rozdělení pravděpodobnosti, rozdělovací funkce - hustota a pravděpodobnostní funkce, distribuční funkce, střední hodnota, rozptyl, směrodatná odchylka a kvantil rozdělení, nezávislost náhodných veličin. Dále byste měli znát základní informace o následujících typech rozdělení: normálním rozdělení s parametry µ a σ 2 , t-rozdělení s n stupni volnosti a χ2 - rozdělení s n stupni volnosti (včetně tvarů jejich grafů), alternativním rozdělení s parametrem p, Poissonově rozdělení s parametrem λ. Autorka děkuje RNDr. Marii Budíkové, Dr. z PřF MU v Brně a svému kolegovi RNDr. Oldřichu Dlouhému za přečtení textu a cenné připomínky.
Označení R A1 × A2 × · · · × An An
∗
množina reálných čísel kartézský součin množin A1 , A2 , . . . , An |A × A × {z· · · × A} n−krát
ex střední hodnota náhodné veličiny X rozptyl náhodné veličiny X 100 α procentní kvantil náhodné veličiny X normální rozdělení s parametry µ, σ 2 distribuční funkce N (0, 1) hustota N (0, 1) 100 α procentní kvantil N (0, 1) χ2 - rozdělení [Pearsonovo rozdělení] s n stupni volnosti 100 α procentní kvantil χ2 (n) t - rozdělení [Studentovo rozdělení] s n stupni volnosti 100 α procentní kvantil t(n)
exp(x) E(X) D(X) x(α) N (µ, σ 2 ) Φ ϕ u(α) χ2 (n) χ2 (n; α) t(n) t(n; α)
∗ Kartézský součin množin
Jsou-li A1 , A2 , . . . , An libovolné neprázdné množiny, potom A1 × A2 × · · · × An je množina, jejíž prvky jsou všechny možné n-tice vytvořené tak, že první člen n-tice je prvek množiny A1 , druhý člen n-tice je prvek množiny A2 , . . ., n-tý člen n-tice je prvek množiny An . Zapsáno formálně A1 × A2 × · · · × An = (a1 , a2 , . . . , an ); a1 ∈ A1 , a2 ∈ A2 , . . . an ∈ An . Např.
h0, 1i × h0, 2i = (x, y); x ∈ h0, 1i , y ∈ h0, 2i .
∗ Disjunktní množiny
Množiny A1 , A2 , . . . , An se nazývají disjunktní, jestliže každé dvě různé množiny nemají společné prvky, tj. jestliže Ai ∩ Aj = ∅
pro každé i 6= j; i, j = 1, 2, . . . n.
Např. množiny (−∞, 1i , (1, 2i , (2, 3i jsou disjunktní a množiny (−∞, 1i , h1, 2i , (2, 3i nejsou disjunktní.
Kapitola 1 Náhodný výběr a statistiky Cíle Po přečtení a nastudování této kapitoly budete: • znát, co je náhodný výběr z rozdělení X a jeho realizace; • umět realizaci náhodného výběru z X roztřídit do tříd tak, aby byla přehlednější. Dále pak stanovit četnosti těchto tříd a znázornit je graficky; • vědět, co to je statistika a naučíte se počítat nejjednodušší výběrové charakteristiky - výběrový průměr, rozptyl a směrodatnou odchylku.
Doba potřebná ke studiu K nastudování a pochopení této kapitoly byste měli potřebovat asi 3 hodiny.
Klíčová slova Náhodný výběr a jeho realizace, rozsah výběru, rozdělení četností, úsečkový diagram, histogram, statistika, výběrový průměr, výběrový rozptyl, výběrová směrodatná odchylka.
1.1
Náhodný výběr
V praxi nebývá rozdělení náhodné veličiny jako je např. hmotnost dávky, pevnost materiálu, životnost výrobku, počet vozidel čekajících na „zelenouÿ apod. známé. Abychom o něm získali další informace, budeme opakovat pokus (měření, pozorování), jehož neznámým výsledkem je sledovaná náhodná veličina. Tak např. pro zjištění hmotnosti dávky z konkrétního dávkovače, který pracuje za ustálených provozních podmínek, náhodně vybereme n dávek (tj. tak, aby každá dávka měla stejnou pravděpodobnost, že bude zahrnuta do výběru) a zvážíme je. Při zjišťování krychelné pevnosti betonu vyrobeného na určité betonárce za daných podmínek budeme měřit pevnost na n zkušebních kostkách z téhož betonu. Budeme tedy obecně n-krát opakovat pokus, ve kterém pozorujeme sledovanou náhodnou veličinu. Uvědomme si, že před tím, než pokus provedeme
1.1 Náhodný výběr a zapíšeme výsledek, je výsledek pokusu náhodná veličina s určitým typem rozdělení. Když pokus zrealizujeme a zapíšeme výsledek, dostaneme konkrétní číselnou hodnotu (tj. realizaci) této náhodné veličiny. Pokusme se nyní naše úvahy o opakování pokusu upřesnit. Uvažujme náhodný pokus, jehož neznámým výsledkem je náhodná veličina X s určitým typem rozdělení pravděpodobnosti a uvažujme n (n ≥ 1) nezávislých opakování tohoto pokusu. Označme pro i = 1, 2 . . . , n jako Xi neznámý výsledek i-tého opakování pokusu. Dostaneme náhodný vektor X = (X1 , X2 , . . . , Xn ), jehož složky X1 , X2 , . . . , Xn jsou nezávislé náhodné veličiny. Jestliže během celého experimentu, tj. během n opakování pokusu, nedojde ke změně podmínek, které pokus definují, budou mít složky X1 , X2 , . . . , Xn náhodného vektoru X stejné rozdělení jako veličina X. Náhodný vektor s těmito dvěmi vlastnostmi nazýváme náhodný výběr z rozdělení X o rozsahu n, někdy pak stručněji náhodný výběr z daného rozdělení nebo náhodný výběr z X. Provedeme-li celý experiment a zapíšeme výsledek, dostaneme n-tici reálných čísel (x1 , x2 , . . . , xn ) - tzv. realizaci náhodného výběru. Tedy xi je známý výsledek i-tého opakování pokusu (i = 1, . . . , n). Množinu všech možných realizací náhodného výběru, tj. množinu všech možných hodnot náhodného vektoru X , nazýváme výběrový prostor a značíme V . Je-li Ω obor hodnot náhodné veličiny X a je-li (X1 , X2 , . . . , Xn ) náhodný výběr z X, potom výběrový prostor je množina Ωn . Příklad 1.1: Označme X neznámý výsledek měření vzálenosti d konkrétním měřicím přístrojem, který nevykazuje systematickou chybu (tj. náhodné chyby měření kolísají okolo nuly). Změříme-li n-krát tuto vzdálenost za stejných podmínek (tj. nestane-li se nic, co by ovlivnilo „kvalituÿ měřicího přístroje) a zapíšeme výsledek, dostaneme realizaci (x1 , x2 , . . . , xn ) náhodného výběru (X1 , X2 , . . . , Xn ) z X. Příklad 1.2: Označme V počet vozidel, které projedou konkrétním místem dálnice mezi sedmou a osmou hodinou ranní pracovního dne zimního období. Jestliže během n dní, které vyhovují výše uvedeným podmínkám, budeme na daném místě dálnice pozorovat počet projíždějících vozidel a zapisovat výsledky, dostaneme realizaci náhodného výběru z V o rozsahu n. Všimněte si všech vyjmenovaných podmínek! Spojit např. pozorování v zimním a letním období za jinak stejných výše uvedených podmínek, by znamenalo porušení stálosti podmínek. Pozorování by byla sice nezávislá, ale neměla by stejné rozdělení, protože charakter provozu je v zimě jiný než v létě. Jednalo by se o dva náhodné výběry z téhož typu rozdělení ale s různými hodnotymi parametrů. Z realizace náhodného výběru můžeme vypočítat průměrnou hodnotu, zjistit minimální a maximální hodnotu a různým jiným způsobem realizaci popsat. Takto pracuje popisná statistika. Budeme-li chtít např. v příkladě 1.1 odhadnout skutečnou vzdálenost d, měl by asi každýPtendenci za odhad vzít právě průměrnou hodnotu měření, tj. číslo x = n1 ni=1 xi . Provedeme-li ale celý
7
8
Náhodný výběr a statistiky experiment znovu, tj. znovu n-krát změříme vzdálenost d, dostaneme jinou realizaci náhodného výběru a tedy i jinou hodnotu průměru. Vidíme tedy, že i sám průměr je náhodná veličina, jejíž realizace kolísají od jednoho výběru k druhému. Pn Před provedením experimentu pak můžeme odhad d psát ve tvaru 1 X = n i=1 Xi , tj. jako funkci náhodného výběru - takovou funkci budeme nazývat statistikou. Při našem odhadování se můžeme dopustit chyby, jejíž velikost lze vyjádřit jako vzdálenost průměru od měřené vzdálenosti d. Chceme-li např. zjistit, zda je námi zvolený odhad nejlepším možným odhadem (viz kapitola 2), nebo ohodnotit přesnost a spolehlivost odhadu (viz kapitola 3), tj. stanovit hranice, které chyba odhadu nepřekročí s vysokou pravděpodobností, musíme využít teorii pravděpodobnosti. K tomu potřebujeme obecně znát typ rozdělení, z něchož výběr pochází. V našem případě je známo, že se jedná o náhodný výběr z rozdělení N (µ, σ 2 ), kde µ = d je skutečná vzdálenost a rozptyl σ 2 charakterizuje přesnost měřícího přístroje. Chtěli jsme tedy ve skutečnosti odhadnout parametr µ, tj. střední hodnotu normálního rozdělení. Věnujme se ještě rozdělení náhodného výběru. Vzhledem k tomu, že jsou složky X1 , X2 , . . . , Xn náhodného výběru (X1 , X2 , . . . , Xn ) z rozdělení X nezávislé a mají stejné rozdělení jako veličina X, dostáváme: Tvrzení 1.1:
Rozdělení náhodného výběru
Má-li náhodná veličina X distribuční funkci G, potom má náhodný výběr (X1 , X2 , . . . , Xn ) z X distribuční funkci H(x1 , x2 , . . . , xn ) = G(x1 ) · G(x2 ) · . . . · G(xn ). Má-li náhodná veličina X rozdělovací funkci g, potom má náhodný výběr (X1 , X2 , . . . , Xn ) z X rozdělovací funkci h(x1 , x2 , . . . , xn ) = g(x1 ) · g(x2 ) · . . . · g(xn ).
Odtud plyne: Známe-li typ rozdělení náhodné veličiny X, pak známe i typ rozdělení náhodného výběru z X. Jestliže rozdělení náhodné veličiny X závisí na nějakých neznámých konstantách (parametrech), pak na těchto parametrech závisí i rozdělení náhodného výběru z X. Příklad 1.3: Určete rozdělovací funkci náhodného výběru (X1 , X2 , . . . , Xn ) z normálního rozdělení. Řešení : Hustota f náhodné veličiny X ∼ N (µ, σ 2 ) je pro x ∈ R f = f (x; µ, σ 2 ) = √ kde (µ, σ 2 ) ∈ (−∞, ∞) × (0, ∞) .
i h 1 1 exp − 2 (x − µ)2 , 2σ 2πσ
1.1 Náhodný výběr
9
Obor hodnot Ω náhodné veličiny X je R. Je-li (X1 , X2 , . . . , Xn ) náhodný výběr z rozdělení X, potom je výběrový prostor množina Rn . Hustota s náhodného výběru (X1 , X2 , . . . , Xn ) z X je pro (x1 , x2 , . . . , xn ) ∈ Rn s = s(x1 , x2 , . . . , xn ; µ, σ 2 ) = f (x1 ; µ, σ 2 ) · f (x2 ; µ, σ 2 ) · . . . · f (xn ; µ, σ 2 ) h 1 i 1 exp − 2 (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 , = √ 2σ ( 2πσ)n
kde (µ, σ 2 ) ∈ (−∞, ∞) × (0, ∞).
1.1.1
Rozdělení četností a jejich znázornění
Je-li rozsah n realizace (x1 , x2 , . . . , xn ) náhodného výběru z X velký, potom pro větší přehlednost a další analýzu hodnoty x1 , x2 , . . . , xn roztřídíme do k disjunktních tříd Ωj , j = 1, 2, . . . , k, a to zpravidla následovně: 1. Je-li mezi zjištěnými hodnotami jen malý počet navzájem různých hodnot, volíme každou hodnotu za třídu Ωj . Mluvíme o tzv. prostém třídění. 2. Je-li mezi zjištěnými hodnotami značně velký počet různých hodnot, volíme za třídy Ωj intervaly. Mluvíme o tzv. skupinovém třídění. Toto třídění je subjektivní, i když existují určitá objektivní pravidla. Např. . √ se doporučuje, aby počet k tříd byl 5−20 podle rozsahu výběru n nebo k = n . nebo k = 1 + 3.3 log10 n. Při skupinovém třídění se pak často doporučuje, aby: 1. délka intervalů byla stejná; 2. hranice a středy intervalů byly pokud možno zaokrouhlená čísla. Postup při třídění si ukážeme na příkladech, ale před tím zavedeme ještě další pojmy. Označme tzv. absolutní četnost j-té třídy Ωj , tj. počet výsledků, které padly do j-té třídy Ωj , pro j = 1, 2 . . . , k;
nj fj =
nj n
tzv. relativní četnost j-té třídy Ωj , tj. podíl absolutní četnosti nj a rozsahu výběru n, pro j = 1, 2 . . . , k.
Relativní četnost fj aproximuje pravděpodobnost, že náhodná veličina X nabude hodnoty z třídy Ωj pro j = 1, 2 . . . , k. Pro četnosti zřejmě platí n1 + n2 + · · · + nk = n, f1 + f2 + · · · + fk = 1.
Výsledky třídění shrnujeme do tzv. tabulky rozdělení četností, ve které jsou uvedeny třídy s příslušnými absolutními, resp. relativními četnostmi a v případě skupinového třídění středy intervalů.
10
Náhodný výběr a statistiky Příklad 1.4: Při kontrole vytíženosti vjezdu do určité křižovatky byly zjištěny následující počty vozidel, čekajících ve frontě u semaforu: 5, 1, 2, 5, 2, 5, 9, 5, 2, 5, 2, 3, 4, 7, 4, 5, 1, 3, 8, 5, 2, 6, 5, 8, 6, 7, 4, 1, 1, 4, 2, 3, 3, 3, 5, 6, 2, 4, 1, 3, 4, 5, 6, 4, 9, 6, 5, 2, 1, 6, 6, 2, 6, 2, 7, 6, 7, 6, 3, 7, 3, 6, 1, 2, 4, 4, 3, 3, 5, 3, 5, 4, 6, 3, 3, 4, 3, 5, 3, 1, 1, 1, 4.
Setavte tabulku rozdělení četností počtu čekajících vozidel. Řešení: Označme X počet vozidel čekajících na zelenou. Máme k dispozici realizaci (x1 , x2 , . . . , xn ) náhodného výběru z diskrétního rozdělení o rozsahu n = 83. Mezi zjištěnými hodnotami se vyskytují pouze celá čísla 1 až 9. Zvolme tato čísla za třídy Ωj (j = 1, 2, . . . , 9). Pro určení absolutních četností tříd Ωj musíme zjistit, kolikrát se v realizaci vyskytlo číslo j. Bez využití výpočetní techniky postupujeme pomocí čárkovací metody tak, že postupně čteme hodnoty z realizace a každou z nich zařadíme do příslušné třídy napsáním čárky. Přitom píšeme vždy čtyři čárky svisle, každou pátou čárkou čtveřici přeškrtneme (u nás podtrhneme). Výsledky jsou uvedeny v tabulce 1.1. Tento postup je pracný a asi by jej dnes již nikdo nepoužíval a pro třídění by použil např. EXCEL nebo nějaký statistický software. Seřadíme-li např. v Excelu hodnoty realizace vzestupně, není již problém zjistit absolutní četnosti jednotlivých tříd. Navíc můžeme využít nabídku Nástroje −→ Analýza dat −→ Histogram. Pomocí této nabídky získáme tabulku rozdělení absolutních četností a tzv. histogram absolutních četností, o kterém budeme hovořit později. Musíme ale zadat horní hranice tříd (u nás čísla 1 až 9). Tabulka 1.1: Rozdělení četností počtu vozidel čekajících na zelenou Počet vozidel j
Absolutní četnost nj
Relativní četnost fj
10
0.1205
11
0.1325
1
|||| ||||
2
|||| ||||
3
|||| |||| ||||
15
0.1807
4
|||| |||| ||
12
0.1446
5
|||| |||| ||||
14
0.1687
6
|||| |||| ||
12
0.1446
7
||||
5
0.0602
8
||
2
0.0241
9
||
2
0.0241
83
1.0000
Součet
|
V případě skupinového třídění, tj. především v případě realizace náhodného výběru ze spojitého rozdělení, kdy za třídy Ωj volíme intervaly, můžeme postupovat např. následovně.
1.1 Náhodný výběr
11
Z realizace (x1 , x2 , . . . , xn ) náhodného výběru z X o rozsahu n zjistíme nejmenší hodnotu xmin a největší hodnotu xmax . Zřejmě xi ∈ hxmin , xmax i pro každé i = 1, 2, . . . , n. Interval hxmin , xmax i nazýváme variační obor realizace. Vhodně zvolíme interval ha, bi ⊃ hxmin , xmax i. Interval ha, bi rozdělíme stejně vzdálenými body t0 , t1 , . . . , tk takovými, že a = t0 < t1 < · · · < tk = b na k podintervalů Ωj = (tj−1 , tj i stejné délky d = tj − tj−1 (j = 1, 2, . . . , k). Číslo tj se nazývá horní hranice třídy Ωj , číslo tj−1 se nazývá dolní hranice třídy Ωj . Střed třídy Ωj značíme xj . Zřejmě xj = (tj−1 + tj )/2 pro j = 1, 2, . . . , k. Příklad 1.5: o Při stavbě betonové konstrukce bylo odebráno 40 vzorků betonové směsi. Po 28 dnech vykázaly kostky tuto krychelnou pevnost v MPa: 23.5, 30.8, 32.7, 26.8,
28.0, 29.2, 29.0, 30.4,
25.1, 30.9, 31.9, 25.6,
30.8, 28.6, 25.4, 34.0,
27.1, 27.5, 32.6, 34.8,
29.3, 28.0, 27.4, 27.2,
32.5, 31.2, 33.1, 31.5,
33.8, 28.2, 29.6, 32.3,
30.4, 30.7, 29.7, 29.7,
26.2, 28.8, 30.3, 32.4.
Sestavte tabulku rozdělení četností pevnosti betonu. Řešení: Náhodnou veličinou X je zde pevnost betonu. Máme k dispozici realizaci (x1 , x2 , . . . , xn ) náhodného výběru z X o rozsahu n = 40. Vzhledem k tomu, že se jedná o náhodný výběr ze spojitého rozdělení, roztřídíme realizaci náhodného výběru do k intervalů Ω√ = (tj−1 √ , tj i. (j = 1, . . . , k) stejné . j délky d. Počet k intervalů zvolíme k = n = 40 = 6. Nejprve zjistíme nejmenší hodnotu xmin a největší hodnotu xmax . Dostaneme xmin = 23.5 a xmax = 34.8. Zřejmě h23, 35i ⊃ h23.5, 34.8i. Rozdělme interval h23, 35i do šesti tříd. Potom pro délku d intervalů dostaneme d = 35−23 = 2. Výsledek 6 třídění pak ukazuje tabulka 1.2. Tabulka 1.2: Rozdělení četností pevnosti betonu Třída j
Pevnost betonu (tj−1 , tj i
Absolutní četnost nj
Relativní četnost fj
Střed třídy xj
Ω1
23 − 25
1
0.025
24
Ω2
25 − 27
5
0.125
26
Ω3
27 − 29
10
0.250
28
Ω4
29 − 31
12
0.300
30
Ω5
31 − 33
8
0.200
32
Ω6
33 − 35
4
0.100
34
40
1.000
Součet
Názornější než tabulka rozdělení četností je grafické zobrazení četností, které samozřejmě z této tabulky vychází. Zmíníme se zde pouze o úsečkovém diagramu rozdělení četností a histogramu rozdělení četností.
12
Náhodný výběr a statistiky Připomeňme, že jsme v případě skupinového třídění označili střed j-té třídy Ωj jako xj . V případě prostého třídění je xj přímo roven j-té nejmenší zjištěné hodnotě. Úsečkový diagram rozdělení absolutních, popř. relativních četností dostaneme tak, že na osu x zobrazíme středy jednotlivých tříd xj a v každém z nich sestrojíme úsečku v kladném směru osy y o délce rovné příslušné absolutní, resp. relativní četnosti, tj. nj , resp. fj . V případě skupinového třídění používáme častěji histogram rozdělení absolutních, resp. relativních četností. Dostaneme jej tak, že na osu x vynášíme opět středy jednotlivých tříd xj a nad každou úsečkou zobrazující třídu Ωj sestrojíme obdélník o výšce rovné příslušné absolutní, resp. realitvní četnosti, tj. nj , resp. fj . Horní obrys obdélníků pak nazýváme histogram relativních, resp. absolutních četností. Příklad 1.6: Sestrojte úsečkový diagram rozdělení absolutních četností v příkladu 1.4 a histogram rozdělení relativních četností v příkladu 1.5. Řešení: Výsledné grafy jsou na obrázku 1.1 a na obrázku 1.2. Obrázek 1.1: Úsečkový diagram rozdělení absolutních četností počtu vozidel čekajících na zelenou
Obrázek 1.2: Histogram rozdělení relativních četností pevnosti betonu
1.2 Statistiky
13
Histogram (resp. úsečkový diagram) relativních a absolutních četností mají stejný tvar a aproximují tvar rozdělovací funkce náhodné veličiny X.
1.2
Statistiky
V předchozích příkladech jsme naznačili, že kromě náhodného výběru budou hrát v teorii odhadu důležitou roli tzv. statistiky, tj. funkce náhodného výběru. Pomocí nich se snažíme z náhodného výběru získat nějaké další informace. Upřesněme nyní tento pojem z matematického hlediska. Definice 1.1:
Statistika
Je-li (X1 , X2 , . . . , Xn ) náhodný výběr z rozdělení X, V výběrový prostor a T (x1 , x2 , . . . , xn ) reálná funkce n reálných proměnných definovaná na výběrovém prostoru V , potom se náhodná veličina T = T (X1 , X2 , . . . , Xn ) nazývá statistika. Dosadíme-li do statistiky T realizaci (x1 , x2 , . . . , xn ) náhodného výběru z X, dostaneme číslo t = T (x1 , x2 , . . . , xn ), tzv. realizaci statistiky. S příklady realizací statistik jste se již setkali při třídění. Najděte alespoň čtyři! K nejčastěji používaným statistikám patří tzv. výběrové charakteristiky, které - jak poznáme později - používáme pro odhad číselných charakteristik náhodných veličin. Nejpoužívanějšími výběrovými charakteristikami jsou
n
1X X= Xi n i=1
tzv. výběrový průměr ;
(1.1)
tzv. výběrový rozptyl .
(1.2)
n
1 X S = (Xi − X)2 n − 1 i=1 2
√ Statistika S = S 2 se nazývá výběrová směrodatná odchylka. Výhodou výběrové směrodatné odchylky je, že má stejné jednotky jako měřená veličina. Je-li (x1 , x2 , . . . , xn ) realizace náhodného výběru z X, pak ze vztahů (1.1) a (1.2) lze usuzovat, že x je mírou polohy (těžištěm) hodnot x1 , x2 , . . . , xn , s2 a s jsou mírami rozptýlenosti těchto hodnot okolo x. Čím jsou realizace s2 a tedy i s větší, tím jsou hodnoty x1 , x2 , . . . , xn rozptýlenější. Uvědomme p si, že střední hodnota E(X), resp. rozptyl D(X) a směrodatná odchylka D(X) náhodné veličiny X, které patří k charakteristikám polohy,
14
Náhodný výběr a statistiky resp. rozptýlenosti náhodné veličiny X, jsou konstantami. Na rozdíl od nich jsou výběrové charakteristiky X, S 2 a S náhodné veličiny. Pro konkrétní realizaci (x1 , x2 , . . . , xn ) náhodného výběru z X dostaneme konkrétní realizace (hodnoty) x a s2 statistik X a S 2 . Pro jinou realizaci náhodného výběru z téhož rozdělení dostaneme jiné hodnoty statistik X a S 2 . ∇ Výpočet realizací x a s2 statistik X a S 2 Při výpočtu realizací x a s2 statistik X a S 2 můžeme postupovat následovně: 1. Dosadíme realizaci (x1 , x2 , . . . , xn ) náhodného výběru z X do vztahů (1.1) a (1.2). 2. Pro výpočet realizací x a s2 lze použít jakýkoliv statistický software nebo EXCEL bez dosazování do vzorc˚ u. Na nižší úrovni pak kalkulačky, které umožňují statistické výpočty. Realizaci x spočítáme pomocí programu na výpočet x. Na některých kalkulačkách se vyskytuje dvojice s a σ, na některých σn−1 a σn . Platí pro ně následující vztahy s = σn−1
v u u =t
n
1 X (xi − x)2 , n − 1 i=1
v u n u1 X σ = σn = t (xi − x)2 n i=1
√ (= + m).
P O statistice M = n1 ni=1 (Xi − X)2 budeme mluvit v následující kapitole. 3. Při výpočtu realizací výběrového průměru a výběrového rozptylu v případě realizace (x1 , x2 , . . . , xn ) náhodného výběru z X roztříděného do k tříd Ωj (j = 1, 2, . . . , k) postupujeme tak, že hodnoty, které padly do j-té třídy nahradíme středem xj této třídy. Potom n
x=
k
1X . 1X xi = nj xj , n i=1 n j=1
n
(1.3)
k
1 X 1 X . s = (xi − x)2 = nj (xj − x)2 , n − 1 i=1 n − 1 j=1 2
(1.4)
Příklad 1.7: Při měření veličiny konstantní délky byly zjištěny následující chyby měření v mm: 1,
−2,
−1,
2
Určete realizace x a s .
0,
1,
2,
−1,
−1,
1,
−1.
Řešení: Náhodnou veličinou X je zde náhodná chyba měření. K dispozici máme realizaci náhodného výběru z X o rozsahu n = 10. Podle vztahů (1.1)
1.3 Kontrolní otázky a (1.2) dostaneme 10
x=
1 1 X xi = (x1 + x2 + · · · + x10 ) = −0.10 [mm], 10 i=1 10 10
s2 =
1X 1 . (xi + 0.1)2 = [(x1 + 0.1)2 + · · · + (x10 + 0.1)2 ] = 1.66 [mm2 ]. 9 i=1 9
Přímo (tj. bez dosazování) s využitím kalkulačky x = −0.10 [mm], . . s = σn−1 = 1.29 [mm] ⇒ s2 = 1.66 [mm2 ].
Příklad 1.8: Vypočtěte realizaci výběrového průměru a výběrové směrodatné odchylky v příkladě 1.5. Řešení: V příkladě 1.5 jsmě měli realizaci (x1 , x2 , . . . , xn ) o rozsahu n = 40. Tuto realizaci jsme roztřídíli do k = 6 tříd. Podle vztahů (1.3) a (1.4) dostaneme 6
1 . 1 X nj xj = (1 · 24 + 5 · 26 + · · · + 4 · 34) = 29.650 [M P a], x= 40 j=1 40 6
1 . 1 X s = nj (xj − 29.65)2 = [1(24 − 29.65)2 + · · · + 4(34 − 29.65)2 )] 39 j=1 39 . . = 6.336 [M P a2 ] ⇒ σ b = s = 2.517 [M P a]. 2
Stejně jako v předchozím příkladě můžeme využít statistické výpočty na kalkulačce. Hodnotu xj uložíme nj -krát na většině kalkulaček tak, že xj × nj uložíme pomocí nabídky DATA.
1.3
Kontrolní otázky
1. Jaké vlastnosti musí mít složky náhodného výběru z rozdělení X? 2. Uveďte příklad náhodného výběru ze spojitého a diskrétního rozdělení. 3. Jak postupujeme při třídění realizace náhodného výběru z X? 4. Co jsou relativní a absolutní četnosti a jaké vlastnosti pro ně platí? 5. Co to je statistika? 6. Jak je definován a co udává výběrový průměr, rozptyl a směrodatná odchylka?
15
16
Náhodný výběr a statistiky
1.4
Cvičení
1. Mezi deseti výrobky je jeden vadný. Z těchto výrobků náhodně vybereme dva. Označme Xi počet vadných výrobků v i-tém tahu (i = 1, 2). a) Výběr provádíme tak, že výrobek po vytažení a zjištění, zda je vadný, vrátíme zpět, takže může být opět vybrán. b) Výběr provádíme tak, že výrobky nevracíme zpět. Jaké rozdělení budou mít veličiny X1 a X2 ? Je (X1 , X2 ) náhodný výběr? 2. (Pro zájemce.) Uvažujme velkou dodávku N výrobků, z nichž je M vadných. Předpokládejme, že z těchto N výrobků budeme náhodně vybírat n výrobků, kde n je relativně malé číslo vzhledem k N . Označme opět Xi počet vadných výrobků v i-tém tahu (i = 1, . . . , n). Dejme tomu, že N = 500 a n = 10. Lze v tomto případě při výběru bez vracení považovat náhodný vektor (X1 , . . . , X10 ) za náhodný výběr z rozdělení A(M/N )? 3. Průměr z pěti měření je 10. Jak se změní, když a) jsme se spletli a místo výsledku 3 jsme zapsali výsledek 2; b) získáme jako další výsledek číslo 1. 4. Předpokládejme, že (x1 , . . . , xn ) je realizace náhodného výběru z X. Pn 1 a) Proč nemůže být h = n−1 i=1 (xi − x) mírou variability hodnot x1 , . . . , xn ? n n P P b) Ukažte, že platí (xi − x)2 = xi2 − nx2 i=1
a tedy s2 =
1 n−1
P n
i=1
i=1
xi2 − nx2 .
5. Předpokládejme, že (X1 , . . . , Xn ) je náhodný výběr z X a náhodná veličina Y vznikla lineární transformací náhodné veličiny X, tj. Y = aX + b, kde a, b ∈ R, a 6= 0. Ukažte, že a) (Y1 , . . . , Yn ) = (aX1 + b, . . . , aXn + b) je náhodný výběr z Y ; b) Y = aX + b, kde Y , resp. X je výběrový průměr příslušný veličině Y , resp. veličině X; 2 2 c) SY2 = a2 SX , kde SY2 , resp. SX je výběrový rozptyl příslušný veličině Y , resp. veličině X.
6. Bylo odzkoušeno 10 náhodně vybraných ocelových tyčí k určení meze průtažnosti s těmito výsledky v MPa: 277, 280, 291, 263, 277, 286, 281, 305, 290, 291.
Vypočtěte realizaci výběrového průměru a výběrového rozptylu meze průtažnosti oceli.
1.5 Klíč a výsledky cvičení
17
7. Určete realizaci výběrového průměru, rozptylu a směrodatné odchylky množství ročních srážek v mm v Brně v období 1981-2000: 718.5, 492.3, 431.5, 540.5, 514.7, 548.0, 385.0, 532.0, 531.0, 578.3, 551.9, 613.6, 476.0, 661.3, 518.0, 508.5, 488.7, 494.9, 544.6, 673.5.
8. Při zkouškách vlhkosti stavebního materiálu Hobrex byla změřena procenta vlhkosti u 100 vzorků. Výsledky jsou uvedeny v tabulce: Třída 1. 2. 3.
Vlhkost v % 19.75 - 20.75 20.75 - 21.75 21.75 - 22.75
nj 5 27 46
Třída 4. 5.
Vlhkost v % 22.75 - 23.75 23.75 - 24.75
ni 20 2
Určete realizaci výběrového průměru a směrodatné odchylky vlhkosti. Nakreslete histogram rozdělení relativních četností. 9. Zvážením 50 součástek vyrobených za ustálených výrobních podmínek jsme dostali tyto výsledky (při měřicí jednotce gram) 83, 85, 81, 82, 84, 82, 79, 84, 80, 81, 82, 82, 80, 82, 80, 82, 83, 84, 79, 79, 83, 82, 83, 85, 82, 82, 81, 80, 82, 82, 83, 80, 82, 85, 81, 83, 81, 81, 83, 82, 81, 85, 83, 79, 81, 85, 81, 84, 81, 82.
Sestavte tabulku rozdělení četností. Nakreslete úsečkový diagram a histogram relativních a absolutních četností. Vypočítejte realizaci výběrového průměru a výběrové směrodatné odchylky hmotnosti součástek.
1.5
Klíč a výsledky cvičení
Cvičení: 1. V případě a) i b) budou mít obě náhodné veličiny alternativní rozdělení s parametrem 1/10. V případě a) jsou veličiny nezávislé a jedná se o náhodný výběr z rozdělení A(1/10). V případě b) jsou závislé a nejedná se o náhodný výběr. 2. Ano - Veličiny X1 , . . . , Xn mají rozdělení A(M/N ). Navíc vybíráme-li z velkého počtu N relativně malý počet n, změní se podmínky zcela nepatrně a veličiny X1 , X2 , . . . , Xn můžeme považovat za nezávislé. 3. a) x = 51/5; b) x = 51/6. 4. a) Protože h = 0. . 6. x = 284.100 MPa, s2 = 126.989 MPa2 . . . 7. x = 540.140 mm, s2 = 6347.592 mm2 , s = 79.672 mm. . 8. x = 22.12%, s = 0.86%. 9. Volíme-li 9 tříd o délce d = 1 se středy 79 až 85, dostaneme x = . 81.98 g, s = 1.66 g.
Kapitola 2 Bodový odhad Cíle Po přečtení a nastudování této kapitoly budete: • vědět, co to je bodový odhad parametrické funkce; • znát některé důležité vlastnosti bodových odhadů a umět je posoudit.
Doba potřebná ke studiu Pro zvládnutí této kapitoly budete potřebovat asi 3 hodiny studia.
Klíčová slova Bodový odhad, realizace bodového odhadu, nestranný odhad, nejlepší nestranný odhad, střední čtvercová chyba, konzistentní odhad. V této a následující kapitole budeme předpokládat, že známe typ rozdělení (tzv. statistický model ), ze kterého náhodný výběr pochází. Pokud neznáme typ rozdělení, z něhož výběr pochází (v minulosti nebyly prováděny experimenty daného druhu a rozdělení nelze odvodit ani na základě teoretické úvahy), vybíráme vhodný typ rozdělení např. na základě posouzení tvaru histogramu rozdělení četností a další analýzy realizace náhodného výběru (viz poslední kapitola následujícího modulu). Je-li např. jako vhodný model rozdělení zvolen model normálního rozdělení, známe typ rozdělení obecně až na dva parametry µ a σ 2 . Je-li jako vhodný model zvolen model Poissonova rozdělení, známe typ rozdělení až na jediný parametr λ. Budeme tedy předpokládat, že známe typ rozdělení sledované náhodné veličiny X až na m parametrů (neznámých konstant), m ≥ 1. Tyto parametry budeme značit ϑ1 , ϑ2 , . . . , ϑm . Označme pro ϑ = (ϑ1 , ϑ2 , . . . , ϑm ) jako Θ množinu všech přípustných hodnot vektorového parametru ϑ , kterou nazýváme parametrický prostor. Ke stanovení rozdělení pak stačí odhadnout parametry tohoto rozdělení. Někdy ale nemáme tak velké požadavky a zajímá nás pouze odhad urϑ) = čité funkce parametrů rozdělení - např. střední hodnoty. Označme τ (ϑ τ (ϑ1 , ϑ2 , . . . , ϑm ) určitou reálnou funkci vektorového parametru ϑ definovanou ϑ) nazýváme parametrická funkce. na parametrickém prostoru Θ . Funkci τ (ϑ
19 Protože parametr ϑi , tj. i-tá složka vektorového parametru ϑ , je speciálním příϑ). ϑ), budeme se zabývat odhadem funkce τ (ϑ padem funkce τ (ϑ Příklad 2.1: Při měření vzdálenosti konkrétním přístrojem, který nevykazuje systematickou chybu (tj. náhodné chyby kolísají okolo nuly), je výsledek pokusu X normální náhodná veličina s neznámou střední hodnotou µ - skutečnou vzdáleností a (většinou) známým rozptylem σ 2 (vyjadřujícím přesnost přístroje). Potom pro hustotu f náhodné veličiny X platí i h 1 1 f = f (x; µ) = √ pro x ∈ R, exp − 2 (x − µ)2 2σ 2πσ kde µ ∈ (0, ∞) . Známe tedy typ rozdělení až na jeden parametr µ, tj ϑ = ϑ1 = ϑ = µ, Θ = (0, ∞) . Při měření neodzkoušeným přístrojem bude neznámý i rozptyl, potom h 1 i 1 2 2 √ f = f (x; µ, σ ) = exp − 2 (x − µ) pro x ∈ R, 2σ 2πσ
kde (µ, σ 2 ) ∈ (0, ∞) × (0, ∞) . Známe typ rozdělení až na dva parametry µ a σ 2 , tedy ϑ = (ϑ1 , ϑ2 ) = (µ, σ 2 ) a Θ = (0, ∞) × (0, ∞) . ϑ) = τ (µ, σ 2 ) jsou v případě N (µ, σ 2 ) Příklady parametrických funkcí τ (ϑ při obou neznámých parametrech funkce: τ (µ, σ 2 ) = µ τ (µ, σ 2 ) = σ 2 τ (µ, σ 2 ) = σ τ (µ, σ 2 ) = µ + u(α)σ τ (µ, σ 2 ) = Φ((x − µ)/σ)
střední hodnota rozdělení, rozptyl rozdělení, směrodatná odchylka rozdělení, 100α procentní kvantil rozdělení, hodnota distribuční funkce v bodě x.
Vraťme se zpět k našemu odhadování. Na základě realizace náhodného výběru (X1 , X2 , . . . , Xn ) z X budeme chtít odhadnout skutečnou hodnotu paraϑ) pomocí jediného reálného čísla. Je tedy zřejmé, že tímto metrické funkce τ (ϑ číslem bude funkce realizace náhodného výběru z X, tj. realizace statistiky. Definice 2.1:
Bodový oddhad
ϑ), budeme Statistiku, kterou používáme pro odhad parametrické funkce τ (ϑ ϑ) a její realizaci realizací (bonazývat (bodovým) odhadem funkce τ (ϑ ϑ dového) odhadu τ (ϑ ). ϑ) volit takový odhad, tj. takovou statisPrakticky se snažíme za odhad τ (ϑ tiku, jejíž hodnoty v nějaké smyslu co nejlépe aproximují skutečnou hodnotu ϑ). Chceme-li tedy, aby byl odhad kvalitní, měl by mít určité vlastnosti. My τ (ϑ se zde budeme zabývat pouze tzv. nestrannými, nejlepšími nestrannými a konzistentními odhady. Ideální by bylo, kdyby odhadová statistika měla všechny výše uvedené vlastnosti. Toho ale nelze běžně dosáhnout. Pro hledání bodových odhadů existují různé metody, které zajišťují dobré vlastnosti odhadů (např. metoda maximální věrohodnosti), těmi se zde ale zabývat nebudeme.
20
Bodový odhad
2.1
Vlastnosti odhadů
2.1.1
Nestranný odhad
ϑ) je náhodná veličina. Uvědomme si, že odhad T parametrické funkce τ (ϑ V technické praxi nás samozřejmě zajímá číselná hodnota odhadu, tj. realizace odhadu. Z každé realizace náhodného výběru můžeme obecně dostat jinou realizaci odhadu, tj. jinou číselnou hodnotu. Nejčastěji se vyskytuje požadavek, ϑ) kolísaly okolo skutečné hodaby realizace t odhadu T parametrické funkce τ (ϑ ϑ) nestranný (nevychýlený). noty této funkce, tj. aby byl odhad T funkce τ (ϑ Uvědomíme-li si nyní, že realizace náhodné veličiny T kolísají okolo její střední hodnoty (pokud existuje), budeme požadovat, aby střední hodnota odhadu T ϑ). Protože neznáme skubyla rovna skutečné hodnotě parametrické funkce τ (ϑ tečnou hodnotu vektorového parametru ϑ ∈ Θ , budeme chtít, aby požadovaná rovnost platila, ať je skutečná hodnota ϑ kdekoliv v Θ , tj. pro každé ϑ ∈ Θ . Definice 2.2:
Nestranný odhad
Řekneme, že statistika T je nestranným nebo nevychýleným odhadem ϑ), když pro každé ϑ ∈ Θ platí parametrické funkce τ (ϑ ϑ). E(T ) = τ (ϑ ϑ) = Neplatí-li tato rovnost, pak odhad nazýváme vychýleným a rozdíl B(ϑ ϑ) je vychýlení odhadu T . E(T ) − τ (ϑ Příklad 2.2: Předpokládejme, že je (X1 , X2 , . . . , Xn ) náhodný výběr z rozdělení s konečnou střední hodnotou µ a konečným rozptylem σ 2 . Zjistěte, zda je výběrový průměr X nestranným odhadem µ a určete jeho rozptyl. ϑ) = µ. Výběrový průměr X je nevychýleným Řešení: V tomto případě je τ (ϑ odhadem střední hodnoty µ, když pro každé ϑ ∈ Θ platí E(X) = µ. Protože náhodné veličiny X1 , X2 , . . . , Xn mají stejné rozdělení jako náhodná veličina X, platí E(Xi ) = µ, D(Xi ) = σ 2
pro i = 1, 2, . . . , n.
Potom E(X) = E
n 1 X
n
i=1
Xi
n
n
1X 1X = E(Xi ) = µ = µ. n i=1 n i=1
(2.1)
Výběrový průměr X je nestranným odhadem střední hodnoty µ rozdělení, z něhož výběr pochází (ať známe nebo neznáme σ 2 ).
2.1 Vlastnosti odhadů
21
Vzhledem k tomu, že jsou veličiny X1 , X2 , . . . , Xn stochasticky nezávislé, je D(X) = D
n 1 X
n
i=1
n n 1 X 1 X 2 σ2 Xi = 2 D(Xi ) = 2 σ = . n i=1 n i=1 n
(2.2)
Rozptyl výběrového průměru klesá s rostoucím rozsahem n výběru. Zabývejme se nyní další důležitou číselnou charakteristikou rozdělení X, z něhož výběr pochází. Podobně (jenom složitěji) jako v příkladu 2.2 lze ukázat, že pro výběrový rozptyl S 2 platí E(S 2 ) = σ 2 . Tedy statistika S 2 je nestranným odhadem rozptylu σ 2 . Výběrová směrodatná odchylka S ale není nestranným odhadem směrodatné odchylky σ. Kdyby byla, muselo by platit D(S 2 ) = E(S 2 ) − [E(S)]2 = σ 2 − σ 2 = 0, což by znamenalo, že výběrový rozptyl S 2 je konstantní. V případě, že známe střední hodnotu µ rozdělení X, ze kterého výběr pochází, nebudeme ji samozřejmě odhadovat a je škoda tuto informaci nevyužít i při odhadu rozptylu σ 2 . Označme n
S02
1X = (Xi − µ)2 . n i=1
Potom lze ukázat, že E(S02 ) = σ 2 . Tedy S02 je nestranným odhadem rozptylu σ 2 v případě známé střední hodnoty µ. P n (Xi − X)2 , o které jsme mluvili Vraťme se ještě ke statistice M = n1 i=1 v minulé kapitole. Zřejmě M=
n−1 2 n−1 2 n−1 1 S =⇒ E(M ) = E(S 2 ) = σ = σ2 − σ2. n n n n
Statististika M je tedy vychýlený odhad rozptylu σ 2 .
2.1.2
Nejlepší nestranný odhad
V některých případech lze najít více statistik, které P jsou nestrannými odhady ϑ). Tak např. výběrový průměr X = n1 ni=1 Xi a náhodná veličina funkce τ (ϑ X1 jsou nestranné odhady střední hodnoty µ rozdělení, z něhož výběr pochází. Přitom nejsou stejně vhodné. Nestrannost těchto odhadů sice zaručuje, že jejich realizace kolísají okolo skutečné střední hodnoty µ, ale samozřejmě vhodnost nestranného odhadu µ závisí na tom, jaká je rozptýlenost jeho realizací okolo 2 skutečné hodnoty µ. V našem případě máme D(X) = σn a D(X1 ) = σ 2 . Výběrový průměr je tedy vhodnější odhad střední hodnoty µ (pro n > 1). ϑ), pak samozřejmě buExistují-li nestranné odhady parametrické funkce τ (ϑ deme chtít použít ten nestranný odhad, který má ze všech nestranných odhadů ϑ) nejmenší rozptyl. Takový odhad (pokud existuje) buparametrické funkce τ (ϑ ϑ). deme nazývat nejlepší nestranný odhad funkce τ (ϑ
22
Bodový odhad Definice 2.3:
Nejlepší nestranný odhad
ϑ) a Je-li T = T (X1 , X2 , . . . , Xn ) nestranný odhad parametrické funkce τ (ϑ ∗ ∗ ϑ) jestliže pro každý jiný nestranný odhad T = T (X1 , . . . , Xn ) funkce τ (ϑ platí D(T ) ≤ D(T ∗ ) pro každé ϑ ∈ Θ ,
ϑ). nazývá se statistika T nejlepší nestranný odhad funkce τ (ϑ
2.1.3
Střední kvadratická chyba
ϑ), jejichž hustoty Uvažujme nyní tři odhady T , U a V parametrické funkce τ (ϑ h(t), g(u) a s(v) mají tvar jako na obrázku 2.1. V tomto případě vidíme, že odhad T je sice nevychýlený, ale má příliš velký rozptyl. Odhad U má sice nejmenší rozptyl, ale je příliš vychýlený. Jako nejvhodnější se jeví odhad V , který má nejlepší kombinaci malého vychýlení a malého rozptylu. Vidíme tedy, že dalším měřítkem kvality odhadu, by měl být ukazatel, který měří právě tuto kombinaci. Tímto ukazatelem je, jak ukážeme, střední hodnota čtverce odchylky odhadu od skutečné hodnoty odhadované parametrické funkce. Obrázek 2.1: Odhad V s nejlepší kombinací malého rozptýlení a malého vychýlení
Definice 2.4:
Střední kvadratická chyba
ϑ) odhadu T parametrické funkce τ (ϑ ϑ) Střední kvadratická chyba K(ϑ je definována jako ϑ) = E{[T − τ (ϑ ϑ)]2 }. K(ϑ
2.1 Vlastnosti odhadů
23
Protože platí ϑ)] = E{[T − τ (ϑ ϑ)]2 } − {E[T − τ (ϑ ϑ)]}2 D(T ) = D[(T − τ (ϑ ϑ) − [E(T ) − τ (ϑ ϑ)]2 = K(ϑ ϑ) − B 2 (ϑ ϑ), = K(ϑ dostáváme
ϑ). ϑ) = D(T ) + B 2 (ϑ K(ϑ
Kvadratická chyba odhadu je tedy rovna součtu rozptylu odhadu a čtverci vyϑ) posuzovat z hlediska K(ϑ ϑ) chýlení odhadu. Budeme-li dva odhady funkce τ (ϑ ϑ) menší, dostaneme ten, který má lepší kombia vybereme ten, který má K(ϑ naci rozptylu a vychýlení. Konkrétně ze dvou nevychýlených odhadů vybereme ten, který má menší rozptyl a ze dvou odhadů se stejným rozptylem vybereme ten, který má menší vychýlení. Je-li statistika T nestranným odhadem funkce ϑ), je střední kvadratická chyba K(ϑ ϑ) = D(T ). τ (ϑ Lze ukázat, že pro střední kvadratickou chybu odhadů S 2 a M rozptylu σ 2 v případě výběru z normálního rozdělení platí: E[(S 2 − σ 2 )2 ] =
2 σ4, n−1
2n − 1 4 σ . n2 2 Protože platí 2n−1 < n−1 , má statistika M menší střední kvadratickou chybu n2 2 než statistika S . Tedy každý z těchto odhadů je lepší v jiném smyslu. E[(M − σ 2 )2 ] =
2.1.4
Konzistentní odhad
K další často požadované vlastnosti odhadu patří tzv. konzistence odhadu, ta zhruba řečeno znamená, že čím větší bude rozsah výběru n, tím bude realizace odhadu blíž ke skutečné hodnotě odhadované parametrické funkce. Abychom zdůraznili, že zpracováváme náhodný výběr o rozsahu n, budeme odhad značit Tn místo T . Definice 2.5:
Konzistentní odhad
ϑ) nazýváme konzistentní odhad Odhad Tn parametrické funkce τ (ϑ ϑ), jestliže pro každé > 0 a pro každé ϑ ∈ Θ platí funkce τ (ϑ ϑ)| < = 1. lim P |Tn − τ (ϑ n→∞
Zřejmě platí ϑ)| < = P τ (ϑ ϑ) + ϑ) − < Tn < τ (ϑ P |Tn − τ (ϑ
ϑ), potom s rostoucím rozsahem Je-li tedy Tn konzistentní odhad funkce τ (ϑ výběru n roste pravděpodobnost, že tento odhad nabude hodnoty libovolně ϑ). blízké skutečné hodnotě odhadované funkce τ (ϑ Ověření konzistence odhadu nám usnadní následující tvrzení.
24
Bodový odhad Tvrzení 2.1:
Nutná podmínka konzistence
ϑ), ϑ) je konzistentní odhad funkce τ (ϑ Odhad Tn parametrické funkce τ (ϑ jestliže pro každé ϑ ∈ Θ platí ϑ), lim E(Tn ) = τ (ϑ
(2.3)
lim D(Tn ) = 0.
(2.4)
n→∞
n→∞
Vztah (2.3) je triviálně splněn pro nestranné odhady. Vztah (2.4) říká, že se ϑ). s rostoucím n zužuje rozdělení odhadu Tn kolem skutečné hodnoty funkce τ (ϑ Příklad 2.3: Při stejných podmínkách jako v příkladu 2.2 zjistěte, zda je výběrový průměr X konzistentním odhadem střední hodnoty µ. Řešení: Označme n
1X Xi Tn = X = n i=1
pro n = 1, 2, . . . .
Protože platí E(Tn ) = E(X) = µ, dostáváme
D(Tn ) = D(X) =
σ2 n
pro n = 1, 2, . . . ,
lim E(Tn ) = lim E(X) = lim µ = µ,
n→∞
n→∞
n→∞
σ2 lim D(Tn ) = lim D(X) = lim = 0. n→∞ n→∞ n→∞ n Tedy X je konzistentní odhad střední hodnoty µ. Tuto kapitolu uzavřeme tvrzením, které shrnuje některé ukázané poznatky a některé další o odhadu střední hodnoty a rozptylu náhodné veličiny X. Tvrzení 2.2:
Odhady střední hodnoty a rozptylu
Pro náhodný výběr z rozdělení N (µ, σ 2 ) platí: 1. Nejlepším nestranným a konzistentním odhadem střední hodnoty µ je výběrový průměr X. 2. Nejlepším nestranným a konzistentním odhadem rozptylu σ 2 je: • výběrový rozptyl S 2 v případě, že neznáme střední hodnotu µ; • statistika S02 v případě, že známe střední hodnotu µ.
Pro náhodný výběr z jiného rozdělení s konečnou střední hodnotou µ a konečným rozptylem σ 2 jsou uvedené odhady nestranné a konzistentní.
2.1 Vlastnosti odhadů
25
Pro odhad směrodatné odchylky běžně používáme statistiku S, resp. S0 v případě, že neznáme, resp. známe střední hodnotu µ, i když se nejedná o nestranné odhady. Příklad 2.4: Vraťte se k příkladu 1.7 a odhadněte: 1. horní hranici náhodné chyby měření, které se můžeme dopustit s pravděpodobností 0.95. Předpokládejte, že náhodná chyba měření má normální rozdělení. 2. směrodatnou odchylku náhodné chyby měření, když víte, že měřicí přístoj nevykazuje systematickou chybu. Řešení: Náhodná veličina X v příkladě 1.7 je náhodná chyba měření. Předpokládáme, že X ∼ N (µ, σ 2 ). 1. Máme odhadnout konstantu k, pro kterou platí P (X ≤ k) = 0.95. Požadovanou pravděpodobnost vyjádříme pomocí normované náhodné veličiny X, tj. pomocí náhodné veličiny U = X−µ , která má rozdělení N (0, 1) σ Dostaneme X − µ k − µ k − µ 0.95 = P ≤ =P U ≤ . σ σ σ
Číslo k−µ je tedy 95 procentní kvantil veličiny U , tj. u(0.95). V tab A.3 σ najdeme u(0.95) = 1.645. Odtud k−µ = 1.645 ⇒ k = µ + 1.645σ. σ
Odhad b k horní hranice k pak dostaneme tak, že najdeme odhad µ b střední b směrodatné odchylky σ. V příkladě 1.7 máme hodnoty µ a odhad σ . b = x = −0.10[mm], σ b = s = 1.29[mm]. µ Potom . b k=µ b + 1.645b σ = 2.02[mm] Realizace odhadu horní hranice chyby měření, které se můžeme dopustit s pravděpodobností 0.95, je 2.02 mm. 2. Realizace σb2 odhadu rozptylu σ 2 v případě známé střední hodnoty µ je n
1X σb2 = s02 = (xi − µ)2 . n i=1
Protože přístroj nevykazuje systematické chyby, je µ = 0 a dostáváme tedy 10
1 X 2 . b = s0 = 1.22[mm] xi = 1.50 ⇒ σ σb2 = s20 = 10 i=1
Realizace odhadu směrodatné odchylky chyby měření je 1.22 mm.
26
Bodový odhad
2.2
Kontrolní otázky
1. Vysvětlete, co si představujete pod pojmy: nestranný odhad, nejlepší nestranný odhad, konzistentní odhad. 2. Jak je definována statistika S02 ? Můžete ji použít pro odhad rozptylu, když neznáte střední hodnotu? 3. Rozhodněte, která z následujích tvrzení jsou pravdivá? a) Je-li T nestranný odhad µ, potom E(µ) = T . ϑ), lepší je b) Máme-li dva nestranné odhady parametrické funkce τ (ϑ ten, který má větší rozptyl. c) Realizace výběrové směrodatné odchylky kolísají okolo skutečné hodnoty směrodatné odchylky rozdělení, ze kterého výběr pochází. d) Střední hodnota rozdělení, ze kterého výběr pochází, je X. e) Je-li odhad nestranný, pak je konzistentní.
2.3
Cvičení
1. Předpokládejme, že (X1 , X2 , X3 ) je náhodný výběr z alternativního rozdělení s parametrem p, tj. A(p). Zjistěte, zda Pnjsou statistiky T1 = 1 X1 + X2 − X3 , T2 = 2X1 + X2 − X3 a T3 = 3 i=1 Xi = X nestranné odhady parametru p, určete jejich rozptyl a střední kvadratickou chybu. 2. Předpokládejme, že (X1 , . . . , Xn ) náhodný výběr z rovnoměrného rozdělení s parametry 0, b, b > 0 , tj. X ∼ R(0, b). Ověřte, zda je statistika T = 2X a) nestranným odhadem b; b) konzistentním odhadem b. 3. Dva studenti měřili stejným přístrojem, který nevykazuje systematickou chybu, vzdálenost dvou bodů. Jeden z nich změřil tuto vzdálenost 5 krát a za odhad vzal průměr svých měření. Druhý z nich měřil 10 krát a za odhad vzal také průměr svých měření. Nemohli se ale domluvit, zda za „společnýÿ odhad vzdálenosti mají vzít a) průměr svých odhadů; b) průměr všech měření. Který postup je lepší? 4. Při sledování doby do poruchy v hodinách určitého zařízení byly získány následující údaje: 23, 49, 69, 98, 75, 15. Předpokládejme, že se jedná o realizaci náhodného výběru z exponenciálního rozdělení X s parametrem λ, tj. z rozdělení s distribuční funkcí F (x; λ) = 1−exp (−x/λ) pro x ≥ 0, pro jiná x je F (x; λ) = 0. Odhadněte střední dobu životnosti zařízení a pravděpodobnost, že zařízení bude fungovat ještě po 70 hodinách.
2.4 Klíč a výsledky cvičení
27
5. Při měření určité vzdálenosti jsme získali následující výsledky (v km): 19.01, 19.02, 18.99, 19.00, 19.05, 19.05, 19.00, 18.98, 18.99, 19.00.
Odhadněte přesnost dálkoměru, jestliže víte, že je skutečná vzdálenost 20 km a chyba měření je zatížena systematickou chybou -1 km. Jak se změní výsledek, když neznáte střední hodnotu náhodné chyby měření? 6. Byly zjištěny odchylky od jmenovité hmotnosti 50 kg. Odhadněte směrodatnou odchylku odchylky, když víte, že střední hodnota odchylky je 0 kg. Třída 1. 2. 3. 4. 5.
2.4
Odchylky v kg -0.5 – -0.3 -0.3 – -0.1 -0.1 – 0.1 0.1 – 0.3 0.3 – 0.5
nj 3 10 20 11 5
Klíč a výsledky cvičení
Otázky: 3. a) Ne - E(T ) = µ. b) Ne. c) Ano - jedná se o nestranný odhad. d) Ne - není to nestranný odhad. e) Ne - X je odhad střední hodnoty. f) Ne nemusí být. Cvičení: 1. E(T1 ) = E(T3 ) = p, E(T2 ) = 2p; T1 a T3 jsou nestranné odhady. T2 není nestranný odhad parametru p. D(T1 ) = 3p(1 − p), D(T2 ) = 6p(1 − p), D(T3 ) = 13 p(1 − p), KT1 (p) = 3p(1 − p), KT2 (p) = p(6 − 5p), KT3 (p) = 1 p(1 − p). 3 2. E(T ) = b, D(T ) =
b2 . 3n
a) Ano. b) Ano.
3. Oba odhady jsou nestranné. Rozptyl odhadu v a) je 1 2 hadu v b) je 15 σ . Postup b) je lepší. . . 4. x = 54.833 h, P (X > 70) = 0.279. . 5. σb2 = s20 = 0.00061 km2 , σb2 = s2 = 0.00059 km2 . . 6. σ b = s0 = 0.208 kg.
3 2 σ 40
a rozptyl od-
Kapitola 3 Intervalový odhad Cíle Po přečtení a nastudování této kapitoly budete: ϑ) a proč jej • vědět, co to je intervalový odhad parametrické funkce τ (ϑ hledáme; • umět určit realizaci intervalového odhadu střední hodnoty, rozptylu a směrodatné odchylky normálního rozdělení; • vědět, co je přesnost a spolehlivost odhadu a umět určit rozsah výběru n z normálního rozdělení tak, aby odhad střední hodnoty normálního rozdělení měl předepsanou přesnost a spolehlivost.
Doba potřebná ke studiu Pro zvládnutí této kapitoly budete potřebovat asi 4 hodiny bez řešení příkladů ze cvičení.
Klíčová slova Intervalový odhad, koeficeient spolehlivosti odhadu, spolehlivost odhadu, riziko odhadu, přesnost odhadu, přípustná chyba odhadu. V této kapitole (stejně jako v předchozí) budeme předpokládat, že máme náhodný výběr (X1 , X2 , . . . , Xn ) z rozdělení X, které závisí na vektorovém parametru ϑ = (ϑ1 , ϑ2 , . . . , ϑm ). O parametru ϑ víme pouze, že patří do parametrického prostoru Θ . V předchozí kapitole jsme se zabývali bodovým odhadem T = ϑ) a studiem jeho vlastností. ZdůT (X1 , X2 , . . . , Xn ) parametrické funkce τ (ϑ razňovali jsme, že bodový odhad T je náhodná veličina, jejíž hodnoty kolísají od jedné realizace náhodného výběru k druhé. V technických aplikacích nás samozřejmě zajímá číselná hodnota bodového odhadu, a ta se prakticky více ϑ). Při odhadování či méně liší od skutečné hodnoty odhadované funkce τ (ϑ pomocí bodového odhadu (ať má sebelepší vlastnosti) nejsme schopni určit ϑ) přesnost odhadu, tj. jaké chyby se dopustíme, když skutečnou hodnotu τ (ϑ
29 nahradíme hodnotou bodového odhadu vypočítanou na základě realizace náhodného výběru z X. Informaci o přesnosti odhadu můžeme získat pomocí tzv. intervalového odhadu. Při konstrukci intervalového odhadu se snažíme najít ne jednu, ale dvě statistiky, dejme tomu TD = TD (X1 , X2 , . . . , Xn ) a TH = TH (X1 , X2 , . . . , Xn ), TD < TH , tak, aby interval hTD , TH i překryl skuϑ) s dostatečně velkou pravděpodobtečnou hodnotu parametrické funkce τ (ϑ ností. Definice 3.1:
Intervalový odhad, koeficient spolehlivosti, riziko
Jsou-li TD a TH takové statistiky, že pro dané α ∈ (0, 1) a každé ϑ ∈ Θ platí ϑ) ≤ TH ) = 1 − α, P (TD ≤ τ (ϑ
(3.1)
potom se interval hTD , TH i nazývá 100(1−α) procentní intervalový odhad ϑ). parametrické funkce τ (ϑ Číslo 1 − α se nazývá koeficient spolehlivosti odhadu, číslo α riziko odhadu. Nahradíme-li statistiky TD a TH jejich realizacemi tD a tH , vypočítanými z jedné realizace náhodného výběru, dostaneme interval htD , tH i , který se nazývá realizace intervalového odhadu hTD , TH i .
ϑ) se také někdy nazývá interval spolehlivosti nebo Intervalový odhad τ (ϑ ϑ). konfidenční interval pro τ (ϑ ϑ), se kterou lze při daných Někdy nás zajímá pouze největší hodnota τ (ϑ výsledcích experimentu počítat, nebo naopak pouze nejmenší možná hodnota ϑ). V prvním případě hledáme statistiku TH tak, aby platilo τ (ϑ ϑ)) = 1 − α pro každé ϑ ∈ Θ . P (TH ≥ τ (ϑ
(3.2)
V druhém případě hledáme statistiku TD tak, aby ϑ)) = 1 − α pro každé ϑ ∈ Θ . P (TD ≤ τ (ϑ
(3.3)
Dostaneme tzv. 100(1 − α) procentní jednostranné intervalové odhady ϑ). V případě (3.2) budeme mluvit o horním nebo parametrické funkce τ (ϑ pravostranném intervalovém odhadu, v případě (3.3) budeme mluvit o dolním nebo levostranném intervalovém odhadu. V těchto případech je pouze jeden kraj intervalového odhadu náhodná veličina. Tak např., vímeϑ) musí být větší než číslo a, bude horní intervalový odhad li jistě, že τ (ϑ ϑ) omezena zdola, bude horní intervalový (a, TH i. Jestliže není hodnota τ (ϑ odhad (−∞, TH i. Jsou-li oba kraje intervalového odhadu náhodné veličiny, nazýváme jej oboustranný a slovo oboustranný se často vynechává. Ukážeme, že všechny tyto druhy intervalových odhadů lze získat z intervalu (3.1) vhodným rozdělením rizika α. ∇ Interpretace intervalového odhadu
Je zapotřebí si uvědomit správný výklad intervalového odhadu. Z každé realizace náhodného výběru dostaneme obecně jinou realizaci intervalového odϑ) překrývá nebo nepřekrývá. Zvolíme-li hadu. Každá z těchto realizací buď τ (ϑ
30
Intervalový odhad např. koeficient spolehlivosti 1− α = 0.99 a vypočteme velký počet realizací 99 ϑ), pak průměrně 99 procentního intervalového odhadu parametrické funkce τ (ϑ ϑ). Volíme-li tedy koefiprocent těchto realizací překrývá skutečnou hodnotu τ (ϑ ceint spolehlivosti 1 − α blízký jedné, je skoro jisté, že realizace intervalového odhadu vypočtená z jedné realizace náhodného výběru překryje skutečnou ϑ). hodnotu τ (ϑ Dosavadní technické normy vyžadují většinou počítat 99 procentní nebo 95 procentní intervaly spolehlivosti (tj. volbu α = 0.01 nebo α = 0.05). ∇ Koeficient spolehlivosti a délka intervalového odhadu Koeficient spolehlivosti intervalového odhadu udává spolehlivost odhadu, tj. vyjadřuje, s jakou pravděpodobností se můžeme spolehnout na to, že interval ϑ). Délka oboustranného intervalového překryje skutečnou hodnotu funkce τ (ϑ odhadu udává přesnost intervalového odhadu. Čím je tato délka menší, tím je odhad přesnější. Při pevně zvoleném rozsahu náhodného výběru platí, že čím větší koeficient spolehlivosti odhadu zvolíme, tím menší bude přesnost odhadu. Čím více si totiž chceme být jisti, že intervalový odhad překryje skuϑ), tím musí být tento interval širší. Nepřiměřeným zvětšotečnou hodnotu τ (ϑ váním koeficientu spolehlivosti můžeme dosáhnout tak malou přesnost, tj. tak široký interval, že nebude mít prakticky žádnou vypovídací schopnost. Proto se v technických aplikacích doporučuje volit koeficient spolehlivosti odhadu právě 0.99 nebo 0.95, v některých případech pak 0.90. ϑ) ∇ Konstrukce intervalového odhadu funkce τ (ϑ Postup, který se zpravidla používá při konstrukci 100(1 − α) procentního inϑ), bude uveden na straně 35 až po vyřešení tervalového odhadu funkce τ (ϑ konkrétního příkladu.
3.1
Intervalové odhady parametrů normálního rozdělení
Dále se budem zabývat intervalovými odhady parametrů µ a σ 2 rozdělení ϑ) = µ v případě našeho zájmu o odhad µ a N (µ, σ 2 ). Tj. u nás bude τ (ϑ 2 ϑ) = σ v případě odhadu σ 2 . Přitom budeme rozlišovat situace, kdy jsou τ (ϑ neznámé oba parametry nebo pouze jeden z nich. Předpokládejme tedy, že (X1 , X2 , . . . , Xn ) je náhodný výběr z rozdělení N (µ, σ 2 ). ∇ Rozdělení některých výběrových charakteristik Při konstrukci intervalových odhadů µ a σ 2 vycházíme z bodových odhadů X, S 2 a S02 těchto parametrů, proto potřebujeme znát jejich rozdělení nebo rozdělení funkcí těchto odhadů, tzv. výběrová rozdělení.
3.1 Intervalové odhady parametrů normálního rozdělení Tak např. pro výběrový průměr X platí (viz vztahy (2.1) a (2.2)), že E(X) = µ, D(X) =
σ2 . n
Protože předpokládáme, že výběr pochází z normálního rozdělení, bude mít normální rozdělení i výběrový průměr X, protože je lineární kombinací nezávislých normálních náhodných veličin. Tedy X ∼ N (µ,
σ2 ). n
Normováním statistiky X dostaneme veličinu X − E(X) X −µ X − µ√ q = q = n, σ σ2 D(X) n
která má normované normální rozdělení. Máme-li tedy náhodný výběr z rozdělení N (µ, σ 2 ), má normovaný výběrový průměr rozdělení N (0, 1). Další výběrová rozdělení, která se používají ke konstrukci intervalových odhadů parametrů normálního rozdělení a testech hypotéz o parametrech normálního rozdělení (viz následující modul), zde nebudeme odvozovat, ale shrneme je všechny v následujícím tvrzení. Tvrzení 3.1:
Výběrová rozdělení
Je-li (X1 , . . . , Xn ) náhodný výběr z rozdělení X ∼ N (µ, σ 2 ). Potom X − µ√ n ∼ N (0, 1), σ X − µ√ n ∼ t(n − 1), S nS02 σ2 (n − 1)S 2 σ2
∼ χ2 (n), ∼ χ2 (n − 1).
Při konstrukci i výpočtu intervalových odhadů parametrů µ a σ 2 v jednotlivých situacích budeme potřebovat pracovat s kvantily výše uvedených rozdělení. Úkol 3.1: Zopakujte si z teorie pravděpodobnosti, jak je definován 100γ procentní kvantil rozdělení náhodné veličiny X a co udává. Nakreslete si obrázky.
31
32
Intervalový odhad Poznámka 3.1:
Kvantily výběrových rozdělení
Kvantily výběrových rozdělení jsou jednak tabelovány (viz [11] a u nás v příloze A), jednak je počítá každý statistický software a můžeme využít i Excel. 100γ procentní kvantily rozdělení N (0, 1), t(n) a χ2 (n) budeme postupně značit u(γ), t(n; γ) a χ2 (n; γ). Kvantily u(γ) a t(n; γ) jsou tabelovány pro γ ≥ 0.5, pro γ < 0.5 je u(γ) = −u(1 − γ) a t(n; γ) = −t(n; 1 − γ). Nakreslete si obrázky a přesvědčte se o těchto rovnostech. Pro n > 30 je . . t(n; γ) = u(γ). Pro kvantily χ2 (n; γ) v tomto případě platí χ2 (n; γ) = √ 1 [ 2n − 1 + u(γ)]2 , takže v některých statistických tabulkách jsou tyto 2 kvantily tabelovány pro n ≤ 30 . Úkol 3.2: 1. Jak vypadají tvary hustoty rozdělení N (µ, σ 2 ), t(n) a χ2 (n)? 2. Určete následující kvantily: u(0.95), u(0.05), t(10; 0.9), t(15; 0.05), t(31; 0.99), χ2 (5; 0.05), χ2 (19; 0.99), χ2 (100; 0.99), χ2 (100; 0.01). 3. K jaké hodnotě se blíží 100γ procentní kvantily rozdělení N (0, 1), t(n) a χ2 (n), když se γ blíží k jedné, resp. k nule? Nakreslete si obrázky! Výsledek: 2. 1.645, −1.645, 1.372, −1.753, 2.326, 1.146, 36.19, 135.02, 69.39. 3. Když se γ blíží k jedné, blíží se všechny kvantily k ∞. Když se γ blíží k nule, blíží se kvantily N (0, 1) a t(n) k −∞ a kvantil χ2 (n) k nule. Místo limit budeme psát např. u(1) = ∞, u(0) = −∞. Než přejdeme k intervalovým odhadům parametrů normálního rozdělení, ukážeme využití tvrzení 3.1 při výpočtu pravděpodobnosti. Příklad 3.1: Při kontrole stejnorodosti dodávky mandarinek balených po 1 kg se odběratel rozhodl zvážit 20 náhodně vybraných balíčků. Dodávku přijme, jestliže bude výběrová směrodatná odchylka nanejvýš 20 g. Jaká je pravděpodobnost přijetí dodávky, jestliže je známo, že hmotnost balíčků má přibližně rozdělení N (1kg, 0.0262 kg 2 )? Řešení: Odběratel má k dispozici náhodný výběr (X1 , . . . , Xn ) o rozsahu n = 20 z rozdělení N (1kg, 0.0262 kg 2 ). Počítáme pravděpodobnost P (S ≤ 0.02). 2 Vyjádříme ji pomocí náhodné veličiny (n−1)S , která má rozdělení χ2 (n − 1). σ2 (n − 1)S 2 (n − 1)0.022 ≤ P (S ≤ 0.02) = P σ2 σ2 (n − 1)S 2 (n − 1)S 2 19 · 0.022 11.24 ≤ = ≤ . = P P σ2 0.0262 σ2 Tedy číslo 11.24 je 100α procentní kvantil rozdělení χ2 (19). Z tabulky A.4 do. staneme, že α = 0.1. Přijetí dodávky lze očekávat s pravděpodobností 0.1.
3.1 Intervalové odhady parametrů normálního rozdělení
3.1.1
33
Intervalový odhad střední hodnoty
Příklad 3.2: Určete 100(1−α) procentní intervalový odhad střední hodnoty µ normálního rozdělení N (µ, σ 2 ) se známým rozptylem σ 2 . Řešení: Podle definice 3.1 potřebujeme určit statistiky TD a TH tak, aby pro každé µ platilo P (TD ≤ µ ≤ TH ) = 1 − α.
(3.4)
1. Vyjdeme z nejlepšího nestranného odhadu parametru µ, tj. výběrového průměru X. Hodilo by se nám najít takovou náhodnou veličinu K, která je funkcí parametru µ a jeho odhadu X, tj. K = K(µ, X), jejíž rozdělení známe a nezávisí na µ, tj. je určeno jednoznačně. Takovou veličinou je veličina X − µ√ K= n, σ která má podle tvrzení 3.1 rozdělení N (0, 1), jehož 100γ procentní kvantily u(γ) jsou tabelovány. Všimněte si, že veličina K je skutečně funkcí pouze µ a X, protože σ známe a n je daný rozsah výběru. 2. Znalost a jednoznačnost rozdělení K nám umožňuje určit konstanty kD a kH , kD < kH , takové, že pro každé µ platí P (kD ≤ K ≤ kH ) = 1 − α.
(3.5)
√ Když pak za K do vztahu (3.5) dosadíme X−µ n a z nerovnosti uvnitř σ kulatých závorek vyjádříme µ, dostaneme hledaný 100(1 − α) procentní intervalový odhad µ. Věnujme se tedy určení konstant kD a kH (viz obr. 3.1). Vztah 3.5 patí právě tehdy, když α = P K∈ / hkD , kH i = P (K < kD ) ∪ (K > kH ) = P (K < kD ) + P (K > kH ). Obrázek 3.1: Určení kD a kH
34
Intervalový odhad Konstanty kD a kH tedy stačí vybrat tak, aby P (K > kH ) = α1
a
P (K < kD ) = α2 ,
kde α1 a α2 jsou dvě nezáporná čísla s vlastností α1 + α2 = α. Zřejmě kH = u(1 − α1 ) a kD = u(α2 ). Vzhledem k tomu, že α (a tedy i α2 ) volíme prakticky malé číslo (určitě menší než 0.5), pro práci s tabulkami potřebujeme převodní vztah u(α2 ) = −u(1−α2 ). Potom kD = −u(1−α2 ). Tedy P −u(1 − α2 ) ≤ K ≤ u(1 − α1 ) = α.
3. Z nerovnosti
X − µ√ n ≤ u(1 − α1 ) σ (která platí z pravděpodobností 1 − α) vyjádříme µ. Dostaneme −u(1 − α2 ) ≤
σ σ X − u(1 − α1 ) √ ≤ µ ≤ X + u(1 − α2 ) √ . n n
Tedy interval D
σ σ E X − u(1 − α1 ) √ , X + u(1 − α2 ) √ n n
(3.6)
je hledaný 100(1 − α) procentní intervalový odhad střední hodnoty µ. Vraťme se zpět k rozdělení rizika α. Jestliže zvolíme α1 = α2 , potom α1 = α2 = α2 a u(1 − α1 ) = u(1 − α2 ) = u(1 − α2 ). Dosazením do vztahu (3.6) dostaneme D α σ α σ E X − u(1 − ) √ , X + u(1 − ) √ , 2 n 2 n
což je 100(1 − α) procentní oboustranný intervalový odhad µ. Jestliže zvolíme α1 = 0, potom α2 = α a u(1 − α1 ) = u(1) = ∞, u(1 − α2 ) = u(1 − α). Dostaneme interval σ E −∞, X + u(1 − α) √ , n
což je 100(1 − α) procentní horní intervalový odhad µ. Podobně při volbě α1 = α, α2 = 0 dostaneme interval D σ X − u(1 − α) √ , ∞ , n
který je 100(1 − α) procentním dolním intervalovým odhadem µ. Postup, který jsme použili v příkladu 3.2 ke konstrukci intervalového odhadu parametru µ normálního rozdělení se známým rozptylem σ 2 , lze zobecnit ϑ). na konstrukci intervalového odhadu parametrické funkce τ (ϑ
3.1 Intervalové odhady parametrů normálního rozdělení
35
ϑ) ∇ Konstrukce intervalového odhadu funkce τ (ϑ
ϑ) se Při konstrukci 100(1 − α) procentního intervalového odhadu funkce τ (ϑ zpravidla postupuje následovně: ϑ). 1. Vyjdeme z nejlepšího nestranného odhadu T parametrické funkce τ (ϑ ϑ), T ), tj. K je Najdeme náhodnou veličinu K takovou, že K = K(τ (ϑ ϑ) a jejího odhadu T, jejíž rozdělení známe a nezávisí na ϑ . funkcí τ (ϑ 2. Pomocí tohoto rozdělení určíme konstanty kD a kH , kD < kH , takové, že P (kD ≤ K ≤ kH ) = 1 − α
(3.7)
K tomu stačí konstanty kD a kH vybrat tak, aby P (K > kH ) = α1
a P (K < kD ) = α2 ,
(3.8)
kde α1 a α2 jsou dvě nezáporná čísla s vlastností α1 + α2 = α. 3. Nerovnost kD ≤ K ≤ kH pak převedeme na ekvivalentní nerovnost ϑ) ≤ TH (v případech, které zde budeme uvažovat, to bude TD ≤ τ (ϑ vždy možné), takže platí ϑ) ≤ TH ) = 1 − α P (kD ≤ K ≤ kH ) = P (TD ≤ τ (ϑ pro každé ϑ , protože rozdělení náhodné veličiny K nezávisí na ϑ . Tj. interval hTD , TH i je 100(1−α) procentní intervalový odhad parametrické ϑ). funkce τ (ϑ Poznámka 3.2:
Rozdělení rizika α
Riziko α lze rozdělit na nezáporná čísla α1 a α2 nekonečně mnoha způsoby. Běžně se používají (stejně jako v příkladu 3.2) pouze tři: 1. α1 = α2 = α2 , 2. α1 = 0, α2 = α, 3. α1 = α, α2 = 0. Je-li α1 > 0 a α2 > 0 dostaneme oboustranný intervalový odhad. Při prvním způsobu rozdělení rizika tedy dostaneme oboustranný intervalový odhad. Dále budeme pod oboustranným intervalovým odhadem rozumět právě tento interval. Jestliže volíme druhý nebo třetí způsob, pak dostaneme jednostranné intervalové odhady. Vraťme se zpět k normálnímu rozdělení. Jestliže potřebujeme najít intervalový odhad střední hodnoty µ normálního rozdělení s neznámým rozptylem σ 2 (což je jistě častější situace), nemůžeme použít intervalový odhad (3.6). Nejlepším nestranným odhadem µ zůstavá X, ale pro konstrukci intervalového √ odhadu µ zde nemůžeme použít veličinu X−µ n, protože neznáme σ. V tomto σ X−µ √ n z tvrzení 3.1, kdy neznámé σ napřípadě pracujeme s veličinou K = S hradíme odhadem S. Náhodná veličina K má rozdělení t(n − 1), jehož tvar hustoty je podobný tvaru hustoty rozdělení N (0, 1) v tom smyslu, že je symetrický podle osy y. Hledaný intervalový odhad bychom dostali analogicky
36
Intervalový odhad jako v příkladu 3.2. Od intervalového odhadu (3.6) se bude lišit tím, že místo s kvantily rozdělení N (0, 1) musíme pracovat s kvantily rozdělení t(n − 1) a neznámou směrodatnou odchylku σ nahradit jejím odhadem S. Výsledky shrnuje následující tvrzení. Tvrzení 3.2:
Intervalový odhad parametru µ
Máme-li náhodný výběr o rozsahu n z rozdělení N (µ, σ 2 ), potom 100(1−α), tj. 100[1 − (α1 + α2 )], procentní intervalový odhad střední hodnoty µ je: 1. v případě známého rozptylu σ 2 interval D σ σ E X − u(1 − α1 ) √ , X + u(1 − α2 ) √ ; n n 2. v případě neznámého rozptylu σ 2 interval D
S S E X − t(n − 1; 1 − α1 ) √ , X + t(n − 1; 1 − α2 ) √ . n n
Rozdělení rizika α na α1 a α2 je dáno v poznámce 3.2. Při druhém, resp. třetím způsobu rozdělení rizika dostaneme horní, resp. dolní intervalový odhad. Poznámka 3.3:
Intervalový odhad střední hodnoty
Intervalové odhady z tvzení 3.1 můžeme použít i pro intervalový odhad střední hodnoty E(X) náhodné veličiny X, která nemá normální rozdělení. Rozsah náhodného výběru z rozdělení X má být v tomto případě větší než 30. Spolehlivost odhadu je pak přibližně 1 − α. Příklad 3.3: Z produkce konkrétní cihelny bylo náhodně vybráno osm cihel pálených plných a byla změřena jejich délka v mm. Výsledky meření byly: 290, 287, 289, 292, 293, 291, 286, 291.
Předpokládáme, že délka cihly je normální náhodná veličina. Určete realizaci 95 procentního a) oboustranného intervalového odhadu střední hodnoty délky cihly; b) dolního intervalového odhadu střední hodnoty délky cihly. Řešení: Máme realizaci náhodného výběru z rozdělení X ∼ N (µ, σ 2 ) o rozsahu n = 8, kde neznáme ani jeden z parametrů µ a σ 2 . 1. 100(1 − α) procentní intervalový odhad střední hodnoty µ délky cihly je podle tvzení 3.2 interval D S S E X − t(n − 1; 1 − α1 ) √ , X + t(n − 1; 1 − α2 ) √ . n n 2. Hledáme 95 procentní intervalový odhad µ, tj.
3.1 Intervalové odhady parametrů normálního rozdělení 100(1 − α) = 95 ⇒ 1 − α = 0.95 ⇒ α = 0.05. Rozdělme riziko α (viz poznámka 3.2): a) α1 = α2 = α2 = 0.025. Odtud t(n − 1; 1 − α1 ) = t(7; 0.975) = 2.365, t(n − 1; 1 − α2 ) = t(7; 0.975) = 2.365. b) α1 = α = 0.05, α2 = 0. Odtud t(n − 1; 1 − α1 ) = t(n − 1; 1 − α) = t(7; 0.95) = 1.895, t(n − 1; 1 − α2 ) = t(n − 1; 1) = ∞. 3. Vypočteme realizaci µ b odhadu střední hodnoty µ a realizaci σ b odhadu . b = s = 2.416. směrodatné odchylky σ, dosteneme µ b = x = 289.875, σ 4. Výsledky dosadíme do krajů intervalového odhadu v bodě 1, dostaneme D E . 2.416 2.416 a) 289.875 − 2.365 √8 , 289.875 + 2.365 √8 = h287.855, 291.895i ; D . √ , ∞ = h288.256, ∞) . b) 289.875 − 1.895 2.416 8 Realizace 95 procentního oboustranného intervalového odhadu střední hodnoty délky cihly je h287.855 mm, 291.895 mmi, realizace 95 procentního dolního intervalového odhadu střední hodnoty délky cihly je h288.256 mm, ∞) . Můžeme se tedy na 95 procent spolehnout, že střední hodnota délky cihly je v rozmezí 287.855 mm až 291.895 mm a že střední hodnota délky cihly je se stejnou spolehlivostí větší než 288.256 mm. Úkol 3.3: Řešte příklad 3.3 při koeficientu spolehlivosti 0.99 a výsledky porovnejte. Výsledek: a) h286.885 mm, 292.865 mmi, b) h287.314 mm, ∞). Oboustranný intervalový odhad má v tomto případě větší délku a dolní hranice dolního intervalového odhadu je menší, protože jsme požadovali větší spolehlivost. Úkol 3.4: Jak by se změnil postup v příkladu 3.3, kdyby z předchozích měření bylo známo, že směrodatná odchylka délky cihly je 2 mm? Výsledek: a) h288.489 mm, 291.261 mmi , b) h288.712 mm, ∞) . ∇ Rozsah výběru pro odhad střední hodnoty µ Konstrukci intervalového odhadu střední hodnoty µ jsme již vysvětlili. Vraťme se ještě k přesnosti odhadu µ. Často se požaduje, aby měl odhad µ při dané spolehlivosti danou přesnost. Oboustranný intervalový odhad střední hodnoty µ je symetrický podle X (viz tvrzení 3.2 a poznámka (3.2)), tj. můžeme jej zapsat ve tvaru X − ∆, X + ∆ . Potom je délka intervalového odhadu odhadu µ rovna 2∆. Lze tedy přesnost odhadu µ vyjádřit pomocí ∆, tzv. přípustné chyby odhadu.
37
38
Intervalový odhad Definice 3.2:
Přípustná chyba odhadu µ
Přípustná chyba ∆ odhadu X parametru µ je polovina délky oboustranného intervalového odhadu µ . V případě, že náhodný výběr pochází z rozdělení N (µ, σ 2 ) se známým rozptylem σ 2 , platí: α σ α σ = 1 − α. P X − u(1 − ) √ ≤ µ ≤ X + u(1 − ) √ 2 n 2 n Odtud plyne, že přípustná chyba ∆ odhadu µ je ∆ = u(1 −
α σ )√ 2 n
(3.9)
a P (|X − µ| ≤ ∆) = 1 − α.
(3.10)
Potom: 1. Ze vztahu (3.9) dostáváme, že přípustná chyba ∆ odhadu X parametru µ se při daném koeficientu spolehlivosti 1 − α bude zmenšovat s rostoucím rozsahem výběru n. 2. Ze vztahu (3.10) plyne, že přípustná chyba ∆ odhadu µ je horní hranice absolutní hodnoty chyby odhadu µ, tj. |X − µ|, které se dopustíme s pravděpodobností 1 − α. 3. Je-li zadán nejen koeficient spolehlivosti odhadu, ale i přípustná chyba odhadu, pak můžeme určit minimální rozsah nmin výběru tak, aby byly dodrženy oba požadavky současně. Stačí z nerovnice u(1 −
α σ )√ ≤ ∆ 2 n
vyjádřit n. Dostaneme "
u(1 − α2 )σ n≥ ∆
#2
.
(3.11)
Za nmin pak vezmeme dolní hranici řešení (3.11) zaokrouhlenou nahoru na nejbližší celé číslo. Potom rozsah nmin výběru zaručuje, že bude dodržena předepsaná spolehlivost 1−α i přesnost odhadu, vyjádřená přípustnou chybou odhadu ∆. Přípustná chyba odhadu bude maximálně rovna požadované.
3.1 Intervalové odhady parametrů normálního rozdělení
39
V případě neznámého rozptylu pro přípustnou chybu ∆ odhadu µ platí ∆ = t(n − 1; 1 −
α S )√ . 2 n
(3.12)
Tedy na rozdíl od přípustné chyby střední hodnoty µ při známém rozptylu σ je ∆ náhodná veličina. V tomto případě lze postupovat pomocí tzv. předvýběru, kdy nejprve provedeme náhodný výběr o rozsahu n1 . Z realizace výběru vypočteme realizaci výběrového rozptylu 2
n
s21 =
1 1 X (xi − x)2 n1 − 1 i=1
a z nerovnice t(n1 − 1; 1 −
α s1 )√ ≤ ∆ 2 n
vyjádříme n. Dostaneme "
t(n1 − 1; 1 − α2 )s1 n≥ ∆
#2
.
(3.13)
Za nmin pak opět stačí vzít dolní hranici řešení (3.13) zaokrouhlenou nahoru na nejbližší celé číslo. Náhodný výběr o rozsahu nmin už pak dává dostatečně přesný a spolehlivý odhad. Vysvětlení tohoto postupu přesahuje rámec našeho textu (viz např. [4]). Je-li n1 ≥ nmin je už v předvýběru splněna požadovaná spolehlivost a přesnost. Je-li n1 < nmin , doplní se výběr o dalších nmin − n1 pozorování. Příklad 3.4: Za odhad vzdálenosti se bere průměr měření této vzdálenosti. Náhodné chyby měření mají normální rozdělení se střední hodnotou nula. Kolik měření je třeba provést, aby přípustná chyba při určování vzdálenosti nepřekročila 0.05 cm s pravděpodobností 0.95, jestliže směrodatná odchylka náhodné chyby měření: 1. je 0.1 cm; 2. není známá a z pěti meření byla vypočtena hodnota výběrové směrodatné odchylky 0.1 cm. Řešení: Označme µ neznámou vzdálenost a Y náhodnou chybu měření, potom pro neznámý výsledek měření X platí X = µ+Y a tedy X ∼ N (µ, σ 2 ). Požadujeme, aby přípustná chyba odhadu ∆ byla maximálně 0.05 cm při koeficientu spolehlivosti 1 − α = 0.95.
40
Intervalový odhad 1. Ze vztahu (3.11) dostáváme "
u(1 − α2 )σ n≥ ∆
#2
"
u(0.975) · 0.1 = 0.05
#2
. = 15.4 =⇒ n ≥ 16.
2. Naše měření budeme považovat za předvýběr, máme n1 = 5, s1 = 0.1. Potom podle vztahu (3.13) dostaneme "
t(n1 − 1; 1 − α2 )s1 n≥ ∆
#2
"
t(4; 0.975) · 0.1 = 0.05
#2
. = 30.8 =⇒ n ≥ 31.
Při známém rozptylu stačí provést 16 měření, při neznámém rozptylu musíme předvýběr doplnit o dalších 26 měření. Potom se můžeme na 95% spolehnout, že skutečná vzdálenost µ je v intervalu hx − 0.05, x + 0.05i. Tedy průměrně v 95% případů bude pro průměrnou vzdálenost vypočítanou z 16, resp. z 31 doplněných měření platit |x − µ| ≤ 0.05.
3.1.2
Intervalový odhad rozptylu
Příklad 3.5: Určete 100(1 − α) procentní intervalový odhad rozptylu σ 2 normálního rozdělení N (µ, σ 2 ) se známou střední hodnotou µ. Řešení: 1. Vyjdeme z nejlepšího nestranného odhadu parametru σ 2 v případě známé střední hodnoty µ, tj. statistiky S02 . Potřebujeme najít náhodnou veličinu K tak, že K je funkcí rozptylu σ 2 a jeho odhadu S02 , jejíž rozdělení známe a nezávisí na σ 2 . Podle tvrzení 3.1 lze za K zvolit náhodnou veličinu K=
nS02 , σ2
která má rozdělení χ2 (n), jehož 100γ procentní kvantily χ2 (n; γ) jsou tabelovány. 2. Určíme konstanty kD a kH , kD < kH , tak, aby P (kD ≤ K ≤ kh ) = 1 − α. K tomu stačí vybrat konstanty kD a kH tak, aby platilo (viz obr. 3.2) P (K > kH ) = α1
a P (K < kD ) = α2 ,
kde α1 a α2 jsou dvě nezáporná čísla s vlastností α1 + α2 = α. Zřejmě kH = χ2 (n; 1 − α1 ) a kD = χ2 (n; α2 ). Potom P χ2 (n; α2 ) ≤ K ≤ χ2 (n; 1 − α1 ) = 1 − α.
3.1 Intervalové odhady parametrů normálního rozdělení
41
Obrázek 3.2: Určení kD a kH
3. Z nerovnosti χ2 (n; α2 ) ≤
nS02 ≤ χ2 (n; 1 − α1 ) σ2
vyjádříme σ 2 , dostaneme
Tedy
nS02 nS02 2 σ ≤ ≤ . χ2 (n; 1 − α1 ) χ2 (n; α2 ) D
nS02 nS02 E , . χ2 (n; 1 − α1 ) χ2 (n; α2 )
(3.14)
je hledaný 100(1 − α) procentní intervalový odhad rozptylu σ 2 .
Při 1. způsobu dělení rizika α z poznámky 3.2 dostaneme χ2 (n; 1 − α1 ) = χ2 (n; 1 − α2 ), χ2 (n; α2 ) = χ2 (n; α2 ) a tedy interval D nS02 E nS02 , χ2 (n; 1 − α2 ) χ2 (n; α2 )
je 100(1 − α) procentní oboustranný intervalový odhad σ 2 . Při 2. způsobu dělení dostaneme χ2 (n; 1 − α1 ) = χ2 (n; 1) = ∞, χ2 (n; α2 ) = χ2 (α) a intervalový odhad nS02 E 0, 2 χ (n; α)
je horní intervalový odhad σ 2 . Ve třetím případě, pak zcela analogicky dostáváme dolní intervalový odhad σ 2 D nS02 , ∞ . χ2 (n; 1 − α)
Jestliže potřebujeme najít intervalový odhad rozptylu σ 2 normálního rozdělení s neznámou střední hodnotou µ, nemůžeme použít intervalový odhad (3.14). Nestranným odhadem σ 2 je v tomto případě výběrový rozptyl S 2 a 2 pro konstrukci intervalového odhadu σ 2 použijeme veličinu K = (n−1)S , která 2 σ má podle tvrzení 3.1 rozdělení χ2 (n − 1). Hledaný intervalový odhad bychom dostali analogicky jako v příkladu 3.5. Výsledky shrnuje následující tvrzení.
42
Intervalový odhad Tvrzení 3.3:
Intervalový odhad parametru σ 2
Máme-li náhodný výběr o rozsahu n z rozdělení N (µ, σ 2 ), potom 100(1−α), tj. 100[1 − (α1 + α2 )], procentní intervalový odhad rozptylu σ 2 je: 1. v případě známé střední hodnoty µ interval D
nS02 nS02 E ; , χ2 (n; 1 − α1 ) χ2 (n; α2 )
2. v případě neznámé střední hodnoty µ interval D
(n − 1)S 2 (n − 1)S 2 E . , χ2 (n − 1; 1 − α1 ) χ2 (n − 1; α2 )
Rozdělení rizika α na α1 a α2 je dáno v poznámce 3.2. Horní, resp. dolní intervalový odhad dostaneme při druhém, resp. třetím způsobu rozdělení rizika. Poznámka 3.4:
Intervalový odhad σ
100(1 − α) procentní intervalový odhad směrodatné odchylky σ rozdělení N (µ, σ 2 ) dostaneme z intervalových odhadů v tvrzení 3.3 tak, že kraje příslušných intervalových odhadů odmocníme. Poznámka 3.5:
Intervalový odhad rozptylu
Intervalové odhady rozptylu z tvrzení 3.3 můžeme na rozdíl od intervalových odhadů střední hodnoty použít pouze v případě, že máme náhodný výběr z rozdělení N (µ, σ 2 ) . Příklad 3.6: Vraťte se k příkladu 3.3 a určete realizaci 99 procentního oboustranného intervalového odhadu směrodatné odchylky délky cihly. Řešení: Máme realizaci náhodného výběru z rozdělení X ∼ N (µ, σ 2 ) o rozsahu n = 8, kde ani jeden z parametrů neznáme. Nejprve určíme intervalový odhad rozptylu. 1. 100(1−α) procentní intervalový odhad rozptylu σ 2 délky cihly je podle tvzení 3.3 interval D (n − 1)S 2 (n − 1)S 2 E . , χ2 (n − 1; 1 − α1 ) χ2 (n − 1; α2 ) 2. Hledáme 99 procentní intervalový odhad σ 2 , tj. 100(1 − α) = 99 ⇒ 1 − α = 0.99 ⇒ α = 0.01 Rozdělme riziko α (viz poznámka 3.2): α1 = α2 = α2 = 0.005. Odtud
3.2 Kontrolní otázky χ2 (n − 1; 1 − α1 ) = χ2 (7; 0.995) = 20.28, χ2 (n − 1; α2 ) = χ2 (7; 0.005)) = 0.989. 3. Z příkladu 3.3 máme σ b = s = 2.416. 4. Výsledky dosadíme do krajů intervalového odhadu v bodě 1, dostaneme 7 · 2.4162 7 · 2.4162 . , = h2.015, 41.314i . 20.28 0.989 Realizace 99 procentního oboustranného intervalového odhadu rozptylu délky cihly je h2.015 mm2 , 41.314 mm2 i a tedy realizace 99 procentního oboustranného intervalového odhadu směrodatné odchylky délky cihly je (1.420 mm, 6.428 mm). V technických aplikacích se většinou 100(1 − α) procentní intervalové odhady neznámých parametrů nebo funkcí těchto parametrů neodvozují, ale stačí je najít v příslušné statistické nebo technické literatuře. Pro výpočet realizace intervalového odhadu pak stačí zvolit koeficient spolehlivost odhadu 1 − α, vypočítat realizace příslušných statistik v intervalových odhadech se vyskytujících a potřebné kvantily najít ve statistických tabulkách. Realizace intervalových odhadů střední hodnoty a rozptylu normální náhodné veličiny při obou neznámých parametrech počítá STATGRAPHICS v nabídce Describe 7−→ Numeric Data 7−→ One-Sample Analysis. EXCEL počítá realizaci intervalového odhadu střední hodnoty normálního rozdělení se známým rozptylem v nabídce průvodce funkcí fx 7−→ funkce statistické 7−→ CONFIDENCE.
3.2
Kontrolní otázky
1. Vlastními slovy řekněte, co si představujete pod 100(1 − α) procentním ϑ). intervalovým odhadem funkce τ (ϑ 2. Musí realizace 90 procentního intervalového odhadu parametrické funkce ϑ) obsahovat skutečnou hodnotu této funkce? τ (ϑ 3. Ze 100 realizací náhodného výběru sestrojíme 100 realizací 80 procentϑ), musí každá z těchto realizací obního intervalového odhadu funkce τ (ϑ sahovat skutečnou hodnotu této funkce? 4. Jaké druhy intervalových odhadů rozlišujeme? 5. Z realiazce náhodného výběru z normálního rozdělení o rozsahu n = 5 určíme realizaci výběrového rozptylu s2 a průměru x a vypočteme realizaci intervalového odhadu střední hodnoty µ tak, že a) s2 považujeme za odhad σ 2 ; b) s2 považujeme za skutečnou hodnotu σ 2 . Čím se tyto intervaly liší a který postup je správný? 6. Rozhodněte, které tvrzení platí: Přesnost odhadu střední hodnoty µ normálního rozdělení se při známém σ 2 zvětší, když:
43
44
Intervalový odhad a) zvětšíme rozsah výběru; b) zvětšíme koeficient spolehlivosti; c) když se zmenší rozptyl.
3.3
Cvičení
1. Hmotnost jedné porce kávy má přibližně normální rozdělení se střední hodnotou 7 g a směrodatnou odchylkou 0.4 g. Jaká je pravděpodobnost, že k přípravě 14 porcí bude stačit jeden 100 g balíček? 2. Teplota, při které se mění kvalita povrchu dřevotřískových desek, je normální náhodná veličina se střední hodnotou 104◦ C a směrodatnou odchylkou 8◦ C. Náhodně bylo vybráno 25 desek. V jakém intervalu lze očekávat X, S 2 a S s pravděpodobností 0.99, mají-li se hodnoty veličin X, S 2 a S vyskytovat se stejnou pravděpodobností nad horní a pod dolní mezí? 3. Najděte realizace 90 procentních horních intervalových odhadů neznámých parametrů v příkladě 6 ze cvičení 1.4. Předpokládejte, že má mez průtažnosti oceli přibližně normální rozdělení. 4. Sledovaný rozměr součástky má normální rozdělení se směrodatnou odchylkou 0.15 mm. Určete realizace 99 procentního oboustranného, horního a dolního intervalového odhadu střední hodnoty sledovaného rozměru, jestliže byl na základě měření osmi náhodně vybraných součástek vypočten průměr 110.2 mm. V případě, že není přípustná chyba odhadu menší než 0.1 mm, určete rozsah n výběru tak, aby byla dodržena předepsaná přesnost. 5. Opakovaným meřením rychlosti vody v potrubí jsme získali následující výsledky v m/s: 4.20, 4.28, 4.27, 4.18. Předpokládejme, že naměřené hodnoty lze považovat za realizaci náhodného výběru z normálního rozdělení. a) Najděte realizaci 95 procentního intervalového odhadu střední hodnoty a směrodatné odchylky rychlosti. b) V případě, že není přípustná chyba odhadu střední hodnoty menší než 0.05, určete rozsah výběru tak, aby byla zaručena předepsaná přesnost. 6. Průměrná hodnota vzdálenosti k orientačnímu bodu, získaná ze 4 nezávislých měření, je 2 250 m. Chyba měřicího přístroje je normální náhodná veličina s parametry 10 m a 50 m2 . Určete realizaci 99 a 95 procentního intervalového odhadu měřené veličiny. 7. Má se určit střední hodnota doby, která je potřebná k vykonání určité činnosti. Byl měřen čas u 40 dělníků a vypočtena průměrná hodnota 42.5 minut a odhad směrodatné odchylky 3.8 minut. Jaké maximální chyby se dopustíme s pravděpodobností 0.99, když za odhad střední hodnoty vezmeme 42.5 minut?
3.4 Klíč a výsledky cvičení
45
8. Vypočtěte realizace 95 procentních oboustranných intervalových odhadů neznámých parametrů v příkladě 6 ze cvičení 2.3 Předpokládejte, že sledovaná náhodná veličina má normální rozdělení. 9. Během 21 dnů byly v určitém regionu registrovány počty nehod za den. Výsledky jsou v následující tabulce: Počet nehod nj
0 4
1 8
2 5
3 1
4 2
5 1
Určete: a) realizaci bodového odhadu střední hodnoty a směrodatné odchylky počtu nehod za den; b) realizaci 99 procentního horního odhadu střední hodnoty poču nehod za den, je-li známo, že počet nehod za den má přibližně Poissonovo rozdělení.
3.4
Klíč a výsledky cvičení
Cvičení: 1. S pravděpodobností 0.9099. 2. 99.8784 ≤ X ≤ 108.1216, 26.3653 ≤ S 2 ≤ 121.4933, 5.1347 ≤ S ≤ 11.0224. 3. µ ≤ 289.028 M P a, σ 2 ≤ 274.208 M P a2 . 4. 110.063 mm ≤ µ ≤ 110.337 mm, µ ≤ 110.323 mm, µ ≥ 110.077 mm. Je třeba provést 15 měření. . 5. a) µ b = 4.2325 m/s, σ b = 0.0499 m/s, 4.1531 m/s ≤ µ ≤ 4.3119 m/s, 0.0283 m/s ≤ σ ≤ 0.1860 m/s. b) Výběr je nutné doplnit o alespoň 7 měření. 6. 2230.892 m ≤ µ ≤ 2249.108 m, 2233.070 m ≤ µ ≤ 2246.930 m. 7. Maximální chyba je 1.548 minut. 8. 0.030 kg 2 ≤ σ 2 ≤ 0.068 kg 2 . p . . \ = x = 9. a) E(X) 1.619, \ D(X) = s = 1.396. b) Náhodná veličina X nemá normální rozdělení a rozsah výběru není vetší než 30, nemůžeme tedy použít intervalový odhad střední hodnoty normálního rozdělení. Pro Poissonovo rozdělení s parametrem λ platí, že E(X) = λ a 100(1 − α) odhad parametru λ je (viz např. [12]) D 2procentní 2intervalový E χ (2nX;α1 ) χ (2nX+2;1−α2 ) interval , , kde rozdělení rizika α na α1 a α2 2n 2n je dáno v poznámce 3.2. Realizace hledaného intervalového odhadu je . (0, 2.372i (χ2 (70; 0.99) = 99.628). Tedy střední hodnota počtu nehod za den je téměř jistě nejvýše 2.372 nehod.
Příloha A Tabulky
47
Tabulka A.1: Hodnoty distribuční funkce Φ(x) normované normální náhodné veličiny x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39
Φ(x) 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
x 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79
Φ(x) 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
x 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19
Φ(x) 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8079 0.8106 0.8133 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
x 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59
Φ(x) 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
x 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99
Φ(x) 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 0.9712 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
Tabulky
48
Tabulka A.2: Hodnoty distribuční funkce Φ(x) normované normální náhodné veličiny x 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29 2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39
Φ(x) 0.9773 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
x 2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.60 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69 2.70 2.71 2.72 2.73 2.74 2.75 2.76 2.77 2.78 2.79
Φ(x) 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
x 2.80 2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19
Φ(x) 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 0.9981 0.9982 0.9983 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
x 3.20 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28 3.29 3.30 3.31 3.32 3.33 3.34 3.35 3.36 3.37 3.38 3.39 3.40 3.41 3.42 3.43 3.44 3.45 3.46 3.47 3.48 3.49 3.50 3.51 3.52 3.53 3.54 3.55 3.56 3.57 3.58 3.59
Φ(x) 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
x 3.60 3.61 3.62 3.63 3.64 3.65 3.66 3.67 3.68 3.69 3.70 3.71 3.72 3.73 3.74 3.75 3.76 3.77 3.78 3.79 3.80 3.81 3.82 3.83 3.84 3.85 3.86 3.87 3.88 3.89 3.90 3.91 3.92 3.93 3.94 3.95 3.96 3.97 3.98 3.99
Φ(x) 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Tabulka A.3: Kvantily u(α) normované normální náhodné veličiny α u(α)
0.900 1.282
0.950 1.645
0.975 1.960
0.990 2.326
0.995 2.576
49
Tabulka A.4: Kvantily χ2 (n; α) rozdělení χ2 (n) n\α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.005 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.887 10.52 11.16 11.81 12.46 13.12 13.79
0.010 0.000 0.020 0.115 0.292 0.554 0.872 1.239 1.647 2.088 2.558 3.054 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.543 10.20 10.86 11.52 12.20 12.88 13.57 14.26 14.95
0.025 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.249 3.816 4.404 5.009 5.629 6.262 6.608 7.564 8.231 8.907 9.591 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79
0.050 0.004 0.103 0.352 0.711 1.146 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.391 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49
0.100 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.09 10.87 11.65 12.44 13.34 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60
0.900 2.706 4.605 6.251 7.779 9.236 10.65 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26
0.950 3.842 5.992 7.815 9.488 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.69 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77
0.975 5.024 7.378 9.348 11.14 12.83 14.45 16.01 17.54 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.20 44.46 45.72 46.98
0.990 6.635 9.210 11.35 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89
0.995 7.879 10.60 12.84 14.86 16.75 18.55 20.28 21.96 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.65 50.99 52.34 53.67
Tabulky
50
Tabulka A.5: Kvantily t(n; α) rozdělení t(n) n\α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ∞
0.900 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.320 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.282
0.950 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.813 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.705 1.703 1.701 1.699 1.697 1.645
0.975 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 1.960
0.990 31.82 6.964 4.541 3.747 3.365 3.143 2.998 2.897 2.821 2.764 2.718 2.681 2.650 2.625 2.603 2.584 2.567 2.552 2.540 2.520 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.326
0.995 63.66 9.925 5.841 4.604 4.032 3.707 3.500 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.576
Literatura [1] Anděl, J.: Statistické metody. MATFYZPRESS Praha 1993. [2] Cyhelský, L., Hustopecký, J., Závodský, P.: Příklady k teorii statistiky. SNTL/ALFA Praha 1978. [3] Friedrich, V.: Statistika 1 - vysokoškolská učebnice pro DS. EF ZU Plzeň 2002. [4] Hátle, J., Likeš, J.: Základy počtu pravděpodobnosti a matematické statistiky. SNTL/ALFA Praha 1972. [5] Hebák, P., Kahounová, J.: Počet pravděpodobnosti v příkladech. SNTL Praha 1988. [6] Jarušková, D., Hála, M.: Pravděpodobnost a matematická statistika 12. ČVUT Praha 2000. [7] Jarušková, D.: Matematická statistika 12. ČVUT Praha 1995. [8] Koutková, H., Moll, I.: Úvod do pravděpodobnosti a matematické statistiky. VUT Brno 2001. [9] Koutková, H., Dlouhý, O.: Sbírka příkladů z pravděpodobnosti a matematické statistiky. VUT Brno 2002. [10] Křivý, J.: Základy matematické statistiky. Ostrava 1983. [11] Likeš, J., Laga, J.: Základní statistické tabulky. SNTL Praha 1978. [12] Likeš, J., Machek, J.: Matematická statistika. Matematika pro vysoké školy technické. Sešit XI. SNTL Praha 1981. [13] Novovičová, J.: Pravděpodobnost a matematická statistika 12. ČVUT Praha. 1999. [14] Škrášek, J., Tichý, Z.: Základy aplikované matematiky III. SNTL Praha 1990. [15] Vorlíček, M., Holický M., Špačková, M.: Pravděpodobnost a matematická statistika pro inženýry. VUT Praha 1979. [16] Walpole, R. E., Myers, R. H.: Probability and Statistics for Engineers and Scientists. MACMILLAN PUBLISHING COMPANY New York 1990.