Přednáška č. 4 – Teoretické spojité náhodné veličiny Použití těchto náhodných veličin je pro případy, kdy veličina může nabývat libovolných hodnot v omezeném či neomezeném intervalu. V technické praxi se jedná o popis vlastností spolehlivosti výrobku (doba do poruchy, životnost výrobku, intenzita poruch), dodržení či výrobu určitého geometrického rozměru, technické vlastnosti výrobku apod. Další použití těchto veličin je v analytické statistice, kdy posuzujeme platnosti statistických tvrzení (hypotéz) či analyzujeme vlastnosti získané zpracováním výběrových souborů. Přehled nejpoužívanějších spojitých náhodných veličin je v následující tabulce. Náhodná veličina-označení Normální N(µ,σ) Normální normovaná N(0,1) Log, Ln normální
Exponenciální Weibullova
N(log µ, log σ)
E(λ) W(a, b, c)
Studentova Pearsonova
t (k) χ2 (k)
Fischerova
F (k1, k2)
Parametry Střední hodnota µ Střední směr. odchylka σ Střední hodnota µ=0 Střední směr. odchylka σ=1 Střední hodnota µ Střední směr. odchylka σ ∗) velikosti parametrů jsou v log, ln hodnotách Intenzita λ=1/µ Parametr měřítka a = µ Parametr tvaru b Parametr posunutí c Stupeň volnosti k Stupeň volnosti k Stupeň volnosti Stupeň volnosti
k1 k2
Obor platnosti -∞≤ x ≤+∞ -∞≤ x ≤+∞
-∞≤ log x ≤+∞ -∞≤ ln x ≤+∞ 0≤ x ≤ +∞ 0≤ x ≤ +∞ -∞≤ t ≤+∞ -∞≤ χ2 (κ) ≤+∞ 0≤ F(k1, k2) ≤ +∞
Poznámka: Významné postavení ve spojitých náhodných veličinách má normální (Gaussova) náhodná veličina. Jedná se obecnou spojitou veličinu s vlastností, že všechny ostatní náhodné veličiny v limitních případech přechází v tento typ veličiny. a) normální náhodná veličina – označení N(µ, σ) veličina, která popisuje nekonečně velký soubor parametry veličiny: µ - střední hodnota σ - střední směrodatná odchylka Funkce hustoty pravděpodobnosti je definována vztahem − 1 f ( x) = .e σ . 2.π
( x−µ )2 2.σ 2
vliv parametrů na tvar funkce hustoty pravděpodobnosti je následující. Střední hodnota µ určuje vzdálenost maximální hodnoty pravděpodobnosti výskytu náhodné
veličiny od počátku souřadnic a střední směrodatná odchylka σ ovlivňuje špičatost křivky. Distribuční funkce je dle vztahu
F ( x) = P(ξ ≤ x) =
1
σ . 2π
x
∫e
−
( x−µ )2 2.σ 2
.dx
−∞
Vzhledem k tomu, že tvar křivky je obecně závislý na parametrech a funkce hustoty pravděpodobnosti je poměrně složitá, provádí se úprava obecné normální náhodné veličiny do tzv. normovaného tvaru. Pro tento tvar jsou charakteristiky náhodné veličiny tabelovány. Transformace normální náhodné veličiny na normální normovanou je lineárního tvaru dle vztahu
u=
x−µ
σ
kde
x … obecná normální veličina u … normální normovaná náhodná veličina. Transformace představuje posunutí střední hodnoty do počátku souřadnic a úpravu střední směrodatné odchylky na hodnotu 1. Formálně se tato náhodná veličina označuje N (0, 1). Základní funkce normované náhodné veličiny pak jsou: Hustota pravděpodobnosti
1
ϕ (u ) =
2.π
.e
−
u2 2
a distribuční funkce
Φ(u ) = P(ξ ≤ u ) =
1 2.π
u
.∫e
−
u2 2
.dz
−∞
Mezi funkcemi F(x), f(x), Φ(u) a φ(u) platí následující vztahy
f (x ) =
1
σ
.ϕ (u )
F ( x ) = Φ (u )
Funkce normální normované veličiny jsou tabelovány v příručkách o statistice např. tab.1 a 2 [1]. Z vlastnosti symetrie normální náhodné veličiny a tedy i symetrického průběhu distribuční funkce se její velikost pro záporné hodnoty náhodné veličiny určují dle vztahu
Φ(− u ) = 1 − Φ(u )
Hodnota uα odpovídající pravděpodobnosti výskytu α se nazývá kvantil event. 100 α % kvantit, jeho velikost lze vypočítat ze vztahu
Φ (uα ) = P (ξ ≤ uα ) = α což je horní mez integrace distribuční funkce normální normované veličiny. Hodnoty α kvantilů se rovněž možné určit pomocí statistických tabulek např. Tab. 3 dle [1]. Shrnutí vlastností normální náhodné veličiny: 1) má zvonovitý tvar funkce hustoty pravděpodobnosti symetrický kolem hodnoty µ s inflexními body x1,2 = µ ± σ . 2) hodnota x = µ je současně střední hodnoty veličiny. 3) veličina popisuje v technické praxi případy, při kterých je vznik této veličiny ovlivňován velkým počtem faktorů (činitelů), z nichž každý má malý (přibližně stejný) vliv na vznik náhodné veličiny. 4) veličina je vhodná pro popis jevů životnosti a spolehlivosti, kde intenzita poruch se s časem zvyšuje. 5) Intenzita náhodné veličiny je definována vztahem
1
.ϕ (u ) f ( x) σ = λ ( x) = 1 − F ( x) 1 − Φ (u ) 6) Rozdělení pravděpodobnosti výskytu je možné charakterizovat následující tabulkou. Tabulky je zřejmé, že oblast praktického použití veličiny je v poměrně úzkém pásmu ± 3σ kolem střední hodnoty. Šířka oboru ±σ ± 2σ ± 3σ
Pravděpodobnost výskytu (%) 68,27 95,45 99,73
7) Normální rozdělení je však velmi důležité i z dalších důvodů. Jeho význam spočívá především v tom, že za určitých podmínek dobře aproximuje řadu jiných (i diskrétních) pravděpodobnostních rozdělení. Při řešení pravděpodobnostních úloh se často předpokládá, že sledovaná náhodná veličina má normální rozdělení, ačkoliv její skutečné rozdělení má jen podobný tvar, tzn. je jednovrcholové a přibližně symetrické. Tento postup je samozřejmě teoreticky podložen, jak dále uvidíme, a je velmi výhodný, neboť usnadňuje teoretické řešení mnoha problémů i praktické výpočty.
Příklad na použití normální náhodné veličiny Při kontrole polotovarů čepů byl zjištěn střední průměr čepu 25,15 mm a střední směrodatná odchylka průměru čepu 0,35 mm. Technický předpis pro polotovar je Ø 25 +−00,,025 mm. Předpokládejte, že výskyt rozměrů je podle normální náhodné 05 veličiny. Určete: a) očekávané procento polotovarů s rozměrem nad horní mez rozměru, b) kolik procent polotovarů se bude nacházet ve stanovených mezích, c) v jakém intervalu rozměrů se bude při dlouhodobém sledování nacházet 50% polotovarů. Grafické znázornění příkladu
Řešení: a) Očekávané procento polotovarů odpovídá velikosti plochy pod křivkou hustoty pravděpodobnosti pro rozměry větší než 25,25 mm, což bude P (ξ 〉 25,25) = 1 − P (ξ ≤ 25,25) = 1 − F ( x = 25,25) = 1 −
25 , 25
∫
−∞
− 1 .e 2.π .0,35
( 25 , 25− 25 ,15 ) 2 2.0 , 035 2
.dx =
= 1 − Φ (u h ) řešení integrálu provedeme pomocí statistických tabulek normální normované veličiny transformovaná horní mez rozměru bude x−µ
25,25 − 25,15 = 0,285 σ 0,35 pro hodnotu uh =0,285 z tabulek distribuční funkce normální normované veličiny uh =
=
Φ (0,285) = 0,6122 a proto P (ξ 〉 25,25) = 1 − 0,6122 = 0,3878
tj. 38,78 %
b) Očekávané procento polotovarů splňující požadované rozměry představuje velikost plochy pod křivkou hustoty pravděpodobnosti v uvedených mezích rozměru polotovaru a je P (24,95 ≤ ξ ≤ 25,25) = F (25,25) − F (24,95) = Φ (u h ) − Φ (u d ) Transformujeme dolní mez rozměru ud =
x−µ
σ
=
24,95 − 25,15 = −0,571 0,35
pro zápornou hodnotu ud bude distribuční funkce
Φ(−0,571) = 1 − Φ(0,571) = 1 − 0,7157 = 0,2843 Očekávané procento polotovarů bude P (24,95 ≤ ξ ≤ 25,25) = Φ (u h ) − Φ (u d ) = 0,6122 − 0,2843 = 0,3279 tj. 32,79 % c) Řešení této části představuje určení mezí integrálu funkce hustoty pravděpodobnosti, který bude splňovat požadovanou velikost. Jedná se o opačnou úlohu, což můžeme vyjádřit zápisem P ( x1 ≤ ξ ≤ x 2 ) = 0,5 řešení pomocí distribuční funkce je
F ( x 2 ) − F ( x1 ) = 0,5
a při použití normální normované veličiny
Φ (u 2 ) − Φ (u1 ) = 0,5
Uvedený zápis je integrální rovnicí, ve které jsou dvě neznámé meze. Pro řešení je nutné vyjádřit vztah mezi mezemi. Zpravidla se používá předpoklad symetrie mezí, které představují nejpravděpodobnější případ řešení (plyne z vlastnosti symetrie normální náhodné veličiny). Vztah mezi mezemi převedeme do vztahu jejich distribučních funkcí. u1 = −u 2
Φ (u1 ) = 1 − Φ (u 2 )
a proto
dosazením do prvého vztahu distribučních funkcí získáme Φ (u 2 ) − 1 + Φ (u 2 ) = 0,5
což dává formální řešení ve tvaru Φ (u 2 ) = 0,75 a pomocí tabulek kvantilů normální normované náhodné veličiny u 2 = 0,68
a
u1 = −u 2 = −0,68
po zpětné transformaci získáme hodnoty původní proměnné ve tvaru x1 = µ + u1 .σ = 25,15 − 0,68.0,35 = 24,762mm x 2 = µ + u 2 .σ = 25,15 + 0,68.0,35 = 25,388mm
Odhady parametrů normální náhodné veličiny Základním předpokladem pro použití normální náhodné veličiny je určení jejich parametrů, střední hodnoty a střední směrodatné odchylky. Tyto parametry se získají vyhodnocením známých hodnot výběrového souboru, který získáme výběrem, průzkumem nebo provedením experimentu (náhodného pokusu). Zjištěné hodnoty budou vždy pouze odhady parametrů a skutečné hodnoty se mohou od zjištěných lišit. Pokud budeme vyhodnocovat pouze málo četný výběrový soubor (např. 10 hodnot) bude vždy odchylka od skutečné hodnoty větší. Pro rozsáhlé výběrové soubory naopak jednotlivé způsoby odhadů budou přesnější a nebudou se od sebe výrazně odlišovat. Metody odhadu parametrů jsou obecně: - bodové, - intervalové (spolehlivostní), - metodou linearizace distribuční funkce.
K jednotlivým metodám odhadu: A) bodový (momentový) odhad Předpokládejme, že náhodná veličina má normální rozdělení se střední hodnotou µ a střední směrodatnou odchylkou σ. Z tohoto základního souboru (teoreticky o nekonečném počtu hodnot) odebereme výběr o n hodnotách. Potom výběrový průměr určíme jako střední hodnotu dle vztahu 1 1 = .∑ xi n n a tato hodnota je bodovým odhadem střední hodnoty náhodné veličiny. m1 = x = ∑ xi .P( xi ) = ∑ xi .
Střední směrodatnou odchylku určíme pomocí rozptylu výběrového souboru
σ = D = M 2 = ∑ ( xi − m1 ) .P( x ) 2
2
i
⎛ 1 ⎞ = m2 − m1 = ⎜ ( xi − x ) 2 ⎟ ∑ ⎝ n −1 ⎠
2
2
Věrohodnost uvedeného způsobu odhadu závisí na počtu hodnot výběrového souboru. Používá se proto pro odhady u rozsáhlejších výběrových souborech. Pro zjednodušení výpočtu v případech, že hodnoty ve výběrovém souboru jsou neúplná čísla (což je u spojitých náhodných veličin-rozměry, hodnoty technických parametrů) lze použít metodu voleného (předběžného) počátku. Postupem při výpočtu získáme také informace o vhodnosti použití normální náhodné veličiny a je následující: a) výběrový soubor zatřídíme do třídicích intervalů s konstantní šířkou intervalu b) počet intervalů se volí dle četnosti hodnoceného výběrového souboru Četnost souboru Do 30 30 - 50 50 – 100 Nad 100
Počet intervalů 3–4 4–6 6–9 10 >
c) volba předběžné střední hodnoty (volba počátku) uprostřed intervalu s největší četností d) transformace původní náhodné veličiny x do veličiny náhradní x´, která se celočíselná a malá. Vlastní výpočet se provádí v náhradní veličině a následně se transformuje do veličiny původní. Transformace je dle vztahu xi = xo + h.xi′ kde : xi … střední hodnoty v intervalech původní veličiny x´i … hodnoty náhradní veličiny xo … volený počátek h … krok (šířka intervalu)
e) vypočteme parametry náhradní veličiny dle výše uvedených vztahů a hodnoty pro původní veličinu získáme ze vztahů střední hodnota
střední směrodatná odchylka
x = xo + h.x ′
σ = h.σ ′
Uvedený postup výpočtu je uveden na následujícím příkladu. Příklad: Při kontrole souboru 55 polotovarů výrobku byly naměřeny průměry zatříděné v tabulce. Odhadněte parametry předpokládané normální náhodné veličiny.
Interval od – do (mm) 24,95-25,00 25,00-25,05 25,05-25,10 25,10-25,15 25,15-25,20 -
i 1 2 3 4 5 součet
Četnost ni 3 15 24 12 1 55
Volba pomocné proměnné xi´ :
Střed intervalu
Xi´
Xi´.ni
(Xi´)2
(Xi´)2.ni
24,975 25,025 25,075 25,125 25,175 -
-2 -1 0 1 2 -
-6 -15 0 12 2 -7
4 1 0 1 4 -
12 15 0 12 4 43
ho= 0,05 mm, xo=25,075 mm
xi = 25,075+0,05.xi´ Bodový odhad střední hodnoty pro pomocnou náhodnou veličinu:
x′ =
1 5 1 xi .ni = .(− 7 ) = −0,1272 ∑ n 1 55
Odhad střední hodnoty náhodné veličiny:
x = x o + h.x ′ = 25,075 + 0,05 .( −01272 ) = 25,068 mm Bodový odhad rozptylu pro pomocnou náhodnou veličinu (event. střední směrodatné odchylky):
( )
D(ξ ) = E ξ − [E (ξ )] 2
2
( )
2
[ ]
1 5 ´2 1 2 = ∑ xi .ni − x ´ = .43 − (− 0,1272) = 0,7656 n 1 55
Odhad rozptylu náhodné veličiny
Dξ = h 2 .Dξ ´ ´= 0,05.0,7656 = 0,001914 mm 2 Odhad střední směrodatné odchylky náhodné veličiny:
σ = Dξ = 0,001914 = 0,04375 mm
B) intervalový (spolehlivostní) odhad Uvedeným postupem získáme interval, ve kterém se bude nacházet odhadovaný parametr základního souboru se zárukou zvolené pravděpodobnosti. Z hlediska poskytované informace je tento postup výhodnější, nezískáme jednu hodnotu parametru, ale možné rozpětí, kde se parametr bude vyskytovat včetně spolehlivostní záruky. Velikost záruky γ se zpravidla volí v rozmezí 95 – 99%. Předpokládejme opět, že základní soubor je normální s parametry µ a σ. Potom náhodná veličina popisující vlastnosti výběrového souboru je také normální s parametry µ , σ v =
σ n
.
Zvolme číslo ε a potom příslušná pravděpodobnost, že výběrový průměr x s bude nacházet v intervalu od (µ-ε) až (µ+ε) se vypočte z vlastností normální náhodné veličiny dle vztahu
P( µ − e ≤ x ≤ µ + ε ) = Φ( µ + ε ) − Φ( µ − ε ) = γ kde ε … je přesnost (nejistota) odhadu. Naznačený postup je možné obrátit. Uvažujte základní soubor s normální náhodnou veličinou, u které naznáme její střední hodnotu. Velikost střední směrodatné odchylky je σ. Ze souboru odebereme výběr n hodnot s výběrovým průměrem x . Nyní zjistíme v jakém intervalu kolem x může ležet neznámá střední hodnota základního souboru. Úpravou předchozího vztahu dostaneme P( x − ε ≤ µ ≤ x + ε ) = Φ(
ε . n) . σ
Tento interval od x − ε do x + ε má náhodné meze pro nenáhodnou veličinu µ. Uvedený interval se nazývá spolehlivostní či konfidenční interval pro spolehlivost γ. V popsaném případě se jedná o oboustranný spolehlivostní interval, může být ale určen jako jednostranný (záleží na charakteru popisované veličiny). Poznámka 1: Při intervalových odhadech se posuzují informace o základním souboru a v jednotlivých případech budou vztahy pro oboustranné spolehlivostní odhady střední hodnoty následující:
1) známe velikost střední směrodatné odchylky základního souboru a výběrový soubor je velký (n>30) P ( x − u1 + γ . 2
u1+ γ 2
σ n
≤ µ ≤ x + u1 + λ . 2
σ n
) = γ = 1−α
… kvantil normální normované náhodné veličiny.
2) neznáme velikost střední směrodatné odchylky základního souboru s výběrový soubor je velký Postup je stejný pouze s tím, že střední směrodatnou odchylku nahradíme jejím odhadem σ . 3) neznáme velikost střední hodnoty a výběrový soubor je malý (pod 30 prvků)
P ( x − t1+ γ . 2
t 1+ γ 2
,k
σ n
≤ µ ≤ x + t 1+ λ . 2
,k
σ n
) = γ = 1−α
… kvantit Studentovy náhodné veličiny
, k = n −1
4) známe velikost základního a výběrového souboru, n>30
P ( x − u1 + γ . 2
σ n
.
N −n N −n σ ≤ µ ≤ x + u1′+ γ . . )=γ − 1 N −1 N n 2
5) pro odhad rozptylu σ2 se nejčastěji používá vztah ⎡ (n − 1).σ 2 (n − 1).σ 2 ⎤ 2 ⎥ =γ ≤σ ≤ P ⎢ 2 1− γ χ 21+2χ , k ⎥ ⎢⎣ χ 2 , k ⎦
použité kvantity jsou hodnoty náhodné veličiny Pearsonovy χ2 . 6) pro odhad relativní četnosti alternativního znaku ⎡ p.(1 − p ) p.(1 − p ⎤ ≤ p ≤ p + u1+ γ . P ⎢ p − u1+ γ . ⎥ =γ n n ⎢⎣ ⎥⎦ 2 2 kde p … pravděpodobnost vzniku jevu. Poznámka 2: Meze spolehlivosti pro náhodné veličiny s neznámým rozdělením funkce hustoty pravděpodobnosti lze stanovit obecně pomocí Čebyševovy nerovnosti. Označíme-li veličinu τ tak pro každé kladné číslo platí P[τ − E (τ ) ] ≥ k .σ ≤
1 k2
Příklad: Odhadněte parametry rozdělení vyhodnocením výběrového souboru dle tabulky se spolehlivostí 95 % pro střední hodnotu a 90% pro rozptyl. Četnost Interval Střed intervalu i od – do ni (mm) 1 24,95-25,00 3 24,975 2 25,00-25,05 15 25,025 3 25,05-25,10 24 25,075 4 25,10-25,15 12 25,125 5 25,15-25,20 1 25,175 součet 55 -
Pro výběrový soubor provedeme bodový odhad parametrů: (postup dle předchozího příkladu)
x = 25,068 mm D = 0,001914 mm 2
-odhad střední hodnoty -odhad rozptylu
Spolehlivostní odhad střední hodnoty zaručuje:
P ( x D ≤ µ ≤ x H ) = 0,95 Velikost nejistoty odhadu (pro n≥30):
ε = u 1+γ . 2
σ
n
= u 1+ 0,95 .
σ
2
n
= 1,96.
0,04375 55
= 0,01156
Spolehlivostní meze pro střední hodnotu: P(25,056≤ ≤25,079) = 0,95 Spolehlivostní odhad rozptylu zaručuje:
(
)
P σ 2 D ≤ σ 2 ≤ σ 2 H = 0,90 Odhad dolní meze rozptylu při spolehlivosti 90%
σ
2
D
=
(n − 1).σ 2
χ
2 1−γ 2
,k = n −1
=
(55 − 1).0,001914 = 0,00153 mm 2 67,5
Odhad horní meze rozptylu při spolehlivosti 90%
σH
2
=
(n − 1).σ 2
χ 2 1+2γ ,k =n−1
Spolehlivostní meze
=
(55 − 1).0,001914 = 0,00297mm 2 34,8
(
)
P 0,0153 ≤ σ 2 ≤ 0,00297 = 0,90 C) odhad metodou linearizace distribuční funkce Metoda bývá označována jako grafická, principem je získání lineárního vztahu mezi vhodnými veličinami, které závisí na zjišťovaných parametrech náhodné veličiny. U normální náhodné veličiny vycházíme ze vztahu mezi normální a normovanou veličinou
u=
x−µ
σ
=
x
µ
−
µ = k1 .x + k2. σ
což je v souřadnicích x , u lineární vztah. Přiřazené hodnoty normované veličiny u se určí z experimentální distribuční funkce neboť platí F(x) = Φ(u). Závislost lze kreslit jako lomenou čáru či použít např. metody minima součtu čtverců odchylek experimentálních a teoretických hodnot. Pro hodnotu u = 0 …… střední hodnota průsečík přímky s osou x Pro hodnotu u =1 …… střední směrodatná odchylka σ = x1 - µ.
Uvedeným postupem dále získáme informaci o vhodnosti použití normální náhodné veličiny. Pokud hodnoty získané z výběrového souboru leží v blízkosti proložené přímky v grafu je normální náhodná veličina vhodná pro popis. Míru těsnosti je možné vyjádřit i číselně.
Příklad: Odhadněte parametry rozdělení vyhodnocením výběrového souboru dle tabulky a posuďte vhodnost použití normální náhodné veličiny k popisu
i
Interval od – do (mm)
Četnost ni
Odhad distribuční funkce F(x)
1 2 3 4 5 součet
24,95-25,00 25,00-25,05 25,05-25,10 25,10-25,15 25,15-25,20 -
3 15 24 12 1 55
3/55=0,0545 18/55=0,3272 0,7636 0,9818 1,0 -
Normální normovaná veličina uF(x) -1,60 -4,45 0,728 2,090 ∞ (3,09) -
Z hodnot výběrového souboru vypočteme odhad distribuční funkce a z tabulek normální normované veličiny určíme odpovídající hodnoty proměnné. Pro transformační vztah
u=
x−µ
σ
= k1 . x + k 2
zakreslíme průběh uF(x)= f(x)
Poznámka: hodnotu u pro odhad distribuční v posledním intervalu nahradíme hodnotou 3,09 (distribuční funkce 0,9990)