10
Cviˇ cen´ı 10
Statistick´ y soubor. N´ahodn´ y v´ ybˇer a v´ ybˇerov´e statistiky (aritmetick´ y pr˚ umˇer, geometrick´ y pr˚ umˇer, v´ ybˇerov´ y rozptyl,...). Bodov´e odhady parametr˚ u. Intervalov´e odhady parametr˚ u. Jednostrann´e a oboustrann´e odhady. Intervalov´ y odhad stˇredn´ı hodnoty, rozptylu, relativn´ı ˇcetnosti.
10.1
Teoretick´ aˇ c´ ast
10.1.1
Statistika
Statistika je matematick´a discipl´ına, kter´a vych´az´ı z empirick´ ych dat (pozorov´an´ı), ze kter´ ych pak dˇel´a obecn´e z´avˇery. Zab´ yv´a se ˇreˇsen´ım probl´em˚ u n´ahodn´ ych situac´ı - napˇr. odhady hodnot platn´e s urˇcitou ppst´ı, ohodnocen´ı rizik pˇri rozhodov´an´ı, aj.. V teorii statistiky je n´ahodnost a neurˇcitost modelov´ana pomoc´ı teorie pravdˇepodobnosti. Statistika n´am tak´e poskytuje soubor matematick´ ych metod (postup˚ u) pro pl´anov´an´ı experiment˚ u, z´ısk´av´an´ı dat a jejich anal´ yzu a n´aslednou interpretaci z´avˇer˚ u. Z´avˇery a rozhodnut´ı uˇcinˇen´e na z´akladˇe statistick´ ych model˚ u mohou, ale nemus´ı odpov´ıdat realitˇe. Statistick´e postupy m˚ uˇzeme rozdˇelit na: • Konfirmaˇcn´ı anal´ yzu, kter´a se zab´ yv´a testov´an´ım pˇredem pˇresnˇe formulovan´ ych hypot´ez. Zjednoduˇsenˇe ˇreˇceno, u ´kolem konfirmaˇcn´ı anal´ yzy je d´avat odpovˇedi na ot´azky typu ”Je pravda, ˇze...?” • Exploraˇcni anal´ yzu, pˇri kter´e nen´ı dostateˇcnˇe jasn´e, co vˇse m˚ uˇze b´ yt v´ ysledkem. Jej´ım c´ılem je vyˇc´ıst z dat maximum informace, inspirace, pouˇcen´ı – to vˇse vzhledem k nˇejak´emu obecn´emu, ˇcasto v´agnˇe formulovan´emu probl´emu (napˇr. anal´ yza pˇr´ıˇcin poruchovosti). Jako statistiku tak´e oznaˇcujeme hodnoty, kter´e z´ısk´ame proveden´ım n´ahodn´eho v´ ybˇeru. 10.1.2
Z´ akladn´ı soubor
Z´akladn´ı soubor pˇredstavuje mnoˇzinu vˇsech prvk˚ u s konkr´etn´ımi sledovan´ ymi ˇ ke dni . . . , vlastnostmi. kter´e jsou podrobeny zkoum´an´ı (napˇr. obyvatelstvo CR v´ yrobky vyroben´e v z´avodˇe Z v dobˇe od . . . do . . . ). Obvykle je tento soubor velmi rozs´ahl´ y - m˚ uˇze b´ yt koneˇcn´ y i nekoneˇcn´ y. Z´akladn´ı soubor je charakterizov´an charakteristikami – stˇredn´ı hodnota, rozptyl, variaˇcn´ı rozpˇet´ı, . . . 10.1.3
V´ ybˇ erov´ y soubor (statistick´ y soubor)
V´ ybˇerov´ y soubor pˇredstavuje koneˇcnou podmnoˇzinu z´akladn´ıho souboru - n-tice re´aln´ ych ˇc´ısel, z´ıskanou na z´akladˇe v´ ysledk˚ u statistick´eho experimentu.
1
• Uspoˇ r´ adan´ y statistick´ y soubor - Statistick´ y soubor s uspoˇr´adan´ ymi prvky podle velikosti. Hodnoty v souboru se mohou opakovat. x(1) ≤ x(2) ≤ . . . ≤ x(n) • Popisn´ a statistika - definuje v´ ybˇerov´e charakteristiky (statistiky, m´ıry) v´ ybˇerov´eho souboru – charakteristiky (m´ıry) polohy – charakteristiky (m´ıry) variability – ... 10.1.4
Popisn´ a statistika
• Charakteristiky polohy – Aritmetick´ y pr˚ umˇ er x=
x1 +x2 +...+xn n
D´ale plat´ı. n P
(xi − x) = 0.
i=1
Pro libovoln´e a 6= x plat´ı:
n P
(xi − x)2 <
i=1
n P
(xi − a)2
i=1
Necht’ a, b ∈ R a poloˇzme yi = axi +b pro i = 1, 2, . . . , n, pak y = ax+b x je citliv´ y na hrub´e chyby (pˇr. 8,00; 12,00; 15,00; 23,00; 1500 ⇒ x = 311,60). – Geometrick´ y pr˚ umˇ er xG =
√ n
x1 .x2 . . . . .xn
Geometrick´ y pr˚ umˇer je pouˇz´ıv´an pouze pro kladn´e hodnoty xi . Vyuˇz´ıv´a se zejm´ena pro urˇcen´ı pr˚ umˇern´e hodnoty tzv. ˇretˇezov´ ych index˚ u. Tj. necht’ x0 , x1 , . . . , xn ud´avaj´ı poˇcet jednotek (napˇr. prodan´ ych v´ yrobk˚ u) v i- t´em ˇcasov´em obdob´ı. V´ yvoj poˇctu jednotek (prodeje) charakterin zujeme pomoc´ı ˇretˇezov´ ych index˚ u i1 = xx10 , i2 = xx21 , . . . , in = xxn−1 . n Pak lze vyj´adˇrit xn = x0 · i1 · i2 · . . . · in . Pak xn = x0 · (iG ) – Harmonick´ y pr˚ umˇ er xH =
n −1 −1 −1 x−1 1 +x2 +x3 +...+xn
2
Pˇr´ıklad: Auto jede do kopce rychlost´ı v1 a po stejn´e dr´aze z kopce rychlost´ı v2 . Jak´a je jeho pr˚ umˇern´a rychlost ? ˇ Reˇsen´ı: D´elku tratˇe oznaˇcme d, dobu j´ızdy do kopce t1 = vd1 , dobu 2 j´ızdy z kopce t2 = vd2 , pr˚ umˇern´a rychlost je t12d = v−1 +v −1 = vH +t2 1
2
Pro jednotliv´e typy pr˚ umˇer˚ u plat´ı: xH ≤ xG ≤ x Rovnost je splnˇena kdyˇz jsou vˇsechny prvky xi shodn´e. – Medi´ an xe pˇredstavuje prvek, kter´ y se ve statistick´em uspoˇr´adan´em souboru nach´az´ı v polovinˇe. Pˇredstavuje robustn´ı m´ıru polohy tzn. nen´ı citliv´ y na hrub´e chyby. xe = x(m) pro n lich´e, m = (n + 1)/2 1 pro n sud´e, m = n/2 = 2 x(m) + x(m+1) (pˇr. 8,00; 12,00; 15,00; 23,00; 1500 ⇒ xe = 15,00) – Modus xˆ je nejˇcastˇeji se vyskytuj´ıc´ı hodnota v souboru x1 , x2 , . . . , xn Modus nemus´ı b´ yt urˇcen jednoznaˇcnˇe. • Charakteristiky variability – Rozptyl σ2 = √
n 1X (xi − x)2 n i=1
σ 2 = σ je smˇ erodatn´ a odchylka n P V´ ypoˇcetn´ı tvar rozptylu σ 2 = n1 x2i − (x)2 i=1
Necht’ a, b ∈ R a poloˇzme yi = axi +b pro i = 1, 2, . . . , n, pak σy2 = a2 σx2 resp. σy = |a|σx . S(a) =
1 n
n P
(xi − a)2 nab´ yv´a sv´eho minima v bodˇe a = x.
i=1
– V´ ybˇ erov´ y rozptyl s2 = √
n 1 X (xi − x)2 n − 1 i=1
s2 = s je v´ ybˇerov´a smˇerodatn´a odchylka. V´ ybˇerov´ y rozptyl m´a lepˇs´ı statistick´e vlastnosti neˇz rozptyl a proto je pouˇz´ıvanˇejˇs´ı. s2 = σ 2 ·
3
n n−1
Pro velk´e hodnoty n (ˇreknˇeme n > 100) jsou hodnoty rozptylu a v´ ybˇerov´eho rozptylu skoro stejn´e. Znaˇcen´ı - nˇekdy znaˇc´ıme rozptyl 2 s a v´ ybˇerov´ y rozptyl ∗ s2 . – Variaˇ cn´ı rozpˇ et´ı R = x(n) − x(1) je vyj´adˇreno v jednotk´ach xi . – Variaˇ cn´ı koeficient v = Rx Variaˇcn´ı koeficient nez´avis´ı na jednotk´ach xi . Necht’ a ∈ R a poloˇzme yi = axi pro i = 1, 2, . . . , n, pak vy = vx . • Tˇr´ıdn´ı rozdˇelen´ı ˇcetnosti Necht’ c1 < c2 < . . . < ck−1 jsou dan´a ˇc´ısla. Uvaˇzujme intervaly: I1 = (−∞; c1 ), I2 = [c1 , c2 ) , . . . , Ik−1 = [ck−2 , ck−1 ) , Ik = [ck−1 , ∞) , kter´e charakterizuj´ı jednotliv´e tˇr´ıdy I1 , I2 , . . . , Ik . n1 , n2 , . . . , nk pak znaˇc´ı tˇr´ıdn´ı ˇcetnosti (absolutn´ı tˇr´ıdn´ı ˇcetnosti) pro nˇeˇz P plat´ı i ni = n Relativn´ı tˇr´ıdn´ı ˇcetnosti nn1 , nn2 , . . . , nnk , pro nˇeˇz plat´ı i nni = 1 zj ∈ Ij pro j = 1, 2, . . . , k je reprezentant tˇr´ıdy, zastupuj´ıc´ı hodnoty tˇr´ıdy. Obvykle se vol´ı uprostˇred intervalu. Data rozdˇelen´a do tˇr´ıdn´ıch ˇcetnost´ı zobrazujeme pomoc´ı tyˇckov´eho diagramu, polygonu nebo histogramem. P
10.1.5
N´ ahodn´ y v´ ybˇ er
N´ahodn´ y v´ ybˇer je charakterizov´an jako posloupnost nez´avisl´ ych stejnˇe rozdˇelen´ ych n´ahodn´ ych veliˇcin X1 , X2 , . . . , Xn , jejichˇz realizace znaˇc´ıme x1 , x2 , . . . , xn . Realizace x1 , x2 , . . . , xn jsou konkr´etn´ı re´aln´a ˇc´ısla a tvoˇr´ı statistick´ y soubor. Na z´akladˇe hodnot x1 , x2 , . . . , xn statistick´eho souboru, kter´e jsou realizacemi stejn´e n´ahodn´e veliˇciny X1 = X2 = . . . = Xn = X usuzujeme na vlastnosti n´ahodn´e veliˇciny X, charakterizuj´ıc´ı z´akladn´ı soubor. Z´akladn´ı soubor je d´ale charakterizov´an distribuˇcn´ı funkc´ı F (X), stˇredn´ı hodnotou E(X), rozptylem D(X), . . . . N´ahodn´ y v´ ybˇer x1 , x2 , . . . , xn : je charakterizov´an empirickou distribuˇcn´ı funkc´ı, statistikami (m´ırami) - aritmetick´ y pr˚ umˇer, rozptyl, variaˇcn´ı rozpˇet´ı, . . . Pomoc´ı odhadu parametr˚ u budou specifikov´any charakteristiky z´akladn´ıho souboru. Pozn. Stejnˇe jako u statistick´ ych soubor˚ u se m˚ uˇzeme tak´e setkat s pojmy uspoˇr´adan´ y n´ahodn´ y v´ ybˇer, n´ahodn´ y v´ ybˇer sdruˇzen´ y do tˇr´ıd, atp.
4
10.1.6
Odhady parametr˚ u
Na z´akladˇe hodnot statistick´eho souboru (hodnot realizace n´ahodn´eho v´ ybˇeru s vykreslen´ ym histogramem ˇcetnost´ı) urˇc´ıme, o jak´ y typ rozdˇelen´ı pravdˇepodobnosti by mohlo j´ıt. Pro bliˇzˇs´ı specifikaci parametr˚ u jednotliv´ ych rozdˇelen´ı jsou pouˇz´ıv´any bodov´e a intervalov´e odhady tˇechto parametr˚ u. • Bodov´ e odhady Charakteristiku z´akladn´ıho souboru odhaduj´ı na z´akladˇe konkr´etn´ıch charakteristik n´ahodn´eho v´ ybˇeru. Necht’ x1 , x2 , . . . , xn jsou realizace n´ahodn´eho v´ ybˇeru n´ahodn´e veliˇciny X1 = X2 = . . . = Xn = X, kter´a m´a distribuˇcn´ı funkci F (x; G), kde G je obecnˇe nezn´am´ y parametr (napˇr´ıklad p, µ, σ, ρ, λ, . . .) Bodov´ ym odhadem parametru G nazveme libovolnou statistiku n´ahodn´eho v´ ybˇeru, kter´a nez´avis´ı b na G. Oznaˇc´ıme ji g = g(x1 , x2 , . . . , xn ). g = G. Bodov´ e odhady vybran´ ych charakteristik ’ Necht X je n´ahodn´a veliˇcina s koneˇcnou stˇredn´ı hodnotou a x1 , x2 , . . . , xn jsou realizace n-kr´at nez´avisle opakovan´e veliˇciny X,pak d = – bodov´ ym odhadem stˇredn´ı hodnoty je aritmetick´ y pr˚ umˇer E(X)
x=
1 n
n P
xi
i=1
– bodov´ ym odhadem rozptylu pro n jdouc´ı do nekoneˇcna, je veliˇcina n d = σ 2 = 1 P (x − x)2 rozptyl D(X) i n i=1
d = – bodov´ ym odhadem rozptylu je veliˇcina v´ ybˇerov´ y rozptyl s2 , tedy D(X)
s2 =
1 n−1
n P
(xi − x)2
i=1
• Intervalov´ e odhady Charakteristiku z´akladn´ıho souboru odhadujeme intervalem a pravdˇepodobnost´ı, ˇze uveden´a charakteristika bude leˇzet v dan´em intervalu. Necht’ x1 , x2 , . . . , xn jsou realizace n´ahodn´eho v´ ybˇeru n´ahodn´e veliˇciny X1 = X2 = . . . = Xn = X, kter´a m´a distribuˇcn´ı funkci F (x; G), kde G je obecnˇe nezn´am´ y parametr. Intervalov´ ym odhadem (konfidenˇcn´ım odhadem) parametru G je interval (gd ; gh ), kter´ y s danou pravdˇepodobnost´ı 1 − α obsahuje nezn´am´ y parametr G. Jedn´a se o interval spolehlivosti pro parametr G s koeficientem spolehlivosti 1 − α. Intervalov´e odhady dˇel´ıme na – dvoustrann´ y intervalov´ y odhad P (gd < G < gh ) = 1 − α – jednostrann´ y (levostrann´ y, resp. pravostrann´ y) intervalov´ y odhad P (gd < G) = 1 − α P (G < gh ) = 1 − α.
5
gd a gh jsou vhodnˇe urˇcen´e statistiky vych´azej´ıc´ı z realizac´ı x1 , x2 , . . . , xn a volby α. gd = gd (x1 , x2 , . . . , xn , α) a gh = gh (x1 , x2 , . . . , xn , α). Koeficient 1−α naz´ yv´ame koeficient spolehlivosti odhadu (spolehlivost odhadu). Hodnotu α (hladinu v´ yznamnosti) vol´ıme obvykle 1%, 5% nebo 10%. Na zvolen´em α z´avis´ı pˇresnost odhadu ∆ = (gh − gd )/2, kter´a je tak´e z´avisl´a na rozsahu n v´ ybˇerov´eho souboru. – Intervalov´ e odhady parametru µ norm´ aln´ıho rozdˇ elen´ı pro zn´ amou hodnotu σ. Necht’ x je n´ahodn´a veliˇcina s norm´aln´ım rozdˇelen´ım N (µ, σ 2 ) a x1 , x2 , . . . , xn jsou realizace n-kr´at nez´avisle opakovan´e veliˇciny X. Pak: ∗ dvoustrann´y interval spolehlivosti pro parametr µ x − u1− α2 · √σn ; x + u1− α2 · √σn ∗ jednostrann´e intervaly spolehlivosti pro parametr µ σ x − u1−α · √n ; ∞
−∞; x + u1−α ·
√σ n
– Intervalov´ e odhady parametru µ norm´ aln´ıho rozdˇ elen´ı pro nezn´ amou hodnotu σ ∗ dvoustrann´ y interval spolehlivosti pro parametr µ x − t1− α2 (ν = n − 1) · √sn ; x + t1− α2 (ν = n − 1) · ∗ jednostrann´ y interval spolehlivosti pro parametr µ s x − t1−α (ν = n − 1) · √n ; ∞
−∞; x + t1−α (ν = n − 1) ·
√s n
√s n
Kde tα (ν = n − 1) je kvantil studentova t-rozdˇelen´ı a s2 =
1 n−1
n P
(xi − x)2 je odhad rozptylu
i=1
– Intervalov´ e odhady parametru σ 2 Necht’ x je n´ahodn´a veliˇcina s norm´aln´ım rozdˇelen´ım N (µ, σ 2 ) a x1 , x2 , . . . , xn jsou realizace n-kr´at nez´avisle opakovan´e veliˇciny X, pak ∗ dvoustrann´ y interval spolehlivosti pro parametr σ 2 (n−1)s2 ; (n−1)s χ21− α (ν=n−1) χ2α (ν=n−1) 2
!
2
∗ jednostrann´ y interval spolehlivosti pro parametr σ 2
(n−1)s2 ;∞ χ21−α (ν=n−1)
−∞; χ2(n−1)s (ν=n−1)
2
α
6
10.2
Pˇ r´ıklady
1. Na r˚ uzn´ ych svork´ach byla v ˇcasov´em intervalu postupnˇe namˇeˇrena napˇet´ı: (a) 2,3,2,4,15,2 V (b) 20,22,19,2,21,20 V Vypoˇctˇete pr˚ umˇern´e napˇet´ı pomoc´ı aritmetick´eho, geometrick´eho a harmonick´eho pr˚ umˇeru. Zjiˇstˇen´e hodnoty navz´ajem porovnejte. D´ale zjistˇete modus, medi´an, vypoˇctˇete rozptyl, smˇerodatnou odchylku jednotliv´ ych statistick´ ych soubor˚ u. Urˇcete variaˇcn´ı rozpˇet´ı. ˇ sen´ı Reˇ √ 6 = 4, 667V, xG = 6 1440 = 3, 36V, xH = 2,15 = 2, 79V. Mo(a) x = 28 6 dus=2, medi´an=2,5, rozptyl=21,89, smˇerodatn´a odchylka=4,68V. Variaˇcn´ı rozpˇet´ı=13V. √ 6 = 17, 33V, xG = 6 7022400 = 13, 84V, xH = 1,219 = 8, 05V. (b) x = 104 6 Modus=20, medi´an=20, rozptyl=47,89, smˇerodatn´a odchylka=6,92V. Variaˇcn´ı rozpˇet´ı=20V. 2. (a) mˇejme realizaci n´ahodn´eho v´ ybˇeru z rozdˇelen´ı P o(λ): 8, 6, 11, 7, 9, 9, 12, 13. Odhadnˇete parametr λ (b) mˇejme realizaci n´ahodn´eho v´ ybˇeru z rozdˇelen´ı N (µ; σ 2 ): 175, 186, 189, 169, 170, 184. Odhadnˇete parametry µ a σ 2 (c) mˇejme realizaci n´ahodn´eho v´ ybˇeru z rozdˇelen´ı Bi(100; p): 3, 3, 3, 3, 6, 0, 0, 1, 2, 3. Odhadnˇete parametr p (d) mˇejme realizaci n´ahodn´eho v´ ybˇeru z rozdˇelen´ı Exp(λ): 5,4; 9,4; 22,4; 1,6; 4,9; 14,1; 34,1; 9,3; 1,4. Odhadnˇete parametr λ ˇ sen´ı Reˇ (a) generov´ano P o(9, 38) (b) generov´ano N (178; 74, 17) (c) generov´ano Bi(100; 0, 024) (d) generov´ano Exp(0, 09). 3. X je n´ahodn´a veliˇcina s norm´aln´ım rozdˇelen´ım N (µ, σ 2 ). N´ahodn´ ym v´ ybˇerem byly z´ısk´any n´asleduj´ıc´ı hodnoty: 175, 186, 189, 169, 170, 184. D´ale v´ıme, ˇze σ 2 = 49. Spoˇctˇete dvoustrann´ y intervalov´ y odhad pro parametr µ. Hladina v´ yznamnosti 7
α = 0, 05 ˇ sen´ı: Reˇ Intervalov´ y odhad - parametr µ leˇz´ı s pravdˇepodobnost´ı 95% v intervalu (173,23; 184,43). 4. X je n´ahodn´a veliˇcina s norm´aln´ım rozdˇelen´ım N (µ, σ 2 ). Spoˇctˇete dvoustrann´ y intervalov´ y odhad pro parametr σ 2 na z´akladˇe n´ahodn´eho v´ ybˇeru: 175, 186, 189, 169, 170, 184. Hladina v´ yznamnosti α = 0, 05. ˇ sen´ı: Reˇ Parametr σ 2 s pravdˇepodobnost´ı 95% leˇz´ı v intervalu (28,9; 446,25). V´ ybˇerov´a 2 smˇerodatn´a odchylka s = 74, 17.
10.3
Literatura s dalˇ s´ımi pˇ r´ıklady
• Reif, Jiˇr´ı: Metody matematick´e statistiky. Strana 28–51.
8