STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH
BOHUMIL MINAŘÍK 2014
prof. Ing. Bohumil Minařík, CSc. STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH 1. vydání ISBN 978-80-88064-03-9 Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2014 Za jazykovou a věcnou správnost obsahu díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou. © Bohumil Minařík, 2014
Tento učební text je směrován na cílovou skupinu studentů technických oborů na bakalářském stupni studia. Statistika patří těžším předmětům, protože vyžaduje určitou matematickou průpravu a způsob uvažování, který není zdaleka běžný. Také průběžná příprava je docela důležitá, neboť nárazově a na poslední chvíli se statistika rozhodně nastudovat nedá. Každé podcenění a odkládání studia „na později“ se s jistotou projeví. Také tento učební text, jakkoli sympatický nízkým počtem stran, rozhodně nepatří do kategorie lehké četby. Na druhou stranu je třeba konstatovat, že rozhodně nejde o matematickou exhibici, ale určité (snad i ohleduplné, pokud se to tak dá říci) převyprávění se snahou o maximální čtivost a srozumitelnost. Při srovnání s běžnými učebnicemi statistiky, které se vyznačují pět až desetkrát větším počtem stran, je výklad poměrně hutný, poznamenaný snahou ve čtyřech kapitolách se alespoň dotknout mnoha témat, které použití statistiky v technických oborech otevírá. Jde rozhodně o statistické minimum, které bude nucen skutečný uživatel statistických metod v budoucnu podstatně rozšířit. Na několika místech textu je poukázáno na užití pravděpodobnosti a statistiky v technice, která jsou na těchto základech vybudována. Protože však ambicí tohoto textu je seznámit čtenáře s obecnými základy statistiky (jak ostatně odpovídá sylabům příslušného předmětu), nemůže v žádném případě jít o systematický výklad týkající se (namátkou) nejistot měření, hromadné obsluhy, regulačních diagramů nebo statistické přejímky. To už je náplň dalších disciplín, které obecné základy statistiky využívají a aplikují na konkrétní případy z technického výzkumu i praxe. Jde takříkajíc o pokus o beta-verzi (snad) budoucího kvalitního učebního textu, který již budou připravovat jiní, pro výuku statistiky na technických oborech (především v oblasti výpočetní techniky a informatiky) jistě lépe disponovaní učitelé. Nakolik je už tato „zkušební“ verze alespoň zčásti zdařilá, nechť posoudí studenti sami. To, že v dnešní době lze většinu pojmů použitých v této pomůcce vyhledat na internetu (bohužel ne vždy přesně a správně), není třeba připomínat. Jihlava, srpen 2014
Autor
Orientace v textu Text sestává ze čtyř kapitol •
Zpracování a popis datového souboru v rozsahu 20 stran, který obsahuje tyto odstavce • Datový soubor (strana 5) • Třídění (strana 6) • Charakteristiky úrovně (strana 15) • Charakteristiky variability (strana 18)
•
Pravděpodobnost v rozsahu 29 stran, s těmito odstavci • Rekapitulace základních pojmů (strana 25) • Náhodná veličina (strana 29) • Zákony rozdělení diskrétních náhodných veličin (strana 39) • Zákony rozdělení spojitých náhodných veličin (strana 43)
•
Odhady a testy hypotéz v rozsahu 30 stran, s těmito odstavci • Náhodný výběr z rozdělení náhodné veličiny (strana 54) • Bodový odhad (strana 61) • Intervalový odhad (strana 64) • Testování hypotéz o parametrech rozdělení (strana 70) • Některé další testy hypotéz (ukázky) (strana 77)
•
Metoda nejmenších čtverců v rozsahu 12 stran, s těmito odstavci • Regresní úloha (strana 84) • Měření průběhu závislosti (strana 85) • Měření intenzity závislosti (strana 87) • Příklad regresní úlohy (strana 88) • Kalibrace (strana 90)
Na konci textu je připojen stručný výtah z tabulek kvantilů dvou důležitých náhodných veličin. Vždy za jedním nebo několika odstavci jsou vloženy otázky a úkoly, které by měl student vyřešit, pokud chce postoupit vpřed. Celkem jde o 159 položek, které mohou dokonale prověřit samostatnou přípravu studenta a současně tvoří výchozí materiál pro průběžné písemné práce a formulování otázek ke zkoušce. Každá kapitola končí souhrnem probrané látky. Na závěr kapitoly jsou vyjmenovány některé další související problémy, na které nezbyl čas a prostor.
Kapitola 1
Zpracování a popis datového souboru
Základní „surovinou“ popisné statistiky je datový soubor, konkrétně způsob jeho pořízení, zpracování (k tomu se používá se především metoda třídění) a měření hlavních statistických vlastností dat (především úrovně a variability) pomocí souhrnných statistických charakteristik. Pořízení datového souboru (statistické zjišťování, šetření) má, vzhledem k velmi širokému použití statistiky dotýkajícího se mnoha oborů lidské činnosti, velmi různou podobu – počínaje experimentálními měřeními v laboratořích a zkušebnách, přes nejrůznější zjišťování probíhající takříkajíc v provozních podmínkách, až třeba po dotazníková šetření v souborech domácností. Moderní přístup k získávání statistických dat představuje tzv. data mining, spočívající v sofistikovaném vytěžování statistických dat organizovaných v databázích. O tom, že tato činnost nabyla „průmyslového“ charakteru, svědčí používané pojmy jako datový sklad, datová pumpa apod. K experimentálním účelům se také využívají tzv. generátory náhodných čísel, které automaticky produkují simulované datové soubory požadovaných vlastnosti. Pokud bychom hodlali zůstat na půdě popisné statistiky (např. v rámci našeho studijního předmětu), nehrál by způsob pořízení datového souboru až takovou roli. Protože však hodláme zabrousit také do matematické statistiky (ta se zabývá především metodami statistické indukce – zobecnění poznatků získaných na datovém souboru), dospějeme v jistém okamžiku k pojmu náhodný výběr z rozdělení pravděpodobnosti náhodné veličiny. Čistě pro potřeby popisné statistiky ovšem zatím stačí představit si, že jsme „přišli k hotovému“ a datový soubor máme tudíž k dispozici, aniž pátráme po způsobu, jakým byl pořízen.
1.1 Datový soubor Měřená veličina Měřené veličiny rozlišujeme podle způsobu, jakým získáváme jejich hodnoty: •
Kardinální veličina jejíž číselné hodnoty získáváme cestou měření ve vlastním slova smyslu (typicky fyzikálních měření) v měrných jednotkách v souladu se soustavou SI (sedm základních jednotek, odvozené jednotky, násobné jednotky, vedlejší jednotky). Při označování měřené veličiny má přednost X (velké x). Kardinální veličiny rozlišujeme podle spojitosti na diskrétní – nespojité (nabývající izolovaných hodnot, často – ne nutně – celočíselných) a spojité (reálná čísla). Kromě toho rozlišujeme kardinální veličiny s přirozenou a konvenční nulou. To je důležité pro jejich rozdělení na poměrové (jejich hodnoty lze porovnávat rozdílem i podílem) a intervalové (jejich hodnoty lze porovnávat jen rozdílem – typicky např. teploty ve °C). V dalším textu této kapitoly budeme předpokládat výhradně kardinální veličinu.
•
Ordinální veličina, jejíž číselné hodnoty získáme různě, typicky např. očíslováním uspořádaných hodnot kardinální veličiny pořadovými čísly vzestupně nebo sestupně. V tomto případě jsou eliminovány rozdíly mezi hodnotami (rozdíl dvou sousedních hodnot je nahrazen jednotkovým rozdílem jejich pořadových čísel). S touto veličinou se v našem předmětu prakticky nesetkáme.
•
Kategoriální veličina, kdy jednotlivé případy klasifikujeme do slovně vyjádřených kategorií (např. událost nastala/nenastala, tiskárna je jehličková/inkoustová/laserová apod.). Zde se nehovoří o měření, ale o srovnávání, ani o hodnotách, nýbrž o obměnách. Pokud jsou kategorie očíslovány (např. událost nastala = 1, událost nenastala = 0), jde o číselný kód a čísla nemají význam velikosti. V rámci této kapitoly se s kategoriální veličinou nesetkáme.
5
Naměřené hodnoty Pokud jde o kardinální veličinu (vezměme příklad měření určité fyzikální vlastnosti součástky), je třeba si uvědomit, že její naměřená hodnota je jen náhodou totožná s hodnotou skutečnou. Naměřená hodnota je především zatížena nejistotou měření. Skutečná hodnota je pak složena z hodnoty nominální (jmenovité, očekávané) a individuální, případ od případu se měnící, odchylky od nominální hodnoty – viz diagram. Naměřená hodnota i datový soubor jako celek jsou tedy jednotou deterministické (předvídatelné) složky a složky náhodné (tudíž nepředvídatelné). Pokud by šlo např. o měření proudových jističů, můžeme očekávat že naměřené hodnoty budou kolísat orientačně kolem nominální hodnoty (jmenovitého proudu v A uvedeného na jističi), jednak vlivem individuálních odchylek vzniklých při výrobě jednotlivých jističů, jednak vlivem nejistot měření. Statistika (zejména popisná) se problematikou nejistot měření nezabývá, proto ji ponecháme stranou. Diagram: naměřená vs. skutečná hodnota Naměřená hodnota
Skutečná hodnota
Nejistoty měření
Typ A Nominální hodnota
Typ B
Individuální odchylka od nominální hodnoty
Naměřené hodnoty měřené veličiny X, které tvoří datový soubor, označíme •
buď jako x1 , x 2 ,..., x i ,..., x n , kde číslo n je rozsah datového souboru,
•
alternativně můžeme použít označení x i , pro i = 1, 2 ,..., n ,
kde index i souvisí s pořadím měření. Posloupnost x (1) ≤ x ( 2 ) ≤ ... ≤ x ( i ) ≤ .... ≤ x ( n ) nazveme uspořádaným datovým souborem, kde čísla x (i ) jsou pořádkové statistiky. Platí x (1) = x min (nejmenší naměřená hodnota), x ( n ) = x max . Vzdálenost mezi oběma extrémními hodnotami R = x max − x min je variační rozpětí.
x < x [2 ] < ... < x [i ] < ... < x [k ] Posloupnost [1] nazveme vektorem variant. Číslo k (počet vzájemně od sebe různých variant) je řádově menší než rozsah souboru n.
1.2 Třídění Má-li datový soubor větší rozsah (orientačně alespoň n > 30) je vhodné přistoupit k jeho zpracování pomocí třídění. Výsledkem třídění je rozdělení četností, které je opět jednotou očekávaného – zákonitého a nahodilého. Třídění není samoúčelné, protože tabulkové nebo grafické vyjádření rozdělení četností umožňuje usuzovat např. na symetrii či nesymetrii rozdělení kolem nějakého „centrálního“ bodu, stupeň a místo nakupení největšího počtu hod-
6
not, délku „konců“, přítomnost „chvostu“ apod. Kromě toho rozdělení četností umožňuje měřit a porovnávat strukturu datových souborů. Bodové a intervalové třídění, rozdělení četností O bodovém třídění se hovoří tehdy, pokud se podaří z dat extrahovat vektor variant (několik málo různých hodnot se mnohonásobně opakuje). Rozdělení četností při bodovém třídění je tvořeno dvousloupcovou tabulkou (viz). K intervalovému třídění přistoupíme tehdy, pokud se z dat nepodaří extrahovat vektor variant (naměřené hodnoty jsou např. vesměs různá reálná čísla). V tom případě přistoupíme k vytvoření třídicích intervalů. Jde o subjektivní záležitost, ale abychom dosáhli žádoucího efektu, je vhodné při tom respektovat určité obecné zásady (přiměřený počet k intervalů, jejichž počet by neměl poklesnout pod šest, konstantní šířka intervalu h, nesporné vymezení hranic intervalů, eliminace odlehlých hodnot pomocí prvního a posledního otevřeného intervalu). Interval je zpravidla zastupován svým středem (viz tabulka). Tabulka rozdělení četností při bodovém a intervalovém třídění Varianta Četnost x[i] ni
Střed třídicího intervalu Četnost xi ni
x[1]
n1
x1
n1
x [2 ]
n2
x2
n2
:
:
:
nk
xk
nk
: x [k ]
Součet
Součet
n
n
Poznámky k tabulce •
hranaté závorky u variant budeme nadále vynechávat, takže varianty i středy intervalů budeme značit stejně, význam vyplyne z kontextu,
•
počet variant a počet třídicích intervalů se značí shodně jako k,
•
pojmem četnost (viz dále) označujeme počet opakování i-té varianty nebo počet hodnot ležících v i-tém intervalu,
•
součet četností je v obou případech roven rozsahu výběru.
Druhy četností Četnosti v tabulce, někdy nazývané také absolutní četnosti, nejsou vhodné pro porovnávání struktury dvou nebo více rozdělení četností, neboť závisí na rozsahu souboru, který je jejich součtem. Závislost četností na rozsahu souboru odstraníme přechodem na relativní četnosti pi (případně v procentech vyjádřené ). Relativní četnost p i =
ni . Relativní četnosti jsou tedy n
nezáporná desetinná čísla, jejichž součet je roven jedné. Postupným načítáním (kumulací) absolutních nebo relativních četností vznikají kumulativní četnosti. Kumulativní četnosti kn i =
i
∑n j =1
j
(tj. n1 , n1 + n 2 , n1 + n 2 + n 3 ,...,
k
∑n j =1
j
).
Relativní kumulativní četnosti mohou být rovněž vyjádřeny v procentech. Případný součet
7
kumulativních četností by nedával smysl. Toto v tabulce označíme symbolem ¯ (ležatý křížek) v příslušném políčku součtového řádku. Skalárním součinem absolutních četností a variant/středů intervalů získáme úhrn hodnot souboru. Zatímco v prvním případě jde o přesné číslo (stejný výsledek bychom získali sečtením původních netříděných hodnot), ve druhém případě jde jen o přibližný úhrn, vzhledem k tomu, že střed intervalu není dokonalým „reprezentantem“ všech hodnot intervalu. Tabulkové a grafické vyjádření rozdělení četností viz následující příklady. Příklad bodového třídění V datovém souboru o rozsahu n = 80 byly identifikovány varianty nula a přirozená čísla 1 až 4. Následující tabulka prezentuje rozdělení četností při bodovém třídění tohoto datového souboru. Tabulka rozdělení četností při bodovém třídění Varianta xi
Absolutní Relativní Kumulativní četnost četnost četnost kn i 100 kp i ni pi
0 1 2 3 4
12 33 16 15 4 80
Součet
0,150 0,412 0,200 0,188 0,050 1,000
12 45 61 76 80 ¯
15,0 56,2 76,2 95,0 100,0 ¯
Úsečkový graf absolutní četnosti a graf relativní kumulativní četnosti v %
ni
100kp i
x
x
Poznámky k příkladu na bodové třídění •
součty relativních četností nemusí vzhledem k zaokrouhlování nutně vyjít jedna (100 %),
8
•
skalární součin
k
∑x n i
i
= 126 udává úhrn (přesnou hodnotu) datového souboru,
i =1
•
graf kumulativní četnosti má typický stupňovitý průběh,
•
relativní četnosti postačí ke srovnání struktury datových souborů různých rozsahů.
Příklad intervalového třídění Hodnoty datového souboru o rozsahu n = 110 jsou reálná čísla (po zaokrouhlení na celá čísla) ležící v rozmezí x min = 1783, x max = 7328 . Rozhodli jsme třídit datový soubor do šesti třídicích intervalů pro h = 1000 , které vymezíme, jak je uvedeno v tabulce rozdělení četností. Tabulka rozdělení četností při intervalovém třídění Vymezení intervalu
Střed intervalu xi
( − ∞ – 2000) <2000 – 3000) <3000 – 4000) <4000 – 5000) <5000 – 6000) <6000 – + ∞ )
1500 2500 3500 4500 5500
Součet
Absolutní Relativní Kumulativní četnost četnost četnost kn i kp i ni pi
3 11 18 19 42 17 110
6500 ¯
0,027 0,100 0,164 0,173 0,382 0,154 1,000
3 14 32 51 93 110 ¯
0,027 0,127 0,291 0,464 0,846 1,000 ¯
Histogram absolutní četnosti a graf relativní kumulativní četnosti
ni
kp i
x
x
Poznámky k příkladu na intervalové třídění •
intervaly musíme vymezit tak, abychom do nich (nejlépe s určitou rezervou) umístili všechny hodnoty,
9
•
šířku, hranice a středy intervalů je třeba volit s ohledem na maximální přehlednost,
•
intervaly jsme vymezili nesporně, význam závorek je zřejmý (vyskytne-li se např. hodnota 3000, patří do třetího intervalu),
•
první a poslední interval jsme koncipovali tak, aby byly otevřené, což má smysl zejména u posledního intervalu, kam by se hodnota 7328 jinak „nevešla“,
•
není žádoucí, aby rozdělení četností obsahovalo intervaly s nulovou četností,
•
šířka otevřených intervalů se považuje za stejnou jako u ostatních intervalů, i když se do nich zařazují odlehlé hodnoty – to na vysvětlenou ke středům prvního a posledního intervalu,
•
skalární součin
k
∑x n i =1
i
i
= 522000 udává úhrn (přibližná hodnota) datového sou-
boru, •
sloupcový graf absolutní (relativní) četnosti se „slepenými“ sloupci se nazývá histogram,
•
graf kumulativní četnosti je lomená čára, často esovitého tvaru; body se vynášejí proti horním hranicím intervalů; čáru je vhodné napojit na vodorovnou osu v horní hranici fiktivního předchozího intervalu,
•
relativní četnosti nepostačí k porovnání struktury intervalově tříděných datových souborů z důvodu předpokládané různé šířky a různého počtu intervalů.
Četnostní funkce a četnostní hustota pi , tj. jako h relativní četnost připadající na jednotku třídicího intervalu. Hustota četností (na rozdíl od relativní četnosti) nezávisí na šířce třídicího intervalu a zachovává si svůj průběh i při třídění do stále většího počtu stále užších intervalů. Lze si představit, že při extrémně jemném třídění, kdy h → 0 , přejde lomená čára představující průběh relativní kumulativní četnosti v hladkou křivku a podobně hladkou čarou „se obaluje“ i histogram hustoty četností.
Pro intervalově tříděná data zavedeme hustotu četností jako funkci f i =
Pokud budeme relativní četnost při bodovém třídění a hustotu četností při intervalovém třídění chápat jako funkci hodnot měřené veličiny, můžeme zavést •
četnostní funkci p ( x ) , která je nezáporná na normovaná na intervalu 0; 1 , přičemž
∑ p( x ) = 1 (součet délek úseček představujících relativní četnosti je roven x
jedné), •
funkci četnostní hustoty, která je nezáporná f ( x ) ≥ 0 a normovaná
+∞
∫
f ( x ) dx = 1 ,
−∞
tj. plocha histogramu četnostní hustoty je vždy rovna jedné. Významné hodnoty V netříděném, bodově nebo intervalově tříděném datovém souboru lze najít hodnoty, které jsou významné svojí polohou nebo četností. Jde o •
Extrémní hodnoty x min , x max , které lze u netříděných a bodově tříděných dat určit přesně, zatímco u intervalově tříděných dat je z tabulky rozdělení četností určit nedokážeme.
10
•
Typická hodnota (modus, xˆ ), což je u bodově tříděných dat varianta s největší četností, zatímco u intervalově tříděných dat leží uvnitř intervalu s největší četností (jak její polohu uvnitř intervalu odhadujeme, ponecháme stranou). U netříděných údajů s malým rozsahem souboru se o určení typické hodnoty zpravidla nepokoušíme.
•
Kvantily, což jsou hodnoty, které dělí uspořádaný nebo tříděný datový soubor ve stanoveném poměru četností. Hlavním kvantilem je medián x 0,50 (prostřední hodn +1 . Pokud 2 vypočtené pořadí není celé číslo, vyhovují definici mediánu dvě hodnoty – bezn +1 prostředně předchozí a následující (např. n = 7, = 4 , mediánem je tedy čtvrtá 2 n +1 hodnota, zatímco pro n = 8, = 4 ,5 a mediánem je současně čtvrtá a pátá 2 hodnota). U bodově tříděných dat je mediánem varianta, u které kumulativní relativní četnost poprvé překročí hodnotu 0,5 (50 %). U intervalově tříděných dat leží medián v intervalu, pro který kumulativní relativní četnost poprvé překročí tutéž hodnotu (0,5 nebo 50 %). Jak jeho polohu uvnitř intervalu odhadujeme, ponecháme stranou. Kvartily ( x 0, 25 , x 0,50 , x 0,75 ) jsou tři kvantily, které rozdělují sou-
nota), což je u netříděných uspořádaných dat hodnota s pořadím
bor na čtvrtiny. Dolní kvartil x 0, 25 je mediánem dolní poloviny souboru, horní kvartil x 0,75 je mediánem horní poloviny souboru. Prostřední kvartil je medián. Vedle mediánu a kvartilů existuje množství dalších kvantilů. Jako vhodný příklad uvádíme percentily, jejichž počet je 99 ( x 0 , 01 ,..., x 0 , 99 ) a dělí soubor na sto částí o relativní četnosti 0,01 (1 %). Prostředním (padesátým) percentilem je medián a oba percentily v závorce se nazývají dolní a horní percentil. Konkrétně s těmito kvantily se později v jiné souvislosti setkáme. Tvar rozdělení četností Jak jsme již dříve uvedli, datový soubor obsahuje prvek zákonitého a předvídatelného a současně i prvek nahodilého, případ od případu proměnlivého. Proto můžeme hovořit o určitých typických, opakovatelných, tvarech rozdělení četností. •
Všímáme si symetrie či asymetrie rozdělení četností. Prakticky se běžně setkáváme s oběma případy. Pokud jde o asymetrická rozdělení, hovoříme o levostranné (viz příklad k bodovému třídění) nebo pravostranné (viz příklad k intervalovému třídění) asymetrii. Při tom se řídíme tím, zda vrchol rozdělení je vychýlen doleva (k nižším hodnotám) či doprava. O extrémně asymetrických rozděleních se hovoří tehdy, je-li vrchol rozdělení zcela vlevo (např. v prvním intervalu) nebo vpravo (např. u poslední varianty).
•
Dále se zajímáme o rovnoměrnost či nerovnoměrnost rozložení četností mezi jednotlivé varianty/intervaly. Pokud jsou četnosti rozděleny přibližně rovnoměrně, hovoří se o rovnoměrném rozdělení. V opačném případě jde zpravidla (ne vždy) o modální rozdělení vyznačující se vyšší frekvencí hodnot u určité varianty nebo v určitém intervalu. Protikladem k modálním rozdělení je rozdělení typu U (dolík místo vrcholu). Zvláštní kategorii tvoří vícevrcholová rozdělení. Přítomnost více vrcholů může vypovídat o škodlivé heterogenitě v datech (vzniká např. sloučením datových souborů, které vznikaly za různých podmínek).
11
•
Kromě toho se můžeme zabývat délkou konců rozdělení, výskytem odlehlých hodnot, případně přítomností „chvostu“ hodnot na jednom z okrajů rozdělení. Tuto problematiku ale ponecháme stranou.
Různé typické tvary rozdělení četností při intervalovém třídění
Krabicový graf s vlákny Tento graf představuje vedle grafů rozdělení četností alternativní pohled na statistická data, založený na významných hodnotách. V grafu se objevuje „krabice“ ohraničená dolním a horním kvartilem a s vyznačenou polohou mediánu. Šířka krabice je funkcí rozsahu datového souboru. „Vlákna“ mají maximální hodnotu 1,5násobku vzdálenosti příslušného kvartilu od mediánu nebo končí v příslušné extrémní hodnotě (pokud je vzdálena méně než 1,5násobek vzdálenosti kvartilu a mediánu). Vymezují tzv. hradby dat. Hodnoty ležící „za hradbami“ jsou podle vzdálenosti označeny jako odlehlé, případně extrémně odlehlé. I když „na první setkání“ se z toho grafu nedá moc vyčíst, tak zkušené oko rychle odhalí vlastnosti a zvláštnosti takto zobrazených dat.
12
Krabicové grafy s vlákny
Poznámky ke grafu •
podle šířky krabic je zřejmé, že soubor vpravo má větší rozsah,
•
soubor vlevo je přesně symetrický a neobsahuje žádné odlehlé hodnoty (všechny jeho hodnoty jsou uvnitř hradeb dat),
•
soubor vpravo je silně levostranně nesymetrický (vzdálenost mezi dolním kvartilem a mediánem je malá, protože zde leží více hodnot souboru než na opačné straně),
•
soubor vpravo obsahuje jednu odlehlou a jednu extrémně odlehlou hodnotu,
•
graf je znázorněný v extrémně zjednodušené podobě, protože může obsahovat daleko více prvků vypovídajících o dalších vlastnostech dat (pro nás by byl ovšem příliš složitý).
Zmíněné pohledy na datový soubor jsou kromě dalších postupů součástí tzv. průzkumové (exploratorní) analýzy dat.
13
Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Charakterizujte kardinální, ordinální a kategoriální veličinu. 2. Co vám říkají pojmy diskrétní a spojitá veličina a intervalová a poměrová veličina? Ke které z veličin z bodu 1 se vztahují? 3. Rozeberte vztah mezi naměřenou a skutečnou hodnotou kardinální veličiny. 4. Co je uspořádaný datový soubor a jak se nazývají jeho hodnoty? 5. Co jsou varianty? 6. Jaké druhy třídění rozlišujeme? 7. Shrňte obecné principy intervalového třídění. 8. Rekapitulujte druhy četností a jejich vzájemné vztahy. 9. Srovnejte grafické znázornění rozdělení četností pro bodové a intervalové třídění. 10. Jak se stanoví úhrn hodnot tříděného datového souboru? Kdy jde o přesné číslo a kdy jde jen o odhad úhrnu a proč? 11. Proveďte samostatně intervalové třídění individuálně zadaného datového souboru. 12. U následujících pojmů rozhodněte, zda se vztahují k bodovému nebo intervalovému třídění, případně k oběma druhům • • • • • •
vektor variant, histogram, relativní kumulativní četnost v %, stupňový graf kumulativní četnosti, hustota četností, četnostní funkce.
13. Co rozumíme pod pojmem významné hodnoty? Čím jsou významné a jaké jsou jejich druhy? 14. Doplňte způsob určení extrémních hodnot, mediánu a modu do tabulky. Extrémní Medián Modus hodnoty Netříděné údaje Bodově tříděné údaje Intervalově tříděné údaje 15. Co je medián? Přesvědčte se, že jste pochopili princip jeho určení na příkladu, kde hodnoty x i : 22, 11, − 6, 3, 25, 0, 0, 9, 5, 13 . 16. Jak se nazývá a jaké prvky obsahuje graf založený na významných hodnotách, ze kterého lze vyčíst hlavní vlastnosti datového souboru (asymetrie, přítomnost odlehlých hodnot apod.)? 17. Pojmenujte každý z tvarů rozdělení četností na příslušném obrázku. 18. Pokud neznáte, vyhledejte význam pojmů data mining, simulace, generátory náhodných čísel a exploratorní analýza dat.
14
1.3 Charakteristiky úrovně Údaje datového souboru charakterizují každý případ zvlášť. V této chvíli jde o to, abychom zobecnili statistické vlastnosti datového souboru jako celku. Tvrzení „soubor A má nižší úroveň než soubor B“ neznamená nutně, že každý údaj souboru A nabývá nižší hodnoty než libovolný údaj souboru B, ale to, že existuje taková tendence, která je rozpoznatelná pro datové soubory jako celek. Veličiny, které jedním číslem vyjadřují určitou vlastnost datového souboru jako celku, se nazývají souhrnné statistické charakteristiky. Nejběžnější charakteristikou úrovně je aritmetický průměr, i když se o průměrech zpravidla hovoří v množném čísle (existuje např. průměr geometrický, harmonický aj.). Kromě toho lze ke změření úrovně datového souboru využít např. i medián. Aritmetický průměr Aritmetický průměr x (x s pruhem) se od ostatních průměrů liší tzv. určující vlastností, kterou můžeme formulovat takto: x 1 + x 2 + ... + x n = x + x + ... + x
a můžeme ji přepsat jako
n
∑ xi = n x , z čehož aritmetický průměr x = i =1
1 n ∑ xi . n i =1
Vzhledem k tomu, že při výpočtu využíváme prostý součet hodnot datového souboru, nazývá se tato forma prostou formou aritmetického průměru. Jsou-li data předem zpracována pomocí bodového nebo intervalového třídění, využíváme aritmetický průměr ve vážené formě. Hodnoty xi jsou v případě bodového třídění varianty a v případě intervalového třídění středy intervalů. Jde o tutéž charakteristiku, pouze o jinou formu vyjádření. Aritmetický průměr ve vážené formě x = k
je relativní četnost, n = ∑ n i , i =1
k
∑p
i
k 1 k xi ni = ∑ xi pi , kde ni je absolutní a pi ∑ n i =1 i =1
= 1 a k je počet variant nebo počet třídicích intervalů.
i =1
Pro aritmetický průměr je typické, že na jeho hodnotu má vliv každá, tedy i odlehlá hodnota datového souboru, případně hrubá chyba. Vlastnosti aritmetického průměru •
aritmetický průměr má rozměr měřené veličiny a lze ho určit z jakýchkoli reálných hodnot xi ,
•
aritmetický průměr konstanty je roven této konstantě,
•
odchylky hodnot datového souboru od aritmetického průměru se kompenzují (jako bezprostřední důsledek určující vlastnosti) a platí
n
∑ (x i =1
měr je těžištěm datového souboru),
15
i
− x ) = 0 (aritmetický prů-
•
souhlasně s vlastnostmi těžiště platí
n
n
i =1
i =1
∑ ( xi − c) 2 = ∑ ( xi − x) 2 + n( x − c) 2 a nej-
menší možnou hodnotu tedy součet čtverců odchylek nabývá, je-li c = x , •
je-li veličina Y = kX + c , kde k, c jsou konstanty, platí také
y=
1 n ∑ ( kx i + c ) = k x + c , n i =1
•
je-li veličina W = X ± Y , je současně w = x ± y ,
•
je-li dáno k dílčích souborů s rozsahy n1 , n 2 ,..., ni ,..., n k a dílčími průměry x i , pak společný průměr těchto dílčích souborů je roven x =
k
1
∑x n i
k
∑n i =1
i =1
i
.
i
Výpočet aritmetického průměru v prosté formě a využití jeho vlastností Hodnoty datového souboru tvoří pět naměřených teplot ve °C
x i : 22,6; 24,8; 21,9; 23,7; 22,1 . Součet teplot je 115,1 a průměrná teplota stanovená jako aritmetický průměr v prosté 1 n 1 formě x = ∑ x i = 115,1 = 23,02 [°C]. n i =1 5 Průměr stanovený ve °C přepočteme na °F (Fahrenheita). Vztah mezi oběma teplotními stupnicemi je °F = 1,8 °C + 32. Takže y = 1,8 ⋅ 23,02 + 32 = 73, 44 [°F]. Máme tedy n1 = 5, x 1 = 23,02 K dispozici je další soubor měření o rozsahu n 2 = 8 s průměrem x 2 = 23,11 . Z obou dílčích souborů měření vypočteme společný průměr jako vážený aritmetický průměr
x=
1 n1 + n 2
2
∑x n i
i =1
i
=
1 1 ( 23,02 ⋅ 5 + 23,11 ⋅ 8) = 299,98 = 23,08 [°C]. 13 13
Další charakteristiky úrovně Ke změření úrovně datového souboru můžeme z dosud známých veličin využít medián x 0,50 a modus xˆ . Pro medián je charakteristická poloha uvnitř datového souboru — je jeho prostřední hodnotou. Modus zase souvisí s četností výskytu (často největší četnost vykazují právě varianty nebo intervaly někde „uprostřed“ tříděného datového souboru, i když to není 100% pravidlem). Žádná z obou jmenovaných charakteristik není odvozena od všech hodnot datového souboru, extrémní hodnoty dokonce na charakteristiku nemají žádný nebo jen minimální vliv. Charakteristiky s takovou vlastností nazýváme robustní charakteristiky.
16
Vlastnosti mediánu jako charakteristiky úrovně Použijeme uspořádaný výběr z předchozího příkladu, tj. x ( i ) : 21,9; 22 ,1; 22 ,6; 23,7; 24 ,8
Mediánem je prostřední hodnota x 0 ,50 = 22 ,6 [°C]. Na °F bychom přepočítávali medián podle stejného vzorce jako aritmetický průměr. Společný medián z mediánů dílčích souborů nelze stanovit. Nyní rozšíříme datový soubor o jednu hodnotu. Při poruše klimatizace byla naměřena teplota 44,5 °C. Vypočítáme-li z těchto údajů aritmetický průměr, jeho hodnota bude 26,6 °C. Definici mediánu naproti tomu vyhovují hodnoty 22,6 a 23,7. Chceme-li získat medián jako 22 ,6 + 23,7 jediné číslo, určíme x 0 , 50 = = 23,15 [°C]. 2 Vzájemná poloha aritmetického průměru, modu a mediánu určuje tvar rozdělení četností, pokud jde o jeho symetrii, resp. asymetrii. U symetrického rozdělení platí x = xˆ = x 0 , 50 . Máme zde ovšem na mysli „statistickou“ symetrii, nikoli symetrii přísně geometrickou. U asymetrických rozdělení bude •
xˆ < x
u levostranně (pozitivně) asymetrického rozdělení četností,
•
x < xˆ
u pravostranně (negativně) asymetrického rozdělení četností,
přičemž medián zpravidla leží mezi oběma uvedenými charakteristikami. Asymetrie datového souboru je jeho další měřitelnou statistickou vlastností. Jejím měřením se ovšem nebudeme zabývat. Na závěr jsme si ponechali krátký příklad výpočtu váženého aritmetického průměru z intervalově tříděných dat. Výpočet váženého aritmetického průměru z intervalově tříděných dat V příkladu na intervalové třídění jsme naznačili třídění 110 hodnot (řekněme, že jde o životnost součástek v hodinách) do šesti intervalů o šířce h = 1000 . Vážený aritmetický 1 k průměr x = ∑ x i n i . V poznámkách pod zmíněným příkladem je uvedena hodnota skalárn i =1 ního součinu
k
∑x n i
i
= 522000 . Vážený aritmetický průměr je tedy x =
i =1
1 522000 = 4745 ,5 . 110
Průměrná životnost součástky je tedy 4745,5 hodin. Poznámka k příkladu •
musíme si uvědomit, že nejde o stejnou hodnotu, kterou bychom získali výpočtem prostého aritmetického průměru ze všech 110 netříděných údajů (je vám jasné, proč?).
17
1.4 Charakteristiky variability Variabilita – proměnlivost – je neodmyslitelnou součástí každých statistických dat. Příčin a zdrojů variability je více, v zásadě rozlišujeme variabilitu přirozenou a chybovou. K chápání a měření variability lze přistupovat různým způsobem a existuje také velké množství charakteristik variability. Od nejprimitivnějších (mezi které patří již dříve zmíněné variační rozpětí R), až po nejdůležitější (a nejen to, doslova unikátní) charakteristiku variability, kterou je rozptyl – průměrná čtvercová odchylka kolem aritmetického průměru. Unikátní vlastností rozptylu (kterou nemá žádná další charakteristika variability) je rozkládat celkovou variabilitu ve složky a ty opět podle potřeby skládat. Proto se v této části budeme věnovat především této charakteristice variability. Rozptyl V souladu se svojí definicí průměrné čtvercové odchylky kolem aritmetického průměru stanovíme rozptyl v prosté formě (pro netříděná data) jako
var x = s x2 =
2 2 1 n 1 n 2 2 2 , po úpravě ( x − x ) = = var x s xi − x = x 2 − x . ∑ ∑ i x n i =1 n i =1
Vidíme, že rozptyl lze označovat dvojím způsobem, přičemž označení var je zkratkou alternativního názvu rozptylu – variance. Tomuto označení budeme většinou dávat přednost. Ve vážené formě (pro tříděná data) bude analogicky 2 2 1 k 1 k ( x i − x ) 2 n i , po úpravě var x = s x2 = ∑ x i2 n i − x = x 2 − x , ∑ n i =1 n i =1 kde x i jsou varianty (při bodovém třídění) nebo středy třídicích intervalů a n i jsou jejich četnosti. Vidíme, že v obou případech můžeme rozptyl vyjádřit prostřednictvím aritmetických průměrů – jako průměr čtverců hodnot zmenšený o čtverec jejich aritmetického průměru.
var x = s x2 =
Vlastnosti rozptylu • rozptyl je rozměrná charakteristika (jako čtverec má rozměr, který je čtvercem rozměru veličiny X) a lze ho určit z libovolných reálných hodnot xi , •
rozptyl, jako čtverec, je vždy nezáporný, nule je roven při výpočtu z konstanty,
•
rozptyl je v souladu odpovídající vlastností aritmetického průměru nejmenší existující průměrnou čtvercovou odchylkou,
•
je-li veličina Y = kX + c , kde k, c jsou konstanty, platí var y = k 2 var x ,
•
1 n ( wi − w ) 2 = var x + var y ± 2 cov xy ∑ n i =1 (zdůrazňujeme znaménko + mezi oběma rozptyly, přičemž mezi znaky je ± ), kde je-li veličina W = X ± Y , je var w =
cov xy =
1 n 1 n ( )( ) x − x y − y = ∑ i ∑ xi y i − x y = xy − x y , cov xy ≥≤ 0 , i n i =1 n i =1
je tzv. kovariance veličin X, Y, jejíž hodnota souvisí s uspořádáním hodnot xi , yi do dvojic (stejné hodnoty při různém uspořádání vedou k různé hodnotě kovariance), •
je-li dáno k dílčích souborů s rozsahy n1 , n 2 ,..., ni ,..., n k , dílčími průměry x i a dílčími rozptyly s i2 , společný rozptyl těchto dílčích souborů
18
s2 =
k
1
∑ s i2 n i +
k
∑n i =1
i =1
i
k
1
∑(x
k
∑n i =1
i =1
i
− x ) 2 n i = s i2 + s x2 ,
i
přičemž první sčítanec reprezentuje průměrný rozptyl uvnitř dílčích souborů a druhý sčítanec rozptyl dílčích průměrů kolem společného průměru ( x ). Způsob výpočtu a vlastnosti rozptylu budeme demonstrovat na příkladech. Výpočet rozptylu z netříděných dat V tabulce jsou naměřené hodnoty vstupního napětí ve voltech. Tabulku využijeme současně i k demonstrování postupu výpočtu rozptylu dvěma způsoby. Číslo měření
1. 2. 3. 4. 5. 6. 7. 8. Součet
Naměřená hodnota x i [V]
( xi − x) 2
236,3 238,7 239,6 239,0 239,5 237,0 237,9 236,8 1904,8
xi2
3,24 55837,69 0,36 56977,69 2,25 57408,16 0,81 57121,00 1,96 57360,25 1,21 56169,00 0,04 56596,41 1,69 56074,24 11,56 453544,44
1 Aritmetický průměr x = 1904 ,8 = 238 ,1 [V]. 8 1 Rozptyl (vzorec se závorkou) var x = 11,56 = 1,445 [V2]. 8
Rozptyl (vzorec bez závorky) var x = [V2].
1 453544 , 44 − 238 ,1 2 = 56693 ,055 − 56691 ,61 = 1, 445 8
Poznámky k příkladu •
vzorec pro výpočet volíme zpravidla podle komplikovanosti průběhu výpočtu (zde se více hodí závorková forma), oběma způsoby musí vyjít stejný výsledek,
•
pokud bychom do tabulky vložili sloupec ( x i − x ) , získali bychom v součtovém řádku nulu,
•
v průběhu výpočtu se snažíme nezaokrouhlovat – např. zaokrouhlením průměru stanovíme odchylky od hodnoty lišící se od průměru, což se na výsledku projeví,
•
vzhledem k měrné jednotce je obtížné si pod vypočtenou hodnotou něco představit – tento problém řeší charakteristiky odvozené od rozptylu (viz dále).
19
Schematické příklady týkající se vlastností rozptylu Zvolíme jednoduchá data v tabulce
xi 2 3 4 5 6
y i = −2 x i + 13 9 7 5 3 1
xi + yi 11 10 9 8 7
xi − yi -7 -4 -1 2 5
zi 5 9 1 7 3
xi + zi 7 12 5 12 9
•
var x = 2 (každá pětice čísel rostoucích/klesajících po jedné má rozptyl roven této hodnotě),
•
var y = −2 2 var x + 0 = 8 (rozptyl se mění se čtvercem konstanty k, přičemž konstanta c na něj nemá vliv),
•
var( x + y ) = 2 = var x + var y + 2 cov xy , tj. rozptyl součtu je roven součtu rozp-
tylů zvětšený o dvojnásobek kovariance, z čehož cov xy = •
1 ( 2 − 2 − 8) = − 4 , 2
var( x − y ) = 18 = var x + var y − 2 cov xy , tj. rozptyl rozdílu je roven součtu rozp-
tylů zmenšený o dvojnásobek kovariance, z čehož opět cov xy = −
•
sloupec zi obsahuje původní hodnoty y i v jiném pořadí (čímž přestal platit vztah z druhého sloupce, ale var z = var y = 8 ), pak var( x + z ) = 7 , 6 , z čehož cov xy =
•
1 (18 − 2 − 8 ) = − 4 , 2
1 ( 7 ,6 − 2 − 8 ) = − 1, 2 – záleží tedy na uspořádání hodnot ve dvojicích, 2
sloučíme-li hodnoty prvních dvou sloupců do jednoho souboru, můžeme z těchto
10 hodnot určit rozptyl 5,25, což je společný rozptyl, který lze stanovit také jako
1 2+8 ( 2 ⋅ 5 + 8 ⋅ 5) = = 5 (výjimečně při 10 2 stejném rozsahu postačí prostý průměr), zvětšený o rozptyl dílčích průměrů kolem 1 0,25 + 0, 25 společného průměru ( 4 − 4 ,5) 2 ⋅ 5 + ( 5 − 4 ,5) 2 ⋅ 5 = = 0, 25 (opět vý10 2 jimečně při stejném rozsahu postačí prostý aritmetický průměr). Společný rozptyl je tedy 5 + 0 , 25 = 5, 25 (stejný výsledek, jako při výpočtu z původních hodnot).
průměrný rozptyl uvnitř dílčích souborů
[
]
Dále se zaměříme na výpočet rozptylu ve vážené formě. K tomu využijeme příklad na bodové třídění.
20
Výpočet vážené formy rozptylu Varianta xi
Absolutní četnost ni
( xi − x)2
12 33 16 15 4 8
2,481 0,331 0,181 2,031 5,881 ¯
0 1 2 3 4 Součet Aritmetický průměr x =
( xi − x)2 ni
xi2
x i2 n i
29,772 0 10,923 1 2,896 4 30,465 9 23,524 16 97,580 ¯
0 33 64 135 64 296
1 126 = 1,575 . 80
Rozptyl (závorková forma) var x =
1 97 ,580 = 1,21975 . 80 1 296 − 1,575 2 = 1, 219375 . 80
Rozptyl (bezzávorková forma) var x =
Poznámky k příkladu •
vidíme, že tentokrát je výpočetně výhodnější použití vzorce bez závorek,
•
vypočtené rozptyly jsme tentokrát záměrně nezaokrouhlili a rozdíl v obou výsledcích je způsoben zaokrouhlením ( x i − x ) 2 v tabulce ze šesti na tři platné číslice.
Směrodatná odchylka a variační koeficient Evidentní nevýhodou rozptylu je jeho měrná jednotka, která znesnadňuje interpretaci vypočtené hodnoty. Odmocnina rozptylu je směrodatná odchylka
var x = s x2 = s x . Ta má rozměr měře-
né veličiny. Aritmetický průměr a směrodatná odchylka se často uvádějí ve tvaru x ± s x . V tomto rozmezí leží (až na naprosté výjimky) více než polovina naměřených hodnot. Vyjádříme-li tedy mzdu programátora jako 45 ± 6 tis. Kč, znamená to, že víc než polovina dotazovaných programátorů má mzdu v rozmezí 39 až 51 tis. Kč. Je-li Y = kX + c , pak s y = k s x . Ze směrodatných odchylek s x , s y nelze určit směrodatnou odchylku ( x + y ) . Z dílčích směrodatných odchylek nelze určit společnou. Bezrozměrnou charakteristikou variability je variační koeficient v x =
sx x
. Jeho stoná-
sobek se uvádí v procentech. Může tedy sloužit pro porovnání variability veličin udaných v různých (nepřevoditelných) měrných jednotkách. Je-li Y = kX + c , nelze určit vztah mezi v x , v y . Z variačních koeficientů v x , v y nelze určit variační koeficient ( x + y ) . Z dílčích variačních koeficientů nelze určit společný. Potvrzuje se výjimečné postavení rozptylu, který uvedené operace umožňuje.
21
Charakteristika MAD Mediánová absolutní odchylka od mediánu (MAD – median absolute deviation) je alternativní – robustní – charakteristikou variability. Její výpočet je snadný. Spočívá ve vzestupném uspořádání absolutních odchylek kolem mediánu a nalezení prostřední (mediánové) z nich. Mediánová absolutní odchylka kolem mediánu na rozdíl od dosud uvedených charakteristik variability nereaguje na přítomnost odlehlých hodnot v datech. Využívá se k jejich detekci a případnému vyloučení, jak uvidíme později. Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Co je určující vlastnost aritmetického průměru? 2. Uvažujte, jak se změní aritmetický průměr, pokud všechny četnosti vynásobíme něja1 kou konstantou (např. ). n 3. Porovnejte součet odchylek a součet čtverců odchylek od aritmetického průměru a od mediánu. Použijte vzorový příklad, ve kterém jsme počítali prostý aritmetický průměr a medián. 4. Které charakteristiky označujeme jako robustní a čím se vyznačují? 5. Vypočtěte vážený aritmetický průměr pro vzorový příklad na bodové třídění. Máte šanci získat jeho přesnou hodnotu? 6. Vypočtěte vážený aritmetický průměr pro individuálně zadaný příklad s intervalově tříděnými daty. Máte šanci získat jeho přesnou hodnotu? 7. O jaké vlastnosti dat vypovídá vzájemná poloha aritmetického průměru, modu a mediánu? 8. Porovnejte srovnatelné vlastnosti aritmetického průměru a rozptylu. 9. Jak se změní rozptyl, pokud před jeho výpočtem upravíme aritmetický průměr • •
směrem nahoru, směrem dolů.
10. V jaké souvislosti jsme použili charakteristiku s názvem kovariance? 11. Může se společný rozptyl rovnat průměrnému rozptylu uvnitř dílčích souborů? Co to znamená? 12. Jaký vztah je mezi rozptylem, směrodatnou odchylkou a variačním koeficientem? 13. Vypočtěte rozptyl, směrodatnou odchylku a variační koeficient pro vzorový příklad na intervalové třídění. Máte šanci získat jejich přesné hodnoty? 14. Určete společný rozptyl. Znáte údaje n 1 = 6 , n 2 = 11 , n 3 = 7 , x 1 = 15 , x 2 = 22 , x 3 = 38 s 12 = 4 , s 22 = 3, s 32 = 9 . 15. Určete vztah mezi variačními koeficienty v x a v y , pokud Y = 4 X . 16. Vypočtěte rozptyl, směrodatnou odchylku a variační koeficient pro individuálně zadaný příklad s intervalově tříděnými daty. Výpočet rozptylu proveďte oběma možnými způsoby a výsledky porovnejte. 17. Určete charakteristiku MAD pro obě verze příkladu o vlastnostech mediánu a zhodnoťte vliv nepřítomnosti/přítomnosti odlehlé hodnoty 44,5 °C.
22
Shrnutí první kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou •
seznámení s podstatou popisné statistiky jako úvodní statistické disciplíny,
•
klasifikace měřených veličin z pohledu statistiky a logika měření jejich hodnot,
•
datový soubor, jeho uspořádání, vektor variant,
•
smysl metody třídění,
•
rozdělení četností při bodovém a intervalovém třídění a jeho tabulková a grafická prezentace,
•
druhy četností, hustota četností, četnostní funkce a funkce četnostní hustoty,
•
praktické provedení bodového třídění (výpočet různých druhů četností a jejich grafická prezentace),
•
praktické provedení intervalového třídění při respektování základních zásad (dále viz předchozí bod),
•
významné hodnoty a jejich stanovení z netříděných, bodově a intervalově tříděných dat, s důrazem na kvantily, zejména medián,
•
různé frekventované tvary rozdělení četností,
•
krabicové grafy jako prostředek poznání statistických vlastností dat,
•
úroveň, její měření a charakteristiky,
•
aritmetický průměr a jeho vlastnosti,
•
praktický výpočet prostého a váženého aritmetického průměru,
•
robustní charakteristiky úrovně,
•
pojem variability,
•
rozptyl jako nejdůležitější charakteristika variability a jeho vlastnosti,
•
unikátní schopnost rozptylu být rozkládán ve složky a podle potřeby opět skládán,
•
praktický výpočet rozptylu v prosté a vážené formě podle disponibilních vzorců,
•
směrodatná odchylka a variační koeficient (včetně stanovení a vlastností),
•
mediánová absolutní odchylka od mediánu (včetně stanovení a vlastností).
Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor Je toho opravdu hodně, co se nám do výkladu „nevešlo“. Jen namátkou •
přesnější lokalizace modální hodnoty a kvantilů uvnitř příslušných intervalů,
•
hierarchické třídění (pro dvě a více veličin), kombinační třídění a kombinační tabulky (pro dvě veličiny), včetně 3D grafické prezentace rozdělení četností,
•
podrobnější pojednání o kvantilech (kvintily, oktily, decily, sedecily, …) a způsobech jejich určování pro netříděná, bodově a intervalově tříděná data,
23
•
další druhy průměrů kromě aritmetického jako zvláštní případy mocninového průměru stupně s (harmonický, geometrický, kvadratický, …), jejich použití a vlastnosti,
•
další koncepty měření variability a jim odpovídající charakteristiky (rozpětí kvartilů, diference, průměrné absolutní odchylky),
•
momenty (obecné, centrální a normované) a soustava momentových charakteristik,
•
měření asymetrie (tento pojem jsme použili) a excesu (tento pojem jsme ani nepoužili) datového souboru.
Zmíněná problematika je běžnou součástí vysokoškolských učebnic a skript. Elektronická učební pomůcka, obsahující všechny citované pasáže a určená pro studenty ekonomických studijních programů, je k dispozici rovněž na e-learningu Vysoké školy polytechnické a je možno ji získat na CD přímo u autora tohoto textu.
24
Kapitola 2
PRAVDĚPODOBNOST
Pravděpodobnost, zejména v podobě obávané teorie pravděpodobnosti, je obtížnou, rozsáhlou a všeobecně nepříliš oblíbenou partií matematiky. Alternativní název počet pravděpodobnosti poněkud méně děsí běžného uživatele zejména tím, že slibuje spíše řešení pravděpodobnostních úloh, ovšem opět s využitím alespoň některých poznatků zmíněné teorie. Naše pojetí problematiky pravděpodobnosti je maximálně triviální. Jde o určité stručné převyprávění základní proble matiky populární formou, kdy se vyhýbáme exaktním definicím a místo o větách (abychom je nemuseli dokazovat) hovoříme o vlastnostech příslušných pojmů. Jako ilustrační příklady volíme často jednoduché a všeobecně známé situace, jako je házení mincí nebo kostkou, střelba do terče apod. Ostatně tuto taktiku běžně využívají i daleko sofistikovanější učební pomůcky, aniž by šlo o výchovu hazardních hráčů nebo profesionálních ostřelovačů. Podstata problému je v tom, aby čtenář dokázal obecné poznatky aplikované na triviálních příkladech promítnout a využít ve svém oboru.
2.1 Rekapitulace základních pojmů Před vstupem do vlastní problematiky uvedeme stručný přehled základních pojmů, které tvoří pilíře dalšího výkladu. Jistota, nemožnost, náhodnost, neurčitost Představme si, že provádíme určitý experiment, jehož podmínky máme plně pod kontrolou. Pak mohou v principu nastat tyto situace: •
Pokud jsou podmínky splněny, určitá událost nastane. Např. vzroste-li teplota ocelové tyče, vzroste současně i její délka. Zde se hovoří o jisté události. Jistou událost značíme symbolem I (velké i).
•
Pokud jsou podmínky splněny, určitá událost nenastane. Pokud tedy vzroste teplota ocelové tyče, její délka se nemůže zmenšit. Zde se hovoří o nemožné události. Nemožnou událost značíme symbolem ø (škrtnutá nula).
V prvních dvou případech hovoříme o tom, že experiment probíhá v podmínkách jistoty. Je zřejmé, že opakovaně studovat jisté a nemožné události (pokud se o tomto jejich charakteru přesvědčíme) postrádá smysl. Kromě toho byly tyto případy již před staletími formulovány do podoby přírodních (typicky fyzikálních) zákonů. •
Pokud jsou podmínky splněny a určitá událost buď nastane nebo nenastane (o jejím nastoupení či nenastoupení spolurozhoduje náhoda), hovoří se o náhodné události. Náhodné události je zvykem označovat velkými písmeny ze začátku abecedy. Přednost má písmeno A (velké a). V tomto případě se hovoří, že náhodný experiment probíhá v podmínkách rizika.
Pravděpodobnost je matematická veličina určená k práci s náhodnými událostmi. Základní informace o ní uvádíme níže. Pokud náhodná událost A jako výsledek experimentu nastane, říkáme, že nastal příznivý případ (pro tuto událost). Opakem je nepříznivý případ. Pokud náhodná událost A nenastane, můžeme tvrdit, že nastala událost opačná. Opačnou událost k náhodné události
A značíme A (a s pruhem). Takovými opačnými událostmi jsou např. padnutí sudého a padnutí lichého čísla na hrací kostce, zásah/minutí terče apod.). Pojmem riziko se označuje situace, kdy nastal jiný výsledek, než očekávaný. Nejde o to, zda „lepší“ nebo „horší“. V tomto kontextu lze např. říci, že hazardní hráč podstupuje riziko, že získá velmi vysokou výhru.
25
•
Pokud neexistuje způsob, jak určit pravděpodobnost nastoupení náhodné události, hovoří se o podmínkách neurčitosti.
Tuto situaci, stejně jako již dříve zmíněné jisté a nemožné události, ponecháme stranou. Pojem a vlastnosti pravděpodobnosti Jak jsme již uvedli, je pravděpodobnost matematická veličina, určená pro práci s náhodnými událostmi. Existuje více dílčích „definic“ pravděpodobnosti, které jsou společně zastřešeny univerzální (tzv. axiomatickou) definicí. Tu nebudeme uvádět. Soustředíme se na vlastnosti pravděpodobnosti (exaktněji věty o pravděpodobnosti): •
Pravděpodobnost je bezrozměrná, nezáporná a je normována na intervalu 0;1 .
Pravděpodobnost náhodné události A značíme P ( A) . P ( A) = p , nabývá tedy reálné hodnoty p ∈ 0;1 . Pokud je pravděpodobnost uváděna v procentech (v této kapitole tomu tak zpravidla nebude), pak 100 p ∈ 0; 100 . •
Pravděpodobnost jisté události je rovna jedné, P ( I ) = 1 .
•
Pravděpodobnost nemožné události je rovna nule, P( ø) = 0 .
•
Pravděpodobnost, že nastane alespoň jedna (kterákoli) z neslučitelných (disjunktních) náhodných událostí A1 , A2 ,... An je rovna součtu jejich pravděpodobností – tzv. aditivita pravděpodobnosti.
Aditivita pravděpodobnosti je nejdůležitější vlastností pravděpodobnosti. V této chvíli je ovšem třeba vysvětlit některé pojmy. Neslučitelné (disjunktní) náhodné události se vyznačují tím, že nastoupení jedné současně vylučuje nastoupení kterékoli jiné. Padne-li při jednom hodu kostkou např. číslo 4, nemůže padnout žádné z čísel 1, 2, 3, 5, 6. Opakem neslučitelnosti je slučitelnost náhodných událostí. Např. padnutí čísla 4 je slučitelné s událostí padnutí sudého čísla a neslučitelné s událostí padnutí lichého čísla. Nastoupení alespoň jedné (libovolné) z událostí A1 , A2 ,... An se nazývá jejich sjednocením (logickým součtem). Operátorem sjednocení je ∪ . S tímto symbolem zacházíme podobně jako s operátorem Σ . Pro A1 , A2 ,... An můžeme tedy psát
n
UA
i
a aditivitu pravděpo-
i =1
dobnosti vyjádřit vztahem P (
n
n
i =1
i =1
U Ai ) = ∑ P( Ai ) .
Aditivita pravděpodobnosti se týká výhradně disjunktních událostí. Pro slučitelné události jde o řádově složitější záležitost, kterou se nebudeme zabývat. •
Pravděpodobnost události A je rovna doplňku pravděpodobnosti A do jedné, tj.
P( A) = 1 − P( A) . •
Je-li událost B částí události A , je P( B) ≤ P( A) .
Zde je opět třeba upřesnit. To, že mezi oběma událostmi je uvedený vztah, značíme
B ⊂ A . Z příkladů, které jsme uvedli, je padnutí čísla 4 částí události padnutí sudého čísla, ale není částí události padnutí lichého čísla. Znaménko ≤ ve vztahu obou pravděpodobností pamatuje i na případ, kdy je současně B ⊂ A a A ⊂ B . V tom případě jsou obě události to-
26
tožné a P( A) = P( B) . Tento vztah platí např. mezi událostmi padnutí lichého čísla a padnutí libovolného z čísel 1, 3, nebo 5. Připomeneme-li si dříve uvedený pojem riziko, vidíme že očekávané události spojené s největším rizikem mají pravděpodobnost rovnou 0,5 (takže i riziko vykazuje hodnotu 0,5). Očekávané náhodné události s nejmenším rizikem jsou ty, jejichž pravděpodobnost se blíží jedné. V tomto případě se hovoří místo o absolutní jistotě o jistotě praktické. Lze důvodně předpokládat, že prakticky jistá náhodná událost v jediném experimentu nastane. Přítomnost rizika se prakticky projevuje teprve při velkém počtu opakování experimentu (kdy čas od času nastane „jiný než očekávaný“ výsledek). Opakem praktické jistoty je praktická nemožnost náhodné události. Vztah mezi některými pojmy pravděpodobnosti a popisné statistiky Tento vztah lze úspěšně demonstrovat na jedné z mnoha dílčích definic pravděpodobnosti – statistické pravděpodobnosti. V tomto případě vycházíme z mnohonásobného opakování experimentu za stejných podmínek. Jednotlivé výsledky evidujeme a čas od času stanovíme relativní četnost (tento pojem bychom si měli připomenout z popisné statistiky) nastoupení náhodné události. Tento experiment můžeme snadno realizovat házením mincí, kdy náhodnou událostí je např. padnutí líce. S rostoucím počtem pokusů pozorujeme ustalování relativní četnosti na určité hodnotě, kterou v jistém okamžiku prohlásíme za statistickou pravděpodobnost náhodné události. Pochopení vztahu mezi popisnou statistikou a pravděpodobností spočívá v interpretaci pravděpodobnosti jako stabilizované relativní četnosti náhodné události. Např. relativní četnost narození dětí mužského pohlaví se podle dlouholetých pozorování stabilizuje na hodnotě 0,505. Svoji analogii mají i relativní kumulativní četnost stejně jako hustota četností. Na vhodném místě se k těmto analogiím vrátíme. Nezávislost Zatím jsme se dozvěděli o slučitelnosti a neslučitelnosti náhodných událostí. Nyní je třeba rozlišit ještě závislé a nezávislé náhodné události. Nezávislost je jeden z klíčových pojmů pravděpodobnosti, proto je třeba se s ním důkladně seznámit. V principu jde o velmi jednoduchou záležitost – náhodné události A, B s nenulovými pravděpodobnostmi P( A), P( B ) prohlásíme za nezávislé, pokud pravděpodobnost jejich společného nastoupení je rovna součinu jejich pravděpodobností. Společné nastoupení událostí A, B se nazývá průnik (logický součin). Symbolem pro průnik je ∩ . Pro nezávislé události tedy píšeme P ( A ∩ B ) = P( A) P( B ) . Nezávislost je žádoucí, ale zdaleka ne samozřejmou vlastností náhodných událostí. Závislost náhodných událostí komplikuje práci s náhodnými událostmi takovým způsobem, že se tomuto případu důsledně vyhneme. Pomůckou pro pochopení principu nezávislosti náhodných událostí je tzv. výběr s opakováním. Ten můžeme charakterizovat tak, že po každém tahu zamícháme vybraný objekt zpět mezi ostatní. Vybíráme tedy stále ze stejné množiny objektů, každý objekt může být vybrán libovolněkrát a počet tahů, které lze uskutečnit, je nekonečný (vybrat můžeme větší počet objektů, než ze kterých vybíráme). Opakem této strategie výběru je výběr bez opakování, jehož výsledky jednotlivých tahů jsou závislé náhodné události.
27
Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Uveďte příklady jistých, nemožných a náhodných událostí ze svého oboru. 2. Co označují symboly I , ø, A ? 3. Na obrázku je znázorněn tzv. Vennův diagram pro slučitelné události A, B . Celá vybarvená část představuje nastoupení nejméně jedné (libovolné) z obou událostí.
A B Podle tohoto vzoru sestrojte Vennovy digramy pro a) stejnou situaci, ovšem pro případ neslučitelných události A, B , b) případ, kdy událost A je částí události B , c) d) e) f)
opačné události A, A (vyšrafujte událost A ), společné nastoupení událostí A, B , nastoupení právě jedné (libovolné) ze slučitelných událostí A, B , nastoupení události B při nenastoupení události A ( A, B jsou slučitelné události).
4. Do textu předchozího příkladu vhodně zakomponujte pojmy průnik a sjednocení událostí. Jak s uvedenými pojmy souvisí logický součet a logický součin? 5.
Ke kterému bodu příkladu 3 se vztahuje výrok o dvojici neslučitelných událostí, jejichž sjednocením je I (říkáme, že tvoří úplnou skupinu – pozor, důležitý pojem)?
6. Vysvětlete význam symbolů ⊂, ∪, ∩ . 7. Doplňte příklad 3 o Vennův diagram, kdy A ⊂ B a současně B ⊂ A . 8. Tvrdím, že z neslučitelnosti událostí A, B automaticky plyne i neslučitelnost událostí k nim opačných ( A, B ). Při hledání odpovědi na tuto otázku sestrojte dva Vennovy diagramy. Jeden pro případ, že události A, B netvoří úplnou skupinu (viz úkol 5) a druhý, pokud úplnou skupinu tvoří. Vaše zjištění můžete zobecnit. 9. Rekapitulujte vlastnosti pravděpodobnosti. 10. Jsou dány dvě nezávislé události A, B s pravděpodobnostmi P( A) = 0,7 P( B ) = 0,4 . Určete pravděpodobnosti P ( A ∩ B ), P( A ∩ B ), P( A ∩ B ), P( A ∩ B ) . V případě nezávislosti platí, že pokud jsou události A, B nezávislé, jsou automaticky nezávislé i události k nim opačné. 11. Tvrdím, že neslučitelnost dvojice náhodných událostí vylučuje jejich nezávislost (musí být závislé). Mám pravdu? Jak to dokážeme? 12. Podle vzoru praktické jistoty interpretujte princip praktické nemožnosti náhodné události. Najděte příklady (jednoduché, ze života) pro oba principy. 13. Tvrdím, že pojem riziko označuje vždy určitý problém či neúspěch. Mám pravdu? 14. Charakterizujte vztah mezi relativní četností a (statistickou) pravděpodobností. 15. Podle vzoru výběru s opakováním popište postup výběru bez opakování. Najděte příklady (jednoduché, ze života) na oba případy výběru.
28
2.2 Náhodná veličina V našem výkladu základů pravděpodobnosti je náhodná veličina naprosto klíčovým pojmem. Proto se budeme snažit se jí věnovat podstatně podrobněji, než jsme předvedli v předchozím odstavci věnovaném náhodným událostem. Co zůstaneme čtenáři dlužni, je její exaktní definice, což jsme již avizovali v úvodu kapitoly o pravděpodobnosti. Přirozeně navazujícím pojmem je rozdělení pravděpodobnosti náhodné veličiny, které můžeme interpretovat jako jednu (důležitou) dílčí definicí pravděpodobnosti (vzpomeňme na dříve zmíněnou statistickou pravděpodobnost jako jednu z jejích dílčích definicí). Současně připomínáme pojem rozdělení (relativních) četností frekventovaný v popisné statistice a to, že jsme v předchozím odstavci pravděpodobnost interpretovali jako stabilizovanou relativní četnost. Pojem náhodné veličiny O náhodné veličině budeme jednoduše hovořit tehdy, je-li přirozené výsledek experimentu vyjádřit číselně. Náhodné veličiny označujeme velkými písmeny z konce abecedy. Přednost má písmeno X . Veličina X se v náhodném experimentu realizuje v předem neznámé hodnotě x . To je důvod, proč se hovoří zcela rovnocenně o hodnotách nebo realizacích náhodných veličin. Náhodnou událost slovně vyjádřenou jako „padnutí šestky“ při hodu hrací kostkou můžeme interpretovat tak, že náhodná veličina X , kterou je počet padnutých ok, se při hodu kostkou realizovala v hodnotě x = 6 . Vůbec nejjednodušším způsobem zavedení náhodné veličiny je náhodné události A s pravděpodobností P ( A ) = p přiřadit hodnotu x = 1 pokud nastala a hodnotu x = 0 pokud nenastala (nastala opačná událost A s pravděpodobností P ( A) = 1 − p ). Toto je vůbec nejjednodušší možná náhodná veličina nazývaná nula–jedničková nebo alternativní náhodná veličina. Jako příklad můžeme uvést to, zda v určitém časovém intervalu nastala nebo nenastala porucha nějakého zařízení. Použití nula–jedničkové náhodné veličiny je ovšem podstatně širší. Lze bez nadsázky říci, že (samozřejmě se ztrátou informace) lze jakoukoli situaci modelovat pomocí nula–jedničkové veličiny, stejně jako lze výsledek jakéhokoli experimentu nejjednodušším způsobem vyjádřit tak, že náhodná událost A buď nastala nebo nenastala, protože nastala opačná náhodná událost A . Všimněme si, že tato veličina nabývá pouze dvou (to není důležité) izolovaných hodnot (to je naopak klíčové). Shodou okolností jde v tomto případě o nezáporná celá čísla. I když v tomto případě je výskyt realizací náhodné veličiny na oboru celých nezáporných čísel (tj. 0 , 1, 2 ,... ), případně přirozených čísel (tj. 1, 2 , 3 ,... ) poměrně typický, je pro tento typ náhodné veličiny rozhodující právě izolovanost jejích hodnot v oboru reálných čísel. Náhodná veličina nabývající nejméně dvou izolovaných hodnot v oboru reálných čísel se nazývá diskrétní náhodná veličina. Naproti tomu náhodná veličina nabývající libovolné reálné hodnoty z celého oboru reálných čísel nebo z nějaké jeho části (např. x ≥ 0 , x ∈ 0; 1 apod.) je spojitou náhodnou veličinou. V zápětí poznáme, že spojitost náhodné veličiny přináší určité matematické problémy, které se diskrétních náhodných veličin netýkají. Pravděpodobnostní funkce diskrétní náhodné veličiny Jak jsme již uvedli, pravděpodobnostní chování náhodné veličiny je definováno prostřednictvím rozdělení pravděpodobnosti. V případě diskrétní náhodné veličiny X je pro každé reálné x definována pravděpodobnost P ( X = x ) , tj. že diskrétní náhodná veličina se realizuje právě v hodnotě x . Tato pravděpodobnost je pro některá x nulová, pro některá nenulová. Značíme ji P ( x ) a nazýváme ji pravděpodobnostní funkce. Tedy P ( x ) = P ( X = x ) .
29
Pravděpodobnostní funkce je pravděpodobnost, má její vlastnosti, které jsou poměrně jednoduché a zřejmé: •
0 ≤ P ( x ) ≤ 1 (její hodnoty jsou normovány na intervalu od nuly do jedné),
•
∑ P ( x ) = 1 (součet jejích hodnot přes všechna x je roven jedné – jde o pravděx
podobnost jisté události I ). Pravděpodobnostní funkce může být formálně vyjádřena třemi rovnocennými způsoby: vzorcem pro výpočet pravděpodobností P ( X = x ) , tabulkou nenulových hodnot P ( X = x ) , grafem na jehož vodorovné ose jsou vynesena x pro která jsou P ( X = x ) nenulové a hodnoty funkce jsou vyneseny na svislé ose. Zpravidla se využívá úsečkový (tzv. hůlkový) graf. Tato vyjádření dokumentujeme na jednoduchém smyšleném příkladu. Příklad na rozdělení pravděpodobnosti diskrétní náhodné veličiny (první část) Diskrétní náhodná veličina X má pravděpodobnostní funkci danou vzorcem
⎧5 − x ⎪ pro x = −1, 0, 1 P ( x ) = ⎨ 15 ⎪⎩ 0 jinak Slůvko „jinak“ znamená, že pro jakékoli jiné než vyjmenované realizace x je hodnota pravděpodobnostní funkce nulová.
Tabulka vypočtených hodnot pravděpodobnostní funkce
x P( x)
–1 0 1 Součet 0,400 0,333 0,267 1,000
Zde se můžeme přesvědčit, že funkce splňuje výše uvedené vlastnosti pravděpodobnostní funkce. Jednička je pravděpodobnost jisté události. Náhodná veličina se s jistotou realizuje jako jedna z hodnot –1, 0, 1.
Úsečkový graf pravděpodobnostní funkce
P(x)
x
Je zřejmé, že pro spojitou náhodnou veličinu není pravděpodobnostní funkce definována. Na každé sebemenší části oboru reálných čísel leží nekonečně mnoho realizací náhodné veličiny. Na každou z těchto realizací připadá tedy nekonečně malá část pravděpodobnosti jisté události. Náhodná veličina se ovšem v některé hodnotě realizovat musí – ho-
30
voří se o paradoxu nulové pravděpodobnosti. Je zřejmé, že rozdělení pravděpodobnosti spojité náhodné veličiny je třeba vyjádřit jiným způsobem. Hustota pravděpodobnosti spojité náhodné veličiny Problém spojité náhodné veličiny je natolik složitý, že bude vhodné přiblížit ho nejprve na zjednodušujícím příkladu. Představme si, že náhodná veličina X může nabýt libovolné z nekonečně mnoha reálných hodnot na intervalu reálných čísel x ∈ α ; β a přijměme zjednodušující předpoklad, že realizace náhodné veličiny je na tomto intervalu všude stejně možná. To, že náhodná veličina se realizuje na jednotce uvedeného intervalu, měří hustota pravděpodobnosti (vzpomeňme četnostní hustotu intervalového rozdělení četností v popisné statistice!) a je v tomto zjednodušujícím případě na celém intervalu konstantní. Z jednotkové pravděpodobnosti jisté události tedy na jednotku délky intervalu připadá
1 . Na kažβ −α
dou z polovin výše uvedeného intervalu připadá pravděpodobnost 0,5. Na každou ze čtvrtin (desetin atd.) připadá pravděpodobnost 0,25 (0,10 atd.). Na každou jednotlivou hodnotu intervalu pak připadá nekonečně malá pravděpodobnost. To se týká i obou krajních bodů, proto nezáleží na tom, zda do intervalu patří nebo nepatří: P (α ≤ X ≤ β ) = P(α < X < β ) . Toto platí pouze pro spojitou náhodnou veličinu. U diskrétní náhodné veličiny k této rovnosti může dojít pouze náhodou (konkrétně v tomto případě jen pokud P( X = α ) = P( X = β ) = 0 )! Hustota pravděpodobnosti f (x ) spojité náhodné veličiny X může být vyjádřena vzorcem nebo graficky. Tabulkové vyjádření není vhodné. Grafem hustoty pravděpodobnosti je na intervalu možných hodnot náhodné veličiny spojitá čára. Ve výše uvedeném (netypickém, zjednodušeném) příkladě by na intervalu α ; β šlo o rovnoběžku s osou náhodné veličiny ve vzdálenosti
1 . Mimo tento interval by bylo f ( x ) = 0 . K vlastnostem hustoty β −α
pravděpodobnosti se vrátíme až probereme tzv. distribuční funkci. Přestože demonstrativní příklad vypadá až příliš jednoduše (díky předpokladu stejné možnosti realizace náhodné veličiny), ve vhodném okamžiku se k němu podrobněji vrátíme a uvidíme, že zdaleka nejde o nicotnou záležitost. Distribuční funkce Protože je nepohodlné používat různé nástroje pro rozdělení pravděpodobnosti obou typů náhodných veličin, je vhodné uvažovat o společném nástroji, kterým je distribuční funkce náhodné veličiny (lhostejno zda diskrétní nebo spojité). Distribuční funkce F (x ) náhodné veličiny X je definována jako pravděpodobnost, že náhodná veličina nepřesáhne hodnotu x (realizuje se nejvýše v hodnotě x ) . Tj. F ( x ) = P( X ≤ x ) (rozdíl oproti pravděpodobnostní funkci nepatrný, ovšem zcela zásadní!). Distribuční funkci vyjadřujeme vzorcem, graficky a v případě diskrétní veličiny také tabulkou. Distribuční funkce diskrétní náhodné veličiny vzniká kumulací (postupným načítáním) hodnot pravděpodobnostní funkce. Nyní se vrátíme k našemu smyšlenému příkladu diskrétní náhodné veličiny a vyjádříme distribuční funkci tabulkou a graficky. Vyjádření vzorcem je pochopitelně možné, ale vzhledem k průběhu funkce (viz graf) poněkud komplikované. Proto se mu raději vyhneme.
31
Příklad na rozdělení pravděpodobnosti diskrétní náhodné veličiny (dokončení) Tabulka hodnot distribuční funkce diskrétní náhodné veličiny
x F (x )
–1 0 1 Součet ¯ 0,400 0,733 1,000
Součet již jednou kumulovaných hodnot postrádá smysl (to víme už díky kumulativním četnostem). Ležatý křížek se používá jako smluvená značka pro tento účel.
Graf distribuční funkce diskrétní náhodné veličiny
F(x)
x Hodnota distribuční funkce pro každou hodnotu x < –1 je nulová. Pro každé x ≥ 1 je F ( x ) = 1 . Plné značky jsou hodnoty distribuční funkce z tabulky. Prázdné značky vyznačují nespojitost distribuční funkce. Každá diskrétní náhodná veličina má tento typický stupňovitý tvar distribuční funkce. Význam vodorovných šipek objasníme později.
Nyní by bylo vhodné vrátit se k bodovému třídění z první kapitoly a porovnat dosavadní poznatky o distribuční funkci s tím, co víme o relativních kumulativních četnostech. O relativní kumulativní četnosti můžeme potom ve světle stávajících poznatků hovořit jako o empirické (na základě konečného počtu pozorování vytvořené) distribuční funkci. Vztah mezi distribuční funkcí a hustotou pravděpodobnosti spojité náhodné veličiny není triviální, neboť jde o záležitost spadající do vyšší matematiky. Ukažme tento problém na příkladu, který vzápětí zobecníme. Náhodná veličina X nabývá hodnot z intervalu α ; β , přičemž její výskyt na celém intervalu je všude stejně možný. Položíme α = −2 a β = 3 . Hustota pravděpodobnosti této náhodné veličiny je
1 ⎧ 1 = = 0,2 pro x ∈ − 2; 3 ⎪ (Tj. na intervalu α ; β rovnoběžka s osou f ( x) = ⎨ β − α 5 ⎪⎩ 0 jinak náhodné veličiny ve vzdálenosti 0,2. Mimo interval α ; β
nabývá hodnoty 0.
Distribuční funkce F (x ) měří velikost plochy pod čarou hustoty pravděpodobnosti. Na intervalu α ; β
má tvar rostoucí přímky (např. na dvou pětinách intervalu, pro x = 0 , je tato
plocha rovna 0,4). Pro každé x < α je F ( x ) = 0 a pro každé x > β F ( x ) = 1 .
32
Vztah obou funkcí je zřejmý z následujícího schematického obrázku. Vztah hustoty pravděpodobnosti a distribuční funkce
f(x)
x
F(x)
x
f (x ) na intervalu − 2; 0 je rovna 0,4, stejně jako hodnota distribuční funkce F (x ) v bodě x = 0 , tj. F (0) = 0,4 . Význam šipek viz dále.
Velikost plochy pod funkcí
Distribuční funkce F (x ) je tedy primitivní funkcí k hustotě pravděpodobnosti f (x ) . Hustota pravděpodobnosti f (x ) je naopak diferenciální funkcí (vzhledem ke spojitosti obou funkcí na intervalu možných hodnot můžeme říci derivací) distribuční funkce F (x ) . Primitivní funkci k výše uvedené hustotě můžeme zapsat jako pro x < − 2 ⎧ 0 ⎪ x+2 F ( x) = ⎨ pro x ∈ − 2; 3 5 ⎪ ⎩ 1 pro x > 3
33
.
To, co platí pro náš velmi zjednodušující příklad, platí i obecně. Bohužel jde ve většině případů o velmi složité vztahy, což v našem ukázkovém případě odpadá. Nyní můžeme přistoupit k formulací vlastností distribuční funkce (přesněji vět o distribuční funkci): •
Distribuční funkce je pravděpodobnost, její hodnoty jsou tedy normovány na intervalu 0 ≤ F ( x ) ≤ 1 .
•
Vzhledem k nezápornosti pravděpodobnosti je distribuční funkce funkcí neklesající. Pro každé x 2 > x1 platí, že F ( x 2 ) ≥ F ( x1 ). Kromě toho je evidentní, že
P ( x1 ≤ X ≤ x 2 ) = F ( x 2 ) − F ( x1 ) , přičemž u spojité náhodné veličiny nezáleží na tom, zda krajní body do intervalu patří nebo nepatří. •
V bodech ± ∞ pro distribuční funkci platí F ( −∞) = 0, F ( +∞ ) = 1 . Z ukázkových grafů distribučních funkcí vyplývá, že distribuční funkce může těchto hodnot dosáhnout daleko dříve než v nekonečnu. To ovšem na platnosti původního tvrzení nic nemění.
•
Šipky na grafech distribučních funkcí demonstrují, že libovolného bodu na distribuční funkci lze v případě spojité náhodné veličiny dosáhnout z levého i pravého okolí. U diskrétní náhodné veličiny to ovšem pro některé body distribuční funkce neplatí, protože jich lze dosáhnout pouze z pravého okolí. Proto s matematickou úsporností tvrdíme, že distribuční funkce je vždy alespoň zprava spojitá.
Ze vztahu mezi distribuční funkcí a hustotou pak vyplývají vlastnosti hustoty pravděpodobnosti: •
Hustota pravděpodobnosti je derivací neklesající funkce a je proto nezáporná. Platí f ( x ) ≥ 0 . Žádné omezení pro její maximální hodnotu neexistuje.
•
Integrál
+∞
∫ f ( x)dx = 1 , tj. pravděpodobnost jisté události. Plocha pod čarou hustoty
−∞
pravděpodobnosti je tedy vždy jednotková. •
Pomocí hustoty pravděpodobnosti vyjádříme pravděpodobnost, že náhodná velix2
čina je z intervalu x1 ; x 2 jako určitý integrál
∫ f ( x )dx = P( x
1
≤ X ≤ x2 ) .
x1
Vzhledem k tomu, že v budoucím výkladu se budeme zabývat především spojitými náhodnými veličinami, je třeba poznamenat, že náš příklad se poněkud vymyká obvyklému průběhu hustoty pravděpodobnosti a distribuční funkce. Typickým tvarem hustoty je souměrný nebo nesouměrný „kopeček“, přičemž odpovídající průběh distribuční funkce je esovitý (pravidelný nebo nepravidelný). Určitá typická, důležitá a opakující se rozdělení pravděpodobnosti náhodných veličin se nazývají zákony rozdělení pravděpodobnosti. O některých z nich pojednáme později. Nezávislost náhodných veličin Podobně jako u náhodných událostí je i u náhodných veličin důležitý pojem nezávislost (opakem je závislost). Dvě diskrétní náhodné veličiny X , Y prohlásíme za nezávislé, pokud jejich sdružená pravděpodobnostní funkce P( x, y ) , jako funkce dvou proměnných, je rovna součinu pravděpodobnostních funkcí P ( x ) ⋅ P( y ) , z nichž každá je funkcí jedné proměnné. Funkce P ( x ), P ( y ) se v této souvislosti nazývají marginálními pravděpodob-
34
nostními funkcemi. Podobně pro dvě spojité náhodné veličiny je sdružená hustota pravděpodobnosti rovna součinu marginálních hustot, tj. f ( x, y ) = f ( x ) ⋅ f ( y ) . Stejný vztah v obou případech platí i pro sdružené a marginální distribuční funkce. Nezávislost lze zobecnit na n-tici náhodných veličin X 1 , X 2 ,..., X n . Měření úrovně a variability náhodných veličin Úroveň a variabilitu náhodných veličin měříme pomocí charakteristik. Charakteristikou úrovně náhodné veličiny je střední hodnota (pozor na nevhodné použití pojmu průměr!). Operátorem střední hodnoty náhodné veličiny X je E ( X ) . Střední hodnota diskrétní náhodné veličiny X je E ( X ) =
∑ xP( x) , tj. součet součinů x
(skalární součin) přes všechny možné realizace náhodné veličiny X . +∞
Střední hodnota spojité náhodné veličiny X je E ( X ) =
∫ xf ( x )dx . K jejímu určení je
−∞
tedy třeba ovládat alespoň základy integrálního počtu (ale mnohdy pouhé základy nestačí). Charakteristikou variability náhodné veličiny je rozptyl (v tomto případě žádná pojmová kolize nehrozí). Operátorem rozptylu náhodné veličiny X je D 2 ( X ) . Rozptyl náhodné veličiny je definován jako střední kvadratická odchylka kolem střed-
ní hodnoty D ( X ) = E[X − E( X )] , což můžeme upravit na D 2 ( X ) = E ( X 2 ) − E 2 ( X ). Po dosazení za střední hodnoty dostáváme pro 2
2
2
•
⎡ ⎤ diskrétní náhodnou veličinu X rozptyl D ( X ) = ∑ x P ( x ) − ⎢ ∑ xP ( x ) ⎥ , x ⎣ x ⎦
•
⎡+ ∞ ⎤ spojitou náhodnou veličinu X rozptyl D ( X ) = ∫ x f ( x )dx − ⎢ ∫ xf ( x )dx ⎥ . −∞ ⎣−∞ ⎦
2
2
2
+∞
2
2
Kladný kořen druhé odmocniny D 2 ( X ) je směrodatná odchylka (rovněž již známý pojem) D( X ) . Směrodatná odchylka se využívá jako charakteristika stability náhodné veličiny, zatímco střední hodnota se interpretuje jako její očekávaná hodnota. Tento způsob výpočtu charakteristik nemusíme považovat za klíčový. V okamžiku, kdy začneme probírat jednotlivé zákony rozdělení, se seznámíme s alternativním (a řádově jednodušším) způsobem jejich stanovení pomocí tzv. parametrů rozdělení. Při lineární transformaci náhodné veličiny Y = kX + c stanovíme střední hodnotu veličiny Y jako E (Y ) = kE ( X ) + c , její rozptyl jako D 2 (Y ) = k 2 D 2 ( X ) a směrodatnou odchylku jako D (Y ) = k D ( X ) . Je-li náhodná veličina W = X ± Y je střední hodnota E (W ) = E ( X ) ± E (Y ) . Pokud jsou veličiny X , Y nezávislé, je rozptyl D 2 (W ) = D 2 ( X ) + D 2 (Y ) (pozor na znaménko!). Pokud jsou veličiny X , Y naopak závislé, je analogický vztah poněkud složitější.
35
Kvantily spojitých náhodných veličin Kvantily existují jak pro diskrétní, tak i pro spojité náhodné veličiny. Kvantily diskrétních náhodných veličin (na rozdíl od spojitých) nebudeme využívat, takže o nich nehovoříme. p–kvantilem či (100p procentním kvantilem) nazýváme takovou hodnotu spojité náhodné veličiny, pro kterou •
F ( x p ) = P( X ≤ x p ) = p , xp
•
∫ f ( x)dx = p ,
−∞
kde p ∈ (0;1) je uživatelem předem zvolená pravděpodobnost. Pro p = 0,5 se příslušný kvantil nazývá medián (rovněž známý pojem). Hodnoty kvantilů důležitých zákonů rozdělení bývají tabelovány, vzhledem k tomu, že jejich výpočet je až na výjimky poměrně pracný. Postup určení p–kvantilu náhodné veličiny prostřednictvím distribuční funkce
F ( x) p
xp
x
Zvolíme hodnotu p a vedeme rovnoběžku s osou náhodné veličiny. V průsečíku s funkci
F (x )
spustíme kolmici na vodorovnou osu. Průsečíkem je p–kvantil náhodné veličiny.
Ořezání konců rozdělení
f(x)
0,98
x0,01
x0,99
x
X ≥ 0 padá s jistotou do intervalu 0; ∞ . Prakticky jistě (s pravděpodobností 0,98) padá do intervalu nesrovnatelně užšího.
Význam mediánu je v tom, že může posloužit jako alternativní charakteristika úrovně náhodné veličiny. Větší význam mají „okrajové“ kvantily (např. 1%, 95% apod. – vidíme, že zde poprvé pravděpodobnost uvádíme v procentech), které slouží k „ořezání“ konců rozdě-
36
lení. Zatímco celá plocha pod čarou hustoty pravděpodobnosti odpovídá (absolutní) jistotě, po ořezání konců rozdělení (např. v hodnotě 1% a 99% kvantilu, kdy zůstává 98 % plochy, tj. pravděpodobnost 0,98) jde o nám již známou jistotu praktickou. Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Uveďte příklady diskrétních a spojitých náhodných veličin ze svého oboru. Vyjádřete se k oboru možných hodnot (realizací) každé takové veličiny a pokuste se o její nahrazení nula–jedničkovou veličinou. 2. Porovnejte z hlediska spojitosti naměřených hodnot analogová a digitální měřidla. 3. Jak nazvete rozdělení stabilizovaných relativních četností/relativních kumulativních četností při bodovém a intervalovém třídění? 4. Kterou z dále uvedených veličin (znáte její možné realizace) byste zařadili mezi diskrétní • •
náhodná veličina se realizuje jako libovolná hodnota z oboru přirozených čísel, náhodná veličina se realizuje jako libovolná hodnota z intervalu 10−5 ;10−4 ,
•
náhodná veličina se realizuje výhradně v hodnotách –0,5; 0; 1; 3,75.
5. Uveďte názvy a vlastnosti funkcí P ( x ), f ( x ), F ( x ) . Současně uveďte pro jakou náhodnou veličinu (diskrétní, spojitá) jsou určeny. Která z těchto funkcí není pravděpodobnost (její hodnoty neleží v intervalu 0;1 )? 6. Rozeberte tvrzení, že distribuční funkce je vždy alespoň zprava spojitá. 7. Pro náhodnou veličinu X platí P ( −3 ≤ X ≤ 9) ≠ P( −3 < X < 9) . O jaký typ náhodné veličiny jde? 8. Doplňte tabulku hodnot pravděpodobnostní a distribuční funkce diskrétní náhodné veličiny z ukázkového příkladu o případy (sloupce) pro x = −4; x = 0,5; x = 1,5; x = 2,5 . 9. Vyberte jaký obor hodnot přísluší hustotě pravděpodobnosti spojité náhodné veličiny
x − 1 ≤ f ( x) ≤ 1 , x 0 ≤ f ( x) ≤ 1 • − ∞ ≤ f (x ) ≤ +∞ , Pokud se vám nepodařilo nic vybrat, uveďte správnou odpověď. 10. Jakých hodnot nabývá distribuční funkce v bodech ± ∞ ? +∞
11. Jaké hodnoty nabývá
∫ f ( x )dx . Kde byste na grafu funkce
f (x ) tuto hodnotu hle-
−∞
dali? Pravděpodobnost jaké události udává? 12. V jaké souvislosti se setkáváme s pojmy sdružené a marginální distribuční funkce (pravděpodobnostní funkce, hustoty)? 13. I když jsme uvedli, že to není zvlášť důležité, pokuste se vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro ukázkovou diskrétní náhodnou veličinu. 14. Pokuste se provést tento úkol pro ukázkovou spojitou náhodnou veličinu (rozšiřte o určení mediánu). 15. Porovnejte srovnatelné vlastnosti aritmetického průměru a rozptylu s vlastnostmi střední hodnoty a rozptylu náhodné veličiny. 16. Znáte E ( X ) = 100, E (Y ) = 190, D 2 ( X ) = 600, D 2 (Y ) = 1350 . Uveďte hodnoty konstant použité při transformaci Y = kX + c .
37
17. Je dáno W = X − Y . Znáte E ( X ) = 15, E (Y ) = 45, D 2 ( X ) = 200, D 2 (Y ) = 300 . Vypočtěte E (W ), D 2 (W ), D(W ) . Jaký vztah mezi veličinami X , Y musí být, abychom mohli bez dalšího vypočítat rozptyl D 2 (W ) ? 18. Jaký vztah je v úkolu 16 mezi x 0,50 a y 0,50 ? 19. Tvrdím, že kvantily jsou definovány výhradně pro spojitou veličinu. Mám pravdu? 20. Zařaďte do kontextu výkladu pojem medián (tj. jaký má význam, kam patří, v jaké souvislosti se o něm hovoří). 21. Pravděpodobnost prakticky jisté události je určena na 0,95. V jakých kvantilech je třeba (symetricky z pohledu plochy pod křivkou) ořezat konce rozdělení? 22. V návaznosti na úkol 21 určete, kolik případů, kdy náhodná událost (tj. padnutí realizace náhodné veličiny mezi oba kvantily) nenastane, připadá na každých sto náhodných experimentů. Lze to říci přesně (tj. pro zcela konkrétní stovku experimentů)?
38
2.3 Zákony rozdělení diskrétních náhodných veličin Určitá typická, opakující se a prakticky významná rozdělení pravděpodobnosti náhodných veličin (diskrétních i spojitých) se nazývají zákony rozdělení. Náhodné veličiny, řídící se stejným zákonem rozdělení, se vzájemně liší (nebo naopak shodují) pouze v hodnotách parametrů rozdělení. Binomické rozdělení Diskrétní náhodná veličina X , jejíž hodnoty x představují počet realizací náhodné události A v n nezávislých opakovaných pokusech a mohou tedy nabýt hodnot x = 0,1,2,..., n , má binomické rozdělení. Pravděpodobnost uskutečnění náhodné události v jednom pokusu označíme jako P( A) = θ (malé řecké písmeno theta). Binomické rozdělení se používá v případě, že počet pokusů n (nezáporné celé číslo) není příliš velký a pravděpodobnost 0 < θ < 1 nenabývá hodnoty velmi blízké nule nebo jedné. Typické je použití binomického rozdělení v situacích interpretovatelných jako výběr s opakováním. Pravděpodobnostní funkce binomického rozdělení
⎧⎛ n ⎞ x ⎪⎜ ⎟θ (1 − θ ) n − x pro x = 0,1,2,..., n P( x ) = ⎨⎜⎝ x ⎟⎠ ⎪ 0 jinak ⎩ ⎛n⎞ n! . Vykřičníkem ⎜⎜ ⎟⎟ je kombinační číslo (čteme „n nad x“), které vyčíslíme jako ( n − x )! x! ⎝ x⎠ značíme faktoriál, tj. součin všech přirozených čísel až po dané číslo. Pro nulu 0! = 1 . Vzorec se nazývá Bernoulliův a konstanty n, θ jsou parametry binomického rozdělení. V hodnotách parametrů se jednotlivá binomická rozdělení vzájemně liší nebo naopak shodují. Funkci P (x ) graficky znázorníme zpravidla úsečkovým (hůlkovým) grafem. Distribuční funkce F (x ) vzniká kumulací (postupným načítáním) hodnot pravděpodobnostní funkce. Její vzorec neuvádíme. Grafické znázornění F (x ) má typický stupňovitý průběh. Binomické rozdělení označujeme symbolem Bi [n; θ ] . Pro toto rozdělení (známe-li hodnoty obou parametrů) je střední hodnota E ( X ) = nθ a rozptyl D 2 ( X ) = nθ (1 − θ ) . Laboratoř má tři ( n = 3) měřicí přístroje, z nichž každý v jistém (dlouhém) časovém intervalu pracuje bezchybně s pravděpodobností θ = 0,8 . Jde o situaci, kterou lze interpretovat jako nezávislé opakované pokusy (pokud vyloučíme situaci, že např. všechny přístroje současně selžou v důsledku přepětí), můžeme proto využít binomické rozdělení. Sestavíme tabulku hodnot pravděpodobnostní a distribuční funkce a vypočteme střední hodnotu a směrodatnou odchylku počtu bezchybně současně pracujících přístrojů. Hodnoty v tabulce získáme dosazením do vzorce pravděpodobnostní funkce a následně provedeme jejich kumulaci.
x P (x ) F (x )
0 1 2 3 0,008 0,096 0,384 0,512 0,008 0,104 0,488 1,000
⎛ 3⎞ ⎝ 2⎠
Např. P( 2) = ⎜⎜ ⎟⎟0,8 2 (1 − 0,8) 3− 2 = 0,384 , F ( 2) = P(0) + P(1) + P( 2) = 0,488 atd. Grafické znázornění obou funkcí ponecháváme na čtenáři.
39
Všimněte si, že situaci, kdy k dispozici nebude ani jeden měřicí přístroj P (0) = 0,008 zřejmě prohlásíme za událost prakticky nemožnou. Střední („očekávaná“) hodnota počtu bezchybně pracujících přístrojů E ( X ) = 3 ⋅ 0,8 = 2,4 . Směrodatná odchylka (míra stability tohoto stavu) D ( X ) = 3 ⋅ 0,8 ⋅ (1 − 0,8) = 0,693 .
Alternativní rozdělení Alternativní rozdělení je rozdělením nula–jedničkové (alternativní) náhodné veličiny. Toto rozdělení lze interpretovat jako zvláštní příklad binomického rozdělení pro jediný pokus ( n = 1) . Můžeme ho tedy označit jako Bi [1; θ ] , kde 0 < θ < 1 je jediným (pohyblivým) parametrem tohoto rozdělení. Střední hodnota E ( X ) = θ a rozptyl je roven D 2 ( X ) = θ (1 − θ ) . Poissonovo rozdělení Toto rozdělení je dalším zvláštním případem binomického rozdělení, tentokrát pro počet pokusů rostoucí nade všechny meze ( n → ∞ ) a pravděpodobnost nastoupení náhodné události blížící se nule ( θ → 0 ). Jde o rozdělení tzv. vzácných událostí. Součin nθ = λ > 0 (malé řecké písmeno lambda) je kladné reálné číslo.
e −λ λ x pro každé x = 0,1,2,... (celé nezáporné x! číslo). Symbol x! je opět faktoriál a e = 2,71828... je základ přirozených logaritmů. Pravděpodobnostní funkce P ( x ) =
Lambda je tak jediným parametrem tohoto rozdělení, které označujeme symbolem Po[λ ] . Pro Poissonovo rozdělení je E ( X ) = D 2 ( X ) = λ . Pro Poissonovo rozdělení se zpravidla uvádějí dvě vlastnosti: •
Mají-li nezávislé náhodné veličiny X 1 , X 2 ,..., X n Poissonova rozdělení Po[λi ] pro
⎡n ⎤ i = 1,2,..., n , má jejich součet rozdělení Po⎢∑ λi ⎥ . ⎣ i =1 ⎦ •
Má-li počet výskytů nějaké události za jednotku času rozdělení Po[λ ] , pak v ča-
sovém intervalu o délce t jednotek má rozdělení Po[tλ ] .
I když způsob, kterým se toto rozdělení zavádí, vyhlíží poněkud exoticky, lze Poissonovo rozdělení označit za nejdůležitější zákon mezi diskrétními rozděleními. Běžně se jím řídí počet událostí na jednotce plochy (objemu) nebo v časové jednotce. Typicky se tímto rozdělením vyjadřuje počet požadavků na obsluhu přicházejících za jednotku času. Jako obslužné zařízení si lze představit telefonní ústřednu, bankomat, procesor počítače, síťovou tiskárnu a množství dalších zařízení určených k obsluze nepravidelně (náhodně) přicházejících požadavků. Tok přicházejících požadavků se v tomto případě označuje jako Poissonovský proud jevů a parametr λ se nazývá intenzitou tohoto proudu. Typické je to, že počet budoucích požadavků nezávisí na počtu požadavků předchozích. Jakou kapacitu musí mít obslužné zařízení, má-li počet požadavků na obsluhu rozdělení Po[3] (tj. střední hodnota počtu požadavků za jednotku času E ( X ) = 3 ), aby bylo
40
schopno uspokojit nejméně 90 % požadavků. Požadavek je buď okamžitě uspokojen (pokud je kapacita zařízení dostatečná) nebo odmítnut (nevytváří se fronta čekajících požadavků). Tuto úlohu můžeme interpretovat jako nalezení takové hodnoty x , pro kterou hodnota distribuční funkce F (x ) tohoto rozdělení poprvé překročí hodnotu 0,9. K tomu účelu opět sestavíme tabulku hodnot pravděpodobnostní a distribuční funkce, jako tomu bylo u binomického rozdělení.
x P (x ) F (x )
Např. P (3) =
4 5 6 … 0 1 2 3 0,050 0,149 0,224 0,224 0,168 0,101 0,050 … 0,050 0,199 0,423 0,647 0,815 0,916 0,956 …
e −3 33 = 0,224 , F (3) = P(0) + P(1) + P( 2) + P(3) = 0,647 . 3!
Grafické znázornění obou funkcí ponecháváme opět na čtenáři. Z hodnot v tabulce vyplývá, že příchod nejvýše pěti požadavků na obsluhu má pravděpodobnost větší než 0,9. Zařízení by tedy mělo mít kapacitu na obsluhu tohoto počtu požadavků. Zbývajících téměř 10 % požadavků nebude obslouženo. V úloze jsme neřešili racionální využití vypočtené kapacity. Jen pro zajímavost – „zrcadlovou“ úlohou je úloha o nalezení takové kapacity zařízení, aby nevyužití této kapacity nepřesáhlo zadané procento bez ohledu na podíl odmítnutých požadavků na obsluhu. Ve skutečnosti je úloha o kapacitě obslužného zařízení hledáním kompromisu mezi racionálním využitím této kapacity při minimalizaci podílu požadavků, jejichž obsluha byla odmítnuta. Tím bychom ovšem opustili půdu počtu pravděpodobnosti a dostali bychom se do problematiky teorie hromadné obsluhy, kde se operuje takovými pojmy jako počet kanálů obsluhy, rozdělení doby obsluhy, fronta čekajících požadavků a režimy frontové disciplíny. To je nepochybně velmi zajímavé, ale mimo náš příběh. Poissonovým rozdělením se běžně aproximuje (nahrazuje) binomické rozdělení v případě, kdy n > 30 a kdy pravděpodobnost θ vybočí z intervalu 0,1 < θ < 0,9 . Další zákony rozdělení diskrétních náhodných veličin Zde pouze vyjmenujeme a stručně charakterizujeme některé zákony rozdělení diskrétních náhodných veličin, které jsou zpravidla uváděny, ovšem v podrobnějších příručkách než je naše: •
Diskrétní rovnoměrné rozdělení – náhodná veličina má konečný počet realizací, z nichž každá má stejnou pravděpodobnost (toto rozdělení má např. náhodná veličina, kterou je počet ok padlých na hrací kostce).
•
Hypergeometrické rozdělení – náhodnou veličinou je počet výskytů náhodné události v n závislých opakovaných pokusech, typicky při výběru bez opakování.
•
Geometrické rozdělení – náhodnou veličinou je počet nezávislých pokusů, které je třeba vykonat, aby se realizovala určitá náhodná událost (třeba počet součástek, které je třeba proměřit, abychom v posledním pokusu nalezli jedinou vadnou).
•
Záporně binomické rozdělení – náhodnou veličinou je počet nezávislých pokusů, které je třeba vykonat, aby se realizoval zadaný počet náhodných událostí (větší než jedna) – pokud bychom z nějakého důvodu například potřebovali nalézt celkem tři vadné součástky.
41
•
Multinomické rozdělení – pro nezávislé opakované pokusy, u nichž se uvažuje úplná skupina neslučitelných událostí A1 , A2 ,..., Ak s pravděpodobnostmi nastoupení v jednom pokusu rovnými θ 1 , θ 2 ,..., θ k (zobecnění binomického rozdělení pro
k = 2 , tj. s dvojicí opačných událostí A, A s pravděpodobnostmi θ ,1 − θ ). Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Najděte pravděpodobnost, že náhodná veličina s rozdělením Bi[10; 0,5] nabude nenulové hodnoty. Tip: Přejděte na opačnou událost. 2. Složitější verzí tohoto úkolu je nalézt minimální počet pokusů, aby s předem zvolenou pravděpodobností (řekněme 0,95) nabyla náhodná veličina nenulové hodnoty. Pravděpodobnost úspěchu v jednom pokusu zvolíme jako θ = 0,2 . 3. Určete střední hodnotu počtu správných odpovědí v testu s 10 nezávislými úkoly, přičemž je dána pravděpodobnost P (10) = 0,0625 (že všech 10 odpovědí bude správných). I když se podobné příklady vyskytují poměrně často, je třeba si uvědomit, že se mlčky předpokládá stejná připravenost účastníků a stejná obtížnost odpovědí na všechny otázky (= konstantní pravděpodobnost úspěchu v jednom pokusu). 4. Zůstaňme ještě chvíli u této problematiky a sestavme tabulku hodnot pravděpodobnostní a distribuční funkce a stanovme střední hodnotu a směrodatnou odchylku počtu správných odpovědí v testu o 5 otázkách nabízejících vždy čtyři možné odpovědi, z nichž právě jedna (náhodná) je správná. Řešitel používá metodu „ryzího odhadu“ (tj. o problematice nic neví a volí odpovědi náhodně). Doslova „uměním“ je pak dopadnout hůře, než odpovídá metodě ryzího odhadu! 5. Nakreslete graf pravděpodobnostní a distribuční funkce náhodné veličiny s rozdělením Bi [1; 0,5] . Určete její střední hodnotu,rozptyl a směrodatnou odchylku. 6. Tvrdím, že náhodná veličina z úkolu 5 má maximální rozptyl ze všech možných nula– jedničkových veličin. Můžete toto tvrzení dokázat? Tip: Jde o nalezení extrému funkce. 7. Počet požadavků zaslaných na helpdesk během hodiny je náhodná veličina se střední hodnotou E ( X ) = 2 . Sestavte tabulku hodnot pravděpodobnostní a distribuční funkce pro několik prvních hodnot x a znázorněte obě funkce graficky. 8. Najděte rozdělení této náhodné veličiny, pokud časovou jednotkou je osmihodinová pracovní směna. Určete pravděpodobnost, že v tomto časovém intervalu bude na helpdesk zasláno právě osm požadavků. 9. Počet poruch nového zařízení za směnu se řídí rozdělením Po[0,3] . Souběžně pracující dosluhující zařízení vykazuje za směnu počet poruch řídící se rozdělením Po[1,8] . Sestavte tabulku hodnot pravděpodobnostní a distribuční funkce pro součet obou náhodných veličin (tj. celkový počet poruch obou zařízení za směnu). Opět stačí jen pro několik málo hodnot x . 10. Hranici praktické nemožnosti vymezíme pravděpodobností 0,05. Pro jakou hodnotu parametru λ můžeme výskyt hodnoty x = 0 prohlásit za prakticky nemožný? 11. Pravděpodobnost úspěšného vyřešení úkolu je 0,8. Určete pravděpodobnost, že úkol bude správně vyřešen na první, druhý, třetí pokus (geometrické rozdělení, jednotlivé pokusy tudíž považujeme za nezávislé, i když „od chyb se člověk učí“).
42
2.4 Zákony rozdělení spojitých náhodných veličin Určitá typická, opakující se a prakticky významná rozdělení pravděpodobnosti se rovněž v případě spojitých náhodných veličin nazývají zákony rozdělení. Náhodné veličiny, řídící se stejným zákonem rozdělení, se vzájemně liší (nebo naopak shodují) pouze v hodnotách parametrů rozdělení. Spojitých rozdělení existuje velký počet, my uvedeme jen několik málo nejdůležitějších. V případě potřeby je nutné se uchýlit k sofistikovanější literatuře, než kterou představuje tato informativní učební pomůcka. Nicméně některé nezbytné zákony rozdělení spojitých náhodných veličin zavedeme ještě v další kapitole věnované statistickým odhadům a testům hypotéz. Rovnoměrné spojité rozdělení Spojitá náhodná veličina X může nabýt libovolné reálné hodnoty na intervalu reálných čísel α ; β , přičemž její realizace na celém intervalu je stejně možná. Tato veličina má rovnoměrné spojité rozdělení. ⎧ 1 Hustota pravděpodobnosti je dána jako f ( x ) = ⎪⎨ β − α pro α ≤ x ≤ β . Primitivní ⎪⎩ 0 jinak
funkcí k f ( x ) je distribuční funkce F ( x ) =
x −α na intervalu α ≤ x ≤ β . Konstanty α , β , ve β −a
kterých se tyto veličiny vzájemně liší (nebo naopak shodují), jsou parametry rovnoměrného spojitého rozdělení. Se znalostí parametrů lehce určíme E ( X ) = tohoto rozdělení) a D 2 ( X ) =
α+β 2
(této hodnoty nabývá i medián
(β − α ) 2 . p–kvantilem je x p = α + p ( β − α ) . 12
Toto rozdělení je velmi jednoduché (zdá se, že až příliš), nicméně jeho použití je velmi významné, např. v oblasti digitálních měření. Představme si digitální měřicí přístroj, konkrétně např. digitální hodiny, které ukazují správný čas s přesností na celé minuty. Rozdíl mezi zobrazenou hodnotou a neznámým přesným časem (vyjádřeným s přesností na sekundy a jejich zlomky, které přístroj neukazuje) je náhodná veličina s rovnoměrným rozdělením na intervalu (0 ; 60 ) (u spojité veličiny nezáleží na tom, zda krajní body do intervalu patří nebo nepatří a navíc pro tyto krajní body budou hodiny ukazovat přesný čas). Úloha souvisí s tzv. nejistotou měření. 1 , její 60 střední hodnota je E ( X ) = 30 [s], její rozptyl D 2 ( X ) = 300 [s2] a její směrodatná odchylka D ( X ) = 17 , 32 [s]. Medián má stejnou hodnotu jako střední hodnota. Např. 95% kvantilem je x 0, 95 = 57 [s].
Hustota pravděpodobnosti této náhodné veličiny je na intervalu (0 ; 60 ) , f ( x ) =
Zkontrolujte všechny výpočty podle vzorců, zapište korektně hustotu pravděpodobnosti a distribuční funkci (tj. rovněž mimo interval (0 ; 60 ) a obě funkce znázorněte graficky. Rovnoměrné rozdělení má kromě uvedené vazby na nejistoty měření i řadu dalších aplikací. Používá se např. jako přibližné rozdělení, kdy o náhodné veličině víme jen to, že je spojitá, ale její zákon rozdělení neznáme. Tato úvaha je podložena tím, že jde o rozdělení s nízkou stabilitou a každé jiné skutečné rozdělení je zřejmě stabilnější (měřeno D ( X ) ).
43
Exponenciální rozdělení Exponenciální rozdělení má spojitá náhodná veličina X > A (A je libovolné reálné číslo) s hustotou pravděpodobnosti ⎧ 1 − x δ− A ⎪ pro x > A , f ( x) = ⎨δ e ⎪⎩ 0 pro x ≤ A
kde A , δ ( δ > 0) jsou parametry tohoto rozdělení. Pokud je náhodnou veličinou např. životnost součástky podléhající tzv. „náhlé smrti“ (např. v důsledku náhodného přepětí elektrické sítě a podobných fatálních událostí), klade se A = 0 a rozdělení má pak jediný parametr δ . Charakteristiky této náhodné veličiny jsou E ( x ) = δ , D 2 ( X ) = δ 2 . Kvantily určujeme nalezením hodnoty distribuční funkce (pro kladné xp) kde F ( x ) = 1 − e
−
xp
δ
= p.
Funkce udávající P( X > x ) = 1 − F ( x ) se nazývá funkce přežití. Tato funkce má velký význam pro modelování procesů vymírání (např. zmíněných součástek „náhlou smrtí“). Hustota pravděpodobnosti exponenciálního rozdělení má pro x > A monotónní kle1 sající průběh. Její počátek je v bodě (může nabýt hodnoty větší než jedna!) a s rostoucím δ x asymptoticky klesá k ose náhodné veličiny. Distribuční funkce má naproti tomu monotónně rostoucí průběh asymptoticky se blížící hodnotě jedna. Nechť má okamžik náhlé smrti elektronické součástky exponenciální rozdělení s parametrem δ = 0,5 [tis. h]. •
1− e
Určíme s jakou pravděpodobností nepřežije náhodně vybraná součástka střední dobu náhlé smrti, tj. x = E ( X ) = δ = 0 ,5 .
−0 ,5 0 ,5
= 1 − 0 ,368 = 0 ,632 , jinak řečeno, očekáváme, že střední dobu náhlé smrti nepřežije 63,2 % všech součástek,
•
Určíme dobu, kterou přežije střední dobu náhlé smrti 10 % všech součástek.
− x0 ,10
= 0,10 z čehož 0,5 ln 0,10 = − x 0 ,10 a x 0,10 = 1,151 , tj. 10 % všech součástek může přežít dobu života 1151 [h]. e
0,5
Pro tento konkrétní příklad znázorněte graficky průběh hustoty pravděpodobnosti, distribuční funkce a funkce přežití a znázorněte na nich vypočtené hodnoty. Exponenciální rozdělení má úzkou souvislost s rozdělením Poissonovým. Pokud např. počet požadavků za jednotku času má rozdělení Po [λ ] , pak časové intervaly mezi jednotlivými požadavky mají exponenciální rozdělení s parametrem δ . Délka budoucích intervalů je při tom nezávislá na délce intervalů minulých. Weibullovo rozdělení Kromě „náhlé smrti“ dochází k ukončení životnosti součástek také z důvodu opotřebení (v důsledku intenzivního mechanického pohybu, únavy materiálu, koroze apod.) a dále z důvodu přítomnosti skrytých vad. Univerzálním nástrojem pro modelování všech tří situací je Weilbullovo rozdělení.
44
Spojitá náhodná veličina X nabývající kladných hodnot má toto rozdělení, pokud hustota pravděpodobnosti
⎧ cx c −1 −⎛⎜ x ⎞⎟ ⎝δ ⎠ ⎪ pro x > 0 , kde δ , c ( > 0) jsou parametry rozdělení, které se označuje f ( x) = ⎨ C e δ ⎪ 0 jinak ⎩ symbolem W [δ ; c ] . Střední hodnotu a rozptyl Weilbullova rozdělení lze opět určit z parac
metrů. Vztahy jsou (pokud
1 + 1 není přirozené číslo) poměrně složité, proto je neuvádíme. c 1 c
Mediánem je x 0,50 = δ (ln 2) , vrchol grafu hustoty pravděpodobnosti (modus) má pro c > 0 souřadnici δ (
c −1 c ) . c 1
Je-li c = 1 , jde o zvláštní případ Weilbullova rozdělení W [δ ; 1 ] – již zmíněné exponenciální rozdělení. Pro c > 1 jde o délku života součástky podléhající opotřebení. Pro c < 1 jde o délku života součástky se skrytou vadou. Pravděpodobnost, že dojde k ukončení života v krátkém časovém intervalu ( x ; x + h ) je rovna
hcx c −1
δc
.
Pro c > 1 jde o rostoucí funkci x – pravděpodobnost poruchy součástky podléhající opotřebení (např. ložisko ventilátoru chladicí jednotky počítače) v čase roste. Pro c < 1 jde o klesající funkci x – čím déle je součástka v provozu, tím větší je pravděpodobnost, že skrytou vadu nemá. Ukázka několika hustot Weilbullových rozdělení pro různé hodnoty parametrů
W [2 ; 0 , 9 ]
f(x)
W [2 ; 1 , 5 ]
W [2 ; 1 ]
x Normální rozdělení Normální rozdělení spojité náhodné veličiny X , kde − ∞ < x < +∞ , představuje zcela unikátní zákon rozdělení. Lze říci, že toto rozdělení vzniká •
Kdykoli se náhodná veličina utváří pod vlivem velkého počtu nezávislých činitelů, z nichž žádný nemá na výsledek rozhodující vliv (typicky ukazatele kvality produktů).
45
•
Součtem dostatečného počtu n nezávislých náhodných veličin X 1 , X 2 ,..., X n , která mají libovolný zákon rozdělení (třeba každá jiný) s konečným rozptylem.
Podmínkami vzniku normálního rozdělení se zabývá řada matematických vět, které zde ovšem nebudeme uvádět. Tato problematika přesahuje stručný rámec této pomůcky a dá se dohledat v příslušné odborné literatuře. 1
( x − μ )2
, kde π , e jsou známé matematické σ 2π konstanty a μ , σ 2 (mí, sigma na druhou) jsou parametry tohoto rozdělení. Jejím grafem je známá matematická křivka – Gaussova křivka, která má symetrický zvonovitý průběh s vrHustota pravděpodobnosti f ( x ) =
e
cholem v bodě μ (souřadnice vrcholu je f ( μ ) =
σ2
0,3989
). σ určuje vzdálenost inflexních σ bodů od vrcholu křivky. Obě větve křivky se asymptoticky blíží k ose náhodné veličiny Normální rozdělení (někdy se v této souvislosti používá pojem obecné normální rozdělení) se označuje N μ ; σ 2 ( μ je libovolné reálné číslo a parametr σ 2 > 0 ). Parametr polohy μ = E ( X ) = x 0 ,50 = xˆ , má tedy současně význam střední hodnoty, mediánu a modu
[
]
(důsledek symetrie). Parametr měřítka σ směrodatnou odchylku rozdělení.
[
2
= D 2 ( X ),
]
σ
[
Ukázka hustot rozdělení N − 0,5; 0,5 2 , N [0; 1], N 1; 1,5 2
2
= σ = D ( X ) , jde tedy o rozptyl a
]
f(x)
[
N − 0,5;0,5 2
]
N [0 ; 1 ]
[
N 1; 1,5 2
] x
Poloha vrcholů rozdělení je zřejmá, vzdálenosti kolem vrcholu symetricky položených inflexních bodů (což jsou body, v nichž se průběh křivky mění z konvexního na konkávní a naopak) jsou postupně rovny 0.5, 1 a 1.5 (čím nižší vzdálenost, tím je příslušné rozdělení stabilnější). Vidíme, že asymptotické přibližování větví křivek k ose náhodné veličiny je velmi rychlé, takže již v hodnotách μ ± 2σ se křivky této osy prakticky dotýkají – hovoří se o rozdělení s „krátkými konci“. Můžeme si rovněž zkontrolovat, že hustoty pravděpodobnosti f ( μ ) se rovnají přibližně 0.8, 0.4 a 0.27. Distribuční funkce (jejich vyjádření neuvádíme) mají tvar pravidelných esovitých křivek. Strmost křivky je tím větší, čím nižší je hodnota σ . Obě větve křivky vykazují asymptottické přibližování (levá k ose náhodné veličiny a pravá k hodnotě jedna). Inflexní bod má souřadnice [μ ; 0 ,5 ] .
46
Ukázka distribučních funkcí normálních rozdělení z předchozího obrázku
F(x)
[
N − 0,5;0,5 2
]
N [0 ; 1 ]
[
N 1; 1,5 2
] x
Pracovat s obecným normálním rozdělením (tj. např. hodnotami distribuční funkce, kvantily s výjimkou mediánu apod.) je matematicky vysoce náročné. Nabízí se proto přejít na normované normální rozdělení a všechny potřebné hodnoty tabelovat. V časech tištěných papírových tabulek to byla dokonce jediná možná cesta. Normované normální rozdělení
[
]
Má-li obecná náhodná veličina X rozdělení N μ ; σ 2 , má normovaná náhodná veličina U =
X − E( X ) X − μ rozdělení = σ D( X )
N [0 ; 1 ]
– normované normální rozdělení se střední
hodnotou E (U ) = 0 a rozptylem i směrodatnou odchylkou rovnou D 2 (U ) = D (U ) = 1 . Jeho hustotu značíme výjimečně symbolem ϕ (u ) a distribuční funkci Φ ( u ) . Symetrická zvonovitá Gaussova křivka hustoty pravděpodobnosti rozdělení N [0 ; 1 ] má vrchol ϕ ( 0 ) = 0 , 3989 v bodě u = 0 a inflexní body odpovídají hodnotám u = − 1, u = + 1 . Přestože veličina U nabývá hodnot z intervalu − ∞ < u < +∞ , přibližování k ose náhodné veličiny je tak rychlé, že prakticky jistě nabývá hodnot z intervalu − 2 < u < + 2 (s rezervou − 3 < u < +3 ). Výskyt veličiny U mimo tento interval je událostí prakticky nemožnou. Grafy hustoty pravděpodobnosti a distribuční funkce rozdělení N [0 ; 1 ] najdeme na předchozích obrázcích. Pro pohodlnou práci s normovaným normálním rozdělením slouží tabelované hodnoty ϕ ( u ), Φ ( u ) a u p . I když v dnešní době lze pracovat s aplikacemi, které jednotlivě vrací příslušné hodnoty pro obecné normální rozdělení (např. i MS Excel), spočívá kouzlo papírových tabulek v tom, že lze přehlédnout celou tabulku a vysledovat zákonitosti v chování příslušných hodnot při měnících se vstupních hodnotách ( u, p ). Pro zestručnění a tím i zpřehlednění tabulek se používají následující důležité vztahy vyplývající ze symetrie rozdělení kolem počátku: • • •
ϕ (− u ) = ϕ (u ) , Φ (− u ) = 1 − Φ (u ) ,
u 1− p = − u p .
47
Proto v tabulkách najdeme vstupní hodnoty u ≥ 0 a p ≥ 0 ,5 a zbývající potřebné hodnoty si případně dopočteme. Tabulka hodnot funkcí ϕ ( u ) a Φ ( u ) pro vybraná u
u
0,00 0,50 1,00 1,50 2,00 2,50 3,00 0,399 0,352 0,242 0,130 0,054 0,018 0,004 0,500 0,691 0,841 0,933 0,977 0,994 0,999
ϕ (u ) Φ (u )
Příklady: ϕ ( −1) = ϕ (1) = 0,242 ; Φ(−2) = 1 − Φ(2) = 1 − 0,977 = 0,023 Tabulka hodnot p–kvantilů u p pro vybraná p
p up
0,500 0,900 0,950 0,975 0,990 0,995 0,999 0,000 1,282 1,645 1,960 2,326 2,576 3,090
Příklad: u 0,025 = −u0,975 = −1,960 Grafické znázornění příkladů pod oběma tabulkami
ϕ (u )
ϕ ( −1) = ϕ (1) = 0,242
Φ(−2) = 1 − Φ(2) = 1 − 0,977 = 0,023
u
u 0,025 = −u 0,975 = −1,960
[
]
Mezi distribučními funkcemi rozdělení N μ ; σ 2 a N [0; 1] platí F ( x ) = Φ (
x−μ
σ
).
Mezi kvantily obou rozdělení platí x p = μ + σu p .
[
]
Určit pravděpodobnost, že náhodná veličina X s rozdělením N 100;15 2 bude ležet v intervalu 70;115 . Tj.
70 − 100 115 − 100 ) = Φ (1) − Φ ( −2) = Φ (1) − [1 − Φ ( 2)] = ) − Φ( 15 15 = 0,841 − (1 − 0,977) = 0,841 − 0,023 = 0,818 F (115) − F (70) = Φ (
Jde o úlohu o nalezení pravděpodobnosti při zadaných hodnotách náhodné veličiny.
48
Grafické znázornění vypočtené pravděpodobnosti
f(x)
0,818
x Určit symetrický interval, do kterého náhodná veličina X padne s pravděpodobností 0,95. Hledáme tedy 2,5% a 97,5% kvantil veličiny X , mezi nimiž leží tato náhodná veličina s pravděpodobností 0,95
x 0, 975 = 100 + 15u 0, 975 = 100 + 15 ⋅ 1,96 = 129 ,4 x 0, 025 = 100 + 15u 0, 025 = 100 + 15( − u 0, 975 ) = 100 + 15 ⋅ ( −1,96 ) = 70,6 Jde o úlohu o nalezení hodnot náhodné veličiny pro zadanou pravděpodobnost. Grafické znázornění hodnot vypočtených pro zadanou pravděpodobnost
f(x)
0,025
0,95 0,025 x
Normální rozdělení mnohokrát použijeme v následující kapitole věnované statistickému odhadu a testování hypotéz. Na jeho bázi zavedeme v budoucí kapitole také některá další užitečná rozdělení (např. rozdělení veličiny U 2 ) apod. Normální rozdělení je teoretickým základem mnoha statistických strategií řízení jakosti. Na normální rozdělení přímo odkazuje název systému Six Sigma ( 6σ ), původně produkt společnosti Motorola. Hlavními komponentami statistického řízení jakosti jsou statistická regulace v podmínkách hromadné výroby (udržování náhodného procesu v předem určených mezích) a statistická přejímka (garantující, že s vysokou pravděpodobností bude přijata jen hromadná dodávka vyhovující sjednaným podmínkám, zatímco nevyhovující bude odmítnuta). Jde o problematiku, která si zasluhuje samostatné (a velmi rozsáhlé) pojednání, neboť se nám do našeho příběhu „nevejde“.
49
Logaritmicko normální rozdělení
[
]
Má-li náhodná veličina Y = ln X rozdělení N μ ; σ 2 , má veličina X = e Y > 0 tzv. loga-
[
]
ritmicko normální rozdělení LN μ ; σ . Toto typicky kladně sešikmené rozdělení (modus < medián < střední hodnota) se často používá v teorii spolehlivosti, kde se pracuje se součiny (nikoli součty, které by vedly na normální rozdělení) nezávislých náhodných veličin. 2
Jeho střední hodnota je rovna E( X ) = e
(μ+
σ2 ) 2
a rozptyl D 2 ( X ) = e (2 μ + σ ) ( e σ − 1) . 2
2
Vztah mezi kvantily u p normovaného normálního rozdělení a kvantily logaritmicko
normálního rozdělení je x p = e (μ + σ u ) p
[
]
[
Porovnání hustot rozdělení N 0,5; 0,5 2 a LN 0,5; 0,5 2
f(x)
[
N 0,5; 0,52
]
]
[
LN 0,5; 0,52
]
x
Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. K příkladu na rovnoměrné rozdělení na intervalu (0; 60 ) najít interval symetrický kolem střední hodnoty, do kterého náhodná veličina padá s pravděpodobností 0,5. 2. Pro stejný příklad jako v bodě 1 najít pravděpodobnost, že náhodná veličina padne do intervalu E ( X ) ± D ( X ) . 3. Náhodnou veličinou je chyba při zaokrouhlování náhodných reálných čísel na čísla celá. Najděte zákon rozdělení pro tuto náhodnou veličinu, stanovte jeho parametry, hustotu a distribuční funkci, střední hodnotu, medián, rozptyl a směrodatnou odchylku. Obě funkce znázorněte graficky. 4. Určete pravděpodobnost, že náhodná veličina s exponenciálním rozdělením s parametrem δ = 1 [tis. h] padne do intervalu E ( X ) ± D ( X ) , který uveďte v hodinách. Výsledek porovnejte s řešením úkolu 2. 5. Jaká je střední hodnota náhodné veličiny, která je rozdělením pravděpodobnosti životnosti součástky z důvodu „náhlé smrti“, pokud 3000 hodin „přežilo“ 1 % všech součástek. Znázorněte graficky hustotu pravděpodobnosti, distribuční funkci a funkci přežití.
50
6. Určete prostřední (mediánovou) a typickou (modální) dobu života pro Weilbullovo rozdělení s parametry z úlohy 7. 7. Vypočtěte a znázorněte graficky pravděpodobnosti ukončení života součástky v krátkém období pro c = 0,9; c = 1; c = 1,5 , pokud parametr δ = 2 [tis. h]. Dále zvolte h = 8 [h]. Cca tři až čtyři realizace náhodné veličiny volte např. jako 0,8δ ; δ ;1,2δ .
[
]
8. Pro rozdělení N 50; 5 2 určete hodnotu f (50) a dále •
pravděpodobnost, že veličina nepřesáhne hodnotu 57,5,
•
pravděpodobnost, že přesáhne hodnotu 40,
•
pravděpodobnost, že bude ležet na intervalu 47,5 až 60.
Všechny pravděpodobnosti znázorněte na přiloženém „slepém“ grafu hustoty pravděpodobnosti.
9. Pro rozdělení z úkolu 8 určete symetricky položené intervaly, do který náhodná veličina postupně padá s pravděpodobnostmi 0.9, 0.95 a 0.99. 10. Pro rozdělení z úkolu 8 určete pravděpodobnost, že náhodná veličina bude ležet na intervalu μ ± σ . Výsledek porovnejte s výsledky úkolu 2 a 4. Které z rozdělení vykazuje největší stabilitu? 11. Jaké hodnoty parametrů má normálně rozdělená náhodná veličina, jejíž 90% kvantil má hodnotu 264,1 a 99% kvantil hodnotu 316,3? 12. Prověřte excelovské funkce NORMDIST, NORMSDIST, NORMINV, NORMSINV a zkontrolujte pomocí nich správnost vypočtených příkladů na normální rozdělení, stejně jako správnost hodnot v tabulkách distribuční funkce Φ (u ) a kvantilů u p . 13. Kvantily u p můžeme interpretovat jako hodnoty tzv. kvantilové funkce, která je inverzní funkcí k distribuční funkci. Zapište tuto kvantilovou funkci pomocí Φ −1 . 14. Určete střední hodnotu, medián, rozptyl a směrodatnou odchylku logaritmicko normálního rozdělení LN 0,5; 0,5 2 .
[
]
51
Shrnutí druhé kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou •
pojem náhodná událost a operace s náhodnými událostmi s důrazem na neslučitelné a nezávislé náhodné události,
•
princip chápání pravděpodobnosti jako stabilizované relativní četnosti,
•
aktivní použití vlastností pravděpodobnosti,
•
rozlišení (absolutně) jisté/nemožné události od prakticky jisté/nemožné náhodné události a významu s tím souvisejícího pojmu rizika,
•
použití výběru s opakováním a bez opakování k demonstraci nezávislých/závislých opakovaných pokusů,
•
pojmy diskrétní a spojitá náhodná veličina a její zavedení jako číselného vyjádření výsledku náhodného experimentu,
•
rozdělení pravděpodobnosti náhodné veličiny jako jedné z jejích speciálních definicí,
•
aktivní využití pravděpodobnostní funkce náhodné veličiny včetně všech způsobů jejího vyjádření a vlastností,
•
aktivní využití distribuční funkce náhodné veličiny včetně všech způsobů jejího vyjádření a vlastností,
•
aktivní využití hustoty pravděpodobnosti náhodné veličiny včetně všech způsobů jejího vyjádření a vlastností,
•
vzájemné vztahy mezi hustotou pravděpodobnosti a distribuční funkcí spojité náhodné veličiny,
•
měření úrovně a variability náhodné veličiny pomocí střední hodnoty a rozptylu,
•
princip a postup stanovení kvantilů spojitých náhodných veličin,
•
řešení úloh s binomickým rozdělením,
•
řešení úloh s alternativním rozdělením,
•
řešení úloh s Poissonovým rozdělením,
•
řešení úloh se spojitým rovnoměrným rozdělením a souvislost tohoto rozdělení s nejistotami měření,
•
řešení úloh s exponenciálním rozdělením,
•
Weilbullovo rozdělení jako univerzální nástroj pro měření životnosti součástek, k jejíchž ukončení dochází z různých příčin (jen rámcově),
•
normální a normované normální rozdělení, která budeme používat v následující třetí kapitole v souvislosti se statistickými odhady a testováním hypotéz,
•
práce z tabulkami pro normované normální rozdělení a řešení obou „zrcadlových“ úlohy – k zadané hodnotě (hodnotám) určit pravděpodobnost a naopak – k zadané pravděpodobnosti určit hodnotu (hodnoty) náhodné veličiny s obecným normálním rozdělením,
•
grafické znázornění výsledků úloh v předchozím bodě,
•
vztah mezi normálním a logaritmicko normálním rozdělením (jen rámcově).
52
Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor •
operace se slučitelnými a závislými událostmi ve dvojicích i n-ticích,
•
další dílčí „definice“ pravděpodobnosti, jako je pravděpodobnost klasická (včetně jejích kombinatorických výpočtů), diskrétní, geometrická apod.,
•
podmíněná a úplná pravděpodobnost, apriorní a aposteriorní pravděpodobnost,
•
závislé opakované pokusy,
•
rozdělení pravděpodobnosti náhodného vektoru a jeho charakteristiky,
•
závislost náhodných veličin, podmíněná rozdělení a jejich charakteristiky,
•
funkce náhodných veličin,
•
další diskrétní zákony rozdělení, které jsme pouze vyjmenovali,
•
několik dalších spojitých zákonů rozdělení, o nichž jsme se ani nezmínili,
•
zákon velkých čísel,
•
centrální limitní věty,
•
stochastické procesy.
Mezery ve vzdělání si čtenář se solidním matematickým základem může samostatně doplnit např. v MAREK, L. Pravděpodobnost. První vydání. Praha: Professional Publishing, 2012, 249 stran. ISBN 978-80-7431-087-4.
53
Kapitola 3
Odhady a testy hypotéz
Při setkání s náhodnou veličinou musíme rozlišit tři případy •
Známe rozdělení náhodné veličiny a známe i její parametry. V tom případě k práci s náhodnou veličinou potřebujeme tabulky hodnot distribuční funkce a tabulky kvantilů, pomocí nichž můžeme řešit úlohy podobně, jako tomu bylo v závěru druhé kapitoly. Tento případ je spíše výjimečný a je omezen zejména na triviální příklady školského charakteru.
•
Známe rozdělení náhodné veličiny, tudíž známe počet parametrů a jejich význam, ale neznáme hodnoty parametrů – ty jsou (a navždy zůstanou) pro nás neznámými konstantami. Tento příklad je nejběžnější. Neznámé hodnoty parametrů buď odhadujeme (pomocí bodového či intervalového odhadu) nebo ověřujeme hypotézy (předpoklady) o jejich možných hodnotách. Cílem je označit hypotézu za neudržitelnou, pokud důkazy svědčí proti ní, v opačném případě je hypotéza označena za udržitelnou. Tato problematika tvoří samostatné odvětví statistiky – tzv. matematickou statistiku, která kombinuje poznatky pravděpodobnosti a popisné statistiky. Význam matematické statistiky je značný, protože parametry rozdělení mají většinou velký praktický význam (např. při řízení kvality). Tuto variantu problému je možno označit za klíčovou a jako jediné se jí budeme podrobně věnovat.
•
Neznáme rozdělení ani jeho parametry. Tudíž netušíme ani kolik jich je (existují rozdělení s jedním až cca čtyřmi parametry), ani jaký je jejich význam (např. jejich vztah ke střední hodnotě, rozptylu apod.). Jde o tzv. neparametrický problém, který se řeší přechodem od neznámého ke známému rozdělení pravděpodobnosti. Přechod na známé rozdělení je vždy „vykoupen“ ztrátou části informace obsažené v datech. Neparametrický problém ponecháme stranou.
3.1 Náhodný výběr z rozdělení náhodné veličiny Základní „surovinou“ při konstrukci odhadů a provádění testů hypotéz o parametrech rozdělení náhodných veličin se známým rozdělením je náhodný výběr z příslušného zákona rozdělení. Proto, než se dostaneme k samotné problematice odhadů a testů – té se říká také statistická indukce – se musíme seznámit s některými důležitými skutečnostmi. Pojem náhodného výběru Posloupnost nezávislých a stejně rozdělených náhodných veličin X 1, X 2 ,..., X n je náhodným výběrem z rozdělení pravděpodobnosti náhodné veličiny X o (konečném) rozsahu výběru n. Např. při splnění podmínek výběru s opakováním jsou prvky náhodného výběru nezávislé náhodné veličiny. Náhodnost výběru je zajištěna pomocí vhodného návrhu experimentu. Touto problematikou se podrobněji nebudeme zabývat. Jako výběrovou techniku, zajišťující náhodnost výběru, si můžeme provizorně představit např. losování. To, že veličiny X 1, X 2 ,..., X n pocházejí z téhož rozdělení pravděpodobnosti, má za následek, že všechny mají stejnou střední hodnotu i rozptyl E ( X ), D 2 ( X ) (to se týká i dalších charakteristik, které nás však v tomto okamžiku nezajímají). Charakteristiky náhodné veličiny X (stejně jako její parametry) jsou neznámými konstantami. Orientačně se rozlišují tzv. malé výběry pro n ≤ 30 a velké výběry pro n > 30 .
54
Výběrové charakteristiky – statistiky Od charakteristik náhodné veličiny musíme striktně rozlišit charakteristiky náhodného výběru, kterým se souhrnně říká statistiky (další význam pojmu statistika!). Nejdůležitější výběrovou charakteristikou je pochopitelně výběrový průměr X n . Jde o náhodnou veličinu (proto označení velkým písmenem), jejíž vlastnosti závisí na rozsahu výběru n (proto index n). Od výběrového průměru jako náhodné veličiny musíme odlišit konkrétní číslo, hodnotu — realizaci, kterou tato veličina nabyla pro určitý konkrétní náhodný výběr, a kterou označíme x (tj. jako konstantu malým písmenem a bez indexu n). Podobně jako s výběrovým průměrem zacházíme i s dalšími statistikami, např. výběrovým mediánem, výběrovým rozptylem apod. Pro účely zobecnění označujeme libovolnou statistiku, jejíž vlastnosti souvisí s rozsahem výběru, symbolem Tn . Jako každá náhodná veličina, má i statistika Tn svoji střední hodnotu E (Tn ) , rozptyl D 2 (T n ) a samozřejmě i další charakteristiky.
To, co nás mimořádně zajímá, je vztah charakteristik náhodné veličiny Tn k parametrům (které mají mnohdy současně význam charakteristik) náhodné veličiny X , ze které byl pořízen náhodný výběr. Dvě důležitá rozdělení Abychom poznali rozdělení pravděpodobnosti alespoň některých náhodných veličin Tn , musíme zavést další rozdělení pravděpodobnosti spojitých náhodných veličin, alespoň Pearsonovo a Studentovo rozdělení, která nám umožní zabývat se rozdělením výběrového rozptylu a výběrového průměru při malém rozsahu výběru a neznalosti parametru σ 2 . Tato rozdělení nyní zavedeme, abychom je ve vhodné chvíli použili. Pearsonovo rozdělení 2
X −μ⎤ Náhodná veličina U 2 = ⎡ . Má-li U rozdělení N [0;1] (viz tečkovaná křivka na ⎢⎣ σ ⎥⎦ obrázku), má U 2 ≥ 0 rozdělení pravděpodobnosti, jehož hustota je klesající funkce. Rozdělení veličiny U 2 a jejích součtů Při výpočtu rozptylu se setkáváme se součtem n čtverců odchylek, z nichž ale jen n – 1 je 0.75 nezávislých. Poslední (n–tou) odchylku můžeme χ 2 [5] vždy vypočítat ze součtu zbývajících n – 1 odchy0.5 lek při využití toho, že součet všech odchylek je roven nule. 0.25 Na obrázku je tedy ještě znázorněna hustota pravděpodobnosti tohoto součtu n – 1 čtverců od0 -3 -1 1 3 5 7 9 x chylek pro n = 6. Takovéto rozdělení, které nelze dobře aproximovat rozdělením normálním, se nazývá Pearsonovým rozdělením (rozdělením chí– kvadrát); značíme χ 2 [ν ] , kde ν = n − 1 (ný) je jediným parametrem tohoto rozdělení. Klesaf(x)
χ 2 [1]
jící hustota na obrázku je tedy Pearsonovým rozdělením χ 2 [1] . Kvantily Pearsonova rozdělení jsou tabelovány (výtah z tabulek je na konci této pomůcky).
55
Studentovo rozdělení Náhodná veličina t = X n − μ (veličinu t i její realizace je zvykem výjimečně značit S n −1 n malým písmenem), má rozdělení, které se nazývá Studentovo, s jediným parametrem, kterým je opět počet stupňů volnosti ν = n – 1. Toto rozdělení budeme označovat t [ν ] . Hustota pravděpodobnosti Studentova rozdělení je symetrická zvonovitá křivka, která se s rostoucí hodnotou parametru blíží ke Gaussově křivce pro normované normální rozdělení. Tou se běžně nahrazuje pro n > 30 . Pro nízké hodnoty parametru je při porovnání s Gaussovou křivkou patrná nižší Studentovo rozdělení
N [0;1]
0.5
t[20] 0.25
t [5]
0
-3
-2
-1
0
1
2
3
výška vrcholu křivky v kombinaci s delšími konci rozdělení (pomalejším přibližováním obou větví křivky k ose náhodné veličiny). Hodnoty odpovídajících si kvantilů jsou proto u Studentova rozdělení vzdálenější od počátku, než je tomu u normovaného normálního rozdělení. Studentovo rozdělení umožňuje práci s výběry již od rozsahu n > 2 (aby bylo možno vypočítat rozptyl). Také pro Studentovu veličinu můžeme psát
⎡ ⎤ ⎢ ⎥ Xn −μ ≤ t α ⎥ = 1 − α , kde 1 − α je pravP ⎢t α ≤ S n −1 1− ⎢ 2 2⎥ n ⎣⎢ ⎦⎥ děpodobnost prakticky jistého jevu. Tento výraz obsahuje jedinou neznámou μ a může tedy být využit k jejímu stanovení. Kvantily, pro které vzhledem k symetrii platí t α = − t α , jsou 2
1−
2
tabelovány (výtah z tabulek je na konci této pomůcky). Rozdělení výběrového průměru při výběru velkého rozsahu nebo při známém σ2 Nejdůležitější výběrovou charakteristikou je výběrový průměr X n . Jde o náhodnou veličinu (proto označení velkým písmenem), jejíž vlastnosti závisí na rozsahu výběru n (proto index n). Od výběrového průměru jako náhodné veličiny musíme odlišit konkrétní číslo, hodnotu — realizaci, kterou tato veličina nabyla pro určitý konkrétní náhodný výběr, kterou označíme x (tj. jako konstantu malým písmenem a bez indexu n). Zajímáme se o charakteristiky náhodné veličiny, vzniklé jako součet jiných náhodných veličin, přičemž budeme předpokládat, že výsledná veličina konverguje k normálnímu rozdělení. Mají-li všechny sčítance stejné střední hodnoty i rozptyly E ( X ), D 2 ( X ) (což je případ n
n
náhodného výběru), pak E ( ∑ X i ) = nE ( X ) , D 2 ( ∑ X i ) = nD 2 ( X ) . Při dostatečném počtu i =1
i =1
n
n
i =1
i =1
sčítanců můžeme psát také E ( ∑ X i ) = nE( X ) = nμ a D 2 ( ∑ X i ) = nD 2 ( X ) = nσ 2 . n
∑X
i
[
má tedy rozdělení N nμ ; nσ 2
].
i =1
56
Ilustrativní příklad sčítání náhodných veličin Tento příklad uvádíme proto, že při výpočtu výběrového průměru operujeme se součtem
n
∑X
i
.
i =1
Na obrázku je pravděpodobnostní chování součtu nezávislých náhodných veličin demonstrováno pomocí součtu rovnoměrně rozdělené spojité náhodné veličiny. Podobný výsledek bychom ovšem obdrželi i při sčítání jinak rozdělených náhodných veličin (dokonce i při různém rozdělení jednotlivých sčítanců, což však není pro náhodný výběr typické). Konvergence součtu nezávislých náhodných veličin k normálnímu rozdělení
f(x), pi
f(x), pi
x
x Jedna náhodná veličina má rovnoměrné rozdělení. Součet dvou nezávislých veličin má již tzv. trojúhelníkové rozdělení. Součet pouhých pěti veličin má již rozdělení, které je blízké normálnímu. Histogramy byly získány tříděním 500 realizací náhodných veličin a proloženy odpovídajícím rozdělením. Původní rovnoměrné rozdělení bylo vytvořeno počítačovou simulací.
f(x), pi
x
n
Střední hodnota výběrového průměru (který je součtem ∑ X i , děleným rozsahem i =1
výběru n) je za těchto okolností E ( X n ) =
n
1 1 E ( ∑ X i ) = nE ( X ) = E ( X ) = μ . n n i =1
Variabilita výběrového průměru vyjádřená jeho rozptylem je
1 2 n 1 D2 ( X ) σ 2 2 D ( X n ) = 2 D ( ∑ X i ) = 2 nD ( X ) = = n n n n i =1 D( X ) σ a směrodatná odchylka je dána jako D ( X n ) = . Směrodatná odchylka libovolné = n n 2
výběrové charakteristiky se nazývá směrodatná chyba (důležitý pojem!).
57
Rozdělení výběrového průměru Tečkovanou čarou je znázorněna hustota pravděpodobnosti rozdělení, ze kterého byl výběr pořízen. Přesto, že toto rozdělení se od normálního rozdělení liší, výběrové průměry mají rozdělení, jehož hustota pravděpodobnosti je symetrická zvonovitá křivka. S rostoucím rozsahem výběru se poloha střední hodnoty výběrového průměru nemění, zatímco jeho variabilita klesá (rozdělení se stabilizuje). Jednotlivé křivky jsou znázorněny pro n rovno postupně 3, 5 a 10.
f(x) 0.75
n
0.5
0.25
0
1
2
3
4
5
x
σ 2⎤ ⎡ Rozdělení výběrového průměru je tedy N ⎢ μ ; ( ) ⎥ a normovaná veličina U = X n − μ má σ n ⎦ ⎣ n normované normální rozdělení N [0;1] . Pro veličinu U můžeme např. napsat ⎡ ⎤ ⎢ ⎥ Xn −μ ≤ u α ⎥ = 1 − α . Je-li α dostatečně blízké nule, je jev, že veličina padne do P ⎢u α ≤ σ 1− ⎢ 2 2⎥ n ⎣⎢ ⎦⎥ intervalu vymezeného oběma kvantily normovaného normálního rozdělení, jevem prakticky jistým. Vztah obsahuje jako neznámé μ , σ , všechny ostatní veličiny jsou známé: rozsah výběru n, výběrový průměr a dále kvantily, mezi nimiž platí u α = − u α , najdeme v ta2
1−
2
bulkách (stručný výtah je u normovaného normálního rozdělení v předchozí kapitole). Pokud je rozsah výběru n > 30 , lze neznámou σ ve vzorci bez dalšího nahradit výběrovou směrodatnou odchylkou S n −1 . Rozdělení výběrového průměru při výběru malého rozsahu a neznámém σ2 Pokud je však rozsah náhodného výběru n ≤ 30 a neznámý parametr σ ve vztahu X n − μ nahradíme výběrovou směrodatnou odchylkou S , tj. statistikou získanou U= n −1
σ
n z náhodného výběru (neznámou konstantu nahrazujeme náhodnou veličinou!), tak náhodná veličina, popisující rozdělení výběrového průměru, je t = X n − μ , tj. má Studentovo rozděS n −1 n lení t [ν = n − 1 ] .
58
Rozdělení výběrového rozptylu n
Náhodná veličina
∑ ( X i − X n )2
i =1
=
( n − 1) S n2−1
má rozdělení χ 2 [n − 1] .
σ σ n 1 Sn2−1 = ∑ ( X i − X n )2 je výběrový rozptyl. Ten se od popisné formy rozptylu liší tím, že n − 1 i =1 pro dělení součtu čtverců se používá místo rozsahu výběru n hodnota n – 1, která se nazývá počet stupňů volnosti. Pro výběrový rozptyl můžeme napsat. ⎡ ⎤ (n − 1)Sn2−1 2 ≤ χ P ⎢ χ α2 ≤ α ⎥ = 1 − α . Tento výraz obsahuje pro zvolené 1 − α jedinou nezná1− ⎥ σ2 ⎢⎣ 2 2⎦ 2
2
mou veličinu, kterou je rozptyl σ 2 . Vzhledem k asymetrii hustoty pravděpodobnosti jsou i kvantily umístěny asymetricky (mohou nabýt pouze kladných hodnot, protože χ 2 ≥ 0 ). n −1 Vzájemný přepočet popisné a výběrové formy rozptylu je snadný: S n2 = S n2−1 , n zatímco např. Sn −1 = Sn
n . n −1
Rozdělení výběrové relativní četnosti Výběrová relativní četnost p je náhodnou veličinou se střední hodnotou E ( p ) = θ a rozptylem D 2 ( p ) = θ (1 − θ ), kde θ je jediný parametr a současně charakteristika polohy alternativního rozdělení. Při splnění podmínky np (1 − p ) > 9 lze rozdělení výběrové relativní
θ (1 − θ ) ⎤ četnosti nahradit normálním rozdělením N ⎡θ ; ⎢⎣ ⎥⎦ , přičemž ve vzorci rozptylu nahran p −θ díme neznámý parametr θ výběrovou relativní četností p. Veličina U = má rozp (1 − p ) n dělení N [0 ;1] . Další úvahy jsou pak zcela analogické jako u rozdělení výběrového průměru.
59
Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Rekapitulujte případy o náhodné veličině a jejích parametrech z úvodu této kapitoly. 2. K čemu slouží náhodný výběr a jaké jsou jeho vlastnosti? Jaká hranice odděluje malý a velký výběr? 3. Co jsou to statistiky? 4. Co víte o rozdělení pravděpodobnosti veličiny U 2 , která je čtvercem náhodné veličiny s rozdělením N [0 ; 1 ] ? 5. Co víte o rozdělení pravděpodobnosti veličiny t? Jaký je jeho vztah k rozdělení N [0 ; 1 ] ? Od jakého rozsahu výběru není nezbytné obě rozdělení rozlišovat? 6. Vysvětlete pojem stupně volnosti. 7. Jakou střední hodnotu, rozptyl a směrodatnou odchylku má •
n
součet prvků náhodného výběru
∑X i =1
•
statistika X n =
i
,
1 n ∑ Xi . n i =1
8. Co je směrodatná chyba statistiky? Čemu je konkrétně rovna pro výběrový průměr? 9. Jak se chová • •
střední hodnota, směrodatná chyba,
statistiky X
n
při rostoucím rozsahu náhodného výběru?
Kolikrát se musí zvýšit/snížit rozsah výběru, pokud bychom chtěli směrodatnou chybu y zmenšit na polovinu,
y zmenšit na desetinu, y zvětšit na dvojnásobek.
10. Vyjádřete se k možnosti náhrady parametru σ výběrovou směrodatnou odchylkou
S n −1 ve vztahu
Xn −μ
σ
.
n 11. Kolik parametrů mají Pearsonovo a Studentovo rozdělení a jaký je jejich význam? 12. Rekapitulujte, co víte o rozdělení pravděpodobnosti výběrové relativní četnosti p.
60
3.2 Bodový odhad Princip bodového odhadu Nejprve formalizujeme pojem statistiky jako náhodné veličiny, která je funkcí náhodného výběru Tn = g ( X 1 , X 2 ,..., X n ) . Realizaci statistiky Tn – její konkrétní hodnotu vypočtenou z určitého konkrétního náhodného výběru – označíme symbolem t (pozor na možnou kolizi se Studentovou veličinou t!) Již víme, že statistika je náhodnou veličinou, má svůj zákon rozdělení pravděpodobnosti, který je charakterizován střední hodnotou E(Tn ) , rozptylem a směrodatnou odchylkou (směrodatnou chybou) D 2 ( T n ), D ( T n ) . Vlastnosti rozdělení statistiky Tn často souvisí s rozsahem výběru n. Směrodatná odchylka signalizuje, jak statistika výběr od výběru kolísá a označujeme ji proto jako její směrodatnou chybu. Směrodatná chyba měří velikost náhodné chyby, které se dopustíme, pokud statistikou vypočtenou z náhodného výběru nahradíme neznámý parametr rozdělení pravděpodobnosti náhodné veličiny (např. parametr σ statistikou Sn−1 ). Nechť X 1 , X 2 ,..., X n je náhodným výběrem o rozsahu n z rozdělení pravděpodobnosti náhodné veličiny, která má distribuční funkci F ( Θ ; x ) , kde Θ (velké theta) je neznámý parametr tohoto rozdělení. Statistiku Tn nazveme bodovým odhadem neboli estimátorem neznámého parametru Θ a píšeme Tn = estΘ . Požadujeme, aby statistika byla výstižným odhadem a přiměřeně splňovala následující vlastnosti — kritéria výstižnosti bodového odhadu. Výstižnost bodového odhadu •
Statistika je konzistentním odhadem neznámého parametru, pokud s rostoucím rozsahem výběru klesá pravděpodobnost, že se při odhadu dopustíme velké chyby. Konzistentní odhad splňuje lim P ( Tn − Θ > ε ) = 0 pro libovolné ε > 0 . n→∞
Populárně lze říci, že konzistence odhadu znamená „zhodnocení“ většího rozsahu výběru tím, že pravděpodobnost hrubé chyby při odhadu klesá (říkáme, že konverguje podle pravděpodobnosti k nule). •
Statistika je nestranným odhadem neznámého parametru, platí-li E (Tn ) = Θ . Populárně řečeno, nestranným odhadem se nedopustíme systematické chyby. U některých statistik můžeme ovšem pozorovat pouze tzv. asymptotickou nestrannost, kdy teprve lim E (Tn ) = Θ . Opakem nestranného odhadu je zkreslený n →∞
(vychýlený) odhad. Měřítkem vychýlení odhadu je rozdíl E (Tn ) − Θ . •
Nestranný odhad s nejmenším rozptylem nazýváme maximálně vydatný (nejvydatnější) odhad. Pro nejvydatnější odhad Tn∗ platí D 2 ( T n∗ ) ≤ D 2 ( T n ) , kde Tn je libovolný nestranný odhad. U některých statistik se hovoří o asymptoticky nejvydatnějším odhadu, což znamená, že vydatnost odhadu roste se zvyšujícím se rozsahem výběru. Opět populárně řečeno, nejvydatnější odhad je takový nestranný odhad, jehož použitím se při daném rozsahu výběru dopouštíme nejmenší náhodné chyby.
Nejlepším nestranným odhadem je odhad, splňující výše uvedené vlastnosti nejdokonalejším možným způsobem (lepší odhad neexistuje).
61
Pozor – základním problémem bodového odhadu ovšem je, že se při jeho použití dopouštíme chyby s pravděpodobností jedna (bezchybný bodový odhad neexistuje), přičemž velikost konkrétní chyby, které jsme se dopustili, neumíme stanovit. Bodové odhady parametrů některých rozdělení náhodných veličin Nejprimitivnější metodou konstrukce bodových odhadů je metoda tzv. výběrových protějšků. Ta je ovšem vhodná pouze pro parametry některých rozdělení. Nyní uvedeme některé nejlepší nestranné odhady, které lze získat metodou výběrových protějšků, pokud jsou splněny podmínky, které jsme uvedli u rozdělení statistik X n a p. •
X n = est μ (výběrový průměr jako estimátor střední hodnoty normálního rozdělení),
•
S n2−1 = est σ 2 a S n −1 = est σ (výběrový rozptyl jako estimátor rozptylu normálního rozdělení a výběrová směrodatná odchylka jako estimátor směrodatné odchylky normálního rozdělení),
•
p = est θ (výběrová relativní četnost jako estimátor střední hodnoty alternativního
rozdělení), •
X n = est δ (výběrový aritmetický průměr jako estimátor střední hodnoty exponenciálního rozdělení),
Kromě toho je možné sestrojit bodové odhady pro rozdíl/podíl dvou parametrů, např. •
•
•
X 1 − X 2 = est ( μ1 − μ 2 ) (rozdíl dvou výběrových průměrů jako estimátor rozdílu středních hodnot dvou normálních rozdělení),
S12 σ 12 (podíl dvou výběrových rozptylů jako estimátor podílu rozptylů dvou = est S 22 σ 22 normálních rozdělení), (rozdíl dvou výběrových relativních četností jako estimátor rozdílu středních hodnot dvou alternativních rozdělení). p 1 − p 2 = est ( θ 1 − θ 2 )
I když posledními odhady se zabývat nebudeme, upozorňujeme, že nelze sestrojit bodový odhad pro podíly
μ1 θ 1 a ani pro rozdíl rozptylů σ 12 − σ 22 . μ2 θ 2
Pro parametry některých rozdělení není metoda výběrových protějšků vhodná vůbec. Alternativní (a dokonalejší) metodou bodového odhadu parametrů je metoda maximální věrohodnosti, která všeobecně vede k odhadům s lepšími vlastnostmi, než metoda výběrových protějšků. Bodový odhad parametru Poissonova rozdělení Speciálním případem je pak odhad parametru λ . V tomto případě existuje postup pro odhad tzv. parametrické funkce e − λ , což je konkrétně pravděpodobnost P ( X = 0 ) . Estimáton
rem této parametrické funkce je (bez odvození, jen výsledek) est e
1 n est λ = − ln(1 − ) ∑ X i . n i =1
62
−λ
1 ∑ Xi = (1 − ) i = 1 . Z čehož n
Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Co je statistika a jaký význam má její směrodatná chyba? 2. Co označujeme symbolem velké theta a jaký smysl má zápis Tn = estΘ ? 3. Tvrdím, že pojmy nejlepší nestranný odhad a bezchybný odhad jsou synonyma (znamenají totéž). Mám pravdu? 4. Jak souvisejí kritéria výstižnosti bodového odhadu s hrubými, systematickými a náhodnými chybami, kterých se při bodovém odhadu dopouštíme? 5. Kdy hovoříme o asymptotické nestrannosti a asymptotické vydatnosti bodových odhadů? 6. Čísly 1 až 4 jsou na obrázku označeny čtyři rozdělení možných statistik pro bodový odhad parametru Θ při určitém rozsahu výběru n. Porovnejte je z hlediska nestrannosti a vydatnosti.
3
2 1
4
Θ 7. Uveďte příklady parametrů rozdělení a jejich výběrových protějšků. n −1 2 σ , zatímco E ( S n2−1 ) = σ 2 Jak se tyto střední hodnoty n chovají při rostoucím rozsahu výběru n?
8. Lze dokázat, že E ( S n2 ) =
9. V úvodní části této kapitoly jsme bodový odhad už použili (aniž bychom tento pojem vyslovili). Konkretizujte. 10. Při výrobě LCD monitorů starší generace se objevovaly monitory s vadnými pixely. Počet vadných pixelů na ploše monitoru je veličina s Poissonovým rozdělením s neznámým parametrem λ . Bylo náhodně vybráno 12 monitorů, u nichž byl zjištěn tento počet vadných pixelů: 0, 1, 0, 0, 2, 4, 1, 0, 0, 1, 0, 0. Odhadněte parametrickou funkci e − λ a parametr λ .
63
3.3 Intervalový odhad Nelze zkonstruovat bezchybný bodový odhad a nelze stanovit velikost chyby, které jsme se v konkrétním případě dopustili. To je důvodem přejít k intervalovému odhadu, jehož výsledek je sice vágnější (není to jedno číslo, ale číselný interval), ale výsledek je ve shodě se skutečností s vysokou, předem uživatelem zvolenou, pravděpodobností. Intervaly pro odhad parametrů rozdělení se nazývají konfidenční intervaly, intervaly pro stanovení rozmezí hodnot náhodné veličiny jsou toleranční intervaly. Na principu blízkém intervalovému odhadu jsou sestrojovány regulační diagramy, které se používají při řízení kvality v hromadné průmyslové výrobě. Tvary konfidenčních intervalů •
Statistiku Dα , pro kterou P[Dα ≤ Θ] = 1 − α , kde číslo α je blízké nule, nazveme
dolním odhadem parametru Θ a interval Dα ;+ ∞ ) nazveme levostranným intervalem pro odhad parametru Θ . •
Statistiku H 1−α , pro kterou P[Θ ≤ H 1−α ] = 1 − α , kde číslo α je blízké nule, na-
(
zveme horním odhadem parametru Θ a interval − ∞; H 1−α
nazveme pravo-
stranným intervalem pro odhad parametru Θ . •
Dvojici statistik Dα , H 2
⎡
1−
α 2
⎤
pro které P ⎢ Dα ≤ Θ ≤ H α ⎥ = 1 − α , kde číslo α je blíz1−
⎣
2
2
⎦
ké nule, nazveme oboustranným odhadem parametru Θ a interval
Dα ; H 2
1−
α 2
nazveme oboustranným intervalem pro odhad parametru Θ . Jednotlivé tvary intervalových odhadů se neužívají současně, ale odpovídají vždy řešenému problému. Výše uvedené intervaly se nazývají také intervaly spolehlivosti nebo konfidenční intervaly. Předem zvolené číslo 1 − α , blízké jedné, se nazývá spolehlivostí odhadu, zatímco α je riziko odhadu. Spolehlivost odhadu se často volí např. na úrovni 0,95 nebo 0,99 (hovoří se také o 95% nebo 99% spolehlivosti). Výše uvedené vzorce vypovídají o tom, že očekáváme, že neznámý parametr Θ bude konfidenčním intervalem pokryt s vysokou (a předem zvolenou) pravděpodobností 1 − α blízkou jedné, zatímco jeho nepokrytí (kdy intervalový odhad „selže“) je možné s pravděpodobností α , blízkou nule (selhání odhadu je jevem prakticky nemožným). Nadále budeme konstruovat pouze oboustranné konfidenční intervaly. K jednostrannému intervalu přejdeme vynecháním jedné z obou hranic konfidenčního intervalu, přičemž ovšem zaměníme pravděpodobnosti
α
2
64
a 1−
α
2
za α , 1 − α .
Konfidenční interval pro parametr μ při známém σ nebo velkém rozsahu výběru Při stanovení tohoto (oboustranného) konfidenčního intervalu stačí použít vztah
⎡ ⎤ ⎢ ⎥ Xn −μ ≤ u α ⎥ = 1 − α , jehož snadnou úpravou ( přičemž uα = −u α ) získáme P ⎢u α ≤ σ 1− ⎥ 1− ⎢ 2 2 2 2 ⎢⎣ ⎥⎦ n ⎡ σ σ ⎤ ≤ μ ≤ Xn +u α P⎢ X n − u α ⎥ = 1 − α . Tohoto tvaru konfidenčního intervalu lze 1− 1− n n ⎢⎣ ⎥⎦ 2 2 využít nejen pro známé σ , ale i v případě velkého výběru, je-li n > 30 . V tom případě bez dalších úprav použijeme bodového odhadu Sn −1 = estσ . Všimněte si, prosím, jak se mění zápis konfidenčního intervalu v okamžiku, kdy místo náhodných veličin začneme pracovat s jejich konkrétními hodnotami — realizacemi — z určitého náhodného výběru. Obecně můžeme pro realizaci intervalu psát
x−u
1−
α
σ n
2
≤ μ ≤ x+u
1−
α 2
σ n
(srovnejte s předchozím tvarem).
Výpočet konfidenčního intervalu pro parametr μ Se spolehlivostí 1 − α = 0,95 odhadněte parametr μ . Na základě náhodného výběru o rozsahu n = 40 (velký výběr) byly vypočteny realizace statistik x = 104,6 s n −1 = 12,68 . V tabulkách kvantilů normovaného normálního rozdělení (viz) najdeme u0,975 = 1,960 . Takže
104,6 − 1,96
12,68 40
≤ μ ≤ 104,6 + 1,96
12,68
. S vysokou pravděpodobností (skoro jistě) může-
40
me tvrdit, že neznámý parametr μ se nachází v intervalu (obě hranice jsme zaokrouhlili) 100,6 ≤ μ ≤ 108,6 . Poznámky k příkladu: •
spolehlivost a riziko se běžně udává v procentech (v našem případě 95 % a 5 %),
•
u realizace konfidenčního intervalu už nemluvíme o konkrétní hodnotě spolehlivosti, ale o praktické jistotě,
•
dolní hranici zaokrouhlujeme zásadně směrem dolů, horní nahoru (abychom udrželi, spíše poněkud zvýšili, zadanou spolehlivost),
•
na jednostranné intervaly bychom přešli vypuštěním jedné z obou hranic a nahrazením kvantilů u α , u α kvantily uα , u1−α , 2
1−
2
•
vypočtený konfidenční interval nemá nic společného s intervalem, na kterém se vyskytují jednotlivé realizace náhodné veličiny(!), jde o interval možných hodnot jejich střední hodnoty,
•
vypovídací hodnota konfidenčního intervalu je nepřímo úměrná jeho šířce, kterou dopředu neznáme a vypočtený interval se může jevit jako příliš široký (vzácněji zbytečně úzký).
K poslednímu problému se ještě vrátíme.
65
Konfidenční interval pro parametr μ při neznámém σ a malém rozsahu výběru V případě výběru malého rozsahu ( n ≤ 30) při neznámém σ použijeme estimátor
⎡ S S ⎤ S n −1 = estσ čímž získáme P ⎢ X n − t α n −1 ≤ μ ≤ X n + t α n −1 ⎥ = 1 − α . V konfidenčním 1− 1− n n ⎥⎦ ⎢⎣ 2 2 intervalu jsou použity kvantily Studentova rozdělení s n − 1 stupni volnosti. Konfidenční intervaly pro parametry σ2 , σ
⎡ ⎤ 2 2 ⎥ ⎢ ( n − 1) Sn −1 ( n − 1) Sn −1 ≤σ2 ≤ S použitím rozdělení χ 2 [n − 1] je P ⎢ ⎥ = 1 − α . Pozor – 2 2 χ χ ⎢ ⎥ α α 1− 2 2 ⎣⎢ ⎦⎥ tentokrát nelze kalkulovat se symetrií, protože oba kvantily jsou různá kladná čísla! Hranice konfidenčního intervalu pro směrodatnou odchylku získáme odmocněním hranic konfidenčního intervalu pro rozptyl. Výpočet konfidenčního intervalu pro parametr σ Vypočteme 95% konfidenční interval pro směrodatnou odchylku σ , pokud je známo n = 25, s n2−1 = 426 . V tabulkách kvantilů Pearsonova rozdělení najdeme χ 02,025 [24] = 12,401, χ 02,975 [24] = 39,364
24 ⋅ 4262 24 ⋅ 4262 z čehož 332 ≤ σ ≤ 593 . Můžeme tedy tvrdit, že směrodatná od≤σ2 ≤ 39,364 12,401 chylka se prakticky jistě nachází ve vypočteném rozmezí. Vypočtené intervaly pro σ 2 , σ
nejsou tentokrát symetrické podle realizace statistiky, jako tomu bylo u parametru μ . Stanovení minimálního rozsahu výběru při odhadu μ, σ2
Vypovídací schopnost konfidenčního intervalu je nepřímo úměrná jeho šířce. Veličinou, která v podstatné míře ovlivňuje šířku dosud probraných konfidenčních intervalů (a nejen jejich), je rozsah výběru n. Oba konfidenční intervaly pro střední hodnotu mají analogickou konstrukci, kterou můžeme vyjádřit jako P[Tn − Δ ≤ Θ ≤ Tn + Δ ] = 1 − α . Přitom (je-li použit kvantil veličiny U)
Δ=u
1−
α D(Tn ) . Zatímco
D(Tn ) jsme nazvali směrodatnou chybou, pak po jejím vynásobení
2
příslušným kvantilem získanou veličinu Δ (velká delta) nazveme přípustnou chybou. Přípustná chyba představuje při dané spolehlivosti právě polovinu šířky konfidenčního intervalu. Vyjádříme-li n ze vztahu Δ ≤ u α 1−
2
σ n
u2 α σ 2 , získáme n ≥
1−
2
Δ2
, což je minimální rozsah
výběru, který zabezpečí, aby poloviční šířka konfidenčního intervalu (přípustná chyba) nepřekročila zadanou hodnotu. Prakticky se vypočtené n zaokrouhluje na nejbližší celé číslo směrem nahoru. Očekáváme-li, že rozsah výběru vyjde větší než 30, můžeme hodnotu neznámého parametru σ 2 snadno nahradit výběrovým rozptylem.
66
Konfidenční interval pro rozptyl je svojí stavbou odlišný. Místo absolutního pojetí šířky intervalu ( H − D = 2Δ ) se využívá její relativní pojetí a κ =
χ 2 α [n − 1]
1− H (kappa). Úloha = 22 D χ α [n − 1] 2
se řeší tak, že hledáme oba kvantily pro takový počet stupňů volnosti n − 1 , pro který jejich podíl nepřesáhne zadanou hodnotu κ . Konfidenční interval pro parametr θ V souvislosti s bodovým odhadem parametru θ jsme uvedli podmínku normální aproximace, kdy np(1 − p ) > 9 . Při splnění tohoto předpokladu má výběrová relativní četnost
p −θ má rozdělení n θ (1 − θ ) n p(1 − p ) (předpokládejme, N [0;1] . Bodovým odhadem rozptylu veličiny p je výběrový rozptyl n
p normální rozdělení s E ( p ) = θ , D 2 ( p ) =
θ (1 − θ )
. Veličina U =
že rozsah výběru bude vždy dostatečně velké číslo). Oboustranný konfidenční interval pro parametr θ je (přibližně)
⎡ P⎢ p − u α 1− ⎢⎣ 2
p(1 − p ) ≤θ ≤ p+u α 1− n
2
p (1 − p ) ⎤ ⎥ = 1 − α . I pro tento konfidenční interval je n ⎥⎦
adekvátní obecná konstrukce zmíněná v souvislosti s minimálním rozsahem výběru. Analogicky jako u parametru μ můžeme označit Δ ≤ u α 1−
2
p(1 − p ) , z čehož n ≥ n
u2
1−
α
p(1 − p )
2
Δ2
.
Konfidenční interval pro parametr λ Vyvození tohoto intervalu je poměrně komplikované. Existuje několik jeho možných vyjádření lišících se stupněm přibližnosti výpočtu jeho hranic. Bez vyvození uvádíme přibližný a poměrně „přijatelný“ tvar konfidenčního intervalu využívající kvantily normovaného normálního rozdělení
⎡1 n P ⎢ (∑ X i − u α 1− 2 ⎣⎢ n i =1
n n ⎤ 1 X i ) ≤ λ ≤ (1 + ∑ X i + u α 1 + ∑ X i )⎥ = 1 − α . ∑ 1− n i =1 i =1 i =1 2 ⎦⎥ n
n
Tento tvar konfidenčního intervalu ovšem předpokládá, že
∑X
i
je velké číslo, jinak
i =1
jsou vypočtené hranice málo přesné. Další konfidenční intervaly Na závěr tohoto odstavce konstatujeme, že existují (kromě mnoha jiných) také konfidenční intervaly např. pro parametr δ exponenciálního rozdělení, pro rozdíly parametrů
μ1 − μ 2 a θ 1 − θ 2 a pro podíl
σ 12 – poslední tři jsou tzv. dvouvýběrové intervalové odhady. σ 22
67
Toleranční intervaly Toleranční interval obou- nebo jednostranný vymezuje pro náhodný výběr rozsahu n hranice, mezi kterými se se zvolenou spolehlivostí 1 − α (např. 0.95, 0.99 apod.) bude nacházet 100γ % ( 0 < γ < 1 ) budoucích pozorovaných hodnot.
[
]
Nejjednodušším případem je rozdělení N μ ; σ 2 , jehož toleranční součinitele lze nejsnáze nalézt v příslušné technické literatuře. Oboustranný toleranční interval je v tomto případě dán jako X n ± k 2 [n; γ ;1 − α ]S n −1 . Veličina k 2 je toleranční součinitel, jehož hodnoty závisí na rozsahu výběru n , koeficientu γ a spolehlivosti 1 − α a jsou tabelovány.
Pro ilustraci uvedeme, že např. pro n = 20 , γ = 0,90 a 1 − α = 0,95 bychom v pří-
slušné tabulce nalezli k 2 [20;0,90;0,95] = 2,31 . Pokud má tedy konkrétní náhodný výběr
x = 100, s n −1 = 15 , můžeme pomocí nalezeného tolerančního součinitele tvrdit, že u všech náhodných výběrů ze stejného rozdělení se bude 90 % hodnot nacházet se spolehlivostí 0,95 na intervalu 100 ± 2,31 ⋅ 15 , tedy v rozmezí 65,35 až 134,65. O tolerančních intervalech jsme se zmínili jen pro informaci a inspiraci eventuálních budoucích odborníků na oblast řízení kvality průmyslové výroby. Podstatně dokonalejší informaci o nich poskytují technické normy, např. ČSN ISO 16269-6. Pro úplnost dodáváme, že vedle tolerančních intervalů se používají ještě tzv. předpovědní intervaly, o nichž v ČSN ISO 16269-8. Regulační diagramy Statistická regulace je jednou z oblastí řízení kvality. Provádí se v průběhu výroby a jejím cílem je udržovat proces v předem stanovených mezích. Statistickou regulaci lze klasifikovat z několika hledisek, jde tudíž o různorodou a rozsáhlou problematiku. Grafickým výstupem regulace je regulační diagram, jehož nejdůležitější součástí jsou regulační meze. Mezi regulačními mezemi leží čára, znázorňující nominální (jmenovitou, požadovanou) hodnotu dané charakteristiky kvality. Jedním z nejjednodušších regulačních diagramů je symetrický diagram pro regulaci průměru za předpokladu normality rozdělení. Nominální hodnotu označíme symbolem a, horní regulační mez HM = a + 2
σ
, dolní regulační mez DM = a − 2
n
σ
. σ je výrobní
n
přesnost (daná vlastnostmi výrobního zařízení), n je průměrný rozsah náhodného výběru (pokud jsou prováděny různě početné náhodné výběry), jinak n, a jejich podíl je směrodatná chyba. Koeficient 2 pro případ normality říká, že (libovolná) regulační mez bude překročena s pravděpodobností 0,046 (pro 0,05 by koeficient byl 1,96). Obvykle se konstruují dvoje regulační meze – vnitřní (varovné) a vnější (např. s koeficientem 3). Do grafu se postupně vynášejí skutečné hodnoty zjištěné z odebraných vzorků výrobků. Proces je pod kontrolou (a nevyžaduje regulaci), pokud jsou skutečné hodnoty uvnitř regulačních mezí. Regulační diagram pro rozptyl umožňuje regulovat výrobní přesnost. Využívá Pearsonovo rozdělení a mívá výrazně nesymetricky položené regulační meze. Regulační diagram pro počet vad na jednom výrobku, který má Poissonovo rozdělení s neznámým parametrem λ . Bodovým odhadem est λ jsme se zabývali. V tomto případě má regulační diagram nesymetricky umístěné regulační meze. HM = estλ + u 1−
68
α 2
estλ ,
⎧ ⎫ DM = max ⎨0; estλ − u α estλ ⎬ . Pokud DM=0, je regulační diagram jednostranný a u HM 1− ⎩ 2 ⎭ použijeme kvantil u1−α . Jako odhad parametru λ je možno při velkém rozsahu výběru použít i průměrný počet vad na jednom výrobku. Problematika regulačních diagramů je velmi obsáhlá, využívá se množství „exotických“ (nám neznámých) charakteristik úrovně a variability, a je podrobně zpracována v technických normách. Témata pro tutoriál (resp. pro cvičení na prezenční formě studia) 1. Převeďte tvary konfidenčních intervalů do grafické podoby. 2. Vysvětlete pojmy spolehlivost a riziko odhadu. 3. Jaký vliv na šířku oboustranného konfidenčního intervalu pro parametr μ mají • • •
klesající variabilita náhodné veličiny, ze které je výběr pořízen, rostoucí rozsah výběru n , rostoucí riziko odhadu α .
4. V této souvislosti experimentujte s vypočteným příkladem v textu a změňte vždy jen jednu hodnotu v zadání a zbývající ponechejte. Rozsah výběru zvyšte na dvojnásobbek. Spolehlivost odhadu snižte na 0,90. Estimátor parametru σ zmenšete na polovinu. Porovnejte vždy s původním intervalem. 5. Kdy použijeme při stanovení konfidenčního intervalu pro parametr μ kvantily Studentova rozdělení? Kdy kvantily normovaného normálního rozdělení? 6. Stanovte vztah mezi přípustnou chybou Δ a minimálním rozsahem výběru n pro příklad z úlohy 4. Hodnoty Δ volte postupně 4, 3, 2, 1. Vztah mezi veličinami znázorněte graficky. Jak budete postupovat, pokud rozsah výběru nebude celé číslo a spolehlivost odhadu nesmí v žádném případě klesnout pod 0,95? 7. Pro konfidenční intervaly kterých z parametrů využijete kvantily Pearsonova rozdělení? 8. Uveďte příklady parametrů, jejichž konfidenční intervaly jsou symetrické/nesymetrické vzhledem k hodnotě statistiky Tn . 9. Co znamená zápis P[Tn − Δ ≤ Θ ≤ Tn + Δ ] = 1 − α ? Jak se nazývá veličina Δ ? 10. Jaký vztah je mezi směrodatnou a přípustnou chybou? 11. Šířku kterých konfidenčních intervalů vyjadřujeme absolutně (rozdílem) a kdy použijeme relativní vyjádření (podílem)? 12. Napište směrodatnou a přípustnou chybu pro intervalový odhad parametru θ . 13. Kvantily kterého rozdělení se využívají při konstrukci (přibližného) konfidenčního intervalu pro parametr λ Poissonova rozdělení? Jde o symetrický nebo nesymetrický interval? 14. Na čem závisí hodnota tolerančního součinitele pro oboustranný toleranční interval? 15. S jakou pravděpodobností dojde k překročení libovolné vnější regulační meze pro průměr, pokud každá leží ve vzdálenosti tří směrodatných chyb od nominální hodnoty. Kolika násobek směrodatné chyby odpovídá pravděpodobnosti překročení libovolné regulační meze rovné 0,01?
69
3.4 Testování hypotéz o parametrech rozdělení Techniky testování hypotéz lze bez nadsázky označit jako „vlajkovou loď“ matematické statistiky. Formulace a ověřování hypotéz nejsou vlastní pouze statistice, ale tvoří základní mechanismus postupu lidského vědění v mnoha oborech. Statistika čerpá potřebné informace z náhodných výběrů z rozdělení pravděpodobnosti náhodných veličin. Pole pro testování statistických hypotéz je neobyčejně široké a zahrnuje bez přehánění stovky různých testů a jejich variant. V této části se zaměříme na testy o neznámých parametrech některých rozdělení pravděpodobností. Z předchozí kapitoly již víme, že parametry rozdělení jsou důležité konstanty, bez nichž se neobejde např. řízení kvality (nemusíme „hlídat“ hodnotu náhodné veličiny na každé vyrobené součástce, stačí, když máme pod kontrolou parametry rozdělení), ale mnoho dalších oborů lidské činnosti. Tím, že informace, které jsou k dispozici, pocházejí z náhodných výběrů, je vytvořen prostor pro selhání procedury testování. Výsledek testu nutně nemusí být v souladu s (neznámou) skutečností. Základní principy Statistickou hypotézou rozumíme apriorní předpoklad o určitých vlastnostech náhodné veličiny (např. o její úrovni nebo variabilitě) vyslovený nezávisle na konkrétních informacích o ní. Obecně testované hypotézy o parametrech rozdělení formulujeme nejčastěji tak, že •
náhodný výběr pochází z rozdělení náhodné veličiny, jejíž parametr je roven předpokládané hodnotě Θ = c ,
•
dva náhodné výběry pochází z rozdělení náhodných veličin se stejnou hodnotou parametrů Θ 1 − Θ 2 = 0 ,
Proti testované (říkáme také nulové) hypotéze stavíme její protiklad — alternativní hypotézu. Např. Θ ≠ c , Θ 1 − Θ 2 ≠ 0 . Smyslem testování hypotéz je zamítnutí nulové hypotézy a přijetí hypotézy alternativní. Pouze v tomto případě, kdy se testovaná hypotéza ukáže jako neudržitelná, lze hovořit o jednoznačném výsledku testu. Pokud se nulovou hypotézu nepodaří zamítnout, nelze to považovat za důkaz její správnosti, neboť současně lze zpravidla sestrojit nekonečně mnoho dalších (různých) nulových hypotéz, které by společně s původní za daných okolností zůstaly rovněž nezamítnuty. Testy vycházející z tohoto principu nazýváme testy významnosti a pouze těmito testy se nadále budeme zabývat. Vzhledem k tomu, že při testování hypotéz jsme odkázáni na informace z náhodného výběru, existuje riziko, že výsledek testu nebude v souladu s realitou. Formulace testované a alternativní hypotézy Formulace testované (nulové) hypotézy H0 a alternativní hypotézy H 1 . Např. testovanou (nulovou) hypotézu, že „plnicí linka je správně nastavena“, budeme formulovat jako H 0 : μ = c (kde c je požadované množství výrobku v obalu), kdežto alternativu můžeme zformulovat různě – např. jako H 1 : μ ≠ c – „plnicí linka je nesprávně nastavena“, jako H 1 : μ < c – „linka plní menší množství“ případně H 1 : μ > c – „linka plní větší množství“. Hypotézu, která obsahuje pouze jeden možný případ (takovou hypotézou je právě testovaná hypotéza obsahující =), označíme jako jednoduchou. Alternativní hypotéza je naproti tomu hypotézou složenou, a to buď oboustrannou ( ≠ ) nebo jednostrannou (>, <).
70
V souvislosti s tím se hovoří též o jednostranných a oboustranných testech. Podobně jako u konfidenčních intervalů je vhodný tvar alternativní hypotézy odvozen od konkrétního řešeného problému. Hladina významností Hladina významnosti α je pravděpodobnost (riziko) nesprávného zamítnutí pravdivé nulové hypotézy. Tuto pravděpodobnost lze (na rozdíl od pravděpodobnosti nesprávného nezamítnutí nepravdivé hypotézy) předem zvolit. Prakticky se hladina významnosti často volí na hodnotách α = 0 , 05 ; α = 0 , 01 (tj. stejně jako v předchozím odstavci riziko odhadu), případně podle okolností na jiných vhodných hodnotách. Pozor – v souvislosti s nižší hodnotou α se hovoří o vyšší hladině významnosti. Testové kritérium Testové kritérium je náhodná veličina – statistika, jejíž rozdělení pravděpodobnosti za předpokladu platnosti nulové hypotézy je známo. Jsou tedy známy i jeho kvantily, resp. pravděpodobnosti, že se testové kritérium odchýlí od své předpokládané hodnoty o více, než je libovolná zadaná hodnota. Častými testovými kritérii jsou náhodné veličiny s normovaným normálním rozdělením, Studentovým, Pearsonovým a mnoha dalšími. Pro některé testy jsou dokonce sestrojena unikátní testová kritéria. Hypotézy, ke kterým nelze sestrojit testové kritérium, nelze testovat. Obor „přijetí“ a kritický obor Obor hodnot testového kritéria, do kterého při platnosti nulové hypotézy a zvolené hladině významnosti α kritérium padá prakticky jistě – tj. s pravděpodobností 1 − α , nazýváme oborem „přijetí“ (měli bychom spíše říkat nezamítnutí, protože testovanou hypotézu vlastně nelze přijmout) testované hypotézy. Doplňkem oboru přijetí je tzv. kritický obor, v němž je výskyt testového kritéria za předpokladu platnosti testované hypotézy jevem prakticky nemožným. Pokud se v něm tedy hodnota testového kritéria přesto nachází, svědčí to s velkou pravděpodobností o její neudržitelnosti a ve prospěch alternativní hypotézy. Hranice kritického oboru tvoří tzv. kritické hodnoty, které jsou zároveň i kvantily rozdělení testového kritéria. U oboustranných testů, na které se až na nezbytné výjimky omezíme, je kritický obor α testového kritéria tvořen vždy dvěma samostatnými intervaly, které ohraničují vlevo 100 % 2 α a vpravo 100 (1 − )% kvantil testového kritéria. Pokud má testové kritérium např. 2 Kritický obor testového kritéria U φ(u) 0.4 Obor “přijetí” Kritický obor 0.2
rozdělení N [0 ; 1 ] , je kritický obor oboustranného testu při hladině významnosti α = 0 ,05 tvořen všemi hodnotami testového kritéria, které buď nedosahují kritické hodnoty u α = − u α = − u 0 ,975 = − 1,96 nebo přesahu2
0
1−
2
jí kritickou hodnotu u α = u 0 ,975 = + 1,96 . 1− -3
uα 2
-1
0
1
u α 1−
2
u
2
71
Interpretace výsledků Jednoznačným výsledkem testu je zamítnutí testované hypotézy a přijetí hypotézy alternativní. Pokud je předmětem testování rozdíl skutečné a předpokládané hodnoty parametru, hovoří se v tomto případě o prokázání významného (zvykově na hladině α = 0 ,05 ), resp. vysoce významného (zvykově pro α = 0 ,01 ), rozdílu. Pokud existující rozdíl nepostačí k zamítnutí nulové hypotézy, hovoří se o statisticky nevýznamném rozdílu. Selhání testu Protože jsme při testování odkázáni na informace z náhodného výběru, je přirozené, že výsledek testu nemusí být vždy v souladu se skutečností. •
Nastane-li případ, že testovaná hypotéza je sice pravdivá, ale hodnota testového kritéria přesto padne do kritického oboru, dojde k neoprávněnému zamítnutí testované hypotézy – k chybě prvního druhu. Pravděpodobnost tohoto výsledku je předem známá a dokonce volitelná – jde o pravděpodobnost odpovídající zvolené hladině významnosti α .
•
Nastane-li opačný případ, tj. že testovaná hypotéza není pravdivá, ale testové kritérium přesto nepadne do kritického oboru, dojde k neoprávněnému nezamítnutí nepravdivé testované hypotézy – chybě druhého druhu. Zatímco pravděpodobnost chyby prvního druhu je předem známá a volitelná, lze pravděpodobnost chyby druhého druhu β stanovit (nejde o triviální problém) až po známém výsledku testu. Tato pravděpodobnost je totiž proměnlivá a navíc nepřímo úměrná pravděpodobnosti chyby prvního druhu (čím nižší α , tím vyšší β ).
Síla testu Velmi důležitou kategorií je síla testu 1 − β , což je pravděpodobnost oprávněného zamítnutí testované hypotézy. Problematikou síly testů se kvůli její náročnosti zabývat nebudeme, ale musíme alespoň upozornit na to, že je-li rozdíl skutečné a předpokládané hodnoty parametru (např. μ , σ 2 ,θ apod.) malý, je při malém rozsahu výběru velmi obtížné hypotézu zamítnout (síla testu je malá a reálně hrozí, že i nepravdivá hypotéza zůstane nezamítnuta). Opačným případem je situace, kdy při extrémně vysokém rozsahu výběru (takové případy se stávají, typicky např. při testování hypotéz o tvaru rozdělení) je každý i sebemenší rozdíl bezdůvodně indikován jako významný a i pravdivou hypotézu tedy „nelze nezamítnout“. V souvislosti s chybami při testování si můžeme položit otázku, co můžeme očekávat při mnohonásobném opakovaném provádění statistického testu. •
Při jednotlivých pokusech je pravděpodobnost, že se dopustíme chyby prvního a druhého druhu, dána pravděpodobnostmi α , β a uživatel (pokud jsou tyto pravděpodobnosti malé) vůbec nemusí kalkulovat s tím, že se těchto chyb skutečně dopustí.
•
Při mnohonásobném opakování určitého testu je naopak prakticky jisté, že 100 α % výsledků bude nesprávných z titulu neoprávněného zamítnutí pravdivé hypotézy a 100 β % výsledků bude nesprávných z titulu nezamítnutí nepravdivé hypotézy (které výsledky to konkrétně jsou, se pochopitelně nikdy nedozvíme).
72
Jednovýběrové testy o parametrech některých rozdělení Veškeré potřebné údaje o některých nejfrekventovanějších testech shromáždíme do tabulky. Tvar alternativních hypotéz a kritických oborů vypovídá o tom, že jde o oboustranné testy. Přehled jednovýběrových testů Hypotéza
H0
μ=c
Testové kritérium
H1
μ≠c
Xn −c
U =
σ
( −∞;−u
1−
n
μ=c
σ
2
= c
θ =c
λ =c
μ≠c
σ
2
≠ c
θ ≠c
λ ≠c
t=
Xn −c S n −1 n
χ2 = U =
U=
( n − 1) S n2−1 c p−c c (1 − c ) n
Xn −c c
Stupně volnosti
Kritický obor
( −∞;−t
1−
α
>∪
1−
2
α
>∪
2
1−
α
; ∞)
2
α
; ∞)
1−
( −∞;−u
( −∞;−u
1−
1−
α 2
α 2
2
>∪
1−
>∪
1−
α
neznámé σ a n ≤ 30
n −1
¯
; ∞)
¯
; ∞)
¯
2
α 2
známé σ nebo n > 30
n −1
2
(0; χ α2 > ∪ < χ 2 α ; ∞ ) 2
¯
Podmínky testu
nc (1 − c ) > 9
nc > 30
n
Příklad testu Ověříme hypotézu, že tvrzení výrobce o střední hodnotě životnosti součástky 2400 hodin je pravdivé, tj. H 0 : μ = 2400 proti alternativě H 1 : μ ≠ 2400 . Zvolíme obě obvyklé hladiny významnosti (tj. 0,05 i 0,01). Náhodný výběr má n = 25 , x = 2022 , s n −1 = 426 . Realizace testového kritéria z předchozí tabulky t = 2022 − 2400 = − 4,44 . 426
25 Hranice kritického oboru jsou pro α = 0,05 ± t 0 , 975 [24 ] = ± 2,064
zatímco pro
α = 0,01 ± t 0 , 995 [24 ] = ± 2,797 . Testové kritérium spadá do kritického oboru při obou hladinách významnosti. Testovanou hypotézu tedy na obou hladinách zamítáme, přijímáme hypotézu alternativní. Rozdíl mezi udávanou a skutečnou životností můžeme označit za vysoce významný.
73
Poznámky k příkladu: •
stejný rozdíl v čitateli testového kritéria může být podle okolností prohlášen za nevýznamný, významný či vysoce významný, protože vypočtená hodnota testového kritéria závisí také na variabilitě náhodné veličiny (nebo jejím odhadu) a rozsahu výběrového souboru,
•
odpovídající si konfidenční intervaly a testy hypotéz jsou ve vzájemně jednoznačném vztahu – je-li na hladině významnosti α testovaná hypotéza o neznámém parametru H 0 : Θ = c zamítnuta, pak konfidenční interval při riziku α neobsahuje číslo c, a naopak,
•
k předchozímu bodu dodáváme, že nejde o zbytečné zdvojení problematiky, neboť ne ke všem testům lze sestrojit odpovídající konfidenční intervaly,
•
o pravdivosti tvrzení, že při extrémně malém rozsahu výběru je obtížné testovanou hypotézu zamítnout, se můžeme přesvědčit, pokud bychom položili n = 5 , protože vypočtená hodnota testového kritéria by v tomto případě padla do oboru „přijetí“ (t = –1,98),
•
naproti tomu při extrémně velkém rozsahu výběru např. n = 1000, by byl za vysoce významný prohlášen už rozdíl v čitateli přesahující hodnotu 38 hodin,
•
k řešení této konkrétní úlohy by byl zřejmě vhodnější jednostranný test s alternativní hypotézou H 1 : μ < c ,
•
test v příkladu je všeobecně známý pod názvem t-test.
Dvouvýběrové testy o parametrech rozdělení Všechny údaje o těchto testech opět prezentujeme v podobě tabulky. Podoba alternativní hypotézy a jí odpovídající vymezení kritického oboru odpovídají oboustranným testům. Upozorňujeme na nejpoužívanější test hypotézy H 0 : μ 1 − μ 2 = 0 , u kterého přichází v úvahu tyto varianty: •
Dva nezávislé výběry buď se známými rozptyly σ 12 , σ 22 (případně s velkými rozsahy výběrů n 1 , n 2 ) nebo s neznámými rozptyly, které jsou nahrazeny bodovými odhady S12 , S 22 . Poslední případ vyžaduje provést nejprve ověření tzv. homogenity rozptylů. Podle výsledku testu o rozptylech se pak volí odpovídající testové kritérium. Tento případ ponecháme stranou, protože bychom museli zavést další náhodnou veličinu (F).
•
Dva závislé výběry s párově uspořádanými dvojicemi měření x i , y i (kdy n 1 = n 2 ). V tomto případě nahrazujeme zjištěné hodnoty jejich rozdíly ve dvojicích d i = x i − y i a d =
1 n
n
∑ d i , sd = i =1
1 n ∑ (d i − d ) 2 . n − 1 i =1
74
Přehled dvouvýběrových testů Hypotéza
H0 μ1 − μ 2 = 0
Testové kritérium H1
X1 − X 2
U=
μ1 − μ 2 ≠ 0
σ
2 1
n1 μ1 − μ 2 = 0
μ1 − μ 2 ≠ 0
μ1 − μ 2 = 0
μ1 − μ 2 ≠ 0
E(D) = 0
E (D) ≠ 0
σ 12 =1 σ 22 θ1 − θ 2 = 0
Stupně volnosti
Kritický obor
t=
θ1 − θ 2 ≠ 0
σ
n1 + n 2 ( n1 − 1) S12 + ( n 2 − 1) S 22 n1n 2 n1 + n 2 − 2 X1 − X2 n 2 S + n1 S 2 1
t=
2 2
n1 n 2
D n S ( D)
( −∞;−t
( −∞;−t
( −∞;−t
S12 F = 2 ≥1 S2 U=
1−
α
>∪
1−
2
α
; ∞)
2
¯
Nezávislé výběry, známé rozptyly nebo velké rozsahy výběrů
n1 + n 2 − 2
Nezávislé výběry, neznámé homogenní rozptyly
redukované (je třeba spočítat)
Nezávislé výběry, neznámé nehomogenní rozptyly
n −1
Párově uspořádané výběry, D = X −Y
n2
X1 − X 2
t=
σ 12 ≠1 σ 22
+
( −∞;−u
2 2
p1 − p2 ( n1 p1 + n2 p2 )( n − n1 p1 − n2 p2 ) ( n1 + n2 )n1n2
1−
1−
1−
α
>∪
2
α
>∪
2
α
>∪
2
1−
( −∞;−u
Testy na 2., 3. a 5. řádku ponecháváme stranou.
75
1−
α 2
α
1−
1−
1−
α
; ∞)
2
α
; ∞)
2
α
; ∞)
2
; ∞)
n 1 − 1; n 2 − 1
2
>∪
1−
α 2
; ∞)
Podmínky testu
¯
Test homogenity rozptylů
Velké rozsahy výběrů
Statistické přejímky Statistická přejímka je typickým příkladem využití techniky testování hypotéz v praxi. Statistická přejímka je procedura, která na základě náhodného výběru při předávání hromadné dodávky umožňuje dospět k jednomu ze dvou rozhodnutí: dodávku přijmout nebo odmítnout. Pravděpodobnost chyby prvního druhu je riziko dodavatele (kvalitní dodávka bude odmítnuta), pravděpodobnost chyby druhého druhu je riziko odběratele (nevyhovující dodávka bude přijata). Kontrola výrobků je prováděna buď měřením nebo srovnáváním. Výhody rychlejší a levnější kontroly srovnáváním jsou „zaplaceny“ podstatně vyšším rozsahem výběru, který je v tomto případě potřebný k přijetí rozhodnutí. Přejímací plán při přejímce srovnáváním je uspořádaná dvojice čísel {n; c}, kde n je rozsah výběru a c je akceptační číslo (je to takový maximální počet vadných výrobků ve výběru, při kterém dodávku ještě přijmeme). Pravděpodobnost přijetí dodávky se nazývá operativní charakteristika a je funkcí p (podílu vadných výrobků), n a c. Označuje se L( p, c, n) . Typickým rozdělením při přejímce srovnáváním je hypergeometrické rozdělení počtu vadných výrobků x ve výběru o rozsahu n z dodávky N výrobků, mezi nimiž je M vadných (jsou-li splněny podmínky, toto rozdělení lze aproximovat binomickým, normálním, případně Poissonovým rozdělením). Obě strany přejímky (dodavatel, odběratel) stanoví své podmínky. Dodavatel stanoví přípustnou úroveň kvality p0 a riziko α , že dodávka s těmito parametry bude odmítnuta. Odběratel stanoví nepřípustnou úroveň kvality p 1 (jde-li o podíl vadných výrobků v dodávce, je p1 > p 0 ) a riziko β , že dodávku této kvality bude muset přijmout. Je třeba zdůraznit, že statistická přejímka má smysl v pouze případě, že dodavatel je (s určitým úsilím) schopen dostát požadavkům odběratele na kvalitu. Jsou-li požadavky odběratele na kvalitu dodávek snadno splnitelné nebo naopak zcela nesplnitelné, je zřejmé, že statistická přejímka nemá smysl (její výsledek by byl předem známý). Z tohoto pohledu je tedy statistická přejímka nejen technickou, ale i navýsost ekonomickou záležitostí. K problematice statistických přejímek existuje rozsáhlá literatura, včetně několika technických norem, které ji upravují.
76
3.5 Některé další testy hypotéz (ukázky) Testování shody rozdělení Náhodný výběr z rozdělení pravděpodobnosti může být malého rozsahu (v tom případě bude zpravidla netříděný) nebo velkého rozsahu, přičemž může být tříděný nebo netříděný. Probereme pouze případ výběru velkého rozsahu n, tříděného do k intervalů. Testuje se hypotéza, že hodnoty jsou náhodným výběrem z určitého rozdělení pravděpodobnosti. Pokud jsou známy parametry tohoto rozdělení, hovoříme o úplně specifikovaném problému, pokud parametry rozdělení neznáme, jde o neúplně specifikovaný problém. Princip testu spočívá v obou případech v tom, že pozorované (empirické, skutečné) četnosti n i (i = 1,2,..., k ) v jednotlivých intervalech se porovnávají s četnostmi očekávanými (vypočtenými, teoretickými) ni′ , stanovenými pro příslušné rozdělení pravděpodobnosti náhodné veličiny. ( n i − n i′ ) 2 , která má za předpokladu platnosti n i′ i =1 testované hypotézy Pearsonovo rozdělení s počtem stupňů volnosti, který je k
Testovým kritériem je veličina χ 2 = ∑
•
u úplně specifikovaného problému, kdy jsou známy parametry, dán jako k − 1,
•
u neúplně specifikovaného problému, kdy je třeba z výběru nejprve odhadnout parametry rozdělení a teprve pak určovat příslušné teoretické četnosti, roven k − p − 1 , kde p je počet odhadovaných parametrů.
Podmínkou použití Pearsonova rozdělení je ni′ > 5 ve všech intervalech. V případě, že tato podmínka není splněna, je třeba sousední intervaly spojit, čímž dojde k poklesu počtu stupňů volnosti testového kritéria. Příklad testu dobré shody Ověříme hypotézu, že výběr o rozsahu n = 80 tříděný do k = 5 intervalů pochází z rovnoměrného rozdělení se známými parametry α = 0 , β = 100 . Hladina významnosti α = 0 ,05 . Pracovní tabulka k testu dobré shody Vymezení Empirická Teoretická Intervalu četnost četnost 0; 20 ) 20 ; 40 ) 40 ; 60 ) 60 ; 80 ) 80 ; 100 )
Součet
11 20 14 16 19 80
16 16 16 16 16 80
(ni − ni′ ) 2 n i′
1,5625 1,0000 0,2500 0,0000 0,5625 3,3750
Vypočtená hodnota χ 2 = 3,3750 . Tabulková hodnota χ 02, 95 [4 ] = 9, 49 . Hypotézu tedy není možno zamítnout.
Teoretické četnosti ni′ se stanovují •
pro diskrétní náhodnou veličinu jako součin rozsahu výběru n a hodnoty pravděpodobnostní funkce P(x),
77
•
pro spojitou náhodnou veličinu n 1′ = nF ( x 1 ), další hodnoty jsou pak stanoveny jako ni′ = n( F ( xi ) − F ( xi −1 )) a poslední hodnota n k′ = n (1 − F ( x k −1 )) kde F ( x ) je distribuční funkce.
Poznámky k příkladu: •
Test pomocí kritéria χ 2 se nazývá testem dobré shody.
•
Kritický obor tohoto testu je množina všech hodnot testového kritéria, které přesahují hodnotu 100 (1 − α )% kvantilu rozdělení χ2 – tento test existuje jen jako jednostranný (žádné rozdělení nemůže z principu být např. „rovnoměrnější“ nebo „normálnější“, než rozdělení rovnoměrné nebo normální).
•
Nejčastěji se pomocí testů shody rozdělení (kterých je velký počet – viz různé situace naznačené na začátku tohoto odstavce) ověřuje normalita rozdělení pravděpodobnosti náhodné veličiny.
Odlehlé hodnoty •
Tradiční řešení problému identifikace odlehlých hodnot reprezentuje např. Grubbsův test extrémních odchylek, založený za předpokladu normálního rozdělení N μ ;σ 2 na tom, že P [ X − μ > 2σ ] = 0 , 046 < α = 0 , 05 . Při této hladině význam-
[
]
nosti tedy považujeme za odlehlou hodnotu každou hodnotu h, pro kterou h − X n > 2 S n −1 . Příklad tradičního přístupu Je dán uspořádaný náhodný výběr 2, 3, 4, 5, 6, 7, 8, 9, 100, 100, pro který x = 24 ,4 a = 39,9 . Pro hodnotu h = 100 je 100 − 24 , 4 = 1,89 s n −1 a hodnota 100 není tedy, jistě pře-
s n −1 kvapivě, identifikována jako odlehlá.
Použití aritmetického průměru a směrodatné odchylky není pro řešení problému odlehlých hodnot příliš efektivní a vede často k výsledkům, které jsou v rozporu s logikou. •
K řešení problému identifikace odlehlých hodnot lze s úspěchem využít robustního přístupu založeného na charakteristice MAD (median absolute deviation), tj. prostřední (mediánové) absolutní odchylce od mediánu jako robustní charakteristice variability. MAD je prostřední v řadě uspořádaných odchylek x (i ) − ~ x a mezi ní a směrodatnou odchylkou je vztah estσ =
[
]
odchylka N μ ; σ 2 . Klasické kritérium h − X riem h − ~ x >2
n
MAD , kde σ je směrodatná 0,6745
> 2 S n −1 je tedy nahrazeno krité-
MAD . 0,6745
Příklad robustního přístupu Pro uspořádaný náhodný výběr z předchozího příkladu je medián roven 6,5 a
MAD = 3 . Proto 2
MAD = 8,9 . Jako odlehlá tedy bude označena každá hodnota, jejíž od0,6745
chylka od mediánu je větší než právě vypočtená hodnota. To se týká hodnoty 100, u níž je tato odchylka rovna 93,5 .
78
Tento odstavec chápeme současně jako malou demonstraci významu „neklasických“ robustních metod ve statistice. Je třeba si ovšem uvědomit, že žádná metoda nedokáže identifikovat hrubé chyby za situace, kdy je hrubou chybou zatížena podstatná část pozorování. Rozhodnutí o vyloučení odlehlé hodnoty je vždy problematické. Nevyloučení hodnoty, která je hrubou chybou, představuje problém, stejně jako vyloučení hodnoty, která hrubou chybou není. Výskyt odlehlých hodnot lze běžně očekávat asymetrických rozdělení s jedním dlouhým koncem, kde není samozřejmě důvod je vat.
odlehlé odlehlé u silně vylučo-
Ověření normality Jak jsme již uvedli, jedním z nejfrekventovanějších požadavků je ověření předpokladu normality rozdělení. Existuje řada testů založených na různých principech. Jedním z pro uživatele nejjednodušších (pokud má k dispozici příslušný program), ale nepříliš exaktních způsobů ověření normality, je použití normálního pravděpodobnostního grafu. Tento graf má na svislé ose hodnoty distribuční funkce normálního rozdělení. Ta je v grafu transformována do rostoucí přímky. Tečkový diagram netříděného náhodného výběru má v případě normality přibližně tvar této přímky. Jiné tvary svědčí proti hypotéze o normalitě. Posouzení je ovšem subjektivní záležitostí uživatele. Normální pravděpodobnostní grafy
[
]
Na obrázku vlevo je 50 hodnot náhodné veličiny, generované jako N 10;2 2 . Na obrázku vpravo je tentýž počet hodnot generovaný z exponenciálního rozdělení s parametrem δ = 10 . Na první pohled je vidět nelineární průběh a přítomnost jedné extrémně odlehlé hodnoty. Toto je ovšem snadný případ, protože rozdělení na obrázcích jsou známá. Neparametrické metody a testy Neparametrické metody předpokládají takové úpravy v datech, kterými se neznámé rozdělení (za cenu ztráty části informace obsažené v datech), převede na rozdělení známé. Jednou z těchto metod je tzv. znaménková metoda, kterou se hodnoty náhodného výběru z neznámého spojitého rozdělení převedou na posloupnost symbolů dvojího druhu (např. znamének + a –), čímž je úplně ztracena informace o jejich velikosti.
79
Nechť X 1 , X 2 ,..., X n je náhodným výběrem z neznámého spojitého rozdělení s mediánem x0,50 . Testovaná hypotéza H 0 : x 0,50 = c proti oboustranné alternativě H 1 : x 0 ,50 ≠ c . Počet kladných odchylek od mediánu v souboru o rozsahu n označíme jako
náhodnou veličinu Z. Tato veličina má binomické rozdělení se střední hodnotou E ( Z ) =
n a 2
2Z − n n . Je-li rozsah výběru dostatečně velký, lze potom veličinu U = 4 n aproximovat rozdělením N [0 ; 1 ] . Kritický obor testového kritéria je stejný jako u všech ostatních oboustranných testů s kritériem U. rozptylem D 2 ( Z ) =
Příklad znaménkové metody Pro výběr o rozsahu n = 50 předpokládáme hodnotu mediánu x 0 ,50 = 330 . V datech bylo ovšem zjištěno celkem z = 35 kladných odchylek od této hodnoty. Ověříme hypotézu o hodnotě mediánu na hladině významnosti α = 0 ,01 . Vypočtená hodnota testového kritéria u =
2 ⋅ 35 − 50 50
= 2,83. Porovnáním s hranicemi
kritického oboru, tj. hodnotami ± 2 ,576 dospíváme k závěru, že hypotéza je na hladině α = 0 ,01 neudržitelná a je třeba ji zamítnout. Další používanou neparametrickou metodou je metoda pořadová, při níž nahrazujeme hodnoty uspořádaného náhodného výběru pořadovými čísly, čímž se (za cenu ztráty informace o rozdílech sousedních hodnot) dostáváme k diskrétnímu rovnoměrnému rozdělení.
Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Tvrdím, že hlavním účelem testování je dokázat pravdivost testované hypotézy. Mám pravdu? Pokud ne, uveďte na pravou míru. 2. Rozeberte pojmy hypotéza jednoduchá/složená, jednostranná/oboustranná a přiřaďte je k testované a alternativní hypotéze. 3. Rozeberte pojem hladina významnosti. 4. Proč hovoříme o oboru „přijetí“ (v uvozovkách)? 5. Vyhledejte v tabulce jednovýběrových testů testová kritéria ve tvaru
Tn − c D ( Tn )
( Tn je
statistika a D(Tn ) je její směrodatná chyba). 6. Testové kritérium nepadlo/padlo do kritického oboru. Které chyby je možno/není možno se v obou případech dopustit?
80
7. Doplňte následující „slepou“ tabulku Výsledek testu zamítnutí nezamítnutí Testovaná hypotéza je
pravda nepravda
8. Jaký vztah je mezi konfidenčním intervalem pro parametr Θ při riziku α a výsledkem testu H 0 : Θ = c při hladině významnosti α ? 9. Propočtěte čtvrtý a pátý bod poznámek k příkladu o testování parametru μ . 10. Náhodný výběr z Poissovona rozdělení je tvořen hodnotami 1, 2, 2, 0, 4, 0, 1, 2, 3, 1, 1, 1, 0, 1, 1, 1, 0, 1, 2, 0. Ověřte hypotézu H 0 : λ = 2,5 proti oboustranné alternativě H 1 : λ ≠ 2 , 5 na hladině významnosti α = 0 ,05 . 11. Při srovnání dvou měřicích přístrojů bylo deset vzorků měřeno na obou přístrojích. Rozdíly naměřených hodnot jednotlivých vzorků jsou d i = −2, 0, 1, 3, 4, − 1, 2, 2, 3, 3 . Ověřte na hladině významnosti 0,01 hypotézu o shodě naměřených hodnot. 12. Charakterizujte styčné body a hlavní rozdíly testování hypotéz a statistické přejímky. 13. Algoritmus údajně generuje realizace náhodné veličiny s Poissonovým rozdělením. Výsledky generování pro 50 hodnot jsou tříděny v tabulce.
xi 0 1 2 3 4 5
ni 7 12 17 7 5 2 Testem dobré shody ověřte pro α = 0 ,05 hypotézu, že jde skutečně o náhodný výběr z Poissonova rozdělení s parametrem λ , který nejprve vypočtěte z dat (tj. jde o neúplně specifikovaný problém). Nezapomeňte zapracovat podmínku ni′ > 5 . 14. Jak vypadá a k čemu slouží normální pravděpodobnostní graf? 15. Které „triky“ (mimo jiné) se u neparametrických testů používají k transformaci neznámého rozdělení na známé? K jakým ztrátám informace z dat při tom dochází?
81
Shrnutí třetí kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou •
klasifikace úloh s náhodnými veličinami podle množství informace, která je k dispozici o jejich zákonech rozdělení a parametrech,
•
pojem náhodného výběru a jeho atributy,
•
přehled nejdůležitějších výběrových charakteristik – statistik,
•
rozdělení pravděpodobnosti veličin U 2 , ∑U i2 a t a jejich parametry (pojem stup-
n
i =1
ně volnosti), •
rozdělení pravděpodobnosti výběrového průměru, výběrového rozptylu a výběrové relativní četnosti, jejich střední hodnoty a rozptyly,
•
chování výběrového průměru v souvislosti s rostoucím rozsahem výběru,
•
princip bodového odhadu a jeho použití, kritéria výstižnosti a jejich vztah k chybám odhadu,
•
metody konstrukce bodových odhadů (metoda výběrových protějšků),
•
princip a vlastnosti intervalového odhadu (ve srovnání s bodovým odhadem),
•
tvary konfidenčních intervalů včetně jejich grafického znázornění,
•
pojmy spolehlivost a riziko, směrodatná a přípustná chyba,
•
praktický výpočet některých konfidenčních intervalů (pro μ , σ 2 , σ , θ , λ ),
•
vztahy mezi vypovídací hodnotou a šířkou konfidenčního intervalu a stanovení minimálního rozsahu výběru,
•
interpretace tolerančních intervalů a regulačních diagramů (rámcově),
•
princip a základní pojmy testování hypotéz o parametrech rozdělení,
•
obecný postup při testování (od formulace hypotéz po interpretaci výsledků),
•
možná selhání statistických testů významnosti a jejich interpretace,
•
praktický výpočet probraných jedno– a dvouvýběrových testů s důrazem na interpretaci výsledků,
•
interpretace statistické přejímky (rámcově),
•
testování tvaru rozdělení na příkladu testu dobré shody,
•
možné přístupy k identifikaci odlehlých hodnot,
•
interpretace neparametrických metod a testů (rámcově).
82
Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor •
další statistiky, jejich rozdělení pravděpodobnosti (zavedení Fisherova-Snedecorova rozdělení F), a charakteristiky,
•
uspořádané výběry, pořádkové statistiky a jejich rozdělení,
•
podstatné prohloubení problematiky teorie bodových odhadů,
•
rozšíření bodových odhadů o další případy,
•
problematika maximálně věrohodných odhadů,
•
rozšíření intervalových odhadů o další případy (např. konfidenční intervaly pro rozdíl nebo podíl dvou parametrů),
•
stanovení pravděpodobnosti chyby druhého druhu a měření síly testů,
•
podstatné rozšíření testů o parametrech rozdělení o další případy,
•
podstatné rozšíření problematiky testování shody rozdělení (výběry malého rozsahu, netříděné výběry),
•
podstatné rozšíření problematiky neparametrických metod a neparametrických testů,
•
aplikace metod matematické statistiky na statistickou regulaci a přejímku.
K této problematice existuje množství titulů propastně se lišících zejména nároky, které jsou kladeny na matematickou průpravu čtenáře. Kromě odborné literatury se této problematice věnuje i řada technických norem, a to nejen pokud jde o problematiku statistické regulace a přejímky. Literaturu odpovídající schopnostem a zaměření konkrétního zájemce lze dohledat na internetu v nabídkách knihkupectví a knihoven, zejména vysokoškolských. Za všechny můžeme doporučit vybrané kapitoly z knih •
MELOUN, M., MILITKÝ, J. Kompendium statistického zpracování dat. Praha: Karolinum, 2013, 984 stran. ISBN 978-80-246-2196-8.
•
HENDL, J. Přehled statistických metod. Praha: Portál, 2012, 734 stran. ISBN 97880-262-0200-4.
83
Kapitola 4
Metoda nejmenších čtverců
V pokusných podmínkách se často setkáme se situací, kdy experimentátor aktivně nastavuje hodnoty jedné – tzv. vysvětlující veličiny a měří hodnoty druhé – vysvětlované veličiny, která je vůči ní v příčinné souvislosti. Vysvětlující veličina je tedy veličinou řízenou s pevně nastavenými hodnotami. Vysvětlovaná veličina je pozorovanou (náhodnou) veličinou, jejíž hodnoty zčásti souvisí s hodnotou vysvětlující veličiny, ale zčásti závisí na náhodě.
4.1 Regresní úloha Takovouto závislost nazýváme příčinnou stochastickou jednostrannou závislostí (veličiny jsou nezaměnitelné, ale jejich závislost je vždy vzájemná). Cílem je změřit průběh závislosti (případně směr závislosti, pokud je její průběh monotónní) a intenzitu závislosti. Úlohu o měření takto formulované závislosti nazýváme regresní úlohou. Adekvátní metodou pro řešení regresní úlohy je Gaussova metoda nejmenších čtverců. Ta prokládá naměřenými hodnotami regresní čáru a intenzitu závislosti měří pomocí tzv. indexu korelace. Omezení, která přijmeme při řešení regresní úlohy, je použití funkce jedné proměnné, která je současně lineární v parametrech. Hodnoty řízené vysvětlující veličiny X a pozorované hodnoty vysvětlované náhodné veličiny Y představují body v rovině o souřadnicích [ x i ; y i ] pro i = 1,2,..., n , kde n je rozsah souboru (tj. celkový počet dvojic hodnot v úloze). Deterministická a stochastická závislost v tečkových diagramech
y
y
x
x
Grafické znázornění se nazývá tečkový diagram. Zatímco v případě tzv. deterministických závislostí (typických např. pro klasickou fyziku) leží body na určité matematické čáře a případné odchylky jsou způsobeny pouze chybami měření, tak v případě stochas-
84
tických závislostí jde o „mračno“ bodů, kdy je třeba tvar regresní funkce (přímka, parabola, hyperbola, …) vyvodit ze zákonitostí příčinného vztahu mezi oběma veličinami a její parametry (tj. číselné koeficienty v rovnici funkce) je třeba vypočítat z konkrétních dat. Na tečkovém diagramu si povšimněte •
že obě závislosti mají monotónní rostoucí průběh – v tomto případě hovoříme o pozitivní závislosti a v opačném případě by šlo o závislost negativní,
•
že v případě stochastické závislosti leží pozorované hodnoty vysvětlované veličiny přesně na regresní funkci pouze náhodou.
4.2 Měření průběhu závislosti Jako regresní funkce volíme mezi funkcemi lineárními v parametrech – pak jde o tzv. lineární regresi – funkce s co nejmenším počtem parametrů a jednoduchým průběhem. Účelem měření průběhu závislosti je vystihnout základní zákonitosti vztahu vysvětlující a vysvětlované veličiny, nikoli to, aby funkce prošla co největším počtem pozorovaných hodnot. Funkce lineární v parametrech Funkci jedné proměnné y = f (x ) nazveme lineární v parametrech, pokud ji lze vyjádřit ve tvaru y =
m
∑b j =0
j
f j ( x ) (tj. součtu součinů – skalárního součinu), kde b j jsou parametry
funkce a index j = 0,1,2,..., m signalizuje, že funkce obsahuje absolutní člen b0 . Funkce
f j (x ) jsou regresory funkce, které nesmí obsahovat žádné další parametry. Funkcemi line−1 árními v parametrech jsou např. všechny polynomiální funkce y = b0 + b1 x, y = b0 + b1 x ,
y = b0 + b1 x + b2 x 2 … atd. a mnoho dalších typů. Nejjednodušší regresní funkcí je první z uvedených funkcí – regresní přímka. Funkcemi, které nejsou lineární v parametrech (nelze je zapsat výše uvedeným způsobem), jsou např. y = b0 x b1 , y =
1 x , y = b0 + b1b2 a b0 + b1 x
rovněž mnoho dalších. Vzhledem k tomu, že právě tato druhá kategorie funkcí patří mezi mimořádně důležité, řekneme aspoň, že hodnoty jejich parametrů hledáme pomocí tzv. nelineární regrese, jejíž výklad ovšem přesahuje možnosti tohoto textu. Pozorované a vypočtené hodnoty Z bodového diagramu stochastické závislosti vyplývá, že u vysvětlované veličiny Y se hodnoty pozorované a odpovídající hodnoty ležící na regresní funkci zpravidla liší. Musíme tedy rozlišovat •
pozorované hodnoty vysvětlované veličiny, které značíme y i ,
•
vypočtené hodnoty vysvětlované veličiny ležící na regresní funkci, které značíme y i′ .
Pozorované hodnoty se také někdy nazývají empirické a vypočtené hodnoty teoretické nebo vyrovnané. Regresní funkci proto budeme důsledně značit y ′ = f (x ) a na ní ležící hodnoty (její body) y i′ = f ( x i ) . To na vysvětlenou, proč se index i ve vzorcích někdy objevuje a někdy ne.
85
Kritérium nejmenších čtverců n
Vztah
∑( y
i
− y i′ ) 2 → min se nazývá kritérium nejmenších čtverců. Princip metody
i =1
nejmenších čtverců spočívá v nalezení minima uvedeného výrazu pro regresní funkci zvoleného typu (zvolit adekvátní typ funkce je zcela na zkušenostech uživatele). Pro funkce lineární v parametrech je úloha – tzv. lineární regrese – snadno řešitelná, protože jde o klasický případ nalezení extrému funkce položením prvních parciálních derivací neznámých (těmi jsou v tomto případě hledané parametry regresní funkce uživatelem předem zvoleného typu) nule. Pokud nějaká funkce vyhovuje kritériu nejmenších čtverců, splňuje současně i kritén
rium
∑( y i =1
i
− y i′ ) = 0 , které říká, že kladné a záporné odchylky pozorovaných a vypočtených
hodnot se kompenzují. Toto kritérium však neurčuje regresní funkci jednoznačně. Soustava normálních rovnic Položíme-li každou z m + 1 parciálních derivací kritéria nejmenších čtverců podle parametrů b0 , b1 ,..., bm nule, získáme soustavu m + 1 normálních rovnic, které jsou pro regresní funkci lineární v parametrech lineárními rovnicemi s neznámými b0 , b1 ,..., bm . Hodnoty neznámých vypočteme řešením této soustavy lineárních normálních rovnic. Tento postup ukážeme na příkladu uživatelem apriori zvolené kvadratické funkce y ′ = b0 + b1 x + b2 x 2 . n
Kritérium nejmenších čtverců je v tomto případě
∑( y
− b0 − b1 x i − b2 x i ) 2 → min . 2
i
i =1
Neznámé jsou b0 , b1 , b2 a budeme tedy řešit soustavu tří lineárních normálních rovnic. Operátor sčítání nemá na derivování žádný vliv (jen ho opisujeme). Derivovaná funkce je složená. Derivace složené funkce je součinem derivací vnější (druhá mocnina) a vnitřní (obsah závorky) funkce. Takže parciální derivace postupně podle b0 , b1 , b2 n
∂ ∑ ( y i − b0 − b1 x i − b2 x i ) 2 2
i =1
∂b0 n
n
= 2∑ ( y i − b0 − b1 x i − b2 x i )( −1) 2
i =1
∂ ∑ ( y i − b0 − b1 x i − b2 x i ) 2 2
i =1
∂b1 n
n
= 2∑ ( y i − b0 − b1 x i − b2 x i )( − x i ) 2
i =1
∂ ∑ ( y i − b0 − b1 x i − b2 x i ) 2 2
i =1
∂b2
n
= 2∑ ( y i − b0 − b1 x i − b2 x i )( − x i ) 2
2
i =1
Jednoduchou úpravou a položením všech tří parciálních derivací nule získáme soustavu normálních rovnic ve tvaru
86
n
n
n
i =1
i =1
i =1
∑ y i − nb0 − b1 ∑ xi − b2 ∑ xi2 = 0 n
n
n
n
i =1
i =1
i =1
i =1
n
n
n
n
i =1
i =1
i =1
i =1
∑ x i y i − b0 ∑ x i − b1 ∑ x i2 − b2 ∑ x i3 = 0 ∑ x i2 y i − b0 ∑ x i2 − b1 ∑ x i3 − b2 ∑ x i4 = 0 Všechny součty určíme z konkrétních dat a soustavu vyřešíme libovolným způsobem. Výpočet parametrů Jednou z možností je využít maticový výpočet, kde sloupcový vektor parametrů
⎡ b0 ⎤ T −1 T b = ⎢ b1 ⎥ stanovíme jako b = (F F) F y , kde ⎢ ⎥ ⎢⎣b2 ⎥⎦
⎡ y1 ⎤ ⎢y ⎥ y = ⎢ 2 ⎥ je sloupcový vektor pozorovaných hodnot vysvětlované veličiny, ⎢ : ⎥ ⎢ ⎥ ⎣ yn ⎦ ⎡1 ⎢ 1 matice F – matice regresorů – má v tomto konkrétním případě tvar F = ⎢ ⎢: ⎢ ⎣1 tedy rozměr n × ( m + 1) . Symbol T je operátorem transpozice matice a –1
x1 x2 : xn
x12 ⎤ ⎥ x 22 ⎥ , má : ⎥ ⎥ x n2 ⎦
je operátorem inverze matice. Matice obsahuje jedničky v prvním sloupci, pokud regresní funkce obsahuje 0 absolutní člen. V tomto případě je regresor f 0 ( x ) = x = 1 u parametru b0 , u parametru b1 je regresor f 1 ( x ) = x 1 = x a konečně regresor f 2 ( x ) = x 2 u parametru b2 . Matici regresorů je třeba tedy vždy sestavit individuálně v souladu s konkrétním tvarem regresní funkce. Maticový výpočet lze bez potíží realizovat v programu MS Excel pomocí matematických funkcí pro násobení matic (a vektorů), inverzi a transpozici matice (vektoru). Všimněte si, že v tomto případě soustavu rovnou řešíme, aniž bychom ji museli předem sestavovat.
⎡ n x i ∑ x i2 ⎤ ∑ ⎢ ⎥ Pro úplnost – pro náš příklad tvoří čtvercovou matici F T F = ⎢ ∑ x i ∑ x i2 ∑ x i3 ⎥ ⎢∑ x i2 ∑ x i3 ∑ x i4 ⎥ ⎣ ⎦ ⎡ ∑ yi ⎤ ⎢ ⎥ T koeficienty u parametrů v soustavě normálních rovnic. Vektor F y = ⎢∑ x i y i ⎥ obsahuje ab⎢⎣ ∑ x i2 ⎥⎦ solutní členy rovnic (obsahující hodnoty y i ). Pro přehlednost jsme si dovolili vynechat hranice pro sčítání, které jsou ve všech případech od 1 do n. 87
4.3 Měření intenzity závislosti Stochastická závislost nefunguje tak, že buď je nebo není. Naopak – existuje nekonečná škála jejích možných intenzit od úplné stochastické nezávislosti, až po deterministickou (pevnou, funkční) závislost, která ovšem není předmětem našeho zájmu. Tento fakt vyvolává nutnost měřit a porovnávat intenzity různých stochastických závislostí. Rovnice rozkladu součtu čtverců Součet čtverců odchylek pozorovaných hodnot vysvětlované veličiny od průměru n
∑( y i =1
i
− y) 2 je tvořen součtem dvou složek – součtem čtverců odchylek vypočtených hodnot
y i′ kolem průměru (platí y = y ′ ), tj.
n
∑( y ′ − y )
2
i
a součtem čtverců odchylek pozorovaných
i =1
n
kolem vypočtených hodnot
∑( y
i
− y i′ ) 2 (což je kritérium nejmenších čtverců).
i =1
Rovnice rozkladu součtu čtverců je tedy n
n
n
i =1
i =1
i =1
∑( yi − y) 2 = ∑( yi′ − y) 2 + ∑ ( y i − y i′ ) 2 . Levá strana rovnice měří celkovou variabilitu vysvětlované veličiny, složky na pravé straně jsou postupně variabilita vypočtených hodnot – jinak řečeno, část variability vysvětlované veličiny, která je objasněna závislostí na vysvětlující veličině – objasněná variabilita a variabilita pozorovaných hodnot kolem vypočtených – nevysvětlená, reziduální, variabilita (která jde na vrub jiných, v úloze neobsažených činitelů – např. náhody). Smyslem této rovnice je porovnat objasněnou a celkovou variabilitu vysvětlované veličiny. Index determinace n
Podíl 100 I 2 =
∑ ( y ′ − y)
2
∑( y
2
i =1 n
i =1
i
i
− y)
100 udávaný v procentech měří podíl (v %) vysvětlené
variability na variabilitě celkové a nazývá se index determinace. Má-li být úloha hodnocena jako „úspěšná“, je žádoucí, aby se tento podíl blížil hodnotě 100 %. Naopak podíl reziduální variability by měl být co nejmenší. Neadekvátní (a neočekávané) podíly obou složek variability mohou mít více důvodů •
nevhodná volba tvaru funkce uživatelem (pokud je průběh závislosti např. parabolický, tak ho nevystihne sebelepší přímka),
•
závislost vysvětlované na zvolené vysvětlující veličině je skutečně slabá (má nízkou intenzitu), např. proto, že vysvětlující veličina byla zvolena nevhodně,
•
přítomnost vlivných bodů nebo heterogenity v datech což lze mnohdy odhalit na tečkovém diagramu.
88
Index korelace Druhá odmocnina indexu determinace (který je udán jako desetinné číslo, nikoli v %)
I = I 2 pro 0 ≤ I ≤ 1 je bezrozměrná charakteristika – index korelace –, který se používá jako charakteristika intenzity závislosti v regresní úloze. O jeho hodnotách platí to, co bylo řečeno v souvislosti s indexem determinace. Vzhledem k tomu, že má vždy kladné znaménko, nevypovídá o směru závislosti (pozitivní, negativní), který je třeba vyvodit z průběhu regresní čáry. Pokud ovšem funkce není monotónně rostoucí nebo klesající, nelze o směru závislosti hovořit vůbec. Vlivné body a heterogenita dat Vlivným bodem nazveme takový bod (měření, pozorování), který nápadným způsobbem mění charakteristiky závislosti. Rozlišujeme dva typy vlivných bodů: •
Odlehlé, které leží ve směru regresní funkce, příliš nemění její parametry, ale přispívají k nereálnému zvýšení intenzity závislosti. K přítomnosti odlehlých bodů dochází, pokud experimentátor nemá řízenou vysvětlující veličinu „tak úplně“ pod kontrolou. Typicky – je-li regresní čarou přímka, pak odlehlý bod ležící ve směru přímky její průběh nemusí nijak zvlášť ovlivnit, ale rozhodně zvýší hodnotu indexu korelace.
•
Vybočující, které leží mimo směr regresní funkce, mění hodnoty jejích parametrů a snižují intenzitu závislosti.
Další „bolestí“ je, pokud experimentátor neudrží pod kontrolou podmínky experimentu a dojde k tomu, že datový soubor je vytvořen spojením dat z dvou nebo více fakticky odlišných experimentů. Tomuto jevu se říká heterogenita dat a pokud je přítomna, jsou výsledky měření závislosti prakticky neočekávatelné a mnohdy směřují proti logice vztahu. Všechny uvedené případy se společně nazývají defekty v datech.
4.4 Příklad regresní úlohy Mějme určitý algoritmus jehož asymptotickou složitost předpokládáme ve třídě N, kde N je délka vstupu. Vysvětlující veličina regresní úlohy je tedy délka vstupu, kterou pro tento případ označíme obvyklým způsobem, tj. jako řízenou veličinu X. Vysvětlovanou veličinou Y je čas potřebný ke zpracování úlohy na mikroprocesoru s taktovací frekvencí 1 MHz (jeden –6 cyklus mikroprocesoru tedy trvá 10 sekundy). Byly náhodně generovány pětice experimentálních řetězců vstupních hodnot určitých vlastností o pevných délkách. Pozorované časy zpracování úlohy jsou v mikrosekundách ( μs ). Příklad je silně schematický, ve skutečnosti by bylo k dosažení seriozních výsledků třeba provést o několik řádů více pokusů. Smyslem úlohy je (pokud algoritmus skutečně patří do třídy N) ukázat, že regresní funkcí je přímka procházející počátkem (eventuálně s kladným absolutním členem blízkým nule) a s kladnou směrnicí nepřesahující hodnotu jedna. Datová tabulka pro n = 20
xi [tis.]
yi
[μs ]
10 9,4 9,7 9,2 9,8 8,8 30 22,0 28,0 20,5 21,5 17,0 50 37,5 37,0 33,9 34,4 45,0 80 72,0 62,5 62,1 53,7 63,8
89
Soustava normálních rovnic pro přímku je
∑ y − nb − b ∑ x ∑x y −b ∑x −b ∑x i
i
0
i
1
0
i
i
1
=0
2 i
a její koeficienty vypočteme z dat jako
∑y
i
= 657,8 n = 20
∑x
i
= 850
∑x
2 i
= 49500
850 ⎤ ⎡ 20 = 38257 . Matice F T F = ⎢ ⎥ a matice k ní inverzní (vypočteno pomocí ⎣850 49500⎦ − 0,003178 ⎤ ⎡0,185047 −1 funkce INVERZE v MS Excel) [ F T F ] = ⎢ ⎥ ⎣ − 0,0318 7,47664 E − 05⎦
∑x y i
i
⎡ 657,8 ⎤ ⎥ . Vynásobením inverzní matice uvedeným vektorem zprava získáme ⎣38275⎦ ⎡0,1594⎤ sloupcový vektor parametrů b = ⎢ ⎥. ⎣0,7701⎦ . Vektor F T y = ⎢
Rovnice regresní funkce je tedy y ′ = 0,1594 + 0,7701x a zbývá určit index determiace 100I 2 a index korelace I . Průměry y = y ′ = 32,89 a součty čtverců odchylek vysvětlované veličiny jsou pro pozorované hodnoty Z čehož 100 I 2 =
∑( y
i
− y) 2 = 29913,68 a pro vypočtené
∑ ( y ′ − y)
2
i
=28663,80 .
28663,80 .100 = 95,82 % a I = 0,958217 = 0,9789 . 29913,68
Vypočtené hodnoty y i′ získáme dosazením hodnot x i do rovnice regresní přímky. Graf vypočtené regresní přímky
doba výpočtu v μs
y=x
y ′ = 0,1594 + 0,7701x
délka řetězce [v tis.]
90
Lze konstatovat, že intenzita závislosti je vysoká a doba výpočtu v μs je téměř z 96 % determinována (a tudíž vysvětlena) různou délkou vstupních dat. Zbývajících něco přes 4 % připadají na individualitu jednotlivých generovaných řetězců dat. V úvodu jsme uvedli, že experimentální řetězce byly generovány podle určitých pravidel. Pokud by vlastnosti řetězců byly ponechány náhodě, byl by poměr vysvětlené a nevysvětlené složky variability jiný, a to nepochybně v neprospěch vysvětlené složky. Připomínáme, že příklad jsme deklarovali jako silně zjednodušující. Vážně bychom se tímto problémem snad mohli zabývat, pokud vstupních dat (řetězců) by bylo o několik řádů více. V předešlém grafu jsou vyneseny vstupní hodnoty a z nich vypočtená přímka. Graf je doplněn o přímku y = x , která odpovídá složitosti třídy N.
4.5 Kalibrace Při laboratorních měřeních často řešíme opačnou úlohu, než je úloha regresní. Tzv. kalibrace spočívá v určení kalibrační funkce, která je určena k nalezení neznámé hodnoty vysvětlující veličiny na základě známé hodnoty veličiny vysvětlované. Kalibrační funkce Je-li y ′ = f (x ) regresní funkcí, je inverzní funkce x′ = f −1 ( y) funkcí kalibrační. Pro jednoduchost budeme jako regresní funkci uvažovat regresní přímku y ′ = b0 + b1 x . Odpovídající kalibrační přímkou je x ′ =
y b0 − . V zájmu dosažení maximální spolehlivosti výsledku b1 b1
se konstruuje symetrický oboustranný konfidenční interval pro přímku pro uživatelem zadanou spolehlivost odhadu. Konkrétní postup (vzorce jsou relativně složité) neuvádíme, ale v principu jde o stanovení směrodatné chyby regresní přímky (která je rovněž výběrovou charakteristikou – statistikou) a poloviční šířka konfidenčního intervalu (který má tvar části roviny) je pak dána jako její přípustná chyba (všechno jsou pojmy ze třetí kapitoly). Odhady hodnot vysvětlující veličiny Na základě naměřené hodnoty y k vysvětlované veličiny můžeme pomocí kalibrační funkce získat buď bodový nebo intervalový (symetrický konfidenční interval pro odhadovanou hodnotu) odhad odpovídající hodnoty vysvětlující veličiny x k . Vzorce je třeba hledat v příslušné literatuře, my se omezíme pouze na schematickou grafickou prezentaci tohoto problému. K tomu použijeme příklad pro vztah mezi délkou vstupu a časem potřebným ke zpracování úlohy, pro bodový i intervalový odhad se spolehlivostí 0,95. Řekněme, že hledáme délku vstupu x k , pokud zpracování úlohy trvalo
y k = 55 μs . xk =
y k b0 55 0,1594 − = − = 71,2 . Takže bodovým odhadem délky vstupu je 71,2 [tis. b1 b1 0,7701 0,7701
položek]. Uvedený výsledek je schematicky znázorněn na následujícím obrázku.
91
Bodový odhad délky vstupu při známé době zpracování úlohy Hranice konfidenčního intervalu regresní přímky
y k = 55
x k = 71,2 Po výpočtu, který neuvádíme, získáme výsledek, který říká, že se spolehlivostí 0,95 leží hledaná hodnota délky vstupu v rozmezí 67,2; 75,2 . Intervalový odhad délky vstupu pro zadanou dobu zpracování úlohy tedy uvedeme bez výpočtu, pouze graficky. Intervalový odhad délky vstupu při známé době zpracování úlohy
y k = 55
Vypovídací hodnota (nepřímo úměrná jeho šířce) konfidenčního intervalu závisí na počtu provedených pozorování při výpočtu regresní přímky, na velikosti její směrodatné chyby (která je nepřímo úměrná intenzitě závislosti) a zvolené spolehlivosti odhadu.
92
Témata pro tutoriál (resp. pro cvičení na prezenčním studiu) 1. Pokuste se uvést příklady deterministických (inspirujte se klasickou fyzikou) a stochastických (třeba ze života) závislostí. Identifikujte vždy vysvětlující a vysvětlovanou veličinu (upozorňujeme, že v mnoha případech jsou obě veličiny zaměnitelné). 2.
Co nejpřesněji charakterizujte regresní úlohu.
3. Vysvětlete rozdíl mezi lineární a nelineární regresí. Souvisí tyto pojmy nějak s přímočarostí, resp. křivočarostí průběhu závislosti? 4. Vysvětlete, co znamená měřit průběh, směr a intenzitu závislosti a jak se nazývají k tomu určené charakteristiky. Za jakých podmínek nelze hovořit o směru závislosti? 5. K čemu slouží tečkový diagram závislosti a jaké defekty v datech pomocí něho můžeme pozorovat? 6. Jak nazveme funkci, jejíž první parciální derivace podle všech parametrů jsou lineárními funkcemi? 7. Identifikujte funkce lineární v parametrech x y y = b0 ⋅ b1 ,
y y = b0 + b1
1 , y y = b0 + b1 x , y y = b0 + b1 log x x
a napište jejich regresory f 0 ( x), f1 ( x) . 8. Mezi následujícími funkcemi identifikujte možné regresory ( z je neznámý parametr)
1 , xz
y
y lg 2 x ,
y lg z x ,
1
y
, y
y ln z x .
ln x ,
z
ln x
9. Načrtněte jednoduchý bodový diagram (nejlépe odpovídající regresní přímce s několika málo body), na kterém graficky vysvětlíte princip metody nejmenších čtverců. Zejména vyznačte kritérium nejmenších čtverců a nezapomeňte na to, že kladné a záporné odchylky od regresní funkce se kompenzují. 10. Pro funkce, které jste určili v úloze 7 jako lineární v parametrech, proveďte první parciální derivace podle parametrů, sestavte soustavy normálních rovnic a najděte pro ně konkrétní tvary matic F T F a vektorů F T y . 11. Určete regresní funkce, kterým odpovídají soustavy normálních rovnic
∑y y ∑y
− nb0 − b1 ∑ x i = 0
i
x i − b0 ∑ x i − b1 x i = 0
i
∑ y − nb − b ∑ x = 0 y ∑ y x −b ∑x −b ∑x i
,
i
0
2 i
2 i
1
0
2 i
1
4 i
=0
Vyjděte z toho, že koeficienty u parametrů každé normální rovnice jsou dány vynásobením celé rovnice regresorem stojícím u příslušného parametru. Meze pro sčítání jsme opět pro větší přehlednost vynechali. 12. Pro přímku, která má tvar y ′ = 0,0376 + 0,9856 x , přičemž vysvětlovaná veličina je uvedena v tunách a vysvětlující veličina v hodinách, určete rozměry obou parametrů. 13. Co rozumíme pod pojmem rovnice rozkladu součtu čtverců odchylek pro vysvětlovanou veličinu? 14. Objasněte pojem reziduální variabilita. 15. Označte případy, které jsou podle vás možné y
∑( y
i
− y ) 2 ≤ ∑ ( y i′ − y ) 2 , y
∑( y
i
93
− y i′ ) 2 = ∑ ( y i′ − y ) 2
Meze pro sčítání jsme opět pro větší přehlednost vynechali. 16. Jaký vztah je mezi aritmetickými průměry pozorovaných a vypočtených hodnot vysvětlované veličiny? 17. Vysvětlete vztah mezi indexem determinace a indexem korelace. 18. Lze pro některou z obou situací v úloze 15 dokonce bez dalšího určit index determinace a index korelace? Pokud ano, jakých hodnot tyto charakteristiky nabývají? 19. Data v tabulce (jsou dvě varianty hodnot vysvětlované veličiny)
xi
1
5
10
20
yi
9
15
20
60 240
yi
50
105 115 120 128 140
vyrovnejte pomocí vhodných funkcí z dvojice y ′ = b0 + b1 x , y ′ = b0 + b1 x 2 , tj. vypočtěte pro ně rovnici regresní funkce, index determinace a index korelace. Data a regresní funkce znázorněte v tečkovém diagramu (ten vám současně umožní vybrat vhodný typ funkce pro každá data). 20. Porovnejte výsledky úlohy 19 s těmi, které dostanete při vyrovnání přímkou (která datům nevyhovuje). Zaměřte se zejména na indexy determinace a indexy korelace. 21. Co je kalibrace a jak spolu souvisí regresní a kalibrační funkce? 22. Vraťte se k úloze o kalibrační přímce a odpovězte na otázku, jaký vliv na vypovídací hodnotu intervalového odhadu vysvětlující veličiny má • • •
zvýšení rozsahu datového souboru při výpočtu přímky, zvýšení indexu determinace, zvýšení spolehlivosti odhadu (např. z 0,95 na 0,99).
23. Jakou hodnotu má přípustná chyba odhadu v našem řešeném příkladě (samotný pojem viz kapitola 3).
94
Shrnutí čtvrté kapitoly Základními znalostmi a dovednostmi získanými studiem této kapitoly jsou •
základní pojmy jako vysvětlující a vysvětlovaná veličina, deterministická a stochastická závislost, regresní úloha, průběh, směr a intenzita závislosti,
•
grafické znázornění stochastické závislosti pomocí tečkového diagramu a identifikace defektů v datech,
•
pojem regresní funkce lineární v parametrech jako skalárního součinu parametrů a regresorů a jako funkce, jejíž všechny první parciální derivace podle parametrů jsou lineální funkce,
•
rozlišení lineární a nelineární regrese a regrese s přímočarým a křivočarým průběhem,
•
rozdíl mezi pozorovanými a vypočtenými hodnotami vysvětlované veličiny,
•
princip metody nejmenších čtverců, kritérium nejmenších čtverců,
•
vytvoření soustavy lineárních normálních rovnic položením prvních parciálních derivací podle parametrů nule,
•
maticový výpočet parametrů regresní funkce v programu MS Excel,
•
rozklad součtu čtverců pozorovaných hodnot vysvětlované veličiny kolem jejího aritmetického průměru (rovnice rozkladu součtu čtverců),
•
index determinace a index korelace, jejich vztah a vlastnosti,
•
praktický výpočet regresní funkce lineární v parametrech a její grafické znázornění, výpočet indexu determinace a indexu korelace a interpretace vypočtených hodnot,
•
stanovení bodového (a rámcově i intervalového) odhadu hodnoty vysvětlující veličiny na základě známé hodnoty veličiny vysvětlované (kalibrace).
Co by měl odborník s technickým vzděláním znát a na co nezbyl čas ani prostor Samotný minimální rozsah této kapitoly naznačuje, že jde jen o pouhý zlomek široké problematiky měření stochastických závislostí. Problematika měření závislostí je natolik rozsáhlá, že po skončení studia této kapitoly nemá ani smysl uvádět, co všechno zůstalo vynecháno a zamlčeno. Různě pojaté a na různém stupni náročnosti rozvíjené kapitoly o měření stochastických závislostí jsou běžnou součástí mnoha odborných knih z oblasti statistiky. V této souvislosti platí doporučení ze závěru 3. kapitoly, včetně tam doporučovaných studijních pomůcek.
95
Kvantily Pearsonova rozdělení χ p2 [n − 1]
n −1 4 9 14 19 24 29
p 0,005 0,21 1,73 4,07 6,84 9,90 13,10
0,010 0,30 2,09 4,66 7,63 10,90 14,30
0,025 0,48 2,70 5,63 8,91 12,40 16,00
0,050 0,71 3,33 6,57 10,12 13,80 17,70
0,100 1,06 4,17 7,79 11,65 15,70 19,80
0,900 7,78 14,68 21,06 17,20 33,20 39,10
0,950 9,49 16,92 23,68 30,14 36,40 42,60
0,975 11,14 19,02 26,12 32,85 39,40 45,70
0,990 13,28 21,67 29,14 36,19 43,00 49,60
0,995 14,86 23,59 31,32 38,58 45,60 52,30
n −1 4 9 14 19 24 29
Tabelovány jsou hodnoty, pro které F ( χ p2 ) = p . Tabulka je maximálně zestručněna na úrovni ukázky. Pro jiné pravděpodobnosti a stupně volnosti je možno použít excelovskou funkci CHIINV[ (1 − p ); ( n − 1) ].
Kvantily Studentova rozdělení t p [n − 1] p n −1 4 9 14 19 24 29
0,900 1,533 1,383 1,345 1,327 1,318 1,311
0,950 2,132 1,833 1,761 1,729 1,711 1,699
0,975 2,776 2,821 2,625 2,540 2,492 2,462
0,990 3,747 3,250 2,977 2,861 2,797 2,756
0,995 4,604 3,250 2,977 2,861 2,797 2,756
Tabelovány jsou hodnoty, pro které F (t p ) = p . Vzhledem k symetrii platí t1− p = −t p . Tabulka je maximálně zestručněna na úrovni ukázky. Pro jiné pravděpodobnosti a stupně volnosti je možno použít excelovskou funkci TINV[ (1 − p ); ( n − 1) ] . Pro ( n − 1) ≥ 30 se kvantily Studentova rozdělení běžně nahrazují kvantily u p normovaného normálního rozdělení.