Aplikovaná statistika

Pravdě podobnost

Popisná statistika

Statistická indukce

Regrese, korelace

Hospodá ř ská statistika

Casové ř ady

Aplikovaná statistika Studijnı́ materiá ly

Brno 2013 Vybrané statistické tabulky

RNDr. Rudolf Schwarz, CSc. Př edmluva

Literatura

Zá vě r

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady

Pro listová nı́ dokumentem NEpouž ıv́ ejte koleč ko myš i! Nebo zvolte ná sledujı́cı́ mož nost: Full Screen Úvodem se pokusme společ ně zodpově dě t otá zku, kterou polož il profesor Disman ve své knize [2, str.92]:

„Kolik vran musı́me pozorovat, abychom mohli spolehlivě ř ı́ci, ž e vš echny vrá ny jsou č erné ?“ Odpově ď na takovou stupidnı́ otá zku je straš ně jednoduchá a znı́:

„Přece všechny!“ Ovš em jak to prové st, abychom mohli pozorovat vš echny vrá ny na celé m svě tě ? Př i ř eš enı́ tohoto problé mu se vyskytne celá ř ada otá zek. Zde je pouze ně kolik má lo z nich:

Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Kolik pozorovatelů musı́me vyslat a do jakých míst teré nu? Stač ı́ na tomto mı́stě skuteč ně pouze jeden pozorovatel?


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Jak majı́ bý t vybaveni? Minimá lně zá pisnı́kem a tuž kou, ale hodil by se i dalekohled, svač inka, ochrana př ed nepř ı́znivý m poč ası́m, a kdovı́ co ješ tě . A co z toho lze vů bec realizovat pouze na zá kladě nadš enı́ dobrovolnı́ků a co již mi, jakož to zadavatelé vý zkumu, musı́me za inancovat?


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Jak majı́ bý t vybaveni? Minimá lně zá pisnı́kem a tuž kou, ale hodil by se i dalekohled, svač inka, ochrana př ed nepř ı́znivý m poč ası́m, a kdovı́ co ješ tě . A co z toho lze vů bec realizovat pouze na zá kladě nadš enı́ dobrovolnı́ků a co již mi, jakož to zadavatelé vý zkumu, musı́me za inancovat?

Jsou ná mi oslovenı́ dobrovolnı́ ornitologové vů bec schopni zjistit barvu kaž dič ké vrá ny? Nemů ž e se stá t, ž e ně která vrá na (i vı́ce) př ece jenom unikne ostř ı́žı́m zraků m vyslaný ch pozorovatelů ?


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Zdravé lidské oko doká ž e rozliš it vı́ce jak 16 milió nů barevný ch odstı́nů . Kolik z nich budeme považovat za č ernou? Je „antracitová “ ješ tě č erná nebo již nenı́? A budou v tom vš ichni pozorovatelé jednotni?


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Zdravé lidské oko doká ž e rozliš it vı́ce jak 16 milió nů barevný ch odstı́nů . Kolik z nich budeme považovat za č ernou? Je „antracitová “ ješ tě č erná nebo již nenı́? A budou v tom vš ichni pozorovatelé jednotni?

Z toho vš eho co jsme uvedli, plyne ná sledujı́cı́ zá vě r. Asi nikdy nebudeme schopni získat údaje o barvě VŠECH vran. Takž e na zá kladě dostupný ch informacı́ nezbý vá než konstatovat, ž e „většina vran je černých“. To je ale tvrzenı́ pravdě podobnostnı́ho charakteru! Jak se zá vě ry pravdě podobnostnı́ho charakteru naklá dat, se dozvı́te v prvnı́ kapitole té to př ı́ruč ky o aplikované statistice, která se zabý vá PRAVDĚPODOBNOSTÍ . O pravdě podobnosti se ně kdy hovoř ı́, jako o teoretické m zá kladu statistiky. A co prakticky provedeme s navrá tivš ı́mi se zá pisnı́ky dobrovolný ch ornitologů , je ná plnı́ kapitoly o POPISNÉ STATISTICE. Na otá zku, zda mů ž eme z tě chto zá pisnı́ků (tedy z informacı́ pouze o ně který ch vraná ch), vyvozovat zá vě ry, které platı́ pro celou populaci vran, např ı́klad: tolik a tolik procent vran má jinou barvu, se pokusı́me najı́t odpově ď v kapitole zabý vajı́cı́ se STATISTICKOU INDUKCÍ . Vž dyť jak pravı́ stará vinař ská moudrost: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a hned víme, na čem jsme. A neplatı́ ná hodou, ž e u mladš ı́ch vran je vě tš ı́ podı́l jedinců s jinou barvou jak č ernou než u starš ı́ch vran? Existuje vů bec ně jaká souvislost mezi barevnostı́ a vě kem u vran? Jaké lze č init zá vě ry o vztazı́ch mezi velič inami, neboli analyzovat zá vislosti, bude probı́rá no v kapitole zkoumajı́cı́ REGRESI a KORELACI. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pokud se naš e poznatky o vraná ch v č ase vyvı́jejı́ (např ı́klad v zimě je jiné barevné slož enı́ jak v lé tě ), dostá vá me se do oblasti ČASOVÝCH ŘAD, což je dalš ı́ kapitola tohoto kurzu. A abychom nezů stali pouze u vran, př idá me ješ tě kapitolu o HOSPODÁŘSKÉ STATISTICE, kde budeme pomocı́ indexů srovná vat ekonomické jevy. Vzhledem ke skuteč nosti, ž e zı́skané hodnoty jednotlivý ch znaků (barva konkré tnı́ vrá ny), nejsou v surové podobě (zá pisnı́ky pozorovatelů ) nič ı́m jiný m než chaotickou a neuspoř ádanou horou ú dajů , nelze z nich bez dalš ı́ho zpracová nı́ vyč ı́st prakticky ž ádné už iteč né informace.

Statistika si klade za cı́l informace a zá konitosti, které př ı́padně existujı́ mezi ně který mi hodnotami (a na poč átku mohou bý t skryty) odhalit. To znamená uspoř ádat promě nné (jejich pozorované hodnoty) do ná zorně jš ı́ gra ické č i tabulkové formy a popsat je př ı́padně ně kolika má lo hodnotami, které by obsahovaly co nejvě tš ı́ množ stvı́ informacı́ obsaž ený ch v pů vodnı́m souboru dat. V praxi vě tš inou nemá me tolik č asu, energie a inancı́ (viz př ı́klad o č erný ch vraná ch), abychom mohli pro uč ině nı́ kvali ikované ho rozhodnutı́ prozkoumat vš echny ú daje vztahujı́cı́ se k analyzované mu problé mu. V mnoha oborech se proto setká me s prů zkumy opı́rajı́cı́mi se o relativně malou č ást (vý bě r, vzorek) zá kladnı́ho souboru. Statistika pak na zá kladě teorie pravdě podobnosti použ ıv́ á postupy, pomocı́ nichž mů ž eme, sice s urč itý m (odhadnutelný m) rizikem, na zá kladě vlastnostı́ vzorku usuzovat na vlastnosti celé ho zá kladnı́ho souboru. Po zvládnutí této příručky byste měli být schopni popsat problémy, při kterých hraje roli náhoda. A dále je umět řešit pomocí prostředků a nástrojů teorie pravděpodobnosti. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Uvod do Teorie pravděpodobnosti


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obsah kapitoly: Teorie pravděpodobnos 1. Pokusy a jevy 1.1. Elementá rnı́ jev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operace s elementá rnı́mi jevy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12 15 15

2. Pravděpodobnost 2.1. Statistická . . . . . . . . . . . . . . . . . . . 2.2. Klasická . . . . . . . . . . . . . . . . . . . . . Kombinatorika . . . . . . . . . . . . . . . . 2.3. Geometrická . . . . . . . . . . . . . . . . . . 2.4. Axiomatická . . . . . . . . . . . . . . . . . . 2.5. Vlastnosti pravdě podobnosti . . . . . . . . Uplná pravdě podobnost a Bayesů v vzorec

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

17 18 20 22 23 25 26 30

3. Náhodné veličiny 3.1. Zá kladnı́ pojmy . . . . . . . . . . . 3.2. Distribuč nı́ funkce 𝐹(𝑥) . . . . . . 3.3. Ná hodné velič iny diskré tnı́ho typu Př ı́klad . . . . . . . . . . . . . . . . 3.4. Ná hodné velič iny spojité ho typu .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

39 39 40 42 43 51

4. Číselné charakteris ky náhodných veličin 4.1. Stř ednı́ hodnota 𝐸(𝑋) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Př ı́klad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Rozptyl 𝐷(𝑋), smě rodatná odchylka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55 56 57 59


Př edmluva

Literatura

. . . . .

. . . . .

Zá vě r

. . . . .

. . . . .

. . . . .


Pravdě podobnost



Regrese, korelace

5. Používaná rozdělení náhodných veličin 5.1. Zá kladnı́ pojmy . . . . . . . . . . . . . . . . . . . . . 5.2. Diskré tnı́ ná hodná velič ina — ně která jejı́ rozdě lenı́ Binomické rozdě lenı́ . . . . . . . . . . . . . . . . . . Hypergeometrické rozdě lenı́ . . . . . . . . . . . . . 5.3. Spojitá ná hodná velič ina — ně která jejı́ rozdě lenı́ . Normá lnı́ rozdě lenı́ . . . . . . . . . . . . . . . . . . Rovnomě rné rozdě lenı́ . . . . . . . . . . . . . . . . Exponenciá lnı́ rozdě lenı́ . . . . . . . . . . . . . . . Intenzita poruch . . . . . . . . . . . . . . . . 6. Náhodné vektory 6.1. Sdruž ená distribuč nı́ funkce . . . . . . . . . . . 6.2. Marginá lnı́ distribuč nı́ funkce . . . . . . . . . . 6.3. Kontingenč nı́ tabulka . . . . . . . . . . . . . . . 6.4. Cı́selné charakteristiky ná hodné ho vektoru . . Kovariance, korelač nı́ koe icient . . . . . . . . Př ı́klad: kontingenč nı́ tabulka a korelač nı́ koe 6.5. Př ı́klad: 𝐸(𝑋) a 𝐷(𝑋) libovolné ho rozdě lenı́ . . 7. Závěr kapitoly – Vztah pravděpodobnos a sta s ky


Př edmluva

Literatura

Zá vě r

. . . . . . . . .

. . . . . . . . . . . . . . . . . . . . icient . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .


. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

Casové ř ady

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . .

60 60 60 61 63 65 65 70 71 72

. . . . . . .

75 75 76 77 78 78 80 84 90


Pravdě podobnost



Regrese, korelace


Casové ř ady

1. Pokusy a jevy Pokusem nazveme uskuteč ně nı́ (vý sledek ¹) př esně popsané ho komplexu podmı́nek (např. hod mincı́ na rovnou desku, zhotovenı́ dané ho vý robku př edepsaný m způ sobem, provedenı́ chirurgické ho zá kroku, zahř ıv́ á nı́ vody, vý skyt poč tu hnı́zd na jednotlivý ch stromech apod.). Př edpoklá dá se, ž e pokus lze (alespoň teoreticky) za stejný ch podmı́nek neomezeně opakovat. Rı́ká me pak, ž e se prová dı́ hromadná stejnorodá operace. Zá konitostmi, které lze př i tě chto (opakovaný ch) pokusech pozorovat, se zabý vá teorie pravdě podobnosti. Pokud nenı́ pokus za stejný ch podmı́nek opakovatelný — např ı́klad poč et narozený ch dě tı́ v CR v letoš nı́m roce je pokus, který je pozorovatelný pouze jednou — hovoř ı́me o subjektivnı́ pravdě podobnosti. Jevem pak nazveme kaž dý vý sledek nebo dů sledek pokusu. Cı́lem pokusu (experimentu) je stanovenı́ (sprá vné urč enı́) jevu. Tedy např ı́klad změ řenı́ sprá vné a dostateč ně př esné hodnoty hledané velič iny. Správnos vý sledku rozumı́me, ž e soubor experimentá lnı́ch (zı́skaný ch, změ řený ch) hodnot je rozptý len v blı́zkosti skuteč né hodnoty, např ı́klad obsahu dané lá tky v roztoku. Přesnost pak vyjadř uje, jak veliké je rozptý lenı́ zı́skaný ch hodnot př i opaková nı́ experimentu. Př i jaké mkoliv mě řenı́ se nikdy nevyhneme tomu, aby hodnoty (vý sledek) byly zatı́ženy chybou. Obvykle se chyby dě lı́ do tř ı́ skupin. ¹ Takové to pozorová nı́ nazý vá me pokusem, ač koliv je z uvedený ch př ı́kladů zř ejmé , ž e nemusı́ jı́t o skuteč ný pokus, který je ř ı́zený pozorovatelem. Např ı́klad př i ekonomický ch „pokusech“ si nemů ž eme libovolně nastavovat hodnotu in lace, produktivity prá ce, ú rokové mı́ry, aj.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Hrubé chyby vznikajı́ z ř ady př ı́čin (zá vada na př ı́stroji, chyba obsluhy, …) a jsou zapř ı́čině ny nejč astě ji jednorá zový m dě jem. Systema cké chyby (soustavné ) pravidelně a soustavně zatě žujı́ vý sledek pokusu a to vž dy jednı́m smě rem (hod faleš nou hracı́ kostkou) a jsou kvanti ikovatelné . Jsou zapř ı́čině ny např ı́klad chybnou kalibracı́ př ı́stroje, nedodrž enı́m podmı́nek pokusu, …. Náhodné chyby jimž se nikdy nevyhneme. Jsou zapř ı́čině ny nejrů zně jš ı́mi ná hodný mi vlivy a obvykle jde o chyby malé , které majı́ vliv na př esnost vý sledků . Ně které dalš ı́ chyby mohou vzniknout př i zpracová nı́ vý sledků (např ı́klad zaokrouhlovacı́ chyby). Poznamenejme ale, ž e jestliž e musı́ bý t podmı́nky pokusu př esně vymezeny, neznamená to ješ tě , ž e musı́ bý t vyjmenová ny vyč erpá vajı́cı́m způ sobem. Např ı́klad př i sé riové vý robě dané ho produktu nemusı́ bý t vyjmenová na teplota a vlhkost vzduchu, atmosfé rický tlak, kolı́sá nı́ kvality surovin v př ı́pustný ch mezı́ch, kolı́sá nı́ pozornosti pracovnı́ka př i prá ci, malé rozdı́ly v opotř ebenı́ strojnı́ho zař ı́zenı́, atd. Determinis cký pokus konč ı́ jediný m vý sledkem (zahř ejeme chemicky č istou vodu na 100 ∘ C př i normá lnı́m tlaku ⇒ voda vř e). Náhodný pokus (stochastický ) konč ı́ jednı́m vý sledkem z ně kolika mož ný ch ². V dalš ı́m se zamě řı́me pouze na ná hodné pokusy, proto budeme č asto slovı́čko „ná hodný “ vynechá vat a mluvit pouze o pokusu. ² Ani př i opaková nı́ pokusu, jehož vý sledek urč ujeme mě řenı́m, nezı́ská me vž dy stejnou hodnotu. Zı́skané vý sledky jednotlivý ch mě řenı́ se budou (v ideá lnı́m př ı́padě ) liš it v dů sledku ná hodný ch chyb. Jednotlivá experimentá lnı́ mě řenı́ budou př edstavová na realizacemi ná hodné velič iny. Př i posuzová nı́ experimentá lnı́ch dat vychá zı́me z př edstavy, ž e signá l mě řené velič iny je zatı́žen ná hodnou chybou (š umem), př ič emž jednı́m z nejdů lež itě jš ı́ch ú kolů statistiky je najı́t vhodný model popisujı́cı́ chová nı́ š umu a odhadnout sprá vnou hodnotu signá lu. V tomto bodě pak nastá vá setká nı́ experimentá lnı́ho mě ř enı́ s matematickou statistikou a teoriı́ pravdě podobnosti. [Otyepka, M., Baná š , P., Otyepková , E. Základy zpracování dat. Str. 2. Dostupné z: http://fch.upol.cz/skripta/zzd/chemo/chemo.pdf]


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Náhoda jako pojem. Když ř ekneme, ž e provedeme hod regulé rnı́ mincı́, má me vš eobecnou př edstavu o tom, jak tento pokus prová dı́me. Neuvaž ujeme již ale tř eba o tom, z jaké ho materiá lu je zhotovena, z jaké vý šky a jaký m způ sobem hod provedeme, neuvaž ujeme vlhkost vzduchu, tlak vzduchu a jeho proudě nı́ apod. Protož e nemusı́me zná t vš echny faktory, které vý sledek pokusu ovlivň ujı́, nebo je jich př ı́liš mnoho, abychom je do svý ch ú vah vš echny zakomponovali, zahrnujeme jejich vliv pod pojem ná hoda. Jakmile byl pokus proveden, mů ž eme rozhodnout, zda jev o který se zajı́má me (např. padnutı́ lı́cnı́ strany př i hodu mincı́, kvalita zhotovené ho vý robku, ú spě šnost provedené operace, …) nastal nebo nenastal. Jevy, které mohou př i realizaci pokusu nastat, dě lı́me na tř i skupiny: Jistý jev nastane př i kaž dé m pokusu (př i hodu klasickou kostkou padne č ı́slo vě tš ı́ než NULA). Náhodný jev mů ž e, ale také nemusı́ př i realizaci pokusu nastat (př i hodu klasickou kostkou padne č ı́slo TRI). Nemožný jev př i ž ádné m pokusu nenastane (př i hodu klasickou kostkou padne č ı́slo DESET). Dá le ně kdy ješ tě potř ebujeme rů zné jevy mezi sebou kombinovat. Např ı́klad př i jednom hodu uvedenou kostkou, kdy jako vý sledek mů ž e bý t „hozenı́“ pouze ně které ho z tě chto č ı́sel {1, 2, 3, 4, 5, 6}: Jev 𝐴 — padne č ı́slo TRI nebo padne č ı́slo PET (padne TROJKA nebo PETKA). Jev 𝐵 — padne č ı́slo sudé (padne DVOJKA nebo CTYRKA nebo SESTKA). Jev 𝐶 — padne č ı́slo sudé a zároveň padne č ı́slo vě tš ı́ než č tyř i (padne SESTKA). Jev 𝐷 — nepadne č ı́slo JEDNA (padne DVOJKA nebo TROJKA nebo CTYRKA nebo …). Jev 𝐸 — nepadne JEDNICKA ani nepadne DVOJKA (padne TROJKA nebo CTYRKA nebo …). ⋮ Jevy (tak jako ve vý še uvedené m př ı́kladu) budeme označ ovat velký mi pı́smeny latinské abecedy, př ı́padně opatř ený mi indexy. Vý jimku má pouze Ω jistý jev a ∅ nemož ný jev. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Elementární jev je takový jev, který nelze rozlož it na menš ı́ č ásteč né jevy, proto rů zné elementá rnı́ jevy nemohou nastat souč asně (ani jeden z vý še uvedený ch jevů 𝐴, 𝐵, 𝐶, 𝐷 a 𝐸 nenı́ elementá rnı́). Př i hodu kostkou je např ı́klad elementá rnı́m jevem padnutı́ SESTKY. Vš echny elementá rnı́ jevy dohromady tvoř ı́ ú plnou skupinu (soubor, množ inu) základního prostoru, což jsou vš echny mož né vý sledky uvaž ované ho pokusu. Pokud vezmeme vhodný systé m 𝒜 podmnož in tohoto zá kladnı́ho prostoru splň ujı́cı́ ná sledujı́cı́ podmı́nky (zá kladnı́ prostor je prvkem 𝒜; s libovolný m jevem 𝐴 patř ı́cı́m do 𝒜 i jeho opač ný jev 𝐴̄ musı́ patř it do 𝒜; s libovolný mi jevy 𝐴 a 𝐵 i jejich sjednocenı́ musı́ patř it do 𝒜 — sjednocení jevů a opačný jev bude vysvětleno vzápětí ), nazveme tento systé m 𝒜 polem ³ jevů ⟹ jevovým polem.

Implikace jevů 𝐴 ⊂ 𝐵 Rı́ká me, ž e jev 𝐴 implikuje jev 𝐵 (jev 𝐴 má za dů sledek jev 𝐵), jestliž e jev 𝐵 nastane v realizaci pokusu vž dy, když v realizaci pokusu nastane jev 𝐴.

Rovnost jevů 𝐴 = 𝐵 Rı́ká me, ž e jevy 𝐴 a 𝐵 jsou si rovny, jestliž e 𝐴 ⊂ 𝐵 a zá roveň 𝐵 ⊂ 𝐴. Jinak ř eč eno, jestliž e jev 𝐴 nastane v realizaci pokusu vž dy, když nastane v realizaci pokusu jev 𝐵 a nikdy jindy.

Průnik jevů 𝐴∩𝐵 (společné nastoupení všech jevů) je jev, který nastane prá vě tehdy, když v realizaci pokusu nastane jev 𝐴 a zá roveň jev 𝐵.

Sjednocení jevů 𝐴 ∪ 𝐵 (nastoupení alespoň jednoho z jevů) je jev, který nastane prá vě tehdy, když v realizaci pokusu nastane jev 𝐴 nebo jev 𝐵 (nebo i oba společ ně ).

³ Termı́n pole má zde vý znam algebraické struktury (komutativnı́ho tě lesa).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Rozdíl jevů 𝐴 ∖ 𝐵 je jev, který nastane prá vě tehdy, když v realizaci pokusu nastane jev 𝐴 a v realizaci pokusu nenastane jev 𝐵.

Opačný jev 𝐴̄ (komplementární, ně kdy označ ujeme 𝑛𝑜𝑛 𝐴) je jev, který v realizaci pokusu nastane prá vě tehdy, když v realizaci pokusu nenastane jev 𝐴 . Poznamenejme, ž e platı́ 𝐴 ∖ 𝐵 = 𝐴 ∩ 𝐵̄ 𝐴̄ = Ω ∖ 𝐴 Casto si vý še uvedené vztahy zná zorň ujeme pomocı́ tak zvaný ch Vennových diagramů. Např ı́klad takto mů ž eme zakreslit prů nik (je vybarven) jevů 𝐴 ∩ 𝐵 nebo rozdı́l jevů 𝐴 ∖ 𝐵.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2. Pravděpodobnost Vý sledek ná hodné ho pokusu nelze s jistotou př edpově dě t. Ně které vý sledky vš ak nastá vajı́ č astě ji, ně které mé ně č asto, ně které velmi zř ı́dka. Př i velký ch sé riı́ch opaková nı́ vš ak i tyto ná hodné pokusy (př esně ji jejich vý sledky) vykazujı́ urč ité zá konitosti a pravidelnosti. Cílem teorie pravděpodobnosti je prá vě studium tě chto zá konitostı́, jejich popsá nı́ a vytvoř enı́ pravidel pro urč enı́ mı́ry poč etnosti vý skytů tě chto jevů . S tě mito zá konitostmi se bě žně setká vá me, aniž bychom si to mnohdy uvě domovali. Např ı́klad kaž dý vı́, č i intuitivně tuš ı́, ž e př i hodu mincı́ má stejnou š anci rub i lı́c a ž e tudı́ž př i velké m poč tu pokusů budou nejspı́š padat stejně č asto (pokud nenı́ mince zá mě rně ně jak upravená ). Stejně tak ze statistický ch roč enek lze snadno zjistit, ž e podı́l chlapců narozený ch v jednotlivý ch letech vzhledem k celkové mu poč tu narozený ch dě tı́ se pohybuje okolo 51,5 %. Př estož e v jednotlivý ch př ı́padech nelze pohlavı́ dı́tě te př edpově dě t, mů ž eme pomě rně př esně odhadnout, kolik se narodı́ chlapců z celkové ho poč tu 10 000 narozený ch dě tı́. Z uvedený ch př ı́kladů vyplý vá , ž e relativnı́ č etnosti ně který ch jevů se s rostoucı́m poč tem opaková nı́ ustá lı́ na urč itý ch č ı́slech. Tento ú kaz budeme nazý vat stabilitou relativních četností. Tato stabilita relativnı́ch č etnostı́ je empirický m zá kladem pojmu pravděpodobnost jevu. Zabý vejme se pokusem, př i ně mž mů ž e nastat jev, který označ ı́me pı́smenem A. Povedeme jednu sé rii n opaková nı́ tohoto pokusu za stejný ch podmı́nek. Poč et vý skytů jevu 𝐴, který ná m ř ı́ká , kolikrá t bě hem sé rie opakovaný ch pokusů jev 𝐴 nastal, označ ı́me m. ⁴ Cı́slo 𝑚 nazý vá me (absolutnı́) četností jevu 𝐴 a č ı́slo

𝑚 relativní četností jevu 𝐴. 𝑛

⁴ 𝑓(𝐴) = 𝑚 je vlastně funkcı́, která jevu 𝐴 př idě luje př irozené č ı́slo vyjadř ujı́cı́ poč et vý skytů jevu 𝐴 př i opakované m prová dě nı́ pokusu. Zobecně nı́ té to myš lenky vede na axiomatické zavedenı́ pravdě podobnosti.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Jestliž e provedeme ně kolik sé riı́ (prvnı́ sé rie mě la 𝑛 opaková nı́ a jev 𝐴 se vyskytl v 𝑚 z nich, ve druhé sé rii se jev 𝐴 vyskytl 𝑚 krá t z 𝑛 opaková nı́, vý sledky tř etı́ sé rie označ me 𝑚 , 𝑛 , …) vý še uvedený ch opaková nı́ pokusu, pak lze obvykle pozorovat, ž e relativnı́ č etnosti v jednotlivý ch sé riı́ch kolı́sajı́ a ustalujı́ se kolem jisté ho č ı́sla, které nazý vá me pravděpodobností jevu 𝐴 a označ ujeme 𝑃(𝐴). 𝑚 Tedy symbolicky mů ž eme psá t → 𝑃(𝐴). Je zř ejmé , ž e 0 ≤ ≤ 1 pro jaký koukoliv sé rii pokusů 𝑛 s poř adový m č ı́slem 𝑖. Potom zř ejmě také 0 ≤ 𝑃(𝐴) ≤ 1. Pojem kolísání lze v pojetı́ teorie pravdě podobnosti chá pat tak, ž e odchylky (rozdı́ly) relativnı́ch č etnostı́ od pravdě podobnostı́ zá visı́ na ná hodě . Cı́slo 𝑃(𝐴) lze interpretovat tak, ž e př i ně kolika (mnoha) opaková nı́ch pokusů (př ič emž v kaž dé m z tě chto pokusů mů ž e nastat jev 𝐴), jev 𝐴 nastane asi ve 𝑃(𝐴) ⋅ 100 % tě chto pokusů .

Sta s cká (von Misesova de inice ⇐ způ sob urč enı́) pravdě podobnosti. Označ ı́me-li jako v př edchozı́ch ú vahá ch relativní četnost hromadné ho (pokus za stejný ch podmı́nek nkrá t opakujeme) jevu A, př ič emž v té to sé rii nastal jev 𝐴 mkrá t, pak 𝑃(𝐴) = lim →

𝑚 kolikrá t nastal jev A = lim poč et pokusů → počet vš ech pokusů 𝑛

(1)

Misesů v př ı́stup k pravdě podobnosti je založ en na empirické m zkoumá nı́, jež vede k pozorová nı́ „stability relativnı́ch č etnostı́“. Umož ňuje urč it pravdě podobnost jevu v př ı́padě , ž e nenı́ zná mo jeho bliž šı́ chová nı́ (tedy jaké jsou elementá rnı́ jevy, př i který ch zkoumaný jev nastá vá , a jejich pravdě podobnosti). Jestliž e je ná hodný pokus libovolně krá t (alespoň teoreticky) opakovatelný za stejný ch statistický ch podmı́nek (např ı́klad hod kostkou č i mincı́, …), pak lze pravdě podobnost jevu odhadnout na zá kladě poč tu jevů př ı́znivý ch vý sledku pokusů . Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Tento odhad je tı́m př esně jš ı́, č ı́m je poč et realizacı́ ná hodné ho pokusu (n) vyš šı́. Statistická de inice pravdě podobnosti ná m např ı́klad umož ňuje odhadnout pravdě podobnost toho, ž e padne š estka na nepoctivé („cinknuté “) kostce. Obrá zek 1: Př evzat z [9, str. 48]

Zá vislost relativnı́ č etnosti „padnutı́ š estky“ na nepoctivé kostce =


Př edmluva

Literatura

Zá vě r

kolikrá t padla SESTKA poč et VSECH pokusů


Pravdě podobnost



Regrese, korelace


Casové ř ady

Klasická (Laplaceova de inice) pravdě podobnosti. Pokud má me koneč ný poč et m elementá rnı́ch jevů a všechny tyto elementá rnı́ jevy jsou stejně možné, pak pravdě podobnost jevu A, který nastane př i p tě chto elementá rnı́ch jevech urč ı́me pomocı́ vzorce 𝑃(𝐴) =

𝑝 příznivé př ı́pady = 𝑚 vš echny možné

(2)

Př edpoklad, ž e vš echny vý sledky pokusu majı́ stejnou pravdě podobnost vý skytu, je mož ná pochopitelný, ale v praxi má lo obvyklý. Má lokterá hracı́ kostka je totiž natolik ideá lnı́, aby na nı́ č ı́sla padala se stejnou pravdě podobnostı́. Proto jsme dř ıv́ e uvedli i statistický způ sob zavedenı́ pravdě podobnosti. Uvaž ujme nynı́ např ı́klad jev A, ž e na normální hrací kostce padne šestka. Jak bude (podle př edchozı́ch ú vah) hledání pravděpodobnosti tohoto jevu 𝑃(𝐴) = ?, tedy padnu šestky ve skuteč nosti vypadat? Sta s cky zavedená pravděpodobnost (empirická ) vychá zı́ z experimentu. Kostkou mnohokrát hodı́me a urč ı́me relativnı́ č etnost jevu A, kterou budeme považ ovat za nejlepš ı́ odhad pravdě podobnosti tohoto jevu 𝑃(𝐴). Viz obrá zek 1, kde v prvnı́m hodu š estka NEpadla, ve druhé m PADLA, ve tř etı́m NEpadla, … Pro „sprá vnou“ kostu se dá oč eká vat, ž e se tento odhad bude blı́žit jedné š estině . Pro faleš nou kostku na obrá zku 1 je to př ibliž ně 0,4. Klasicky zavedená pravděpodobnost (teoretická ) vychá zı́ z obecný ch vlastnostı́ dané situace. V př ı́padě kostky abstrahuje od jejı́ nedokonalosti a bude ji považ ovat za ideá lnı́, na které vš echny hodnoty padajı́ se stejnou pravdě podobnostı́. Potom lze k vý poč tu pravdě podobnosti využ ı́t klasické de inice a vý sledkem je zná má hodnota jedna šestina. 𝑃(𝐴) = 1/6. Vš imně te si, ž e oba pohledy jsou pouze př ibliž né . Ani jeden z nich neurč ı́ pravdě podobnost naprosto př esně , ale pouze se k nı́ př iblı́žı́. Jsou to tedy pouhé modely skutečnosti, skuteč né ho chová nı́ zkoumané kostky. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

U empirického př ı́stupu přesnost vý sledku závisí na počtu provedený ch pokusů (experimentů , hodů kostkou). Cı́m vı́ce pokusů , tı́m př esně jš ı́ lze oč eká vat vý sledek. U teore ckého př ı́stupu přesnost vý sledku závisí na zvolené abstrakci (idealizaci, zjednoduš enı́) celé ho problé mu. Cı́m vě tš ı́ abstrakce, tı́m jednoduš šı́ vý poč et, ale tı́m mé ně př esný vý sledek.

Který př ı́stup tedy zvolit? To vž dy zá visı́ na: • Informacı́ch, které má me k dispozici: – Zná me vš echny elementá rnı́ jevy? – Jsou elementá rnı́ jevy skuteč ně stejně mož né ? • Mož nostech provedenı́ experimentu: – Dá se pokus opakovat? – Je provedenı́ pokusu ná roč né na prostř edky, na č as? • A na dalš ı́ch souvisejı́cı́ch faktorech.

Souvislost obou př ı́stupů (jejichž vý sledky se vě tš inou od sebe př ı́liš neliš ı́) pak vede k ná sledujı́cı́mu tvrzenı́: „PRAVDĚPODOBNOST JE TEORIÍ STATISTIKY A STATISTIKA JE PRAXÍ TEORIE PRAVDĚPODOBNOSTI.“ [3, str. 176] Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Kombinatorika Jestliž e je poč et elementá rnı́ch jevů (vš echny mož né ) velký, je obtı́žné je vypisovat vš echny. Pokud potř ebujeme zná t pouze jejich poč et, pak ho lze č asto urč it pomocı́ kombinatorických schémat (viz tabulka 1). ́ “), kde 𝑘 je př irozené č ı́slo (1, 2, 3, …), poč ı́Nejdř ıv́ e př ipomeň me, ž e vý raz k! (č teme: „ká tá me takto: 𝑘! = 𝑘 ⋅ (𝑘 − 1)! , př ič emž 0! = 1 . Určete 5! Řešení: 5! = 5 ⋅ 4! , 4! = 4 ⋅ 3! , 3! = 3 ⋅ 2! , 2! = 2 ⋅ 1! , 1! = 1 ⋅ 0! = 1 ⋅ 1 = 1 Tedy: 5! = 5 ⋅ 4! = 5 ⋅ (4 ⋅ 3! ) = 5 ⋅ [4 ⋅ (3 ⋅ 2! )] = 5 ⋅ {4 ⋅ [3 ⋅ (2 ⋅ 1! )]} = 5 ⋅ ⟨4 ⋅ {3 ⋅ [2 ⋅ (1)]}⟩ = = 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅ 1 = 120. V kombinatorický ch sché matech uvedený ch v ná sledujı́cı́ tabulce př edpoklá dá me, ž e je dá no k prvků , z nichž vytvá ř ı́me skupiny po r prvcı́ch (nebo-li vý bě r tř ı́dy r z k prvků ). Poč et takto vytvoř ený ch skupin zá lež ı́ jednak na tom, jak jsou prvky ve skupině uspořádány (zda je významné, ž e jeden prvek stojı́ př ed druhý m – č ı́slo 12 je jiné než č ı́slo 21 i když v obou jsou stejné cifry jednič ka a dvojka – nebo není významné – č ástku 7 Kč zaplatı́me např ı́klad tak, ž e na pult polož ı́me dvoukorunu a pě tikorunu, př ič emž nenı́ vý znamné , kterou polož ı́me jako prvnı́, nebo dokonce dá me-li obě mince společ ně ) a potom ješ tě na tom, zda se kaž dý z prvků mů ž e libovolně krá t opakovat nebo ne. V prvnı́m sloupci ná sledujı́cı́ tabulky je podmı́nka, zda zá lež ı́ na poř adı́ prvků ve skupině . Ve druhé m sloupci je podmı́nka, zda se prvky ve skupině mohou libovolně krá t opakovat. Ve tř etı́m sloupci je ná zev skupiny a ve č tvrté m jejı́ označ enı́ a poč et tě chto skupin. Když si shrneme, co zná te ze stř ednı́ skoly: • uspořádaný vý bě r ⟹ variace: 𝑉 (𝑘) • neuspořádaný vý bě r ⟹ kombinace: 𝐶 (𝑘) • 𝑉 (𝑘) = 𝑃(𝑘)


⟹ permutace: 𝑃(𝑘) = 𝑘!

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Tabulka 1: Kombinatorická sché mata POŘADÍ je podstatné

Prvky se OPAKUJÍ

Název skupiny

Označ enı́ skupiny Počet skupin

ano

ne

variace

𝑉 (𝑘) =

ano

ano

variace s opaková nı́m

𝑉 (𝑘) = 𝑘

ne

ne

kombinace

𝐶 (𝑘) =

𝑘 𝑘! = 𝑟 𝑟! ⋅(𝑘 − 𝑟)!

ne

ano

kombinace s opaková nı́m

𝐶 (𝑘) =

𝑘+𝑟−1 (𝑘 + 𝑟 − 1)! = 𝑟 𝑟! ⋅(𝑘 − 1)!

𝑘! (𝑘 − 𝑟)!

Geometrická (de inice) pravdě podobnosti. Pokud existuje nekonečně mnoho stejně mož ný ch elementá rnı́ch jevů (vš echny tyto elementá rnı́ jevy dohromady označ ujeme Ω), mů ž eme je zná zornit jako č ást př ı́mky, roviny, prostoru nebo č asu, př ič emž jaký koliv jev 𝐴 je opě t (menš ı́ – pokud to nenı́ jev jistý ) č ástı́ takto zná zorně né př ı́mky, roviny, prostoru nebo č asu. Tyto č ásti lze mě řit (je to dé lka, plocha, objem, apod.) a tuto mı́ru označ me 𝜇. Potom pravdě podobnost, ž e nastane jev 𝐴 je 𝑃(𝐴) =

𝜇(𝐴) 𝜇(Ω)

(3)

kde 𝜇(Ω), což je mı́ra zá kladnı́ho prostoru (vš ech elementá rnı́ch jevů dohromady) je vž dy vě tš ı́ než nula. Tedy nulou nikdy nedě lı́me! Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad: Dva milenci se dohodli [5, str. 17], ž e se potkajı́ na stanovené m mı́stě v sobotu mezi druhou a tř etı́ hodinou odpoledne. Po své m př ı́chodu bude kaž dý z milenců č ekat na př ı́chod druhé ho př esně 20 minut a když se nedoč ká , tak odejde. Př edpoklá dá se, ž e př ı́chod kaž dé ho z milenců je v sobotu od 14 hodin do 15 hodin stejně mož ný. Jaká je pravdě podobnost, ž e milenci a) se doč kajı́ jeden druhé ho; b) př ijdou ve stejnou dobu. Řešení: Pokusem je zjiš tě nı́ doby, kdy kaž dý z milenců př iš el na mı́sto schů zky. Označ me dobu př ı́chodu prvnı́ho z milenců (mezi 14. a 15. hodinou) 𝑥 a dobu př ı́chodu druhé ho milence 𝑦, kdy ú daje jsou v minutá ch. Potom lze vý sledky pokusu vyjá dř it dvojicemi č ı́sel [𝑥; 𝑦] (mů ž eme si je př edstavit jako body roviny – viz sousednı́ obrá zek, který byl př evzat z [5, str. 17]), kde 0 ≤ 𝑥 ≤ 60 a 0 ≤ 𝑦 ≤ 60 . Poč átek soustavy souř adnic je ve 14:00 hod. Zá kladnı́ prostor Ω lze zná zornit č tvercem s dé lkou strany 60 minut. Potom mı́ra zá kladnı́ho prostoru je rovna obsahu č tverce, tedy 𝜇 (Ω) = 60⋅60 = 3 600 jednotek . Protož e poč ı́tá me plochu (obsah č ásti roviny), budeme mı́ru označ ovat indexem dva. Jev 𝐴 – milenci se sejdou. Tento jev nastane prá vě tehdy, když rozdı́l v dobá ch př ı́chodů milenců nepř esá hne 20 minut. Tedy platı́: |𝑥 − 𝑦| ≤ 20. Jev 𝐴 je vyznač en stı́novaný m obrazcem ohranič ený m př ı́mkou 𝑦 = 𝑥 + 20 a 𝑦 = 𝑥 − 20 . Jeho mı́ra je 𝜇 (𝐴) = 60 − 40 = 2 000 jednotek (od plochy č tverce odeč teme plochu dvou shodný ch trojú helnı́ků ). 𝜇 (𝐴) 2 000 Dle vzorce (3) pro vý poč et geometrické pravdě podobnosti: 𝑃(𝐴) = = ≐ 0,556 𝜇 (Ω) 3 600 Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Jev 𝐵 – milenci př ijdou ve stejnou dobu. Tedy 𝑥 = 𝑦 , což je rovnice př ı́mky, na obrá zku ú hlopř ı́čka č tverce spojujı́cı́ body [0; 0] a [60; 60]. Protož e ploš ný obsah ú seč ky je roven nule, bude mı́ra jevu 𝐵 nula ⇒ 𝜇 (𝐵) = 0. 𝜇 (𝐵) 0 Pak dle vzorce (3) pro vý poč et geometrické pravdě podobnosti: 𝑃(𝐵) = = =0 𝜇 (Ω) 3 600 Vypoč tené pravdě podobnosti lze interpretovat takto: Během většího počtu sobot se asi v 55,6 % milenci setkají a prakticky žádnou sobotu nepřijdou přesně ve stejnou dobu, i když to není vyloučeno. Poznamenejme, ž e sice pravdě podobnost 𝑃(𝐵) = 0, ale protož e jev 𝐵 mů ž e nastat, nenı́ to nemož ný jev. Př ipomeň me, ž e nemožným nazý vá me jev, který nemůže nastat a př iř azujeme mu nulovou pravdě podobnost.

Axioma cká (Kolmogorovova de inice) pravdě podobnosti. Pravdě podobnost P je funkce (viz pozná mka 4), která kaž dé mu jevu 𝐴 patř ı́cı́mu do pole jevů př iř azuje reá lné nezá porné č ı́slo ⁵ nejvý še rovné jedné , tedy

0 ≤ 𝑃(𝐴) ≤ 1 , př ič emž funkce P má ná sledujı́cı́ vlastnosti:

⁵ Takto stanovená pravdě podobnost (statistická , klasická i geometrická de inice pravdě podobnosti př edstavujı́ pouze speciá lnı́, v praxi vš ak č asto použ ıv́ ané , př ı́pady axiomatické de inice) je z naš eho hlediska vhodná pro pochopenı́ toho, jak se pravdě podobnost chová př i vý poč tech. Vš imně te si, ž e axiomatický systé m vymezuje vlastnosti pravdě podobnosti, neudá vá vš ak ž ádný ná vod k jejı́mu urč enı́ (jak ji spoč ı́tat).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Vlastnos pravděpodobnos


Regrese, korelace


Casové ř ady

Pro jevy A, B a C ze zá kladnı́ho prostoru platı́:

Jistý jev 𝑃(Ω) = 1 Nemožný jev 𝑃(∅) = 0 Neslučitelné jevy Pro libovolné jevy 𝐴 a 𝐵, které nemajı́ společ ný prů nik (tedy platı́ 𝐴 ∖ 𝐵 = 𝐴 nebo jinak 𝐴 ∩ 𝐵 = ∅) je 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) Implikace jevů když 𝐴 ⊂ 𝐵

pak 𝑃(𝐴) ≤ 𝑃(𝐵)

Opačný jev 𝑃(𝐴)̄ = 1 − 𝑃(𝐴) Rozdíl jevů 𝑃(𝐴 ∖ 𝐵) = 𝑃(𝐴) − 𝑃(𝐴 ∩ 𝐵) Sjednocení jevů 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴 ∩ 𝐵) − 𝑃(𝐴 ∩ 𝐶) − 𝑃(𝐵 ∩ 𝐶} + 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶))

Průnik jevů (jejich společ né nastoupenı́) 𝑃(𝐴 ∩ 𝐵) = viz upravený vzorec (5)

Bernoulliovo schéma Jestliž e př i urč ité m pokusu mů ž e nastat jev A s pravdě podobnostı́ p /tedy 𝑃(𝐴) = 𝑝/ a př i n opaková nı́ tohoto pokusu za stejný ch podmı́nek se tato pravdě podobnost 𝑝 nemě nı́, pak takové opaková nı́ pokusu nazý vá me Bernoulliovou posloupností nezávislých pokusů ⁶. Potom jev 𝐴 (jev 𝐴 nastane př i tomto opaková nı́ př esně 𝑘-krá t) bude mı́t ná sledujı́cı́ pravdě podobnost: 𝑛 𝑃(𝐴 ) = , 𝑘 = 0, 1, 2, … , 𝑛 . (4) ⋅ 𝑝 ⋅ (1 − 𝑝) 𝑘 ⁶ Zobecnı́me-li ú vahu tak, ž e budeme popisovat poč et ná hodný ch udá lostı́ v ně jaké m pevné m č asové m intervalu, tak př i splně nı́ urč itý ch podmı́nek (viz [9, str. 160] — ordinarita, stacionarita, nezá vislé př ı́rů stky, bezná slednost) dostaneme tak zvaný Poissonů v proces, který m se v té to př ı́ruč ce nebudeme zabý vat.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Podmíněná pravděpodobnost Prozatı́m jsme rozebı́rali pokusy typu, ž e hodı́me homogennı́ hracı́ kostkou tvaru krychle a zkoumá me pravdě podobnost, kdy padne např ı́klad SESTKA (tento jev označ ı́me 𝐴). Nynı́ potř ebuje zavé st ně jakou doplň ujı́cı́ informaci. Např ı́klad jaká je pravdě podobnost, ž e padla zmı́ně ná š estka, když vı́m (za př edpokladu), ž e padlo sudé č ı́slo (tento jev označ ı́me 𝐵). Nezajı́má me se o pravdě podobnost, vztahujı́cı́ se k podmı́nká m pů vodnı́ho pokusu, ale na „jinou pravdě podobnost“, vztahujı́cı́ se k podmı́nká m pokusu, které jsou doplně ny o př edpoklad, ž e nastal jev 𝐵. Tuto „jinou pravdě podobnost“ označ ı́me 𝑃(𝐴|𝐵) a nazveme ji podmíněnou pravděpodobností. Je to pravdě podobnost, ž e nastane jev 𝐴 za př edpokladu, ž e jev 𝐵 již nastal ⁷. Tento př ı́klad, ve které m se vyskytuje pouze ně kolik má lo mož nostı́, mů ž eme poč ı́tat př ı́mo pomocı́ rozkladu na elementá rnı́ jevy. Je jediná př ı́znivá mož nost, a to, ž e padla š estka. Když vı́me, ž e padlo sudé č ı́slo, tak vš echny mož nosti jsou tř i (dvojka, č tyř ka, š estka). Tedy podle vzorce (2) pro vý poč et klasické 1 pravdě podobnosti 𝑃(𝐴|𝐵) = . Když jej zevš eobecnı́me, pak z vı́cero podobný ch př ı́kladů dostaneme 3 ná sledujı́cı́ vzorec: 𝑃(𝐴|𝐵) =

𝑃(𝐴 ∩ 𝐵) , 𝑃(𝐵)

pokud 𝑃(𝐵) > 0 .

(5)

Pravděpodobnost průniku 𝐴 ∩ 𝐵 dvou jevů je po ú pravě vzorce (5) rovna 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵) ⋅ 𝑃(𝐴|𝐵) a stejně tak 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐴) ⋅ 𝑃(𝐵|𝐴) ⁷ Např ı́klad pravdě podobnost kolize za jaké hokoliv poč ası́ coby nepodmı́ně ná pravdě podonost a pravdě podobnost kolize podmı́ně ná vý skytem ná ledı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Nezávislost dvou jevů 𝐴, 𝐵. Jestliž e pro dva jevy platı́ 𝑃(𝐴|𝐵) = 𝑃(𝐴)

nebo

𝑃(𝐵) = 0

pak ř ı́ká me, ž e jev 𝐴 nenı́ zá vislý na jevu 𝐵. Jestliž e je jev 𝐴 nezá vislý na jevu 𝐵, pak je také jev 𝐵 nezá vislý na jevu 𝐴. Rı́ká me, ž e jevy 𝐴 a 𝐵 jsou vzájemně nezávislé. Jsou-li jevy 𝐴 a 𝐵 vzá jemně nezá vislé , pak platı́: ̄ 𝑃(𝐴|𝐵) = 𝑃(𝐴)̄ ,

̄ = 𝑃(𝐴) , 𝑃(𝐴|𝐵)

̄ = 𝑃(𝐴)̄ 𝑃(𝐴|̄ 𝐵)

Také mů ž eme ř ı́ci, ž e dva jevy 𝐴 a 𝐵 jsou vzá jemně nezá vislé prá vě tehdy, když 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)

(6)

Příklad: Podle informacı́ sprá vce š kolnı́ poč ı́tač ové sı́tě vı́me, ž e bě hem sta provoznı́ch hodin je poč ı́tač ová sı́ť v průměru nedostupná : 6 minut v dů sledku vý padku serveru (kdy server nereaguje na pož adavky klientů ) a 2 minuty v dů sledku poruchy (odstavenı́) elektrické rozvodné sı́tě 230 V (nefungujı́ př ı́pojné body sı́tě ). Serveru se to netý ká , protož e nepř etrž itý zdroj napá jenı́ UPS udrž ı́ server v provozu nezá visle na stavu rozvodné elektrické sı́tě minimá lně 10 minut. Urč ete pravdě podobnost, ž e v daný okamž ik (konkré tnı́ minutu) nebudeme moci využ ıv́ at š kolnı́ poč ı́tač ovou sı́ť v dů sledku jejı́ nedostupnosti. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Řešení: Nejdř ıv́ e si označ ı́me jednotlivé jevy: V … Vý padek serveru E … odstavenı́ rozvodné Elektrické sı́tě 230 V Jev označ ujı́cı́ skuteč nost, ž e se nebudeme moci př ipojit do š kolnı́ poč ı́tač ové sı́tě , ať již pro vý padek serveru nebo pro př eruš enı́ dodá vky elektrické energie, je vlastně sjednocenı́m uvedený ch jevů . Tedy se ptá me, jaká je pravdě podobnost 𝑃(𝑉 ∪ 𝐸) = ? Pravdě podobnosti uvedený ch jevů (po př evedenı́ na společ né jednotky — minuty) jsou ná sledujı́cı́: 𝑃(𝑉) = 6 minut ze sta hodin =

= 0,001

⋅

𝑃(𝐸) = 2 minuty ze sta hodin =

⋅

𝑃(𝑉 ∪ 𝐸) = 𝑃(𝑉) + 𝑃(𝐸) − 𝑃(𝑉 ∩ 𝐸)

= 0,000 3̄ /dř ıv́ e uvedená vlastnost pravdě podobnosti/

Zbý vá ná m tedy urč it pravdě podobnost 𝑃(𝑉 ∩ 𝐸). Jinak ř eč eno: Zajı́má ná s, jaká je pravdě podobnost, ž e rozvodná elektrická sı́ť bude odstavena prá vě v okamž iku (ve stejné minutě ), kdy je server nedostupný v dů sledku jeho vý padku. Tedy, kdy oba jevy nastoupı́ společ ně (souč asně ⇒ prů nik jevů ). Protož e jevy V a E jsou vzá jemně nezá vislé (dodá vka elektrické energie nenı́ podmı́ně na stavem serveru) podle vzorce (6) platı́: 𝑃(𝑉 ∩ 𝐸) = 𝑃(𝑉) ⋅ 𝑃(𝐸) = 0,001 ⋅ 0,000 3̄ = 0,000 000 3̄ A koneč ně : 𝑃(𝑉 ∪ 𝐸) = 0,001 + 0,000 3̄ − 0,000 000 3̄ ≐ 0,001 332 666 ≐ 0,001 = 0,1 % V daný okamž ik nebudeme moci využ ıv́ at š kolnı́ poč ı́tač ovou sı́ť s pravdě podobnostı́ rovnou desetině procenta ⁸.

⁸ V praxi, pokud se nejedná o bezpečnost jaderné elektrárny, lety do kosmu apod. je vý poč et pravdě podobnosti s př esnostı́ na desetiny procenta naprosto dostač ujı́cı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Úplná pravděpodobnost Pokud nesluč itelné jevy 𝐻 , 𝐻 , …, 𝐻 vyplň ujı́ celý zá kladnı́ prostor jevů (jevové pole), pak pro libovolný jev 𝐴 platı́ 𝑃(𝐴) =

𝑃(𝐻 ) ⋅ 𝑃(𝐴|𝐻 )

(7)

což chá peme tak, ž e zá kladnı́ prostor je rozdě len mezi takzvané hypoté zy 𝐻 a sledovaný jev 𝐴 (jeho č ást) mů ž e nastat společ ně vž dy jen s jedinou z nich (obrá zek př evzat z [4]). Upravou vzorce (7) dostá vá me ná sledujı́cı́

Bayesova věta Pokud nesluč itelné jevy 𝐻 , 𝐻 , …, 𝐻 vyplň ujı́ celý zá kladnı́ prostor jevů (jevové pole), pak pro libovolný jev 𝐴 platı́ 𝑃(𝐻 |𝐴) =

𝑃(𝐻 ) ⋅ 𝑃(𝐴|𝐻 ) 𝑃(𝐴)

(8)

Bayesů v vzorec použ ıv́ á me tehdy, chceme-li z vý skytu jevu 𝐴 př i realizaci pokusu odhadnout, jak se jednotlivé hypoté zy „podı́lely“ na vý skytu jevu 𝐴. Pravdě podobnosti 𝑃(𝐻 ), 𝑖 = 1, 2, …, 𝑛, nazý vá me apriorními pravdě podobnostmi jevu 𝐻 , tj. pravdě podobnostmi uskuteč ně nı́ hypoté zy 𝐻 „př ed pokusem“. Pravdě podobnosti 𝑃(𝐻 |𝐴), 𝑖 = 1, 2, …, 𝑛, nazý vá me aposteriorními pravdě podobnostmi jevu 𝐻 , tj. pravdě podobnostmi uskuteč ně nı́ hypoté zy 𝐻 „po provedenı́ pokusu“, př i ně mž jev 𝐴 nastal. Mů ž eme tedy ř ı́ci, ž e tento vzorec ná m umož ňuje dá vat pozdě jš ı́ (aposteriornı́) zkuš enosti do souladu s pů vodnı́mi (apriornı́mi) př edpoklady, př ı́padně jak takové zkuš enosti změ nı́ souč asné hodnocenı́ situace oproti pů vodnı́m př edpokladů m. Využ itı́ Bayesova vzorce naznač ı́me na př ı́kladu z medicı́nské praxe. [14, str.193] Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

• Př edstavme si pacienta, který urč itě trpı́ jednou z nemocı́ A č i B. Na zá kladě dosavadnı́ch znalostı́ (anamné za, klinický stav, …) vı́me, ž e nemoc A se vyskytuje s pravdě podobnostı́ 0,8; nemoc B s pravdě podobnostı́ 0,2. Lé kař nechal u pacienta prové st zkouš ku enzymů v sé ru, o nı́ž vı́me, ž e u nemoci A je pozitivnı́ v 90 % př ı́padů a u nemoci B jen ve 20 % př ı́padů . Tento test mě l negativnı́ vý sledek. Jak je tı́m ovlivně na lé kař ova diagnó za tohoto pacienta? Jak v takový ch př ı́padech postupovat, ukazuje ⟨http://mi21.vsb.cz/flash-animace/aplikace-bayesovy-vety-v-biomedicine⟩ nebo ná sledujı́cı́ dva př ı́klady. Doporuč uji př eč ı́st také rozbor Monty Hallova problé mu na Wikipedii. Je samozř ejmé , ž e také pro Bayesů v vzorec platı́, ž e zá vě ry nemohou mı́t prů kazně jš ı́ vypovı́dacı́ schopnost, než jim př edpoklady (premisy) dovolı́. Vý sledek nemů ž e bý t spolehlivě jš ı́ než odhadované pravdě podobnosti př edpokladů . V praxi je to vš ak bohuž el č asto tak, ž e pro apriornı́ pravdě podobnost jsou k dispozici jen zcela nespolehlivé odhady nebo dokonce protichů dné ú daje. Příklad 1. [5, Př ı́klad 1. 10., str. 30] Př i automatické m vymý vá nı́ lahvı́ je dobř e vymytý ch 98 % z nich. Po vymytı́ se vš echny lá hve ješ tě kontrolujı́ v automatické prohlı́žeč ce, která propustı́ 3 % š patně vymytý ch lahvı́ a vrá tı́ k nové mu promytı́ 5 % dobř e vymytý ch lahvı́. Kolik procent lahvı́ se znovu vymý vá ?

⇒

P(láhev neprošla kontrolou) = ?

A kolik procent lahvı́, z tě ch co neproš ly kontrolou, bylo dobř e vymyto? ⇒ P(láhev byla dobře vymyta přestože neprošla kontrolou) = ?


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Řešení: Př i popisu vý sledků pokusu (vymývání láhve a kontrolu vymytí dohromady) použ ijeme ná sledujı́cı́ označ enı́: 𝑉 — lá hev je dokonale vymytá ; 𝑃 — kontrola vymytou lá hev propustı́. ̄ Dalš ı́ př ı́pady popı́šeme pomocı́ opač ný ch jevů , kde jev 𝑉 znač ı́, ž e lá hev nebyla dobř e vymytá a 𝑃̄ označ uje, ž e kontrola lá hev nepropustı́ a vrá tı́ ji k nové mu vymytı́. Je zř ejmé , ž e jevy 𝑉 a 𝑉̄ vyplň ujı́ celý zá kladnı́ prostor jevů . Nic jiné ho, než ž e lá hev je dobř e nebo nenı́ dobř e vymytá , nemů ž e nastat. Podle př edchozı́ho znač enı́ tedy má me 𝑖 = 2 a 𝐻 = 𝑉, 𝐻 = 𝑉.̄ Vš e je nejlepš ı́ zaznamená vat do př ehledné ho sché matu, kde na pomyslné spojnici mezi jednotlivý mi jevy (zleva doprava) budeme vypisovat pravdě podobnosti, s jaký mi nastal jev vpravo. A tohle bylo zadá no: 𝑃 – propuštěna 𝑃(𝑃 |𝑉) = 0,95 𝑉–

vymytá dokonale

𝑃(𝑃 |𝑉) + 𝑃(𝑃̄ |𝑉) = 1 𝑃(𝑃̄ |𝑉) = 0,05

𝑃(𝑉) = 0,98

nepropuš tě na 𝑃̄ – vrácena jednotlivá láhev

̄ =1 𝑃(𝑉) + 𝑃(𝑉) 𝑃 – propuštěna ̄ = 0,02 𝑃(𝑉)

̄ = 0,03 𝑃(𝑃 |𝑉) nevymytá dokonale 𝑉̄ – špatně vymytá

̄ + 𝑃(𝑃̄ |𝑉) ̄ =1 𝑃(𝑃 |𝑉) ̄ = 0,97 𝑃(𝑃 |𝑉) nepropuš tě na 𝑃̄ – vrácena

Protož e souč et pravdě podobnostı́ musı́ bý t jedna … ̄ ⋅ 𝑃(𝑃̄ |𝑉) ̄ = 0,98 ⋅ 0,05 + 0,02 ⋅ 0,97 = 0,068 4, Pak je vrá ceno 𝑃(𝑃̄ ) = 𝑃(𝑉) ⋅ 𝑃(𝑃̄ |𝑉) + 𝑃(𝑉) Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


vymytá dokonale

𝑃(𝑃 |𝑉) + 𝑃(𝑃̄ |𝑉) = 1 𝑃(𝑃̄ |𝑉) = 0,05

𝑃(𝑉) = 0,98





Protož e souč et pravdě podobnostı́ musı́ bý t jedna … ̄ ⋅ 𝑃(𝑃̄ |𝑉) ̄ = 0,98 ⋅ 0,05 + 0,02 ⋅ 0,97 = 0,068 4, Pak je vrá ceno 𝑃(𝑃̄ ) = 𝑃(𝑉) ⋅ 𝑃(𝑃̄ |𝑉) + 𝑃(𝑉) Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


vymytá dokonale

𝑃(𝑃 |𝑉) + 𝑃(𝑃̄ |𝑉) = 1 𝑃(𝑃̄ |𝑉) = 0,05

𝑃(𝑉) = 0,98





Protož e souč et pravdě podobnostı́ musı́ bý t jedna … ̄ ⋅ 𝑃(𝑃̄ |𝑉) ̄ = 0,98 ⋅ 0,05 + 0,02 ⋅ 0,97 = 0,068 4 Pak je vrá ceno 𝑃(𝑃̄ ) = 𝑃(𝑉) ⋅ 𝑃(𝑃̄ |𝑉) + 𝑃(𝑉) Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


vymytá dokonale

𝑃(𝑃 |𝑉) + 𝑃(𝑃̄ |𝑉) = 1 𝑃(𝑃̄ |𝑉) = 0,05

𝑃(𝑉) = 0,98





Protož e souč et pravdě podobnostı́ musı́ bý t jedna … ̄ ⋅ 𝑃(𝑃̄ |𝑉) ̄ = 0,98 ⋅ 0,05 + 0,02 ⋅ 0,97 = 0,068 4 Pak je vrá ceno 𝑃(𝑃̄ ) = 𝑃(𝑉) ⋅ 𝑃(𝑃̄ |𝑉) + 𝑃(𝑉) Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

což znamená , ž e asi necelý ch sedm procent (6,84 %) lahvı́ se znovu vymý vá . A kolik procent lahvı́, z tě ch co neproš ly kontrolou, bylo dobř e vymyto? Tedy: P(lá hev byla dobř e vymyta |za podmı́nky, ž e| neproš la kontrolou) = ? To urč ı́me podle Bayesova vzorce (8) 𝑃(𝑉|𝑃̄ ) =

𝑃(𝑉) ⋅ 𝑃(𝑃̄ |𝑉) 0,98 ⋅ 0,05 = = 0,716 , 0,068 4 𝑃(𝑃̄ )

což znamená , ž e asi 72 % (př esně ji 71,6) z nově vymý vaný ch lahvı́ se vymý vá zbyteč ně . A protož e v matematice (a tı́m také v pravdě podobnosti) nemů ž e vý sledek zá viset na pı́smenech, která použ ijeme na označ enı́ ně čeho, ukaž me si podobný př ı́klad ješ tě jednou. Příklad 2. Banka má pro styk s klienty dvě poboč ky, VELKOU a malou. „Velká “ poboč ka poskytuje 70 % vš ech ú vě rů té to banky a mezi jejı́mi smlouvami o poskytnutı́ ú vě ru je 5 %, které byly uzavř eny s prá vnický mi osobami. „Malá “ poboč ka poskytuje zbytek ú vě rů a z tohoto zbytku č inı́ smlouvy o ú vě ru uzavř ené s prá vnický mi osobami 15 %. Banka se rozhodla prové st namá tkovou kontrolu poskytnutý ch ú vě rů . Př i té to kontrole je ná hodně vybrá na jedna ú vě rová smlouva. Urč ete pravdě podobnost, ž e: A) ná hodně vybraná smlouva byla uzavř ena s prá vnickou osobou; B) pokud byla vybrá na smlouva uzavř ená s prá vnickou osobou, pak poskytnutı́ tohoto ú vě ru realizovala „velká “ poboč ka.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Řešení: Označ me si jevy a jejich pravdě podobnosti, které plynou př ı́mo ze zadá nı́: P … P … V… M…

ú vě r byl poskytnut Prá vnické osobě ú vě r NEbyl poskytnut prá vnické osobě ⇒ komukoliv jiné mu jak prá vnické osobě ú vě r realizovala „Velká “ poboč ka ú vě r realizovala „Malá “ poboč ka

𝑃(𝑉) = 0,70 protož e 70 % ú vě rů poskytuje „velká “ poboč ka 𝑃(𝑀) = 0,30 protož e zbytek (100 − 70 = 30) % poskytuje „malá “ poboč ka 𝑃(𝑃 |𝑉) = 0,05 𝑃(𝑃̄ |𝑉) = 0,95

„velká “ poboč ka uzavř ela 5 % smluv s prá vnický mi osobami „velká “ poboč ka uzavř ela (100 − 5 = 95) % jiný ch smluv

𝑃(𝑃 |𝑀) = 0,15 „malá “ poboč ka uzavř ela 15 % smluv s prá vnický mi osobami 𝑃(𝑃̄ |𝑀) = 0,85 „malá “ poboč ka uzavř ela (100 − 15 = 85) % jiný ch smluv 𝑃(𝑉) = 0,7 …„velká “ poboč ka

𝑃(𝑃 |𝑉) = 0,05 …sml. s prá vnickou osobou 𝑃(𝑃̄ |𝑉) = 0,95 …jiná smlouva

𝑃(𝑀) = 0,3 …„malá “ poboč ka

𝑃(𝑃 |𝑀) = 0,15 …sml. s prá vnickou osobou 𝑃(𝑃̄ |𝑀) = 0,85 …jiná smlouva

ú vě ry banky

A) Urč ete pravdě podobnost, ž e ná hodně vybraná smlouva byla uzavř ena s prá vnickou osobou, v naš ı́ symbolice 𝑃(𝑃 ) = ? Když projdeme vš echny cesty (v grafu) na jejichž konci je jev P , • hodnoty v každé z cest (smlouvy jedné poboč ky) mezi sebou násobíme (plyne z upravené ho vztahu (5) na pravdě podobnost prů niku /společ né nastoupenı́/ jevů ) 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) ⋅ 𝑃(𝐵) a • hodnoty celý ch cest mezi sebou sečítáme (plyne z pravdě podobnosti sjednocenı́ jevů ) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) , Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

dostá vá me vzorec (7) na ú plnou pravdě podobnost (protož e jevy V a M vyplň ujı́ celý zá kladnı́ prostor ⇐ dalš ı́ poboč ku banka nemá ). Jevy V a M jsou vzá jemně nesluč itelné (jednu smlouvu nemohly uzavř ı́t obě poboč ky společ ně ) ⟹ 𝑃(𝑉} ∩ {𝑀) = 0 ⇒ 𝑃(𝑃 ∩ 𝑉} ∩ {𝑃 ∩ 𝑀) = 0 𝑃(𝑃 ) = 𝑃(𝑃 ∩ 𝑉} ∪ {𝑃 ∩ 𝑀) = 𝑃(𝑃 ∩ 𝑉) + 𝑃(𝑃 ∩ 𝑀) − 𝑃(𝑃 ∩ 𝑉} ∩ {𝑃 ∩ 𝑀) = = 𝑃(𝑃 ∩ 𝑉) + 𝑃(𝑃 ∩ 𝑀) − 0 = 𝑃(𝑃 |𝑉) ⋅ 𝑃(𝑉) + 𝑃(𝑃 |𝑀) ⋅ 𝑃(𝑀) = 0,05 ⋅ 0,7 + 0,15 ⋅ 0,3 = 0,08 Ná hodně vybraná smlouva bude s pravdě podobnostı́ 8 % uzavř ena s prá vnickou osobou. Nebo jinak ř eč eno: Ze sta ná hodně vybraný ch smluv jich osm bude pravdě podobně uzavř eno s prá vnickou osobou. B) Byla vybrá na smlouva uzavř ená s prá vnickou osobou. Urč ete (aposteriornı́) pravdě podobnost, ž e poskytnutı́ tohoto ú vě ru realizovala „velká “ poboč ka, v naš ı́ symbolice 𝑃(𝑉|𝑃 ) = ? Podle Bayesova vzorce (8) 𝑃(𝑉|𝑃 ) =

𝑃(𝑉) ⋅ 𝑃(𝑃 |𝑉) 0,7 ⋅ 0,05 0,035 = = = 0,437 5 𝑃(𝑃 ) 0,08 0,08

S pravdě podobnostı́ té mě ř 44 % ná hodně vybranou smlouvu s prá vnickou osobou uzavı́rala „velká “ poboč ka. Nebo jinak: Nejpravdě podobně ji č tyř icet č tyř i smluv uzavř ený ch s prá vnickou osobou (ze sta ná hodně vybraný ch smluv) bylo realizová no na „velké “ poboč ce.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

3. Náhodné veličiny 3.1. Základní pojmy Až doposud jsme se zabý vali otá zkou, zda př i uvaž ované m pokusu nastanou č i nenastanou urč ité jevy a jak lze vypoč ı́tat jejich pravdě podobnost. Avš ak ve vě tš ině pokusů se jejich vý sledky vyjadř ujı́ č ı́sly, jejichž hodnoty zá visı́ na ná hodě . Např ı́klad: • vý ška muž ů v populaci, • poč et obdrž ený ch bodů př i zkouš ce, • spotř eba pohonný ch hmot př i ujetı́ 100 km, • poč et nemocný ch, kteř ı́ př ijdou k lé kař i bě hem dne, • doba bezporuchové funkce př ı́stroje, • poč et zá sahů př i stř elbě do terč e, • skuteč ná cena postavené ho domu, • atd. Velič iny, které vý sledků m pokusů jednoznač ně př iř azujı́ reá lná č ı́sla a jejichž hodnoty zá visı́ na ná hodě , se nazý vajı́ náhodné veličiny. Pravdě podobnost, ž e ná hodná velič ina 𝑋 nabyla hodnoty 𝑥 — tedy nastal jev, který označ ujeme {𝑋 = 𝑥} — zapı́šeme 𝑃(𝑋 = 𝑥). Sestavı́me-li seznam vš ech mož ný ch dvojic [𝑥 ; 𝑃(𝑋 = 𝑥 )], nazveme ho rozdělením pravděpodobnosti (jaké hodnoty a s jakou pravdě podobnostı́ mů ž e ná hodná velič ina nabý vat). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Ná hodné velič iny se tradič ně označ ujı́ velký mi pı́smeny latinské abecedy, např ı́klad X, Y, T a podobně . Hodnoty ná hodný ch velič in jsou (reá lná ) č ı́sla př iř azená urč itý m způ sobem vý sledků m uvaž ované ho pokusu. My se budeme zabý vat ná hodný mi velič inami pouze tě chto typů : Diskrétního typu — jejichž oborem hodnot jsou izolované body (např ı́klad poč et vý robků ). Spojitého typu — jejichž oborem hodnot jsou hodnoty z ně jaké ho intervalu, př ič emž kaž dý bod z tohoto intervalu má nulovou pravdě podobnost (např ı́klad vzdá lenost, teplota). Mimo vý še uvedený ch typů ná hodný ch velič in existujı́ ješ tě dalš ı́ typy (zejmé na ná hodná velič ina smíšeného typu, jejı́ž hodnoty vytvoř ı́ jistý interval, př ič emž ně který bod z tohoto intervalu má nenulovou pravdě podobnost), tě mi se vš ak zabý vat nebudeme. Ná hodná velič ina tedy nabý vá př i dané m pokusu urč ité hodnoty, př ič emž př edem nevı́me, jaká hodnota to bude. Jestliž e ale provedeme vě tš ı́ poč et tě chto pokusů , pak lze pozorovat, ž e vý skyty jednotlivý ch hodnot ná hodné velič iny vykazujı́ jisté zá konitosti, (jejı́ pravdě podobnost je ně jak rozdě lena), což lze popsat pomocı́ tak zvaný ch zákonů rozdělení pravdě podobnosti. Ty urč ujı́ pravdě podobnosti, s jaký mi ná hodná promě nná nabude urč itou hodnotu nebo ně jaké hodnoty z urč ité ho intervalu. Nejobecně jš ı́m z tě chto zá konů rozdě lenı́ je distribuč nı́ funkce

Distribuční funkcí 𝐹(𝑥) ná hodné velič iny 𝑋 nazý vá me (reá lnou) funkci, pro kterou platı́ 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) .

(9)

Distribuč nı́ funkce 𝐹(𝑥) tedy vyjadř uje pravdě podobnost, s jakou ná hodná velič ina 𝑋 nabude hodnot z intervalu (−∞; 𝑥⟩.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad: Znač ı́-li ná hodná velič ina 𝑋 vý šku (v cm) muž ů v populaci, pak hodnota 𝐹(170) = 0,45 udá vá , ž e asi 45 % muž ů v populaci má vý šku do 170 cm vč etně . Vlastnos distribuční funkce 𝐹(𝑥)

ná hodné velič iny X.

1. 0 ≤ 𝐹(𝑥) ≤ 1 2. Distribuč nı́ funkce je neklesajı́cı́ funkcı́ — pro kaž dá dvě reá lná č ı́sla 𝑥 < 𝑥 platı́: 𝐹(𝑥 ) ≤ 𝐹(𝑥 ) 3. Distribuč nı́ funkce je spojitá zprava — pro kaž dé reá lné č ı́slo 𝑥 platı́: lim 𝐹(𝑥 + ℎ) = 𝐹(𝑥) →

4. lim 𝐹(𝑥) = 0 →

a

lim 𝐹(𝑥) = 1 →

Poznamenejme, ž e tyto vlastnosti plně distribuč nı́ funkci ⁹ charakterizujı́. Ně kdy se distribuč nı́ funkce de inuje jako pravdě podobnost, ž e ná hodná velič ina X nabude hodnot ostře menších než x, tj. 𝐹(𝑥) = 𝑃(𝑋 < 𝑥) ¹⁰. Pak se uvedené vlastnosti distribuč nı́ funkce až na tř etı́ vlastnost nezmě nı́. V př ı́padě , ž e př ipouš tı́me rovnost, je funkce 𝐹(𝑥) spojitá zleva. Poznámka: Pravdě podobnost, ž e ná hodná velič ina 𝑋 nabude ně které hodnoty z intervalu ⟨𝑥 ; 𝑥 ), lze urč it ná sledovně : 𝑃(𝑥 < 𝑋 ≤ 𝑥 ) = 𝐹(𝑥 ) − 𝐹(𝑥 ) .

(10)

⁹ Inverznı́ funkce k distribuč nı́ funkci se nazý vá kvantilová funkce a znač ı́ se 𝑄 = 𝐹 . Kvantil 𝑥 je velič ina pro kterou platı́ 𝐹(𝑥 ) = 𝑝. Např ı́klad 𝑥 , je 95% kvantil, tedy taková hodnota, pro kterou je distribuč nı́ funkce rovna 0,95 a kterou ná hodná velič ina př ekroč ı́ s 5% pravdě podobnostı́. ¹⁰ My př ipouš tı́me rovnost zejmé na kvů li analogii s kumulativnı́ č etnosti č ı́selné ho statistické ho znaku.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Náhodné veličiny diskrétního typu Ně kdy zkrá ceně ř ı́ká me jen diskrétní náhodné veličiny. Jak jsme již dř ıv́ e uvedli, jejich oborem hodnot jsou izolované body. Toto sice nenı́ exaktnı́ de inice, ale ná m plně postač uje. Pravděpodobnostní funkcí 𝑓(𝑥) diskrétní ná hodné velič iny X nazý vá me (reá lnou) funkci, pro kterou platı́ 𝑓(𝑥 ) = 𝑃(𝑋 = 𝑥 ) . Casto př i zá pisu pravdě podobnostnı́ funkce symbol 𝑓(𝑥 ) vynechá vá me a tuto funkci označ ujeme pouze 𝑃(𝑋 = 𝑥). Cı́sla 𝑃(𝑋 = 𝑥 ) jsou hodnoty pravdě podobnostnı́ funkce. Jejich vý znam je v tom, ž e kolem nich kolı́sajı́ relativnı́ č etnosti hodnot ná hodné velič iny 𝑋, vypoč tené ze sé riı́ pokusů . Pro pravdě podobnostnı́ funkci platı́: 1. 0 ≤ 𝑃(𝑋 = 𝑥) ≤ 1 ,

protož e pravdě podobnost nabý vá hodnot pouze z intervalu ⟨0 ; 1⟩

2. Pro vš echny ostatnı́ reá lná č ı́sla x, nepatřící do oboru hodnot velič iny X, je pravdě podobnostnı́ funkce rovna nule. 3. ∑ 𝑃(𝑋 = 𝑥 ) = 1 ,

pro vš echna 𝑥 z oboru hodnot ná hodné velič iny X.

∀

Ze vztahu (9) vyplý vá , ž e Distribuční funkci diskrétní ná hodné velič iny X lze pro kaž dé reá lné č ı́slo 𝑥 vyjá dř it př edpisem 𝐹(𝑥) =


Př edmluva

Literatura

Zá vě r

𝑃(𝑋 = 𝑥 ) ,

(11)


Pravdě podobnost



Regrese, korelace


Casové ř ady

který vyjadř uje, ž e sč ı́tá me pravdě podobnosti 𝑃(𝑋 = 𝑥 ) ve vš ech bodech 𝑥 , lež ı́cı́ch v intervalu (−∞; 𝑥⟩. Spojenı́m vzorců (10) a (11) dostá vá me 𝑃(𝑋 ∈ 𝐽) =

𝑃(𝑋 = 𝑥 ) ,

(12)

∈

což vyjadř uje: pravdě podobnost, ž e diskré tnı́ ná hodná velič ina 𝑋 nabude ně které hodnoty z intervalu 𝐽 urč ı́me tak, ž e seč teme pravdě podobnosti 𝑃(𝑋 = 𝑥 ) disjunktnı́ jevů {𝑋 = 𝑥 }, kde body 𝑥 lež ı́ v intervalu 𝐽. Distribuč nı́ funkci diskré tnı́ ná hodné velič iny lze zná zornit stupň ovitou funkcı́, majı́cı́ v bodech 𝑥 skoky o velikostech 𝑃(𝑋 = 𝑥 ). Mimo tě chto bodů nabý vá konstantnı́ch hodnot. Zná me-li hodnoty distribuč nı́ funkce, pak hodnoty pravdě podobnostnı́ funkce jsou rovny velikostem „skoků “ distribuč nı́ funkce. Příklad: Sportovnı́ stř elec má tř i ná boje. Na terč vystř elı́ postupně tř ikrá t, př ič emž stř elbu ukonč ı́ buď zá sahem terč e (př i ně mž je terč znič en a on nemá na CO stř ı́let) nebo spotř ebová nı́m vš ech ná bojů (již nemá CIM stř ı́let). Pravdě podobnost zá sahu prvnı́m vý stř elem je 0,6 a po kaž dé m vý stř elu se zvý šı́ o 0,1 (tak zvaně se zastř eluje). Jaké jsou zá kony rozdě lenı́ pro poč et zbylý ch ná bojů ? Řešení: Pokus je postupná stř elba na terč konč ı́cı́ prvnı́m zá sahem nebo spotř ebová nı́m vš ech ná bojů . Jevy, které př i pokusu mohou nastat uvedeme pro př ehlednost v ná sledujı́cı́ tabulce. Vyjá dř ı́me je pomocı́ elementá rnı́ch jevů Z (pruhem nad pı́smenem budeme tak jako dř ıv́ e označ ovat opač ný jev).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Jevy 𝑍̄ ∩ 𝑍̄ ∩ 𝑍̄ 𝑍̄ ∩ 𝑍̄ ∩ 𝑍 𝑍̄ ∩ 𝑍 𝑍


𝑧 pravd. 𝑃(𝑋 = 𝑧) 𝐹(𝑧) 0 0,024 0 0,096 1 0,28 2 0,6 ∑ 1

0,12

0,12

0,28 0,6

0,4 1

1

Regrese, korelace


Casové ř ady

jev 𝑍 : terč je Zasaž en vý stř elem s poř adový m č ı́slem 𝑖 (𝑖 = 1, 2, 3), jev 𝑍̄ : terč není zasaž en vý stř elem s poř adový m č ı́slem 𝑖. Do druhé ho sloupce tabulky (označ ený m pı́smenem z) zapı́šeme poč et zbylý ch (nespotř ebovaný ch) ná bojů .

Dle zadá nı́: 𝑃(𝑍 ) = 0,6 , 𝑃(𝑍 ) = 0,7 , 𝑃(𝑍 ) = 0,8. Potom 𝑃(𝑍̄ ) = 0,4 , 𝑃(𝑍̄ ) = 0,3 , 𝑃(𝑍̄ ) = 0,2 a 𝑃({𝑍 ̄ ∩ 𝑍 ̄ ∩ 𝑍 ̄ }) = 𝑃(𝑍̄ ) ⋅ 𝑃(𝑍̄ ) ⋅ 𝑃(𝑍̄ ) protož e jde o nezá vislé jevy (to jestli stř elec druhý m vý stř elem terč zasá hne, nenı́ ovlivně no jeho prvnı́m vý stř elem, …) Vš imně te si, ž e když ná hodná velič ina 𝑋 př iř azuje vý sledků m pokusu toté ž č ı́slo, je hodnota pravdě podobnostnı́ funkce v tomto č ı́sle rovna souč tu pravdě podobnostı́ tě chto vý sledků . Ukaž me si ně které vý sledky z tabulky: Hodnota 𝑃(𝑋 = 2) = 0,6 ř ı́ká , ž e pokud by se tento pokus opakoval vícekrát, tak asi v 60 % tě chto pokusů zů stanou stř elci dva ná boje. Cı́slo 𝐹(0) = 𝑃(𝑋 ≤ 0) = 0,12 znač ı́, ž e asi ve 12 % tě chto pokusů zů stane stř elci ž ádný a mé ně ⟹ tedy ž ádný ná boj. Z tabulky lze zı́skat i dalš ı́ informace. Tř eba pravdě podobnost, ž e stř elci zů stane alespoň jeden (jeden nebo dva) ná boj. Tento jev označ ı́me {𝑋 ≥ 1} a jeho pravdě podobnost vypoč teme podle vzorce (12), kdy: 𝑃(𝑋 ≥ 1) = 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = 0,28 + 0,6 = 0,88 . To znač ı́, ž e asi v 88 % pokusů zů stane stř elci aspoň jeden ná boj.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Jevy 𝑍̄ ∩ 𝑍̄ ∩ 𝑍̄ 𝑍̄ ∩ 𝑍̄ ∩ 𝑍 𝑍̄ ∩ 𝑍 𝑍


𝑧 pravd. 𝑃(𝑋 = 𝑧) 𝐹(𝑧) 0 0,024 0 0,096 1 0,28 2 0,6 ∑ 1

0,12

0,12

0,28 0,6

0,4 1

1

Regrese, korelace


Casové ř ady




Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Jevy 𝑍̄ ∩ 𝑍̄ ∩ 𝑍̄ 𝑍̄ ∩ 𝑍̄ ∩ 𝑍 𝑍̄ ∩ 𝑍 𝑍


𝑧 pravd. 𝑃(𝑋 = 𝑧) 𝐹(𝑧) 0 0,024 0 0,096 1 0,28 2 0,6 ∑ 1

0,12

0,12

0,28 0,6

0,4 1

1

Regrese, korelace


Casové ř ady




Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Jevy 𝑍̄ ∩ 𝑍̄ ∩ 𝑍̄ 𝑍̄ ∩ 𝑍̄ ∩ 𝑍 𝑍̄ ∩ 𝑍 𝑍


𝑧 pravd. 𝑃(𝑋 = 𝑧) 𝐹(𝑧) 0 0,024 0 0,096 1 0,28 2 0,6 ∑ 1

0,12

0,12

0,28 0,6

0,4 1

1

Regrese, korelace


Casové ř ady




Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Jevy 𝑍̄ ∩ 𝑍̄ ∩ 𝑍̄ 𝑍̄ ∩ 𝑍̄ ∩ 𝑍 𝑍̄ ∩ 𝑍 𝑍


𝑧 pravd. 𝑃(𝑋 = 𝑧) 𝐹(𝑧) 0 0,024 0 0,096 1 0,28 2 0,6 ∑ 1

0,12

0,12

0,28 0,6

0,4 1

1

Regrese, korelace


Casové ř ady




Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Jevy 𝑍̄ ∩ 𝑍̄ ∩ 𝑍̄ 𝑍̄ ∩ 𝑍̄ ∩ 𝑍 𝑍̄ ∩ 𝑍 𝑍


𝑧 pravd. 𝑃(𝑋 = 𝑧) 𝐹(𝑧) 0 0,024 0 0,096 1 0,28 2 0,6 ∑ 1

0,12

0,12

0,28 0,6

0,4 1

1

Regrese, korelace


Casové ř ady




Př edmluva

Literatura

Zá vě r


Pravdě podobnost


Jevy 𝑍̄ ∩ 𝑍̄ ∩ 𝑍̄ 𝑍̄ ∩ 𝑍̄ ∩ 𝑍 𝑍̄ ∩ 𝑍 𝑍


𝑧 pravd. 𝑃(𝑋 = 𝑧) 𝐹(𝑧) 0 0,024 0 0,096 1 0,28 2 0,6 ∑ 1

0,12

0,12

0,28 0,6

0,4 1

1

Regrese, korelace


Casové ř ady




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Jestliž e se dá le zajı́má me o to, kolik procent z pokusů , v nichž zbyl stř elci alespoň jeden ná boj, př ipadá na jev, ž e stř elci zů stane prá vě jeden ná boj, pak tyto pravdě podobnosti vypoč teme pomocı́ vzorce (5) pro podmı́ně nou pravdě podobnost. 𝑃(𝑋 = 1|𝑋 ≥ 1) =

𝑃({𝑋 = 1} ∩ {𝑋 ≥ 1}) 𝑃(𝑋 = 1) 0,28 = = ≐ 0,318 , 𝑃(𝑋 ≥ 1) 𝑃(𝑋 ≥ 1) 0,88

což lze interpretovat takto: V tě ch pokusech, v nichž zbyl stř elci alespoň jeden ná boj, je asi 31,8 % pokusů , v nichž mu zbyl prá vě jeden ná boj.

Náhodné veličiny spojitého typu Ně kdy zkrá ceně ř ı́ká me jen spojité náhodné veličiny mohou (jak jsme uvedli na zač átku kapitoly) nabý vat libovolný ch hodnot z dané ho intervalu. Toto sice také nenı́ exaktnı́ de inice (stejně jako v př ı́padě diskré tnı́ ná hodné velič iny), ale ná m opě t plně postač uje. Také u spojité ná hodné velič iny se už ıv́ á k jejı́mu popisu distribuční funkce F(x), kterou jsme zavedli vzorcem (9) a ná sledně odvodili vzorec (10) pro vý poč et pravdě podobnosti, ž e ná hodná velič ina X nabude ně jaké hodnoty z dané ho intervalu. A protož e spojitá ná hodná velič ina mů ž e nabý vat libovolné (⇐ spojitá ) hodnoty (na rozdı́l od diskré tnı́ velič iny, která mů ž e nabý vat jen ně který ch izolovaný ch hodnot), mů ž eme také uvaž ovaný interval stá le zmenš ovat, až bude mı́t nekonečně malou š ı́řku (⇒ limita). Tedy vzorec (10) mů ž eme také psá t: lim 𝑃(𝑥 < 𝑋 ≤ 𝑥 + ℎ) = lim [𝐹(𝑥 + ℎ) − 𝐹(𝑥)] →

→

Pokud dané limity budeme vyč ı́slovat pro ℎ → 0, tak se levá strana rovnice bude blı́žit k ná sledujı́cı́ pravdě podobnosti 𝑃(𝑥 < 𝑋 ≤ 𝑥 + ℎ) → 𝑃(𝑋 = 𝑥) a pravá strana rovnice se bude blı́žit k nule:


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

𝐹(𝑥 + ℎ) − 𝐹(𝑥) → 0 (pro ℎ → 0). Tedy z toho plyne, ž e 𝑃(𝑋 = 𝑥) = 0 což odpovı́dá skuteč nosti, ž e oborem hodnot spojitý ch ná hodný ch velič in je ně jaký interval, př ič emž kaž dý bod z tohoto intervalu má nulovou pravdě podobnost ¹¹. Proto nemá smysl poč ı́tat u spojité ná hodné velič iny pravdě podobnostnı́ funkci, kterou jsme zavedli u diskré tnı́ch ná hodný ch velič in, ale na zá kladě pravdě podobnostnı́ funkce zavá dı́me jinou funkci, kterou nazý vá me hustota pravděpodobnosti ¹² nebo také ně kdy frekvenční funkce. Hustota pravděpodobnos spojité ná hodné velič iny X na intervalu ⟨𝑎; 𝑏⟩ je ná sledujı́cı́ funkce: 𝑓(𝑥) = lim →

𝑃(𝑥 < 𝑋 ≤ 𝑥 + ℎ) = 𝐹 (𝑥) ℎ

kde pro 𝑥 ∉ ⟨𝑎; 𝑏⟩ je f(x) = 0;

𝐹(𝑥) je distribuč nı́ funkce ná hodné velič iny X, a

𝑥, 𝑥 + ℎ ∈ ⟨𝑎; 𝑏⟩. ¹¹ Neznamená to vš ak, ž e ná hodná velič ina 𝐗 nemů ž e hodnotu x nikdy dosá hnout. Ale je to matematické vystiž enı́ faktu, ž e hodnot, který ch ná hodná velič ina X nabý t mů ž e, je tak velké množ stvı́, ž e pravděpodobnost, ž e nabyde prá vě jednu, konké tně vybranou, je příliš nepatrná, v limitě nulová. ¹² Protož e hustotu pravdě podobnosti zavá dı́me jako ná sledujı́cı́ (speciá lnı́) limitu, která se nazý vá (jak vı́me z kurzu o diferenciá lnı́m poč tu) derivace distribuč nı́ funkce, mů ž e se stá t, ž e pro ně kterou hodnotu x je hodnota hustoty vě tš ı́ jak jedna: 𝑓(𝑥) > 1. Uvedená limita vš ak ž ádnou pravdě podobnost nevyjadř uje. Vždy ale bude hustota pravdě podobnosti nezáporná (0 ≤ 𝑓(𝑥) , ∀𝑥), protož e distribuč nı́ funkce je neklesajı́cı́ (viz jejı́ druhá vlastnost).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Distribuční funkci u spojité ná hodné velič iny urč ujeme analogicky jako u diskré tnı́ ná hodné velič iny, kde jsme použ ıv́ ali vzorec (11). Pouze si musı́me uvě domit, ž e nynı́ mı́sto pravdě podobnostnı́ funkce 𝑃(𝑋 = 𝑥) má me k dispozici hustotu pravdě podobnosti 𝑓(𝑥) a (sumou) vlastně sč ı́tá me nekonečně mnoho nekonečně malých velič in, což vede na ná sledujı́cı́ integrá l ¹³: Distribuční funkce spojité ná hodné velič iny X je ná sledujı́cı́ (primitivnı́) funkce 𝐹(𝑥) =

𝑓(𝑡) d𝑡

(13)

kde 𝑓(𝑡) je hustotou pravdě podobnosti té to ná hodné velič iny. Spojenı́m vzorců (10) a (13) dostá vá me vzorec pro vý poč et pravdě podobnosti, kdy spojitá ná hodná velič ina X nabude ně které hodnoty z intervalu 𝐽 = ⟨𝑥 ; 𝑥 ⟩ (𝐽 = (𝑥 ; 𝑥 ), 𝐽 = ⟨𝑥 ; 𝑥 ), 𝐽 = (𝑥 ; 𝑥 ⟩) 𝑃(𝑋 ∈ 𝐽) =

𝑓(𝑥) d𝑥 = 𝐹(𝑥 ) − 𝐹(𝑥 ) .

(14)

Z vlastnostı́ integrá lu plyne, ž e vů bec nezá lež ı́ na tom, zda je interval J uzavř ený, otevř ený nebo polootevř ený. Protož e hustotu pravdě podobnosti 𝑓(𝑥) v bodě 𝑥 zı́ská me z distribuč nı́ funkce 𝐹(𝑥) jejı́ derivacı́, 𝑓(𝑥) = 𝐹 (𝑥)

(15)

¹³ Př i praktické m vý poč tu se dolnı́ mez −∞ nahrazuje skuteč nou dolnı́ mezı́, od které je ná hodná velič ina X de inová na.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

spoč ıv́ á vý znam hustoty pravdě podobnosti v tom, ž e vyjadř uje velikost okamž ité změ ny distribuč nı́ funkce v dané m bodě , tedy „okamž itou“ velikost ná rů stu (č i poklesu) pravdě podobnosti v tomto bodě . Nebo ješ tě jinak — jak hustě jsou ostatnı́ hodnoty ná hodné velič iny 𝑋 rozmı́stě ny okolo tohoto bodu. Jako př ı́klad uveďme ná hodnou velič inu 𝑋, která označ uje vý šku ná hodně vybrané ho muž e v populaci Ceské republiky. Pokud bychom rozdě lili vš echny tyto muž e podle jejich vý šek do intervalů po deseti centimetrech, pak do kaž dé ho z tě chto intervalů „padne“ velmi mnoho muž ů, ale v intervalu (180 cm ; 190 cm) jich bude podstatně vı́ce jak např ı́klad v intervalu (140 cm ; 150 cm). Hustota pravdě podobnosti u spojité ná hodné velič iny je analogická pravdě podobnostnı́ funkci u diskré tnı́ ná hodné velič iny. Ovš em teď to již nejsou izolované body, ale na ně jaké m intervalu spojitá kř ivka. Podobně i distribuč nı́ funkce již nebude „rozkouskovaná “.

Hustota pravdě podobnosti spojité ná hodné velič iny

Distribuč nı́ funkce spojité ná hodné velič iny

Mů ž eme také ř ı́ci, ž e ná hodná velič ina je spojitá , pokud má spojitou distribuč nı́ funkci.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

4. Číselné charakteris ky náhodných veličin Distribuč nı́ funkce 𝐹(𝑥) s pravdě podobnostnı́ funkcı́ 𝑃(𝑋 = 𝑥) (u spojité ná hodné velič iny je to hustota pravdě podobnosti) popisujı́ rozdě lenı́ pravdě podobnostı́ hodnot př ı́sluš né diskré tnı́ ná hodné velič iny X vyč erpá vajı́cı́m způ sobem. Tyto funkce jsou vš ak č asto pomě rně slož ité a jejich urč enı́ pracné . Proto je ně kdy vý hodné shrnout celkovou informaci o ná hodné velič ině do ně kolika č ı́sel, která charakterizujı́ dalš ı́ jejı́ vlastnosti a umož ňujı́ srovná vá nı́ rů zný ch ná hodný ch velič in. Tato č ı́sla se nazý vajı́ charakteristikami náhodné veličiny. Obrá zek 2: Rozdě lenı́ spojitý ch ná hodný ch promě nný ch, které se odliš ujı́

polohou

variabilitou (rozptý lenı́m)

šikmostí

My si uvedeme pouze stř ednı́ hodnotu, rozptyl a smě rodatnou odchylku. Dalš ı́ charakteristiky, které charakterizujı́ podrobně jš ı́ vlastnosti ná hodné velič iny (např ı́klad koe icient š ikmosti a koe icient š pič atosti) uvá dě t nebudeme.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Střední hodnota 𝐸(𝑋) (také oč eká vaná hodnota, expected value) je pro diskré tnı́ ná hodnou promě nnou de inová na vztahem 𝐸(𝑋) =

𝑥 ⋅ 𝑃(𝑋 = 𝑥 )

(16)

∀

a pro spojitou ná hodnou promě nnou vztahem 𝐸(𝑋) =

𝑥 ⋅ 𝑓(𝑥) d𝑥

Př edpoklá dá me, ž e jak suma tak integrá l konvergujı́. Stř ednı́ hodnota charakterizuje polohu hodnot ná hodné promě nné , podobně jako aritmetický prů mě r ve statistice nebo tě žiš tě ve fyzice. Stř ednı́ hodnotu si mů ž eme př edstavit jako „pomyslný stř ed“ oboru hodnot ná hodné velič iny X, kolem které ho „kolı́sajı́“ jednotlivé hodnoty té to velič iny. Vlastnos střední hodnoty 𝐸(𝑋) (pokud uvedené stř ednı́ hodnoty existujı́) pro libovolné konstanty 𝑎, 𝑏, 𝑐 a ná hodné velič iny 𝑋 a 𝑌 jsou tyto: 1. 𝐸(𝑎) = 𝑎 2. 𝐸(𝑏 ⋅ 𝑋 ± 𝑐 ⋅ 𝑌) = 𝑏 ⋅ 𝐸(𝑋) ± 𝑐 ⋅ 𝐸(𝑌) 3. 𝐸(𝑋 ⋅ 𝑌) = 𝐸(𝑋) ⋅ 𝐸(𝑌),

pokud jsou 𝑋 a 𝑌 nezávislé.

V ná sledujı́cı́m př ı́kladu uká ž eme „už iteč nost“ znalosti vý poč tu stř ednı́ hodnoty v hazardnı́ hř e. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad Hrá č vsadı́ č ástku a korun na uč ité č ı́slo na hracı́ kostce. Jinak ř eč eno zvolı́ si jedno č ı́slo z ná sledujı́cı́ch š esti: {1, 2, 3, 4, 5, 6}. Poté banké ř hodı́ tři kostky. Jestliž e vsazené č ı́slo nepadne na ž ádné kostce, vklad propadá . Když vsazené č ı́slo padne na r kostká ch, pak hrá č dostane výhru (𝑟 ⋅ 𝑎) korun a vsazenou částku zpět. Je tato hra pro hrá č e vý hodná ? Řešení: Hod kostkou považ ujeme za pokus. Padne-li na prvnı́ kostce vsazené č ı́slo, pak tento jev, který označ ı́me 𝐴 (na druhé 𝐵 a na tř etı́ 𝐶), má pravdě podobnost . Hod tř emi kostkami, pokud se prová dı́ regulé rně , považ ujeme za Bernoulliovu posloupnost nezá vislý ch pokusů , kde 𝑛 = 3. Označ ı́me-li 𝐷 jev, ž e př i hodu tř emi kostkami je na k kostká ch vsazené č ı́slo (𝑘 = 0, 1, 2, 3), lze pravdě podobnost tohoto jevu označ enou 𝑃(𝐷 ) spoč ı́tat pomocı́ vzorce (4). Jevy 𝐷 (slož ené z elementá rnı́ch jevů 𝐴, 𝐵, 𝐶) a jejich pravdě podobnosti 𝑃(𝐷 ) jsou v prvnı́ch dvou sloupcı́ch ná sledujı́cı́ tabulky. Ná hodnou velič inou 𝑋 (jejı́ jednotlivé mož né hodnoty 𝑥 ) označ me č ástku, kterou hrá č po kaž dé hř e obdrž ı́. Jejı́ hodnoty př iř azené vý sledků m pokusu 𝐷 napı́šeme do tř etı́ho sloupce. V př ı́padě prohry nic (nula), v př ı́padě , ž e uhodne, tak vý hru a vklad. Ve č tvrté m sloupci jsou hodnoty pravdě podobnosti 𝑃(𝑋 = 𝑥 ) ná hodné velič iny 𝑋, které odpovı́dajı́ pravdě podobnosti vý sledků m př ı́sluš ný ch jevů . Podle vzorce (16) je stř ednı́ hodnota 𝐸(𝑋) =

⋅ 𝑎 rovna souč tu hodnot v poslednı́m sloupci.

Jako krité rium vý hodnosti hry lze vzı́t rozdı́l mezi stř ednı́ hodnotou vyplacený ch č ástek a vsazenou č ástkou a. Podle tohoto krité ria dostaneme: 199𝑎 − 𝑎 ≐ −0,078 704𝑎 . 𝐸(𝑋) − 𝑎 = 216 Protož e rozdı́l mezi stř ednı́ hodnotou vyplacený ch č ástek a vsazenou č ástkou a je př ibliž ně je tato hra pro hrá č e nevý hodná (ale pro banké ře je naopak vý hodná ), protož e ze vsazené č ástky Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝑘

𝐷

𝑃(𝐷 )

𝑥

1

𝐷 = 𝐴̄ ∩ 𝐵̄ ∩ 𝐶̄

⋅ ⋅

0⋅𝑎+0

0⋅

2

𝐷 = 𝐴 ∩ 𝐵̄ ∩ 𝐶̄ 3 ⋅ ⋅ ⋅

1⋅𝑎+𝑎

2𝑎 ⋅

=

3

𝐷 = 𝐴 ∩ 𝐵 ∩ 𝐶̄ 3 ⋅ ⋅ ⋅

2⋅𝑎+𝑎

3𝑎 ⋅

=

4

𝐷 =𝐴∩𝐵∩𝐶

⋅ ⋅

3⋅𝑎+𝑎

4𝑎 ⋅

=

má bý t 1

vý hra + vklad

∑

Casové ř ady

𝑃(𝑋 = 𝑥 ) 𝑥 ⋅ 𝑃(𝑋 = 𝑥 ) =0

1

Poznámka: V prvnı́m sloupci tabulky jsme pro př ehlednost zapsali pouze 𝐷 = 𝐴 ∩ 𝐵̄ ∩ 𝐶̄ , ale sprá vně by mě lo bý t 𝐷 = (𝐴 ∩ 𝐵̄ ∩ 𝐶)̄ ∪ (𝐴̄ ∩ 𝐵 ∩ 𝐶)̄ ∪ (𝐴̄ ∩ 𝐵̄ ∩ 𝐶), protož e vsazené č ı́slo mohlo padnout na prvnı́ kostce, ale také mohlo padnout na druhé kostce a také mohlo padnout na tř etı́. Podobně pro jev 𝐷 . Proto jsou př ı́sluš né pravdě podobnosti ná sobené trojkou.

v kaž dé hř e (usuzujeme z hodnoty 𝐸(𝑋) ⇒ v prů mě ru př i mnoha opaková nı́ch) ztrá cı́ hrá č prů mě rně necelý ch 8 % své ho vkladu.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Rozptyl 𝐷(𝑋) (také variance 𝑣𝑎𝑟(𝑋) č i disperze) zavedeme jako 𝐷(𝑋) = 𝐸{[𝑋 − 𝐸(𝑋)] }. Z vlastnostı́ stř ednı́ hodnoty plyne: 𝐷(𝑋) = 𝐸(𝑋 ) − [𝐸(𝑋)] .

(17)

Pro diskré tnı́ ná hodnou promě nnou pak platı́ 𝐷(𝑋) =

[𝑥 − 𝐸(𝑥)] ⋅ 𝑃(𝑋 = 𝑥 ) = ∀

𝑥 ⋅ 𝑃(𝑋 = 𝑥 ) − [𝐸(𝑋)] ∀

a pro spojitou ná hodnou promě nnou platı́ 𝐷(𝑋) =

[𝑥 − 𝐸(𝑥)] ⋅ 𝑓(𝑥) d𝑥 =

𝑥 ⋅ 𝑓(𝑥) d𝑥 − [𝐸(𝑋)]

Př edpoklá dá me, ž e jak sumy tak integrá ly konvergujı́. Rozptyl vyjadř uje, jak mnoho jsou hodnoty ná hodné promě nné rozptý leny kolem stř ednı́ hodnoty. Rozptyl vychá zı́ v „kvadratický ch“ jednotká ch, př ič emž zvý razň uje extré my (vá hu tě ch bodů , které jsou vı́ce vzdá leny od stř ednı́ hodnoty). Abychom srovnali tyto jednotky, poč ı́tá me ješ tě charakteristiku zvanou smě rodatná odchylka. Ta má jednotky shodné s jednotkami 𝐸(𝑋).

Směrodatná odchylka 𝜎(𝑋) je de inová na jako druhá odmocnina z rozptylu. 𝜎(𝑋) =


Př edmluva

Literatura

Zá vě r

𝐷(𝑋) •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady

5. Používaná rozdělení náhodných veličin 5.1. Opakování již dříve uvedených pojmů Souhrn vš ech hodnot, který ch ná hodná velič ina mů ž e nabý vat, se nazý vá obor hodnot náhodné veličiny. Ně které ná hodné velič iny nabý vajı́ pouze izolovaný ch hodnot (např ı́klad vý sledek hodu kostkou). Takovou ná hodnou velič inu nazý vá me diskrétní. Jindy tvoř ı́ obor hodnot ná hodné velič iny ně jaký č ı́selný interval (např ı́klad kurs koruny vů č i euru). V takové m př ı́padě hovoř ı́me o spojité ná hodné velič ině . O diskré tnı́ i spojité ná hodné velič ině jsme již mluvili, ale opaková nı́ vů bec nenı́ na š kodu. Chceme-li popsat chová nı́ ná hodné velič iny, nestač ı́ pouze uvé st obor hodnot, který ch mů ž e nabý vat. Ně které hodnoty z oboru se totiž mohou vyskytovat s vě tš ı́, jiné s menš ı́ pravdě podobnostı́. Pravidlo, který m se tato pravdě podobnost ř ı́dı́, se nazý vá zákon rozdělení (rozlož enı́) ná hodné velič iny. Zákon rozdělení je vlastně pravidlo (funkce, př edpis), které kaž dé hodnotě (nebo skupině hodnot) z oboru hodnot ná hodné velič iny př iř azuje pravdě podobnost jejich vý skytu. V konkré tnı́ statistické praxi se vychá zı́ z toho, ž e velké skupiny ná hodný ch pokusů majı́ stejné pravdě podobnostnı́ chová nı́, které zá visı́ na jejich charakteru. Probereme nynı́ postupně ně které typy rozdě lenı́ pravdě podobnosti, které majı́ ná hodné velič iny, popisujı́cı́ v jisté m smyslu analogické ná hodné pokusy. Na př ı́kladech budeme vž dy ilustrovat zá kladnı́ situace.

5.2. Diskrétní náhodná veličina — některá její rozdělení Zá kon rozdě lenı́ diskrétní ná hodné velič iny X lze nejjednoduš eji vyjá dř it pomocı́ pravdě podobnostnı́ funkce, o které jsme již mluvili. Druhou mož nostı́, jak vyjá dř it rozlož enı́ pravdě podobnosti diskré tnı́ ná hodné velič iny X, je pomocı́ distribuč nı́ funkce 𝐹(𝑥), což jsme si již také ř ı́kali.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Binomické rozdělení Binomické rozdě lenı́ má ná hodná velič ina X, která př edstavuje k vý skytů dané ho jevu v posloupnosti n nezá vislý ch pokusů , př ič emž p je pravdě podobnost (stá le stejná ) nastoupenı́ dané ho jevu v jediné m pokusu. Jeho pravděpodobnostní funkce je dá na (viz vzorec (4)) vztahem 𝑃(𝑋 = 𝑘) =

𝑛 ⋅ 𝑝 ⋅ (1 − 𝑝) 𝑘

(18)

𝐷(𝑋) = 𝑛 ⋅ 𝑝 ⋅ (1 − 𝑝)

(19)

a charakteristiky jsou 𝐸(𝑋) = 𝑛 ⋅ 𝑝

Binomické rozdě lenı́ si mů ž eme př edstavit jako DVOU–hodnotové — tedy daný jev buď nastal, nebo daný jev nenastal. Nic jiné ho nepř ichá zı́ v ú vahu. Binomické se nazý vá proto, ž e hodnoty funkce 𝑃(𝑋 = 𝑘) urč ené podle vzorce (18) jsou č leny v binomické m rozvoji vý razu [𝑝 + (1 − 𝑝)] . Poznámka Protož e jsou vý poč ty hodnot ( ) ⋅𝑝 ⋅(1−𝑝) pro velká n a k poč etně znač ně ná roč né , lze k jejich vý poč tů m použ ı́t poč ı́tač ové programy (např. Excel 2010), př ı́padně lze pro velmi velký rozsah pokusů (n je v ř ádu stovek a vı́c) toto rozdě lenı́ dı́ky centrá lnı́ limitnı́ vě tě aproximovat normá lnı́m rozdě lenı́m 𝑁(𝐸; 𝐷) , o které m bude ř eč dá le. Příklad skripta [4, č ı́slo 23]. V krabici jsou dvě zelené a tř i č erné koule. Ná hodně vybereme jednu, zjistı́me jejı́ barvu a vrátíme kouli do krabice. Toto provedeme ješ tě dvakrá t. Ná hodná velič ina X př edstavuje poč et vybraný ch č erný ch koulı́. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad. Je pravdě podobně jš ı́ vyhrá t v tenise se stejně silný m soupeř em tři zápasy ze čtyř nebo je pravdě podobně jš ı́ vyhrá t šest zápasů z osmi? Řešení: Tenisové zá pasy jsou vlastně opakované nezá vislé pokusy. Mohou nastat pouze dva vý sledky v jednom utká nı́: buďto vyhrajeme nebo prohrajeme. Hrajeme-li se stejně silný m soupeř em, je pravdě podobnost vý hry v kaž dé m zá pase 𝑝 = 0,5. V jiné m zá pase je zase 0,5 ⇒ nemě nı́ se. Tedy ná hodná velič ina X, která urč uje poč et vyhraný ch zá pasů má binomické rozdě lenı́. 3 ze 4 Do vzorce (18): 𝑃(𝑋 = 𝑘) = ( ) ⋅ 𝑝 ⋅ (1 − 𝑝) dosadı́me k = 3, n = 4 a 𝑝 = 0,5. 4 4! 4 ⋅ 3! 𝑃(𝑋 = 3) = ⋅0,5 ⋅(1−0,5) = ⋅0,5 ⋅0,5 = ⋅0,5 = 4⋅0,062 5 = 0,25 3 3! ⋅(4 − 3)! 3! ⋅1 6 z 8 Do vzorce (18) dosadı́me k = 6, n = 8 a 𝑝 = 0,5. 8 8! 8 ⋅ 7 ⋅ 6! 𝑃(𝑋 = 6) = = ⋅ 0,5 ⋅ 0,5 = ⋅ 0,5 = 0,109 375 ⋅ 0,5 ⋅ (1 − 0,5) 6 6! ⋅(8 − 6)! 6! ⋅2! Je tedy pravdě podobně jš ı́ zvı́tě zit ve tř ech zá pasech ze č tyř. V praxi se ale mimo př ı́padů — kdy mů ž eme rozhodnout naprosto př esně , kolikrá t daný jev nastal a kolikrá t daný jev nenastal (Např ı́klad: Danou kř iž ovatkou za daný č as projelo 𝑎 automobilů se spalovacı́m motorem. Jestliž e 𝑏 z nich mě lo benzı́nový motor, pak 𝑎 − 𝑏 mě lo jiný typ motoru: naftový, na LPG, na vodík, …) — vyskytujı́ také př ı́pady typu: • Př i bouř ce bylo XYZ blesků — a kolik blesků NEBYLO? • V sobotu se v porodnici narodilo ZYX dě tı́ — a kolik se jich NENARODILO? • atd. V tě chto př ı́padech nemů ž eme binomické rozdě lenı́ použ ı́t. Proto jsou zná ma i jiná rozdě lenı́ pravdě podobnosti (např ı́klad Poissonovo), než my si uvá dı́me. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Hypergeometrické rozdělení – kontrola jakos Hypergeometrické rozdě lenı́ má ná hodná velič ina X, která př edstavuje poč et k prvků s vlastnostı́ A ve skupině n prvků vybraný ch z množ iny N prvků , z nichž M má vlastnost A. Jeho pravděpodobnostní funkce je dá na vztahem 𝑀 𝑁−𝑀 ⋅ 𝑛−𝑘 𝑃(𝑋 = 𝑘) = 𝑘 𝑁 𝑛

(20)

a charakteristiky jsou 𝐸(𝑋) =

𝑛⋅𝑀 𝑁

𝐷(𝑋) =

𝑛⋅𝑀 𝑀 𝑁−𝑛 ⋅ 1− ⋅ 𝑁 𝑁 𝑁−1

Hypergeometrické rozdě lenı́ (ně kdy použ ıv́ á me i termı́n statistický vý bě r bez opaková nı́) se použ ıv́ á např ı́klad ve statistické kontrole jakosti (hlavně př i zkoumá nı́ jakosti malé ho poč tu vý robků , nebo když kontrola má charakter destrukč nı́ zkouš ky – př i kontrole je vý robek znič en) a jako pravdě podobnostnı́ model ně který ch her (např. Sportka apod.). A protož e nemá smysl kontrolovat jeden vý robek tř ikrá t (vý bě r bez opaková nı́), jde vlastně o to, ž e ná hodně vybrané prvky urč ené ke kontrole nevracı́me zpě t do zá kladnı́ho souboru, který je tvoř en vš emi vý robky. Jednotlivé pokusy jsou pak zá vislé (pravdě podobnost vý skytu vlastnosti A v urč ité m pokusu zá visı́ na vý sledcı́ch v př edchá zejı́cı́ch pokusech).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Poznámka Jestliž e rozsah N je velký a n a M/N se nemě nı́, blı́žı́ se hypergeometrické rozdě lenı́ binomické mu. To znamená , ž e pro velká N mů ž eme zanedbat rozdı́l mezi vý bě rem bez vracenı́ a s vracenı́m. V praxi se rozhodujeme podle hodnoty tak zvané ho výběrového poměru (n/N). Je-li tento pomě r menš ı́ než 0,05, lze hypergeometrické rozdě lenı́ nahradit binomický m s parametry n a p = M/N . Příklad skripta [4, č ı́slo 24]. Mezi devı́ti (N) ž árovkami urč ený mi k pevnostnı́m zkouš ká m jsou tř i (M) niž šı́ jakosti, které zkouš ky nevydrž ı́. Tedy ostatnı́ (N–M) ž árovky by pevnostnı́ zkouš ky mě ly vydrž et. Jaká je pravdě podobnost, ž e mezi č tyř mi (n) ná hodně vybraný mi ž árovkami nebude ž ádná (k) niž šı́ jakosti? Vraťme se nynı́ (o jednu kapitolu moudř ejš ı́) opě t k př edchozı́mu př ı́kladu č . 23 — který jsme ř eš ili v souvislosti s binomický m rozdě lenı́m — a uvaž ujme jej ve dvou modi ikacı́ch (poně kud upravı́me zadá nı́ ve skriptech): Příklad skripta [4, č ı́slo 23]. V krabici jsou dvě zelené a tř i č erné koule. Ná hodně vybereme jednu, zjistı́me jejı́ barvu a: 1. vrátíme ji do krabice ⟹ 𝑋 má binomické rozdě lenı́; 2. NEvrátíme ji do krabice ⟹ 𝑋 má hypergeometrické rozdě lenı́. Toto provedeme ješ tě dvakrá t. Ná hodná velič ina X př edstavuje poč et vybraný ch č erný ch koulı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

5.3. Spojitá náhodná veličina — některá její rozdělení Normální rozdělení Normá lnı́ rozdě lenı́ 𝑁(𝜇, 𝜎 ) má ná hodná velič ina X, jejı́ž kolı́sá nı́ je způ sobeno mnoha drobný mi nezá vislý mi vlivy, z nichž ž ádný samostatně nenı́ vý znamný. Jeho hustota pravděpodobnosti je dá na vztahem 𝑓(𝑥) =

1 𝜎√2𝜋

⋅𝑒

(

)

kde

−∞<𝑥 <∞

a charakteristiky jsou 𝐸(𝑋) = 𝜇

𝐷(𝑋) = 𝜎

Normá lnı́ rozdě lenı́ ¹⁴ majı́ mnohé ná hodné velič iny — procentové změ ny v cená ch akciı́ na dobř e fungujı́cı́ch trzı́ch, devizové vý platnı́ pomě ry mě n, chyby mě řenı́, rozmě ry vý robků př i hromadné vý robě , rozptyl př i stř elbě a mnohé jevy ve fyzice, v biologii, v medicı́ně . Obecně lze ř ı́ci, ž e je použ itelné vš ude tam, kde hodnoty ná hodné velič iny jsou ovlivně ny pů sobenı́m velké ho poč tu nepatrný ch, vzá jemně nezá vislý ch nebo slabě zá vislý ch ná hodný ch vlivů . Graf funkce 𝑓(𝑥) popisujı́cı́ hustotu pravdě podobnosti normá lnı́ho rozdě lenı́ se nazý vá Gaussova kř ivka ¹⁵ (Gaussů v klobouk, zvonová funkce, angl. „bell curve“). Je charakteristická tı́m, ž e: ¹⁴ Neznamená to, ž e by ostatnı́ rozdě lenı́ byla nenormální č i abnormální. Ná zev pouze vyjadř uje skuteč nost, ž e vš echny soubory o velké m rozsahu, které byly zkoumá ny v době , kdy se tento ná zev ujal, mě ly (alespoň př ibliž ně ) toto rozdě lenı́ (soubory o menš ı́ch rozsazı́ch se tehdy nezkoumaly). Bylo proto př irozené („normální“) oč eká vat, ž e i dalš ı́ v budoucnu studované soubory budou mı́ti toto rozdě lenı́. ¹⁵ V roce 1733 uveř ejnil Abraham de Moivre spisek, ve které popsal rovnici té to kř ivky. Kř ivka (i jejı́ rovnice) upadla v zapomenutı́ a byla znovuobjevena jako „kř ivka chyb“ Laplaceem (se zá porný mi chybami se vypoř ádal pomocı́ absolutnı́ hodnoty) a Gaussem (zá porné znamé nko u chyb odstranil umocně nı́m na druhou) [14, str. 77–78]. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

• je symetrická kolem svislé př ı́mky prochá zejı́cı́ bodem 𝜇 v ně mž má funkce f(x) globá lnı́ (absolutnı́) maximum; • ve vzdá lenostech 𝜎 vlevo a vpravo od bodu 𝜇 má funkce f(x) in lexnı́ body; • teč ny funkce f(x) sestrojené v bodech 𝜇 ± 𝜎 protı́najı́ vodorovnou osu v bodech 𝜇 ± 2 𝜎; • ve vzdá lenostech 3 𝜎 se funkce f(x) té mě ř dotý ká vodorovné osy.

Gaussova kř ivka Parametr 𝜎 udá vá „horizontá lnı́“ vzdá lenost in lexnı́ch bodů od stř ednı́ hodnoty a tı́m i šířku křivky. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pro normá lnı́ rozdě lenı́ platı́ pravidlo „tří sigma“ , kdy do intervalu ⟨𝜇 − 3 𝜎; 𝜇 + 3 𝜎⟩ padne př ibliž ně 99,7 % vš ech hodnot ná hodné promě nné X. Tedy v uvedené m intervalu 3 𝜎 (3 𝜎 na kaž dou stranu od stř ednı́ hodnoty ⟹ tento interval má dé lku rovnu 6 𝜎, proto se ně kdy mů ž ete setkat i s jeho označ ová nı́m „š est sigma“) jsou prakticky vš echny hodnoty tohoto rozdě lenı́. Toto pravidlo 3𝜎 je jednı́m ze zá kladnı́ch principů , na nichž stojı́ kontrola kvality a jakosti (SPC — Statisitics Process Control, ISO normy pro SPC). Navı́c: do intervalu ⟨𝜇 − 2 𝜎; 𝜇 + 2 𝜎⟩ padne př ibliž ně 95 % hodnot a do intervalu ⟨𝜇 − 𝜎; 𝜇 + 𝜎⟩ př ibliž ně 68,3 % hodnot. Normá lnı́ rozdě lenı́ je nejdů lež itě jš ı́m rozdě lenı́m spojité ná hodné promě nné . Jeho vý znam zvyš uje to, ž e se jı́m dajı́ (za urč itý ch podmı́nek) aproximovat i jiná rozdě lenı́, ať spojité č i diskré tnı́ ná hodné promě nné (např ı́klad binomické , chı́–kvadrá t, Poissonovo, Studentovo). Jak jste si vš imli, doposud jsme neuvedli distribuč nı́ funkci normá lnı́ho rozdě lenı́, který žto integrá l neumı́me analyticky vypoč ı́tat.

𝐹(𝑥) = ∫ 𝑓(𝑡) d𝑡

Pokud si vzpomene na aplikace urč ité ho integrá lu, které byly probı́rá ny ve druhé m semetru v př edmě tu Matematika 2, tak urč itý m integrá lem urč ujeme velikost rovinné plochy (ve vedlejš ı́m obrá zku vybarvené ialově ) ohranič ené zdola souřadnou osou x, shora hustotou pravděpodobnosti f(t), zprava hodnotou x a vlevo jde plocha až do mı́nus nekoneč na.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

A proč se tolik zajı́má me o hodnotu distribuč nı́ funkce? Protož e pomocı́ nı́ a podle vzorce (14) doká ž eme urč it pravdě podobnost, ž e ná hodná promě nná X patř ı́ do ně jaké ho intervalu. Např ı́klad 𝑃(𝜇 − 3 𝜎 < 𝑋 < 𝜇 + 3 𝜎) =

1 𝜎√2𝜋

⋅e

(𝑥 − 𝜇) 2𝜎 d𝑥 = 𝐹(𝜇 + 3 𝜎) − 𝐹(𝜇 − 3 𝜎) ≐ 0,997

což je pravidlo tří sigma, které jsme uvedli na př edchozı́ straně . Numerický vý poč et integrá lu uvedené ho v př edchozı́m př ı́kladu bý vá souč ástı́ nejrů zně jš ı́ch poč ı́tač ový ch programů . A pro speciá lnı́ př ı́pad normá lnı́ho rozlož enı́ s nulovou stř ednı́ hodnotou (𝜇 = 0) a smě rodatnou odchylkou rovnou jedné (𝜎 = 1) /takové rozdě lenı́ se nazý vá normované/ existujı́ statistické tabulky hodnot. Zavedeme-li substituci 𝑢 = , která udá vá o kolik směrodatných odchylek je hodnota x vzdálena od střední hodnoty, př evedeme libovolné normá lnı́ rozdě lenı́ na normované , jehož distribuč nı́ funkci označ ujeme 𝐹 (𝑢) nebo Φ(𝑢). Příklad. Pro normá lnı́ rozdě lenı́ s parametry 𝜇 = 84,4 a 𝜎 = 36 pož adujeme najı́t hodnotu distribuč nı́ funkce v č ı́sle 77,5. Jinak ř eč eno: 𝐹(77,5) = 𝑃(𝑋 ≤ 77,5) = ? Postup si uká ž eme jak pomocı́ tabulek, tak i pomocı́ poč ı́tač ové ho (tabulkové ho) programu. 1. Sta s cké tabulky. 𝐹

,

,

≐ 𝐹 (−0,191 667) ≐ 1 − 𝐹 (0,192) ≐ 1 − 0,573 5 ≐ 0, 426

2. Programové vybavení. V tabulkové m programu Excel 2010 irmy Microsoft do ř ádku vzorců zadá me hodnoty: ⟹ =NORM.DIST(𝑥;𝜇;𝜎;PRAVDA)


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Ješ tě pohodlně ji nalezneme hodnotu distribuč nı́ funkce 𝐹(𝑥) normá lnı́ho rozdě lenı́ pomocı́ nabı́dky funkcı́ ⇒

Příklad skripta [4, č ı́slo 28]. Obsah ampulky s lé kem je ná hodnou velič inou s rozdě lenı́m 𝑁(10; 0,1 ) v cm . Vě tš ina jevů v př ı́rodě (bohuž el ne tak docela automaticky ve společ enský ch vě dá ch) má toto normá lnı́ rozlož enı́. Na stromě je nejmé ně hodně malý ch lı́stků . S př ibý vajı́cı́ velikostı́ stromový ch listů jejich frekvence narů stá a dosá hne maxima u listů stř ednı́ velikosti. Když velikost listů př ekroč ı́ prů mě rnou hodnotu, jejich č etnost ubý vá a opě t, jako tomu bylo s nejmenš ı́mi lı́stky, nejmé ně bude tě ch nejvě tš ı́ch stromový ch listů . Podobné rozlož enı́ (distribuci) – i když ne tak soustavně – objevı́me i u ř ady sociá lnı́ch jevů : vý še př ı́jmu, poč et dě tı́ v rodině , lé ta š kolnı́ho vzdě lá nı́, … Ně kdy bý vá normá lnı́ rozdě lenı́ také označ ová no jako zákon chyb.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Rovnoměrné rozdělení Rovnomě rné rozdě lenı́ na intervalu ⟨𝑎; 𝑏⟩ má ná hodná velič ina X, jejı́ž hodnota je ú mě rná dé lce podintervalu, do ně hož má padnout a nezá visı́ na umı́stě nı́ podintervalu v intervalu ⟨𝑎; 𝑏⟩. Jeho hustota pravděpodobnosti je dá na vztahem 𝑓(𝑥) =

1 𝑏−𝑎

kde

𝑎<𝑥<𝑏

a charakteristiky jsou 𝐸(𝑋) =

𝑎+𝑏 2

𝐷(𝑋) =

(𝑏 − 𝑎) 12

Jde o rozdě lenı́, jehož hustota pravdě podobnosti je konstantnı́ na ně jaké m intervalu ⟨𝑎; 𝑏⟩ a vš ude jinde je nulová . Kř ivka popisujı́cı́ hustotu pravdě podobnosti je na intervalu ⟨𝑎; 𝑏⟩ ú seč ka rovnobě žná s osou x. Rovnomě rné rozdě lenı́ popisuje např ı́klad chyby př i zaokrouhlová nı́ č ı́sel, doby č eká nı́ na uskuteč ně nı́ jevu opakujı́cı́ho se v pravidelný ch č asový ch intervalech apod. Příklad skripta [4, č ı́slo 25]. Tramvaje př ijı́ždě jı́ do zastá vky ve 12 minutový ch intervalech. Doba č eká nı́ na př ı́jezd tramvaje je ná hodná promě nná X.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Exponenciální rozdělení Exponenciá lnı́ rozdě lenı́ 𝐸(𝐴; 𝜎) má ná hodná velič ina X, která př edstavuje dobu, bě hem nı́ž nastane sledovaný jev. Jeho hustota pravděpodobnosti je dá na vztahem

𝑓(𝑥) =

1 ⋅𝑒 𝜎 0

pro 𝑥 > 𝐴 (21) jinak

a charakteristiky jsou 𝐸(𝑋) = 𝐴 + 𝜎

𝐷(𝑋) = 𝜎

Exponenciá lnı́ rozdě lenı́ má š irokou použ itelnost, zejmé na v teorii hromadné obsluhy (teorie front) ¹⁶, v teorii spolehlivosti, v teorii obnovy atd. Ná hodnou velič inou X bý vá obvykle doba, bě hem nı́ž nastane sledovaný jev (např ı́klad porucha př ı́stroje, př ı́chod zá kaznı́ka do opravny, atd.). Cı́slo A znač ı́ poč áteč nı́ ¹⁶ Př ı́chod cestujı́cı́ho v daný č as na zastá vku MHD lze považ ovat za ná hodnou velič inu, která má exponenciá lnı́ rozdě lenı́. Zpoč átku to vypadá tak, ž e autobusy (trolejbusy, tramvaje) jezdı́ podle jı́zdnı́ho ř ádu a na jednotlivý ch zastá vká ch př ichá zejı́ ná hodně rozdě leni cestujı́cı́ – jednou krá tce ně kolik po sobě a pak urč itou dobu zase nikdo. Teď k tomu př istoupı́ dalš ı́ sé rie ná hodný ch jevů . Např.: hustota provozu, pově trnostnı́ podmı́nky (v mlze se asi jezdı́ pomaleji), … Pozdě ji se zpoč átku nezá vislé jevy stanou navzá jem zá vislý mi a mů ž eme se dostat do ná sledujı́cı́ spirá ly. Např.: autobus zů stane stá t na „č ervenou“ a tı́m př ibý vá č ekajı́cı́ch na nejbliž šı́ zastá vce. Jejich odbavenı́ (ná stup a pozdě ji i vý stup) trvá dé le, doby stá nı́ autobusu v zastá vce jsou nadprů mě rné , jı́zdnı́ ř ád již nelze dodrž et, na dalš ı́ch zastá vká ch se nahromadı́ ješ tě vı́ce č ekajı́cı́ch cestujı́cı́ch atd. A co s tím? Změ nı́me např ı́ště jı́zdnı́ ř ád, nasadı́me autobusy disponujı́cı́ š irš ı́mi (př ı́padně vı́cero) dveř mi, nasadı́me velkokapacitnı́ autobusy, nebo vı́ce autobusů bude jezdit v kratš ı́ch intervalech, …?


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

dobu, až do které sledovaný jev nastat nemů ž e. Parametr A se č asto interpretuje jako parametr posunutí rozdě lenı́ na ose 𝑥. Parametr 𝜎 se ně kdy nazý vá parametr měřítka a jeho př evrá cená hodnota = 𝜆 se ně kdy nazý vá (prů mě rná ) rychlost výskytu dané udá losti. V ně který ch př ı́padech (např ı́klad č eká nı́ na poruchu zař ı́zenı́) má ná hodná velič ina X vý znam „doby ž ivota“ zkoumané ho zař ı́zenı́, př ič emž je „bez pamě ti“, neboť platı́: Pravdě podobnost toho, ž e jev X nastane po ně jaké době je stejná , jako by se do té doby nic nedě lo. Exponenciá lnı́ rozdě lenı́ je z tě chto dů vodů vhodné k popisu rozdě lenı́ doby ž ivota tě ch zař ı́zenı́, u nichž dochá zı́ k poruš e ze zcela ná hodný ch (vně jš ı́ch) př ı́čin, nikoliv např ı́klad vlivem stá rnutı́ materiá lu. Doby ž ivota mnohý ch strojnı́ch souč ástı́ a jiný ch zař ı́zenı́ — zvlá š tě takový ch, u nichž se projevuje mechanické opotř ebová nı́ a ú nava materiá lu — majı́ Weibullovo rozdě lenı́ (s pamě tı́), který m se také nebudeme zabý vat. Příklad skripta [4, č ı́slo 29]. Doba do poruchy zař ı́zenı́ se ř ı́dı́ exponenciá lnı́m rozdě lenı́m se stř ednı́ hodnotou 8 hodin. Intenzita poruch Modelujeme-li dobu do vý skytu udá losti (ž ivotnost, dobu do poruchy, dobu do ná vratu onemocně nı́, dobu do př ı́chodu zá kaznı́ka apod.), použ ıv́ á me kromě hustoty pravdě podobnosti a distribuč nı́ funkce také funkci zná mou pod ná zvem intenzita poruch (hazardnı́ funkce, angl. „hazard function“).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Intenzitu poruch 𝜆(𝑡) zavá dı́me pro nezá pornou ná hodnou velič inu X se spojitý m rozdě lenı́m popsaný m distribuč nı́ funkcı́ 𝐹(𝑡), kde 𝐹(𝑡) ≠ 1 ∶ ∀𝑡 (tedy 𝐹(𝑡) < 1) takto: 𝜆(𝑡) =

𝐹 (𝑡) 1 − 𝐹(𝑡)

(22)

Př edstavuje-li ná hodná velič ina X dobu do poruchy ně jaké ho zař ı́zenı́, pak pravdě podobnost, ž e pokud do č asu t nedoš lo k ž ádné poruš e, tak k nı́ dojde v ná sledujı́cı́m krá tké m ú seku dé lky Δ𝑡, je př ibliž ně rovna 𝜆(𝑡) ⋅ Δ𝑡. Speciá lně pro ná hodnou promě nnou s exponenciálním rozdělením, jejı́ž hustota pravdě podobnosti je dá na vztahem (21) platı́, ž e 1 = 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎, pro 𝑡 > 𝐴 , 𝜎 což jednoduš e ově řı́me tak, ž e vztah (21 – popisuje funkci hustoty) dosadı́me do vztahu (22 – platı́ pro distribuč nı́ funkci) za využ itı́ vzorců (15) a (13): 𝜆(𝑡) =

𝑓(𝑡)

𝜆(𝑡) = 1−

1 ⋅𝑒 𝜎

=

𝑓(𝑥) d𝑥

1−

1 ⋅𝑒 𝜎

= d𝑥

1 ⋅𝑒 𝜎 1+ 𝑒

=

1 ⋅𝑒 𝜎 1+𝑒

= −𝑒

1 ⋅𝑒 𝜎 1+𝑒

= −1

1 𝜎

Má -li doba do vý skytu udá losti exponenciá lnı́ rozdě lenı́, pak je intenzita poruch konstantnı́. Což mimo jiné znamená , ž e nenı́ zá vislá na dé lce př edchá zejı́cı́ho provozu sledované ho systé mu. Tedy jsme skuteč ně oprá vně ni, tak jako na př edchozı́ straně , tvrdit, ž e č eká nı́ na poruchu zař ı́zenı́ je rozdě lenı́ „bez pamě ti“. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pokud bychom skuteč ně sledovali č etnost poruch ně jaké ho druhu vý robku, nejspı́še by zakreslená kř ivka intenzity poruch mě la tř i č ásti: I. V prvnı́m ú seku kř ivka intenzity poruch klesá . Odpovı́dajı́cı́ č asový interval se nazý vá období časných poruch (obdobı́ zá bě hu, poč áteč nı́ho provozu, osvojová nı́, dě tský ch nemocı́). Př ı́činou zvý šené intenzity poruch v tomto obdobı́ jsou poruchy v dů sledku vý robnı́ch vad, nesprá vné montá ž e, chyb př i ná vrhu, př i vý robě apod. II. Ve druhé m ú seku dochá zı́ k bě žné mu využ ıv́ á nı́ zabě hnuté ho vý robku, k poruchá m dochá zı́ vě tš inou z vně jš ı́ch př ı́čin, nedochá zı́ k opotř ebenı́, které by změ nilo funkč nı́ vlastnosti vý robku. Př ı́sluš ný č asový interval se nazý vá období normálního užití, č i obdobı́ stabilnı́ho ž ivota. Intenzita poruch je v tomto období přibližně konstantní. III. Ve tř etı́m ú seku procesy stá rnutı́ a opotř ebenı́ mě nı́ funkč nı́ vlastnosti vý robku, projevujı́ se nastř ádané otř esy vý robku z obdobı́ II, trhliny materiá lu a intenzita poruch vzrů stá . Př ı́sluš ný č asový interval se nazý vá období poruch v důsledku stárnutí a opotřebení. Intenzitu poruch modelujeme v jednotlivý ch ú secı́ch vě tš inou pomocı́ rů zný ch rozdě lenı́. Pouze ve druhé m ú seku použ ıv́ á me v té to kapitole probı́rané exponenciá lnı́ rozdě lenı́. A pouze v tomto druhé m ú seku jde o „rozdě lenı́ bez pamě ti“. A to ješ tě ne u vš ech druhů vý robků . Již zmiň ované Weibullovo rozdě lenı́ je obecně jš ı́ než exponenciá lnı́ rozdě lenı́ a proto je mnohem lexibilně jš ı́. Umož ňuje tak modelovat dobu do vý skytu udá losti i u systé mů , které jsou v I. obdobı́ č asný ch poruch nebo ve III. obdobı́ stá rnutı́ (tedy tam, kde se projevuje mechanické opotř ebenı́ nebo ú nava materiá lu). Exponenciá lnı́ rozdě lenı́ je speciá lnı́m typem Weibullova rozdě lenı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

6. Náhodné vektory Až doposud jsme se zabý vali ná hodnou velič inou, která vý sledku pokusu př iř azovala jedno reá lné č ı́slo. Jestliž e je vý sledek pokusu vyjá dř en ně kolika reá lný mi č ı́sly, zá vislý mi na ná hodě , chá peme tato č ı́sla jako hodnoty jisté ho systé mu ná hodný ch velič in a použ ıv́ á me pro ně pojem náhodný vektor. Uveďme př ı́klady ná hodný ch vektorů : • vý ška 𝑋 , hmotnost 𝑋 , vě k 𝑋 a inteligenč nı́ kvocient 𝑋 muž e ve tř ı́dě př edstavujı́ slož ky ná hodné ho vektoru X = (𝑋 ; 𝑋 ; 𝑋 ; 𝑋 ); • doba zamě stná nı́ 𝑋 a vý ška platu 𝑌 zamě stnanců dané ho podniku jsou slož ky ná hodné ho vektoru Z = (𝑋; 𝑌); • zná mka 𝑋 , kterou student zı́skal z matematiky v prvnı́m semestru a zná mka 𝑋 , kterou student zı́skal z matematiky ve druhé m semestru jsou slož ky ná hodné ho vektoru Y = (𝑋 ; 𝑋 ). • ú daje zaznamená vané meteorologickou sondou (výška; tlak; teplota; rosný bod). Jednotlivé ná hodné velič iny v rá mci ná hodné ho vektoru mohou bý t naprosto nezá vislé (např ı́klad vě k 𝑋 a inteligenč nı́ kvocient 𝑋 v prvnı́m př ı́kladu), mohou vš ak také mı́t silnou vazbu (např ı́klad výška a tlak v poslednı́m př ı́kladu). Pro jednoduchost se v ná sledujı́cı́m omezı́me na dvouslož kový ná hodný vektor. Sdružená distribuční funkce (simultá nnı́ distribuč nı́ funkce) ná hodný ch velič in 𝑋 a 𝑌 je vyjá dř ena vztahem 𝐹(𝑥, 𝑦) = 𝑃(𝑋 ≤ 𝑥; 𝑌 ≤ 𝑦)


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Sdruž ená distribuč nı́ funkce ¹⁷ má obdobné vlastnosti jako distribuč nı́ funkce jedné promě nné 1. 0 ≤ 𝐹(𝑥, 𝑦) ≤ 1 2. Distribuč nı́ funkce je neklesajı́cı́ funkcı́ v kaž dé promě nné . 3. Distribuč nı́ funkce je spojitá zprava v kaž dé promě nné . 4.

lim 𝐹(𝑥, 𝑦) = 0

, →

a

lim 𝐹(𝑥, 𝑦) = 1

, →

Chceme-li urč it distribuč nı́ funkci slož ky 𝑋 (př ı́padně slož ky 𝑌) ná hodné ho vektoru, mluvı́me o Marginální distribuční funkci která má tvar 𝐹 (𝑥) = 𝑃(𝑋 ≤ 𝑥; 𝑌 libovolné ) = lim 𝐹(𝑥, 𝑦) →

𝐹 (𝑦) = 𝑃(𝑋 libovolné ; 𝑌 ≤ 𝑦) = lim 𝐹(𝑥, 𝑦) →

Z tohoto vyjá dř enı́ dá le plyne, ž e v př ı́padě diskré tnı́ho ná hodné ho vektoru s pravdě podobnostnı́ funkci 𝑃(𝑥 ; 𝑦 ) mů ž eme zı́skat ná sledujı́cı́ vztahy pro marginální pravděpodobnosti 𝑃 (𝑥) =

𝑃(𝑋 = 𝑥; 𝑌 = 𝑦 ) ∀

𝑃 (𝑦) =

𝑃(𝑋 = 𝑥 ; 𝑌 = 𝑦) ∀

¹⁷ Poznamenejme, ž e ve vý razu 𝑃(𝑋 ≤ 𝑥; 𝑌 ≤ 𝑦) se podle tradice použ ıv́ á stř ednı́k (č árka) ve vý znamu prů niku jevů . Sprá vně jš ı́ je tedy zá pis: 𝑃({𝑋 ≤ 𝑥} ∩ {𝑌 ≤ 𝑦}) nebo 𝑃((𝑋 ≤ 𝑥) ∧ (𝑌 ≤ 𝑦))


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obdobně pro spojitý ná hodný vektor s hustotou 𝑓(𝑥, 𝑦) zı́ská me vztahy pro marginá lnı́ hustoty pravdě podobnosti 𝑓 (𝑥) =

𝑓(𝑥, 𝑦) d𝑦

𝑓 (𝑦) =

𝑓(𝑥, 𝑦) d𝑥

Kon ngenční (korelační) tabulka V př ı́padě diskré tnı́ho dvouslož kové ho ná hodné ho vektoru s koneč ný m poč tem hodnot se sdruž ená pravdě podobnostnı́ funkce č asto prezentuje prostř ednictvı́m kontingenč nı́ tabulky ¹⁸ (viz ná sledujı́cı́ př ı́klad). V té to tabulce se mimo sdruž ené pravdě podobnostnı́ funkce (uprostř ed tabulky) rovně ž uvá dı́ v poslednı́m ř ádku a v poslednı́m sloupci marginá lnı́ pravdě podobnostnı́ funkce. Ve statistice takovou tabulku ně kdy nazý vá me korelač nı́. [3, str. 121]

¹⁸ Slovo kontingenge se do statistiky dostalo př es anglič tinu z latiny [14, str. 310] – znamená té mě ř doslova setkání, spojení. V takové tabulce se tedy zaznamená vajı́ vý sledky, které vychá zejı́ ze spojenı́ dvou ř ad znaků .


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Číselné charakteris ky náhodného vektoru Pokud bychom si jednotlivě vš ı́mali pouze slož ek ná hodné ho vektoru, pak pro každou složku již umı́me podle vzorce (16) urč it střední hodnotu a podle vzorce (17) rozptyl. Nynı́ si k nim př idá me ješ tě dalš ı́ charakteristiky použ ıv́ ané pro stanovenı́ mı́ry vazby ¹⁹ mezi ná hodný mi velič inami. A stejně jako u kontingenč nı́ tabulky se omezı́me pouze na ná hodné vektory, jejichž obě ná hodné promě nné jsou diskré tnı́ho typu. Marginá lnı́ stř ednı́ hodnoty a rozptyly popisujı́ pouze charakteristiky rozdě lenı́ jednotlivý ch ná hodný ch velič in, neř ı́kajı́ vš ak nic o „tě snosti“ vztahu mezi obě ma velič inami. K charakteristiká m, které mě řı́ tě snost (= mı́ru) lineární vazby mezi ná hodný mi velič inami 𝑋 a 𝑌 patř ı́ ná sledujı́cı́ dvě charakteristiky: kovariance a koe icient korelace ²⁰. Zdů razně me, ž e ani jedna z charakteristik mě řı́cı́ch tě snost vazby nic neř ı́ká o vztahu příčina ⇒ účinek. Jenom vypovı́dajı́, ž e mezi tě mito promě nný mi existuje tak a tak silná vazba. Potom si musı́ odbornı́k v př ı́sluš né oblasti lá mat hlavu, který dů sledek je způ soben kterou př ı́činou.

Kovariance 𝑐𝑜𝑣(𝑋, 𝑌) je stř ednı́ hodnota souč inu odchylek ná hodný ch velič in 𝑋 a 𝑌 od jejich stř ednı́ch hodnot: 𝑐𝑜𝑣(𝑋, 𝑌) = 𝐸 {[𝑋 − 𝐸(𝑋)] ⋅ [𝑌 − 𝐸(𝑌)]}

vlastnosti =

( )

𝐸(𝑋 ⋅ 𝑌) − 𝐸(𝑋) ⋅ 𝐸(𝑌)

¹⁹ Př edstavme si, ž e mě řı́me vý šku 𝑋 a vá hu 𝑌 dospě lé ho č lově ka. Ze zkuš enosti vı́me, ž e zhruba ř eč eno: čím je někdo vyšší, tím je těžší. Ale jistě zná me i vý jimky z tohoto pravidla. Jednak malé-tlusté a také vysoké-hubené lidi. Zá vislost mezi vý škou a vá hou tedy nenı́ př esná funkč nı́ zá vislost, jak ji zná me z matematiky, ale je to zá vislost jiné ho druhu, tzv. statistická. A pokud vý šku a vá hu vı́ce dospě lý ch osob zaznamená me do souř adné soustavy (osa x vý ška, osa y vá ha), kde kaž dé mu č lově ku odpovı́dá jeden bod v rovině (zde prá zdné koleč ko), mů ž eme obdrž et obrá zek podobný tomuto. ²⁰ Koe icient korelace (korelační koe icient) je pro mě řenı́ tě snosti vztahu mezi 𝑋 a 𝑌 vhodně jš ı́ charakteristikou než kovariance, protož e je jednak bezrozmě rný a jednak je normová n. Platı́: |𝜚(𝑋, 𝑌)| ≤ 1. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Korelační (Pearsonův) koeficient 𝜚(𝑋, 𝑌) urč uje mı́ru (jak je silná zá vislost) lineárních závislostí ná hodný ch velič in 𝑋 a 𝑌. 𝑐𝑜𝑣(𝑋, 𝑌) 𝜚(𝑋, 𝑌) = kde 𝐷(𝑋) ⋅ 𝐷(𝑌) ≠ 0 , jinak 𝜚(𝑋, 𝑌) = 0 . 𝐷(𝑋) ⋅ 𝐷(𝑌) • −1 ≤ 𝜚(𝑋, 𝑌) ≤ 1 • Když 𝜚(𝑋, 𝑌) = 0 pak velič iny 𝑋 a 𝑌 jsou nekorelované . Ovš em mohou bý t zá vislé (kvadraticky, exponenciá lně č i jinak), pouze neleží na přímce. • Když 𝜚(𝑋, 𝑌) > 0, pak hovoř ı́me o kladné (př ı́mé , pozitivnı́) korelaci; roste-li 𝑋, tak 𝑌 nejspı́še také roste. Jinak: Pro velké hodnoty 𝑋 lze oč eká vat spı́še velké hodnoty 𝑌 a pro malé hodnoty 𝑋 lze oč eká vat spı́še malé hodnoty 𝑌. Když 𝜚(𝑋, 𝑌) < 0, pak hovoř ı́me o zá porné (nepř ı́mé , negativnı́) korelaci; roste-li 𝑋, tak 𝑌 naopak spı́še klesá. Pro velké hodnoty 𝑋 lze oč eká vat spı́še malé hodnoty 𝑌 a pro malé hodnoty 𝑋 lze oč eká vat spı́še velké hodnoty 𝑌. • Hodnoty 𝜚(𝑋, 𝑌) blı́zké ±1 znamenajı́ silnou lineární závislost. Velič iny 𝑋 a 𝑌 té mě ř lež ı́ na př ı́mce. Hodnoty 𝜚(𝑋, 𝑌) blı́zké 0 znamenajı́ slabou lineární závislost mezi velič inami 𝑋 a 𝑌. V mnoha př ı́padech vš ak nelze na prvnı́ pohled urč it, zda hodnotu korelač nı́ho koe icientu už mů ž eme považ ovat za blı́zkou „1“ (nebo „−1“ č i „0“) a potom je nutné vý znamnost (blízkost „k“ ně čemu) korelač nı́ho koe icientu testovat (viz kapitola o testová nı́ hypoté z).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad: Há zı́me jednou mincı́ třikrát po sobě. Sestavte kontingenč nı́ tabulku a urč ete (jednoduchý ) korelač nı́ koe icient (mı́ru lineá rnı́ zá vislosti) pro tyto ná hodné velič iny: 𝑋 … poč et pokusů , než padne prvnı́ RUB; 𝑌 … poč et po sobě padlý ch RUBů . Ná hodný vektor 𝑉 = (𝑋, 𝑌). Řešení: Há zı́me tř ikrá t (zajı́majı́ ná s trojice) mincı́ (v jednom hodu dva mož né vý sledky — Rub×Lı́c), př ič emž klidně mohou padnout dva LICe po sobě (prvky se mohou opakovat). Shrnuto: jde o skupiny trojic ze dvou prvků , které se mohou opakovat a př itom zá lež ı́ na poř adı́, protož e rozliš ujeme, o jaký hod š lo. Tedy podle tabulky kombinatorický ch skupin jde o variace tř etı́ tř ı́dy (𝑟 = 3) ze dvou prvků (𝑘 = 2) s opaková nı́m, proto 𝑉 (2) = 2 = 8. Protož e mož nostı́ nenı́ tak mnoho, vypiš me si schematicky vš echny mož né vý sledky tř ı́ hodů 3×Rub – RRR; 𝑋 … poč et pokusů , než padne prvnı́ RUB; 𝑌 … poč et po sobě padlý ch RUBů .

2×Rub – RRL, RLR, LRR; 1×Rub – RLL, LRL, LLR; žádný Rub – LLL

a urč eme, které elementá rnı́ jevy vyhovujı́ daný m hodnotá m ná hodný ch velič in 𝑋 a 𝑌.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost

𝑋=0 𝑋=1 𝑋=2 𝑋=3 𝑌=0 𝑌=1 𝑌=2 𝑌=3



Regrese, korelace

(již v prvnı́m hodu padl RUB) . . . . . . . . . . . . . . (až ve druhé m hodu padl RUB) . . . . . . . . . . . . . (až ve tř etı́m hodu padl RUB) . . . . . . . . . . . . . . (vů bec nepadl RUB) . . . . . . . . . . . . . . . . . . . . . . . (vů bec nepadl RUB) . . . . . . . . . . . . . . . . . . . . . . . (po kaž dé m RUBu nepadl dalš ı́ RUB) . . . . . . . (po kaž dý ch dvou RUBech nepadl dalš ı́ RUB) (pokaž dé padl RUB) . . . . . . . . . . . . . . . . . . . . . . .


Casové ř ady

RRR, RRL, RLR, RLL LRR, LRL LLR LLL LLL RLR, RLL, LRL, LLR RRL, LRR RRR

Uvě domme si, ž e jde o nezá vislé pokusy (padnutı́ RUBu v prvnı́m hodu nijak neovlivnı́ to, co padne v hodu ná sledujı́cı́m), kde 𝑝 = 0,5 (pravdě podobnost padnutı́ RUBu), mů ž eme tedy podle vzorce (6) př ı́mo spoč ı́tat pravdě podobnosti jednotlivý ch elementá rnı́ch jevů , např ı́klad: 𝑃({𝑅𝐿𝑅}) = 0,5 ⋅ (1 − 0,5) ⋅ 0,5 = 0,125, podobně pro vš echny ostatnı́. Je zř ejmé , ž e všechny trojice mají stejnou pravděpodobnost. Dá le např ı́klad: 𝑃(𝑋 = 0; 𝑌 = 1) = 𝑃({𝑅𝑅𝑅, 𝑅𝑅𝐿, 𝑅𝐿𝑅, 𝑅𝐿𝐿} ∩ {𝑅𝐿𝑅, 𝑅𝐿𝐿, 𝐿𝑅𝐿, 𝐿𝐿𝑅}) = 𝑃({𝑅𝐿𝑅, 𝑅𝐿𝐿}) A protož e elementá rnı́ jevy jsou navzá jem nesluč itelné (když padne RUB, nemů ž e ve stejné m hodu zá roveň padnout LIC) 𝑃({𝑅𝐿𝑅, 𝑅𝐿𝐿}) = 𝑃({𝑅𝐿𝑅}) + 𝑃({𝑅𝐿𝐿}) = 0,125 + 0,125 = 2 ⋅ 0,125 = 0,25 Nynı́ již zkonstruujeme levou kontingenč nı́ tabulku, do které vypı́šeme nejdř ıv́ e elementá rnı́ jevy, které vyhovujı́ př ı́sluš ný m podmı́nká m. Pak do pravé tabulky doplnı́me patř ič né pravdě podobnosti.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



𝑌 0 1 𝑋 2 3

0 — — — LLL

1 RLR , RLL LRL LLR —

2 RRL LRR — —

3 RRR — — —

𝑋

𝑌

0 1 2 3 𝑃 (𝑦)

Regrese, korelace


Casové ř ady

0

1

2

3

𝑃 (𝑥)

0 0 0 0,125 0,125

0,25 0,125 0,125 0 0,5

0,125 0,125 0 0 0,25

0,125 0 0 0 0,125

0,5 0,25 0,125 0,125 1

Má me urč it koe icient korelace, na který potř ebujeme zná t kovarianci a marginá lnı́ vý bě rové rozptyly. Pro vý poč et vý bě rové ho rozptylu zase podle (17) je nutné zná t stř ednı́ hodnoty. Např ı́klad pro 𝐸(𝑋) využ ijeme podle (16) š edě označ ené hodnoty v prvnı́m a poslednı́m sloupci pravé tabulky, pro 𝐸(𝑌) zase ž lutě označ ené hodnoty a pro 𝐸(𝑋 ⋅ 𝑌) neobarvené hodnoty v tabulce. 𝐸(𝑋) = 0 ⋅ 0,5 + 1 ⋅ 0,25 + 2 ⋅ 0,125 + 3 ⋅ 0,125 = 0 + 0,25 + 0,25 + 0,375 = 0,875 𝐸(𝑌) = 0 ⋅ 0,125 + 1 ⋅ 0,5 + 2 ⋅ 0, 25 + 3 ⋅ 0,125 = 0 + 0,5 + 0,5 + 0,375 = 1,375 𝐸(𝑋⋅𝑌) = 0+0+0+0+0+1⋅1⋅0,125+1⋅2⋅0,125+0+0+2⋅1⋅0,125+0+0+0+0+0+0 = 0,625 Pro kovarianci platı́:

𝑐𝑜𝑣(𝑋, 𝑌) = 0,625 − 0,875 ⋅ 1,375 = −0,578 125

Pro ostatní charakteristiky můžeme postupovat obdobně. Práci strojům! Podstatně mé ně pracné je využ itı́ skuteč nosti, ž e ně které poč ı́tač ové programy umı́ poč ı́tat pož adované charakteristiky. Pokud např ı́klad vý še uvedené hodnoty (souř adnice bodů ) př epı́šeme do Excelu 2010, mů ž eme si uš etř it dalš ı́ prá ci (s dosazová nı́ do vzorců a jejich vyč ı́slová nı́m) a nechat funkci CORREL, ať uká ž e, co umı́. Levou kontingenč nı́ tabulku př epı́šeme do Excelu 2010 (podle ná sledujı́cı́ho levé ho obrá zku) ve tvaru, kolikrá t se př ı́sluš ný bod [𝑋; 𝑌] vyskytuje. Vidı́me, ž e [0 ; 1] je dvakrá t a body [0 ; 2], [0 ; 3], [1 ; 1], [1 ; 2], [2 ; 1] a [3 ; 0] jedenkrá t. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Na zá kladě hodnoty korelač nı́ho koe icientu 𝜚 ≐ −0,6 mů ž eme ř ı́ci, ž e mezi ná hodný mi velič inami 𝑋 a 𝑌 existuje stř edně silná negativnı́ korelace. Je tedy pravdě podobné , ž e s rů stem 𝑋 bude 𝑌 klesat (lineá rně ).

Na oč eká vanou otá zku: Umí Excel 2010 počítat i další charakteristiky? existuje také oč eká vaná odpově ď: UMÍ (viz vedlejš ı́ obrá zek pro č eskou verzi Excelu 2010).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad Zjistě te stř ednı́ hodnotu a smě rodatnou odchylku ná hodné velič iny (skripta [4, př ı́klad 19]), která popisuje poč et padlý ch LICU př i souč asné m hodu č tyř mi rozlišitelnými mincemi (skripta [4, př ı́klad 15]) – nebo há ž eme jednou mincı́ č tyř ikrá t po sobě . Řešení Pravdě podobnost, ž e padne lı́c př i hodu jednou mincı́ je 0, 5. Toté ž platı́ pro rub mince. Há ž eme-li č tyř mi mincemi, musı́ to platit pro kaž dou z nich. Proto např ı́klad padnutı́ lı́cu na vš ech č tyř ech mincı́ch má pravdě podobnost 0, 5 ⋅ 0, 5 ⋅ 0, 5 ⋅ 0, 5 = 0, 062 5. Vš echny mož nosti si mů ž eme sché maticky zná zornit, když označ ı́me L jev, ž e padne lı́c a R jev, ž e padne rub. RRLL RLRL RRRL RLLR RLLL RRLR LRRL LRLL RLRR LRLR LLRL RRRR LRRR LLRR LLLR LLLL což mů ž eme zaznamenat v ná sledujı́cı́ tabulce, kde stř ednı́ hodnotu znač ı́me 𝐸(𝑋) a rozptyl 𝐷(𝑋). Poznámka: Pokud si uvě domı́me, ž e jde o binomické rozdě lenı́, kde 𝑛 = 4 (há ž eme č tyř mi mincemi), 𝑝 = 0,5 (pravdě podobnost padnutı́ LICE), mů ž eme podle vzorce (19) př ı́mo spoč ı́tat pož adované charakteristiky. 𝐸(𝑋) = 4 ⋅ 0,5 = 2 , 𝐷(𝑋) = 4 ⋅ 0,5 ⋅ (1 − 0,5) = 1 . My budeme postupovat tak, jako bychom to nevě dě li. Alespoň vı́me, co ná m má vyjı́t.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

k

𝑥

𝑃(𝑋 = 𝑥 )

𝑥 .𝑃(𝑋 = 𝑥 )

𝑥 − 𝐸(𝑋)

[𝑥 − 𝐸(𝑋)]

[𝑥 − 𝐸(𝑋)] .𝑃(𝑋 = 𝑥 )

1 2 3 4 5

0 1 2 3 4

0,062 5 0,25 0,375 0,25 0,062 5

0 0,25 0,75 0,75 0,25

-2 -1 0 1 2

4 1 0 1 4

0,25 0,25 0 0,25 0,25

∑

1

2

0

𝐸(𝑋)


Př edmluva

Literatura

1 𝐷(𝑋)

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

k

𝑥

𝑃(𝑋 = 𝑥 )

𝑥 .𝑃(𝑋 = 𝑥 )

𝑥 − 𝐸(𝑋)

[𝑥 − 𝐸(𝑋)]

[𝑥 − 𝐸(𝑋)] .𝑃(𝑋 = 𝑥 )

1 2 3 4 5

0 1 2 3 4

0,062 5 0,25 0,375 0,25 0,062 5

0 0,25 0,75 0,75 0,25

-2 -1 0 1 2

4 1 0 1 4

0,25 0,25 0 0,25 0,25

∑

1

2

0

𝐸(𝑋)


Př edmluva

Literatura

1 𝐷(𝑋)

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

k

𝑥

𝑃(𝑋 = 𝑥 )

𝑥 .𝑃(𝑋 = 𝑥 )

𝑥 − 𝐸(𝑋)

[𝑥 − 𝐸(𝑋)]

[𝑥 − 𝐸(𝑋)] .𝑃(𝑋 = 𝑥 )

1 2 3 4 5

0 1 2 3 4

0,062 5 0,25 0,375 0,25 0,062 5

0 0,25 0,75 0,75 0,25

-2 -1 0 1 2

4 1 0 1 4

0,25 0,25 0 0,25 0,25

∑

1

2

0

𝐸(𝑋)


Př edmluva

Literatura

1 𝐷(𝑋)

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

k

𝑥

𝑃(𝑋 = 𝑥 )

𝑥 .𝑃(𝑋 = 𝑥 )

𝑥 − 𝐸(𝑋)

[𝑥 − 𝐸(𝑋)]

[𝑥 − 𝐸(𝑋)] .𝑃(𝑋 = 𝑥 )

1 2 3 4 5

0 1 2 3 4

0,062 5 0,25 0,375 0,25 0,062 5

0 0,25 0,75 0,75 0,25

-2 -1 0 1 2

4 1 0 1 4

0,25 0,25 0 0,25 0,25

∑

1

2

0

𝐸(𝑋)


Př edmluva

Literatura

1 𝐷(𝑋)

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

k

𝑥

𝑃(𝑋 = 𝑥 )

𝑥 .𝑃(𝑋 = 𝑥 )

𝑥 − 𝐸(𝑋)

[𝑥 − 𝐸(𝑋)]

[𝑥 − 𝐸(𝑋)] .𝑃(𝑋 = 𝑥 )

1 2 3 4 5

0 1 2 3 4

0,062 5 0,25 0,375 0,25 0,062 5

0 0,25 0,75 0,75 0,25

-2 -1 0 1 2

4 1 0 1 4

0,25 0,25 0 0,25 0,25

∑

1

2

0

𝐸(𝑋)


Př edmluva

Literatura

1 𝐷(𝑋)

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

k

𝑥

𝑃(𝑋 = 𝑥 )

𝑥 .𝑃(𝑋 = 𝑥 )

𝑥 − 𝐸(𝑋)

[𝑥 − 𝐸(𝑋)]

[𝑥 − 𝐸(𝑋)] .𝑃(𝑋 = 𝑥 )

1 2 3 4 5

0 1 2 3 4

0,062 5 0,25 0,375 0,25 0,062 5

0 0,25 0,75 0,75 0,25

-2 -1 0 1 2

4 1 0 1 4

0,25 0,25 0 0,25 0,25

∑

1

2

0

1

𝐸(𝑋)

𝐷(𝑋)

(popisná) Sta s ka Nynı́ vyjdě me z př edpokladu, ž e ná m nenı́ zná mo, ž e vý še uvedený př ı́klad popisuje poč et padlý ch „líců“ př i souč asné m hodu č tyř mi rozliš itelný mi mincemi. Proto ani netuš ı́me, ž e by mohlo jı́t o binomické rozdě lenı́. Máme pouze tato sesbíraná data: 2

2

1

2

3

1

2

3

1

2

3

0

1

2

3

4

Zpracování (sta s ckého) materiálu která posklá dá me a zapı́šeme do tabulky. Zajı́má ná s, jaké charakteristiky (př ı́sluš né vzorce uvedeme v ná sledujı́cı́ kapitole) mů ž eme z takto sesbı́raný ch hodnot (a zapsaný ch do tabulky) zı́skat. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pokud zobecnı́me poznatky z př edchozı́ho př ı́kladu (a také to, co jsme se dozvě dě li v té to kapitole o pravdě podobnosti) mů ž eme ř ı́ci, ž e okolo ná s existuje spousta vě cı́, jevů a udá lostı́, které nelze př edvı́dat, protož e jsou dů sledkem ná hody. Otá zkami ná hody a ná hodný ch dě jů se zabý vajı́ dvě disciplı́ny: teorie pravdě podobnosti a matematická statistika. Teorie pravděpodobnos je matematická disciplı́na, jejı́ž logická struktura je budová na axiomaticky. To znamená , ž e jejı́ zá klad tvoř ı́ ně kolik tvrzenı́ (tak zvaný ch axiomů ), která vyjadř ujı́ zá kladnı́ vlastnosti axiomatizované velič iny a vš echna dalš ı́ tvrzenı́ jsou z nich odvozena deduktivně . Systé m axiomů vzniká abstrakcı́ z pozorovaný ch skuteč nostı́ reá lné ho svě ta. Axiomy se nedokazujı́, považ ujı́ se za prově řené dlouhou lidskou zkuš enostı́. Př edstavme si to tak, ž e má me perfektně popsán model (v minulé př ı́padě to bylo souč asné há zenı́ č tyř mi rozliš itelný mi mincemi). Ptá me se: Jak dopadne následující pokus – hod? Kolik padne LICU? … Sta s ka (matematická ) je naproti tomu vě da, která zahrnuje studium dat vykazujı́cı́ch ná hodná kolı́sá nı́, ať už jde o data zı́skaná peč livě př ipravený m pokusem provedený m pod stá lou kontrolou experimentá lnı́ch podmı́nek v laboratoř i, č i o data provoznı́. Statistika jako vě da se dá le zabý vá otá zkami zı́ská vá nı́ dat, jejich analý zou a formulová nı́m zá vě rů o pokusech a experimentech, nebo zá vě rů př i rozhodová nı́ založ ené m na datech. Takž e nynı́ má me ně kolik (dostatek) vý sledků realizace ně jaké ho dě je (tolikrá t padl např ı́klad LIC) a ptá me se: Jaké vlastnosti má model, který co nejlépe popisuje daný děj? Mů ž eme z dat usoudit, ž e há ž eme rozliš itelný mi mincemi (zá visı́ na poř adı́ ⇒ variace) nebo stejný mi mincemi (nezá visı́ na poř adı́ ⇒ kombinace)? A co ješ tě mů ž eme usoudit? Obecně se matematická statistika snaž ı́ formulovat zá vě ry a tvrzenı́ o pozorovaný ch velič iná ch, které plynou z vý sledků pokusů , mě řenı́ nebo pozorová nı́, které vykazujı́ jisté ná hodné chová nı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Zatı́mco teorie pravdě podobnosti usuzuje z vytvoř ené ho pravdě podobnostnı́ho modelu zkoumané ho dě je na vý sledky jeho jednotlivý ch realizacı́, statistika odhaduje vlastnosti zkoumané ho dě je, u které ho nezná me model na zá kladě dat, zjiš tě ný ch z jeho jednotlivý ch realizacı́. Dá vno př ed prvnı́mi elementá rnı́mi ú vahami o poč tu pravdě podobnosti (hazardnı́ hry) a ješ tě př ed prvnı́m (statistický m) zkoumá nı́m ú dajů o obyvatelstvu, byly zná my dva jevy, které vlastně př edstavujı́ synté zu teorie pravdě podobnosti a statistiky. Sázky a pozdě ji loterie, kde hlavně u velký ch loteriı́ podnikatel (vě tš inou stá t) zprostř edkuje bez vlastnı́ho rizika vyrovná nı́ mezi množ stvı́m sá zejı́cı́ch. Poč etné malé dı́lč ı́ př ı́spě vky (sá zky, cena losu, …) jsou po srá ž ce ná kladů a danı́ odevzdá ny do rukou tě ch několika málo, kteř ı́ mě li š tě stı́. Pojištění pracuje na stejné m principu. Cetné malé dı́lč ı́ č ástky (pojistné ) jsou po srá ž ce ná kladů a zisku odevzdá ny tě m několika málo, kdo majı́ dostat ná hradu za utrpě nou š kodu. Jistý rozdı́l tady ale je. Zatı́mco u loteriı́ se mezi vý herce rozdě lı́ pouze tolik, kolik se vybralo (navı́c ponı́žené o ná klady a daně ) u pojiš tě nı́ se př i vzniku pojistné udá losti vyplá cı́ př edem pevně stanovené odš kodné . Proto si musejı́ pojiš ťovacı́ společ nosti velmi dobř e rozvá ž it, jak velký kapitá l musejı́ mı́t k dispozici. Jen na zá kladě „mlhavých“ př edstav o č etnosti š kod, (data, která jsou k dispozici – viz př edchozı́ př ı́klad), mů ž eme oč eká vat dva stejně nepř ı́jemné omyly: • Buď podcenı́me č etnost š kod, pož adujeme nı́zké pojistné , ale př itom musı́me v př ı́padě š kodnı́ udá losti hodně vyplá cet ⟹ ú padek irmy. • Nebo z opatrnosti nasadı́me pojistné př ı́liš vysoko a z poč átku vydě lá vá me vı́ce než dost. Brzy vš ak ztratı́me zá kaznı́ky, kteř ı́ př ejdou ke sprá vně ji kalkulujı́cı́ a tı́m lacině jš ı́ konkurenci. A vystavuji se ú padku v ješ tě vě tš ı́ mı́ře, protož e př edpokladem fungujı́cı́ho pojiš tě nı́ je pokud mož no velký poč et pojiš tě ný ch. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Proto musejı́ pojiš ťovny vı́ce „kalkulovat“ než irmy provozujı́cı́ loterie. Snahou pojiš ťoven je, co nejvı́ce konkretizovat svoje př edstavy o š kodný ch udá lostech tak, aby tyto př edstavy co nejvě rně ji odpovı́daly realitě . A tomu ná sledně př izpů sobit svů j podnikatelský zá mě r. Př edpokladem pro vznik pojiš tě nı́ bylo pozná nı́, ž e jisté š kodnı́ udá losti se vyskytujı́ s př ibliž ně odhadnutelnou č etnostı́. Pak př iš el dalš ı́ logický krok. Když vı́me, ž e v prů mě ru např ı́klad každá desátá loď ztroskotá , je mož no š kodu vyrovnat tak, ž e kaž dý vlastnı́k lodi zaplatı́ desetinu hodnoty (lodı́ a zbož ı́ př i kaž dé plavbě ) jako pojistné . Již ve č tvrté m stoletı́ př ed naš ı́m letopoč tem [14, str. 255], kdy ostrov Rhodos ovlá dl lodnı́ plavbu ve vý chodnı́m Stř edomoř ı́ a vytvoř il poč átky obchodnı́ho a ná moř nı́ho prá va, vznikla prvnı́ ú prava rozdě lenı́ ztrá ty př i vyhazová nı́ zbož ı́ př es palubu v př ı́padě nebezpeč ı́ na moř i. Uprava, která byla pozdě ji jako lex Rhodia de iactu (rhó dský zá kon o odlehč ová nı́ lodi potopenı́m zbož ı́) př evzat do ř ı́mské ho prá va. Uvedený zá kon se zaklá dal na té to situaci. Obchodnı́ loď je nalož ena zbož ı́m, které patř ı́ vı́ce obchodnı́ků m. Dostane se do bouř e a musı́ se zbavit (alespoň č ásti) ná kladu, aby se nepotopila. Lodnı́ posá dka popadne, co jı́ prá vě př ijde pod ruku a co se dá zvlá š ť snadno (nebo co je zvlá š ť tě žké ) hodit př es palubu a pokrač uje (i když s př ı́padný mi obtı́žemi) v plavbě do př ı́stavu. Zá chrana lodi, muž stva a č asto i vě tš iny zbož ı́ byla mož ná jen za podmı́nky, ž e bylo obě tová no (č ást nebo vš echno) zbož ı́ jednoho (nebo vı́ce) obchodnı́ků . A mě li by bý t prá vě oni poš kozeni, aby ostatnı́ nepř iš li k ú jmě ? „Lex Rhodia se iactu“ rozhodl tak, ž e se š koda rovnomě rně rozdě lı́ na vš echny, kdo mě li zá jem na zá chraně lodi a ná kladu. Od tohoto zá konem upravené ho dě lenı́ š kody po havá rii je pouze malý krok k dobrovolné mu předchozímu placenı́ pojistné ho za dopravované zbož ı́. Ná klady př itom velmi podstatně klesnou, protož e se pojistné platı́ i za ty lodnı́ př epravy, které skonč ı́ beze ztrá t. Musı́me ale rozliš ovat dvě vě ci, které se velmi lehce smě šujı́: matematicky objektivně oč eká vanou hodnotu (kaž dá desá tá loď ztroskotá ) a subjektivnı́ osobnı́ riziko (co z toho pro mne plyne, pokud to bude moje loď?).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Uvod do Popisné statistiky


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obsah kapitoly: Popisná sta s ka 1. Co je to sta s ka? 1.1. Zá kladnı́ pojmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97 98

2. Číselné charakteris ky sta s ckých souborů 2.1. Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . Modus, mediá n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aritmetický, geometrický, harmonický a chronologický prů mě r 2.2. Charakteristiky rozptylu (variability) . . . . . . . . . . . . . . . . Rozptyl (vý bě rový ), smě rodatná odchylka . . . . . . . . . . . . . Př ı́klad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vč etně odlehlý ch (extré mnı́ch) hodnot . . . . . . . . . . . . . . . Oč iš tě ná data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

102 103 103 104 110 110 115 115 125

3. Zpracování sta s ckého materiálu 3.1. Menš ı́ vzorek . . . . . . . . . . . . . . . 3.2. Rozsá hlý vzorek . . . . . . . . . . . . . 3.2.1. Tř ı́dě nı́ dat – tabulka . . . . . . 3.2.2. Dalš ı́ sloupce tabulky . . . . . 3.2.3. Urč enı́ č ı́selný ch charakteristik

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

135 135 144 146 152 157

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

4. Využi programu Excel 2010

158

5. Základy zpracování kvalita vních dat

163


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



6. Závěr kapitoly – Etapy sta s cké práce


Př edmluva

Literatura

Regrese, korelace


Casové ř ady

169

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

1. Co je to sta s ka? Popisná statistika ²¹ bý vá prvnı́m krokem k odhalenı́ informacı́ skrytý ch ve velké m množ stvı́ promě nný ch a jejich variant. Statistika (jako vě dnı́ disciplı́na) si klade za cı́l informace a zá konitosti, které př ı́padně existujı́ mezi ně který mi hodnotami (a na poč átku mohou bý t skryty) odhalit. To znamená uspoř ádat promě nné (jejich pozorované hodnoty) do ná zorně jš ı́ formy (graf×tabulka) a popsat je ně kolika má lo hodnotami (proto promě nné podle potř eby sdruž ujeme do tř ı́d – viz pozná mka pod obrá zkem 3), které by obsahovaly co nejvě tš ı́ množ stvı́ informacı́ obsaž ený ch v pů vodnı́m souboru. Nynı́ si na př ı́kladu uká ž eme ně které ú lohy statistiky a př ı́stup k jejich ř eš enı́. Vý robce souč ástek změ nil technologii vý roby. Chce zjistit, jaká je ž ivotnost souč ástek vyrá bě ný ch touto novou technologiı́ a zda se tato ž ivotnost vý znamně liš ı́ od ž ivotnosti souč ástek vyrá bě ný ch dř ıv́ ě jš ı́m způ sobem. Je zř ejmé , ž e nemá smysl zjiš ťovat ž ivotnost kaž dé vyrobené souč ástky. Trvalo by to jednak dlouho a po provedenı́ zkouš ek by nebylo co prodá vat. Vý robce proto volı́ ná sledujı́cı́ postup: • Ze sé rie vyrá bě ný ch souč ástek vybere urč itý poč et souč ástek a na takto vybraný ch souč ástká ch provede zkouš ky ž ivotnosti. • Ze zı́skaný ch hodnot ž ivotnosti pak urč ı́ parametry, které nejlé pe charakterizujı́ ž ivotnost vybrané ho souboru souč ástek. • Tyto charakteristiky pak slouž ı́ jako podklad pro zá vě ry tý kajı́cı́ se ž ivotnosti celé vyrobené sé rie. Stě žejnı́m ú kolem je najı́t postup, aby vý sledky které zı́ská na vzorku, byly co nejvı́ce podobné tě m, které by zı́skal po prozkoumá nı́ vš ech vyrobený ch souč ástek. Prvnı́ vě c, která ná s s otá zkou př esnosti napadne, ²¹ Vyvinula se z pů vodnı́ch starově ký ch sč ı́tá nı́ obyvatel a majetku.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

je mı́t vzorek co nejvě tš ı́. Ale tento postup má svá ú skalı́, z nichž na ně která jsme již pouká zali (např ı́klad pokud je př i testová nı́ souč ástka znič ena, nelze ji prodat). Vyvstá vajı́ pak např ı́klad ná sledujı́cı́ otá zky: • Jaká je ž ivotnost souč ástek vyrá bě ný ch změ ně nou technologiı́? • Je vý razný rozdı́l mezi ž ivotnostı́ souč ástek vyrá bě ný ch obě ma způ soby? • Jaký je pravdě podobnostnı́ zá kon pro rozdě lenı́ doby ž ivotnosti souč ástek? Vhodný m matematický m ná strojem pro ř eš enı́ tě chto a dalš ı́ch otá zek je (matematická ) statistika, jejı́mž hlavnı́m ú kolem je rozbor dat (zı́skaný ch z vyš etř ová nı́ skupiny prvků ) a rozš ı́řenı́ zá vě rů zı́skaný ch z tohoto vyš etř ová nı́ na celý soubor (populaci). Statistika – to je sběr a zpracování dat.

1.1. Základní pojmy Znak (náhodná veličina). Prvky (statistické jednotky), na nichž prová dı́me statistická š etř enı́, majı́ ně které vlastnosti (znaky) společ né a liš ı́ se v jednom nebo vı́ce znacı́ch o jejichž vlastnosti se zajı́má me. V našem příkladě ke společ ný m znaků m vý še zmı́ně ný ch souč ástek poč ı́tá me to, ž e jsou vyrobeny ze stejné ho materiá lu, v urč ité tová rně , danou technologiı́, atd. Znak v ně mž se liš ı́ je např ı́klad jejich ž ivotnost. Statistickou jednotkou je v tomto př ı́padě vyrobená souč ástka. Pojmem zpravodajská jednotka ( irma, obec, domá cnost, …) označ uje stá tnı́ statistika subjekty, které v souladu s př ı́sluš nou legislativou majı́ vů č i stá tu takzvanou zpravodajskou povinnost (musejı́ ně co hlá sit).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Základní soubor (populace) ²² obsahuje vš echny objekty, které chceme poznat. Jinak ř eč eno, je to soubor jednotek, o které m př edpoklá dá me, ž e jsou pro ně j naš e zá vě ry platné . V našem příkladu tvoř ı́ zá kladnı́ soubor vš echny souč ástky, které byly nebo ješ tě budou vyrobeny. Výběrový soubor (vzorek) obsahuje pouze objekty skuteč ně vyš etř ené , nebo-li skupinu jednotek, které skuteč ně pozorujeme. V našem příkladu je vý bě rový soubor tvoř en souč ástkami, na nichž probě hly zkouš ky. Abychom byli schopni z chová nı́ vzorku př edpovı́dat chová nı́ populace, musı́ struktura vzorku imitovat (napodobovat) slož enı́ populace tak př esně , jak je to jen mož né ²³. Lze př edpoklá dat, ž e s rostoucı́ velikostı́ vzorku se rozdı́l mezi strukturou populace a vzorku zmenš uje. Skuteč ně ; nejdř ıv́ e rychle, pak pomaleji a pomaleji. Uplné shody mezi strukturou populace a vzorku dosá hneme teprve tehdy, když jsme zahrnuli vš echny elementy populace do vzorku. Datový soubor je tvoř en š etř enı́m zı́skaný mi ú daji, který m ř ı́ká me hromadná data nebo jenom data. V našem příkladu zjiš tě né hodnoty ž ivotnosti na vybraný ch souč ástká ch tvoř ı́ datový soubor.

²² Ná zev populace se tradič ně použ ıv́ á proto, ž e prapů vodně se statistikou rozumě la č innost, spoč ıv́ ajı́cı́ ve zjiš ťová nı́ stavu ně jaké ho ú zemı́ a spı́še stavu obyvatelstva na tomto ú zemı́ — aby mě la „vrchnost“ př edstavu, kolik prostř edků např ı́klad zı́ská na danı́ch, kolik muž ů si mů ž e dovolit povolat do zbraně apod. Za př ı́klad takové ho statistické ho zjiš ťová nı́ mů ž e slouž it sč ı́tá nı́ lidu, které v roce Kristova narozenı́ nechal prové st cı́sař Augustus (viz Bible, Druhá kniha Samuelova, kapitola 24 a Luká š ovo evangelium, kapitola 2). A protož e to, co se tehdy zkoumalo bylo obyvatelstvo dané ho ú zemı́, zauž ıv́ al se ná zev populace, který nynı́ stá le použ ıv́ á me pro zá kladnı́ soubor i když v hledá č ku pozornosti námi popisovaného příkladu jsou vyrá bě né souč ástky. ²³ Jen si zkuste př edstavit, jaké hodnoty o č ase strá vené m na internetu zı́ská te v domovech pro seniory nebo na vysokoš kolský ch kolejı́ch.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Poznámka. Aby se př i ř eš enı́ ú loh statistiky mohlo využ ı́t metod teorie pravdě podobnosti, vychá zı́ se z ná sledujı́cı́ch ú vah: Princip realizace pravdě podobnostnı́ho modelu statistické ho zkoumá nı́, to je zı́ská nı́ statistický dat a vhodný ch charakteristik. Protož e hodnoty znaku nabý vajı́ pů sobenı́m ná hodný ch vlivů na jednotlivý ch objektech rů zný ch hodnot, považ ujeme znak za ná hodnou velič inu, kterou označ ı́me X. Proto př edpoklá dá me, ž e zı́skaná data jsou realizacemi té to ná hodné velič iny X (vyš etř ované ho znaku), která má distribuč nı́ funkci F(X), kterou ovš em nezná me. Abychom zı́skali informace o rozdě lenı́ té to ná hodné velič iny v celé m zá kladnı́m souboru (populaci), provedeme ně kolik (tı́m vlastně sestrojı́me vzorek – uskuteč ňujeme vý bě r) vzá jemně nezá vislý ch pokusů (mě řenı́, pozorová nı́, …) př i nichž sledujeme realizace té to ná hodné velič iny (jaké jsou vý sledky jednotlivý ch pokusů ). Z hodnot zı́skaný ch ze vzorku (datový soubor) vypoč teme empirické charakteristiky (my zná me stř ednı́ hodnotu E(X) a rozptyl D(X)) a empirické zákony rozdělení (např ı́klad distribuč nı́ funkci F(x)). Pomocı́ nich pak odhadujeme hledané charakteristiky a zá kony rozdě lenı́ ná hodné velič iny X. Např ı́klad prů mě rný plat 20 obč anů CR je ná hodná velič ina, kterou označ me X. Vý poč tem prů mě rné ho platu (stanovenı́m stř ednı́ hodnoty E(X) z 20 platů ) konkrétních 20 obč anů (Ferda, Marie, …) zı́ská me jednu realizaci tohoto prů mě ru. Vý poč tem prů mě rné ho platu jiné ho vzorku 20 obč anů CR (Lojzič ka, Josef, …) zı́ská me jinou realizaci prů mě ru. Princip pravděpodobnostního modelu použ ité ho pro vyvozenı́ zá vě rů vyplý vajı́cı́ch ze zı́skaný ch statistický ch ú dajů a charakteristik. Má -li ale datový soubor podá vat dobrou informaci o vlastnostech zá kladnı́ho souboru, musı́ bý t vý bě r objektů prová dě n ná hodně , př ič emž má mı́t kaž dý objekt v zá kladnı́m souboru stejnou mož nost bý t vybrá n. Protož e objekty ve vý bě rové m souboru byly vybrá ny ná hodně , lze oč eká vat, ž e př i


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

jiný ch vý bě rech dostaneme jiný datový soubor. A ten bude mı́t jiné empirické charakteristiky a jiné empirické zá kony rozdě lenı́, i když charakteristiky a zá kon rozlož enı́ celé populace (zá kladnı́ho souboru) jsou stá le stejné . Zı́skané hodnoty vzorku (𝑥 , 𝑥 , … , 𝑥 ) lze tedy považ ovat za realizace ná hodné ho vektoru (𝑋 , 𝑋 , … , 𝑋 ), jehož slož ky 𝑋 jsou vzá jemně nezá vislé ná hodné velič iny. Empirické charakteristiky (stř ednı́ hodnota, rozptyl), obecně označ ené b, které jsou funkcemi hodnot vzorku, pak považ ujeme za realizace jistý ch ná hodný ch velič in B. Protož e 𝑏 = (𝑥 , 𝑥 , … , 𝑥 ), bude 𝐵 = (𝑋 , 𝑋 , … , 𝑋 ). Takto sestrojené ná hodné velič iny B nazý vá me obecně statistikami (nebo výběrovými charakteristikami) a jejich hodnoty, které nabý vajı́ na statistické m souboru nazý vá me pozorované hodnoty statistiky nebo empirickými charakteristikami.

S ně který mi statistikami (vý bě rový mi charakteristikami) se nynı́ sezná mı́me.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2. Číselné charakteris ky sta s ckých souborů Př edstavte si situaci, ž e má te k dispozici statistický soubor o pomě rně velké m rozsahu a stojı́te př ed otá zkou co s nı́m, jak jej co nejvý stiž ně ji popsat. Cı́selné hodnoty, který mi takový to rozsá hlý soubor „nahradı́me“, postihujı́ zá kladnı́ vlastnosti tohoto souboru a my jim budeme ř ı́kat statistické charakteristiky (statistiky). Jsou to jednoč ı́selné charakteristiky, které charakterizujı́ vš echny hodnoty zkoumané velič iny v celé m souboru jediný m č ı́slem. Jde zejmé na o prů mě rnou hodnotu velič iny v celé m souboru — např ı́klad prů mě rnou vý šku studenta ve tř ı́dě . Kromě prů mě rné hodnoty velič iny se použ ıv́ ajı́ i dalš ı́ obdobné míry polohy (mı́ry ú rovně ) velič iny v dané m souboru, např ı́klad prostř ednı́ hodnota z namě řený ch hodnot uspoř ádaný ch podle velikosti apod. Vedle urč enı́ ně jaké mı́ry polohy je dalš ı́m zá kladnı́m ú kolem př i zpracová nı́ namě řený ch hodnot zı́ská nı́ alespoň hrubé informace o tom, jak jsou hodnoty zkoumané velič iny rozdě leny mezi jednotlivé objekty souboru, jak mnoho se tyto hodnoty na jednotlivý ch objektech od sebe navzá jem liš ı́, jak mnoho jsou rozptý leny kolem hodnoty prů mě rné . Aby bylo mož né tuto rozptý lenost č i variabilitu velič iny charakterizovat jednou hodnotou, jednı́m č ı́slem, byly vyvinuty rů zné míry variability zkoumané velič iny v dané m souboru. Vš echny ně jaký m způ sobem zhruba udá vajı́ prů mě rnou odchylku hodnot ná hodné velič iny namě řený ch na jednotlivý ch objektech od prů mě rné hodnoty té to velič iny v celé m souboru. Např éklad se zjiš ťuje, o kolik se prů mě rně liš ı́ vý ška studenta ze tř ı́dy od prů mě rné vý šky vš ech studentů z dané tř ı́dy.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Charakteris ky polohy — data: 1 2 2 2 4 Tyto charakteristiky vyjadř ujı́ pomyslný stř ed promě nné . Modus: 𝑥̄ u diskré tnı́ promě nné je nejčastější hodnota (nejč astě ji se vyskytujı́cı́; ta, která má nejvyš šı́ č etnost) = 2. Dvojka se v daný ch datech vyskytuje tř ikrá t. Pouze tato charakteristika je použ itelná u jmenných – nominálních promě nný ch, které nabý vajı́ rovnocenný ch variant. Proto je nelze je ani porovná vat, ani seř adit. Např ı́klad: pohlavı́, ná rodnost, znač ka hodinek, barva svetru, … V tomto př ı́padě př edstavuje typické ho reprezentanta (hodnotu promě nné ), který chová nı́ souboru ovlivň uje nejvı́ce, protož e se vyskytuje nejvı́ce krá t. U spojité promě nné nelze modus takto urč ovat, ale v té to př ı́ruč ce se tı́m nebudeme trá pit. Existence dvou a vı́ce modu ve vý bě ru obvykle signalizuje nesourodost (heterogenitu) hodnot promě nné . Tuto nesourodost bý vá mož né odstranit rozdě lenı́m souboru na podsoubory — roztř ı́dě nı́m podle ně které ho jiné ho znaku (např ı́klad dvoumodá lnı́ znak výška člověka lze roztř ı́dit podle pohlavı́ na dva unimodá lnı́ (jsou urč eny jednoznač ně ) znaky – vý ška ž en a vý ška muž ů). Medián: 𝑥̄ to:

je prostřední hodnota z namě řený ch hodnot uspořádaných podle velikosti. Př esně ji je

• prostřední hodnota př i liché m poč tu prvků ; • jakákoliv hodnota mezi prostř ednı́mi hodnotami (i vč etně nich) př i sudé m poč tu prvků . Nejč astě ji (pokud má smysl ho urč ovat) bereme aritmetický průměr z tě chto prostř ednı́ch hodnot. O ně m si vı́ce ř ekneme za chvı́li. Tedy pro naš e zadaná data opě t 2.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Mediá n lze použ ı́t u pořadových – ordinálních promě nný ch, u který ch lze stanovit poř adı́ a tı́m je vzá jemně porovná vat (pouze na zá kladě poř adı́) nebo seř adit. Např ı́klad: zná mka ve š kole, velikost odě vů (S, M, L, XL), medaile ve sportovnı́ch soutě žı́ch (zlatá , stř ı́brná , bronzová ), … Ně kdy ovš em mů ž eme mı́t problé m s aritmetický m prů mě rem prostř ednı́ch hodnot. Ná sledujı́cı́ č tyř i charakteristiky s ná zvem nějaký průměr použ ıv́ á me pouze u (kvantitativnı́ch) promě nný ch, které lze vyjá dř it č ı́sly a pak je pomocı́ tě chto č ı́sel porovná vat. Tedy má smysl se ptá t O KOLIK je jeden prvek lepš ı́ než druhý, př ı́padně KOLIKRAT je jeden prvek lepš ı́ než druhý, … Data: 1

2

2

2

4

Aritme cký průměr: 𝑥̄ = 𝑥̄ =

∏𝑥

= ∏𝑥

1+2+2+2+4 = 5

⋅

⋅

⋅

=

11 = 2,2 5

= √1 ⋅ 2 ⋅ 2 ⋅ 2 ⋅ 4 = √1 ⋅ 2 ⋅ 4 = √32 = 2

𝑥 >0

Harmonický průměr: 𝑥̄ =

𝑛 ∑

pro

⋅ ∑ 𝑛 ⋅𝑥 =

𝑥 =

∏𝑥 =

Geometrický průměr: 𝑥̄ = pro

1 ⋅ 𝑛

=

𝑛 ∑

5

=

=

+ + + +

5 + +

=

20 ≐ 1,818 11

𝑥 >0

Chronologický průměr: 𝑥̄ Vybrané statistické tabulky

=

Př edmluva

1 ⋅ (𝑥 + 2𝑥 + … + 2𝑥 2 ⋅ (𝑛 − 1) Literatura

Zá vě r

+𝑥 )


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obrá zek 3: Př evzat z [14]

Zkoumané osoby byly zař azeny do tříd (skupin) podle jejich velikosti (v metrech)! Např ı́klad pro druhou skupinu zleva: vyš šı́ch jak 162,5 cm a niž šı́ch jak 167,5 cm jich bylo pě t.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

1 17 ⋅ (1 + 2 ⋅ 2 + 2 ⋅ 2 + 2 ⋅ 2 + 4) = = 2,125 2 ⋅ (5 − 1) 8


kde ∶

𝑥 ≤𝑥 ≤…≤𝑥

Casové ř ady

≤𝑥

Několik poznámek 1. Uvě domte si, ž e pož adavek, aby mě lo smysl se ptá t „o kolik, kolikrát, …“, je oprá vně ný (vý znamný, dů lež itý, prá vnı́ci použ ıv́ ajı́ termı́n relevantnı́). Formá lně sice mů ž eme např ı́klad modré barvě př iř adit jednič ku a č ervené barvě dvojku. Ovš em již nemů ž eme pro jeden svetr barvy hodnoty 1 a pro druhý barvy hodnoty 2 tvrdit, ž e v prů mě ru má me dva svetry v barvě 1,5. Toto tvrzenı́ postrá dá smysl. 2. Př estož e to tak na prvnı́ pohled vypadá , aritmetický prů mě r nenı́ vž dy pro vý poč et prů mě ru vý bě rové ho souboru nejvhodně jš ı́. Pracujeme-li, např ı́klad, s promě nnou př edstavujı́cı́ relativnı́ změ ny (rů stové indexy, cenové indexy, …), použ ıv́ á me geometrický prů mě r. Pro vý poč et prů mě ru v př ı́padech, kdy promě nná má charakter č ásti z celku (ú lohy o společ né prá ci, ně které ú lohy o pohybu, …), použ ıv́ á me prů mě r harmonický. 3. Formá lně bychom sice mohli i pro zá porné hodnoty použ ı́t v urč itý ch př ı́padech vzorec pro geometrický prů mě r (musı́ bý t de inová na odmocnina) a stejně tak vzorec pro harmonický prů mě r.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Např ı́klad pro hodnoty −4, −2, 1 dostá vá me: 𝑥̄ =

(−4) ⋅ (−2) ⋅ (1) = √8 = 2 , což je naprosto mimo zadané hodnoty, proto tento vý sledek nemů ž e př edstavovat „prů mě r“ zadaný ch hodnot. 4 1 1 𝑥̄ = = = = 4 , což je opě t naprosto mimo zadané hodnoty, … 1 + + Obdobně pro hodnoty −1, 2, 4 𝑥̄ =

1 + +

=

1

𝑥̄ = (−1) ⋅ (2) ⋅ (4) = √−8 = −2 4 = − = −4 1

Proto se př idrž ı́me obecně uzná vané zá sady, ž e jak geometrický prů mě r, tak harmonický prů mě r budeme poč ı́tat pouze pro kladné hodnoty sledované promě nné , což je jak v př ı́padě indexů (budou probı́rá ny v kapitole o hospodá ř ské statistice) tak v př ı́padě společné práce automaticky splně no. 4. Vzhledem k tomu, ž e kaž dý z prů mě rů se stanovuje ze vš ech hodnot promě nné , nese maximum informacı́ o vý bě rové m souboru. Na druhé straně je vš ak chronologický, ale hlavně aritmetický prů mě r velmi citlivý na tzv. odlehlá pozorová nı́, což jsou hodnoty, které se mimoř ádně liš ı́ od ostatnı́ch a doká ž ı́ proto vychý lit aritmetický prů mě r natolik, ž e př está vá daný vý bě r dobř e reprezentovat. Viz ná sledujı́cı́ př ı́klad. 5. Vzpomenete-li si např ı́klad na normá lnı́ rozdě lenı́, mů ž eme jej nynı́ př esně ji charakterizovat a ř ı́ci o ně m, ž e normá lnı́ rozdě lenı́ je jednomodá lnı́ rozdě lenı́, symetrické kolem stř ednı́ hodnoty 𝜇, př ič emž tato stř ednı́ hodnota je rovna modu a mediá nu.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Kvan ly Kvantily (srovnej s již dř ıv́ e uvedenou kvantilovou funkcı́) jsou statistiky, které charakterizujı́ polohu jednotlivý ch hodnot v rá mci promě nné . Podobně jako modus, jsou i kvantily rezistentnı́ (odolné ) vů č i odlehlý m pozorová nı́m. Obecně je kvantil de inová n jako hodnota, která rozdě luje vý bě rový soubor uspořádaný podle velikosti na dvě č ásti: 1. č ást obsahuje hodnoty, které jsou menš ı́ než daný kvantil anebo stejné ; 2. č ást obsahuje hodnoty, které jsou vě tš ı́ nebo rovny dané mu kvantilu. Pro urč enı́ kvantilu je proto nutné vý bě r uspoř ádat od nejmenš ı́ hodnoty k nejvě tš ı́. Kvantil promě nné 𝑥, který oddě luje 100𝑝 % menš ı́ch hodnot od zbytku souboru, tedy od 100(1 − 𝑝) % hodnot, nazý vá me 𝟏𝟎𝟎𝐩 % kvantilem a znač ı́me jej 𝑥 . Zejmé na v souvislosti s hodnocenı́m normovaný ch testů (SCIO testy, biometrické normy, …) se č asto setká vá me s vyjá dř enı́m: „Patříte do xyz. percentilu“ [8, str. 43], př ič emž xyz je celé č ı́slo od jedné do sta. Např ı́klad „Patříte do 80. percentilu“ znamená , ž e nejmé ně 79 % a nejvý še 80 % ú č astnı́ků testu dosá hlo nižšího vý sledku než vy. 𝑥 , kvan l již zná me. Jmenuje se medián, kdy polovina (50 %) vš ech hodnot je menš ı́ch nebo stejný ch jako 𝑥 , a polovina je vě tš ı́ch anebo se rovná tomuto mediá nu. Aritmetický prů mě r (stejně jako jiné podobné reprezentace stř ednı́ch hodnot) nebo ú daje v procentech ²⁴ redukujı́ informaci o mnoha prvcı́ch vzorku do jednoho jediné ho ú daje. A to je pě kně silná redukce, př i které mů ž eme ztratit dů lež itý druh informace. Jaká koliv charakteristika polohy proto potř e²⁴ [2, str. 186] „Po aplikaci prepará tu B se 33,3 % kuř at uzdravilo, 33,3 % uhynulo a o zbý vajı́cı́ch 33,3 % nejsme schopni poskytnout uspokojujı́cı́ informaci, protož e se ná m dosud nepodař ilo to třetí kuř e chytit.“


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

buje ke sprá vné mu vyhodnocenı́ konkré tnı́ situace ješ tě jeden rozmě r (ú daj). Alespoň hrubou informaci o tom, jak jsou hodnoty zkoumané velič iny rozdě leny mezi jednotlivé objekty souboru, jak mnoho se tyto hodnoty na jednotlivý ch objektech od sebe navzá jem liš ı́, jak mnoho jsou rozptý leny kolem hodnoty prů mě rné . Aby bylo mož né tuto rozptý lenost č i variabilitu velič iny charakterizovat jednou hodnotou, jednı́m č ı́slem, byly vyvinuty rů zné mı́ry variability zkoumané velič iny v dané m souboru. Vš echny ně jaký m způ sobem zhruba udá vajı́ prů mě rnou odchylku hodnot ná hodné velič iny namě řený ch na jednotlivý ch objektech od prů mě rné hodnoty té to velič iny v celé m souboru. Např ı́klad se zjiš ťuje, o kolik se prů mě rně liš ı́ hmotnost kapra vylovené ho v rybnı́ku od prů mě rné vá hy vš ech kaprů z tohoto rybnı́ku. Variabilitu vý bě rový ch charakteristik př itom ovlivň ujı́ tř i faktory [8, str. 106]: 1. rozsah populace N; 2. rozsah vý bě ru n; 3. způ sob zı́ská nı́ ná hodné ho vý bě ru. Mı́ry variability charakterizujı́ mě řenou velič inu v celé m dané m souboru objektů jednı́m č ı́slem z hlediska velikosti kolı́sá nı́ hodnot té to velič iny. Je mož no z nich ihned usoudit, jak mnoho jsou tyto hodnoty v souboru rozptý lené , jsou-li v prů mě ru hodně č i má lo vzdá lené od prů mě rné hodnoty velič iny v souboru.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Charakteris ky rozptylu (variability) — data: 1 2 2 2 4 Vı́me, ž e pro tyto hodnoty platı́: 𝑥̄ = 2,2 , což je aritmetický průměr. Ten ná m vš ak nic neř ı́ká o rozlož enı́ jednotlivý ch hodnot promě nné kolem tohoto stř edu, tj. o variabilitě proměnné. Je zř ejmé , ž e č ı́m vě tš ı́ je rozptý lenost hodnot promě nné kolem jejı́ho pomyslné ho stř edu, tı́m menš ı́ je schopnost tohoto stř edu reprezentovat celou promě nnou (viz pivnı́ hrdina). Rozptyl (výběrový):

𝑆 =

1 𝑛−1

𝑥 − 𝑛 ⋅ 𝑥̄

nebo:

𝑆 =

1 ⋅ 𝑛−1

1 ⋅ , , ⋅ [(1 + 2 + 2 + 2 + 4 ) − 5 ⋅ 2,2 ] = = = 5−1 1 ⋅ [(1 − 2,2) + (2 − 2,2) + (2 − 2,2) + (2 − 2,2) + (4 − 2,2) ] = 5−1 =( ,) ( ,) ( ,) ( ,) (,) = ,

[𝑥 − 𝑥̄ ] ,

= 1,2

⋅ ,

,

=

,

= 1,2

Nevý hodou použ itı́ (vý bě rové ho) rozptylu jakož to mı́ry variability je to, ž e rozmě r té to charakteristiky je druhou mocninou rozmě ru promě nné . Např ı́klad je-li promě nnou dennı́ trž ba uvedena v Kč , bude vý bě rový rozptyl té to promě nné vyjá dř en v Kč . Tento nedostatek odstraň uje dalš ı́ mı́ra variability, a tou je: Směrodatná odchylka (výběrová): 𝑆 = √𝑆 =

1,2 ≐ 1,095

Nevý hodou (vý bě rové ho) rozptylu i (vý bě rové ) smě rodatné odchylky je ta skuteč nost, ž e neumož ň ujı́ porovná vat variabilitu promě nný ch vyjá dř ený ch v rů zný ch jednotká ch. Která promě nná má vě tš ı́ variabilitu — vý ška nebo hmotnost dospě lé ho jedince? Na tuto otá zku ná m dá odpově ď ná sledujı́cı́ charakteristika, a tou je:


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

𝑆 1,095 = ≐ 0,498 ≐ 50 % 𝑥̄ 2,2 Variač nı́ koe icient je bezrozmě rný, uvá dı́me jej č asto v procentech. Zhruba udá vá , jakou č ást aritmetické ho prů umě ru př edstavuje smě rodatná odchylka. Má smysl jej urč ovat pouze pro promě nné nabý vajı́cı́ch vý hradně kladných hodnot: tedy pro 𝑥 > 0.

Variační koeficient: 𝑉 =

Variační rozpě : 𝑅 = 𝑥 −𝑥 =4−1=3 Toto variač nı́ rozpě tı́ vš ak z dů vodu jeho př ı́liš né citlivosti k př ı́padný m ojedině lý m extré mnı́m hodnotá m nenı́ moc dobrý m odhadem variability. Proto ně kdy použ ıv́ á me i kvartilové (č i mezikvartilové ) rozpě tı́, které je rozdı́lem hornı́ho a dolnı́ho kvartilu, tedy rozdı́lem 75% a 25% kvantilu: 𝑅 =𝑥 , −𝑥 , . Ná sledujı́cı́ charakteristiku (prů mě rnou absolutnı́ odchylku), uvá dı́me pouze pro ú plnost, abychom si uká zali, ž e se v praxi využ ıv́ ajı́ dvě metody, jak zajistit kladný vý sledek. U (vý bě rové ho) rozptylu rozdı́l umocnı́me na druhou, u absolutnı́ (vý bě rové ) odchylky použ ijeme absolutnı́ hodnotu a protož e to je „prů mě rná “ odchylka, urč ı́me jejı́ aritmetický prů mě r. A protož e je to „vý bě rová “ odchylka, dě lı́me o jednič ku zmenš ený m poč tem prvků . Průměrná absolutní odchylka (výběrová): 𝑑 =

1 ⋅ 𝑛−1

|𝑥 − 𝑥|̄

1 1 1 ⋅ (|1 − 2,2| + |2 − 2,2| + |2 − 2,2| + |2 − 2,2| + |4 − 2,2|) = ⋅ (1,2 + 3 ⋅ 0,2 + 1,8) = ⋅ 3,6 = 0,9 4 4 4


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Další charakteris ky (např ı́klad š ikmost, š pič atost a dalš ı́) si nebudeme uvá dě t. Vzorce podle nichž se urč ujı́ tyto charakteristiky jsou pomě rně slož ité a proto se podle nich „ruč ně “ vě tš inou nepoč ı́tá . Bý vajı́ souč ástı́ programů pro zpracová nı́ statistický ch dat. Např ı́klad Excel 2010: Šikmost (koe icient skosu; angl. „skewness“) =SKEW(data) nı́ velič iny kolem jejı́ stř ednı́ hodnoty.

označ uje stupeň asymetrič nosti rozdě le-

Špičatost (koe icient excesu; angl. „kurtois“) =KURT(data) urč uje relativnı́ strmost nebo plochost rozdě lenı́ v porovná nı́ s normovaný m normá lnı́m rozdě lenı́m. Vý znam ně který ch empirický ch (spoč ı́taný ch z hodnot vzorku, vý bě ru) charakteristik pro celý zá kladnı́ soubor (populaci) je ná sledujı́cı́: • aritmetický prů mě r 𝑥̄ vzorku je (nejlepš ı́m) č ı́selný m odhadem stř ednı́ hodnoty 𝐸(𝑋) zá kladnı́ho souboru (populace), • vý bě rový rozptyl 𝑆 vzorku je (nejlepš ı́m) č ı́selný m odhadem rozptylu 𝐷(𝑋) zá kladnı́ho souboru, jak si pozdě ji uká ž eme. Otá zky spojené s př esnostı́ tě chto odhadů (co je vlastně nejlepš ı́m odhadem), pokud má zá kladnı́ soubor normá lnı́ rozdě lenı́, budou ř eš eny v kapitole o intervalový ch odhadech. [14, str.92]: „Statistika bez použití rozumu dává nesmysly — a to neplatı́ jen o statistice.“ Má m-li hodnoty promě nné hmotnosti zaokrouhlované na kilogramy, asi nemá smysl jaký koliv prů mě r té to promě nné poč ı́tat na gramy. Smě rodatnou odchylku jakož to mı́ru nejistoty mě řenı́ zaokrouhlujeme nahoru na maximá lně dvě (vě tš inou) až tř i platné cifry. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Rozšíření poznatků o rozptylu. Analý za rozptylu (ANOVA – analysis of variance – byla vyvinuta R. A. Fisherem na poč átku 20. stoletı́), kterou se podrobně ji nebudeme zabý vat, je založ ena na př edstavě , ž e variabilita (promě nlivost, rozptý lenı́, disperze), se kterou kolı́sajı́ hodnoty sledované ná hodné velič iny kolem stř ednı́ hodnoty jejı́ho rozdě lenı́, vzniká jako dů sledek rů zný ch vlivů , z nichž kaž dý př ispı́vá k té to celkové variabilitě urč itý m podı́lem. Celkový rozptyl (kvadrá t smě rodatné odchylky) jako mı́ru variability lze pak rozč lenit na dı́lč ı́ rozptyly ná lež ejı́cı́ tě mto jednotlivý m vlivů m — faktorů m. Např ı́klad ná s zajı́má variabilita mě sı́čnı́ch platů pobı́raný ch ve stá tě . Platy jsou rozptý leny kolem stř ednı́ hodnoty rozdě lenı́ a rozptý lenı́ je vyvolá vá no (nebo naš e př edstava je, ž e by mohlo bý t vyvolá vá no) mnoha vlivy — faktory. Jeden z nich (který ná s enormně zajı́má ) je ekonomická sfé ra, v nı́ž jsou platy vyplá ceny. V rá mci tohoto faktoru mů ž eme např. rozliš ovat zamě stnance ze země dě lstvı́, stá tnı́ zamě stnance, zamě stnance z oblasti peně žnictvı́, z oblasti služ eb, z potraviná ř ské ho prů myslu atd. Existujı́ dalš ı́ faktory, které ovlivň ujı́ hodnotu platu a jejich změ ny př ispı́vajı́ k promě nlivosti platů . Faktor vzdě lá nı́ zamě stnance (zá kladnı́, stř edoš kolské a vysokoš kolské ) nebo rů zná doba zamě stná nı́, umı́stě nı́ podniku podle krajů , podle velikosti obcı́, faktor pohlavı́ zamě stnance a dalš ı́. Analý za rozptylu v prů myslový ch aplikacı́ch umož ňuje posoudit vliv rů zný ch faktorů na vý robnı́ proces, hodnotit vliv použ itı́ rů zný ch druhů surovin na jakost produkce apod. V ekonomický ch aplikacı́ch pak umož ňuje posoudit vliv rů zný ch faktorů na hospodá ř ský proces, hodnotit ú č inky rů zný ch př ijatý ch opatř enı́ apod.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Charakteris ky polohy (průměrů 𝑥)̄ a rozptylu setříděného vzorku 10 11 13 14 16 16 18 18 18 20 24 26 29 32 35 37 38 42 45 49 51 60 86 150 1 200 Variační rozpětí: 𝑅 = 1 200 − 10 = 1 190 Modus: 𝑥̄ = 18 10 11 13 14 16 16 18 18 18 20 24 26 29 32 35 37 38 42 45 49 51 60 86 150 1 200 Medián: 𝑥̄ = 29 10 11 13 14 16 16 18 18 18 20 24 26 29 32 35 37 38 42 45 49 51 60 86 150 1 200 Aritmetický průměr: 𝑥̄ = 82,32 ⋅ (10 + 11 + 13 + 14 + 2 ⋅ 16 + 3 ⋅ 18 + 20 + 24 + 26 + 29 + 32 + 35 + 37 + 38 + 42 + 45 + 49 + + 51 + 60 + 86 + 150 + 1 200) Geometrický průměr: 𝑥̄ ≐ 32,73 √10 ⋅ 11 ⋅ 13 ⋅ 14 ⋅ 16 ⋅ 18 ⋅ 20 ⋅ 24 ⋅ 26 ⋅ 29 ⋅ 32 ⋅ 35 ⋅ 37 ⋅ 38 ⋅ 42 ⋅ 45 ⋅ 49 ⋅ 51 ⋅ 60 ⋅ 86 ⋅ 150 ⋅ 1 200 Harmonický průměr: 𝑥̄ ≐ 24,26

Chronologický průměr: 𝑥̄ ≐ 60,54 ⋅ (10 + 2.11 + 2.13 + 2.14 + 4.16 + 6.18 + 2.20 + 2.24 + 2.26 + 2.29 + 2.32 + 2.35 + 2.37 + 2.38 + ⋅( ) + 2.42 + 2.45 + 2.49 + 2.51 + 2.60 + 2.86 + 2.150 + 1 200) Výběrový rozptyl : 𝑆 ≐ 55 104 Směrodatná odchylka : 𝑆 = √55 104 ≐ 235 ⋅ [(10 + 11 + 13 + 14 + 2 ⋅ 16 + 3 ⋅ 18 + 20 + 24 + 26 + 29 + 32 + 35 + 37 + 38 + 42 + + 45 + 49 + 51 + 60 + 86 + 150 + 1 200 ) − 25 ⋅ 82,32 ] Vybrané statistické tabulky Př edmluva Literatura Zá vě r •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady

Stejný vzorek s vynechanou poslední (extrémní) hodnotou 10 11 13 14 16 16 18 18 18 20 24 26 29 32 35 37 38 42 45 49 51 60 86 150 1 200 Variační rozpětí: 𝑅 = 150 − 10 = 140 (dř ıv́ e 1 190) Modus: 𝑥̄ = 18 (dř ıv́ e 18) 10 11 13 14 16 16 18 18 18 20 24 26 29 32 35 37 38 42 45 49 51 60 86 150 Medián: 𝑥̄ = 27,5 (dř ıv́ e 29) 10 11 13 14 16 16 18 18 18 20 24 26 29 32 35 37 38 42 45 49 51 60 86 150 Aritmetický průměr : 𝑥̄ = 35,75 (dř ıv́ e 82,32) ⋅(10+11+13+14+2⋅16+3⋅18+20+24+26+29+32+35+37+38+42+45+49+51+60+86+150) Geometrický průměr : 𝑥̄ ≐ 28,17 (dř ıv́ e 32,73) √10 ⋅ 11 ⋅ 13 ⋅ 14 ⋅ 16 ⋅ 18 ⋅ 20 ⋅ 24 ⋅ 26 ⋅ 29 ⋅ 32 ⋅ 35 ⋅ 37 ⋅ 38 ⋅ 42 ⋅ 45 ⋅ 49 ⋅ 51 ⋅ 60 ⋅ 86 ⋅ 150 Harmonický průměr : 𝑥̄ ≐ 23,31 (dř ıv́ e 24,26)

Chronologický průměr : 𝑥̄ ≐ 33,83 (dř ıv́ e 60,54) ⋅ (10 + 2.11 + 2.13 + 2.14 + 4.16 + 6.18 + 2.20 + 2.24 + 2.26 + 2.29 + 2.32 + 2.35 + 2.37 + 2.38 + ⋅( ) + 2.42 + 2.45 + 2.49 + 2.51 + 2.60 + 2.86 + 150) Výběrový rozptyl : 𝑆 ≐ 923 (dř ıv́ e 55 104) Směrodatná odchylka : 𝑆 = √923 ≐ 31 (235) ⋅ [(10 + 11 + 13 + 14 + 2 ⋅ 16 + 3 ⋅ 18 + 20 + 24 + 26 + 29 + 32 + 35 + 37 + 38 + 42 + + 45 + 49 + 51 + 60 + 86 + 150 ) − 24 ⋅ 35,75 ] Vybrané statistické tabulky Př edmluva Literatura Zá vě r •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady



Pravdě podobnost



Regrese, korelace


Casové ř ady

Robustnost charakteris k polohy vůči extrémním hodnotám Za velmi dobré mı́ry polohy se prá vem považ ujı́ modus (𝑥̄ , nejč etně jš ı́ hodnota) a mediá n (𝑥̄ , prostř ednı́ hodnota), protož e nejsou př ı́mo ovlivně ny velikostı́ vš ech hodnot. To má vý hodu zejmé na tehdy, když se ve vý bě ru (tak jako v př edchozı́m př ı́kladě ) vyskytuje ná hodně jedna nebo ně kolik má lo mimoř ádně extré mnı́ch hodnot (vzhledem k ostatnı́m hodnotá m př ı́liš velký ch nebo př ı́liš malý ch). V tě chto př ı́padech nejsou modus ani mediá n ovlivně ny tě mito odlehlý mi hodnotami a poskytujı́ tak dobrou př edstavu o objektivnı́ poloze nejč astě jš ı́ a prostř ednı́ hodnoty a tı́m i o ú rovni (poloze) hodnot sledované promě nné . Ně kdy se vš ak necitlivost (robustnost) tě chto mě r považ uje za jistou nevý hodu. Tuto nevý hodu př ekoná vajı́ ně které průměry, což jsou stř ednı́ hodnoty de inované tak, ž e jsou funkcı́ vš ech hodnot dané promě nné , takž e jsou vı́ce citlivé na odlehlé hodnoty (hodnoty, které se mimoř ádně liš ı́ od ostatnı́ch a doká ž ı́ proto prů mě r vychý lit natolik, ž e př está vá daný vý bě r reprezentovat): • hlavně aritmetický 𝑥̄ a chronologický 𝑥̄

(z tě ch, které jsme si uvá dě li),

• dá le pak kvadratický 𝑥̄ (ten jsme si neuvá dě li). Naopak geometrický prů mě r 𝑥̄ a harmonický prů mě r 𝑥̄ nejsou př ı́liš citlivé vů č i ně kolika má lo extré mnı́m hodnotá m, jak jsme demonstrovali na př edchozı́ch dvou př ı́kladech. Pokud o ně které hodnotě promě nné rozhodneme, ž e je odlehlý m pozorová nı́m (např ı́klad analogiı́ s pravidlem 3 𝜎, kdy za odlehlé pozorová nı́ považ ujeme to, které je od aritmetické ho prů mě ru vzdá leno vı́ce jak trojná sobek smě rodatné odchylky), je nutné ješ tě urč it, proč je toto pozorová nı́ odlehlé . • V př ı́padě , ž e zná me př ı́činu a př edpoklá dá me, ž e tato již nenastane (př eklep v zá pisu, prokazatelné selhá nı́ lidı́ č i techniky, technologické chyby), jsme oprá vně ni tato pozorová nı́ vylouč it z dalš ı́ho zpracová nı́, takzvaně „očistit data“. • V ostatnı́ch př ı́padech je nutné zvá ž it, zda se vylouč enı́m odlehlý ch pozorová nı́ nepř ipravı́me o dů lež ité informace o jevech vyskytujı́cı́ch se s nı́zkou č etnostı́. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

3. Zpracování sta s ckého materiálu Jak jsme již uvedli na zač átku té to kapitoly, ú kolem popisné statistiky je, uspoř ádat pozorované hodnoty promě nné do ná zorně jš ı́ formy (tabulka) a popsat je ně kolika má lo hodnotami (č ı́selný mi charakteristikami), které by obsahovaly co nejvě tš ı́ množ stvı́ informacı́ obsaž ený ch v pů vodnı́m souboru. Jak se to prová dı́ prakticky, si nynı́ uká ž eme.

3.1. Menší vzorek Má me k dispozici ná sledujı́cı́ data (ú daje), o který ch ná m nenı́ zná mo, ž e pochá zejı́ z př ı́kladu popisujı́cı́ho poč et padlý ch „líců“ př i souč asné m hodu č tyř mi rozliš itelný mi mincemi. Proto ani netuš ı́me, ž e by mohlo jı́t o binomické rozdě lenı́. Máme pouze tato sesbíraná data:

2

2

1

2

3

1

2

3

1

2

3

0

1

2

3

4

která setř ı́dı́me a zapı́šeme do ná sledujı́cı́ tabulky. Kaž dá v datech vyskytujı́cı́ se cifra bude mı́t svů j vlastnı́ sloupeč ek.

cifra

0

1

2

3

4

poč et vý skytů

1

4

6

4

1

Zajı́má ná s, jak mů ž eme urč it pož adované č ı́selné charakteristiky z takto zı́skaný ch a do tabulky zapsaný ch hodnot. Protož e bychom př idá vali dalš ı́ ř ádky s mezivý sledky, je lé pe psá t tabulku svisle a potom mů ž eme př idá vat sloupce dle libosti. Poznámka Pokud by př ı́padný ch ř ádků v tabulce mě lo bý t vı́ce (viz ná sledujı́cı́ př ı́klad) a tabulka by se stá vala nepř ehlenou, zař adı́me vž dy podobné hodnoty do jedné tř ı́dy (viz obrá zek) Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16

k označ uje č ı́slo ř ádku tabulky, navı́c jej nazveme třídou. x nazveme reprezentantem té to tř ı́dy. Četnost n udá vá , kolikrá t se daný reprezentant 𝑥 v souboru dat vyskytuje. Pokud bychom č etnost podě lili poč tem prvků (𝑛 /𝑛) , dostaneme relativní četnost (v procentech). Srovnej s „klapříznivé př ı́pady sickou“ pravdě podobnostı́: vš echny možné aritmetický prů mě r

(vý bě rový ) rozptyl Vybrané statistické tabulky

𝑆 = Př edmluva

1 ⋅ 𝑛−1 Literatura

𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16



𝑆 = Př edmluva


𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16



𝑆 = Př edmluva


𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16



𝑆 = Př edmluva


𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16



𝑆 = Př edmluva


𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16



𝑆 = Př edmluva


𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16



𝑆 = Př edmluva


𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost

2

2


1

2

3

1


2

3

1

2

Regrese, korelace

3

0

1


2

3

Casové ř ady

4

2 + 2 + 1 + 2 + 3 + 1 + 2 + 3 + 1 + 2 + 3 + 0 + 1 + 2 + 3 + 4 = 32 tř ı́da index 𝑘

reprezentant 𝑥

č etnost 𝑛

𝑥 ⋅𝑛

𝑥 − 𝑥̄

(𝑥 − 𝑥) ̄

𝑛 ⋅ (𝑥 − 𝑥) ̄

1 2 3 4 5

0 1 2 3 4

1 4 6 4 1

0 4 12 12 4

−2 −1 0 1 2

4 1 0 1 4

4 4 0 4 4

n=16

32

0

∑

16



𝑆 = Př edmluva


𝑥̄ =

1 ⋅ 𝑛

(𝑥 − 𝑥) ̄ = Zá vě r

𝑥 =

1 ⋅ 𝑛

1 ⋅ 𝑛−1

𝑛 ⋅𝑥 =

1 ⋅ 32 = 2 16

𝑛 ⋅ (𝑥 − 𝑥) ̄ =

1 ⋅ 16 ≐ 1,067 16 − 1


Pravdě podobnost



Regrese, korelace


Casové ř ady

3.2. Rozsáhlý vzorek Nı́že uvedená data zař aďte do tř ı́d a poté vypoč ı́tejte aritmetický prů mě r, geometrický prů mě r, harmonický prů mě r, (vý bě rový ) rozptyl, smě rodatnou odchylku, variač nı́ koe icient a sestavte interval 3𝜎. 60 73 92

154 122 90 40 50 48 148 85 98

105 38 100 82 12 120 90 70 140 110 70 48

82 70 48

15 125 90 80 132 50 151 48 80

160 76 87 49 52 98

Postup př i „ruč nı́m“ zpracová nı́: 1. Nalezneme nejmenš ı́ a nejvě tš ı́ prvek a urč ı́me variační rozpětí vzorku. 2. Rozhodneme se, do kolika (minimum je pě t tř ı́d a maximum 20 tř ı́d; nejč astě ji 8 až 13) jak velkých tříd (doporuč uje se, aby tř ı́dy mě ly stejnou dé lku) budeme data zař azovat. • Pokud se zvolı́ malý poč et tř ı́d, dojde př i tř ı́dě nı́ k vý razné ztrá tě informace o prů bě hu pů vodnı́ho znaku. Pokud se naopak zvolı́ př ı́liš velký poč et tř ı́d (s malý mi č etnostmi), bude vzniklá tabulka nepř ehledná . • Dé lku intervalu (tř ı́dy) volı́me tak, aby hranice intervalů byla dobř e zapamatovatelná (př ı́padně zaokrouhlená ) č ı́sla ²⁵, intervaly jednoznač ně pokrý valy celý obor hodnot popisované ho znaku (nesmı́ se stá t, ž e by ně která hodnota nepatř ila do ž ádné tř ı́dy) a oba krajnı́ intervaly rozdě lenı́ mě ly nenulové č etnosti. 3. Zač neme vyplň ovat ná sledujı́cı́ tabulku rozdě lenı́ č etnostı́, kterou doplnı́me o dalš ı́ sloupce hodnot, pomocı́ který ch pak urč ı́me pož adované č ı́selné charakteristiky. ²⁵ Jindy zase radě ji pož adujeme, aby reprezentanti jednotlivý ch tř ı́d (vě tš inou stř edy tě chto tř ı́d) byla dobř e zapamatovatelná (př ı́padně zaokrouhlená ) č ı́sla (viz obrá zek).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Třídění dat Nejdř ıv́ e data zař aďte do devíti tř ı́d. 60 73 92

154 122 90 40 50 48 148 85 98

105 38 100 82 12 120 90 70 140 110 70 48

ad 1. Variač nı́ rozpě tı́: 𝑅 = 𝑥

−𝑥

85 15 125 90 55 80 132 50 149 151 48 80

160 76 87 49 52 98

= 160 − 12 = 148.

ad 2. Chceme-li data rozdě lit do 9 tříd (148 ∶ 9 = 16,4), volı́me šířku třídy 17. Prvnı́ tř ı́da bude potom mı́t počátek: 𝑥

Pak: 9 ⋅ 17 − 𝑅 = 5, což rozdě lı́me na obě strany: 5 ∶ 2 = 2,5. − 2,5 = 9,5 a konec: 9,5 + š ı́řka tř ı́dy = 9,5 + 17 = 26,5.

ad 3. Vš e budeme zapisovat do tabulky. tř ı́da — interval šířky 17 ( poč átek ; konec=poč átek+17 )

k 1 2 3 4 5 6 7 8 9 Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r

(𝑥

− 2,5 ; 26,5 = /12 − 2,5/ + 17 ) ( 26,5 ( 43,5 ( 60,5 (… (… (… (…

; ; ; ; ; ; ;

43,5 = 26,5 + 17 ) 43,5 + 17 ) …) …) …) …) …)

(… ; 𝑥

+ 2, 5 )


Pravdě podobnost



Regrese, korelace


Casové ř ady

Třídění dat Po zař azenı́ dat do devı́ti tř ı́d vypoč ı́tejte nejprve aritmetický prů mě r a (vý bě rový ) rozptyl. 60 154 122 90 105 38 100 82 85 15 125 90 160 76 73 40 50 48 12 120 90 70 55 80 132 50 87 49 92 148 85 98 140 110 70 48 149 151 48 80 52 98 Kolik prvků do kaž dé tř ı́dy patř ı́? Jaké ho bude mı́t tř ı́da reprezentanta (my si zvolı́me stř ed)? Cetnost dané tř ı́dy si označ ı́me 𝑛 .

k

tř ı́da

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

č etnost 12; 15 ⇒ || || |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| ||||

||| || ||||

Do tabulky doplnı́me dalš ı́ potř ebné sloupce.

𝑥

𝑛

𝑥 ⋅𝑛

18 35 52 69 86 103 120 137 154

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

8 817,92 4 880,72 9 447,84 1 185,80 25,60 1 729,80 3 802,08 5 533,52 19 376,64

n=42

3 544

54 799,92

∑


Př edmluva

Literatura

Zá vě r

(𝑥 − 𝑥̄ ) ⋅ 𝑛

Aritmetický průměr 1 𝑥̄ = ⋅ 𝑥 ⋅𝑛 = 𝑛 ∀ 1 ⋅ 3 544 ≐ 84,4 42

Výběrový rozptyl 𝑆 = 1 = ⋅ (𝑥 − 𝑥̄ ) ⋅ 𝑛 = 𝑛−1 ∀ 1 ⋅ 54 799,92 ≐ 1 336,583 42 − 1 𝑆 ≐ 1 337


Pravdě podobnost



Regrese, korelace


Casové ř ady


k

tř ı́da

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

č etnost 12; 15 ⇒ || || |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| ||||

||| || ||||


𝑥

𝑛

𝑥 ⋅𝑛

18 35 52 69 86 103 120 137 154

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

8 817,92 4 880,72 9 447,84 1 185,80 25,60 1 729,80 3 802,08 5 533,52 19 376,64

n=42

3 544

54 799,92

∑


Př edmluva

Literatura

Zá vě r

(𝑥 − 𝑥̄ ) ⋅ 𝑛




Pravdě podobnost



Regrese, korelace


Casové ř ady


k

tř ı́da

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

č etnost 12; 15 ⇒ || || |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| ||||

||| || ||||


𝑥

𝑛

𝑥 ⋅𝑛

18 35 52 69 86 103 120 137 154

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

8 817,92 4 880,72 9 447,84 1 185,80 25,60 1 729,80 3 802,08 5 533,52 19 376,64

n=42

3 544

54 799,92

∑


Př edmluva

Literatura

Zá vě r

(𝑥 − 𝑥̄ ) ⋅ 𝑛




Pravdě podobnost



Regrese, korelace


Casové ř ady


k

tř ı́da

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

č etnost 12; 15 ⇒ || || |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| ||||

||| || ||||


𝑥

𝑛

𝑥 ⋅𝑛

18 35 52 69 86 103 120 137 154

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

8 817,92 4 880,72 9 447,84 1 185,80 25,60 1 729,80 3 802,08 5 533,52 19 376,64

n=42

3 544

54 799,92

∑


Př edmluva

Literatura

Zá vě r

(𝑥 − 𝑥̄ ) ⋅ 𝑛




Pravdě podobnost



Regrese, korelace


Casové ř ady


k

tř ı́da

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

č etnost 12; 15 ⇒ || || |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| ||||

||| || ||||


𝑥

𝑛

𝑥 ⋅𝑛

18 35 52 69 86 103 120 137 154

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

8 817,92 4 880,72 9 447,84 1 185,80 25,60 1 729,80 3 802,08 5 533,52 19 376,64

n=42

3 544

54 799,92

∑


Př edmluva

Literatura

Zá vě r

(𝑥 − 𝑥̄ ) ⋅ 𝑛




Pravdě podobnost



Regrese, korelace


Casové ř ady


k

tř ı́da

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

č etnost 12; 15 ⇒ || || |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| ||||

||| || ||||


𝑥

𝑛

𝑥 ⋅𝑛

18 35 52 69 86 103 120 137 154

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

8 817,92 4 880,72 9 447,84 1 185,80 25,60 1 729,80 3 802,08 5 533,52 19 376,64

n=42

3 544

54 799,92

∑


Př edmluva

Literatura

Zá vě r

(𝑥 − 𝑥̄ ) ⋅ 𝑛




Pravdě podobnost



Regrese, korelace


Casové ř ady


k

tř ı́da

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

č etnost 12; 15 ⇒ || || |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| ||||

||| || ||||


𝑥

𝑛

𝑥 ⋅𝑛

18 35 52 69 86 103 120 137 154

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

8 817,92 4 880,72 9 447,84 1 185,80 25,60 1 729,80 3 802,08 5 533,52 19 376,64

n=42

3 544

54 799,92

∑

(𝑥 − 𝑥̄ ) ⋅ 𝑛



Budeme-li pož adovat i dalš ı́ č ı́selné charakteristiky, doplnı́me tabulku o dalš ı́ potř ebné sloupce. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Určení číselných charakteris k Vypoč ı́tejte aritmetický prů mě r, geometrický prů mě r, harmonický prů mě r, (vý bě rový ) rozptyl, smě rodatnou odchylku, variač nı́ koe icient a sestavte interval 3𝜎. k

tř ı́da

𝑥

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

18 35 52 69 86 103 120 137 154

𝑛

𝑥 ⋅𝑛

𝑥 ⋅𝑛

|| ||

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

648 2 450 24 336 23 805 73 960 53 045 43 200 37 538 94 864

1,148 1,184 2,332 1,655 2,888 1,736 1,408 1,264 1,616

0,111 0,057 0,173 0,072 0,116 0,049 0,025 0,015 0,026

n=42

3 544

353 846

∏

0,644

|||| ||||

||||

|||| |||| |||| |||| |||| |||| |||| ||||

||| || |||| ∑

𝑥

𝑛 𝑥

č etnost

75,638


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑥

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

18 35 52 69 86 103 120 137 154

𝑛

𝑥 ⋅𝑛

𝑥 ⋅𝑛

|| ||

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

648 2 450 24 336 23 805 73 960 53 045 43 200 37 538 94 864

1,148 1,184 2,332 1,655 2,888 1,736 1,408 1,264 1,616

0,111 0,057 0,173 0,072 0,116 0,049 0,025 0,015 0,026

n=42

3 544

353 846

∏

0,644

|||| ||||

||||

|||| |||| |||| |||| |||| |||| |||| ||||

||| || |||| ∑

𝑥

𝑛 𝑥

č etnost

75,638


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑥

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

18 35 52 69 86 103 120 137 154

𝑛

𝑥 ⋅𝑛

𝑥 ⋅𝑛

|| ||

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

648 2 450 24 336 23 805 73 960 53 045 43 200 37 538 94 864

1,148 1,184 2,332 1,655 2,888 1,736 1,408 1,264 1,616

0,111 0,057 0,173 0,072 0,116 0,049 0,025 0,015 0,026

n=42

3 544

353 846

∏

0,644

|||| ||||

||||

|||| |||| |||| |||| |||| |||| |||| ||||

||| || |||| ∑

𝑥

𝑛 𝑥

č etnost

75,638


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑥

1 2 3 4 5 6 7 8 9

(9,5 ; 26,5) (26,5 ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 111,5) (111,5 ; 128,5) (128,5 ; 145,5) (145,5 ; 162,5)

18 35 52 69 86 103 120 137 154

𝑛 𝑥

č etnost

𝑛

𝑥 ⋅𝑛

𝑥 ⋅𝑛

|| ||

2 2 9 5 10 5 3 2 4

36 70 468 345 860 515 360 274 616

648 2 450 24 336 23 805 73 960 53 045 43 200 37 538 94 864

1,148 1,184 2,332 1,655 2,888 1,736 1,408 1,264 1,616

0,111 0,057 0,173 0,072 0,116 0,049 0,025 0,015 0,026

n=42

3 544

353 846

∏

0,644

|||| ||||

||||

|||| |||| |||| |||| |||| |||| |||| ||||

||| || |||| ∑

𝑥

75,638

Tedy:

∑ 𝑛 = 𝑛 = 42


∑ 𝑥 ⋅ 𝑛 = 3 544

Př edmluva

Literatura

Zá vě r

∑ 𝑥 ⋅ 𝑛 = 353 846

∏𝑥

= 75,638

∑

𝑛 = 0,644 𝑥


Pravdě podobnost

Tedy:


∑ 𝑛 = 𝑛 = 42


∑ 𝑥 ⋅ 𝑛 = 3 544

Regrese, korelace

∑ 𝑥 ⋅ 𝑛 = 353 846


∏𝑥

= 75,638

∑

Casové ř ady

𝑛 = 0,644 𝑥

Vypoč ı́tejte aritmetický prů mě r, geometrický prů mě r, harmonický prů mě r, (vý bě rový ) rozptyl, smě rodatnou odchylku, variač nı́ koe icient a sestavte interval 3𝜎.

Určení dalších charakteris k Geometrický průměr: 𝑥̄ = ∏ 𝑥 𝑛

Harmonický průměr: 𝑥̄ =

∑

Rozptyl: 𝑆 =

1 ⋅ 𝑛−1

≐ 75,6 =

42 ≐ 65,2 0,644

𝑥 ⋅ 𝑛 − 𝑛 ⋅ 𝑥̄

=

1 54 799 ⋅ (353 846 − 42 ⋅ 84,381 ) ≐ ≐ 1 337 42 − 1 41

Směrodatná odchylka: 𝑆 = √𝑆 = √1 337 ≐ 37 (≐ 40) Variační koeficient: 𝑉 =

𝑆 37 = ≐ 0,44 𝑥̄ 84,4

Interval 3𝜎 (pouze pro normální rozdělení!) = ⟨𝑥̄ − 3 ⋅ 𝑆 ; 𝑥̄ + 3 ⋅ 𝑆⟩ = ⟨−25 ; 194⟩ Poznámka: Mohli jsme také volit např ı́klad 10 tř ı́d o rozpě tı́ 16. Tı́m bychom sice mě li hranice celoč ı́selné , ale mě li bychom tř ı́dy ( 74 ; 90 ) a ( 90 ; 106 ). A do které z nich potom zař adı́me č ı́slo 90, které se jenom v prvnı́m ř ádku zadaný ch dat vyskytuje dvakrá t a potom ješ tě jednou ve druhé m ř ádku? Tomuto problé mu jsme se dı́ky neceloč ı́selný m hranicı́m vyhnuli. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

4. Využi programu Excel 2010 Velký vý znam pro rozvoj a využ itı́ statistický ch metod mě l ná stup vý poč etnı́ techniky, zejmé na osobnı́ch poč ı́tač ů. Poč ı́tač vı́tě zı́ nad č lově kem př edevš ı́m v tě ch ú konech, které jsou pro č lově ka tradič ně nejzdlouhavě jš ı́ — př i tř ı́dě nı́, vyhledá vá nı́ a vý poč tech s velký m množ stvı́m dat. Takž e např ı́klad vyplň ová nı́ př edchozı́ tabulky bychom zvlá dli za použ itı́ Excelu s poně kud menš ı́m ú silı́m.

Stač ı́ napsat vš echny hodnoty do sloupce pod sebe, na kartě [Data] v zá lož ce [Seřadit a filtrovat] zvolit nabı́dku [Filtr],

rozbalit nabı́dku pod objevivš ı́m se [trojúhelníkem],


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

vybrat si vhodnou funkci (např ı́klad)

a nechat si seř adit data podle velikosti. Tı́m lehce urč ı́me nejmenš ı́ a nejvě tš ı́ prvek a mů ž eme stanovovat tř ı́dy.

Pokud ná s zajı́má četnost konkré tnı́ tř ı́dy (tedy kolik a jaký ch konkré tně je v nı́ prvků ) — např ı́klad prvnı́ tř ı́dy ( 9,5 ; 26,5 ) — naprosto stejný m postupem si vybereme pouze jinou vhodnou funkci.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Mohli bychom postupovat i jinak. Vedle dat (mohou bý t seř azená podle velikosti anebo v pů vodnı́m poř adı́ tak, jak byla zadá na – na dalš ı́ postup to nemá naprosto vliv) do jiné ho sloupce napı́šeme hornı́ hranice jednotlivý ch tř ı́d. Potom volı́me ná sledujı́cı́ polož ky menu: [Data] [Analýza] [Analýza dat] [Histogram] ²⁶

²⁶ Pokud vý še uvedenou nabı́dku [Histogram] nemů ž eme najı́t, pravdě podobně tento doplně k na konkré tnı́m poč ı́tač i nenı́ nainstalová n. V tom př ı́padě postupujeme ná sledovně : [Soubor] [Možnos ] [Doplňky] [Spravovat] Doplňky aplikace Excel [Přejít] a př idá me Analy cké nástroje [OK]. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

a doplnı́me patř ič né parametry (nejlé pe označ ová nı́m oblastı́ pomocı́ myš i):

• [Vstupní oblast] — sloupcový vektor, ve které m jsou zadaná data; • [Hranice tříd] — sloupcový vektor, do které ho jsme zadali hornı́ hranice vš ech tř ı́d. Poznámka: Pokud bychom nezadali hornı́ hranici poslednı́ tř ı́dy, č etnost té to poslednı́ tř ı́dy by se objevila v ř ádku označ ené m Další. Takhle je tam uvedena NULA. • [Výstupní oblast] — označ uje levou hornı́ buň ku, od které program Excel zač ne vypisovat tabulku č etnostı́ jednotlivý ch tř ı́d (viz ná sledujı́cı́ obrá zek).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Do nově vzniklé tabulky pak stač ı́ dopsat př ı́padně poč átky, ale hlavně reprezentanty jednotlivý ch tř ı́d a do dalš ı́ch sloupců pak doplnit dalš ı́ hodnoty podle vztahů tak, jak jsme je vyplň ovali „ruč ně “. Poznámka: Uč elem tohoto kurzu nenı́ č tená ř e nauč it bravurně ovlá dat konkré tnı́ statistický software, ale umož nit mu pochopenı́ a zvlá dnutı́ dané problematiky tak, aby byl schopen si poradit i v př ı́padech, kdy v dosahu nemá př ı́sluš né poč ı́tač ové vybavenı́, na které byl zauč en. To znamená , ž e v dalš ı́m nebudeme př ı́liš č asto uvá dě t jednotlivé statistické funkce ²⁷, ale zmı́nı́me se o nich pouze tam, kde to bude z didaktické ho hlediska vhodné (např ı́klad ná hrada statistický ch tabulek). Př ednost budeme dá vat bě žný m funkcı́m tabulkový ch kalkulá torů př i dosazová nı́ do uvedený ch vzorců . ²⁷ Jen např ı́klad pro vý poč et rozptylu uvá dı́ Excel 2010 tyto 4 mož nosti: VAR.P, VAR.S, VARA a VARPA. A kdo si nenı́ jist tı́m, co vlastně chce poč ı́tat, má tedy pouze 25% pravdě podobnost, ž e zvolı́ tu sprá vnou z nich. Navı́c Excel 2007 disponuje jedinou funkcı́ pro vý poč et rozptylu. Tedy s kaž dou novou verzı́ ně jaké ho programu to znamená neustá lou kontrolu toho, co vlastně poč ı́tá m a nové „uč enı́ se“ obsluhy programu. Vybrané statistické tabulky Př edmluva Literatura Zá vě r •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady

5. Základy zpracování kvalita vních dat Doposud jsme se zabý vali pouze ná hodný mi velič inami, jejichž hodnoty lze „smysluplně “ vyjá dř it č ı́selně , př ič emž č ı́selné hodnoty tě chto velič in majı́ skuteč ně vý znam č ı́sel–hodnot, nikoliv pouze č ı́slic, symbolů , znaků nebo pouze poř adı́ č i uspoř ádá nı́. Takové to velič iny se vě tš inou nazý vajı́ kvantitativní (č ı́selné , numerické , ně kdy té ž kardiná lnı́). Př esně ji ř eč eno: Kantitativní se nazývají ty veličiny, u nichž rozdíl a případně i podíl (pomě r) dvou změřených hodnot těchto veličin má reálný význam. [12, str. 137] Ne vš echny ná hodné velič iny jsou kvantitativnı́. Nekvantitativnı́ velič iny se nejč astě ji označ ujı́ jako velič iny kvalitativní. My jsme na ně narazili již př i povı́dá nı́ o charakteristiká ch polohy, kde jsme mimo jiné ř ı́kali, ž e: modus je použ itelný u jmenných – nominálních promě nný ch, které nabý vajı́ rovnocenný ch variant. Proto je nelze je ani porovná vat, ani seř adit. Např ı́klad: pohlavı́, ná rodnost, znač ka hodinek, barva svetru, … medián lze použ ı́t u pořadových – ordinálních promě nný ch, u který ch lze stanovit poř adı́ a tı́m je vzá jemně porovná vat (pouze na zá kladě poř adı́) nebo seř adit. Např ı́klad: zná mka ve š kole, velikost odě vů (S, M, L, XL), medaile ve sportovnı́ch soutě žı́ch (zlatá , stř ı́brná , bronzová ), … Kvalitativnı́ ná hodné velič iny jsou ze své podstaty chá pá ny jako diskré tnı́ ná hodné velič iny. Mnoho statistický ch metod vypracovaný ch pro kvantitativnı́ velič iny (kvantitativnı́ data) nelze použ ı́t pro velič iny kvalitativnı́ (např ı́klad u nominá lnı́ch velič in nemá ž ádný smysl i zcela bě žný pojem stř ednı́ hodnoty). Pro analý zu nominá lnı́ch a ordiná lnı́ch ná hodný ch velič in se použ ıv́ ajı́ buď upravené metody pro velič iny kvantitativnı́, nebo metody zcela speciá lnı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pomě rně č asto se vyskytujı́cı́ statistickou ú lohou je rozhodnout, zda dvě ná hodné velič iny, které nejsou kvantitativnı́, spolu ně jak vý znamně souvisı́, zda jsou č i nejsou vzá jemně zá vislé . Př itom mů ž e jı́t jak o velič iny nominá lnı́ (jmenné ), tak i ordiná lnı́ (poř adové ). Rozhodnutı́ o zá vislosti č i nezá vislosti dvou kvalitativnı́ch ná hodný ch velič in je mož né uč init pomocı́ testu nezávislosti v kontingenční tabulce. Příklad [12, str. 138]: Má me rozhodnout, zda je chuť urč ité ho druhu vı́na ně jak ovlivně na materiálem ná doby (sudu, tanku, demiž onu, …), ve které bylo vı́no skladováno. Označ ı́me X materiá l ná doby s hodnotami dř evo, sklo, kov a plast. Dá le označ ı́me Y chuť dané ho druhu vı́na, hodnocenou znalcem na tř ı́hodnotové š ká le hodnotami pP–podPrů mě rná , Pr–Prů mě rná a nP–nadPrů mě rná . X a Y jsou zř ejmě kvalitativnı́ ná hodné velič iny, př ič emž chuť Y je velič ina ordiná lnı́ (poř adová ) a materiá l sudu X je velič ina pouze nominá lnı́ (jmenná ). Pro posouzenı́ zá vislosti tě chto dvou velič in expert posuzoval chuť vı́na celkem v 1097 ná dobá ch z rů zný ch materiá lů . Vý sledky jsou uvedeny v ná sledujı́cı́ kontingenč nı́ tabulce, v nı́ž jsou již dopoč teny ř ádkové a sloupcové souč ty (srovnej s levou tabulkou).

materiá l ná doby

chuť vı́na stanovená expertem pP–podPrů mě rná

Pr–Prů mě rná

nP–nadPrů mě rná

∑

d ř evo s klo k ov p last

100 32 151 124

118 73 159 130

51 16 103 40

269 121 413 294

∑

407

480

210

1 097

Z tabulky lze ihned zjistit, ž e např ı́klad skleně ný ch ná dob s vı́nem nadprů mě rné chuti bylo 16, plastový ch s prů mě rnou chutı́ 130 atd. Z ř ádkový ch a sloupcový ch souč tů (na pravé m a spodnı́m okraji tabulVybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

materiá l ná doby

ky) mů ž eme zjistit např ı́klad, ž e vš ech kovový ch ná dob bylo 413, vš ech ná dob s podprů mě rnou chutı́ vı́na bylo 407 atd. Naš ı́m ú kolem je otestovat (viz testy statistický ch hypoté z) na hladině vý znamnosti 𝛼 = 1 % nulovou hypoté zu 𝐻 : chuť vı́na nezá visı́ na materiá lu ná doby, ve které bylo vı́no skladová no, proti alternativě 𝐻 : tyto dvě velič iny nejsou nezá vislé . Je velmi vhodné [12, str. 144] urč it nejprve č ı́selně hypotetické č etnosti jednotlivý ch polı́ček, tedy hod∀𝑟, 𝑠 (kde r je ř ádkový a s sloupcový index) a tyto hypotetické č etnosti (v zá noty 𝑛̂ , = ⋅ vorce) vepsat př ı́mo do kontingenč nı́ tabulky pod př ı́sluš né č etnosti skuteč ně napozorované . 𝑛 ⋅𝑛 269 ⋅ 407 𝑛 ⋅𝑛 413 ⋅ 210 𝑛̂ , = = ≐ 99,80 … 𝑛̂ , = = ≐ 79,06 … 𝑛 1 097 𝑛 1 097 V naš em př ı́padě jde o dvourozmě rný test dobré shody, který je analogiı́ pozdě ji uvá dě né ho testu „chı́ kvadrá t“. Testové krité rium potom je

pP

chuť vı́na Pr

nP

d

100 (99,80)

118 (117,70)

51 (51,49)

269

s

32 (44,89)

73 (52,94)

16 (23,16)

121

+(

k

151 (153,23)

159 (180,71)

103 (79,06)

413

p

124 (109,08)

130 (128,64)

40 (56,28)

≐ 30,176 . Obor př ijetı́ hypoté zy je 𝐼 = 0 ; 𝜒 [(𝑟 − 1) ⋅ (𝑠 − 1)] ≐ 16,812 𝐼 , = 0 ; 𝜒 , (3 ⋅ 2) = 0 ; 𝜒 , (12)

294

407

480

210

1 097

Př edmluva

Literatura

𝑛 =∑


𝑛 =∑

Zá vě r

(𝑛

𝜒 = , ) ,

+

,

− 𝑛̂ , ) (100 − 99,8) = + 𝑛̂ , 99,8

(

, ,

)

+…+

(

, ,

)

≐

Protož e 𝜒 ∉ 𝐼 , mů ž eme s velkou spolehlivostı́ (99 %) prohlá sit, ž e chuť vı́na zá visı́ (statisticky) vý znamně na materiá lu ná doby.


Pravdě podobnost



Regrese, korelace


Casové ř ady

V uvedené m př ı́kladu jsme mohli spolehlivě tvrdit, ž e chuť vı́na zá visı́ na materiá lu ná doby, ve které bylo vı́no delš ı́ dobu uskladně no. Dalš ı́ př irozenou otá zkou by po proká zá nı́ zá vislosti samozř ejmě mě lo bý t, jakým způsobem, závisí chuť vína na materiálu nádoby? jaký materiá l pů sobı́ na chuť př ı́znivě , jaký nepř ı́znivě , př ı́padně neutrá lně ? Jiný mi slovy, v jaký ch polı́čcı́ch kontingenč nı́ tabulky je pozorovaná č etnost vý razně menš ı́ č i vý razně vě tš ı́ než by mě la bý t v př ı́padě nezá vislosti. Které kombinace chuti a materiá lu jsou vý razně mé ně č etné , než kdyby chuť nezá visela na materiá lu? Které jsou naopak vý razně č etně jš ı́? Ješ tě jinak: která polı́čka jsou „zodpově dná “ za zamı́tnutı́ hypoté zy nezá vislosti? Aniž bychom uvá dě li př esné statistické postupy pro rozhodová nı́, kdy je v jednotlivý ch polı́čcı́ch pozorovaná č etnost výrazně jiná než č etnost hypotetická (předpokládaná), naznač ı́me zde myš lenku takové analý zy zá vislosti, spolehlivě př edtı́m testem nezá vislosti proká zané (ně kdy se také mluvı́ o analý ze polı́ček kontingenč nı́ tabulky). Z porovná nı́ skuteč ně pozorovaný ch a hypotetický ch č etnostı́ polı́ček kontingenč nı́ tabulky mů ž eme č asto uč init alespoň zhruba ně jaké zá vě ry o typu proká zané zá vislosti [12, str. 145]. Pokusme se o to pro situaci z př edchozı́ho př ı́kladu a porovnejme napozorované (skuteč né ) a hypotetické (př edpoklá dané ) č etnosti polı́ček v tabulce (budeme postupovat po ř ádcı́ch odspodu): Ze 4. řádku je vidě t, ž e bylo pozorová no vý razně vı́ce (než kdyby byla chuť nezá vislá na materiá lu) plastový ch ná dob s podprů mě rnou chutı́ vı́na (124 mı́sto zhruba 109), naopak vý razně mé ně než př i nezá vislosti bylo plastový ch ná dob s nadprů mě rnou chutı́ (40 mı́sto zhruba 56). Poč ty plastový ch ná dob s prů mě rnou chutı́ se vý razně neliš ı́. Z toho mů ž eme usoudit, ž e zř ejmě plastový materiá l zvyš uje poč et vzorků s podprů mě rnou chutı́ na ú kor vzorků s chutı́ nadprů mě rnou. Tedy ž e plast zř ejmě zhorš uje chuť vı́na. Ze 3. řádku je obdobně vidě t, ž e je vý razně mé ně než př i nezá vislosti kovový ch ná dob s prů mě rnou chutı́ vı́na a naopak vý razně vı́ce tě chto ná dob s nadprů mě rnou chutı́. Kovový ch ná dob s podprů mě rnou


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

chutı́ je př ibliž ně stejně . Kov tedy zř ejmě zvyš uje poč et nadprů mě rný ch vzorků na ú kor prů mě rný ch ⟹ „zlepš uje“ prů mě rnou chuť. Ze 2. řádku se dá usoudit, ž e sklo zvyš uje poč et prů mě rný ch vzorků na ú kor vzorků podprů mě rný ch i nadprů mě rný ch ⟹ „zprů mě rň uje“ chuť. Z 1. řádku je vidě t, ž e u dř evě ný ch ná dob se pozorované poč ty ná dob s jednotlivý mi chutě mi vı́na té mě ř neliš ı́ od poč tů př edpoklá daný ch, oč eká vaný ch př i nezá vislosti. Lze usuzovat, ž e dř evo neovlivň uje vý razně chuť vı́na. Př esný ch postupů (obdobný ch vý še jen zhruba naznač ené interpretaci vý sledků ) v př ı́padě zamı́tnutı́ hypoté zy nezá vislosti je v literatuř e celá ř ada. Ně které z nich v podstatě pouze urč ujı́, co znamená pojem „vý razná odliš nost“ pozorované a př edpoklá dané č etnosti v polı́čku tabulky. Nejpouž ıv́ aně jš ı́ je asi tak zvané znaménkové schéma, které doplň uje znamé nko PLUS a MÍNUS do tě ch polı́ček tabulky, u který ch se př ı́sluš ný m speciá lnı́m testem (na zadané hladině vý znamnosti 𝛼) spolehlivě proká ž e, ž e pozorovaná č etnost polı́čka je vě tš ı́, př ı́padně menš ı́, než by mě la bý t př i hypoté ze nezá vislosti.

Pro zájemce. Uvě domme si, ž e v uvedené m př ı́kladu chceme proká zat nezávislost dvou veličin X a Y , nebo-li odmı́tnout jejich zá vislost. Pokud se to nepodař ı́, budeme konstatovat, ž e velič iny jsou zá vislé jedna na druhé . Př evedeme-li naš i ú vahu do terminologie pravdě podobnosti jevů , pak jev X znamená , ž e u ná hodně vybrané ho vzorku vı́na se budeme zajı́mat o materiá l ná doby, v jaké bylo dané vı́no uskladně no; Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Y znamená , ž e u ná hodně vybrané ho vzorku vı́na se budeme zajı́mat o to, jakou má chuť a ná s potom zajı́má , zda jsou tyto dva jevy vzájemně nezávislé. Za př edpokladu, ž e jsou tyto jevy vzá jemně nezá vislé , mů ž eme podle vzorce (6) př ı́mo spoč ı́tat pravdě podobnosti jednotlivý ch polı́ček v tabulce (srovnej s pravou tabulkou). Ke stanovenı́ jednotlivý ch ptavdě podobnostı́ využ ijeme vzorce (1) pro statistickou de inici pravdě podobnosti. Potom např ı́klad

( )

( )

𝑃(𝑑 ∩ 𝑝𝑃) = 𝑃(𝑑) ⋅ 𝑃(𝑝𝑃) =

𝑛 ⋅𝑛 𝑛 𝑛 ⋅ = 𝑛 𝑛 𝑛

a teoretická (oč eká vaná , hypotetická ) č etnost vypoč tená podle upravené ho vzorce (1) př i platnosti př edpokladu nezá vislosti je: 𝑛 ⋅𝑛 𝑛 ⋅𝑛 = 𝑛̂ , = 𝑛 ⋅ 𝑃(𝑑 ∩ 𝑝𝑃) = 𝑛 ⋅ 𝑛 𝑛 Podmínky použi testu. Uvá dı́ se [12, str. 143], ž e popsaný test nezá vislosti v kontingenč nı́ tabulce, se dá bez vě tš ı́ch chyb použ ı́t jen v tě ch př ı́padech, kdy je hypotetická četnost každého políčka alespoň 1 a alespoň pro 80 % polı́ček je tento odhad hypotetické č etnosti alespoň 5. K dosaž enı́ tě chto pož adavků lze č asto (má -li to ně jaký reá lný dů vod) slouč it ně které dvě i vı́ce sousednı́ch hodnot velič iny X nebo Y do hodnoty jediné , př ı́padně ně kterou má lo č etnou hodnotu zcela vypustit. Tı́m vznikne menš ı́ kontingenč nı́ tabulka s obecně vě tš ı́mi hypotetický mi č etnostmi polı́ček.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Etapy sta s cké práce Př i statistické prá ci se vě tš inou rozliš ujı́ č tyř i kroky: Formulace problému. Co chceme zjistit, koho (př ı́padně č eho) se daný problé m tý ká . Šetření (sbě r dat). V př edchozı́m př ı́kladu jsme data obdrž eli ⟹ š lo o sestavenı́ druhotné statistiky. Zpracování bylo podstatou př edchozı́ho př ı́kladu — sestavenı́ tabulky a urč enı́ č ı́selný ch charakteristik. Tedy analýza shromá ž dě ný ch dat vedoucı́ k zı́ská nı́ potř ebné informace. Vyhodnocení zı́skané informace — bude probı́rá no v ná sledujı́cı́ch kapitolá ch. Daleko nejdů lež itě jš ı́ č ástı́ prá ce se zdá bý t vyhodnocenı́ — tı́m se zpravidla zabý vajı́ uč ebnice statistiky nejpodrobně ji. Nesmı́me vš ak zapomenout na elementá rnı́ pravdu: žádná statistika nemůže být lepší než její surovina [14, str. 133], tak jako nemů ž e bý t sprá vný ú sudek, jsou-li nesprá vné př edpoklady (z „nepravdy“ klidně mů ž e vyplý vat „pravda“, jak se uč ı́ ve vý rokové logice). Stejně tak jsou k nič emu nejobtı́žně jš ı́ poč etnı́ operace, když č ı́selný materiá l je hned od poč átku nesprá vný nebo nedostač ujı́cı́. A co je ješ tě horš ı́ — poč etnı́ chyby lze opravit, nevhodné metody zpracová nı́ mohou bý t nahrazeny lepš ı́mi. Ovš em pokud je prvotnı́ zá znam ú dajů chybný, vě tš inou již s tı́m nejde nic dě lat. Co tedy mů ž eme udě lat, abychom tomu v praxi př edeš li? Prvnı́ otá zkou je, zda vı́me, co vlastně chceme. Nenı́ tomu tak vž dy, protož e mnohé statistické ú daje ú ř ady shromaž ďujı́ v oč eká vá nı́, ž e pozdě ji mohou poslouž it jako cenné podklady, aniž se v dané m okamž iku dá př esně ř ı́ci, co se vlastně hledá . Když je mož né použ ı́t bohaté ho materiá lu ú ř ednı́ch statistik a pouze je zapotř ebı́ jej uspoř ádat z jiné ho hlediska, mluvı́me o sestavení druhotné statistiky. Protikladem tomu je zhotovení prvotní statistiky, kde musı́me nejprve ú daje zı́skat zjiš ťová nı́m a prové st jejich č leně nı́ (tř ı́dě nı́) a kdy se nepouž ıv́ á ú dajů , které jsou k dispozici. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pozorová nı́m, sč ı́tá nı́m a mě řenı́m mohou statistikové zı́skat jen zlomek č ı́selné ho materiá lu. Stá le znovu se ukazuje jako nezbytné použ ı́t anketnı́ho š etř enı́ (dotazová nı́). Pro rozlehlé oblasti prů zkumu trhu a veř ejné ho mı́ně nı́ je to samozř ejmé , neboť trh se sklá dá z vı́ce nebo mé ně koupě chtivý ch lidı́, jejichž ochota kupovat se má prozkoumat. A mı́ně nı́ (zcela subjektivnı́ př edstava) je mě řitelné pouze tak, když se projevı́ ně jakou akcı́ (např ı́klad odevzdá nı́m hlasu př i volbá ch). Ovšem pozor! Zpracová vané (ne kaž Obrá zek 4: Př evzat z [14]


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

dý je odevzdá ) anketnı́ odpově di nemusejı́ př edstavovat vý bě r př esně odpovı́dajı́cı́ zá kladnı́mu souboru, ze které ho byl vybrá n. Takž e mů ž eme obdrž et zkreslené vý sledky. Cı́lem tohoto kurzu je nauč it se statistiky č ı́st, kriticky je posuzovat a pokusit se odhalovat statistiky chybné nebo vě domě zkreslené . Poznámka. Slovu statistika bý vá dá vá n nejrů zně jš ı́ vý znam. Jednou jsou to vyplně né statistické vý kazy č i dotaznı́ky, př ı́ště tak nazveme nejrů zně jš ı́ č ı́selné ú daje uveř ejně né ve sdě lovacı́ch prostř edcı́ch. O iciá lně lze slovo statistika použ ıv́ at nejmé ně ve tř ech pojetı́ch: Číselné údaje o hromadný ch jevech. Prak cká činnost spoč ıv́ ajı́cı́ ve sbě ru, zpracová nı́ a vyhodnocová nı́ dat. Teore cká disciplína zabý vajı́cı́ se metodami vyhodnocenı́ hromadný ch jevů . A to je ta slož itá matematika, kterou př enechá me profesioná lnı́m statistiků m. My si dopř ejeme toho př epychu, ž e mů ž eme vý sledky jejich prá ce (za splně nı́ př edpokladů ) s dů vě rou využ ıv́ at. A proč jsme v celé té to kapitole mluvili o zá kladnı́m souboru (populaci), vý bě rový ch souborech, empirický ch charakteristiká ch č i empirický ch zá konech rozdě lenı́? Vý bě rové š etř enı́ (nezkoumá me celou populaci, ný brž pouze jejı́ vybranou č ást) samozř ejmě nedosahuje př esnosti, jakou by ná m př ineslo zkoumá nı́ celé populace. Proč tedy dá vat př ednost použ itı́ vý bě ru? Úspora času i finančních prostředků — a fyzická proveditelnost vů bec, zejmé na u rozsá hlé populace. Destruk vní testy — mě řenı́ pevnosti, ž ivotnosti, … Odpově zte si sami, k č emu by vedlo testová nı́ celé populace. Základní soubor nemusí být vždy dostupný — např ı́klad př edvolebnı́ prů zkumy. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

A tady nará ž ı́me i na limity statistiky. Ty nejsou, paradoxně , v matematický ch metodá ch, ný brž př edevš ı́m ve sbě ru dat. Nejvě tš ı́m problé mem bý vá sestavenı́ vý bě rové ho souboru tak, aby co nejlé pe promı́tal vlastnosti celé populace (volby, test integrovaný ch obvodů na jedné desce, vý bě r vý robků pro př ejı́mku — pohodlnost …) a pak také lidský faktor (placené dotaznı́ky, snaha upravit ú daje tak, aby odpovı́daly pož adavků m nadř ı́zené ho).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Uvod do Statistické indukce


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obsah kapitoly: Sta s cká indukce 1. Bodové odhady parametrů

176

2. Intervalové odhady parametrů 179 Stř ednı́ hodnota μ populace s normá lnı́m rozdě lenı́m . . . . . . . . . . . . . . . . . . . . . . . . . 181 Rozptyl σ populace s normá lnı́m rozdě lenı́m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 3. Testy sta s ckých hypotéz 3.1. Postup př i testová nı́ hypoté z . . . . . . . . . . . . . Klasické testová nı́ . . . . . . . . . . . . . . . . . . . 3.2. Vybrané parametrické testy . . . . . . . . . . . . . . Test o stř ednı́ hodnotě μ normá lnı́ho rozdě lenı́ . . Test o rozptylu σ normá lnı́ho rozdě lenı́ . . . . . . 3.3. Vybrané testy shody . . . . . . . . . . . . . . . . . . Př ı́klad: χ – test dobré shody (Pearsonů v) . . . . . Př ı́klad: Kolmogorovů v–Smirnovů v jednový bě rový

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . test shody

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

183 192 195 198 199 201 202 205 213

4. Příklad – bodový a intervalový odhad střední hodnoty, test velikos střední hodnoty 222 Volba testový ch krité riı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 Použ itı́ testový ch krité riı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 5. Závěr kapitoly – Čistý test významnos


Př edmluva

Literatura

249

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Úvod kapitoly Zá kladnı́ ú lohou matematické statistiky je zobecně nı́ (zvané v tomto oboru statistická indukce č i statistické usuzová nı́): zkoumá se, jak informace zjiš tě né o prvcı́ch vý bě ru zobecnit na celou populaci ²⁸. Za ú č elem, abychom zı́skali př edstavu o vlastnostech zá kladnı́ho souboru (populace) a nemuseli vyš etř ovat vš echny jeho prvky ²⁹, vybereme ná hodný m způ sobem, vzá jemně nezá visle n prvků ze zá kladnı́ho souboru. Dostaneme tak vzorek 𝑛 prvků (𝑥 , 𝑥 , … , 𝑥 ), pro ně hož hodnoty zkoumané ho znaku zjistı́me ³⁰. Nebo-li vypoč teme empirické charakteristiky (statistiky). Podle vý sledků vý bě rový ch zkoumá nı́ si pomá há me př i rozhodová nı́ typu: tato nerovnomě rnost vý roby nemů ž e bý t jen nahodilá , tento lé k se zdá bý t vý znamně ú č inně jš ı́, tuto zdá nlivou shodu dvou jevů je mož no vysvě tlit pů sobenı́m ná hody. Použ ıv́ ané metody se opı́rajı́ o zá kon velký ch č ı́sel a př ı́buzné vě ty teorie pravdě podobnosti (což př esahuje rá mec té to příručky); ty ukazujı́, ž e př i rostoucı́m rozsahu reprezentativnı́ho vý bě ru se empirické charakteristiky vý bě ru (bodový odhad) obvykle limitně blı́žı́ skuteč ný m hodnotá m na celé populaci. Matematická statistika zá roveň stanovuje, jak př esný tento odhad pro daná data je (intervalový odhad), anebo testuje, zda vlastnosti vzorku jsou sluč itelné s př edpoklady o chová nı́ celé populace (testová nı́ statistický ch hypoté z). Uvě domme si, ž e na rozdı́l od charakteristik zá kladnı́ho souboru, které jsou konstanty, jsou empirické vý bě rové charakteristiky (nebo-li charakteristiky vypoč tené z provedené ho vý bě ru) náhodnými veličinami, protož e jejich hodnoty mohou bý t pro kaž dý vý bě r rozdı́lné . ²⁸ HENDL, J . Přehled statistických metod zpracování dat. Praha : Portá l, 2004, str. 18. ISBN 80–7178–820–1. ²⁹ Dů vody, proč nezkoumá me celý zá kladnı́ soubor, jsme uvá dě li na zá vě r př edchozı́ kapitoly nazvané Popisná statistika. ³⁰ Ovš em takový ch vý bě rů z jednoho zá kladnı́ho souboru mů ž eme prové st vı́ce a pokaž dé dostaneme jiný vzorek. Takž e empirické charakteristiky rů zný ch vzorků nemusejı́ bý t stejné . V té to kapitole budeme zkoumat vztahy, mezi rozdě lenı́m pravdě podobnosti konkré tnı́ho znaku zá kladnı́ho souboru a rozdě lenı́m pravdě podobnosti stejné ho znaku v jednotlivý ch vý bě rech „vytahovaný ch“ ze zá kladnı́ho souboru.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Bodové odhady (vybraných) parametrů Bodový m odhadem charakteristiky zá kladnı́ho statistické ho souboru rozumı́me takové číslo, které hodnotě toho parametru odpovı́dá . Bodový odhad (odhad jedinou hodnotou) ná s zdá nlivě naplň uje jistotou př esně stanovené ho č ı́sla, které ná m umož ňuje bez problé mů s tı́mto odhadem pracovat; např ı́klad jej srovná vat s ně jaký m př edepsaný m limitem. Opak je ovš em pravdou! Protož e bodový odhad se prakticky nikdy nemů ž e „stre it“ do odhadované hodnoty a př i opakované m urč enı́ odhadu s jiný m vý bě rem dostaneme té mě ř vž dy jinou hodnotu odhadu. Zpravidla lze z vý bě rové ho souboru vypoč ı́tat ně kolik rů zný ch (vý bě rový ch) charakteristik, pomocı́ nichž mů ž eme odhadovat nezná mý parametr zá kladnı́ho souboru (populace). Např ı́klad stř ednı́ hodnotu symetrické ho zá kladnı́ho souboru mů ž eme odhadnout tak, ž e ze vzorku (vý bě ru) urč ı́me aritmetický prů mě r (př ı́padně jiný prů mě r), modus nebo mediá n. Tyto vý bě rové charakteristiky ale neposkytujı́ stejně kvalitnı́ odhady. Vhodná výběrová charakteristika (k provedenı́ odhadu př ı́sluš né ho parametru zá kladnı́ho souboru) splň uje ná sledujı́cı́ krité ria (má vhodné vlastnosti). Je: konzistentní — pro velký poč et dat ve vzorku je má lo pravdě podobné , ž e odhad se vý znamně liš ı́ od zkoumané charakteristiky; nestranná (nevychý lená , nezkreslená ) — vybereme-li jiný vzorek, odhady se sice budou liš it, ale jejich prů mě r je velmi blı́zký zkoumané charakteristice. Jinak ř eč eno: použ itá charakteristika systematicky nenadhodnocuje ani nepodhodnocuje odhadovaný parametr. vydatná (e icientnı́) — nestranný odhad, jehož rozptyl je nejmenš ı́ mezi vš emi nestranný mi odhady př ı́sluš né ho parametru Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

dostatečná — obsahuje veš kerou informaci o sledované m parametru, kterou mů ž e vý bě rový soubor poskytnout. Znamená to, ž e ž ádný jiný parametr neobsahuje vě tš ı́ množ stvı́ informace o vý bě rové m souboru. Existuje ř ada metod, pomocı́ nichž lze zı́ská vat bodové odhady. Mezi nejzná mě jš ı́ patř ı́ metoda nejmenš ı́ch č tverců , momentová metoda nebo metoda maximá lnı́ vě rohodnosti. Bliž šı́ informace o teorii odhadu lze zı́skat v př ı́sluš né literatuř e. Ukazuje se (zá kon velký ch č ı́sel a spol.), ž e pro zá kladnı́ soubor s normálním rozdělením platı́:

𝜇: Aritmetický průměr 𝑥̄ vzorku (vý bě ru) je nejlepš ı́ (ve smyslu vý še zmı́ně ný ch vlastnostı́) bodový odhad střední hodnoty 𝜇 zá kladnı́ho souboru (populace) s normá lnı́m rozdě lenı́m.

𝜎: Podobně ze vzorku (vý bě ru) zjiš tě ná empirická charakteristika výběrová směrodatná odchylka 𝑆 je nejlepš ı́ odhad smě rodatné odchylky 𝜎 zá kladnı́ho souboru s normá lnı́m rozdě lenı́m. Analogické zá vě ry platı́ i pro jiné charakteristiky, př ı́padně i pro jiná rozdě lenı́ zá kladnı́ho souboru. Jak jsme již uvedli, bodový m odhadem se nikdy nemů ž e př esně „stre it“ do sprá vné hodnoty hledané ho parametru. Mů ž eme jen př edpoklá dat, ž e se odhadované „sprá vné “ hodnotě vı́ce č i mé ně př iblı́žil. Je tedy vhodně jš ı́ pokusit se „zachytit“ odhadovanou hodnotu v urč ité m rozmezı́ (intervalu, který hledaný parametr pokrý vá ) kolem bodové ho odhadu, protož e bodový odhad obvykle neposkytuje ž ádnou př edstavu o př esnosti (spolehlivosti) zı́skané aproximace. Př itom termı́n spolehlivost 90 % vě tš inou odpovı́dá př edstavě , ž e vý pově ď bodové ho odhadu je z 90 % sprá vná . Př itom vě domě př ipouš tı́me 10% chybu. Celé to ale mů ž eme ř ı́ci také jinak: Vý sledek (bodový odhad) je statisticky významný na hladině 10 %, protož e by jen č irou ná hodou nenastal v 90 % př ı́padů . To je pravdě podobnost jistoty, která vymezuje také interval spolehlivosti. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Proto se poč ı́tá takzvaný intervalový odhad, jehož vý sledkem je interval spolehlivosti (kon idenč nı́ interval), tedy interval, v ně mž se s jistou př edem zadanou pravdě podobnostı́ nachá zı́ hodnota hledané statistiky zá kladnı́ populace. Př itom stanovenı́ intervalu spolehlivosti (jeho „š ı́řka“ – rozpě tı́) vů bec nezá visı́ na velikosti populace. Jedině velikost vzorku a jeho homogenita ovlivň ujı́ velikost chyby. Př edstavme si ná sledujı́cı́ př ı́pad. Zkoumá me tý dennı́ konzumaci piva ve dvou skupiná ch studentů . skupina I poč et piv

skupina II poč et piv

1. student 2. student 3. student 4. student 5. student

8 8 8 8 8

0 0 0 0 40

Souč et: Aritmetický prů mě r:

40 8

40 8

Pro obě skupiny jsme obdrž eli zcela shodný prů mě r, 8 piv za tý den. Je zř ejmé , ž e prů mě r 8 reprezentuje skupinu I perfektně . Ale skupina II je vlastně skupina abstinentů, do které se vloudil jediný pivní hrdina, který se snaž ı́ udrž et prů mě rnou konzumaci piva na ú rovni srovnatelné se skupinou I. Je nesporné , ž e rozdı́l mezi dvě ma prů mě ry signalizuje př ı́tomnost souvislosti mezi promě nnou, podle které byli jedinci rozdě leni do dvou vý bě rů , a promě nnou popsanou jako prů mě r. Problé m je jenom v tom, jak zjistit, ž e ten rozdı́l mezi dvě ma prů mě ry je dostateč ně vý znamný. Teď již vı́me, ž e nestač ı́ vzı́t v ú vahu jen velikost vzorku, ale i to, jak je vzorek (a potaž mo celá populace) homogennı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

My jsme již ně které intervalové odhady pro soubory s normá lnı́m rozdě lenı́m zmiň ovali, když jsme v pravidle tří sigma uvá dě li, ž e se v tomto intervalu nachá zı́ př ibliž ně 99,7 % vš ech hodnot ná hodné promě nné . Lze to interpretovat také tak, ž e se spolehlivostı́ 99,7 % padne stř ednı́ hodnota 𝜇 do tohoto intervalu. Podobně pravidlo dvou sigma urč uje interval, který př ibliž ně s 95% spolehlivostı́ vymezuje stř ednı́ hodnotu 𝜇 dané ho souboru. Dalš ı́ intervalové odhady si uká ž eme nynı́.

Intervalové odhady (vybraných) parametrů Intervalový m odhadem charakteristiky (parametru) zá kladnı́ho statistické ho souboru rozumı́me interval spolehlivosti (kon idenč nı́ interval), který tuto charakteristiku (s velkou pravdě podobnostı́ ⇒ spolehlivost odhadu) pokrý vá (charakteristika v tomto intervalu lež ı́). 95% spolehlivost znamená ³¹, ž e skuteč ná proporce zkoumané ho znaku existujı́cı́ v populaci (zá kladnı́m souboru), se nalé zá s pravdě podobnostı́ 95 % uvnitř stanovené ho intervalu spolehlivosti (konidenč nı́ho intervalu). Kdybychom vytvoř ili 100 vzorků obdobné velikosti, pravdě podobně jen v pě ti vzorcı́ch by bylo mož né , ž e skuteč ná proporce zkoumané ho znaku by lež ela POD nebo NAD (prostě vně ) vypoč ı́taný m kon idenč nı́m intervalem (intervalem spolehlivosti). ³¹ Zda postač ı́ 95 % jistoty č i nikoliv, nelze ř ı́ci vš eobecně . O tom je zapotř ebı́ rozhodnout v kaž dé m jednotlivé m př ı́padu samostatně . Jestliž e chceme dosá hnout vyš šı́ spolehlivosti, je nutné zkoumat vě tš ı́ vý bě rové soubory. Jestliž e se nemá vydat moc peně z a postač ı́-li př ibliž ný př ehled (jako např ı́klad u mnohý ch otá zek prů zkumu trhu) je postač ujı́cı́ 90 % č i ješ tě niž šı́ hodnota. Jde-li o zvlá š tě velmi zá važ né rozhodnutı́ (medicı́na, letectvı́, atd.) bude snaha dosá hnout i vyš šı́ pravdě podobnosti jak 99 %.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Je zř ejmé , ž e č ı́m vyš šı́ spolehlivost odhadu pož adujeme, tı́m š irš ı́ interval spolehlivosti bude (hledaná hodnota se v ně m musı́ nachá zet s vyš šı́ pravdě podobnosti). Bohuž el to vš ak ubı́rá na jeho vypovı́dacı́ schopnosti, jeho významnost klesá . Uvědomte si, jaká je vypovídací schopnost informace, že průměrný věk všech lidí na zemi leží se 100% spolehlivostí v intervalu od 0 do 195 let. Proto v praxi vž dy hledá me kompromis mezi spolehlivostı́ a vý znamnostı́ (vypovı́dacı́ schopnosti). Označ ı́me-li spolehlivost odhadu (1 − 𝛼), pak 𝛼 se nazý vá hladinou významnosti. Je zř ejmé , ž e s rostoucı́ spolehlivostı́ odhadu klesá hladina vý znamnosti. Intervaly spolehlivosti konstruujeme jako jednostranné (dů lež itá je pouze jedna mez; odhadujemeli např ı́klad dé lku ž ivota ně jaké ho zař ı́zenı́, je pro ná s dů lež itá pouze dolnı́ mez — pak mluvı́me o levostranné m intervalu spolehlivosti / v př ı́padě hornı́ meze pak pravostranné m) nebo dvoustranné. Zajı́majı́-li ná s obě meze odhadu (dolnı́ i hornı́), konstruujeme oboustranný interval spolehlivosti. Vě tš inou tyto meze urč ujeme tak, aby pravdě podobnost, ž e parametr populace (zá kladnı́ho souboru) lež ı́ pod dolnı́ mezı́, byla stejná jako pravdě podobnost, ž e lež ı́ nad hornı́ mezı́ a byla rovna .

Pozor! Dolní (horní) mez dvoustranné ho intervalu spolehlivosti nenı́ stejná jako mez u levostranného (pravostranného) intervalu spolehlivosti.

Obecné metody konstrukce intervalů spolehlivosti jsou znač ně ná roč né . Pro naš e ú č ely se omezı́me na dvoustranné intervaly spolehlivosti pro parametry normálního rozdělení, které jsou dobř e prozkoumané (i proto se tak č asto setká me s pož adavkem na normalitu zpracová vaný ch dat). Normalita (př edpoklad, ž e data pochá zejı́ z normá lnı́ho rozdě lenı́) je hlavnı́m př edpokladem o datech v drtivé vě tš ině analý z a testů . Ověření normality si za chvı́li uká ž eme pomocı́ testů shody (př ilé havosti). Zopakujme, ž e 90% interval spolehlivosti odhadu stř ednı́ hodnoty bude s pravdě podobnostı́ 90 % obsahovat skuteč nou stř ednı́ hodnotu zá kladnı́ho souboru 𝜇. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Střední hodnota 𝜇. Má me ná hodný vý bě r z populace s normálním rozdělením 𝑁(𝜇; 𝜎 ), u které ho nezná me ani stř ednı́ hodnotu 𝜇, ani roptyl 𝜎 . Potom stř ednı́ hodnota 𝜇 se 100(1 − 𝛼)% spolehlivostı́ padne do intervalu 𝑆 𝑆 ⋅ 𝑡 (𝑛 − 1); 𝑥̄ + ⋅ 𝑡 (𝑛 − 1) 𝑥̄ − √𝑛 √𝑛 kde: x̄ je aritmetický prů mě r dané ho vzorku, S je vý bě rová smě rodatná odchylka (druhá odmocnina vý bě rové ho rozptylu) vzorku, n je rozsah vzorku (poč et zı́skaný ch dat, která má me k dispozici) a t je kvantil Studentova rozdě lenı́, který najdeme ve statistický ch tabulká ch, nebo pomocı́ Excelu 2010: =T.INV.2T(𝛼;𝑛) . Např ı́klad pro hladinu vý znamnosti 𝛼 = 5 % a 𝑛 = 16 takto: Tedy 𝛼 je č ı́slo, které je kladné a blízké nule ³². Vš imně te si, ž e př i konstantnı́m rozsahu vý bě ru se s rostoucı́ spolehlivostı́ (𝛼 se zmenš uje ⇒ hodnota kvantilu t roste) š ı́řka intervalu zvě tš uje. Naopak, s rostoucı́m rozsahem ná hodné ho vý bě ru n š ı́řka intervalu klesá (dě lı́me vě tš ı́m č ı́slem a také hodnota kvantilu t klesá ), takž e se odhad zpř esň uje (př i ³² Proč volı́me parametr 𝛼 blı́zký nule? Př edstavme si ná sledujı́cı́ situaci: Př ed trestnı́m sená tem stojı́ obvině ný, což ovš em mů ž e bý t jak zloč inec, který projedná vaný trestný č in skuteč ně spá chal, tak bezú honný č lově k, který s projedná vaný m trestný m č inem nemá naprosto nic společ né ho. Vynesený rozsudek mů ž e dopadnout č tyř mi způ soby. Dva z nich jsou sprá vné a tudı́ž oč eká vané (1. potrestá nı́ zloč ince, 2. osvobozenı́ nevinné ho) a ve dvou soud pochybil (3. osvobozenı́ zloč ince, 4. potrestá nı́ nevinné ho). Zvlá š tě poslednı́ (č tvrtý ) př ı́pad má z hlediska odsouzené ho fatá lnı́ dů sledky. Proto se v praxi snaž ı́me co nejvı́ce omezit vý skyt tohoto druhu chyb. Vı́ce o chybá ch a jejich druzı́ch uvedeme v kapitole Testy statistických hypotéz.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

konstantnı́ spolehlivosti). Dá le pokud je rozsah vý bě ru velký (v ř ádu stovek a vı́c), lze mı́sto kritický ch hodnot Studentova rozdě lenı́ (dı́ky centrá lnı́ limitnı́ vě tě ) použ ı́t kritické hodnoty normá lnı́ho rozdě lenı́. Rozptyl 𝜎 . Má me ná hodný vý bě r z populace s normálním rozdělením 𝑁(𝜇; 𝜎 ) u které ho nezná me ani stř ednı́ hodnotu 𝜇, ani rozptyl 𝜎 . Potom rozptyl 𝜎 se 100(1 − 𝛼)% spolehlivostı́ (𝛼 kladné blízké nule) padne do intervalu (𝑛 − 1) ⋅ 𝑆 (𝑛 − 1) ⋅ 𝑆 ; 𝜒 (𝑛 − 1) 𝜒 (𝑛 − 1) kde: S je vý bě rový rozptyl zkoumané ho vzorku, n je rozsah vzorku (poč et zı́skaný ch dat, která má me k dispozici) a 𝜒 je kvantil rozdě lenı́ chı́–kvadrá t, který najdeme ve statistický ch tabulká ch, nebo pomocı́ Excelu 2010: =CHISQ.INV.RT(𝛼;𝑛) . Např ı́klad pro hladinu vý znamnosti 𝛼 = 1 % a 𝑛 = 5 takto:

V př ı́padě jiný ch charakteristik nebo charakteristik pro jiná rozlož enı́ zá kladnı́ho statistické ho souboru (populace) odkazujeme zá jemce na př ı́sluš nou literaturu.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

3. Testy sta s ckých hypotéz Jako uká zku typické ho statistické ho uvaž ová nı́ uvedeme na ú vod bez př esný ch statistický ch formulacı́ ná sledujı́cı́ příklad: [12, str. 72] Má me minci, o které chceme rozhodnout, zda je č i nenı́ férová (symetrická , homogennı́, …). Statistickou metodou to lze prové st ná sledujı́cı́m způ sobem. Hodı́me nkrá t touto mincı́ a zjistı́me, kolikrá t z tě chto n hodů padne Lı́c. Z odstavce o binomické m rozdě lenı́ vı́me, ž e poč et lı́ců v n hodech mincı́ je ná hodná velič ina X s binomický m rozdě lenı́m pravdě podobnosti s parametry n a p, kde p je pravdě podobnost, ž e v jednom hodu padne lı́c. Jestliž e je mince férová, je 𝐩 = 𝟐𝟏 . Nenı́-li mince fé rová , je 𝑝 ≠ . Rekně me, ž e jsme provedli pokus a mincı́ hodili 10 000 krát, př ič emž lı́c padl 5 101 krát. Nynı́ uvaž ujeme ná sledovně . Jestliž e je mince fé rová , má ná hodná velič ina X (poč et lı́ců v 10 000 hodech) binomické rozdělení s parametry 𝑛 = 10 000 , 𝑝 = 0,5 . Ná s zajı́má hodnota 𝑃(𝑋 > 5 100) . Proč , to vysvě tlı́me v zá vě ru př ı́kladu. Jedno řešení: 𝑃(𝑋 > 5 100) = 1 − 𝑃(𝑋 ≤ 5 100) = 1 − 𝐹(5 100) , kde F(5 100) je hodnota distribuč nı́ funkce binomické ho rozdě lenı́, ovš em distribuč nı́ funkce nenı́ v té to př ı́ruč ce pro binomické rozdě lenı́ uvedena. Hodnotu 𝐹(5 100) mů ž eme (za předpokladu, že je mince férová) urč it např ı́klad takto: 1. Spoč ı́tá me vš ech 10 001 č lenů binomické ho rozvoje vzorce (18) pro kaž dé k od nuly do deseti tisı́c. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r

(

) ⋅ 0,5 ⋅ (1 − 0,5)

podle


Pravdě podobnost



Regrese, korelace


Casové ř ady

2. Zı́skané hodnoty posklá dá me podle velikosti a budeme hledat př ı́sluš ný kvantil. Další řešení: Nebo mů ž eme zkusit spoč ı́tat hledanou pravě podobnost př ı́mo podle vzorce (18) 𝑃(𝑋 > 5 100) =

𝑃(𝑋 = 𝑘) =

10 000 ⋅ 0,5 ⋅ (1 − 0,5) 𝑘

=…

Je vı́ce než zř ejmé , ž e oba uvedené postupy jsou velmi pracné . Proto zkusı́me ná sledujı́cı́ vylepšené první řešení podle [12]. Protož e jde v naš em př ı́padě o velmi velký poč et pokusů (ř ádově desetitisı́ce), mů ž eme podle pozná mky pod binomický m rozdě lenı́m a s využ itı́m vzorců (19) použ ı́t distribuč nı́ funkci normá lnı́ho rozdě lenı́ s parametry 𝑁(10 000 ⋅ 0,5 ; 10 000 ⋅ 0,5 ⋅ 0,5) = 𝑁(5 000; 2 500) nebo také 𝑁(5 000; 50 ) a potom 𝑃(𝑋 > 5 100) = 1 − 𝑃(𝑋 ≤ 5 100) = 1 − 𝐹(5 100) = 1 − 𝐹

5 100 − 5 000 = 1 − 𝐹 (2) = 50

zde využ ijeme tabelované hodnoty distribuč nı́ funkce normované ho normá lnı́ho rozdě lenı́ nebo bez provedené ho normová nı́ např ı́klad Excel 2010: =NORM.DIST(5 100;5 000;50;1) = 1 − 0,977 25 (𝐸𝑥𝑐𝑒𝑙 = 0,977 249 866) ≐ 0,023 = 2,3 % Poslednı́m postupem ná m po zaokrouhlenı́ vyš la hodnota pravdě podobnosti 𝑃(𝑋 > 5 100) = 2,3 %. Jiný mi slovy. Pravdě podobnost, ž e poč et lı́ců v 10 000 hodech se liš ı́ od prů mě rné hodnoty 5 000 o vı́ce než o 100, je pouze 4,6 %, protož e 𝑃(|𝑋 − 5 000| > 100) = 𝑃(𝑋 > 5 100) + 𝑃(𝑋 < 4 900) = 2,3 % + 2,3 % = 4,6 % Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Tedy za př edpokladu, ž e mince je fé rová a poč et lı́ců v naš ich 10 000 hodech byl 5 101 (tedy poč et, který se liš il o vı́ce než o 100 od oč eká vané hodnoty 5 000), nastal jeden z těch výsledků našeho pokusu, které byly před pokusem velmi nepravděpodobné (mě ly pravdě podobnost pouze 4,6 %). Předpoklad, ž e mince je fé rová , tedy asi neplatí a proto rozhodneme, ž e mince fé rová nenı́. Ve statistice se ř ı́ká , ž e spolehlivost tohoto zamı́tavé ho rozhodnutı́ je velká , v tomto př ı́padě konkré tně 95,4 % (což urč ı́me: 100 % − 4,6 %). Tento způ sob uvaž ová nı́ je typický pro mnoho statistický ch metod, speciá lně pro tzv. testová nı́ hypoté z. V tomto př ı́kladu jsme stanovili hypoté zu mince je férová a na zá kladě vý sledků pokusu (10 000 hodů mincı́) jsme tuto hypoté zu dostateč ně spolehlivě (95,6 %) zamı́tli. Mezi dalš ı́ vý znamné otá zky př i zpracová nı́ dat patř ı́ ú vahy typu: • Splň ujı́ data charakter normá lnı́ho rozdě lenı́? • Liš ı́ se hodnoty namě řené technikem A a technikem B? • Liš ı́ se hodnoty zı́skané v rů zný ch č asový ch intervalech? • Liš ı́ se hodnoty zı́skané v mı́stech A a B? • Liš ı́ se obsah ú č inné lá tky v lé čivu od deklarované hodnoty? • Liš ı́ se vý sledky zı́skané metodami A a B? K ř eš enı́ tě chto (a jim podobný ch) otá zek využ ıv́ á me metody testová nı́ statistický ch hypoté z, s jejichž pomocı́ lze hledat odpově di a č init zá vě ry. V dalš ı́m nebudeme vytvá ř et takové testy, ale nauč ı́me se použ ıv́ at ně které z existujı́cı́ch. Tvorba testu se pak změ nı́ vlastně ve vý bě r vhodné ho použ ıv́ ané ho testu př i ř eš enı́ dané ho problé mu a apliková nı́ vybrané ho testu na daný př ı́pad.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Sta s ckou hypotézou rozumı́me kaž dý (jaký koliv) př edpoklad ³³ o nezná mé vlastnosti rozlož enı́ ná hodné promě nné celé ho zá kladnı́ho statistické ho souboru. Pravdivost př edpokladu mů ž eme ově řovat pomocı́ vý bě ru poř ı́zené ho z uvaž ované ho zá kladnı́ho souboru. Toto ověřování nazý vá me testováním hypotézy. Vě tš inou ná s zajı́má , zda (z vý bě ru) zı́skané empirické charakteristiky, dostateč ně př esně (pravdivě ) popisujı́ odpovı́dajı́cı́ charakteristiky zá kladnı́ho souboru. V praxi č asto pož adujeme urč it, jak má bý t rozsá hlý vý bě r (vzorek), který by zabezpeč il, abychom př ı́pustnou chybu odhadu urč ili s danou spolehlivostı́. Příklad. Kupujı́cı́ nechce platit za „zajı́ce v pytli“ a chce dojednat přejímací kontrolu. Kupující př evezme zbož ı́ jen tehdy, jestliže v náhodném výběru určitého rozsahu nepřekročí počet nevyhovujících kusů dohodnutý počet. Prodávající by naproti tomu mě l vě dě t, na jaký druh př ejı́macı́ (odbě ratelské ) kontroly mů ž e př istoupit a kdy se má lá kavé objedná vky radě ji vzdá t. Mě l by totiž bý t (na zá kladě bě žné vý robnı́ ³⁴ kontroly) schopen posoudit, do jaké mı́ry asi jeho zbož ı́ odpovı́dá pož adavků m kupujı́cı́ho. Zcela bez problé mů je ideá lnı́ př ı́pad absolutně bezvadný ch sé riı́, protož e nenı́-li v zá kladnı́m souboru ani jediný vadný kus, nemů ž e se objevit ani ve vzorku. Spı́še je ale nutno vychá zet z realistické ho př edpokladu, ž e veš keré vyrá bě né zbož ı́ nemů ž e bý t opravdu dokonalé . Proto se hledá způ sob, jak nalé zt takový zkuš ebnı́ postup, který by vyhovoval jak odběrateli tak dodavateli a př edevš ı́m nebyl příliš nákladný. Jiný mi slovy: je potř eba vytvoř it takovou př ejı́macı́ kontrolu, která by pokud mož no př i malé m vý bě rové m souboru poskytla zá ruku, ž e odbě ratel (pokud vý robce dodrž ı́ svů j vý robnı́ standard) dosta³³ Hypoté za znamená doslovně př edpoklad č i domně nku, ž e ně co by mohlo být tak a tak č i vysvětleno tak a tak. Je to domně nka, která mů ž e vzniknout z okamž ité ho ná padu nebo mů ž e bý t vypreparová na po dlouhý ch ú vahá ch z urč ité pokusné ř ady: „Bylo by přece docela dobře možné, že …“ nebo: „Předpokládejme, že je možná souvislost …“. ³⁴ Vý robnı́ kontrola se prová dı́ bě žně a má umož nit vč as poznat a odstranit vý robnı́ zá vady – např ı́klad seř ı́zenı́m urč ité ho stroje nebo vyř azenı́m zvlá š ť nepozorné ho pracovnı́ka z vý robnı́ho procesu. Odbě ratelská kontrola se naproti tomu prová dı́ pouze u tě ch vý robků , které již proš ly sı́tem vý robnı́ kontroly a o který ch se vý robce domnı́vá , ž e plně odpovı́dajı́ jeho normá m kvality.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

ne s nejvě tš ı́ pravdě podobnostı́ uspokojivou jakost a prodá vajı́cı́ se s vysokou pravdě podobnostı́ doč ká př ejı́mky bez zá vad. Oba, odbě rateli dodavatel, musı́ podstoupit jediné riziko: Kupujícímu se mů ž e stá t, ž e ná hodný vzorek je podstatně lepš ı́ než skuteč ná jakost celé dodá vky; Proto mů ž e odebrat a zaplatit (o takový chto chybá ch viz dá le) dodá vku zbož ı́, která obsahuje vı́ce zmetků , než je ochoten př ipustit. Výrobci se mů ž e př ihodit, ž e sice vyrá bı́ př evá ž ně dobré zbož ı́, ale ž e (té mě ř) vš echny vadné exemplá ř e proklouznou do vý bě rové ho souboru. Proto odbě ratel mů ž e odmı́tnout př evzı́t dodá vku zbož ı́, která splň uje jeho př edpoklady. Příklad [14, str.173] Odbě ratel je ochoten akceptovat 2 % zmetků , zatı́mco vý robce vı́, ž e jeho vý roba jich má asi 1 %. V dodá vané m množ stvı́ (zá kladnı́ soubor) 1 000 (N) kusů je tedy asi 10 (M) kusů vadný ch. Vzorek o rozsahu 100 (n) kusů byl stanoven dohodou. Mů ž e vý robce klidně oč eká vat př ejı́macı́ zkouš ku?

Ne tak docela! Hypergeometrické rozdělení. Protož e jde o statistický vý bě r bez opaková nı́ (kaž dý vý robek kontrolujeme pouze jednou, tedy ve vzorku bude skuteč ně 100 rů zný ch vý robků ) mů ž eme (viz kapitola Rozdělení diskrétní náhodné veličiny) ř ı́ci 𝐸(𝑋) =

𝑛⋅𝑀 100 ⋅ 10 = =1 𝑁 1 000

ž e jaký koliv vzorek 100 vý robků urč ený ch k př ejı́macı́ kontrole bude v prů mě ru obsahovat pouze jeden vadný vý robek. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Je vš ak docela dobř e mož né , ž e ve vzorku (vý bě ru) budou 3 (k) vadné kusy, př ı́padně ješ tě vı́ce. Tř i zmetky ve vý bě ru se mohou vyskytnout s pravdě podobnostı́ stanovenou podle vzorce

𝑃(𝑋 = 𝑘) =

𝑀 𝑘⋅( ) 𝑁 𝑛

=

1 000 − 10 10 ⋅ 3 100 − 3

10! 990! ⋅ 3! ⋅(10 − 3)! 97! ⋅(990 − 97)! 1 000! 100! ⋅(1 000 − 100)!

1 000 100

=

=

990 10 ⋅ 3 97

10! 990! ⋅ 3! ⋅7! 97! ⋅893! 1 000! 100! ⋅900!

1 000 100

=

≐ 0,056 909

Tedy př ibliž ně š est ze stovky uskuteč ně ný ch vý bě rů bude obsahovat tř i zmetky a př inejmenš ı́m dva vý bě ry dokonce budou obsahovat č tyř i nebo vı́ce zmetků . Poznámka. Pokud se vý še uvedené faktoriá ly pokusı́te spoč ı́tat pomocı́ své kalkulač ky, mů ž e se vá m stá t, ž e u vyš šı́ch č ı́sel obdrž ı́te hlá š enı́ Result too large nebo Out of range č i ně co podobné ho. Proto je lé pe využ ı́t služ eb Excelu 2010: =KOMBINACE(M;k)

nebo jednoduš eji Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

=HYPGEOM.DIST(k;n;M;N;0)

nebo postupovat ná sledovně : Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Binomické rozdělení. Protož e dodá vka má velký rozsah N (1 000 vý robků ), n (rozsah kontrolnı́ho vzorku je pevně stanoven na 100 kusů ) a M/N (procento vyrobený ch zmetků je 10/1 000) se nemě nı́, mů ž eme (podle pozná mky pod hypergeometrický m rozdě lenı́m) toto hypergeometrické rozdě lenı́ nahradit binomický m s ná sledujı́cı́mi parametry: n = 100, p = M/N = 0,01. Tř i (k) zmetky ve vý bě ru se mohou vyskytnout s pravdě podobnostı́ podle vzorce 𝑛 100 10 10 ⋅ 𝑝 ⋅ (1 − 𝑝) = ⋅ ⋅ 1− 𝑘 3 1 000 1 000 100 ⋅ 99 ⋅ 98 = ⋅ (0,01) ⋅ (0,99) ≐ 0,060 999 3⋅2⋅1 =BINOM.DIST(3;100;0,01;0)

𝑃(𝑋 = 𝑘) =

Excel 2010:


Př edmluva

Literatura

Zá vě r

=


Pravdě podobnost



Regrese, korelace


Casové ř ady

Tedy opě t př ibliž ně š est ze stovky uskuteč ně ný ch vý bě rů bude obsahovat tř i zmetky, kdy rozdı́l oproti př edchozı́mu vý poč tu č inı́ čtyři tisíciny. Tı́m jsme „proká zali“, ž e v tomto př ı́padě se opravdu hypergeometrické rozdě lenı́ blı́žı́ rozdě lenı́ binomické mu. A k tomu všemu ještě toto! Zá dný odbě ratel (pokud je př ı́četný ) nebude souhlasit se stokusový m vý bě rový m souborem obsahujı́cı́m dva vadné kusy, když chce mı́t jistotu, ž e v celkové m dodá vané m množ stvı́ tisı́c kusů nenı́ vı́ce než dvě procenta zmetků . Tedy testová nı́ hypoté zy je postup, který umož ňuje na zá kladě namě řený ch dat urč it, zda ná hodná velič ina, jejı́miž realizacemi data jsou, vykazuje urč itou vlastnost. Např ı́klad má te př ed sebou obá lku a jenom vı́te, ž e je v nı́ vyplně ný dotaznı́k z vý zkumu na celostá tnı́m vzorku dospě lé ho obyvatelstva. Má te uhodnout, jaké je pohlavı́ respondenta, jehož dotaznı́k je v obá lce. Jaká je pravdě podobnost, ž e uhodnete sprá vně ? Zř ejmě PADESAT na PADESAT. Změ ňme teď trochu podmı́nky. Př edstavme si, ž e obá lka má prů hledné pole pro adresu a tı́mto „oké nkem“ vidı́me odpově ď na ná sledujı́cı́ otá zku: ANO Už ıv́ á te ně kdy rtě nku? NE Bude-li odpově ď ANO, pravdě podobně dotaznı́k vyplň ovala ž ena. Mů ž eme se sice stá le ješ tě mý lit (i muž i mohou použ ıv́ at rtě nku), podobně jako když př i odpově di NE budeme há dat muž e (ne kaž dá ž ena rtě nku použ ıv́ á ), rozhodně je ale pravdě podobnost sprá vné ho odhadu mnohem vyš šı́, než byla př ed zı́ská nı́m informace o použ ıv́ á nı́ rtě nky. Informace o rtě nce zvý šila pravdě podobnost sprá vné ho odhadu respondentova pohlavı́. Mů ž eme tedy ř ı́ci, ž e mezi promě nný mi pohlaví a používání rtěnky existuje souvislost.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

3.1. Postup při testování hypotéz 1. krok Př i testová nı́ hypoté z vž dy klademe proti sobě dvě hypoté zy (tvrzenı́), z nichž jedna ně co tvrdı́ (př edpoklá dá ), druhá to popı́rá . V klasické teorii testová nı́ se vychá zı́ z toho, ž e platı́ př edpoklá daná vlastnost zkoumaný ch ná hodný ch velič in. Tento př edpoklad se označ uje nulová (testovaná ) hypotéza ³⁵ a znač ı́ 𝐻 (nebo jenom 𝐻). Jelikož data jsou ná hodná a ná hoda mů ž e pracovat proti nám, nelze obvykle zá vě ry testová nı́ vyslovit s naprostou jistotou ³⁶. Proto se zá roveň př edem stanovı́ hladina významnosti (1 − 𝛼), což urč uje mı́ru rizika (pravdě podobnost) toho, ž e hypoté zu 𝐻 zamítneme, ačkoliv ve skutečnosti platí (omyl označ ovaný jako chyba prvního druhu — viz ná sledujı́cı́ tabulka). ROZHODNUTÍ SKUTEČNOST

𝐻 přijmeme

𝐻 zamítneme

𝐻 platí

správné rozhodnutí s pravdě podobnostı́ 1 − 𝛼 spolehlivost

chyba PRVNÍHO druhu s pravdě podobnostı́ 𝛼 hladina významnosti

chyba DRUHÉHO druhu s pravdě podobnostı́ 𝛽

správné rozhodnutí s pravdě podobnostı́ 1 − 𝛽 síla testu

𝐻 NEplatí

³⁵ Proč nulová viz [14, str. 182] — „Testujeme hypoté zu: Vš e zů stane př i staré m, nový postup (lé k, …) nenı́ ani lepš ı́, ani horš ı́ než starý. (Zde je také etymologický zá klad nulové hypotézy, která ř ı́ká , ž e změna se rovná nule.)“ ³⁶ Protož e př i rozhodová nı́ o nulové hypoté ze vychá zı́me z vý bě rové ho souboru, který nemusı́ dostateč ně př esně odpovı́dat vlastnostem zá kladnı́ho souboru, mů ž eme se př i rozhodová nı́ dopustit chyby.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Chyba prvního druhu 𝛼 se tradičně v ekonomické praxi (sociologii apod.) volí 0,05 a v technický ch oblastech stanovuje 0,05 nebo 0,01. Pouze ve speciá lnı́ch př ı́padech (lé kař ské ú č ely, kosmonautika, …) pož adavek na pravdě podobnost chyby I. druhu dá le stupň ujeme (volı́me ješ tě niž šı́ 𝛼). Chybu II. druhu 𝛽 snižujeme volbou vhodného testu (pokud má me mož nost vý bě ru z vı́ce testů , dá vá me př ednost takové mu testu, který má vě tš ı́ sı́lu testu (1 − 𝛽) př i stejné hladině vý znamnosti 𝛼) popřípadě zvětšením rozsahu výběrového souboru (což je jediný způ sob jak snı́žit 𝛽, aniž bychom tı́m zvý šili 𝛼 — bohuž el vš ak je rozsah vý bě ru té mě ř vž dy limitová n praktický ni omezenı́mi / př ı́liš né inanč nı́ nebo č asové ná klady, př ı́liš ná pracnost, př ı́padně fakt, ž e vý bě r je již proveden, nemohli jsme jej ovlivnit a nelze jej opakovat). Pravdě podobnost chyby II. druhu zá visı́ na př esné hodnotě alternativnı́ hypoté zy. Doká ž eme tedy urč it 𝛽 pro př ı́pad, ž e alternativnı́ hypoté za je př esně speci ikovaná . 2. krok Dá le se z dat vypoč ı́tá takzvané testovací kritérium, jehož rozdě lenı́ podmı́ně né př edpoklá danou platnostı́ nulové hypoté zy je zná mo. Vyjde-li hodnota testovacı́ho krité ria typická pro toto zná mé rozdě lenı́, nulovou hypoté zu akceptujeme č i př esně ji ř eč eno nezamítáme na zá kladě zná mý ch dat. Naopak vyjde-li hodnota extré mnı́, tedy v oblasti hodnot, do nı́ž realizace př edpoklá dané ho rozdě lenı́ padajı́ s pravdě podobnostı́ menš ı́ než 𝛼 (tj. hodnota testovacı́ho krité ria př ekroč ı́ kritickou mez), usoudı́me, ž e testovacı́ krité rium nejspı́še nepochá zı́ z př edpoklá dané ho rozdě lenı́ a nulovou hypoté zu zamı́tneme ve prospě ch opač né tzv. alternativnı́ hypoté zy, označ ované 𝐻 (nebo 𝐻,̄ nebo 𝐻 ). Vž dyť co se dě je př i př ejı́mce zbož ı́? • Odbě ratel vlastně testuje tuto svoji hypoté zu: Chtějí mne doběhnout, zboží je špatné. A rozhodne se pro př evzetı́ zbož ı́ pouze tehdy, je-li tato jeho hypoté za vyvrácena. Ideá lnı́ (v tomto př ı́padě z hlediska dodavatele) je vý sledek, ž e nulová hypoté za se zamítá ve prospě ch alternativnı́ hypoté zy. Statistické ově řová nı́ hypoté z nenı́ ve své podstatě nič ı́m jiný m než pokusem zamı́tnout nulovou hypoté zu. Tedy tvrzení, které chceme dokázat, volíme za alternativní hypotézu. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Proč nepoužíváme pojem „přijímáme nulovou hypotézu“? Testová nı́ hypoté z mů ž eme prová dě t rů zný mi způ soby. Př i kaž dé m z nich mů ž e bý t testovaná hypoté za zamı́tnuta. Nezamı́tneme-li ji, znamená to, ž e prová dě ný m testem jsme ji nemohli zamı́tnout. Nikoliv to, ž e je sprá vná . Je mož né , ž e ně jaký m jiný m testem se ji zamı́tnout podař ı́. Pokud použ ıv́ á me stá le př esně jš ı́ testy a stá le dochá zı́me ke stejné mu zá vě ru o nezamı́tnutı́ nulové hypoté zy, mů ž eme jednat tak, jako by nulová hypoté za byla sprá vná . Nikdy to vš ak nevı́me jistě . »Podobá se to dostihovému závodu s neomezeným trváním. Na každém skoku může kůň padnout, a tím by byl konec jeho závodění. Nepadne-li však, zbývá jen jedno — pokračovat v závodě.« (prof. Dr. Ragnar Frisch, nositel Nobelovy ceny za ekonomii) Př evzato z [3, str. 214] Vý sledkem testová nı́ platnosti ně jaké ho př edpokladu o vlastnosti zkoumané ho znaku tedy mohou bý t ná sledujı́cı́ dvě rozhodnutı́: • Neproká zali jsme ž ádný př esvě dč ivý dů vod pro zamı́tnutı́ nulové hypoté zy. • Hodnoty sledované ho znaku ve vý bě rové m souboru odporujı́ pů vodnı́mu př edpokladu natolik, ž e jej zamı́tá me ³⁷ a př ijı́má me alternativnı́ hypoté zu. Test statistické hypoté zy je ově řová nı́ uč ině ný ch př edpokladů o nezná mé vlastnosti rozlož enı́ ná hodné promě nné celé ho zá kladnı́ho statistické ho souboru pomocı́ ú dajů zı́skaný ch z ná hodné ho vý bě ru.

³⁷ Zamı́tneme-li nulovou hypoté zu, tak to neznamená , ž e tato hypozé za neplatı́ (viz chyby prvnı́ho a druhé ho druhu). Jen dá vá me najevo, ž e jı́ nedů vě řujeme na zá kladě vý sledků objektivnı́ho vyš etř ová nı́ ú dajů , které má me k dispozici.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Postup při klasickém testu (máme výběrový soubor): 1. Zformulujeme (testovanou) nulovou hypotézu 𝐻 nebo 𝐻 (př edstavuje tvrzenı́, ž e sledovaný efekt je nulový ), která se má ově řit. Bý vá vyjá dř ena rovnostı́ mezi testovaný m parametrem a jeho oč eká vanou hodnotou. Proti nı́ postavı́me alternativní hypotézu 𝐻̄ nebo 𝐻 př ı́padně 𝐻 , která vyjadř uje tu mož nost, se kterou najisto poč ı́tá me v př ı́padě , ž e testovaná nulová hypoté za neplatı́. Nulová hypoté za H bý vá stanovena jednoznač ně , např ı́klad 𝜇 = 55. Pro stanovenı́ alternativnı́ hypoté zy bý vá vı́ce mož nostı́, v naš em př ı́padě tř i: 𝜇 < 55, 𝜇 > 55 a 𝜇 ≠ 55. Obsahuje-li zadá nı́ problé mu vedoucı́ho na testová nı́ hypoté z vztah jednostranné nerovnosti, volı́ se jako alternativnı́ hypoté za př ı́sluš ná jednostranná hypoté za. V ostatnı́ch př ı́padech volı́me oboustrannou alternativnı́ hypoté zu. Alternativnı́ hypoté za by mě la bý t v souladu s vý bě rový m souborem. Pokud tomu tak nenı́, př izpů sobujeme alternativnı́ hypoté zu zá vě rů m zı́skaný m z vý bě rové ho souboru. 2. Zvolı́me hladinu významnosti (ú roveň , velikost) akceptovatelné chyby prvnı́ho druhu 𝛼. Potom č ı́slo 1 − 𝛼 urč uje koe icient spolehlivosti. Jiný mi slovy: Pravdě podobnost, ž e hodnota testové statistiky bude lež et v oblasti svě dč ı́cı́ pro zamı́tnutı́ nulové hypoté zy, př estož e je nulová hypoté za platná , má bý t rovna př edem zvolené hodnotě 𝛼. 3. Zvolı́me testové kritérium (testovou statistiku), tj. statistiku 𝐵 = 𝑓(𝑋 , 𝑋 , … , 𝑋 ), která má vztah k nulové hypoté ze a jejı́ž pozorovanou hodnotu (zı́skanou ze vzorku) označ ı́me b. Jde o funkci vý bě ru, která vyjadř uje sı́lu platnosti nulové hypoté zy ve srovná nı́ s hypoté zou alternativnı́. Pro dalš ı́ krok testu musı́me zná t rovně ž rozdě lenı́ testové statistiky př i platnosti nulové hypoté zy H (nulové rozdělení).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

4. Vypoč ı́tá me pozorovanou hodnotu b testové statistiky B z vý bě rové ho souboru. Př i tomto vý poč tu př edpoklá dá me platnost nulové hypoté zy. 5. Urč ı́me kritický obor (obor př ijetı́ hypoté zy) 𝑊 hodnot statistiky B, do nı́ž hodnoty 𝐵 za platnosti hypoté zy 𝐻 padnou s pravdě podobnostı́ 𝛼, tj. 𝑃(𝐵 ∈ 𝑊 |𝐻 ) = 𝛼. Jde o rozdě lenı́ prostoru vš ech mož ný ch hodnot testové statistiky S na dva podprostory: obor přijetí A obsahujı́cı́ hodnoty testové statistiky svě dč ı́cı́ pro nezamı́tnutı́ nulové hypoté zy a kritický obor C obsahujı́cı́ hodnoty testové statistiky svě dč ı́cı́ pro zamı́tnutı́ nulové hypoté zy. Je zř ejmé , ž e: 𝐴 ∪ 𝐶 = 𝑆; 𝐴 ∩ 𝐶 = ∅. Hranice mezi kritický m oborem a oborem př ijetı́ se nazý vá kritická hodnota testu. Zná me-li nulové rozdě lenı́ testové statistiky B nenı́ obtı́žné pro dané 𝛼 stanovit kritický obor: Je-li alternativní hypotéza ve tvaru <

(ve prospě ch alternativy svě dč ı́ extré mně nı́zké hodnoty testové statistiky), pak je kritický obor vymezen jako: 𝐶≤𝑊

>

(ve prospě ch alternativy svě dč ı́ extré mně vysoké hodnoty testové statistiky), pak je kritický obor vymezen jako: 𝑊 ≤𝐶

≠

(ve prospě ch alternativy svě dč ı́ nı́zké nebo vysoké hodnoty testové statistiky), ≤𝐶 pak je kritický obor vymezen jako: 𝐶≤𝑊 ∨ 𝑊

6. Formulujeme zá vě r: a) Lež ı́-li testová statistika b v kritickém oboru C (𝑏 ∈ 𝐶), pak zamítáme nulovou hypotézu ve prospěch alternativní hypotézy; b) Lež ı́-li testová statistika b v oboru přijetí (nelež ı́ v kritické m oboru ⇒ 𝑏 ∉ 𝐶), pak nulovou hypotézu NEzamítáme. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Jestliž e vý sledek testová nı́ umož ňuje zá vě r, ž e testová statistika je např ı́klad mimo 95% kon idenč nı́ interval (koe icient spolehlivosti) testované nulové hypoté zy, mohu si bý t na „95 % jist“, ž e hypoté za nenı́ sprá vná . Tı́m se pě t dostá vá me k naš emu dř ıv́ ě jš ı́mu zjiš tě nı́, ž e hypotéza nemůže být přímo dokázána, nýbrž může být jen zamítnuta jí odporující (nulová ) hypotéza. V praxi ově řová nı́ hypoté z jde tedy vě tš inou o použ ıv́ á nı́ takové sestavy testu (př edevš ı́m volby vý bě rové ho souboru), aby zamý šlené ú rovně odmı́tnutı́ bylo pokud mož no př esně dosaž eno. Jinak vznikajı́ zbyteč né ná klady. Př i testová nı́ statistický ch hypoté z se mů ž eme dopustit ně kolika chyb: 1. Volba nevhodné dvojice hypoté z (nulová hypoté za versus alternativnı́). K té to chybě dochá zı́, pokud si dů kladně nerozmyslı́me, co vlastně chceme testovat. Dů lež itý je př edevš ı́m vý bě r vhodné alternativy (jednostranná , dvoustranná ). 2. Chybně urč ená testová statistika. 3. Chybně urč ený obor př ijetı́ nebo kritický obor. 4. Chyby př i rozhodová nı́ (již dř ıv́ e diskutované chyby prvnı́ho a druhé ho druhu). Prvnı́ tř i uvedené chyby lze eliminovat dobrou př ı́pravou testu. Jde tedy o chyby, které lze ovlivnit, př ı́padně jim zcela zabrá nit. Jiný mi slovy: „I při testování hypotéz platí pravidlo dvakrát měř a jednou řež.“ [3, str. 212] I sebelé pe př ipravený test vš ak nemusı́ vé st ke sprá vný m rozhodnutı́m, neboť využ ıv́ á pouze omezené informace ná hodné ho vý bě ru. Mů ž e se stá t, ž e ná hodný vý bě r nebude dostateč ně kopı́rovat vlastnosti zá kladnı́ho souboru a př i rozhodová nı́ bude zvolena opač ná hypoté za, než odpovı́dá skuteč nosti. A jsme opě t u již zná mý ch chyb prvního a druhého druhu.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pamatujte si, ž e ³⁸: Hladina významnos (chyba I. druhu, statistická vý znamnost) je pravděpodobnost, s jakou bychom — za předpokladu pravdivosti nulové hypotézy — mohli obdržet data odporující nulové hypotéze stejně či ještě více než pozorovaná data. (str. 80) Síla testu je pravděpodobnost (hodnota pohybujı́cı́ se mezi 0 a 1) správného přijetí alternativní hypotézy za předpokladu, že je tato v základním souboru platná. (str. 90)

Castou statistickou ú lohou je rozhodnout, zda nezná mý parametr rozdě lenı́ populace (nejč astě ji stř ednı́ hodnota, rozptyl nebo relativnı́ č etnost) je roven ně jaké konkré tnı́ č ı́selné hodnotě, př ı́padně zda je nezná mý parametr rozdě lenı́ populace vě tš ı́ č i menš ı́ než ně jaká konkré tnı́ č ı́selná hodnota. Rozhodovacı́ proces, který je pro ř eš enı́ tě chto ú loh použ ıv́ á n, bý vá označ ová n jako jednový bě rový test. Jak lze z celé ho př edchozı́ho povı́dá nı́ usoudit, střední hodnota je zá kladnı́ charakteristikou kaž dé ho statistické ho znaku. Nenı́ proto divu, ž e vě tš ina vý bě rový ch š etř enı́ se zabý vá prá vě zkoumá nı́m té to velič iny. Odhady a testy prů mě rný ch př ı́jmů , prů mě rný ch vý konů , prů mě rné ž ivotnosti vý robku, stř ednı́ hmotnosti vý robku, atd. jsou nejbě žně jš ı́mi ú lohami statistiky.

Nejpoužívanější parametrické testy Parametrický mi testy prově řujeme hypoté zy o parametrech zá kladnı́ho souboru a oceň ujeme rozdı́ly mezi teoretický mi (které má zá kladnı́ soubor) a empirický mi (vypoč tený mi ze vzorku) charakteristikami. K jejich odvozenı́ je nutné pro daný vý bě r speci ikovat typ rozdě lenı́ a v ně který ch př ı́padech i ně které parametry tohoto rozdě lenı́. ³⁸ SOUKUP, Petr. Nesprá vná už ıv́ á nı́ statistické vý znamnosti a jejich mož ná ř eš enı́. In: Data a výzkum — SDA Info [online]. 2010, roč . 4, č ı́s. 2 [cit. 25. 6. 2013], str. 80 a str. 90. ISSN 1802–8152.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Test o střední hodnotě normálního rozdělení Př edpoklá dejme, ž e má me normálně rozdělenou populaci (zá kladnı́ soubor) s neznámou stř ednı́ hodnotou 𝜇 a neznámým rozptylem 𝜎 . Na zá kladě vý bě ru 𝑋 , 𝑋 , … , 𝑋 z dané populace chceme ově řit př edpoklad, jestli se stř ednı́ hodnota populace 𝜇 rovná hodnotě 𝜇 . Nezná mou stř ednı́ hodnotu 𝜇 odhadneme vý bě rový m aritmetický m prů mě rem 𝑥̄ , který urč ı́me z pozorovaný ch vý bě rový ch hodnot 𝑥 , 𝑥 , … , 𝑥 . Je zř ejmé , ž e vypoč tená (𝑥̄ ) a př edpoklá daná stř ednı́ hodnota (𝜇 ) se mohou od sebe liš it. Rozdı́l mů ž e bý t pouze nevý znamný a lze ho př ič ı́st ú č inku ná hodný ch vlivů , pů sobı́cı́ch př i vý bě ru. Tento rozdı́l vš ak mů ž e bý t i nená hodný (ř ı́ká me také statisticky vý znamný nebo signi ikantnı́). Test o stř ednı́ hodnotě tak př edstavuje ově řenı́, zda se vý bě rový aritmetický prů mě r 𝑥̄ a př edpoklá daná stř ednı́ hodnota 𝜇 liš ı́ statisticky vý znamně nebo pouze ná hodně . Nulovou hypoté zu H volı́me ve tvaru 𝜇 = 𝜇 . Zatı́mco volba nulové hypoté zy je zř ejmá , u alternativnı́ hypoté zy 𝐻 mů ž eme volit ze tř ı́ mož nostı́: 𝜇 < 𝜇 , 𝜇 > 𝜇 , 𝜇 ≠ 𝜇 . Tedy, když to vč etně testové ho krité ria a oboru př ijetı́ hypoté zy shrneme: Parametrický test o střední hodnotě normálního rozdělení Př edpoklad: Hypoté za 𝐻 : Hypoté za 𝐻 : Testové krité rium:

{𝑋 , 𝑋 , … , 𝑋 } je ná hodný vý bě r z 𝑁(𝜇; 𝜎 ) 𝜇 = 𝜇 , kde 𝜇 je dané č ı́slo 𝜇<𝜇 𝜇≠𝜇 (𝑥̄ − 𝜇 ) 𝑇= ⋅ √𝑛 𝑆

Obor př ijetı́ hypoté zy: 𝐼 = ⟨−𝑡

(𝑛 − 1) ; ∞) 𝐼 = −𝑡


Př edmluva

Literatura

Zá vě r

𝜇>𝜇

𝐼 = (−∞ ; 𝑡 (𝑛 − 1); 𝑡

(𝑛 − 1)⟩

(𝑛 − 1)


Pravdě podobnost



Regrese, korelace


Casové ř ady

kde T má Studentovo rozdělení s n – 1 stupni volnosti a t je kvantil Studentova rozdělení, který najdeme ve statistický ch tabulká ch, nebo pro oboustrannou (č ervenou) alternativu pomocı́ Excelu 2010 =T.INV.2T(𝛼; 𝑛−1) Např ı́klad na vedlejš ı́m obrá zku je hodnota kvantilu t pro 𝛼 = 5 % a (𝑛 − 1) = 16. Př edpoklad, ž e vý bě r pochá zı́ z normá lnı́ho rozdě lenı́ 𝑁(𝜇; 𝜎 ), nemusı́ bý t za kaž dou cenu dodrž en. Test totiž pracuje s prů mě rem vý bě ru, a tento vý bě r již př i rozsahu v ř ádu desı́tek má př ibliž ně normá lnı́ rozdě lenı́ dı́ky centrá lnı́ limitnı́ vě tě . Proto pokud je rozsah vý bě ru velký (v ř ádu stovek a vı́c), lze mı́sto kritický ch hodnot Studentova rozdě lenı́ použ ı́t kritické hodnoty normá lnı́ho rozdě lenı́. Příklad: Podle ú dajů na obalu ³⁹ č okolá dy by jejı́ č istá hmotnost mě la bý t 125 g. Vý robce dostal ně kolik stı́žnostı́, ž e hmotnost prodaný ch č okolá d byla niž šı́. Z tohoto dů vodu oddě lenı́ kontroly ná hodně vybralo 50 č okolá d urč ený ch k expedici a zjistilo, ž e jejich prů mě rná hmotnost je 122 g a smě rodatná odchylka č inı́ 8,6 g. Za př edpokladu, ž e hmotnost č okolá d se ř ı́dı́ normálním rozložením, mů ž eme na hladině vý znamnosti 0,01 považ ovat stı́žnosti spotř ebitelů za oprá vně né ? Řešení: Použ ijeme parametrický test o stř ednı́ hodnotě normá lnı́ho rozdě lenı́, kdy testujeme nulovou hypotézu 𝐻 ∶ 𝜇 = 125 proti levostranné alternativě 𝐻 ∶ 𝜇 < 125 s (černě stanovený m) oborem přijetí hypotézy 𝐼 = ⟨−𝑡 , (50 − 1) ; ∞) = ⟨−𝑡 , (49) ; ∞) ≐ ⟨−2,405 ; ∞) kde 𝑡 , (49) urč ı́me pro levostrannou alternativu pomocı́ Excelu 2010 takto: =T.INV(0,99;49) Testové kritérium: 𝑇 =

(𝑥̄ − 𝜇 ) 122 − 125 ⋅ √𝑛 = ⋅ √50 ≐ −2,467 𝑆 8,6

⟹

𝑇∉𝐼

Závěr: Protož e hodnota testové ho krité ria nespadá do oboru př ijetı́ hypoté zy na hladině vý znamnosti 1 %, mů ž eme usoudit, ž e stı́žnosti spotř ebitelů jsou oprá vně né (dostá vajı́ mé ně č okolá dy). ³⁹ Řezáč, M., Budíková, M. Statistika II. Brno : Masarykova univerzita 2013, str. 142 Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Test o rozptylu normálního rozdělení Př edpoklá dejme, ž e má me normálně rozdělenou populaci (zá kladnı́ soubor) s neznámou stř ednı́ hodnotou 𝜇 a neznámým rozptylem 𝜎 . Na zá kladě vý bě ru 𝑋 , 𝑋 , … , 𝑋 z dané populace chceme ově řit př edpoklad, jestli se rozptyl populace 𝜎 rovná hodnotě 𝜎 . Nezná mý rozptyl 𝜎 odhadneme vý bě rový m rozptylem 𝑆 , který urč ı́me z pozorovaný ch vý bě rový ch hodnot 𝑥 , 𝑥 , … , 𝑥 . Je zř ejmé , ž e se vypoč tený vý bě rový rozptyl (𝑆 ) a př edpoklá daná hodnota rozptylu (𝜎 ) mohou od sebe liš it. A to statisticky vý znamně nebo pouze ná hodně . Parametrický test o rozptylu normálního rozdělení Př edpoklad: Hypoté za 𝐻 : Hypoté za 𝐻 :

{𝑋 , 𝑋 , … , 𝑋 } je ná hodný vý bě r z 𝑁(𝜇; 𝜎 ) 𝜎 = 𝜎 , kde 𝜎 je dané č ı́slo 𝜎 ≠𝜎

Testové krité rium:

𝑇=

Obor př ijetı́ hypoté zy: 𝐼 =

𝑆 ⋅ (𝑛 − 1) 𝜎 (𝑛 − 1) ⋅ 𝑆 (𝑛 − 1) ⋅ 𝑆 ; 𝜒 (𝑛 − 1) 𝜒 (𝑛 − 1)

kde T má rozdělení „CHÍ kvadrát“ s n – 1 stupni volnosti a 𝜒 je kvantil rozdě lenı́ chı́ kvadrá t (ně kdy té ž Pearsonovo rozdělení), který najdeme ve statistický ch tabulká ch, nebo pomocı́ Excelu 2010: =CHISQ.INV.RT(𝛼; 𝑛 − 1) Např ı́klad na vedlejš ı́m obrá zku je hodnota kvantilu 𝜒 pro 𝛼 = 1 % a (𝑛 − 1) = 5. Pro tvary dalš ı́ch testový ch krité riı́ a způ soby urč enı́ intervalu spolehlivosti odkazujeme zá jemce na př ı́sluš nou literaturu. Vybrané statistické tabulky Př edmluva Literatura Zá vě r •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady

Nejpoužívanější testy shody (přiléhavos ): Domně nka o tom, ž e studovaná data (vý bě r) pochá zejı́ z urč ité ho teoretické ho (oč eká vané ho) rozdě lenı́, bý vá podlož ena buď informacemi o sledované m jevu, nebo odhadem teoretické ho rozdě lenı́ na zá kladě gra ické ho zobrazenı́ vý bě rové ho rozdě lenı́. Ná š odhad vš ak nemusı́ bý t sprá vný. Proto jej v praxi ově ř ujeme testy shody, zda se shoduje teoretické (oč eká vané , př edpoklá dané ) a empirické (pozorované , vý bě rové ) rozdě lenı́. Nulovou (𝐻 nebo 𝐻 ) a alternativnı́ (𝐻̄ nebo 𝐻 , 𝐻 ) hypoté zu mů ž eme v tomto př ı́padě formulovat: 𝐻 — teoretické a empirické rozdě lenı́ se shoduje. 𝐻 — teoretické a empirické rozdě lenı́ se NEshoduje.

𝜒2 („chí kvadrát“ – Pearsonův) jednovýběrový test dobré shody – absolutní četnos Nejzná mě jš ı́ z testů dobré shody ově řuje, zda se empirické (pozorované ) absolutnı́ č etnosti 𝑂 (anglicky „observed“) jednotlivý ch variant ná hodné velič iny shodujı́ s oč eká vaný mi absolutnı́mi č etnostmi 𝐸 (angl. „expected“). Tedy s č etnostmi, které bychom oč eká vali v př ı́padě platnosti nulové hypoté zy. Hypoté za 𝐻 : Hypoté za 𝐻 :

testovaný výběr pochá zı́ z teoretického rozdělení (znač ı́me stříškou) ná hodný vý bě r n prvků pochá zı́ z jiného rozdě lenı́

Testové krité rium: 𝜒 = Obor př ijetı́ hypoté zy: Vybrané statistické tabulky

(𝑛 − 𝑛̂ ) = 𝑛̂

𝐼 = ⟨0 ; 𝜒 Př edmluva

𝑛 −𝑛 𝑛̂

což je souč et č tverců rozdı́lů skuteč ný ch a oč eká vaný ch č etnostı́ vá ž ený ch oč eká vaný mi (teoretický mi) č etnostmi

(𝑘 − 1 − 𝐿)⟩

Literatura

Zá vě r


Pravdě podobnost

kde 𝑘 𝑛 𝑛̂

𝐿



Regrese, korelace


Casové ř ady

poč et tříd, na které byl rozdě len interval pozorovaný ch hodnot ná hodné promě nné ; pozorovaná (zjiš tě ná na zá kladě pokusu) tř ı́dnı́ č etnost intervalu ⟨𝑎 ; 𝑏 ⟩, teoretická (to co oč eká vá me, platı́-li H ) č etnost intervalu ⟨𝑎 ; 𝑏 ⟩: 𝑛̂ = 𝑛 ⋅ 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ). Nenı́-li splně na podmı́nka na velikost vý bě ru: 𝑛̂ > 5 — buď vý bě r rozš ı́řı́me tak, aby podmı́nka byla splně na — nebo tř ı́dy s malou č etnostı́ sdruž ujeme (tý ká se to zpravidla krajnı́ch tř ı́d); poč et stupňů volnosti, tj. nezná mý ch parametrů (modus, rozptyl, …) teoretické ho rozdě lenı́, které je nutno (z hodnot vý bě ru) poč ı́tat. Pro 𝑁(𝜇, 𝜎 ) je 𝐿 = 2, …

Kolmogorovův–Smirnovův jednovýběrový test – kumula

vní četnos

Použ ıv́ á me jej př i hodnocenı́ rozdı́lů mezi kumulativními četnostmi. Toto je jedna z variant testů autorů Andreje Nikolajevič e Kolmogorova a Vladimira Ivanovič e Smirnova, která ově řuje, zda se rozdě lenı́ ná hodné velič iny v populaci liš ı́ od urč ité ho teoretické ho rozdě lenı́. Nulová hypoté za:

testovaný výběr pochá zı́ z teoretického rozdělení (znač ı́me stříškou)

Alternativnı́ hypoté za:

ná hodný vý bě r n prvků pochá zı́ z jiného rozdě lenı́

Testové krité rium:

𝐷(𝑋) =

Obor př ijetı́ hypoté zy: 𝐷

% (𝑛)

≐

1,07 √𝑛


𝐷

1 ⋅ max |𝑁 − 𝑁̂ | kde 𝑁 a 𝑁̂ jsou kumulativnı́ č etnosti 𝑛 ∀ 𝐼 = ⟨0; 𝐷 (𝑛)⟩ kde, 𝐷 (𝑛) je tabelová na a pro 𝑛 > 40 pak platı́: % (𝑛)

Př edmluva

1,22 √𝑛

𝐷

Literatura

Zá vě r

≐

% (𝑛)

≐

1,36 √𝑛

𝐷

% (𝑛)

≐

1,52 √𝑛

𝐷

% (𝑛)

≐

1,63 √𝑛


Pravdě podobnost



Regrese, korelace


Casové ř ady

Vstupem té to varianty testu je k tř ı́d testované ho vý bě ru a př edpoklá dané (např ı́klad normá lnı́) teoretické rozdě lenı́, které se rozdě lı́ do stejné ho poč tu tř ı́d. Pro kaž dou tř ı́du i (𝑖 = 1, … , 𝑘) testované ho vý bě ru se spoč ı́tajı́ četnosti a pro kaž dou tř ı́du teoretické ho rozdě lenı́ se spoč ı́tajı́ př edpoklá dané č etnosti

𝑛 zjiš tě né ve vý bě ru 𝑛̂ .

Dá le spoč ı́tá me 𝑁 = ∑ 𝑛

kumulativní četnosti pro vý bě r

a pro testované rozdě lenı́

𝑁̂ = ∑ 𝑛̂ .

⟨http://mi21.vsb.cz/flash-animace/kolmogorovuv-smirnovuv-test-reseny-priklad⟩ Pokud má me k dispozici pouze vý bě r malé ho rozsahu, dá vá me př i ově řová nı́ dobré shody mezi empirický m a teoretický m rozdě lenı́m př ednost tomuto testu př ed př edchozı́m testem. Vý hody Kolmogorovova – Smirnovova testu oproti Pearsonovu testu dobré shody [8, str. 348]: • vě tš ı́ sı́la testu (1 − 𝛽) ; • nemá omezujı́cı́ podmı́nky; • pokud navı́c použ ijeme jinou variantu testu (než jsme si uvedli), která pracuje př ı́mo s distribuč nı́mi funkcemi vý bě ru a př edpoklá dané ho rozdě lenı́ (namı́sto jejich kumulativnı́ch č etnostı́), tedy vychá zı́ z jednotlivý ch pozorová nı́ a nikoliv z ú dajů setř ı́dě ný ch do skupin, lze ji použ ı́t i na vý bě ry skuteč ně malé ho rozsahu a nedochá zı́ ke ztrá tě informace obsaž ené ve vý bě ru.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad: 𝜒2 – Test dobré shody Př i opakované m há zenı́ kostkou (60 hodů ) padla jednič ka 7×, dvojka 9×, trojka 10×, č tyř ka 6×, pě tka 15× a š estka 13×. Ptá me se, zda je kostka regulé rnı́ (fé rová ) č i zda je faleš ná (upravená , cinknutá ), a to na hladině vý znamnosti 0,01 (= 1 %). Řešení: Hracı́ kostka je „v poř ádku“, když je pravdě podobnost padnutı́ kaž dé ho č ı́sla na kostce stejná . Nebo jinak: kaž dé ze š esti č ı́sel bude mı́t shodné zastoupenı́ př i vě tš ı́m poč tu pokusů . Př i 60 pokusech ⇒ 60 ∶ 6 = 10. Budeme tedy testovat, zda rozdě lenı́ „poč tu padlý ch ok“ je takové , ž e má stejné pravdě podobnosti pro vš echny mož né varianty. Jestliž e lze zá kladnı́ soubor (ze které ho pochá zı́ vý bě r, který má me k dispozici) roztř ı́dit podle ně jaké ho znaku do 𝑘 disjunktnı́ch skupin a my chceme na zá kladě ná hodné ho vý bě ru ově řit, zda jsou relativnı́ č etnosti jednotlivý ch variant rovny č ı́slů m 𝜋 , … , 𝜋 , mů ž eme použ ı́t 𝜒 – test dobré shody (Pearsonů v). Volba nulové a alterna vní hypotézy 𝐻 : Kostka je v pořádku, když vý bě r pochá zı́ ze zá kladnı́ho souboru, kde jsou pravdě podobnosti jednotlivý ch variant rovny . 𝐻 : Kostka nenı́ v poř ádku (je „falešná“), když platı́ cokoliv jiné ho. Testové kritérium Jako testové krité rium použ ıv́ á me ná hodnou velič inu 𝑇(𝑋) = 𝜒 =

(𝑛 − 𝑛̂ ) = 𝑛̂

(𝑂 − 𝐸 ) , 𝐸

která má za př edpokladu, ž e prová dı́me dostatečně velký výběr (kaž dá tř ı́da má aspoň pět prvků ), př ibliž ně 𝜒 rozdě lenı́ s 𝑘 − 1 stupni volnosti. My oč eká vá me v kaž dé tř ı́dě deset prvků . Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

60 hodů — jednič ka 7×, dvojka 9×, trojka 10×, č tyř ka 6×, pě tka 15× a š estka 13×; 𝛼 = 0,01. Prvnı́ sloupec označ uje č ı́slo ř ádku – index i. Do druhé ho sloupce tabulky zapı́šeme č ı́slo, které padlo, do tř etı́ho 𝑛 kolikrá t padlo (pozorovaná č etnost) a do č tvrté ho 𝑛̂ teoretickou (oč eká vanou) č etnost. index ř ádek i 1 2 3 4 5 6

tř ı́da

𝑛

𝑛̂

𝑛 − 𝑛̂

(𝑛 − 𝑛̂ ) 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

−3 −1 0 −4 5 3

0,9 0,1 0 1,6 2,5 0,9 ∑


Př edmluva

Literatura

Zá vě r

𝑇(𝑋) =

(𝑛 − 𝑛̂ ) =6 𝑛̂

Protož e ž ádný parametr (modus, rozptyl, …) nepoč ı́tá me, za L dosazujeme nulu.

6


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑛

𝑛̂

𝑛 − 𝑛̂

(𝑛 − 𝑛̂ ) 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

−3 −1 0 −4 5 3

0,9 0,1 0 1,6 2,5 0,9 ∑


Př edmluva

Literatura

Zá vě r

𝑇(𝑋) =

(𝑛 − 𝑛̂ ) =6 𝑛̂


6


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑛

𝑛̂

𝑛 − 𝑛̂

(𝑛 − 𝑛̂ ) 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

−3 −1 0 −4 5 3

0,9 0,1 0 1,6 2,5 0,9 ∑


Př edmluva

Literatura

Zá vě r

𝑇(𝑋) =

(𝑛 − 𝑛̂ ) =6 𝑛̂


6


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑛

𝑛̂

𝑛 − 𝑛̂

(𝑛 − 𝑛̂ ) 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

−3 −1 0 −4 5 3

0,9 0,1 0 1,6 2,5 0,9 ∑


Př edmluva

Literatura

Zá vě r

𝑇(𝑋) =

(𝑛 − 𝑛̂ ) =6 𝑛̂


6


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑛

𝑛̂

𝑛 − 𝑛̂

(𝑛 − 𝑛̂ ) 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

−3 −1 0 −4 5 3

0,9 0,1 0 1,6 2,5 0,9 ∑


Př edmluva

Literatura

Zá vě r

𝑇(𝑋) =

(𝑛 − 𝑛̂ ) =6 𝑛̂


6


Pravdě podobnost



Regrese, korelace


Casové ř ady


tř ı́da

𝑛

𝑛̂

𝑛 − 𝑛̂

(𝑛 − 𝑛̂ ) 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

−3 −1 0 −4 5 3

0,9 0,1 0 1,6 2,5 0,9 ∑


Př edmluva

Literatura

Zá vě r

𝑇(𝑋) =

(𝑛 − 𝑛̂ ) =6 𝑛̂


6


Pravdě podobnost



Regrese, korelace


Casové ř ady

60 hodů — jednič ka 7×, dvojka 9×, trojka 10×, č tyř ka 6×, pě tka 15× a š estka 13×; 𝛼 = 0,01. Prvnı́ sloupec označ uje č ı́slo ř ádku – index i. Do druhé ho sloupce tabulky zapı́šeme č ı́slo, které padlo, do tř etı́ho 𝑛 kolikrá t padlo (pozorovaná č etnost) a do č tvrté ho 𝑛̂ teoretickou (oč eká vanou) č etnost. index ř ádek i

tř ı́da

1 2 3 4 5 6

𝑛

𝑛̂

𝑛 − 𝑛̂

(𝑛 − 𝑛̂ ) 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

−3 −1 0 −4 5 3

0,9 0,1 0 1,6 2,5 0,9 ∑

𝑇(𝑋) =

(𝑛 − 𝑛̂ ) =6 𝑛̂


6

Je zř ejmé , ž e č ı́m vě tš ı́ jsou odchylky pozorovaný ch a oč eká vaný ch č etnostı́, tı́m vyš šı́ pozorovanou hodnotu testové statistiky 𝑇(𝑋) dostá vá me a tı́m silně jš ı́ je vý pově ď vů č i nulové hypoté ze. Kri cký obor pro přije nulové hypotézy je: 𝐼 = ⟨0 ; 𝜒 𝜒

,

(6 − 1 − 0) = 𝜒

Pro stanovenı́ hodnoty 𝜒

,

,

(5) ≐ 15,086

⟹

𝐼

(𝑘 − 1 − 𝐿)⟩ ,

= ⟨0 ; 15,086⟩

(5) využ ijeme Excel 2010: =CHISQ.INV.RT(𝛼;n)

Závěr: Protož e v naš em př ı́padě 𝑇(𝑋) ∈ 𝐼

,

, nezamítáme nulovou hypoté zu.

Nelze tedy tvrdit, že kostka je falešná. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

A teď si na stejné m př ı́kladu zkusme otestovat př edpoklad o „NEfalešnosti“ kostky druhý m z testů .

Příklad: Kolmogorovův–Smirnovův jednovýběrový test shody Př i opakované m há zenı́ kostkou (60 hodů ) padla jednič ka 7×, dvojka 9×, trojka 10×, č tyř ka 6×, pě tka 15× a š estka 13×. Ptá me se zda je kostka regulé rnı́ (fé rová ) č i zda je faleš ná (upravená , cinknutá ), a to na hladině vý znamnosti 0,01 (= 1 %). Řešení: Odsud: / Hracı́ kostka je „v poř ádku“, když je pravdě podobnost padnutı́ kaž dé ho č ı́sla na kostce stejná . Nebo jinak: kaž dé ze š esti č ı́sel bude mı́t shodné zastoupenı́ př i vě tš ı́m poč tu pokusů . Př i 60 pokusech ⇒ 60 ∶ 6 = 10. Budeme tedy testovat, zda rozdě lenı́ „poč tu padlý ch ok“ je takové , ž e má stejné pravdě podobnosti pro vš echny mož né varianty. Jestliž e lze zá kladnı́ soubor (ze které ho pochá zı́ vý bě r, který má me k dispozici) roztř ı́dit podle ně jaké ho znaku do 𝑘 disjunktnı́ch skupin … , mů ž eme použ ı́t Kolmogorovův–Smirnovův test. / až sem (kromě ná zvu použ ité ho testu) je to naprosto shodné s př edchozı́m testem, a to vč etně volby hypoté z. Liš it se bude až testové krité rium. Volba nulové a alterna vní hypotézy 𝐻 : Kostka je v pořádku, když vý bě r pochá zı́ ze zá kladnı́ho souboru, kde jsou pravdě podobnosti jednotlivý ch variant rovny . 𝐻 : Kostka nenı́ v poř ádku (je „falešná“), když platı́ cokoliv jiné ho. Testové kritérium Jako testové krité rium použ ıv́ á me ná hodnou velič inu 1 𝐷(𝑋) = ⋅ max |𝑁 − 𝑁̂ | 𝑛 ∀ Pozorované i př edpoklá dané č etnosti (vč etně jejich kumulativnı́ch č etnostı́) zase zapı́šeme do tabulky. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

60 hodů — jednič ka 7×, dvojka 9×, trojka 10×, č tyř ka 6×, pě tka 15× a š estka 13×; 𝛼 = 0,01.

i 1 2 3 4 5 6

tř. i

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

|𝑁 − 𝑁̂ | 𝑛

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

0, 050 = |7 − 10| ∶ 60 0, 067 0, 067 0,133 0, 050 0 = |60 − 60| ∶ 60

60 hodů ⟹ n = 60

𝐷(𝑋) = max ∀

|𝑁 − 𝑁̂ | = 0,133 𝑛

První sloupec je č ı́slo ř ádku, nebo-li index. Do druhého sloupce tabulky zapı́šeme č ı́slo, které padlo. Zá roveň to bude př edstavovat tř ı́du i. Do třetího sloupce označ ené ho 𝑛 kolikrá t padlo (pozorovaná četnost) toto č ı́slo. Do čtvrtého sloupce označ ené ho 𝑛̂ teoretickou (tu, kterou oč eká vá me) č etnost. V pátém sloupci označ ené m 𝑁 jsou kumulativní pozorované č etnosti. Tedy např ı́klad ve druhé m ř ádku je č etnost vý sledků , ž e padlo č ı́slo menš ı́ nebo rovno 2. Jinak ř eč eno, kolikrá t padla jednička nebo dvojka. A v šestém sloupci jsou kumulativní př edpoklá dané č etnosti. Do sedmého sloupce zapı́šeme hodnoty testové ho krité ria pro kaž dou tř ı́du.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


i 1 2 3 4 5 6

tř. i

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

|𝑁 − 𝑁̂ | 𝑛

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

0, 050 = |7 − 10| ∶ 60 0, 067 0, 067 0,133 0, 050 0 = |60 − 60| ∶ 60

60 hodů ⟹ n = 60


|𝑁 − 𝑁̂ | = 0,133 𝑛



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


i 1 2 3 4 5 6

tř. i

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

|𝑁 − 𝑁̂ | 𝑛

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

0, 050 = |7 − 10| ∶ 60 0, 067 0, 067 0,133 0, 050 0 = |60 − 60| ∶ 60

60 hodů ⟹ n = 60


|𝑁 − 𝑁̂ | = 0,133 𝑛



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


i 1 2 3 4 5 6

tř. i

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

|𝑁 − 𝑁̂ | 𝑛

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

0, 050 = |7 − 10| ∶ 60 0, 067 0, 067 0,133 0, 050 0 = |60 − 60| ∶ 60

60 hodů ⟹ n = 60


|𝑁 − 𝑁̂ | = 0,133 𝑛



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


i 1 2 3 4 5 6

tř. i

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

|𝑁 − 𝑁̂ | 𝑛

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

0, 050 = |7 − 10| ∶ 60 0, 067 0, 067 0,133 0, 050 0 = |60 − 60| ∶ 60

60 hodů ⟹ n = 60


|𝑁 − 𝑁̂ | = 0,133 𝑛



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


i 1 2 3 4 5 6

tř. i

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

|𝑁 − 𝑁̂ | 𝑛

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

0, 050 = |7 − 10| ∶ 60 0, 067 0, 067 0,133 0, 050 0 = |60 − 60| ∶ 60

60 hodů ⟹ n = 60


|𝑁 − 𝑁̂ | = 0,133 𝑛



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


i 1 2 3 4 5 6

tř. i

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

|𝑁 − 𝑁̂ | 𝑛

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

0, 050 = |7 − 10| ∶ 60 0, 067 0, 067 0,133 0, 050 0 = |60 − 60| ∶ 60

60 hodů ⟹ n = 60


|𝑁 − 𝑁̂ | = 0,133 𝑛

První sloupec je č ı́slo ř ádku, nebo-li index. Do druhého sloupce tabulky zapı́šeme č ı́slo, které padlo. Zá roveň to bude př edstavovat tř ı́du i. Do třetího sloupce označ ené ho 𝑛 kolikrá t padlo (pozorovaná četnost) toto č ı́slo. Do čtvrtého sloupce označ ené ho 𝑛̂ teoretickou (tu, kterou oč eká vá me) č etnost. V pátém sloupci označ ené m 𝑁 jsou kumulativní pozorované č etnosti. Tedy např ı́klad ve druhé m ř ádku je č etnost vý sledků , ž e padlo č ı́slo menš ı́ nebo rovno 2. Jinak ř eč eno, kolikrá t padla jednička nebo dvojka. A v šestém sloupci jsou kumulativní př edpoklá dané č etnosti. Do sedmého sloupce zapı́šeme hodnoty testové ho krité ria pro kaž dou tř ı́du. Pokud nechceme zbyteč ně š estkrá t dě lit, mů ž eme tabulku vyplnit ná sledovně :


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

60 hodů (n) — jednič ka 7×, dvojka 9×, trojka 10×, č tyř ka 6×, pě tka 15× a š estka 13×; 𝛼 = 0,01. index

tř ı́da i

1 2 3 4 5 6 𝑛 𝑛̂ 𝑁 𝑁̂

𝑛

𝑛̂

𝑁 = ∑ 𝑛

𝑁̂ = ∑ 𝑛̂

7 9 10 6 15 13

10 10 10 10 10 10

7 =7 16 =7+9 26 =7+9+10 32 =7+9+10+6 47 =7+9+10+6+15 60 =7+9+10+6+15+13

10 =10 20 =10+10 30 =10+10+10 40 =10+10+10+10 50 =10+10+10+10+10 60 =10+10+10+10+10+10

…pozorovaná č etnost …oč eká vaná (teoretická ) č etnost …kumulativnı́ pozorovaná č etnost …kumulativnı́ teoretická č etnost

Testové kritérium: 𝐷(𝑋) =

|𝑁 − 𝑁̂ | 3 4 4 8 3 0

= |7 − 10| = |16 − 20| = |26 − 30| = |32 − 40| = |47 − 50| = |60 − 60|

60 hodů ⟹ n = 60

1 1 ⋅ max |𝑁 − 𝑁̂ | = ⋅ 8 ≐ 0,133 𝑛 ∀ 60

Kri cký obor pro přije nulové hypotézy je: 𝐼 = ⟨0 ; 𝐷 (𝑛)⟩ ≐ ⟨0 ; 0,210⟩ , 𝐷 Závěr: Protož e v naš em př ı́padě 𝐷(𝑋) ∈ 𝐼

,

,

(60) ≐

1,63 √60

, nezamítáme nulovou hypoté zu.

Na hladině významnosti 1 % nelze tvrdit, že kostka je falešná. Dokonce ani na hladině vý znamnosti 20 %, protož e 𝐷

% (60)



Př edmluva

Literatura

Zá vě r

≐ 0,138.

Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad K dispozici má me ná sledujı́cı́ datový vzorek, který již byl dř ıv́ e zpracová n ve formě vodorovné tabulky (data vzorku jsme zař adili do devı́ti tř ı́d). 𝑘 𝑥 𝑛

1 18 2

2 35 2

3 52 9

4 5 69 86 5 10

6 103 5

7 120 3

8 137 2

9 154 4

Pro celý statistický soubor, ze které ho byl vzorek vybrá n, určete: 1. bodový odhad střední hodnoty 𝜇. 2. intervalový odhad střední hodnoty 𝜇, kde volte vý znamnost 5 %. 3. s 95% spolehlivostı́, zda hypotézu 𝐻 ∶ 𝜇 = 85 přijmout č i nikoliv. Řešení — 1. volba testových kritérií ; 2. aplikace tě chto krité riı́ Intervalové odhady (druhý bod zadá nı́) jsme si uvá dě li pouze pro soubory majı́cı́ normální rozdělení. Proto budeme nejprve zkoumat, zda ná š vzorek pochá zı́ ze souboru s normá lnı́m rozdě lenı́m. K tomu využ ijeme např ed prvnı́ test shody – který jsme si uvedli – Pearsonů v test 𝜒 . Vidı́me, ž e asi nebude (pozná me to ale až urč enı́m teoretický ch č etnosti 𝑛̂ ) splně na podmı́nka minimá lnı́ tř ı́dnı́ č etnosti. Proto spojı́me první a druhou tř ı́du do jedné , která bude mı́t za reprezentanta hodnotu = 26,5. Stejně tak i šestou se sedmou a osmou s devátou. Protož e testujeme, zda se jedná o normá lnı́ rozdě lenı́, upravı́me i krajnı́ meze hranič nı́ch intervalů . Ostatnı́ hranice intervalů a vš echny reprezentanty nespojovaný ch tř ı́d ponechá me tak, jak byly. Vš e zase zapı́šeme (svisle) do tabulky. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)

Pů vodnı́ tabulka

kde 𝑛̂ je teoretická tř ı́dnı́ č etnost pro normá lnı́ rozdě lenı́. 𝑏 −𝜇 𝑎 −𝜇 𝑛̂ = 𝑛 ⋅ 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) = 𝑛 ⋅ [𝐹(𝑏 ) − 𝐹(𝑎 )] = 𝑛 ⋅ 𝐹 a 𝐹 (−𝑢) = 1 − 𝐹 (𝑢). −𝐹 𝜎 𝜎 Chceme-li urč it např. 𝐹(77,5) = ?, potř ebujeme zná t 𝜇 a 𝜎, abychom ve statistický ch tabulká ch nebo pomocı́ Excelu (č i jinak) naš li hodnotu distribuč nı́ funkce 𝐹 normované ho normá lnı́ho rozlož enı́ 𝑁(0; 1). Proto provedeme bodové odhady: 𝜇 = 𝑥̄ = 𝑥̄ = ⋅ ∑(𝑛 ⋅ 𝑥 )= ⋅ 3 544 ≐ 84,4 52 343, 4 1 1 (𝑛 ⋅ 𝑥 ) − 𝑛 ⋅ 𝑥̄ = ⋅ (351 389, 5 − 42 ⋅ 84,4 ) ≐ ≐ 1 277 𝜎 =𝑆 = 𝑛−1 42 − 1 41 Pak: 𝜎 = √𝜎 = √1 277 ≐ 36,1 a 𝐹(77,5) = 𝐹 ( , , , ) ≐ 𝐹 (−0,19) = 1 − 𝐹 (0,19)= 0,424 65


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)




Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


𝐴=

𝑎 −𝜇 𝜎

r

(𝑎 ; 𝑏 )

𝑥

𝑛

𝑛̂

𝑛 ⋅𝑥

𝑛 ⋅𝑥

1 2 3 4 5 6

(−∞ ; 43,5) (43,5 ; 60,5) (60,5 ; 77,5) (77,5 ; 94,5) (94,5 ; 128,5) (128,5 ; ∞)

26,5 52 69 86 111,5 145,5

4 9 5 10 8 6

5,340 5,220 7,275 7,796 11,776 4,593

106 468 345 860 892 873

2 809 24 336 23 805 73 960 99 458 127 021,5

−∞ −1,14 −0,67 −0,19 0,28 1,23

0 0,127 14 0,251 43 0,424 65 0,610 26 0,890 65

∑

42

—

3 544

351 389,5

—

—

Casové ř ady

𝐹 (𝐴)


kde 𝑛̂ je teoretická tř ı́dnı́ č etnost pro normá lnı́ rozdě lenı́. 𝑏 −𝜇 𝑎 −𝜇 𝑛̂ = 𝑛 ⋅ 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) = 𝑛 ⋅ [𝐹(𝑏 ) − 𝐹(𝑎 )] = 𝑛 ⋅ 𝐹 a 𝐹 (−𝑢) = 1 − 𝐹 (𝑢). −𝐹 𝜎 𝜎 Chceme-li urč it např. 𝐹(77,5) = ?, potř ebujeme zná t 𝜇 a 𝜎, abychom ve statistický ch tabulká ch nebo pomocı́ Excelu (č i jinak) naš li hodnotu distribuč nı́ funkce 𝐹 normované ho normá lnı́ho rozlož enı́ 𝑁(0; 1). Proto provedeme bodové odhady: 𝜇 = 𝑥̄ = 𝑥̄ = ⋅ ∑(𝑛 ⋅ 𝑥 )= ⋅ 3 544 ≐ 84,4 52 343, 4 1 1 (𝑛 ⋅ 𝑥 ) − 𝑛 ⋅ 𝑥̄ = ⋅ (351 389, 5 − 42 ⋅ 84,4 ) ≐ ≐ 1 277 𝜎 =𝑆 = 𝑛−1 42 − 1 41 Pak: 𝜎 = √𝜎 = √1 277 ≐ 36,1 a 𝐹(77,5) = 𝐹 ( , , , ) ≐ 𝐹 (−0,19) = 1 − 𝐹 (0,19)= 0,424 65 Vidı́me, ž e nenı́ splně na nutná podmı́nka v š esté tř ı́dě , protož e oč eká vaná č etnost 𝑛̂ ≐ 4,6 nenı́ vě tš ı́ než 5. Proto nechá me pů vodnı́ š estou tř ı́du tak jak byla a spojı́me sedmou a osmou s devátou (vš echny tř i tř ı́dy dohromady) tř ı́dou. A celý vý poč et provedeme znovu! Asi se změ nı́ 𝜇 a 𝜎. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady

𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) = = 𝐹(𝑏 ) − 𝐹(𝑎 ) kde 𝐹(𝑋) je distribuč nı́ funkce ově řované ho normálního rozdě lenı́

a teoretickou tř ı́dnı́ č etnost 𝑛̂ pro normá lnı́ rozdě lenı́ urč ı́me na poč ı́tač i.

𝑛̂ = 𝑛 ⋅ 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) [=42*(NORM.DIST(𝑏 ; 𝜇; 𝜎; 1)−NORM.DIST(𝑎 ; 𝜇; 𝜎; 1))] ⟸ [Excel 2010] K tomu potř ebujeme zná t 𝜇 a 𝜎. Proto provedeme bodové odhady: 𝜇 = 𝑥̄ = 𝑥̄ = ⋅ ∑(𝑛 ⋅ 𝑥 ) = ⋅ 3 527 = 83,976 190 ≐ 84,0 (dř ıv́ e 84,4) 1 1 50,524 𝜎 =𝑆 = (𝑛 ⋅ 𝑥 ) − 𝑛 ⋅ 𝑥̄ = ⋅ (346 876 − 42 ⋅ 84 ) = ≐ 1 232 𝑛−1 42 − 1 41 Potom 𝜎 = √𝜎 = √1 232 ≐ 35,1 (dř ıv́ e 36,1)


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady





Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady





Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady





Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady





Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady





Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady





Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady



𝑛̂ = 𝑛 ⋅ 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) [=42*(NORM.DIST(𝑏 ; 𝜇; 𝜎; 1)−NORM.DIST(𝑎 ; 𝜇; 𝜎; 1))] ⟸ [Excel 2010] K tomu potř ebujeme zná t 𝜇 a 𝜎. Proto provedeme bodové odhady: 𝜇 = 𝑥̄ = 𝑥̄ = ⋅ ∑(𝑛 ⋅ 𝑥 ) = ⋅ 3 527 = 83,976 190 ≐ 84,0 (dř ıv́ e 84,4) 1 1 50,524 𝜎 =𝑆 = (𝑛 ⋅ 𝑥 ) − 𝑛 ⋅ 𝑥̄ = ⋅ (346 876 − 42 ⋅ 84 ) = ≐ 1 232 𝑛−1 42 − 1 41 Potom 𝜎 = √𝜎 = √1 232 ≐ 35,1 (dř ıv́ e 36,1) (𝑛 − 𝑛̂ ) Testové krité rium: 𝜒 = 𝑛̂


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady



𝑛̂ = 𝑛 ⋅ 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) [=42*(NORM.DIST(𝑏 ; 𝜇; 𝜎; 1)−NORM.DIST(𝑎 ; 𝜇; 𝜎; 1))] ⟸ [Excel 2010] K tomu potř ebujeme zná t 𝜇 a 𝜎. Proto provedeme bodové odhady: 𝜇 = 𝑥̄ = 𝑥̄ = ⋅ ∑(𝑛 ⋅ 𝑥 ) = ⋅ 3 527 = 83,976 190 ≐ 84,0 (dř ıv́ e 84,4) 1 1 50,524 𝜎 =𝑆 = (𝑛 ⋅ 𝑥 ) − 𝑛 ⋅ 𝑥̄ = ⋅ (346 876 − 42 ⋅ 84 ) = ≐ 1 232 𝑛−1 42 − 1 41 Potom 𝜎 = √𝜎 = √1 232 ≐ 35,1 (dř ıv́ e 36,1) (𝑛 − 𝑛̂ ) Testové krité rium: 𝜒 = 𝑛̂


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


r

𝑎 ;𝑏

1 2 3 4 5 6

(−∞ ; 43,5⟩ ⟨ 43,5 ; 60,5⟩ ⟨ 60,5 ; 77,5⟩ ⟨ 77,5 ; 94,5⟩ ⟨ 94,5 ; 111,5⟩ ⟨111,5 ; ∞)


Regrese, korelace


𝑛

𝑛̂

𝑥 ⋅𝑛

𝑥 ⋅𝑛

(𝑛 − 𝑛̂ ) 𝑛̂

26,5 52 69 86 103 137

4 9 5 10 5 9

5,220 5,347 7,348 8,024 6,961 9,100

106 468 345 860 515 1 233

2 809 24 336 23 805 73 960 53 045 168 921

0,295 2,494 0,746 0,495 0,547 0,001

∑

42

42,000

3 527

346 876

4,577

𝑥


Casové ř ady



𝑛̂ = 𝑛 ⋅ 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏 ) [=42*(NORM.DIST(𝑏 ; 𝜇; 𝜎; 1)−NORM.DIST(𝑎 ; 𝜇; 𝜎; 1))] ⟸ [Excel 2010] K tomu potř ebujeme zná t 𝜇 a 𝜎. Proto provedeme bodové odhady: 𝜇 = 𝑥̄ = 𝑥̄ = ⋅ ∑(𝑛 ⋅ 𝑥 ) = ⋅ 3 527 = 83,976 190 ≐ 84,0 (dř ıv́ e 84,4) 1 1 50,524 𝜎 =𝑆 = (𝑛 ⋅ 𝑥 ) − 𝑛 ⋅ 𝑥̄ = ⋅ (346 876 − 42 ⋅ 84 ) = ≐ 1 232 𝑛−1 42 − 1 41 Potom 𝜎 = √𝜎 = √1 232 ≐ 35,1 (dř ıv́ e 36,1) (𝑛 − 𝑛̂ ) Testové krité rium: 𝜒 = = 4,577 𝑛̂ Obor př ijetı́ hypoté zy:

𝐼

%

= ⟨0 ; 𝜒

,

(6 − 1 − 2)⟩ = ⟨0 ; 𝜒

,

(3)⟩ = ⟨0 ; 7,815⟩ ⟹ 𝜒 ∈ 𝐼

,

Protož e hodnota testové ho krité ria patř ı́ do oboru př ijetı́ hypoté zy, nelze v tomto př ı́padě vylouč it, ž e vzorek pochá zı́ za zá kladnı́ho souboru, který je rozlož en normá lně (má normá lnı́ rozlož enı́). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Kolmogorovův–Smirnovův test • V pů vodnı́ tabulce jsme upravili spodnı́ mez prvnı́ tř ı́dy a hornı́ mez poslednı́ tř ı́dy (normá lnı́ rozdě lenı́ je od −∞ do ∞); protož e Excel (jako vě tš ina programů ) neumı́ pracovat se symbolem nekoneč no, nahradı́me jej hodnotami z ně kolika devı́tek. Dá le využ ijeme již dř ıv́ e spoč ı́taný aritmetický průměr 𝑥̄ ≐ 84,4 a směrodatnou odchylku 𝑆 ≐ 37. • Hodnoty 𝑁̃ (kumulované č etnosti normá lnı́ho rozdě lenı́ pro hornı́ hranici 𝑏 dané tř ı́dy) zı́ská me pomocı́ Excelu 2010: =NORM.DIST(b;84,4;37;1)*42 Zde jsme tř ı́dy označ ili indexem k a ne 𝑟 jako v př edchozı́m př ı́kladu, ale to doufá m př ı́liš nevadı́. n = 42


|𝑁 − 𝑁̃ | ≐ 0,059 𝑛

𝐼 = ⟨0 ; 𝐷 (𝑛)⟩ ≐ ⟨0 ; 0,210⟩ 𝐷

,

(42) ≐

1,36 √42

Protož e hodnota testové ho krité ria patř ı́ do oboru př ijetı́ hypoté zy, nelze na hladině vý znamnosti 5 % vylouč it, ž e vzorek pochá zı́ za zá kladnı́ho souboru, který je rozlož en normá lně (má normá lnı́ rozlož enı́). Tedy nulovou hypoté zu, ž e: vzorek pochází z populace mající normální rozdělení, NEzamítáme. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Zopakujme si, co jsme zatı́m (u vzorku, který má 42 hodnot) vyř eš ili: Vzorek byl „asi“ vybrá n ze souboru s normálním rozdělením a má tyto charakteristiky: 𝑥̄ = 84,4

𝑆 = 37

A což e má me vlastně pro celý zá kladnı́ statistický soubor vyř eš it?

Bodový odhad střední hodnoty zá kladnı́ho souboru (populace) 𝜇 = 𝑥̄ = 84,4 jsme již vyř eš ili. Intervalový odhad střední hodnoty na hladině vý znamnosti 5 % 𝑥̄ − = 84,4 − = 84,4 − 5,709 ⋅ 𝑡

,

𝑆 ⋅𝑡 √𝑛

37

⋅𝑡

(𝑛 − 1) ; 𝑥̄ + ,


,

37

⋅ 𝑡 , (42 − 1) = √42 (41) = (84,4−11,538 ; 84,4+11,538) = (72,862 ; 95,938)

(42 − 1) ; 84,4 +

√42 (41) ; 84,4 + 5,709 ⋅ 𝑡

(𝑛 − 1) =

Intervalový odhad stř ednı́ hodnoty populace na hladině vý znamnosti 5 % je: (72,862 ; 95,938). Hodnotu 𝑡

(41) ≐ 2,021 najdeme v tabulká ch, nebo využ ijeme Excel 2010: =T.INV.2T(0,05;41) 𝑆 K urč enı́ hodnoty ⋅ 𝑡 (𝑛 − 1) ≐ 11,538 mů ž eme také využ ı́t Excel: =CONFIDENCE.T(𝛼;𝜎;𝑛), √𝑛 kde 𝜎 nahradı́me S. Tı́m se sice dopustı́me chyby (která nenı́ až tak velká ), protož e sprá vně má me zadat smě rodatnou odchylku zá kladnı́ho souboru 𝜎, ale tu mi nezná me. Proto mı́sto nı́ použ ijeme jejı́ bodový odhad – vý bě rovou smě rodatnou odchylku vzorku 𝑆. Vybrané statistické tabulky Př edmluva Literatura Zá vě r •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit ,

Pravdě podobnost



Regrese, korelace


Casové ř ady

Zopakujme si, co jsme zatı́m (u vzorku, který má 42 hodnot) vyř eš ili: Vzorek byl „asi“ vybrá n ze souboru s normálním rozdělením a má tyto charakteristiky: 𝑥̄ = 84,4

𝑆 = 37

A což e má me vlastně pro celý zá kladnı́ statistický soubor vyř eš it?

Bodový odhad střední hodnoty zá kladnı́ho souboru (populace) 𝜇 = 𝑥̄ = 84,4 jsme již vyř eš ili. Intervalový odhad střední hodnoty na hladině vý znamnosti 5 % 𝑥̄ − = 84,4 − = 84,4 − 5,709 ⋅ 𝑡


37

⋅𝑡

(𝑛 − 1) ; 𝑥̄ + ,

,

(𝑛 − 1) =

37

⋅ 𝑡 , (42 − 1) = √42 (41) = (84,4−11,538 ; 84,4+11,538) = (72,862 ; 95,938)

(42 − 1) ; 84,4 +

√42 (41) ; 84,4 + 5,709 ⋅ 𝑡

,


Intervalový odhad stř ednı́ hodnoty populace na hladině vý znamnosti 5 % je: (72,862 ; 95,938). Hodnotu 𝑡

,

(41) ≐ 2,021 najdeme v tabulká ch, nebo využ ijeme Excel 2010: =T.INV.2T(0,05;41)

Hypotézu o střední hodnotě 𝐻 ∶ 𝜇 = 85 s 95% spolehlivostı́ př ijmout č i odmı́tnout? Alternativnı́ hypoté za: 𝐻 ∶ 𝜇 ≠ 85 Testové krité rium:

𝑇=

Obor př ijetı́ hypoté zy:

(𝑥̄ − 𝜇) ⋅ √𝑛 (84,4 − 85) ⋅ √42 (−0,6) ⋅ 6,481 −3,888 = ≐ = ≐ −0,105 𝑆 37 37 37

𝐼 = −𝑡

(𝑛 − 1) ; 𝑡

(𝑛 − 1) = −𝑡

,

(41) ; 𝑡

,

(41) =

= ⟨−2,021 ; 2,021⟩ ⇒ 𝑇 ∈ 𝐼 hypoté zu 𝐻 , ž e stř ednı́ hodnota 𝜇 = 85 s 95% spolehlivostı́ nezamítáme (zamı́tá me 𝐻 ∶ 𝜇 ≠ 85). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r

,

,


Pravdě podobnost



Regrese, korelace


Casové ř ady

Poznámka o strojovém zpracování. Zatı́mco př i klasické m testová nı́ v př edchozı́m př ı́kladu bylo tř eba hledat kritické meze př ı́sluš né ho testovacı́ho krité ria, každý slušnější statistický software vypisuje takzvanou hodnotu významnosti ⁴⁰ (té ž zvanou signi ikance nebo 𝑝–hodnota, jejı́ž velikost vů bec nezá visı́ na zvolené hladině spolehlivosti 𝛼). Tato hodnota udá vá pravdě podobnost, ž e př i platnosti nulové hypoté zy vyjde testová statistika rovna namě řené nebo ješ tě extré mně jš ı́. Hodnota vý znamnosti p (𝑝–hodnota, 𝑝–value, signi icance level) tedy př edstavuje minimá lnı́ hladinu vý znamnosti, na které je mož no zamı́tnout nulovou hypoté zu. Test se vyhodnocuje takto: • Je-li hodnota vý znamnosti menš ı́ než hladina spolehlivosti (𝑝 < 𝛼), pak zamı́tneme nulovou hypoté zu a př ijmeme alternativnı́ hypoté zu. Riskujeme chybu prvnı́ho druhu (ž e zamı́tneme sprá vnou hypoté zu) s pravdě podobnostı́ nanejvý š 𝛼. • Je-li hodnota vý znamnosti vě tš ı́ nebo rovna než hladina spolehlivosti (𝑝 ≥ 𝛼), pak nulovou hypoté zu nezamı́tneme, ale zamı́tneme alternativnı́ hypoté zu. Tento postup využ ıv́ á poč etně (vě tš inou) ná roč ně jš ı́ho Čistého testu významnosti.

⁴⁰ Je to hodnota hladiny vý znamnosti, kterou bychom museli volit, aby vypoč tená hodnota testovacı́ statistiky se rovnala prá vě kritické hodnotě . Tedy aby hodnota testovacı́ statistiky lež ela prá vě na hranici mezi oborem př ijetı́ hypoté zy a kritický m oborem, ve které m hypoté zu zamı́tá me. Nebo ješ tě jinak ř eč eno: Moderní statistické programy při výpočtech předkládají přímo pravděpodobnost chyby I. řádu.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Uvod do Regresní a korelační analýzy


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obsah kapitoly: Regresní a korelační analýza 1. Souvislos mezi jevy

252

2. Regresní analýza 2.1. Regresnı́ př ı́mka — lineá rnı́ regrese 𝑓(𝑥) ∶ 𝑦 = 𝑎 + 𝑏 𝑥 . . . . . . 2.2. Regresnı́ parabola — kvadratická regrese 𝑓(𝑥) ∶ 𝑦 = 𝑎 + 𝑏 𝑥 + 𝑐 𝑥 2.3. Volba regresnı́ funkce . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Lineá rnı́ zá vislost: . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Kvadratická zá vislost: . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

3. Korelační analýza — výběrový korelační koeficient 3.1. Př ı́klady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Odlehlé pozorová nı́ a pů vodnı́ nekorelovaný vzorek . . . . . 3.1.2. Vzorek té mě ř nekorelovaný, jeho č ásti perfektně korelované 3.1.3. Vzorek pozitivně korelovaný, jeho č ásti negativně korelované 3.2. Test vý znamnosti hodnoty korelač nı́ho koe icientu 𝑟 . . . . . . . . . 4. Příklad Lineá rnı́ regrese . . . . . . . . . . Excel . . . . . . . . . . . . . . Kovariance . . . . . . . . . . Soustavy normá lnı́ch rovnic Vý bě rový korelač nı́ koe icient . . Kvadratická regrese . . . . . . . .


Př edmluva

. . . . . .

Literatura

. . . . . .

. . . . . .

. . . . . .

. . . . . .

Zá vě r

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . .

254 258 260 261 261 264

. . . . .

265 267 267 268 269 270

. . . . . .

271 271 271 272 278 286 287


Pravdě podobnost



Regrese, korelace


Casové ř ady

1. Souvislos mezi jevy Zkoumá nı́ souvislostı́ (zkoumá nı́ tzv. korelace mezi jevy) • vztah mezi prů mě rnou rychlostı́ auta a prů mě rnou spotř ebou pohonný ch hmot, • vztah mezi spotř ebou hnojiva a vý nosem, • vztah mezi rychlostı́ auta a dé lkou drá hy, kterou auto urazı́ za stejný č as, • a dalš ı́ a dalš ı́ je jednı́m z nejdů lež itě jš ı́ch ú kolů statistiky. Snaž ı́me se o (matematický ) popis systematický ch okolnostı́, které prová zı́ prvnı́ dvě zmı́ně né volné ⁴¹ (tzv. stochastické) zá vislosti. Tř etı́ uvedená zá vislost je pevná (funkční), protož e vzdá lenost zá visı́ pouze na č ase a rychlosti. Vý chodiskem k popisu statistický ch zá vislostı́ jsou statistické ú daje. Prvnı́ informace o prů bě hu zá vislosti dvou promě nný ch (znaků ) zı́ská me již tak, ž e ú daje uspoř ádá me do tabulky. Např ı́klad takto: muž

žena

∑

rtě nku POUZIVA

50

950

1 000

NEpouž ıv́ á rtě nku

850

50

900

∑

900

1 000

1 900

A proč si vš ı́má me zá vislostı́ mezi promě nný mi? Protož e ž ádný jev v př ı́rodě ani ve společ nosti nevzniká ani neprobı́há libovolně , ale je ve vztahu k jiný m jevů m a nemů ž e bý t pochopen sprá vně , je-li ⁴¹ Nenı́ zaruč eno, ž e když na jeden ar aplikujeme dané množ stvı́ hnojiva, tak ze sousednı́ho aru př i stejné m množ stvı́ hnojiva budeme mı́t naprosto stejný vý nos. Tedy urč ité hodnotě x (hnojivo) neodpovı́dá jediná hodnota y (vý nos), ale celé rozdě lenı́ hodnot y, které kolı́sajı́ s urč itý m rozptylem kolem urč ité stř ednı́ hodnoty. Podobně jako v př ı́padě vzdělání versus plat v pravé m obrá zku.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

z tě chto vztahů a souvislostı́ vytrž en. S nejjednoduš šı́mi formami př ı́činný ch souvislostı́ (zá vislostı́ velič in) se setká vá me u ně který ch př ı́rodnı́ch jevů . Se slož itý mi formami se setká vá me u jevů společ enský ch (ekonomický ch). Soubor postupů a metod, dovolujı́cı́ch ř eš enı́ zá vislosti velič in, se nazý vá regresní (termı́n regrese »krok zpě t« naprosto nevystihuje podstatu problé mu; vznikl historicky a nadá le se použ ıv́ á ) a korelační analýza. Tato analý za umož ňuje ř eš it dvě zá kladnı́ ú lohy. A to: Regresní úlohu — zjistit formu závislosti a vyjá dř it ji matematickou (tzv. regresnı́) funkcí. Jedna velič ina je považ ovaná za zá vislou (vysvětlovanou), obvykle ji znač ı́me y. Dalš ı́ promě nná nebo promě nné jsou považ ová ny za nezá vislé (vysvětlující). Statistika neurč ı́, která velič ina je př ı́č inou a která ná sledkem, tedy která je nezá vislá a která je zá vislá . To rozhodne (pokud je to vů bec mož né ) speci ická vě da, která se vztahem zabý vá . Mů ž e to bý t např ı́klad dá no tı́m, jak je veden pokus – pozorová nı́ (jednu velič inu vně jš ı́m zá sahem mě nı́me, druhá se dle toho mě nı́). Statistika sleduje pouze, zda existuje mezi velič inami vztah, ž e když se mě nı́ jedna velič ina, mě nı́ se i druhá , a to takový m způ sobem, ž e to nelze vysvě tlit pouze ná hodný mi změ nami té to druhé velič iny. Proto se také použ ıv́ ajı́ radě ji pojmy vysvě tlujı́cı́ velič ina a vysvě tlované velič ina. Korelační úlohu — urč it stupeň síly, nebo také průkaznost závislosti, s jakou se př edpoklá daná zá vislost projevuje. Tedy zda změ na vysvě tlované (zá vislé ) promě nné vyvolaná změ nou promě nné vysvě tlujı́cı́ (př ı́padně změ nami vı́ce vysvě tlujı́cı́ch promě nný ch – nezá vislý ch) se prosadı́ proti změ ná m vysvě tlované promě nné vzniklý m ná hodně (jsou způ sobeny jiný mi, nesledovaný mi a ná hodně se mě nı́cı́mi jevy), č i nikoliv. To pochopitelně zá visı́ nejen na chová nı́ vlastnı́ zá vislosti, ale i na poč tu namě řený ch vý sledků a př ı́padně rozmezı́ mě řený ch hodnot.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2. Regresní analýza My se budeme se zabý vat pouze jednoduchou regresí, kdy hledá me př edpoklá daný vztah pouze mezi dvěma veličinami, obecně obvykle znač ený mi x a y. Jinak bychom museli použ ı́t maticový poč et. Provedeme pozorová nı́ obou velič in — změ řı́me vý sledky pokusu. Př i ně m volı́me hodnoty jedné velič iny (nezá visle promě nné ) označ ované obvykle x (ve statistice nazý vané č astě ji jako vysvě tlujı́cı́ velič ina). Casto nejde o volbu libovolný ch hodnot, ale o změ řenı́ hodnot, které se v praxi vyskytly. K tě mto hodnotá m promě řujeme objevujı́cı́ se hodnoty druhé (zá vislé promě nné ) velič iny y (statisticky je to velič ina vysvě tlovaná ). Tak zı́ská me urč itý poč et (vý bě r z dvourozmě rné ho rozdě lenı́) spá rovaný ch hodnot [𝑥 ; 𝑦 ], což jsou body v rovině . Hodnoty velič iny nezá vislé (vysvě tlujı́cı́) zná me obvykle velmi př esně , což je jedna z podmı́nek klasické regrese. Hodnoty namě řené velič iny (vysvě tlujı́cı́) jsou nahodilý mi vlivy vychý leny vı́ce č i mé ně od zá vislosti, kterou př edpoklá dá me. Tyto nahodilé vý chylky mohou bý t vyvolá ny tı́m, ž e hodnoty y mohou bý t ovlivň ová ny dalš ı́mi faktory (nejen velič inou x), které se bě hem mě řenı́ ná hodně mě nily (např ı́klad teplota vzduchu, sluneč nı́ zá ř enı́, sı́la vě tru, apod.). Pokud jsme korelač nı́ analý zou proká zali, ž e zá vislost mezi velič inami je statisticky vý znamná , tedy ž e změ ny velič iny y svá zané (sledovanou zá vislostı́) se změ nou velič iny x jsou tak velké , ž e se neztrá cejı́ ve změ ná ch vyvolaný ch ná hodný mi faktory, má smysl metodami regresnı́ analý zy hledat matematické vyjá dř enı́ té to zá vislosti. Zvolený matematický tvar (regresní funkce) sledované zá vislosti vš ak obsahuje nezná mé parametry. Ukolem regresnı́ analý zy je stanovenı́ hodnot parametrů té to zá vislosti. Regresnı́ metody se snaž ı́ odstranit vliv ná hodný ch vý chylek namě řený ch hodnot y a zı́skaný mi body prolož it regresnı́ funkci tak, aby doš lo k vyrovná nı́ tě chto nahodilý ch chyb mě řenı́. Statistická indukce ná s vede k př edstavě , ž e existujı́ „jediné skuteč né “ hodnoty konstant regresnı́ funkce, které platı́ pro zá kladnı́ soubor (populaci), tedy pro vš echny mož né namě řené pá ry hodnot. To jsou hledané parametry regresnı́ funkce — regresnı́ koe icienty. My vš ak mů ž eme urč it pouze výběrové reVybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

gresní koe icienty, který mi tyto parametry odhadujeme. Tyto vý bě rové regresnı́ koe icienty budou pro opakované vý bě ry nabý vat rů zný ch hodnot, které jsou ná hodně rozlož eny kolem hledaný ch parametrů zá kladnı́ho souboru. Existuje tedy pravdě podobnostnı́ rozdě lenı́ mož ný ch hodnot vý bě rové ho regresnı́ho koe icientu s urč itou stř ednı́ hodnotou a urč itou smě rodatnou odchylkou tohoto parametru, kterou nazý vá me také standardní chyba. Odchylky namě řený ch hodnot od proklá dané regresnı́ funkce ale nemusejı́ bý t způ sobeny jen chybami mě řenı́ velič iny y. Podı́lı́ se na nich i naš e př ı́padná chybná volba regresnı́ funkce (chyba modelu), která nemusı́ plně odpovı́dat skuteč né mu (př irozené mu) prů bě hu zá vislosti. Např ı́klad zkoumaná zá vislost je vyjá dř ena hyperbolou namı́sto ná mi proklá dané př ı́mky. Nejčastěji používané regrese

(rovnice stochastické ho vztahu mezi velič inami):

• lineá rnı́ (př ı́mková ) regrese: 𝑓(𝑥) ≡ 𝑦 = 𝑎 + 𝑏 ⋅ 𝑥 • kvadratická (parabolická ) regrese: 𝑓(𝑥) ≡ 𝑦 = 𝑎 + 𝑏 ⋅ 𝑥 + 𝑐 ⋅ 𝑥 • polynomiá lnı́ stupně 𝑝: 𝑓(𝑥) ≡ 𝑦 = 𝑎 + 𝑏 ⋅ 𝑥 + 𝑏 ⋅ 𝑥 + … + 𝑏 ⋅ 𝑥 • hyperbolická regrese: 𝑓(𝑥) ≡ 𝑦 = 𝑎 +

𝑏 𝑥

• logaritmická regrese: 𝑓(𝑥) ≡ 𝑦 = 𝑎 + 𝑏 ⋅ log 𝑥 • exponenciá lnı́ regrese: 𝑓(𝑥) ≡ 𝑦 = 𝑎 ⋅ 𝑏 Uvedené parametry (𝑎, 𝑏, 𝑐, 𝑏 ), nebo-li vý bě rové regresnı́ koe icienty jak jsme již uvedli vý še, jsou stř ednı́ hodnoty pravdě podobnostnı́ch rozdě lenı́ vš ech mož ný ch hodnot urč ený ch z vý bě rů . Jsou to tedy


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

konstanty, (stř ednı́ hodnota je č ı́slo) nemě nná č ı́sla, které ovš em nemů ž eme nikdy urč it př esně . Mů ž eme pouze z hodnot vý bě ru urč it jejich bodové odhady, př ı́padně urč it intervalové odhady tak, jak jsme si ukazovali v kapitole o statistické indukci. Ze zı́skané ho ná hodné ho vý bě ru dvojic pak urč ı́me (empirickou) výběrovou regresní funkci, která je jednı́m z mož ný ch odhadů hledané regresnı́ funkce. Pro kaž dou hodnotu x tak budeme mı́t dvě hodnoty (konkré tnı́ č ı́sla) zá visle promě nné Y: • jednak zı́skanou (empirickou) hodnotu y , • jednak vyrovnanou hodnotu 𝑓(𝑥 ), což je odhad (teoretické ) stř ednı́ hodnoty 𝐸(𝑌) /kterou ovš em nezná me/ celé ho zá kladnı́ho souboru. Jejich rozdı́ly [𝑓(𝑥 ) − 𝑦 ] nazý vá me odchylky (rezidua). Jsou to vlastně odhady chyb. Bodové odhady regresnı́ch koe icientů nejč astě ji zı́ská vá me metodou nejmenších čtverců ⁴². Tato metoda nejmenších čtverců vychá zı́ z pož adavku, aby součet čtverců (druhý ch mocnin) odchylek pozorovaný ch hodnot 𝑦 , 𝑦 , … , 𝑦 od odhadované regresnı́ funkce 𝑓(𝑥) byl minimální (veš keré chyby modelu př eneseme do svislé ho smě ru osy 𝑦), tedy: 𝑆=

[𝑓(𝑥 ) − 𝑦 ] ⟶ min.

(23)

Z kurzu matematické analý zy (konkré tně z kapitoly o diferenciá lnı́m poč tu) vı́me, ž e extré m funkce (a minimum je extré m) mů ž e nastat pouze tam, kde: prvnı́ derivace dané funkce neexistuje, nebo prvnı́ derivace dané funkce existuje a je rovna NULE. Budeme tedy vztah (23) derivovat: ⁴² Metodu zavedl francouzský matematik Adrien–Marie Legendre již poč átkem 19. stoletı́. Vyž aduje znalost diferenciá lnı́ho poč tu, který byl ná plnı́ letnı́ho semestru v prvnı́m roč nı́ku.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


𝑆

=

[𝑓(𝑥 ) − 𝑦 ]

𝑆

=

{[𝑓(𝑥 ) − 𝑦 ] }

𝑆

=

2 ⋅ [𝑓(𝑥 ) − 𝑦 ]


Regrese, korelace


Casové ř ady

derivace souč tu se rovná souč tu derivacı́

derivujeme slož enou funkci; 𝑦 je daná hodnota – konstanta

⋅ [𝑓(𝑥 ) − 𝑦 ] = 2 ⋅

[𝑓(𝑥 ) − 𝑦 ] ⋅ [𝑓 (𝑥 ) − 𝑦 ] = 2 ⋅

[𝑓(𝑥 ) − 𝑦 ] ⋅ 𝑓 (𝑥 )

Dalš ı́ postup derivová nı́ zá visı́ na tvaru regresnı́ funkce 𝑓(𝑥). Vý slednou derivaci (v př ı́padě parciá lnı́ch derivacı́ je jich vı́ce a dostá vá me systé m rovnic) pak polož ı́me rovnu nule a hledá me ř eš enı́ dané rovnice. Předpoklady metody nejmenších čtverců • Chyby nezá vislé velič iny X majı́ bý t relativně menš ı́ než chyby zá vislé velič iny Y. V opač né m př ı́padě je pro sprá vný odhad potř eba použ ı́t jinou metodu. • Chyby hodnot velič iny Y majı́ mı́t normá lnı́ rozdě lenı́ s nulovou stř ednı́ hodnotou a s konstantnı́m rozptylem (a tedy i konstantnı́ smě rodatnou odchylkou). To znamená , ž e se rozptý lenı́ hodnot nesmı́ mě nit podle velikosti hodnot y (např. u malý ch hodnot y nemajı́ bý t chyby menš ı́ než u hodnot velký ch). Dá le tyto chyby nemajı́ bý t vzá jemně zá vislé . Na grafu majı́ bý t tedy namě řené body rovnomě rně rozptý leny kolem prolož ené regresnı́ kř ivky bez zjevný ch tendencı́ (např ı́klad v rů stu) a se zhruba stejný m poč tem bodů nad a pod kř ivkou. • Př ı́tomnost jediné ho vychý lené ho bodu v datech mů ž e způ sobit př ekvapivě velké vychý lenı́ odhadů př i použ itı́ metody nejmenš ı́ch č tverců . Takový to bod strhá vá prolož enı́ regresnı́ kř ivky vý razně na svoji stranu (viz obrá zek) a je tř eba jej př ı́padně vylouč it. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2.1. Regresní přímka — lineární regrese 𝑓(𝑥) ∶ 𝑦 = 𝑎 + 𝑏 𝑥 Parametr b se také nazý vá regresní koe icient a ř ı́ká o kolik jednotek prů mě rně vzroste př ı́jem (pravý obrá zek), když vzdě lá nı́ vzroste o jeden rok. Z pohledu geometrie je to smě rnice regresnı́ př ı́mky.

Hledá me minimum (23) funkce

∑ [𝑎 + 𝑏 ⋅ 𝑥 − 𝑦 ]

tak, ž e parciální derivace podle promě nný ch

a, b (rů zné př ı́mky se odliš ujı́ prá vě jenom promě nný mi parametry 𝑎, 𝑏 a my hledá me takové hodnoty tě chto parametrů /promě nný ch, aby souč et č tverců chyb byl minimá lnı́) položíme rovny nule (zadané Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

body [𝑥 ; 𝑦 ] jsou v levé m obrá zku označ eny č ervený mi koleč ky; jejich souř adnice jsou tedy č ı́sla – a pro derivová nı́ jsou to konstanty) 2⋅ [(𝑎 + 𝑏 ⋅ 𝑥 − 𝑦 ) ⋅ 1] = 0

2⋅

[(𝑎 + 𝑏 ⋅ 𝑥 − 𝑦 ) ⋅ 𝑥 ] = 0

což vede na ná sledujı́cı́ soustavu normálních rovnic (kde: 𝑦 = 𝑎+𝑏⋅𝑥 = 𝑎⋅1+𝑏⋅𝑥 = 𝑎⋅𝑥 +𝑏⋅𝑥 = 𝑦 a ∑ 𝑥 = ∑ 1 = 𝑛) a sumač nı́ meze kvů li př ehlednosti již vynechá me: 𝑎⋅

𝑥 +𝑏⋅

𝑥

=

𝑦

𝑎⋅

𝑥 +𝑏⋅

𝑥

=

(𝑥 ⋅ 𝑦 )

Tuto soustavu mů ž eme ř eš it mnoha způ soby (Cramerovo pravidlo), protož e má jediné ř eš enı́. Po obecné m vyř eš enı́ (a ná roč ně jš ı́ch ú pravá ch) dostá vá me tuto podobu rovnice regresní přímky: 𝑦 − 𝑦̄ =

𝑐𝑜𝑣(𝑋, 𝑌) (𝑥 ) − (𝑥) ̄

⋅ (𝑥 − 𝑥) ̄

nebo jinak

𝑓(𝑥) ∶ 𝑦 =

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

(24)

kde pruhem označ ujeme aritmetický prů mě r př ı́sluš ný ch velič in a 𝑐𝑜𝑣(𝑋, 𝑌) je vý bě rová kovariance ná hodný ch velič in X a Y . Pomocı́ /Excelu 2010/ mů ž eme rovnici regresnı́ př ı́mky sestavit ná sledovně (použ ijeme-li „S“kové varianty vestavě ný ch funkcı́, vzorec se dá le zjednoduš šı́): 𝑓(𝑥) ∶ 𝑦 =


/=COVARIANCE.S(X;Y)/ ⋅ (𝑥 − /=PRŮMĚR(X)/) + /=PRŮMĚR(Y)/ /=VAR.S(X)/

Př edmluva

Literatura

Zá vě r

(25)


Pravdě podobnost



Regrese, korelace


Casové ř ady

2.2. Regresní parabola — kvadra cká regrese 𝑓(𝑥) ∶ 𝑦 = 𝑎 + 𝑏 𝑥 + 𝑐 𝑥 2 má ná sledujı́cı́ soustavu normálních rovnic: 𝑎⋅

𝑥 +𝑏⋅

𝑥 +𝑐⋅

𝑥

=

𝑦

𝑎⋅

𝑥 +𝑏⋅

𝑥 +𝑐⋅

𝑥

=

(𝑥 ⋅ 𝑦 )

𝑎⋅

𝑥 +𝑏⋅

𝑥 +𝑐⋅

𝑥

=

(𝑥 ⋅ 𝑦 )

Poznámka • Uvedená soustava normá lnı́ch rovnic má vž dy regulá rnı́ matici soustavy, to znamená , ž e vž dy existuje jediné ř eš enı́ dané soustavy. Proto mů ž eme využ ı́t libovolnou metodu pro hledá nı́ koř enů . Tř eba Crammerovo pravidlo, kdy si jednotlivé determinanty nechá me spoč ı́tat např ı́klad Excelem 2010: =DETERMINANT(matice). • Uvedenou soustavu normá lnı́ch rovnic mů ž eme formálně sestavit také tak, ž e si vezmeme rovnici paraboly (z nadpisu) a jenom ji napı́šeme v jiné m poř adı́ a s indexy (1 = 𝑥 ) ⟹ první rovnice. 𝑎⋅𝑥 +𝑏⋅𝑥 +𝑐⋅𝑥 =𝑦

|⋅()

⟹

𝑎⋅𝑥 +𝑏⋅𝑥 +𝑐⋅𝑥

=

𝑦

Když tuto rovnici vyná sobı́me vý razem 𝑥 , dostaneme druhou rovnici. A když ji vyná sobı́me vý razem 𝑥 , dostaneme třetí rovnici. Pak př idá me vž dy k obě ma straná m rovnic sumač nı́ symboly.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Nynı́ již stač ı́ využ ı́t vlastnostı́ sč ı́tá nı́ (asociativnı́ a distributivnı́ zá kon). Uká ž eme si to na prvnı́m č lenu prvnı́ rovnice. U ostatnı́ch č lenů postupujeme analogicky. 𝑎⋅𝑥 =𝑎⋅

𝑥 =𝑎⋅

1=𝑎⋅𝑛

2.3. Volba regresní funkce Jak ale pouze ze zadaný ch dat poznat, kterou regresnı́ funkci (ze dvou, které jsme si př ed chvı́lı́ uvedli) má me zvolit? Ně kdy stač ı́ nakreslit bodový graf (korelační pole), v ně mž je kaž dá dvojice ú dajů gra icky zná zorně na jednı́m bodem v rovině (např ı́klad tyto dva grafy a dalš ı́ dva ná sledujı́cı́ grafy). A z polohy jednotlivý ch bodů se ná m (ně kdy) povede urč it vhodný typ regresnı́ funkce. Jiné dvě mož nosti urč enı́ vyhovujı́cı́ funkce si nynı́ uká ž eme. 2.3.1. Lineární závislost: Z rovnice př ı́mky y = k ⋅ x + q plyne, ž e pro stejné př ı́rů stky (diference) nezá visle promě nné (jednoho znaku) X (𝑥 − 𝑥 = konst.) bychom mě li mı́t (alespoň př ibliž ně ) stejné přírůstky (druhé ho znaku) ( ) zá visle promě nné Y (Δ = 𝑦 − 𝑦 = konst.). Příklad. Má me dá no tě chto devě t bodů : [1 ; −1], [2 ; 0,9], [3 ; 3], [4 ; 4,9], [5 ; 7], [6 ; 9,1], [7 ; 11], [8 ; 13], [9 ; 15,1]. Hodnoty si př epı́šeme do ná sledujı́cı́ tabulky, kterou doplnı́me o př ı́sluš né vý poč ty, vč etně již spoč ı́tané regresnı́ př ı́mky.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


𝑖 𝑥 𝑦 ( )

Δ

Regrese, korelace


Casové ř ady

1 1 −1

2 2 0,9

3 3 3

4 4 4,9

5 5 7

6 6 9,1

7 7 11

8 8 13

9 9 15,1

/

1,9

2,1

1,9

2,1

2,1

1,9

2

2,1

−1,06 0,06

0,955 −0,055

2,97 0,03

4,985 −0,085

7 0

9,015 0,085

11,03 −0,03

13,045 −0,045

15,06 −0,04

=𝑦 −𝑦

𝑦 = 2,015 ⋅ 𝑥 − 3,075 Δ =𝑦 −𝑦


Vidı́me, ž e Δ ∈ ⟨−0,085; 0,085⟩ , tedy ž e zadané body skuteč ně „té mě ř perfektně “ lež ı́ na regresnı́ př ı́mce

𝑦 = 2,015 ⋅ 𝑥 − 3,075

a př itom ná mi zjiš tě né „př ı́rů stky“

( )

Δ

∈ ⟨1,9; 2,1⟩ .

První problém. Uvedené tvrzenı́ vš ak skuteč ně platı́ pouze za př edpokladu, ž e jednotlivé hodnoty 𝑥 jsou ekvidistantní (ná sledujı́cı́ hodnota je vž dy „stejně “ vzdá lena od př edchozı́ hodnoty). Protož e, když z př edchozı́ch devı́ti bodů , které lež ı́ „té mě ř“ na př ı́mce 𝑦 = 2,015 𝑥 − 3,075 vynechá me dva body (např ı́klad třetí a šestý), polohu ostatnı́ch bodů tı́m nezmě nı́me. Tedy zbylý ch sedm bodů musı́ opě t „té mě ř“ lež et na stejné př ı́mce. Ná m ale, jak plyne z ná sledujı́cı́ tabulky, „té mě ř konstant( ) nı́“ Δ nevychá zı́. 𝑖 𝑥 𝑦 ( )

Δ ( )

Zkusme rozdı́l Δ


=𝑦 −𝑦

1 1 −1

2 2 0,9

3 4 4,9

4 5 7

5 7 11

6 8 13

7 9 15,1

/

1,9

4

2,1

4

2

2,1

uvaž ovat s vahou rovnou velikosti rozdı́lu 𝑥 − 𝑥

Př edmluva

Literatura

Zá vě r

, tedy

( )

Δ

=

𝑦 −𝑦 𝑥 −𝑥

.


Pravdě podobnost



Regrese, korelace


Casové ř ady

Vý poč ty opě t zapı́šeme do ná sledujı́cı́ tabulky: 𝑥 𝑦 ( )

Δ Vidı́me, ž e nynı́ je opě t

=

( )

Δ

1 −1

2 0,9

4 4,9

5 7

7 11

8 13

9 15,1

/

1,9

2

2,1

2

2

2,1

≐2 .

Druhý problém. A co se stane, když bude dá no tě chto devě t bodů : [1 ; −1], [2 ; 0,9], [3 ; 3], [4 ; 4,9], [5 ; 7], [6 ; 9,1], [7,5 ; 13], [7,5 ; 11], [9 ; 15,1] , kde sedmý a osmý bod majı́ stejnou hodnotu x? ( )

Jaký bude rozdı́l Δ od př edchozı́ho (š esté ho) bodu? ( ) ( ) Bude to Δ = 13 − 9,1 nebo Δ = 11 − 9,1? 𝑦 −𝑦 ( ) A co když budeme chtı́t urč it vážený rozdı́l Δ = ? 𝑥 −𝑥 my vı́me, ž e nulou dě lit NELZE!

Ve jmenovateli zlomku by byla NULA a

V tomto př ı́padě sedmý a osmý bod nahradı́me jednı́m bodem, jehož hodnota 𝑦 je „někde mezi“ hodnotou sedmé ho a osmé ho bodu, tedy je to ně jaký z prů mě rů hodnot. Vhodný m kandidá tem je aritmetický prů mě r, takž e dostá vá me ná sledujı́cı́ tabulku:


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


( )

Δ

𝑖 𝑥 𝑦 𝑦 −𝑦 = 𝑥 −𝑥


Regrese, korelace


1 1 −1

2 2 0,9

3 3 3

4 4 4,9

5 5 7

6 6 9,1

7 7,5 12

8 9 15,1

/

1,9

2,1

1,9

2,1

2,1

1,933

2,067

( )

Δ

Casové ř ady

≐2

Pro ná mi zjiš tě né vážené přírůstky (a když jsme př ı́sluš né body, které pro stejná x majı́ rů zná y ( ) vhodný m způ sobem „zprů mě rovali“) platı́, ž e: Δ ∈ ⟨1,9; 2,1⟩ . 2.3.2. Kvadra cká závislost: Pro stejné př ı́rů stky nezá visle promě nné 𝑋 (𝑥 −𝑥 = konst.) bychom mě li mı́t stejné př ı́rů stky př ı́rů stků ( ) ( ) ( ) ( ) ( ) Δ zá visle promě nné 𝑌 (Δ = Δ − Δ = konst., kde Δ = 𝑦 − 𝑦 ) Příklad.

( )

Δ

( )

Δ

𝑥

1

2

3

4

5

6

7

8

9

𝑦

16,1

9

4,1

1

0,1

1,1

4

9,1

16

/

−7,1

−4,9

−3,1

−0,9

1

2,9

5,1

6,9

/

/

2,2

1,8

2,2

1,9

1,9

2,1

1,8

=𝑦 −𝑦 ( )

=Δ

( )

−Δ

𝑦 = 0,054 𝑥 + 0,446 𝑥 + 40,693 Poznámka. I pro urč enı́, zda se jedná o kvadratickou zá vislost platı́ analogické podmı́nky jako jsme uká zali u lineá rnı́ zá vislosti: ekvidistantní 𝑥 , kde pro každé 𝑥 je dáno jediné 𝑦 . Pokud tyto podmı́nky nejsou splně ny a my chceme použ ı́t př edchozı́ postup musı́me ně jak zajistit, aby tvrzenı́ platilo (jako jsme to naznač ili př i ř eš enı́ př edchozı́ch dvou problé mů ). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

3. Korelační analýza — výběrový korelační koeficient Druhý m zá kladnı́m ú kolem statistické analý zy vztahů mezi ná hodný mi velič inami je urč enı́ tě snosti zá vislosti – korelace (souvztaž nosti). Zatı́mco regresnı́ analý za se zamě řuje na formu vztahu mezi sledovaný mi velič inami, korelač nı́ analý za ukazuje, jak je tento vztah silný. Vý chodiskem pro mě řenı́ tě snosti zá vislosti je př ı́sluš ný regresnı́ model. Znalost intenzity zá vislosti mezi analyzovaný mi velič inami je už iteč ná zejmé na z tě chto dů vodů : • Je zř ejmé , ž e č ı́m jsou urč ité velič iny tě sně ji vá zá ny, s tı́m vě tš ı́ pravdě podobnostı́ lze oč eká vat, ž e změ ny jedné velič iny budou mı́t za ná sledek změ ny velič iny s nı́ statisticky vá zané . • Stupeň vá zanosti ná hodný ch velič in charakterizuje, jaká je vypovı́dacı́ schopnost už ité ho regresnı́ho modelu. Cı́m bude rozptyl empirický ch hodnot zá visle promě nné kolem př ı́sluš né regrese menš ı́ (a tedy zá vislost tě sně jš ı́), tı́m budou regresnı́ odhady, založ ené na dané regresnı́ funkci, př esně jš ı́. Tě snost zá vislosti je mož no mě řit pomocı́ ř ady charakteristik [13]. My si uvedeme jedinou – výběrový korelační koe icient pro př ı́pad lineární závislosti mezi dvě ma promě nný mi, kdy 𝑆(𝑋) ⋅ 𝑆(𝑌) ≠ 0 (pokud ano, poklá dá me: 𝑟 = 0). S korelač nı́m koe icientem 𝜚 jsme se setkali u ná hodný ch vektorů . 1 ∑(𝑥 ⋅ 𝑦 ) − ⋅ 𝑥 ⋅ 𝑦 𝑆(𝑋; 𝑌) 𝑆(𝑋; 𝑌) 𝑛 = 𝑟= = 𝑆(𝑋) ⋅ 𝑆(𝑌) 𝑆 (𝑋) ⋅ 𝑆 (𝑌) 1 1 ∑𝑥 − 𝑥 𝑦 ⋅ ∑𝑦 − 𝑛 𝑛 Zatı́mco regresnı́ koe icient b (což je vlastně smě rnice regresnı́ př ı́mky) ná m naznač uje, CO má me há dat, korelač nı́ koe icient r ná m ř ı́ká , JAK DOBRE budeme schopni há dat. Pokud vyjdeme z (menš ı́ho) pravé ho obrá zku, mů ž eme ř ı́ci, ž e vý bě rový korelač nı́ koe icient (pro př ı́mku) umocně ný na druhou (𝑟 nazý vá me koeficientem determinace, který je roven souč inu smě rnic sdružených přímek, kdy jedna je metodou


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

nejmenš ı́ch č tverců stanovena pro minimá lnı́ odchylky ve vodorovné m smě ru osy 𝑥 a druhá pro minimá lnı́ odchylky ve svislé m smě ru osy 𝑦) poskytuje informaci, jaké procento rozdı́lů existujı́cı́ch v př ı́jmu se zdá bý t vysvě tlitelné rozdı́ly, které existujı́ ve vzdě lá nı́. Obrá zek 5: Zdroj W

E

Ně kolik př ı́kladů gra ické ho zobrazenı́ namě řený ch dat a jejich koe icienty korelace r. I při nulovém korelačním koe icientu (𝑟 = 0) na sobě veličiny mohou záviset, pouze tento vztah nelze vyjá dř it lineá rnı́ funkcı́, a to ani př ibliž ně (spodnı́ ř ada obrá zků ). Stanovit stupnici oceň ujı́cı́ zá vislost (slabá, stř ednı́, silná) nenı́ ú kol pro matematiku, ale pro profesnı́ho odbornı́ka. Podobné stupnice bý vajı́ souč ástı́ oborový ch norem. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Příklad 1. 𝑟=0

𝑟 = 0,912

V levé m grafu vidı́me jednoduché seskupenı́ 12 pozorová nı́ ([2 ; 2], [2 ; 4], [2 ; 6], [3 ; 2], …, [5 ; 6]). Je zř ejmé , ž e symbolizujı́ perfektnı́ nezá vislost (⇒ 𝑟 = 0), protož e bez ohledu na hodnotu promě nné X mů ž e promě nná Y nabý vat pouze hodnot 2, 4 nebo 6. A teď se podı́vejme, co se stane, když k naš im 12 pozorová nı́m př idá me jedno dalš ı́ [20 ; 20], s vysoký mi hodnotami obou promě nný ch. V pravé m grafu je toto př idané pozorová nı́ označ eno (pro př ehlednost) tlustou š ipkou. Podı́vejte se teď na novou hodnotu korelač nı́ho koe icientu. Korelace je té mě ř perfektnı́. Co vlastně způ sobil tento jeden jediný ú chylká ř ? Prostě velice podstatně zvě tš il rozptyl naš eho vzorku. Matematicky je tu vš echno v poř ádku. Vı́me, ž e kvadrá t korelač nı́ho koe icientu odpovı́dá proporci rozptylu zá visle promě nné , kterou je mož né vysvě tlit rozdı́ly hodnot druhé promě nné .


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Ne tak docela v poř ádku je interpretace dat. Té mě ř vš echen rozptyl byl vnesen do naš eho vzorku tı́mto jediný m, nový m pozorová nı́m. Ta velká vysvě tlujı́cı́ sı́la r se tý ká jenom tohoto ú chylká ř e ve vztahu ke zbytku pozorová nı́. Vů bec ná m nepomů ž e k lepš ı́mu porozumě nı́ vztahu v já dru naš eho vzorku, v pů vodnı́ch naš ich 12 pozorová nı́.

Příklad 2.

A co tě chto 18 pozorová nı́, pro které r = 0,286?

Jistě jste si vš imli, ž e data majı́ zajı́mavou kon iguraci, kterou mů ž eme dobř e využ ı́t. Rozdě lı́me prostě ná š pů vodnı́ vzorek podle hodnot nezá visle promě nné X do tř ı́ č ásteč ný ch vzorků . V prvnı́m č ásteč né m vzorku budou vš echna pozorová nı́, které majı́ hodnotu X z intervalu ⟨2; 7⟩; ve druhé m vzorku budou vš echna pozorová nı́, které majı́ hodnoty X z intervalu ⟨9; 14⟩; a ve tř etı́m budou vš echna pozorová nı́, které majı́ hodnoty X z intervalu ⟨16; 21⟩. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Na prvnı́ pohled vidı́me, ž e v kaž dé m č ásteč né m vzorku lež ı́ vš echna pozorová nı́ př esně na př ı́mce, tedy ž e v kaž dé m č ásteč né m vzorku existuje perfektnı́ souvislost mezi X a Y. Tı́m jsme si uká zali jednu velice dů lež itou vě c, Korelač nı́ koe icient je lineá rnı́ a jeho hodnota udá vá , jak moc je vhodné charakterizovat vš echny pozorované hodnoty jedinou př ı́mkou. V ně který ch př ı́padech (částečné vzorky v př edchozı́m grafu) je lineá rnı́ reprezentace vý borná . Jindy (celý vzorek v př edchozı́m grafu) mů ž e takový lineá rnı́ model ztratit dů lež itou č ást informace.

Příklad 3.

A co tě chto 16 pozorová nı́, pro které r = 0,789?

Kon igurace dat ukazuje, ž e v celé m souboru existuje celkem dosti silný pozitivní (kladný ) vztah mezi promě nný mi X a Y. Naproti tomu v kaž dé m podsouboru mů ž eme pozorovat perfektní negativní (zá pornou) souvislost. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

3.2. Test významnos hodnoty korelačního koeficientu 𝑟 Jak již vı́me, korelač nı́ koe icient zá kladnı́ho souboru 𝜚 má hodnotu nula, když nenı́ mezi velič inami lineární zá vislost. Jestliž e tedy statisticky proká ž eme, ž e se vypoč tená hodnota vý bě rové ho korelač nı́ho koe icientu r vý znamně liš ı́ od nuly, proká ž eme tı́m, ž e mezi velič inami X a Y je lineá rnı́ zá vislost. Tedy podle postupu, který byl uveden v kapitole zabý vajı́cı́ se testová nı́m hypoté z, testujeme nulovou hypoté zu 𝐻 ∶ 𝜚 = 0 – mezi zkoumanými veličinami neexistuje lineární závislost proti alternativnı́ hypoté ze 𝐻 ∶ 𝜚 ≠ 0 – lineární závislost existuje. Pro danou hladinu vý znamnosti zvolı́me testové krité rium a pro namě řené dvojice [𝑥 ; 𝑦 ] vypoč ı́tá me pozorovanou hodnotu testové statistiky. Poté urč ı́me kritický obor (obor př ijetı́ hypoté zy) a rozhodneme, zda testová statistika lež ı́ v kritické m oboru nebo v oboru př ijetı́. V literatuř e jsou pro prokazová nı́ vý znamnosti r př edepisová ny rů zné testovacı́ statistiky. Poznámky ke korelační analýze 1. S rostoucı́m poč tem sledovaný ch bodů sice vě tš inou klesá hodnota vý bě rové ho korelač nı́ho koe icientu r, ale stá le se (limitně ) př ibliž uje hodnotě korelač nı́ho koe icientu populace 𝜚. Má me-li pouze dvě pozorová nı́, najdeme vž dy př ı́mku (př ı́mka je urč ena dvě ma body) která obě ma body prochá zı́ a to bez nevysvě tlitelný ch odchylek. Ve vzorku tedy dostá vá me perfektnı́ lineá rnı́ zá vislost, i když v celé populaci mezi zkoumaný mi velič inami žádná (a tı́m pá dem ani lineá rnı́) zá vislost nemusı́ vů bec existovat. Když př idá me dalš ı́ (tř etı́) pozorová nı́, př ı́mka již nemusı́ vš emi tř emi body prochá zet, takž e korelač nı́ koe icient se již nerovná nule, ale je stá le vysoký. Cı́m vě tš ı́ bude poč et namě řený ch bodů , tı́m vě tš ı́ bude mož nost nalezenı́ př ı́padné zá vislosti, i tř eba v bodech š iroce rozptý lený ch kolem př ı́mky, kdy zá vislost je slabá , tedy i pro př ı́pady nı́zký ch (blı́zký ch nule) korelač nı́ch koe icientů . Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2. Př i korelač nı́ analý ze (hledá nı́, zda existuje vý znamná př ı́mková zá vislost) jediný bod vzdá lený (odlehlý ) od ostatnı́ch mů ž e zajistit nalezenı́ vý znamné korelace, ač zbylé body (bez tohoto odlehlé ho) mohou vykazovat naprostou nezá vislost mezi sledovaný mi velič inami — viz obrá zek. Jediný vzdá lený (mož ná problematický ) bod zajistı́ hodnotu korelač nı́ho koe icientu př ekrač ujı́cı́ kritickou hodnotu. V takové m př ı́padě nelze brá t vý sledek testu vý znamnosti hodnoty korelač nı́ho koe icientu př ı́liš vá ž ně , protož e rozdě lenı́ bodů zř ejmě nevyhovuje př edpokladů m nutný m pro platnost použ ité ho testu.

4. Příklad K dispozici jsou tato data o prodeji (druhý ř ádek), jak je ovlivň ovaly ná klady na reklamu (prvnı́ ř ádek):

x y

0 40

1 42

2 43

3 41

4 43

5 44,8

Urč ete rovnici lineá rnı́ regrese, rovnici kvadratické regrese a vý bě rový korelač nı́ koe icient (tě snost vztahu pro lineá rnı́ regresi) pro tě chto š est dvojic hodnot [𝑥 ; 𝑦 ], kde 𝑖 = 1, 2, …, 6. Lineární regrese 1. Pro lineá rnı́ regresi vyjdeme ze vztahu (25) a nejprve nechá me Excel 2010 spoč ı́tat vš echny potř ebné hodnoty. Uvedenou tabulku př epı́šeme do Excelu a vyvolá me př ı́sluš né vestavě né statistické funkce. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Potom již stač ı́ dosadit zı́skané hodnoty do vztahu (25) a obdrž ı́me hledanou rovnici regresnı́ př ı́mky. 𝑦=

𝑐𝑜𝑣(𝑋, 𝑌) 2, 5 ⋅ (𝑥 − 𝑥̄ ) + 𝑦̄ = ⋅ (𝑥 − 2, 5) + 42, 3 𝑆 3, 5

⇒

𝑦 ≐ 0,714 𝑥 + 40,514

Lineární regrese 2. A co v situaci, kdy nemá me po ruce vhodný softwarový ná stroj? Nezbý vá ná m, než si př ı́sluš né charakteristiky spoč ı́tat. Regresnı́ př ı́mka potom bude mı́t (podle 24) rovnici: 𝑦=

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

Vidı́me, ž e potř ebujeme (𝑥 ⋅ 𝑦)

𝑥̄

𝑦̄

(𝑥 )

což urč ı́me tak, ž e tabulku př epı́šeme svisle a doplnı́me vhodný mi sloupci. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



𝑦=

i

𝑥

𝑦

𝑥 ⋅𝑦

𝑥

1 2 : n=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44, 8

0 42 86 123 172 224

0 1 4 9 16 25

∑

15

253, 8

647

55

Po dosazenı́:


𝑦=

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

Regrese, korelace

Literatura

𝑥̄ =

15 = 2,5 6

𝑦̄ =

253,8 = 42,3 6

(𝑥 ⋅ 𝑦) =

(𝑥 ) =

Zá vě r

Casové ř ady

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

107,833 − 2,5 ⋅ 42,3 ⋅ (𝑥 − 2,5) + 42,3 9,167 − 2,5

Př edmluva


647 ≐ 107,833 6

55 ≐ 9,167 6

⟹

𝑦 ≐ 0, 714 𝑥 + 40, 514


Pravdě podobnost



𝑦=

i

𝑥

𝑦

𝑥 ⋅𝑦

𝑥

1 2 : n=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44, 8

0 42 86 123 172 224

0 1 4 9 16 25

∑

15

253, 8

647

55

Po dosazenı́:


𝑦=

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

Regrese, korelace

Literatura

𝑥̄ =

15 = 2,5 6

𝑦̄ =

253,8 = 42,3 6

(𝑥 ⋅ 𝑦) =

(𝑥 ) =

Zá vě r

Casové ř ady

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

107,833 − 2,5 ⋅ 42,3 ⋅ (𝑥 − 2,5) + 42,3 9,167 − 2,5

Př edmluva


647 ≐ 107,833 6

55 ≐ 9,167 6

⟹

𝑦 ≐ 0, 714 𝑥 + 40, 514


Pravdě podobnost



𝑦=

i

𝑥

𝑦

𝑥 ⋅𝑦

𝑥

1 2 : n=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44, 8

0 42 86 123 172 224

0 1 4 9 16 25

∑

15

253, 8

647

55

Po dosazenı́:


𝑦=

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

Regrese, korelace

Literatura

𝑥̄ =

15 = 2,5 6

𝑦̄ =

253,8 = 42,3 6

(𝑥 ⋅ 𝑦) =

(𝑥 ) =

Zá vě r

Casové ř ady

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

107,833 − 2,5 ⋅ 42,3 ⋅ (𝑥 − 2,5) + 42,3 9,167 − 2,5

Př edmluva


647 ≐ 107,833 6

55 ≐ 9,167 6

⟹

𝑦 ≐ 0, 714 𝑥 + 40, 514


Pravdě podobnost



𝑦=

i

𝑥

𝑦

𝑥 ⋅𝑦

𝑥

1 2 : n=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44, 8

0 42 86 123 172 224

0 1 4 9 16 25

∑

15

253, 8

647

55

Po dosazenı́:


𝑦=

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

Regrese, korelace

Literatura

𝑥̄ =

15 = 2,5 6

𝑦̄ =

253,8 = 42,3 6

(𝑥 ⋅ 𝑦) =

(𝑥 ) =

Zá vě r

Casové ř ady

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

107,833 − 2,5 ⋅ 42,3 ⋅ (𝑥 − 2,5) + 42,3 9,167 − 2,5

Př edmluva


647 ≐ 107,833 6

55 ≐ 9,167 6

⟹

𝑦 ≐ 0, 714 𝑥 + 40, 514


Pravdě podobnost



𝑦=

i

𝑥

𝑦

𝑥 ⋅𝑦

𝑥

1 2 : n=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44, 8

0 42 86 123 172 224

0 1 4 9 16 25

∑

15

253, 8

647

55

Po dosazenı́:


𝑦=

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

Regrese, korelace

Literatura

𝑥̄ =

15 = 2,5 6

𝑦̄ =

253,8 = 42,3 6

(𝑥 ⋅ 𝑦) =

(𝑥 ) =

Zá vě r

Casové ř ady

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

107,833 − 2,5 ⋅ 42,3 ⋅ (𝑥 − 2,5) + 42,3 9,167 − 2,5

Př edmluva


647 ≐ 107,833 6

55 ≐ 9,167 6

⟹

𝑦 ≐ 0, 714 𝑥 + 40, 514


Pravdě podobnost



𝑦=

i

𝑥

𝑦

𝑥 ⋅𝑦

𝑥

1 2 : n=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44, 8

0 42 86 123 172 224

0 1 4 9 16 25

∑

15

253, 8

647

55

Po dosazenı́:

𝑦=

𝑥 ⋅ 𝑦 − 𝑥̄ ⋅ 𝑦̄ (𝑥 ) − (𝑥̄ )

Regrese, korelace


Casové ř ady

⋅ (𝑥 − 𝑥̄ ) + 𝑦̄

𝑥̄ =

15 = 2,5 6

𝑦̄ =

253,8 = 42,3 6

(𝑥 ⋅ 𝑦) =

(𝑥 ) =

107,833 − 2,5 ⋅ 42,3 ⋅ (𝑥 − 2,5) + 42,3 9,167 − 2,5

647 ≐ 107,833 6

55 ≐ 9,167 6

⟹

𝑦 ≐ 0, 714 𝑥 + 40, 514

Lineární regrese 3. A co v př ı́padě , ž e si na vzorec (24) nevzpomeneme? Anebo (jako v tomto př ı́padě ) kdy pož adujeme i kvadratickou regresi? Potom je vhodně jš ı́ využ ı́t soustavy normá lnı́ch rovnic. Opě t př epı́šeme tabulku, tentokrá t svisle a doplnı́me ji vhodný mi sloupci tak, abychom mohli sestavit př ı́sluš né soustavy normá lnı́ch rovnic. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391

Lineární regrese Soustava normá lnı́ch rovnic

6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)


má ř eš enı́:

Casové ř ady

a ≐ 40,514 b ≐ 0,714

regresní funkce f(x) : y ≐ 0,714 x + 40,514 647 −

Výběrový korelační koe icient 𝑟 = (55 −

⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )

Tedy korelace (lineá rnı́ zá vislost) je proká zá na.

Kvadratická regrese Soustava normá lnı́ch rovnic

6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054

regresní funkce f(x) : y ≐ 0,054 𝑥 + 0,446 x + 40,693 Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace

𝑖

𝑥

𝑦

𝑥

𝑥 ⋅𝑦

𝑦

𝑥

𝑥

𝑥 ⋅𝑦

1 2 : 𝑛=6 : 6

0 1 2 3 4 5

40 42 43 41 43 44,8

0 1 4 9 16 25

0 42 86 123 172 224

1600 1764 1849 1681 1849 2 007,04

0 1 8 27 64 125

0 1 16 81 256 625

0 42 172 369 688 1 120

∑

15

253,8

55

647

10 750,04

225

979

2 391


6 𝑎 + 15 𝑏 = 253,8 15 𝑎 + 55 𝑏 = 647

|.(15) |.(-6)



Casové ř ady

a ≐ 40,514 b ≐ 0,714



⋅ 15 ⋅ 253,8

⋅ 15 ) ⋅ (10 750,04 −

≐ 0,790 ⋅ 253,8 )



6 𝑎 + 15 𝑏 + 55 𝑐 = 253,8 15 𝑎 + 55 𝑏 + 225 𝑐 = 647 55 𝑎 + 225 𝑏 + 979 𝑐 = 2 391


a ≐ 40,693 b ≐ 0,446 c ≐ 0,054


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Př edmluva


Literatura

Zá vě r

Regrese, korelace


Casové ř ady


Pravdě podobnost



Regrese, korelace


Casové ř ady

Uvod do Hospodářské statistiky


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obsah kapitoly: Hospodářská sta s ka 1. Sta s ka a ekonomie 296 1.1. Zá kladnı́ pojmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 2. Individuální indexy 2.1. Jednoduché individuá lnı́ indexy . . . . . . . . . . . . . Př ı́klad: trž by . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Pozná mka k velič ině s ná zvem „prů mě rný koe Př ı́klad: př eprava cestujı́cı́ch . . . . . . . . . . . . . . 2.2. Slož ené individuá lnı́ indexy . . . . . . . . . . . . . . . Př ı́klad . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . icient vý voje“ . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

303 303 305 311 311 314 315

3. Souhrnné (agregátní) indexy 322 Př ı́klad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 4. Závěr kapitoly – Shrnu 330 4.1. Př ı́klady použ ıv́ aný ch indexů v praxi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

1. Sta s ka a ekonomie Statistika byla zpoč átku využ ıv́ á na spı́še ve vě dá ch př ı́rodnı́ch (fyzika, chemie), v poslednı́ch letech vš ak zaznamená vá ú spě ch také v disciplı́ná ch humanitnı́ho charakteru, např ı́klad v psychologii, sociologii, ale také v ekonomii. K vý razně jš ı́mu rozvoji statistický ch metod v ekonomii doš lo na př elomu 19. a 20. stoletı́, a to zejmé na dı́ky nový m objevů m ve statistice (zejmé na ná stupu metod matematické statistiky). V současné době patří statistika stejně jako informatika nebo operační výzkum ke standardnímu vybavení moderního ekonoma. Proto je nutné, aby ekonomové znali základy statistiky a měli alespoň základní představu o možnostech a nástrojích této disciplíny. [3, str. 35] Aplikacı́ statistický ch metod na ekonomická a sociá lně ekonomická data vznikla samostatná statistická disciplı́na, hospodá ř ská (ekonomická ) statistika. Př edmě tem ekonomické statistiky je analý za stavu a vý voje jevů v hospodá ř ské oblasti jako vý chodiska k hospodá ř ské mu rozhodová nı́ č i stanovenı́ hospodá ř ské politiky.

1.1. Základní pojmy Ukazatelé jsou velič iny, se který mi se denně setká vá me. Ať již v dennı́m tisku, v rozhlase, č i v televizi. Seznamujeme se s takový mi pojmy jako hrubý domá cı́ produkt (HDP), dovoz, vý voz, produktivita prá ce, prů mě rná mzda, vý sledky voleb, apod. Tyto pojmy jsou vž dy doprová zeny č ı́sly, která charakterizujı́ velikost odpovı́dajı́cı́ho (ekonomické ho, společ enské ho, …) jevu, př ı́padně vý voj dané ho jevu. Dovı́dá me se, ž e např ı́klad HDP vzrostl o 𝑥𝑦 %, saldo zahranič nı́ho obchodu dosá hlo vý še 𝑦𝑧 mld. Kč , roč nı́ mı́ra in lace byla 𝑥𝑧 %. Zá roveň se zpravidla seznamujeme s tı́m, zda tyto vý sledky má me hodnotit kladně č i zá porně , v jaký ch souvislostech a za jaký ch podmı́nek. Nejjednoduš šı́ a č asto použ ıv́ anou metodou statistické ho rozboru je porovná vá nı́ takový ch statistický ch ú dajů . Jednou z mož nostı́, jak vzá jemně porovnat dvě hodnoty, je zkoumá nı́, kolikrá t je jedna hodnota vě tš ı́ jak druhá . To provedeme matematickou operacı́ dělení, jejı́mž vý sledkem je podı́l. Druhou Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

mož nostı́ je zkoumat, o kolik je jedna hodnota vě tš ı́ jak druhá . To provedeme matematickou operacı́ odčítání, jejı́mž vý sledkem je rozdı́l. Sta s cký ukazatel je č ı́slo, které v dané m prostoru a č ase charakterizuje urč itou skuteč nost (urč itý jev). Př esně ji ř eč eno je funkcí hodnot znaku statistických jednotek (funkcı́ charakteristik znaku). Je to kvantitativnı́ popis urč ité sociá lně –ekonomické skuteč nosti. Vezmeme-li např ı́klad ukazatel „odpracovaná doba“, pak tento ukazatel je v metodický ch př edpisech vymezen jako ú hrn pracovnı́ doby odpracované dě lnı́ky (pracovnı́ky) dané ho podniku (zá vodu, provozovny) v mě sı́ci (č tvrtletı́, roce). Jde tedy o popis ukazatele, kde je obecně de inová n čas (mě sı́c) a prostor (podnik). Jestliž e př esně de inujeme tento č as a prostor (např ı́klad ú nor 1997, podnik E.ON), dostaneme konkré tnı́ hodnotu ukazatele nazý vanou údaj. Poměrný ukazatel vznikne jako podı́l (pomě r) dvou č ı́selný ch hodnot. Mohou bý t podı́lem stejnorodý ch ú dajů , které jsou stejné ho obsahu a rozmě ru. Potom je pomě rné č ı́slo bezrozmě rné a č asto ho vyjadř ujeme v procentech. Př ı́kladem mů ž e bý t ukazatel podı́lu ž en v celkové m poč tu pracovnı́ků irmy. Pokud je v č itateli pomě rné ho ukazatele hodnota jiné ho obsahu a rozmě ru než ve jmenovateli, jedná se o podı́l nestejnorodý ch ukazatelů a pomě rný ukazatel je rozmě rový. Např ı́klad poč et obyvatel na jednoho zubař e, produktivita prá ce podniku apod. Př i srovná vá nı́ ukazatelů z č asové ho hlediska hovoř ı́me o základním období, které označ ujeme indexem 0 a běžném období, které označ ujeme indexem 1. Poměrné ukazatele struktury (nebo-li slož enı́) vyjadř ujı́ podı́l urč ité č ásti vzhledem k celku. Indexy jsou pomě rné hodnoty, které umož ňujı́ srovná nı́ shodně vymezený ch ukazatelů (stejné ho druhu a obsahu). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Index je podı́l hospodá ř ský ch ukazatelů , indiká tor pokroku č i neú spě chu. Je to bezrozmě rné č ı́slo (č asto se uvá dı́ v procentech), které ná m ukazuje prů bě h ně jaké ho vý voje tı́m, ž e zaznamená vá změ ny oproti dř ıv́ ě jš ı́mu obdobı́. Musı́ charakterizovat celkovou situaci, nejen situaci jednotlivé ho vý robku. Indexů existuje velké množ stvı́ a zá lež ı́ na vı́ce hlediscı́ch, který druh indexu použ ijeme. Je tř eba rozliš ovat, zda jde o velič iny extenzitní nebo intenzitní a jestli srovná vá me jednu nebo vı́ce jednotek, které mohou bý t buď stejnorodé nebo nestejnorodé. Z hlediska stejnorodosti ukazatelů (ze který ch vznikly) rozliš ujeme indexy individuální a indexy souhrnné. Uvedené nové pojmy si nynı́ objasnı́me. Extenzitní ukazatel q udá vá množství, objem, rozsah nebo počet sledované ho jevu (např ı́klad vý roba, prodej, poč et pracovnı́ků , zbož ı́ v kusech apod.) v ně jaké jednotce (Kč , kg, m , …) a vyjadř uje tak ně jakou (ekonomickou) skuteč nost; je vyjá dř en č ı́slem. Obvykle jej označ ujeme 𝑞. Extenzitní (stejnorodé) ukazatele shrnujeme (urč ujeme celkovou hodnotu ukazatele na zá kladě jeho dı́lč ı́ch hodnot) součtem. Mů ž eme např ı́klad seč ı́st množ stvı́ prodaný ch akciı́ té že irmy u ně kolika maklé řů. Nebo souč et produkcı́ (v kusech) jednoho druhu zbož ı́ za jednotlivé mě sı́ce roku dá vá roč nı́ produkci tohoto druhu zbož ı́. Nestejnorodé extenzitnı́ velič iny sč ı́tat nelze. Např ı́klad nemá smysl sč ı́tat prodané vkladové listy a množ stvı́ poskytnutý ch ú vě rů , i když byly realizová ny v jedné bance. Intenzitní ukazatel p dá vá do pomě ru (podílu) dva extenzitnı́ ukazatele, které majı́ logickou souvislost a jsou vyjá dř eny kaž dý v jiný ch jednotká ch (Kč /m, t/ha, …). Tedy vyjadř uje úroveň (např ı́klad cena je podı́l trž eb a prodané ho množ stvı́). Obvykle jej označ ujeme 𝑝. Intenzitní (stejnorodé) ukazatele shrnujeme (urč ujeme celkovou hodnotu ukazatele na zá kladě jeho dı́lč ı́ch hodnot) váženým průměrem. Rů znorodé intenzitnı́ velič iny vznikajı́ jako podı́l nestejnorodý ch extenzitnı́ch velič in (např ı́klad ceny elektř iny a plynu). Takové velič iny nelze ani sč ı́tat ani prů mě rovat. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Intenzitnı́ a extenzitnı́ velič iny se č asto vyskytujı́ ve dvojici, kde urč ujı́ intenzitu (ú roveň ) a kvantitu (množ stvı́) dané ho jevu (např ı́klad: cenu × prodané množ stvı́, produktivitu prá ce × odpracovaný poč et hodin, …). Odpovı́dajı́cı́ hodnotu velič iny intenzitnı́ p a extenzitnı́ q lze ná sobit, př ič emž vznikne nová souhrnná extenzitnı́ velič ina, kterou obvykle označ ujeme Q. Tuto velič inu lze opě t sč ı́tat, a to i v př ı́padě nestejnorodý ch velič in 𝑞. Tř eba seč tenı́m trž eb za jednotlivé vý robky dostaneme celkovou trž bu prodejny. Chceme-li vě dě t, kolikrát (o kolik %) je jedna hodnota ukazatele menš ı́/vě tš ı́ než jiná , budeme obě hodnoty srovná vat podílem. Budeme-li chtı́t vě dě t o kolik jednotek je jedna hodnota ukazatele menš ı́/vě tš ı́ než jiná , budeme obě hodnoty srovná vat rozdílem. Podı́lem dvou hodnot té hož ukazatele zı́ská me (jak jsme uvedli na př edchá zejı́cı́ strá nce) index, rozdı́lem pak absolutnı́ př ı́rů stek. Obě tyto mı́ry rozdı́lnosti jsou rovnocenné a nezastupitelné , ale vzá jemně se doplň ujı́. Poměrná čísla rozměrová jsou tvoř ena jako podı́l ukazatelů rů zné ho obsahu a rozmě ru. Pokud označ ı́𝑦 me pomě rný ukazatel 𝑧 = , pak mů ž eme prů mě rnou hodnotu pomě rné ho ukazatele vypoč ı́tat 𝑥 rů zný mi způ soby. Tak jako mnohokrá t v té to př ı́ruč ce budeme psá t (kvů li ú spoř e mı́sta) pouze prostý symbol sumy, u které vynechá me sč ı́tacı́ index ⁴³. • Prů mě rnou hodnotu pomě rné ho ukazatele vypoč ı́tá me jako podíl souč tu vš ech hodnot č itatele a souč tu hodnot jmenovatele pomě rné ho ukazatele: 𝑧̄ =

∑𝑦 ∑𝑥

⁴³ Sprá vně by mě lo bý t např ı́klad ∑ 𝑥 nebo (pokud 𝑖 = 1, 2, … , 𝑛) ∑ 𝑥 ∀


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

• Prů mě rnou hodnotu pomě rné ho ukazatele vypoč ı́tá me jako vážený aritmetický průměr hodnot pomě rné ho ukazatele, kde vahami bude jmenovatel pomě rné ho ukazatele: ∑𝑧 ⋅ 𝑥 𝑧̄ = ∑𝑥 • Prů mě rnou hodnotu pomě rné ho ukazatele vypoč ı́tá me jako vážený harmonický průměr hodnot pomě rné ho ukazatele, kde vahami bude č itatel pomě rné ho ukazatele: ∑𝑦 𝑧̄ = ∑ V hospodá ř ské praxi je č asté použ itı́ vá ž ené ho harmonické ho prů mě ru např ı́klad př i vý poč tu prů mě rné produktivity prá ce ve irmě slož ené z ně kolika iliá lek. Indexová teorie použ ıv́ á pro obecné označ enı́ ukazatelů , s nimiž pracuje, zauž ıv́ ané symboly, které jasně rozliš ujı́ extenzitnı́ a intenzitnı́ ukazatel. Standardně se setká vá me se tř emi druhy indexů , a to jednı́m intenzitnı́m (p) a dvě ma extenzitnı́mi (q, Q), pro ně ž platı́ vztah 𝑄 =𝑝⋅𝑞.

(26)

Tato rovnice vychá zı́ historicky ze vztahu hodnoty Q, jednotkové ceny p a množ stvı́ q. Na celé m svě tě nejzná mě jš ı́ a také nejvı́ce napadaný je index spotřebitelských cen, které mu také ně kdy ř ı́ká me index životních nákladů. Proti tomuto indexu se č asto namı́tá , ž e se v ně m skuteč ná změ na ž ivotnı́ch ná kladů zrcadlı́ jen nedostateč ně , protož e spotř ebnı́ zvyklosti se mě nı́ a navı́c je zkonstruová n na zá kladě spotř ebnı́ho sché matu — spotřebního koše — které př esně neodpovı́dá snad pro ž ádné ho spotř ebitele.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Srovná nı́ dneš nı́ho indexu ž ivotnı́ch ná kladů s rokem 1989 je již skoro k nič emu a jestliž e se dalš ı́m zř etě zová nı́m poč ı́tá zpě t až do roku 1900, je to sice matematicky zcela mož né , ale jinak zcela nesmyslné . Cituji: „Tím se zabývají jen historikové — podivíni, kteří nám ještě dnes pečlivě a přesně vypočítají, jakou hodnotu měl sestercius ve starém Římě.“ [14, str. 111] Obrá zek 6: Př evzat z [14]

Mezi č etný mi cenový mi indexy nabyly zvlá š tnı́ho vý znamu dva: Laspeyresů v index (porovná nı́ cen na zá kladě pů vodně spotř ebované ho množ stvı́ — stará množ stvı́ jako zá kladna) a Paascheho index (porovná nı́ cen na zá kladě nové spotř eby) ⁴⁴. Laspeyresů v index té mě ř vž dy dosahuje vyš šı́ch hodnot jako index Paascheho vzhledem k tomu, ž e př i neproporcioná lnı́m zdraž enı́ jednotlivý ch druhů zbož ı́ spotř ebitel vě tš inou př echá zı́ na jiné (lacině jš ı́) druhy, takž e „nová zbož ı́“ zachytı́ č ást zdraž enı́. ⁴⁴ Paasche a Laspeyres byli ně meč tı́ ná rodohospodá ř i z konce 19. stoletı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Musı́me si ovš em uvě domit, ž e stoupne-li ně jaký index (stanovovaný např ı́klad pomocı́ koš e – pak jde /jak již víme/ o bodový odhad charakteristiky) z hodnoty 108,6 v jednom mě sı́ci na 108,8 v ná sledujı́cı́m mě sı́ci, neř ı́ká to nic jiné ho, než toto: Pravděpodobnost, že hodnoty (které jsou základem výpočtu) stouply, je nepatrně větší než pravděpodobnost, že se nezměnily nebo klesly. Protož e i když budeme př edpoklá dat „smě rodatnou odchylku př esnosti 𝜎“ jen ve vý ši 3 ‰(a to je i př i peč livé prá ci nereálně má lo), musı́me ř ı́ci: Údaj prvního měsíce s bodovým odhadem 108,6 leží s 95 % pravděpodobností mezi 108,0 a 109,2 (pravidlo dvou 𝜎 dá vá 95% pravdě podobnost). Udaj 108,8, který byl urč en za nový mě sı́c, lež ı́ (má intervalový odhad) mezi 108,2 a 109,4. Nenı́ tady vů bec vylouč eno, ž e sprá vný index za př edchozı́ mě sı́c je 108,8 a za nový mě sı́c jen 108,5 nebo také ž e oba jsou si př esně rovny. Jestliž e vš ak naproti tomu delš ı́ ř ada takový ch indexů vykazuje stá le stejný vý voj, stá vá se sprá vnost pozorová nı́ stá le pravdě podobně jš ı́. Ná sledujı́-li např ı́klad po hodnotá ch 108,6 a 108,8 jako dalš ı́ č ı́sla v ř adě 109,1 a 109,5, mů ž eme prá vem — nikoli vš ak s absolutnı́ jistotou — př edpoklá dat, ž e vý voj indexu za dané č tyř i mě sı́ce vyjadř uje skuteč ně existujı́cı́ vzestupný vý voj. Žádný index není zcela přesný! To vš ak nenı́ argument proti indexu nebo proti jaké mukoliv jiné mu statistické mu š etř enı́. Nenı́-li mož no zı́skat ž ádnou dokonalou informaci, musı́me se spokojit s pokud mož no nejpř esně jš ı́mi odhady. A i ten nejpř esně jš ı́ odhad je stá le jen odhad — ale je nepomě rně cenně jš ı́ než nevě domost, prá zdná domně nka nebo „vě ště nı́ z kř iš ťá lové koule“. Kaž dý koš zbož ı́ je konec konců jen vý bě rový soubor a již v samé podstatě vý bě ru je, ž e nemů ž e zprostř edkovat absolutnı́ jistotu o celé m zá kladnı́m souboru. Potřebujeme vždy výpočty na zlomky procent? Naš e myš lenı́ je vě tš inou př ı́liš ovlá dá no utkvě lou př edstavou, ž e č ı́slo vypoč ı́tané až na poslednı́ platné mı́sto je vrcholem př esnosti a pravdivosti. Ve skuteč nosti je tomu č asto naopak. Jen zř ı́dkakdy je mož no na otá zku „Kolik je hodin?“ odpově dě t naprosto př esně ve tvaru („gong ozná mı́“) „15 hodin, 32 minuty, 40 sekund“. Stejně už iteč ná a nepř ı́liš lž ivá je odpově ď „půl čtvrté“. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2. Individuální indexy Individuální indexy jsou nejjednoduš šı́mi velič inami, které bezprostř edně srovná vajı́ dvě hodnoty té hož ukazatele (podíl stejnorodých veličin). Pokud porovná vá me ú daj o ú rovni jedné velič iny, který jsme zı́skali bez shrnová nı́ souč tem nebo prů mě rem, hovoř ı́me o jednoduchých individuálních indexech. Pokud jsou ú daje sumarizová ny nebo prů mě rová ny z vı́ce zdrojů (např ı́klad z vı́ce prodejen) hovoř ı́me o složených individuálních indexech.

2.1. Jednoduché individuální indexy Tyto jednoduché individuá lnı́ indexy nejsou nijak podrobně ji č leně ny ani shrnová ny. Budeme-li srovná vat hodnotu intenzitnı́ho ukazatele p v situaci 1 (v č asové m srovná nı́ nazý vané běžným obdobím b. o.) a v situaci 0 (v č asové m srovná nı́ nazý vané základním obdobím z. o.), obdrž ı́me 𝐼 (ně kdy se té ž označ uje 𝑖 ). Analogicky mů ž eme konstruovat jednoduché indexy i pro extenzitnı́ ukazatele 𝑞 a 𝑄. Tedy 𝐼 =

𝑝 𝑝

𝐼 =

𝑞 𝑞

𝐼 =

𝑄 𝑄

(27)

Ze vztahu (26) plyne, ž e 𝐼 =𝐼 ⋅𝐼 Individuá lnı́ jednoduché indexy (zde vý luč ně č asové ⟹ zjiš ťujeme hodnotu jednoho ukazatele v dané m prostoru, ale v rů zné m č ase) se č asto vyskytujı́ sdruž ené do delš ı́ch č asový ch ř ad. Tehdy mohou bý t př ı́sluš né indexy poč ı́tá ny Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

ke stejnému základu – bázi např ı́klad (27) k nejstarš ı́ hodnotě (bá zı́ mů ž e bý t jaké koliv obdobı́, nikoliv 𝑥 nutně prvnı́) v č asové ř adě pů vodnı́ch pozorová nı́ ⟹ tzv. bazické indexy 𝑆 = 𝑥 k proměnlivému základu k bezprostř edně př edchá zejı́cı́mu pozorová nı́ v č asové ř adě pů vodnı́ch hodnot 𝑥 ⟹ tzv. řetězové indexy 𝑇 = 𝑥 • ř etě zový index vyjá dř ený v procentech se nazý vá tempo růstu; • geometrický prů mě r ř etě zový ch indexů se nazý vá průměrný koe icient vývoje. K posouzenı́ té že změ ny u vš ech jednotek (prodej ve vš ech iliá lká ch dané ho obchodnı́ho ř etě zce apod.) musı́me použ ı́t složené individuální indexy.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Jednoduché (individuální) indexy ⟹ jeden ukazatel jednoho střediska Trž by: (zá kladnı́ obdobı́ má VZDY index NULA)

40

42

43

41

43

44,8

(tedy 𝑛 = 5)

Urč ete vhodné indexy, prů mě rný koe icient vý voje a odhadně te trž by v ná sledujı́cı́m mě sı́ci. Gra icky zná zorně te ř adu trž eb (č ı́sel) v č ase. 𝑖

𝑥

0 1 2 3 4 5

40 42 43 41 43 44,8

𝑥̄ =

𝑆 = [1] 1,05 1,075 1,025 1,075 1,12

𝑇= / 1,05 1,024 0,953 1,049 1,042

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑥 𝑥

⋅

𝑥 𝑥

⋅

𝑥 𝑥

1,05 ⋅ 1,024 ⋅ 0,953 ⋅ 1,049 ⋅ 1,042 =

⋅

𝑥 𝑥

𝑆 =

⋅

𝑥 𝑥

=𝑆

1,12 = 1,022

V kaž dé m obdobı́ tedy trž by rostly 1,022 krá t. Př edpoklá dané trž by pro š esté obdobı́ odhadneme nejsnadně ji tak, ž e hodnotu pá té ho obdobı́ vyná sobı́me koe icientem 1,022. V šestém období budou trž by pravdě podobně : 44,8 × 1,022 = 45,786.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


40

42

43

41

43

44,8

(tedy 𝑛 = 5)


𝑥

0 1 2 3 4 5

40 42 43 41 43 44,8

𝑥̄ =

𝑆 = [1] 1,05 1,075 1,025 1,075 1,12

𝑇= / 1,05 1,024 0,953 1,049 1,042

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑥 𝑥

⋅

𝑥 𝑥

⋅

𝑥 𝑥

1,05 ⋅ 1,024 ⋅ 0,953 ⋅ 1,049 ⋅ 1,042 =

⋅

𝑥 𝑥

𝑆 =

⋅

𝑥 𝑥

=𝑆

1,12 = 1,022



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


40

42

43

41

43

44,8

(tedy 𝑛 = 5)


𝑥

0 1 2 3 4 5

40 42 43 41 43 44,8

𝑥̄ =

𝑆 = [1] 1,05 1,075 1,025 1,075 1,12

𝑇= / 1,05 1,024 0,953 1,049 1,042

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑥 𝑥

⋅

𝑥 𝑥

⋅

𝑥 𝑥

1,05 ⋅ 1,024 ⋅ 0,953 ⋅ 1,049 ⋅ 1,042 =

⋅

𝑥 𝑥

𝑆 =

⋅

𝑥 𝑥

=𝑆

1,12 = 1,022



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


40

42

43

41

43

44,8

(tedy 𝑛 = 5)


𝑥

0 1 2 3 4 5

40 42 43 41 43 44,8

𝑥̄ =

𝑆 = [1] 1,05 1,075 1,025 1,075 1,12

𝑇= / 1,05 1,024 0,953 1,049 1,042

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑥 𝑥

⋅

𝑥 𝑥

⋅

𝑥 𝑥

1,05 ⋅ 1,024 ⋅ 0,953 ⋅ 1,049 ⋅ 1,042 =

⋅

𝑥 𝑥

𝑆 =

⋅

𝑥 𝑥

=𝑆

1,12 = 1,022



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


40

42

43

41

43

44,8

(tedy 𝑛 = 5)


𝑥

0 1 2 3 4 5

40 42 43 41 43 44,8

𝑥̄ =

𝑆 = [1] 1,05 1,075 1,025 1,075 1,12

𝑇= / 1,05 1,024 0,953 1,049 1,042

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑥 𝑥

⋅

𝑥 𝑥

⋅

𝑥 𝑥

1,05 ⋅ 1,024 ⋅ 0,953 ⋅ 1,049 ⋅ 1,042 =

⋅

𝑥 𝑥

𝑆 =

⋅

𝑥 𝑥

=𝑆

1,12 = 1,022



Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


40

42

43

41

43

44,8

(tedy 𝑛 = 5)


𝑥

0 1 2 3 4 5

40 42 43 41 43 44,8

𝑥̄ =

𝑆 = [1] 1,05 1,075 1,025 1,075 1,12

𝑇= / 1,05 1,024 0,953 1,049 1,042

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 ⋅𝑇 =

𝑥 𝑥

⋅

𝑥 𝑥

⋅

𝑥 𝑥

1,05 ⋅ 1,024 ⋅ 0,953 ⋅ 1,049 ⋅ 1,042 =

⋅

𝑥 𝑥

𝑆 =

⋅

𝑥 𝑥

=𝑆

1,12 = 1,022

V kaž dé m obdobı́ tedy trž by rostly 1,022 krá t. Př edpoklá dané trž by pro š esté obdobı́ odhadneme nejsnadně ji tak, ž e hodnotu pá té ho obdobı́ vyná sobı́me koe icientem 1,022. V šestém období budou trž by pravdě podobně : 44,8 × 1,022 = 45,786. Př esně jš ı́ odhad pravdě podobný ch trž eb v š esté m obdobı́ zı́ská me např. pomocı́ regresní analýzy (regresnı́ př ı́mku a regresnı́ parabolu jsme zkoumali v př edchozı́ kapitole) nebo pomocı́ trendu (lineá rnı́ a kvadratický trend bude probı́rá n v kapitole Modelová nı́ č asový ch ř ad). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2.1.1. Poznámka k veličině s názvem „průměrný koeficient vývoje“ Na př edchozı́m př ı́kladu jsme si uká zali, ž e pro k zadaný ch hodnot nemusı́me poč ı́tat k–1 ř etě zový ch indexů a urč ovat jejich geometrický prů mě r, ale stač ı́ vypoč ı́tat k–1 odmocninu bazické ho indexu 𝑆 . Jiný mi slovy ná š odhad vý voje pomocı́ prů mě rné ho koe icientu vý voje je založ en pouze na první a poslední zadané hodnotě . Ostatnı́ zadané ú daje nemajı́ na ná š odhad vý voje naprosto ž ádný vliv. Prů mě rný koe icient vý voje mů ž eme ješ tě urč it také tak, ž e ponechá me beze změ ny prvnı́ a poslednı́ zadanou hodnou a zbylé ú daje upravı́me tak, aby vš echny dohromady tvoř ily geometrickou posloupnost. Prů mě rný koe icient vý voje je potom roven kvocientu té to geometrické ř ady. Vš e si uká ž eme na ná sledujı́cı́m př ı́kladu, kde jsou č ı́selné ú daje zaokrouhlené na stovky. Dlouhodobý m pozorová nı́m bylo zjiš tě no, ž e autobusová linka xyz př epravı́ ve č tvrtek 4 tisíce cestujı́cı́ch (tedy ve č tvrtek je př epraveno od 3 951 do 4 049 osob), v pá tek je to také 4 tisíce, zatı́mco v sobotu a v nedě li pouze 1 tisíc. Nynı́ si př edstavme, ž e má me k dispozici ná sledujı́cı́ ř adu ú dajů : (Ct) 4 000 ; (Pá ) 4 000 ; (So) 1 000 a má me odhadnout, jaké č ı́slo bude ná sledovat. Tedy urč it, kolik asi pasažérů je přepravováno v neděli. Sice se nejedná o typický př ı́pad, protož e k dispozici má me př ı́liš malý vzorek, ale to snad v tomto př ı́padě př ı́liš nevadı́. Alespoň si proto př ipomeň me, ž e každý závěr a tím spíše také rozhodnutí by mělo být dostatečně podloženo. • Využ itı́ „zdravého selského rozumu“. Pokud vı́me, co jednotlivé zkratky znamenajı́ a na zá kladě té to znalosti usoudı́me, ž e ná s zajı́má poč et pasaž érů o vı́kendové m dnu, mů ž eme dů vodně př edpoklá dat, ž e to bude stejné jako jiný vý kendový den. Tedy opě t jeden tisı́c.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

• Odhad pomocı́ průměrného koe icientu vývoje. 𝑖

den

𝑥

𝑆 =

0 1 2

Ct Pá So

4 000 4 000 1 000

Ne

?

Prů mě rný koe icient vý voje:

𝑇=

[1] 1 0,25

𝑇 ⋅𝑇 = né

/ 1 0,25

1 ⋅ 0,25 =

jako kvocient

𝑞=

𝑆 =

0,25 = 0,5

geometrické ř ady

což je stej4; 2; 1

ve které jsme vhodně upravili prostř ednı́ (pá teč nı́) hodnotu.

⟸ 1 000 ⋅ 0,5

Tedy na zá kladě prů mě rné ho koe icientu vý voje bychom pro nedě li odhadovali 500 pasaž érů a to, jak vı́me z prvnı́ odrá ž ky, nebude asi až tak moc př esné , ale v zá sadě je to mož né . A už jsme zase u problé mu, který jsme diskutovali již dř ıv́ e. A to u rozdě lová nı́ pů vodnı́ho vzorku na č asteč né vzorky, zde na pracovnı́ dny a vı́kendové dny. • V kapitole regrese jsme data vyrovná vali př ı́mkou podle vzorce (25). Tento mů ž eme aplikovat i na ná š př ı́pad, použ ijeme-li k označ enı́ dnů mı́sto zkratek např ı́klad jejich poř adové č ı́slo. Pomocı́ souř adnic bodu lež ı́cı́ho na př ı́mce pak odhadneme pož adovaný ú daj. 𝑥 𝑦 = 𝑓(𝑥)

1 2 4 000 4 000

3 1 000

4 ?

Potom

𝑓(𝑥) =

⋅ (𝑥 − 2) + 3 000

𝑓(4) = −1 500 ⋅ (4 − 2) + 3 000 = 0

Tedy na zá kladě lineá rnı́ regrese bychom pro nedě li odhadovali do 50 pasaž érů a to je velmi nepravdě podobné .


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

• V př edmě tu Matematika jsme zadaný mi body proklá dali polynom, a to Lagrangeů v interpolač nı́ mnohoč len. Pro ná š př ı́pad: 𝑓(𝑥) = 4 000 ⋅

( (

)⋅( )⋅(

) )

+ 4 000 ⋅

( (

)⋅( )⋅(

) )

+ 1 000 ⋅

( (

)⋅( )⋅(

) )

= −1 500 𝑥 + 4 500 𝑥 + 1 000

𝑓(4) = −1 500 ⋅ 4 + 4 500 ⋅ 4 + 1 000 = −5 000 Tedy na zá kladě interpolač nı́ho mnohoč lenu bychom pro nedě li odhadovali MÍNUS pět tisíc pasaž érů a to je nemož né . • A co když bude zadá no: (Pá ) 4 000 ; (So) 1 000 ; (Ne) 1 000 ? A chtě li bychom odhadnout, kolik asi pasažérů je přepravováno v pondělí. 𝑖

den

𝑥

𝑆 =

0 1 2

Pá So Ne

4 000 1 000 1 000

Po

?

[1] 0,25 0,25

𝑇= / 0,25 1

Prů mě rný koe icient vý voje: 𝑇 ⋅𝑇 =

0,25 ⋅ 1 =

𝑆 =

0,25 = 0,5

⟸ 1 000 ⋅ 0,5

Tedy na zá kladě prů mě rné ho koe icientu vý voje bychom pro pondě lı́ odhadovali 500 pasaž érů , ovš em selský rozum říká, ž e pondě lı́ je pracovnı́ den a tedy bychom mě li oč eká vat spı́še čtyři tisíce př epravovaný ch osob. Jak tedy dě lat smysluplné odhady zá vislé na č ase si uká ž eme v ná sledujı́cı́ kapitole.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2.2. Složené individuální indexy Slož ené individuá lnı́ indexy jsou indexy stejnorodé ho ⁴⁵ extenzitnı́ho nebo intenzitnı́ho ukazatele, které použ ıv́ á me za situace, kdy hodnoty dané ho ukazatele jsou č leně ny na dı́lč ı́ a v rá mci vý poč tu indexu prová dı́me shrnová nı́ dı́lč ı́ch hodnot. Tedy porovnáváme údaje (o množ stvı́, ceně , …), které vznikly součtem. Vzhledem k pozná mce 45 pak platı́ (sč ı́tacı́ index 𝑖 z pohodlnosti opě t uvedeme pouze u prvnı́ho vý razu): 𝐼∑ = 𝐼

=

∑𝑄 ∑𝑄

;

𝐼∑ = 𝐼

;

∑

𝐼 ̄ =𝐼

=

𝑝̄ = 𝑝̄

∑ ∑

∑(

=

∑

⋅

⋅

∑𝑞 ∑𝑞

(28)

)

∑ ∑(

=

)

=

∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞 ∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞

(29)

∑

Index 𝐼 nazý vá me indexem proměnlivého složení, protož e na jeho velikost majı́ vliv jak změ ny intenzitnı́ velič iny p (např ı́klad ceny zbož ı́ v jednotlivý ch prodejná ch), tak i změ ny extenzitnı́ velič iny q (např ı́klad množ stvı́ prodané ho zbož ı́ na jednotlivý ch prodejná ch). ⁴⁵ Obecně lze ř ı́ci, ž e: [11, str. 111] • Ukazatel vyjadř ujı́cı́ velikost urč ité ho jevu bez vztahu k jiné mu jevu (č asové prů mě ry, zisk, př idaná hodnota apod.) je stejnorodý, má -li vě cný smysl shrnovat jeho dı́lč ı́ hodnoty souč tem. • Ukazatel vyjadř ujı́cı́ velikost jednoho jevu na mě rnou jednotku jiné ho jevu je stejnorodý tehdy, – když jsou stejnorodé ukazatele obou jevů , z nichž se sklá dá . – nebo když mů ž eme jeho dı́lč ı́ hodnoty shrnovat prů mě rem. Pokud toto neplatı́, nenı́ ukazatel stejnorodý.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Individuální indexy složené ⟹ jeden ukazatel ve více střediscích 6 prodejen nabı́zı́ stejné zbož ı́. K urč ité mu datu kaž dá prodejna upravila cenu tohoto konkré tnı́ho zbož ı́, což se projevilo na poč tu prodaný ch kusů . Spoč ı́tejte vhodné indexy. Ná sledujı́cı́ ú daje má me k dispozici za stejný č asový ú sek PRED a PO ú pravě ceny. Cena 𝑝 [Kč /kus]

Prodej 𝑞 [kusy]

prodejna

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

∑

17 195

Trž by 𝑄 [Kč ] př ed 𝑄 =𝑝 ⋅𝑞

po 𝑄 =𝑝 ⋅𝑞

2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

17 275

49 410 241

49 658 146

49 431 538

𝑝 ⋅𝑞

Dopoč ı́tá me trž by (𝑄 = 𝑝 ⋅ 𝑞) a zapı́šeme je do tabulky. Potom ješ tě vyplnı́me pomocný sloupec 𝑝 ⋅ 𝑞 (pokud ná s zajı́má index stálého složení 𝐼 nebo index struktury 𝐼 ). Index hodnoty: 𝐼 𝐼 =

=

∑𝑄 49 658 146 = ≐ 1,005 ∑𝑄 49 410 241

∑(𝑝 ⋅ 𝑞 ) 49 431 538 = ≐ 1,001 ∑(𝑝 ⋅ 𝑞 ) 49 410 241


Př edmluva

Literatura

𝐼

Zá vě r

Index množ stvı́: 𝐼 =

=

∑𝑞 17 275 = ≐ 1,005 ∑𝑞 17 195

∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞 49 658 146 ⋅ 17 195 = ≐ 0,995 ∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞 49 431 538 ⋅ 17 275 •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]

prodejna

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

∑

17 195



2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

17 275

49 410 241

49 658 146

49 431 538

𝑝 ⋅𝑞


=

∑𝑄 49 658 146 = ≐ 1,005 ∑𝑄 49 410 241

∑(𝑝 ⋅ 𝑞 ) 49 431 538 = ≐ 1,001 ∑(𝑝 ⋅ 𝑞 ) 49 410 241


Př edmluva

Literatura

𝐼

Zá vě r


=

∑𝑞 17 275 = ≐ 1,005 ∑𝑞 17 195


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]

prodejna

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

∑

17 195



2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

17 275

49 410 241

49 658 146

49 431 538

𝑝 ⋅𝑞


=

∑𝑄 49 658 146 = ≐ 1,005 ∑𝑄 49 410 241

∑(𝑝 ⋅ 𝑞 ) 49 431 538 = ≐ 1,001 ∑(𝑝 ⋅ 𝑞 ) 49 410 241


Př edmluva

Literatura

𝐼

Zá vě r


=

∑𝑞 17 275 = ≐ 1,005 ∑𝑞 17 195


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]

prodejna

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

∑

17 195



2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

17 275

49 410 241

49 658 146

49 431 538

𝑝 ⋅𝑞


=

∑𝑄 49 658 146 = ≐ 1,005 ∑𝑄 49 410 241

∑(𝑝 ⋅ 𝑞 ) 49 431 538 = ≐ 1,001 ∑(𝑝 ⋅ 𝑞 ) 49 410 241


Př edmluva

Literatura

𝐼

Zá vě r


=

∑𝑞 17 275 = ≐ 1,005 ∑𝑞 17 195


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]

prodejna

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

∑

17 195



2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

17 275

49 410 241

49 658 146

49 431 538

𝑝 ⋅𝑞


=

∑𝑄 49 658 146 = ≐ 1,005 ∑𝑄 49 410 241

∑(𝑝 ⋅ 𝑞 ) 49 431 538 = ≐ 1,001 ∑(𝑝 ⋅ 𝑞 ) 49 410 241


Př edmluva

Literatura

𝐼

Zá vě r


=

∑𝑞 17 275 = ≐ 1,005 ∑𝑞 17 195


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]

prodejna

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

∑

17 195



2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

17 275

49 410 241

49 658 146

49 431 538

𝑝 ⋅𝑞


=

∑𝑄 49 658 146 = ≐ 1,005 ∑𝑄 49 410 241

∑(𝑝 ⋅ 𝑞 ) 49 431 538 = ≐ 1,001 ∑(𝑝 ⋅ 𝑞 ) 49 410 241


Př edmluva

Literatura

𝐼

Zá vě r


=

∑𝑞 17 275 = ≐ 1,005 ∑𝑞 17 195


Pravdě podobnost


Index promě nlivé ho slož enı́: 𝐼

=


Regrese, korelace

∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞 =𝐼 ⋅𝐼 ∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞

=


Casové ř ady

49 658 146 ⋅ 17 195 ≐ 0,996 49 410 241 ⋅ 17 275

Pro jednotlivé prodejny má me:

např. E

𝐼 =

𝑝 (𝐸) 2 690 = ≐ 1,003 𝑝 (𝐸) 2 682

⟹

cena vzrostla o tř i desetiny procenta

𝐼 =

2 695 𝑞 (𝐸) = ≐ 0,991 𝑞 (𝐸) 2 720

⟹

prodej klesl o devě t desetin procenta

𝐼 =

7 249 550 𝑄 (𝐸) = ≐ 0,994 𝑄 (𝐸) 7 295 040

⟹

trž by klesly o š est desetin procenta

A celkově 𝐼

≐ 0,996

⟹

prů mě rná cena jednoho vý robku klesla o č tyř i desetiny procenta

𝐼

≐ 1,005

⟹

prodej v celé irmě vzrostl o 5 desetin procenta

𝐼

≐ 1,005

⟹

objem trž eb celé irmy vrostl o 5 desetin procenta, z toho: v dů sledku změ n ceny dané ho vý robku na jednotlivý ch poboč ká ch sice poklesl (kdy prů mě rná cena vý robku 𝐼 klesla ve irmě př ibliž ně o č tyř i desetiny procenta), ale v dů sledku změ n v prodeji (poč tu prodaný ch kusů ) na poboč ká ch celkově vzrostl (kdy prodej v celé irmě 𝐼 vzrostl př ibliž ně o pě t desetin procenta).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

3. Souhrnné (agregátní) indexy Souhrnné indexy množ stvı́ a ú rovně jsou indexy nestejnorodých extenzitnı́ch a intenzitnı́ch velič in. Pro nestejnorodé velič iny je charakteristické , ž e je nelze sč ı́tat (ani když jsou vyjá dř ené ve stejný ch mě rný ch jednotká ch), ale nelze je ani prů mě rovat. Použ ıv́ ajı́ se za situace, kdy nelze sestrojit indexy extenzitnı́ch ukazatelů (28), př ı́padně index promě nlivé ho slož enı́ (29) z dů vodu nemož nosti sestavit velič inu 𝑞 nebo 𝑄 (např ı́klad nelze urč it prů mě rnou cenu pro skupinu rů zný ch vý robků ). Zá kladem koncepce souhrnný ch indexů je myš lenka prů mě rová nı́ změ n (vyjá dř ený ch jednoduchý mi indexy) dı́lč ı́ch hodnot sledované ho ukazatele. V př ı́padě cenový ch indexů se zř ejmě jedná o prů mě rová nı́ indexů cen jednotlivý ch vý robků s tı́m, ž e jako vá hy vystupuje hodnota produkce ze zá kladnı́ho obdobı́ (situace 0), nebo z bě žné ho obdobı́ (situace 1). Jednou z mož nostı́ je použ itı́ vá ž ené ho aritmetické ho prů mě ru individuá lnı́ch jednoduchý ch indexů cen, kde jako vá hy použ ijeme strukturu produkce ze zá kladnı́ho obdobı́. Obdrž ı́me pak prů mě rovaný tvar již dř ıv́ e zmiň ované ho Laspeyresova indexu 𝐼 [11, 115], který po ú pravě také nazý vá me Laspeyresův cenový index a označ ujeme 𝐼 . 𝐼 =

∑(𝐼 ⋅ 𝑝 ⋅ 𝑞 ) ( ) ∑( ⋅ 𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 ) = = =𝐼 ∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 )

Budeme-li analogicky postupovat př i změ ná ch objemu rů znorodé produkce, dostaneme Laspeyresův objemový index 𝐼 . ∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 ) Laspeyresů v objemový index 𝐼 = Souhrnný hodnotový index 𝐼 = ∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 ) Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Souhrnné indexy ⟹ více ukazatelů Prodejna nabı́zı́ stejné (= srovnatelné ) zbož ı́ od 6 vý robců . K urč ité mu datu prodejna upravila ceny, což se projevilo na poč tu prodaný ch kusů . Spoč ı́tejte vhodné indexy. Ná sledujı́cı́ ú daje má me k dispozici za stejný č asový ú sek PRED a PO ú pravě ceny. Cena 𝑝 [Kč /kus]

Prodej 𝑞 [kusy]

Trž by 𝑄 [Kč ]

vý robce

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞

př ed 𝑝 ⋅𝑞

po 𝑝 ⋅𝑞

𝑝 ⋅𝑞

𝑝 ⋅𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

7 081 942 7 351 344 7 903 200 10 157 450 7 227 990 9 915 000

∑

17 195

17 275

49 410 241

49 658 146

49 431 538

49 636 926

Dopoč ı́tá me trž by (𝑄 = 𝑝 ⋅ 𝑞) a zapı́šeme je do tabulky. Potom ješ tě vyplnı́me pomocný sloupec 𝑝 ⋅ 𝑞 a urč ı́me pož adované indexy. Cenový i.: 𝐼 =

∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 ) 49 431 538 49 636 926 = ≐ 1,001 Objemový i.: 𝐼 = = ≐ 1,005 ∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 ) 49 410 241 49 410 241

Hodnotový index: 𝐼 = Vybrané statistické tabulky

∑(𝑝 ⋅ 𝑞 ) 49 658 146 = ≐ 1,005 ∑(𝑝 ⋅ 𝑞 ) 49 410 241

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]


vý robce

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞


po 𝑝 ⋅𝑞

𝑝 ⋅𝑞

𝑝 ⋅𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

7 081 942 7 351 344 7 903 200 10 157 450 7 227 990 9 915 000

∑

17 195

17 275

49 410 241

49 658 146

49 431 538

49 636 926




∑(𝑝 ⋅ 𝑞 ) 49 658 146 = ≐ 1,005 ∑(𝑝 ⋅ 𝑞 ) 49 410 241

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]


vý robce

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞


po 𝑝 ⋅𝑞

𝑝 ⋅𝑞

𝑝 ⋅𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

7 081 942 7 351 344 7 903 200 10 157 450 7 227 990 9 915 000

∑

17 195

17 275

49 410 241

49 658 146

49 431 538

49 636 926




∑(𝑝 ⋅ 𝑞 ) 49 658 146 = ≐ 1,005 ∑(𝑝 ⋅ 𝑞 ) 49 410 241

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]


vý robce

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞


po 𝑝 ⋅𝑞

𝑝 ⋅𝑞

𝑝 ⋅𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

7 081 942 7 351 344 7 903 200 10 157 450 7 227 990 9 915 000

∑

17 195

17 275

49 410 241

49 658 146

49 431 538

49 636 926




∑(𝑝 ⋅ 𝑞 ) 49 658 146 = ≐ 1,005 ∑(𝑝 ⋅ 𝑞 ) 49 410 241

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]


vý robce

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞


po 𝑝 ⋅𝑞

𝑝 ⋅𝑞

𝑝 ⋅𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

7 081 942 7 351 344 7 903 200 10 157 450 7 227 990 9 915 000

∑

17 195

17 275

49 410 241

49 658 146

49 431 538

49 636 926




∑(𝑝 ⋅ 𝑞 ) 49 658 146 = ≐ 1,005 ∑(𝑝 ⋅ 𝑞 ) 49 410 241

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Prodej 𝑞 [kusy]


vý robce

př ed 𝑝

po 𝑝

př ed 𝑞

po 𝑞


po 𝑝 ⋅𝑞

𝑝 ⋅𝑞

𝑝 ⋅𝑞

A B C D E F

2 621 2 618 2 960 3 833 2 682 2 644

2 622 2 619 2 955 3 833 2 690 2 646

2 705 2 822 2 658 2 640 2 720 3 650

2 702 2 808 2 670 2 650 2 695 3 750

7 089 805 7 387 996 7 867 680 10 119 120 7 295 040 9 650 600

7 084 644 7 354 152 7 889 850 10 157 450 7 249 550 9 922 500

7 092 510 7 390 818 7 854 390 10 119 120 7 316 800 9 657 900

7 081 942 7 351 344 7 903 200 10 157 450 7 227 990 9 915 000

∑

17 195

17 275

49 410 241

49 658 146

49 431 538

49 636 926




∑(𝑝 ⋅ 𝑞 ) 49 658 146 = ≐ 1,005 ∑(𝑝 ⋅ 𝑞 ) 49 410 241

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pro jednotlivé vý robce má me:

např. F

𝐼 =

2 646 𝑝 (𝐹) = ≐ 1,001 𝑝 (𝐹) 2 644

⟹

cena vzrostla o jednu desetinu procenta

𝐼 =

𝑞 (𝐹) 3 750 = ≐ 1,027 𝑞 (𝐹) 3 650

⟹

prodej vzrostl o dvě celé sedm desetin procenta

𝐼 =

𝑄 (𝐹) 9 922 500 = ≐ 1,028 𝑄 (𝐹) 9 650 600

⟹

trž by vzrostly o dvě celé osm desetin procenta

A celkově 𝐼 ≐ 1,001

⟹

vlivem změ n v ú rovni jednotkový ch cen celkové trž by vzrostly př ibliž ně o jednu desetinu procenta

𝐼 ≐ 1,005

⟹

vlivem změ n v prodané m množ stvı́ celkové trž by vzrostly př ibliž ně o pě t desetin procenta

𝐼 ≐ 1,005

⟹

vlivem obou př ı́čin celkové trž by vzrostly př ibliž ně o pě t desetin procenta


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Přehledné uspořádání pojmů Sta s cký ukazatel je č ı́slo, které v dané m prostoru a č ase charakterizuje urč itou skuteč nost (urč itý jev). Bazický index porovná vá konkré tnı́ ukazatel (např ı́klad trž by v jednom obdobı́) vž dy se zvolený m (nultý m) ukazatelem (vě tš inou za bá zi, tj. nultý ukazatel, volı́me poč áteč nı́ ukazatel, který je k dispozici). Pro 𝑖 = 1, 2, … , 𝑛 jej mů ž eme vyjá dř it ve tvaru: 𝑆 =

𝑥 𝑥

Řetězový index porovná vá vž dy dva sousednı́ ukazatele. Pro 𝑖 = 1, 2, … , 𝑛 jej mů ž eme vyjá dř it ve tvaru: 𝑥 𝑇 = 𝑥 Průměrný koeficient vývoje je vý voj sledované ho ukazatele v č ase vyjá dř ený geometrickým průměrem řetězových indexů. Pro 𝑖 = 1, 2, … , 𝑛 jej mů ž eme vyjá dř it ve tvaru: 𝑥̄ =


Př edmluva

𝑇 ⋅𝑇 ⋅…⋅𝑇 =

Literatura

Zá vě r

𝑥 𝑥 𝑥 ⋅ ⋅…⋅ 𝑥 𝑥 𝑥

=

𝑥 = 𝑥

𝑆


Pravdě podobnost



Index hodnoty 𝐼

(např ı́klad trž by).

Regrese, korelace


Casové ř ady

Index množství 𝐼 (jednoho konkré tnı́ho ukazatele). Index úrovně 𝐼 (např ı́klad ceny jednoho konkré tnı́ho zbož ı́). Pro sumy kvů li př ehlednosti opě t použ ijeme struč ný zá pis s vynechá nı́m symbolů , př es které sč ı́tá me. Tedy např ı́klad mı́sto ∑ 𝑄

budeme psá t jen ∑ 𝑄 .

;

index hodnoty Individ. jednoduché i.

𝐼 =

index množství

𝑄 𝑝 ⋅𝑞 = 𝑄 𝑝 ⋅𝑞

𝐼 =

index úrovně

𝑞 𝑞

𝐼 =

𝐼 Individuá lnı́ slož ené

𝐼

=

∑𝑄 ∑𝑄

𝐼

=

∑𝑞 ∑𝑞

∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞 = ∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞 𝐼 =

indexy 𝐼

(dle Laspeyrese) Souhrnný index


hodnotový index 𝐼 =

Př edmluva

∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 ) Literatura

L. cenový index 𝐼 =

Zá vě r

∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 )

𝑝 𝑝

=

∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 )

∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞 ∑(𝑝 ⋅ 𝑞 ) ⋅ ∑ 𝑞

𝐼 =𝐼 ⋅𝐼 index promě nlivé ho slož enı́ index stá lé ho slož enı́ index struktury 𝐼 =𝐼 ⋅𝐼

L. objemový index 𝐼 =

∑(𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 )


Pravdě podobnost



Regrese, korelace


Casové ř ady

4.1. Příklady používaných indexů v praxi Cenové indexy patř ı́ k nejstarš ı́m o iciá lně sledovaný m indexů m. Potř eba zachytit cenový vý voj v rů zný ch př ı́padech vedla nakonec k vytvoř enı́ tak zvané cenové statistiky. V Ceské republice se v oblasti cenové statistiky použ ıv́ ajı́ souhrnné Laspeyeresovy cenové indexy s vahami, které jsou stá lé po celou dobu mezi revizemi cen. Soubor reprezentantů a vá hový systé m tvoř ı́ tak zvaný spotřební koš. Index spotřebitelských cen je v souč asné době poč ı́tá n na zá kladě souboru 775 reprezentantů . Poč et reprezentantů je kompromisem mezi př esnostı́ a ná klady na prů zkum. Nový revidovaný spotř ebnı́ koš je založ en na souboru vybraný ch druhů zbož ı́ a služ eb, které se vý znamně podı́lejı́ na vý dajı́ch obyvatelstva a svý m rozsahem pokrý vajı́ celou sfé ru spotř eby s vahami roku 1999. Zpravodajský mi jednotkami jsou rozdı́lné typy prodejen a provozoven služ eb z hlediska velikosti, druhu, vlastnictvı́ apod. — zhruba 10 tisı́c. Index spotř ebitelský ch cen je konstruová n ve tvaru:, ∑ 𝐼 =

⋅ (𝑝 ⋅ 𝑞 ) ∑(𝑝 ⋅ 𝑞 )

kde vý raz 𝑝 ⋅ 𝑞 př edstavuje stá lé vá hy — vý daje domá cnostı́ za zbož ı́ (služ bu) v zá kladnı́m obdobı́. Index životních nákladů vyjadř uje, jak se index spotř ebitelský ch cen promı́tá do vý dajů domá cnostı́. Index ž ivotnı́ch ná kladů je poč ı́tá n pro ná sledujı́cı́ sociá lnı́ skupiny: • domá cnosti celkem; • domá cnosti zamě stnanců ;


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

• domá cnosti dů chodců ; • domá cnosti s dě tmi v nı́zké m př ı́jmové m pá smu; • domá cnosti ž ijı́cı́ v hlavnı́m mě stě Praze. Měření inflace je založ eno na indexu spotř ebitelský ch cen. Zá kladnı́ mı́rou in lace je roč nı́ mı́ra in lace, která klouzavě srovná vá prů mě r poslednı́ch 12 mě sı́ců s prů mě rem př edchá zejı́cı́ch mě sı́ců . V Ceské republice jsou publiková ny tyto mı́ry in lace: Měsíční tempo inflace (což je cenový index) srovná vá ú roveň cen v hodnocené m mě sı́ci a v mě sı́ci př edchá zejı́cı́m: 𝐼 𝑀 = − 1 ⋅ 100 𝐼 kde 𝐼 je bazický index spotř ebitelský ch cen ve sledované m mě sı́ci a 𝐼 je bazický index spotř ebitelský ch cen v mě sı́ci př edchá zejı́cı́m. Bá ze je cena v prosinci roku 1999. Meziroční tempo inflace srovná vá ú roveň cen v hodnocené m mě sı́ci a ve stejné m mě sı́ci př edchá zejı́cı́ho roku: 𝐼 − 1 ⋅ 100 𝑀 = 𝐼 Roční tempo inflace srovná vá ú roveň cen v poslednı́ch 12 mě sı́cı́ch a ve 12 mě sı́cı́ch př edchá zejı́cı́ch: ⎛ 𝑀 =⎜

∑ 𝐼 ∑

⎝ Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r

⎞ − 1⎟ ⋅ 100

𝐼 ⎠ •First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Pravdě podobnost



Regrese, korelace


Casové ř ady

Jádrová inflace vyjadř uje mě sı́čnı́ př ı́rů stek indexu spotř ebitelský ch cen poč ı́taný na celé m spotř ebnı́m koš i po vylouč enı́ vlivu změ n ovlivně ný ch regulovaný mi cenami, daň ový mi ú pravami a jiný mi administrativnı́mi opatř enı́mi. Čistá inflace je poč ı́tá na na neú plné m spotř ebnı́m koš i, z ně hož jsou vylouč eny polož ky s regulovaný mi cenami a cenami ovlivně ný mi administrativnı́mi opatř enı́mi, ale polož ky, u nichž jsou změ ny cen způ sobené daň ový mi ú pravami, zů stá vajı́ ve spotř ebnı́m koš i. Pouze je eliminová n vliv daň ový ch ú prav. Indexy kurzů akcií př edstavujı́ zvlá š tnı́ typ cenový ch indexů . Ne kaž dý index kurzu akciı́, se který m se mů ž ete setkat v praxi jednotlivý ch zemı́, je indexem konstruovaný m ve vý še uvedené smyslu. V praxi použ ıv́ ané indexy kurzů akciı́ se liš ı́ svou konstrukcı́, ale i trhem, pro který jsou sestavová ny. Z hlediska konstrukce se použ ıv́ ajı́ buď jako aritmetický nebo harmonický č i geometrický prů mě r. Ať již jako prostý prů mě r nebo jako vá ž ený prů mě r indexů kurzů akciı́. Jedná se buď o kurzově (cenově ) vá ž ené prů mě ry — sledujı́ stav a vý voj prů mě rné ceny titulu akcie; nebo o tržně vá ž ené prů mě ry — sledujı́ prů mě rnou cenu akcie z celkové ho objemu emitovaný ch akciı́.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Uvod do Časových řad


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obsah kapitoly: Časové řady 1. Základní pojmy 337 1.1. Zá kladnı́ charakteristiky dynamiky vý voje č asový ch ř ad . . . . . . . . . . . . . . . . . . . . 342 2. Vyrovnání časových řad 344 2.1. Problé my př i analý ze č asový ch ř ad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 3. Modelování časových řad — trend 348 3.1 Lineá rnı́ trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 3.2 Kvadratický trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Trendy — př ı́klady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 4. Závěr kapitoly – Využi programového vybavení


Př edmluva

Literatura

Zá vě r

371


Pravdě podobnost



Regrese, korelace


Casové ř ady

1. Základní pojmy Časovou řadou (dynamickou ř., vý vojovou ř.) rozumı́me posloupnost vě cně a prostorově srovnatelný ch dat, která jsou jednoznač ně uspoř ádá na z hlediska č asu ve smě ru „minulost → př ı́tomnost“. Casové ř ady upoutá vajı́ vı́ce než pomě rná č ı́sla nebo nehybná rozdě lenı́ č etnostı́, protož e vná š ejı́ dimenzi č asu. Ukazujı́ ně kolika č arami nebo č ı́sly vý voj, který jsme zpravidla jen nejasně tuš ili. Př esto nenı́ rozdı́l mezi č asovou ř adou a jednotlivý mi statistický mi vý bě ry nebo vyč erpá vajı́cı́m š etř enı́m. Stejně jako se ilm sklá dá z jednotlivý ch nehybný ch obrá zků , je i č asová ř ada slož ena z takový ch jednotlivý ch snı́mků . Casové ř ady v zá sadě vytvá ř ejı́ spojenı́ mezi stejnorodými ⁴⁶ ú daji (zjiš tě nı́mi, vý pově ďmi) z rů zný ch dob, avš ak stejné ho vě cné ho obsahu. Mů ž e jı́t nejen o plynulá porovná vá nı́ (roč nı́ dovozy a vý vozy za poslednı́ch 𝑥 let) ale i o porovná nı́ jednotlivý ch vybraný ch ú dajů , jako je např ı́klad struktura povolá nı́ ve Svý carsku v letech 1888, 1900, 1910, 1920, 1930, 1941, 1950 a 1960 (obrá zek 7). Plynulá pozorová nı́ nejsou vš ak č asto vů bec mož ná . Casová ř ada z vý sledků hromadný ch sč ı́tá nı́ lidu nejenž e př eskakuje velká (vě tš inou desetiletá ) obdobı́, ale kromě toho poskytuje jen bodové ú daje, které př ı́sně vzato platily jen v okamž iku odevzdá nı́ sč ı́tacı́ho lı́stku. Proto je tř eba rozliš ovat mezi č asový mi ř adami okamžikovými, kdy se hodnoty ukazatele (statistické ho znaku) vztahujı́ k urč ité mu okamž iku, a č asový mi ř adami intervalovými, kdy hodnoty ukazatele jsou sledová ny za urč ité obdobı́ (v urč ité m č asové m intervalu) a jsou proto dé lkou tohoto obdobı́ ovlivně ny. Zatı́mco ú daje okamž ikový ch ř ad lze zjiš ťovat pouze k rozhodné mu dni (př i poslednı́m sč ı́tá nı́ bylo tolik muž ů a tolik ž en, tolik rodin, tolik nezletilý ch dě tı́ apod.), ú daje intervalový ch ř ad musejı́ bý t naproti tomu zjiš ťová ny a srovná vá ny za urč ité obdobı́. Pokud bychom sč ı́tali sň atky minulou sobotu ú derem ⁴⁶ Sledujeme-li např ı́klad poč ty krá dež ı́ ve dané oblasti (okres, kraj) za delš ı́ č asový ú sek, je mož né , ž e v urč ité m obdobı́ zaregistrujeme jejich ná hlou změ nu. Ta ovš em mů ž e způ sobena jen tı́m, ž e zá konem byla změ ně na hodnota minimá lnı́ způ sobené š kody nutné k zahrnutı́ mezi krá dež e. Nebo mohlo dojı́t v rá mci reformy stá tnı́ sprá vy ke změ ně rozsahu (slouč enı́ č i rozdě lenı́) sledované oblasti.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


dvaná cté , dostali bychom té mě ř jistě nulu, ledaž e by ně kde př ipadla oddá vajı́cı́ formule př esně na poledne. Ovš em č asový interval od 8 hodin rá no do 20 hodin več er poskytuje celkem rozumnou srovná vacı́ hodnotu pro poč et sň atků za jeden den. Okamžikové ř ady (stálé soubory) jsou takové , jejichž prvky (hodnoty ukazatele) se plynule mě nı́ v č ase a majı́ urč itou dobu trvá nı́. Např ı́klad obyvatelstvo ně jaké ho ú zemı́. Jednotlivci se rodı́ a umı́rajı́ — celek obyvatelstva je tı́m z dlouhodobé ho hlediska dotč en jen tehdy, když trvá zř ejmá př evaha narozenı́ č i ú mrtı́. Nebo poč et automobilů , které irma vlastnı́ k urč ité mu datu. Kaž dý prvek stá lé ho souboru má urč itou dobu „setrvá nı́“ — u lidı́ je to individuá lnı́ dé lka ž ivota, u ná hradnı́ho dı́lu setrvá nı́ ve skladu dı́lny a u hosta na dovolené doba pobytu v prá zdninové m hotelu (obrá zek 8). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


V př ı́padě okamž ikový ch č asový ch ř ad nemá souč et hodnot znaku vě cný smysl (např ı́klad nemá vý znam sč ı́tat poč ty zamě stnanců zjiš tě né vž dy v prvnı́ stř edu kalendá ř nı́ho mě sı́ce). Ovš em má smysl vyjá dř it prů mě rnou ú roveň hodnot. K tomu využ ıv́ á me chronologický prů mě r. Tı́mto jediný m č ı́slem pak charakterizujeme ú roveň ukazatele za celé obdobı́. Je ale zř ejmé , ž e tı́m dochá zı́ ke znač né mu zjednoduš ová nı́ reality. Oblı́beně jš ı́ jsou proto rů zné druhy klouzavý ch ukazatelů , které jsou schopny č ásteč ně eliminovat vliv ná hodný ch vlivů na sledovaný ukazatel a tı́m č asovou ř adu „vyhladit“. Použ ıv́ ajı́ se jak klouzavé mediány, tak klouzavé průměry. Vž dy se postupuje tak, ž e ú daj č asové ř ady nahradı́me zvolený m ukazatelem z okolnı́ch č asově př edchá zejı́cı́ch a ná sledujı́cı́ch ú dajů . Jaký to má smysl? Např ı́klad př i sledová nı́ prodeje je pravidelně ú daj za daný mě sı́c v ně který ch obdobı́ch zvlá š ť velký (ná poje č i mraž ené ho zbož ı́ v letnı́ch mě sı́cı́ch) a v jiný ch zase pravidelně Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

menš ı́. Objevujı́ se sezó nnı́ vý kyvy. Vzá jemný m srovná vá nı́m ú dajů pro rů zné mě sı́ce nezı́ská me pak př ehled o tom, zda dochá zı́ ke skuteč né změ ně nebo jenom změ ně vyvolané sezó nnı́m vý kyvem. Jestliž e vš ak srovná vá me pro dané mě sı́ce souč ty vž dy za poslednı́ch 12 mě sı́ců , má v sobě kaž dý tento klouzavý roč nı́ ú hrn zahrnuty vš echny sezó nnı́ vý kyvy v roce a mů ž eme pak na nich pozorovat skuteč né ná rů sty č i poklesy prodeje. Intervalové ř ady (pohyblivé soubory) jsou soubory udá lostı́. Vznikajı́cı́ udá losti se dajı́ mě řit jen tı́m způ sobem, ž e se sč ı́tajı́ jevy vzniklé bě hem dané ho obdobı́. Např ı́klad poč et kusů zbož ı́ vyrobené ho za daný mě sı́c. Také oba jevy, které vymezujı́ dobu setrvá nı́, lze poklá dat za pohyblivé soubory: narozenı́ a smrt, př ı́jem na sklad a vý dej ze skladu, př ı́jezd a odjezd ná vš tě vnı́ků (viz obrá zek 8), ná kup auta do irmy a odprodej auta, atd. V př ı́padě intervalový ch ř ad již má smysl jejich sč ı́tá nı́ (seč teme-li trž by od pondě lı́ do nedě le, zı́ská me tý dennı́ trž bu) a vý znam má i prů mě rná hodnota, vě tš inou vyjá dř ená pomocı́ aritmetické ho prů mě ru. Pro intervalové ř ady ovš em musı́me zajistit jejich srovnatelnost a to jak č asovou (intervaly musejı́ bý t stejně dlouhé ), tak prostorovou (ú daje – data musejı́ pochá zet ze „stejně velký ch ú zemı́“). V př ı́padě , ž e tomu tak nenı́ a ú daje v sobě nesou zkreslenı́, prová dı́me tzv. vyrovná nı́ č i oč istě nı́ č asové ř ady. Casová ř ada ukazuje vě tš inou vý voj – vý vojovou linii. Ovš em pokud vezmeme obrat obchodnı́ho domu za poslednı́ch deset let, bude asi vykazovat stoupajı́cı́ tendenci, což ale nemusı́ mnoho znamenat. Je př ece docela dobř e myslitelné , ž e rů st bude způ soben in lacı́, zatı́mco „reá lný “ obrat (př i jeho propoč tu se př ihlı́žı́ k poklesu kupnı́ sı́ly mě ny) stagnuje nebo dokonce mı́rně klesá . Z tě chto dů vodů je nutno ú daje o obratu „oč istit“ od tohoto ruš ivé ho faktoru. Zatı́mco kř ivka celkový ch roč nı́ch obratů smě řuje plynule (alespoň jak jsme se bez uvaž ová nı́ in lace domnı́vali) „nahoru“, změ nı́ se tento obraz velmi rychle, když rok rozdě lı́me na č tvrtletı́ nebo dokonce mě sı́ce. Z pů vodně hladké kř ivky se stane „divoce“ lomená č ára (viz obrá zek 9). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Zač nou se totiž projevovat vš echny vlivy, které jsou pro obchody zpravidla typické : mdlá kupnı́ ná lada na poč átku roku, sezó nnı́ vý prodeje, př edvá noč nı́ obchodnı́ ruch apod. Svá tky a vliv poč ası́ zavá dě jı́ vliv nepravidelnosti nejen do obratu obchodnı́ch ř etě zců , ale mohou vyvolat velký zmatek př edevš ı́m v č ı́slech statistik cestovnı́ho ruchu, které mohou od bř ezna jednoho roku k bř eznu druhé ho roku stejně jako od dubna jednoho roku k dubnu druhé ho roku vykazovat podivuhodné skoky dı́ky velikonoců m a jarnı́m prá zdniná m, což obojı́ je pohyblivá udá lost. Jestliž e jsou k dispozici pozorová nı́ za dostateč ně dlouhá č asová obdobı́, je mož né v ně který ch př ı́padech postř ehnout cyklus. Jak dlouhé musı́ bý t č asové obdobı́, aby se dal urč itý cyklus postř ehnout, nelze obecně ř ı́ci. To musı́ vyplynout ze zı́skaný ch ú dajů . Podle periodicity (dé lky cyklu) lze č asové ř ady dě lit na krátkodobé, kdy perioda je kratš ı́ než jeden rok (poč et smluv uzavř ený ch bě hem tý dne, slapová dmutı́ moř e, …) a dlouhodobé kdy perioda je alespoň jeden rok (roč nı́ zisk irmy). Zř etelný cyklus v prů bě hu př ibliž ně 24 hodin př edstavuje moř ský př ı́liv a odliv, který je mož né zjistit ř adou hodinový ch nebo dvouhodinový ch intervalů . Kdybychom vš ak mě řili stav vody na pobř ež ı́ kaž dý č tvrtek př esně v pravé poledne, trvalo by asi velmi dlouho, než bychom z tě chto mě řenı́ mohli uč init sprá vný zá vě r. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

1.1. Základní charakteris ky dynamiky vývoje časových řad Dynamikou vý voje č asové ř ady rozumı́me změ ny hodnot sledované ho ukazatele v č ase. Nutnou podmı́nkou pro sprá vnou interpretaci charakteristik jsou ekvidistantní č asové intervaly (majı́ stejnou dé lku). (1)

Absolutní přírůstek Δ𝑡

(ně kdy té ž 1. diference) je rozdı́l mezi hodnotou znaku v č ase t a v č ase

př edchá zejı́cı́m:

( )

Δ

=𝑦 −𝑦

kde

𝑡 = 2, 3, 4, …

Hodnoty prvnı́ch diferencı́ ně jaké ho ukazatele jsou nositelem dů lež ité informace. Pokud se totiž jednotlivé č leny té to posloupnosti systematicky ani nezvě tš ujı́ ani nezmenš ujı́ (mů ž eme ř ı́ci, ž e jejich hodnoty pouze ná hodně a „ne př ı́liš “ kolı́sajı́), lze u pů vodnı́ č asové ř ady př edpoklá dat lineární trend. Hodnoty ukazatele Y č asové ř ady budou lež et té mě ř na př ı́mce, nebo-li jsou lineá rně zá vislé v č ase. Viz povı́dá nı́ o lineá rnı́ zá vislosti v kapitole zabý vajı́cı́ se regresnı́mi vztahy mezi dvourozmě rný mi daty. Tehdy jsme pouze nepouž ıv́ ali slovı́čko absolutní.

Rela vní přírůstek 𝛿𝑡 je podı́l, kdy absolutnı́ př ı́rů stek dě lı́me hodnotou znaku v č ase př edchá zejı́cı́m:

( )

𝛿 =

Δ 𝑦

=

𝑦 −𝑦 𝑦

kde

𝑡 = 2, 3, 4, …

Z hodnot relativnı́ch př ı́rů stků mů ž eme usuzovat (proč si uká ž eme u dalš ı́ch charakteristiky 𝐼 ) na tempo rů stu sledované ho ukazatele Y v pů vodnı́ č asové ř adě . Rostou-li hodnoty 𝛿 , vykazuje ukazatel rostoucı́ tempo rů stu (a naopak). Pokud je posloupnost relativnı́ch př ı́rů stků zhruba konstantnı́, lze usuzovat i na konstantnı́ tempo rů stu sledované ho ukazatele.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost


(2)

Druhá diference Δ𝑡


Regrese, korelace


Casové ř ady

je absolutnı́ diference prvnı́ch diferencı́: ( )

Δ

( )

=Δ

( )

−Δ

kde

𝑡 = 3, 4, 5, …

S tı́mto pojmem jsme se již také setkali př i povı́dá nı́ o kvadratické zá vislosti v kapitole zabý vajı́cı́ se regresnı́mi vztahy mezi dvourozmě rný mi daty. Tehdy jsme jej nazý vali přírůstkem přírůstků. Takž e již vı́me, ž e pokud se jednotlivé č leny posloupnosti druhý ch diferencı́ systematicky ani nezvě tš ujı́ ani nezmenš ujı́ (jejich hodnoty oscilujı́ pouze ná hodně a „ne př ı́liš “), lze u pů vodnı́ č asové ř ady př edpoklá dat kvadratický trend. Hodnoty ukazatele Y č asové ř ady budou lež et té mě ř na parabole. A ná sledujı́cı́ charakteristiky také zná me, a to z kapitoly o hospodá ř ské statistice.

Koeficient růstu 𝐼𝑡 (řetězový index) nebo-li individuá lnı́ jednoduchý index o promě nlivé m zá kladu (vztaž ený k bezprostř edně př edchá zejı́cı́mu pozorová nı́ v č asové ř adě pů vodnı́ch hodnot): 𝐼 =

𝑦 𝑦

=

𝑦 −𝑦 +𝑦 𝑦

=𝜎 +1

kde

𝑡 = 2, 3, 4, …

Koe icient rů stu vyjá dř ený v procentech se nazý vá tempo růstu. Pokud hodnoty v posloupnosti koe icientů rů stu „př ı́liš “ neoscilujı́, lze př edpoklá dat, ž e pů vodnı́ č asová ř ada má exponenciální trend.

Průměrný koeficient růstu 𝑇 je geometrický m prů mě rem koe icientů rů stu: 𝑇=


Př edmluva

Literatura

𝐼 ⋅𝐼 ⋅𝐼 ⋅…⋅𝐼 =

Zá vě r

𝑦 𝑦


Pravdě podobnost



Regrese, korelace


Casové ř ady

Protož e prů mě rný koe icient rů stu zá visı́ pouze na krajnı́ch hodnotá ch ř ady, lze zı́skat zcela stejný prů mě rný koe icient rů stu pro ř ady, které se shodujı́ pouze ve svý ch krajnı́ch ú rovnı́ch, ale jinak majı́ zcela rozdı́lný prů bě h. Proto je nutné př ed vý poč tem peč livě analyzovat př ı́sluš nou č asovou ř adu a je-li to nutné , rozdě lit ji na ně kolik č ástı́ tak, aby v kaž dé z tě chto č ástı́ sledovaný ukazatel vykazoval v podstatě monotó nnı́ vý voj. A pro kaž dou z tě chto č ástı́ pak stanovit prů mě rné koe icienty rů stu (podobně jako jsme to dě lali v př ı́padě lineá rnı́ch regresnı́ch funkcı́).

2. Vyrovnání časových řad Mimo již dř ıv́ e zmiň ovaný celkový vý voj, vlivy roč nı́ch obdobı́ a cykly mohou na č asovou ř adu pů sobit ješ tě jednorá zové mimoř ádné jevy. Tyto jevy mohou bý t rozeznatelné již př edem, např ı́klad devalvace mě ny (na obrá zku 10 zachycujı́cı́mu sezó nně vyrovnaný export Velké Britá nie je zř etelný projev snı́ženı́ hodnoty libry z podzimu roku 1967). Jestliž e jev, který vznikl jednorá zově , pů sobı́ trvale, lze mluvit o jaké msi „zlomu struktury“, který vede ke změ ně dalš ı́ho vý voje. Např ı́klad vyná lez syntetický ch vlá ken postavil textilnı́ prů mysl př ed zcela novou situaci. Jednorá zový jev a vý voj jsou tedy ně kdy v ú zké m spojenı́, a cykly proto mohou mı́t pochybnou vypovı́dacı́ hodnotu. Sezó nnı́ vlivy také nejsou vž dy tak jasně prokazatelné , jako je tomu např ı́klad př i prodeji zmrzliny nebo ve stavebnictvı́ č i v cizinecké m ruchu. Proto je kaž dý pokus o vyrovnání (oč iš tě nı́ ř ady) prvotnı́ch ú dajů prová zen nebezpeč ı́m, ž e mů ž e dojı́t k nové mu zkreslenı́. Nejmé ně š kodlivé je, když se urč ı́ srovnatelné obdobı́. Tak např ı́klad lze ú č elně srovnat ú daje o cizinecké m ruchu v zá ř ı́ jednoho roku jen s ú daji z mě sı́ců zá ř ı́ v ostatnı́ch letech. Ale i takové relativně jednoduché porovná nı́ se „srovnatelný m mě sı́cem“ mů ž e bý t zavá dě jı́cı́, jestliž e v loň ské m roce bylo zá ř ı́ ná dherné a teplé a ná sledovalo po deš tivé m a chladné m srpnu. V jiný ch letech to nebude platit.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


Abychom se vš eobecně vyhnuli takový m nahodilostem, pak v zá jmu opravy od rušivých, ale nepodstatný ch vlivů , postupujeme vě tš inou ná sledovně : intervalové č asové ř ady (hodnoty za urč itý č asový interval) transformujeme na stejně dlouhý č asový ú sek. Protož e bě žný rok má 365 dnı́, tak za dé lku bě žné ho mě sı́ce bereme 365 ∶ 12 ≐ 30, 42. Potom např ı́klad lednovou hodnotu budeme ná sobit č ı́slem , , ú norovou , , atd. Pokud vı́ce zaokrouhlı́me, mů ž eme za prů mě rný mě sı́c považ ovat ten, který má 30 dnů . Podobně i pro jiné č asové intervaly, než je zde zmiň ovaný mě sı́c. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Množ stvı́ vytě žené ho uhlı́ v prvnı́m pololetı́ roku 2001 Mě sı́c

Dny

leden

reálné h.

reálné hodnoty / den

vý poč et

očištěné hodnoty

31

1 180

1 180 : 31 = 38,065

38,065 ⋅ 30,42 =

1 158

ú nor

28

1 010

1 010 : 28 = 36,071

36,071 ⋅ 30,42 =

1 097

bř ezen

31

1 200

1 200 : 31 = 38,710

38,710 ⋅ 30,42 =

1 178

duben

30

1 090

1 090 : 30 = 36,333

36,333 ⋅ 30,42 =

1 105

kvě ten

31

1 180

1 180 : 31 = 38,065

38,065 ⋅ 30,42 =

1 158

č erven

30

1 130

1 130 : 30 = 37,667

37,667 ⋅ 30,42 =

1 146

součet

181

6 790

6 790 : 181 = 37,514

37,514 ⋅ 6 ⋅ 30,42

= 6 847 | ∑ = 6 842

okamžikové č asové ř ady (hodnoty vž dy k dané mu datu) vyrovná vá me nejč astě ji metodou klouzavých průměrů (viz obrá zek 11). Např ı́klad: 10, 15, 12, 8, 20, 15, 5 ̄

Existuje ješ tě ř ada jiný ch postupů vyrovná nı́ č asový ch ř ad. Zá dný z nich vš ak nenı́ docela bez problé mů , protož e v samé podstatě vyrovná vá nı́ je obsaž ena nutnost odchylky od daný ch ú dajů tı́m, ž e se posuzujı́ (s nutně subjektivnı́m zabarvenı́m) faktory, které se mohou koneckonců jen odhadnout.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obrá zek 11: Sché ma klouzavé ho prů mě ru (př evzato z [14])

Vž dy se př ipojuje nejnově jš ı́ mě sı́čnı́ nebo roč nı́ č i tý dennı́ vý sledek a nejstarš ı́ se vypouš tı́. Vlevo je prvnı́ propoč et prů mě ru, uprostř ed odpadá starých 10 a nových 15 se př idá vá , vpravo rovně ž odpadá nejstarš ı́ č ı́slo a mı́sto ně j př idá vá me nejnově jš ı́.

Příklad: Ze zá znamů (viz tabulka) dochá zky ve irmě s celotý dennı́m provozem zjistě te prů mě rnou dennı́ dochá zku v dané m tý dnu. den Po Ut St Ct Pá So Ne př ı́tomno

58

60

60

59

56

56

56

Řešení: Protož e vı́me pouze to, kolik daný den pracovalo zamě stnanců a již nevı́me, zda byl př ı́tomen Vonásek, Opička č i Novák, jedná se o okamž ikovou č asovou ř adu. Proto pro vý poč et prů mě rné dochá zky použ ijeme chronologický prů mě r. Po seřazení datový ch ú dajů a jejich dosazenı́: 𝑥̄

=

1 ⋅(𝑥 +2𝑥 +…+2𝑥 2 ⋅ (𝑛 − 1)

+𝑥 ) =

1 ⋅(56+2⋅56+2⋅56+2⋅58+2⋅59+2⋅60+60) = 2 ⋅ (7 − 1)

694 ≐ 57,83, což je prů mě rná (aritmetický prů mě r aritmetický ch prů mě rů sousednı́ch dvojic) 12 dennı́ dochá zka. =


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

2.1. Problémy při analýze časových řad Př i zpracová nı́ dat ve formě č asové ř ady se potý ká me s množ stvı́m problé mů (na ně které jsme upozornili v př edchozı́m textu), které jsou prá vě pro č asové ř ady speci ické . Jedná se př edevš ı́m o problé my: • s volbou č asový ch bodů pozorová nı́; • s kalendá ř em – rů zná dé lka mě sı́ců , – rů zný poč et vı́kendů v mě sı́ci, – rů zný poč et pracovnı́ch dnů v mě sı́ci, – pohyblivé svá tky; • s dé lkou č asový ch ř ad; • nesrovnatelnostı́ dat.

3. Modelování časových řad — trend Casovou ř adu zkoumá me proto, abychom mohli „odhalit“ mechanizmus pů sobenı́ č asu na utvá ř enı́ hodnot sledované ho statistické ho ukazatele Y. Nebo jinak, abychom pochopili př ı́činy, které na tyto jevy pů sobily a ovlivň ovaly jejich chová nı́ v minulosti. A ná sledně abychom zı́skané poznatky využ ili k prognó ze do budoucna. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Př edpoklá dá me, ž e model (který popisujeme č asovou ř adou) obsahuje ná sledujı́cı́ slož ky: Trendovou 𝑇 — hlavnı́ (obecná ) tendence dlouhodobé ho vý voje vý voje zkoumané ho jevu za dlouhé obdobı́. Je vý sledkem dlouhodobý ch a stá lý ch procesů . Trend mů ž e bý t rostoucı́, klesajı́cı́ nebo mů ž e existovat ř ada bez trendu. Sezónní 𝑆 — pravidelně se opakujı́cı́ vý kyvy (odchylky od trendové slož ky) s periodou kratš ı́ jak jeden rok; Cyklickou — dlouhodobé kolı́sá nı́ kolem trendu ⁴⁷; v dů sledku dlouhodobé ho cyklické ho vý voje (použ ıv́ á se spı́še v makroekonomický ch ú vahá ch). Náhodnou 𝜀 — souhrn drobný ch nezá vislý ch př ı́čin, ktré se nedajı́ popsat ž ádnou funkcı́ č asu. Je to „zbytek“ po vylouč enı́ trendu, sezó nnı́ a cyklické slož ky. Za (aditivnı́) model č asové ř ady pak mů ž eme považ ovat vztah 𝑦 =𝑇 +𝑆 +𝜀 kde 𝑦 je hodnota promě nné zá vislá na č ase 𝑡, což je nezá vislá (č asová ) promě nná a mů ž eme ji celkem libovolně vyjá dř it v jaký chkoliv č asový ch jednotká ch s libovolný m poč átkem. Když promě nnou t volı́me tak, aby byla • ekvidistantní (pravidelně rostla o stejný krok), • malá (a radě ji pouze celoč ı́selná ; to kvů li zjednoduš enı́ vý poč tů ) • a jejı́ aritmetický prů mě r byl NULA, provedeme centrovanou č asovou transformaci. Tı́m lze vý poč ty pro klasickou metodu nejmenš ı́ch č tverců zjednoduš it. ⁴⁷ Př iklonı́me se k č asté mu ná zoru, ž e cyklickou slož ku lze považ ovat za souč ást trendu.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Model trendu (vhodnou funkci, která nejlé pe popisuje trend) si uká ž eme pouze pro př ı́pad rovnice př ı́mky nebo paraboly. Pro jiné typy kř ivek odkazujeme na př ı́sluš nou literaturu (např. [13]). ∑𝑦 Lineární trend 𝐿(𝑡) ∶ 𝑦 = 𝑎 + 𝑏.𝑡

⟹

Lineární bodová předpověď 𝐿 = 𝐿(𝑡 ) rovnice lineá rnı́ho trendu.

Platı́-li 𝑡̄ = 0, pak

a=

∀

𝑛

∑(𝑦 ⋅ 𝑡 ) , b=

∀

∑𝑡

hodnoty č asové ř ady v č ase 𝑡 se zı́ská dosazenı́m 𝑡 za 𝑡 do

Lineární intervalová předpověď hodnoty č asové ř ady v č ase 𝑡 s 𝛼% spolehlivostı́ je interval (𝐿 − Δ; 𝐿 + Δ), kde Δ = 𝑠 ⋅ ℎ ⋅ 𝑡

𝑠= Vý raz 𝑡

(𝑛 − 2) nazý vá me př ı́pustná chyba a

∑ 𝑦 − ∑ 𝐿 (𝑡) 𝑛−2

ℎ =

1−

𝑡 1 + 𝑛 ∑𝑡

(𝑛 − 2) je kvantil Studentova rozdě lenı́, který najdeme ve statistický ch tabulká ch (Excel).

Po vhodné substituci indexu i ⁴⁸ na index t (s prů mě rem NULA), jdou koe icienty a, b snadno urč it. Pozor! Koe icient a z lineá rnı́ho trendu má jinou hodnotu jak stejně označ ený koe icient a z kvadratické ho trendu. ⁴⁸ Protož e např ı́klad mı́sto ∑ 𝑦 bychom sprá vně mě li psá t ∑ 𝑦 ∀


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Kvadra cký trend 𝐾(𝑡) ∶ 𝑦 = 𝑎 + 𝑏.𝑡 + 𝑐.𝑡 𝑎=

Regrese, korelace

⟹

∑ 𝑦 ⋅ ∑ 𝑡 − ∑ 𝑡 ⋅ ∑(𝑦 ⋅ 𝑡 ) , 𝑛 ⋅ ∑ 𝑡 − (∑ 𝑡 )

𝑏=


Casové ř ady

Platı́-li 𝑡̄ = 0, pak ∑(𝑦 ⋅ 𝑡) , ∑𝑡

𝑐=

𝑛 ⋅ ∑(𝑦 ⋅ 𝑡 ) − ∑ 𝑦 ⋅ ∑ 𝑡 𝑛 ⋅ ∑ 𝑡 − (∑ 𝑡 )

Bodová předpověď 𝐾 = 𝐾(𝑡 ) hodnoty č asové ř ady v č ase 𝑡 se (stejně jako v př ı́padu lineá rnı́ho trendu) zı́ská dosazenı́m 𝑡 za 𝑡 do rovnice kvadratické ho trendu.

Intervalová předpověď hodnoty č asové ř ady v č ase 𝑡 je opě t interval (𝐾 − Δ; 𝐾 + Δ), kde př ı́pustná chyba Δ = 𝑠 ⋅ 𝑔 ⋅ 𝑡 (𝑛 − 3) ovš em nenı́ identická jako v př ı́padě lineá rnı́ho trendu a vý raz 𝑡 (𝑛 − 3) je opě t kvantil Studentova rozdě lenı́, tentokrá t s jiný m argumentem než u lineá rnı́ho trendu, stejně tak jako prvnı́ koe icient 𝑠. Platı́: 𝑠=

∑ 𝑦 − ∑ 𝐾 (𝑡) 𝑛−3

a

𝑔 =

1 + [1 𝑡 𝑡 ] • [𝑋 ⋅ 𝑋]

• [1 𝑡 𝑡 ]

kde symbolem […] označ ujeme inverznı́ matici a symbolem 𝑋 označ ujeme transponovanou (má zamě ně ny ř ádky za sloupce) matici k matici 𝑋, která je de inová na ná sledovně : 1 ⎡ 1 𝑋=⎢ ⎢ ⋮ ⎣ 1

1 1 2 4 ⋮ ⋮ 𝑛 𝑛

⎤ ⎥ ⎥ ⎦

Podobně [1 𝑡 𝑡 ] je vlastně sloupcová matice (matice, která má tř i ř ádky a jeden sloupec). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Autokorelace časových řad Na zá vě r se zmı́nı́me o typické m jevu, který je spojen s č asový mi ř adami a komplikuje př edpově ď hodnot ř ady pomocı́ regrese. Hodnoty ukazatele v ř adě za sebou bý vajı́ č asto vzá jemně zá vislé . Jev se nazý vá autokorelace. Např ı́klad • dneš nı́ teplota vzduchu je zá vislá na teplotě vč erejš ı́; • dneš nı́ cena akcie se odvı́jı́ od ceny vč erejš ı́; • nadbyteč ný ná kup zá sob v dané m obdobı́ způ sobuje snı́ženı́ ná kupu v obdobı́ př ı́štı́m a naopak. Podrobně jš ı́ rozbor tohoto problé mu vč etně testová nı́ vý znamnosti autokorelace (např ı́klad Durbinů v– –Watsonů v test) lze nalé zt v literatuř e.

Trendy — příklady 40; 42; 43; 41; 43; 44,8

K dispozici jsou následující data

(stejná jako ta, ze který ch jsme v kapitole o hospodá ř ské statistice (indexech) poč ı́tali prů mě rný koe icient vý voje a odhadovali trž by v ná sledujı́cı́m obdobı́ a stejná jako ta, u který ch jsme v kapitole o regresnı́ch zá vislostech urč ovali regresnı́ funkce)

o tržbách (nákladech, obratech, …) za š est po sobě jdoucı́ch obdobı́ (dny, tý dny, mě sı́ce, …), kdy jednotkou mohou bý t tisı́ce (statisı́ce, milió ny, …) a mě novou jednotkou Kč, $, … Gra icky zná zorně te č asovou ř adu a odhadně te hodnotu trž eb v ná sledujı́cı́m obdobı́ pomocı́ lineá rnı́ho a kvadratické ho trendu, vč etně 95% intervalů spolehlivosti.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Vš e zapı́šeme do tabulky. Aby platilo 𝑡̄ = 0, volı́me v naš em př ı́padě za 𝑡 tyto hodnoty: 𝑡 = −5; ⇒𝑡 =7 𝑡 = −3; 𝑡 = −1; 𝑡 = 1; 𝑡 = 3; 𝑡 = 5 a urč ujeme hodnotu ná sledujı́cı́ho obdobı́: 𝑖 = 7 Chceme poč ı́tat s 95% spolehlivostı́, tedy chyba 𝛼 = 5 % a potom 1 − = 0,975. Tabulku doplnı́me o dalš ı́ sloupce: 𝑡 , 𝑦 ⋅ 𝑡 , 𝑡 pro bodový odhad a 𝑦 , 𝐿(𝑡 ), 𝐿 (𝑡 ) pro intervalový. obdobı́ index 𝑖

𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668

Urč ı́me medián indexu i a př iř adı́me mu NULU. V naš em př ı́padě bude mediá n mezi ř ádkem 3 a 4. Nejbliž šı́mu niž šı́mu indexu než mediá n (3. ř ádek) př iř adı́me hodnotu –1 a nejbliž šı́mu vyš šı́mu indexu (4. ř ádek) 1. A protož e č asová promě nná t musı́ bý t ekvidistantní, mů ž eme doplnit zbylé hodnoty té to promě nné .

253,8 25 + ⋅ 𝑡 ≐ 42,3 + 0,357 ⋅ 𝑡 6 70 Bodový odhad: 𝐿(𝑡 = 7) = 42,3 + 0,357 ⋅ 7 = 44,799 ≐ 44,8 Lineá rnı́ trend: 𝐿(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡=

Intervalový odhad: 𝑡

,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑦

𝑡

𝑦 ⋅𝑡

𝑡

𝑦

1 2 3 4 5 6

40 42 43 41 43 44,8

−5 −3 −1 1 3 5

−200 −126 −43 41 129 224

25 9 1 1 9 25

1 600 1 764 1 849 1 681 1 849 2 007,04

∑

253,8

0

25

70

10 750,04

𝐿(𝑡 )

𝐿 (𝑡 )

40,514 41,229 41,943 42,657 43,371 44,086

1 641,384 1 699,830 1 759,215 1 819,620 1 881,044 1 943,575 10 744,668




,

(6 − 2) = 2,776 45

𝑠=

10 750,04 − 10 744,668 = 1,159 6−2

ℎ=

1−

1 7 + = 1,238 6 70


Př edmluva

⟹

Δ = 1,159 ⋅ 1,238 ⋅ 2,776 45 = 3,983 ≐ 4 (44,8 − 4 ; 44,8 + 4) = (40,84 ; 48,8)

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

V př ı́padě kvadratické ho trendu postupujeme analogicky. Chceme opě t poč ı́tat s 95% spolehlivostı́. Př ı́pustná chyba 𝛼 = 5 % a 1 − = 0,975. Nejdř ıv́ e doplnı́me naš i tabulku o sloupce 𝑦 ⋅ 𝑡 , 𝑡 , 𝐾, 𝐾 . 𝑖

𝑡

𝑦

𝑡

𝑦⋅𝑡

1 2 3 4 5 6

−5 −3 −1 1 3 5

40 42 43 41 43 44,8

25 9 1 1 9 25

−200 −126 −43 41 129 224

∑

0

253,8

70

25

𝐾(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡 + 𝑐 ⋅ 𝑡 =

𝑦

𝐿, 𝐿

𝑦⋅𝑡

𝑡

1 600 1 764 1 849 1 681 1 849 2 007,04

1 000 378 43 41 387 1 120

625 81 1 1 81 625

10 750,04

2 969

1 414

𝐾(𝑡)

𝐾 (𝑡)

40,684 41,190 41,800 42,514 43,332 44,254

1 655,188 1 696,616 1 747,240 1 807,440 1 877,662 1 958,417 10 742,563

253,8.1 414 − 70.2 969 25 6.2 969 − 253,8.70 + ⋅𝑡+ ⋅𝑡 6 ⋅ 1 414 − 70 70 6 ⋅ 1 414 − 70

𝐾(𝑡) = 42,144 + 0,357 ⋅ 𝑡 + 0,013 ⋅ 𝑡 Bodová př edpově ď: 𝐾(7) = 42,144 + 0,357 ⋅ 7 + 0,013 ⋅ 7 = 45,28 ≐ 45,3

kdy

Intervalová př edpově ď:

𝑔 =

𝑠=

𝑡

,

(6 − 3) = 3,182

10 750,04 − 10 742,563 = 1,579 6−3

𝑡 =7 1 + 3,2= 2,049

Δ = 1,579 ⋅ 2,049 ⋅ 3,182 = 10,295 ≐ 10,3

(45,3 − 10,3 ; 45,3 + 10,3) = (35 ; 55,6) Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑡

𝑦

𝑡

𝑦⋅𝑡

1 2 3 4 5 6

−5 −3 −1 1 3 5

40 42 43 41 43 44,8

25 9 1 1 9 25

−200 −126 −43 41 129 224

∑

0

253,8

70

25

𝐾(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡 + 𝑐 ⋅ 𝑡 =

𝑦

𝐿, 𝐿

𝑦⋅𝑡

𝑡

1 600 1 764 1 849 1 681 1 849 2 007,04

1 000 378 43 41 387 1 120

625 81 1 1 81 625

10 750,04

2 969

1 414

𝐾(𝑡)

𝐾 (𝑡)

40,684 41,190 41,800 42,514 43,332 44,254

1 655,188 1 696,616 1 747,240 1 807,440 1 877,662 1 958,417 10 742,563

253,8.1 414 − 70.2 969 25 6.2 969 − 253,8.70 + ⋅𝑡+ ⋅𝑡 6 ⋅ 1 414 − 70 70 6 ⋅ 1 414 − 70


kdy


𝑔 =

𝑠=

𝑡

,

(6 − 3) = 3,182

10 750,04 − 10 742,563 = 1,579 6−3

𝑡 =7 1 + 3,2= 2,049

Δ = 1,579 ⋅ 2,049 ⋅ 3,182 = 10,295 ≐ 10,3


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑡

𝑦

𝑡

𝑦⋅𝑡

1 2 3 4 5 6

−5 −3 −1 1 3 5

40 42 43 41 43 44,8

25 9 1 1 9 25

−200 −126 −43 41 129 224

∑

0

253,8

70

25

𝐾(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡 + 𝑐 ⋅ 𝑡 =

𝑦

𝐿, 𝐿

𝑦⋅𝑡

𝑡

1 600 1 764 1 849 1 681 1 849 2 007,04

1 000 378 43 41 387 1 120

625 81 1 1 81 625

10 750,04

2 969

1 414

𝐾(𝑡)

𝐾 (𝑡)

40,684 41,190 41,800 42,514 43,332 44,254

1 655,188 1 696,616 1 747,240 1 807,440 1 877,662 1 958,417 10 742,563

253,8.1 414 − 70.2 969 25 6.2 969 − 253,8.70 + ⋅𝑡+ ⋅𝑡 6 ⋅ 1 414 − 70 70 6 ⋅ 1 414 − 70


kdy


𝑔 =

𝑠=

𝑡

,

(6 − 3) = 3,182

10 750,04 − 10 742,563 = 1,579 6−3

𝑡 =7 1 + 3,2= 2,049

Δ = 1,579 ⋅ 2,049 ⋅ 3,182 = 10,295 ≐ 10,3


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑡

𝑦

𝑡

𝑦⋅𝑡

1 2 3 4 5 6

−5 −3 −1 1 3 5

40 42 43 41 43 44,8

25 9 1 1 9 25

−200 −126 −43 41 129 224

∑

0

253,8

70

25

𝐾(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡 + 𝑐 ⋅ 𝑡 =

𝑦

𝐿, 𝐿

𝑦⋅𝑡

𝑡

1 600 1 764 1 849 1 681 1 849 2 007,04

1 000 378 43 41 387 1 120

625 81 1 1 81 625

10 750,04

2 969

1 414

𝐾(𝑡)

𝐾 (𝑡)

40,684 41,190 41,800 42,514 43,332 44,254

1 655,188 1 696,616 1 747,240 1 807,440 1 877,662 1 958,417 10 742,563

253,8.1 414 − 70.2 969 25 6.2 969 − 253,8.70 + ⋅𝑡+ ⋅𝑡 6 ⋅ 1 414 − 70 70 6 ⋅ 1 414 − 70


kdy


𝑔 =

𝑠=

𝑡

,

(6 − 3) = 3,182

10 750,04 − 10 742,563 = 1,579 6−3

𝑡 =7 1 + 3,2= 2,049

Δ = 1,579 ⋅ 2,049 ⋅ 3,182 = 10,295 ≐ 10,3


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑡

𝑦

𝑡

𝑦⋅𝑡

1 2 3 4 5 6

−5 −3 −1 1 3 5

40 42 43 41 43 44,8

25 9 1 1 9 25

−200 −126 −43 41 129 224

∑

0

253,8

70

25

𝐾(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡 + 𝑐 ⋅ 𝑡 =

𝑦

𝐿, 𝐿

𝑦⋅𝑡

𝑡

1 600 1 764 1 849 1 681 1 849 2 007,04

1 000 378 43 41 387 1 120

625 81 1 1 81 625

10 750,04

2 969

1 414

𝐾(𝑡)

𝐾 (𝑡)

40,684 41,190 41,800 42,514 43,332 44,254

1 655,188 1 696,616 1 747,240 1 807,440 1 877,662 1 958,417 10 742,563

253,8.1 414 − 70.2 969 25 6.2 969 − 253,8.70 + ⋅𝑡+ ⋅𝑡 6 ⋅ 1 414 − 70 70 6 ⋅ 1 414 − 70


kdy


𝑔 =

𝑠=

𝑡

,

(6 − 3) = 3,182

10 750,04 − 10 742,563 = 1,579 6−3

𝑡 =7 1 + 3,2= 2,049

Δ = 1,579 ⋅ 2,049 ⋅ 3,182 = 10,295 ≐ 10,3


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑡

𝑦

𝑡

𝑦⋅𝑡

1 2 3 4 5 6

−5 −3 −1 1 3 5

40 42 43 41 43 44,8

25 9 1 1 9 25

−200 −126 −43 41 129 224

∑

0

253,8

70

25

𝐾(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡 + 𝑐 ⋅ 𝑡 =

𝑦

𝐿, 𝐿

𝑦⋅𝑡

𝑡

1 600 1 764 1 849 1 681 1 849 2 007,04

1 000 378 43 41 387 1 120

625 81 1 1 81 625

10 750,04

2 969

1 414

𝐾(𝑡)

𝐾 (𝑡)

40,684 41,190 41,800 42,514 43,332 44,254

1 655,188 1 696,616 1 747,240 1 807,440 1 877,662 1 958,417 10 742,563

253,8.1 414 − 70.2 969 25 6.2 969 − 253,8.70 + ⋅𝑡+ ⋅𝑡 6 ⋅ 1 414 − 70 70 6 ⋅ 1 414 − 70


kdy


𝑔 =

𝑠=

𝑡

,

(6 − 3) = 3,182

10 750,04 − 10 742,563 = 1,579 6−3

𝑡 =7 1 + 3,2= 2,049

Δ = 1,579 ⋅ 2,049 ⋅ 3,182 = 10,295 ≐ 10,3


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady


𝑡

𝑦

𝑡

𝑦⋅𝑡

1 2 3 4 5 6

−5 −3 −1 1 3 5

40 42 43 41 43 44,8

25 9 1 1 9 25

−200 −126 −43 41 129 224

∑

0

253,8

70

25

𝐾(𝑡) = 𝑎 + 𝑏 ⋅ 𝑡 + 𝑐 ⋅ 𝑡 =

𝑦

𝐿, 𝐿

𝑦⋅𝑡

𝑡

1 600 1 764 1 849 1 681 1 849 2 007,04

1 000 378 43 41 387 1 120

625 81 1 1 81 625

10 750,04

2 969

1 414

𝐾(𝑡)

𝐾 (𝑡)

40,684 41,190 41,800 42,514 43,332 44,254

1 655,188 1 696,616 1 747,240 1 807,440 1 877,662 1 958,417 10 742,563

253,8.1 414 − 70.2 969 25 6.2 969 − 253,8.70 + ⋅𝑡+ ⋅𝑡 6 ⋅ 1 414 − 70 70 6 ⋅ 1 414 − 70


kdy


𝑔 =

𝑠=

𝑡

,

(6 − 3) = 3,182

10 750,04 − 10 742,563 = 1,579 6−3

𝑡 =7 1 + 3,2= 2,049

Δ = 1,579 ⋅ 2,049 ⋅ 3,182 = 10,295 ≐ 10,3


Př edmluva

Literatura

Zá vě r


Pravdě podobnost

kdy:


⎡ ⎢ 1 ⎢ [1 7 7 ] • ⎢ 1 ⎢ 1 ⎢ ⎣

= [1 7 49] •

1 2 4

1 1 1 1 3 4 5 6 9 16 25 36

6 21 91 21 91 441 91 441 2 275

= [1,8 − 1,55 0,25] •

1 7 49


•

1 7 49

⎡ ⎢ ⎢ •⎢ ⎢ ⎢ ⎣

Regrese, korelace


1 1 1 1 1 1

1 7 49

1 1 ⎤⎤ 2 4 ⎥⎥ 3 9 ⎥⎥ 4 16 ⎥⎥ ⎥⎥ 5 25 ⎥⎥ 6 36 ⎦⎦

= [1 7 49] •

•

Casové ř ady

=

3,200 −1,950 0,250 −1,950 1,370 −0,188 0,250 −0,188 0,027

•

1 7 49

=

= 3,2

Vý sledek celé ho př ı́padu zobrazı́me gra icky na ná sledujı́cı́ strá nce.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Př edmluva


Literatura

Zá vě r

Regrese, korelace


Casové ř ady


Pravdě podobnost



Regrese, korelace


Casové ř ady

4. Využi programového vybavení V kapitole o regresnı́ch zá vislostech jsme pro zadaná data (př edstavujı́cı́ trž by) urč ovali lineá rnı́ regresnı́ funkci a kvadratickou regresnı́ funkci pomocı́ metody nejmenš ı́ch č tverců . V té to kapitole jsme pro stejná data urč ovali lineá rnı́ trend č asové ř ady a kvadratický trend. Zá roveň jsme si (na př ı́kladu lineá rnı́ho trendu) uká zali, ž e v obou př ı́padech vychá zejı́ stejné vý sledky. Uvedený postup (ať již se v ně jaké m oboru nazý vá metoda nejmenš ı́ch č tverců , v jiné oblasti regrese č i spojnice trendu) je v praxi natolik použ ıv́ á n, ž e jak ně které komerč nı́ programy (např ı́klad Excel, Mathematica, Matlab, MathCad, …) tak jejich freewarové alternativy (např ı́klad GNUplot) hledajı́ aproximač nı́ funkce (funkce, které prochá zejı́ co nejblíže zadaný m bodů m) samostatně , bez naš eho př ič ině nı́. Tedy kromě toho, ž e jim musı́me v jimi pož adované m formá tu sdě lit, jaké body majı́ vzı́t v ú vahu.

Konkré tně v programu Excel 2010 postupujeme ná sledovně : 1. Zadané hodnoty označ ı́me jako blok. 2. Potom na kartě [Vložení] v oblasti „Grafy“ vybereme (prvnı́ a druhý obrá zek) a vedle zadaný ch dat Excel vlož i jejich gra ické zná zorně nı́ (tř etı́ obrá zek). Mů ž eme mě nit velikost zobrazenı́, upravovat popisy, barvy, atd. 3. Nakonec na kartě [Nástroje grafu] v zá lož ce „Rozložení“ v oblasti (tř etı́ obrá zek) a polož ce „Spojnice trendu“ (č tvrtý obrá zek) vybereme [Další možnosti spojnice trendu] (pá tý obrá zek).


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Př edmluva


Literatura

Zá vě r

Regrese, korelace


Casové ř ady


Pravdě podobnost



Regrese, korelace


Casové ř ady

Po upř esně nı́, ž e chceme v grafu vypisovat vý slednou rovnici (v levé m obrá zku druhá volba od spodu) vč etně vý bě rové ho korelač nı́ho koe icientu 𝑟 (nejspodně jš ı́ volba — ovš em Excel zobrazuje hodnotu spolehlivosti 𝑅, což je druhá mocnina ná mi pož adované ho koe icientu, tedy: 𝑟 = √𝑅) se již vykreslı́ vý sledný graf (body i aproximač nı́ funkce) vč etně potř ebný ch ú dajů .

Pro aproximač nı́ parabolu volı́me na kartě Typ trendu a regrese polož ku Polynomický Poř adı́ 2 (prostř enı́ obrá zek v pravé m sloupci). Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Závěrečná poznámka Obrá zek 12: Př evzat z [14]

Proč jsou tak oblı́bené a č asté — a bohuž el také č asto tak ú spě šné — lž i pomocı́ statistik? Je tomu tak proto [14, str. 210], ž e prů mě rný č lově k vyrostl v uctivé plachosti př ed č ı́sly, která jsou obklopena posvá tnou, ale nenapadnutelnou př esnostı́ matematiky. Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Vzhledem k tomu, ž e statistika pracuje př evá ž ně s č ı́sly, př ená š ı́ dů vě řivý obč an svů j vztah k poč tů m také na č ı́sla statistiky — ač koli vedle toho mů ž e docela dobř e obstá t ze zkuš enosti zı́skané př esvě dč enı́, ž e statistiky lžou. Ve skuteč nosti je obojı́ sprá vné . Statistika použ ıv́ á matematický ch metod a matematické př esnosti a — statistika lž e. Prvnı́ pozitivnı́ př edstava mimochodem př evlá dá , jinak by také nebylo tolik pokusů lhá t pomocı́ statistik. Př edstava, ž e čísla dokazují, nenı́ př es veš keré š patné zkuš enosti př ekoná na. Jestliž e je statistika (jako metodika nebo jako vě dnı́ obor) č asto posuzová na s pochybnostmi a odmı́tavě , mů ž eme za to dě kovat př edevš ı́m statistiká m, které ve skuteč nosti statistikami nejsou. Je to stejné [14, 205] jako kdyby nemocné ho č lově ka lé čil mastič ká ř, zř ı́zenec nebo kuchyň ský personá l kliniky a nemocný pak mrzutě konstatoval: „Medicı́na nenı́ vů bec ž ádná vě da; vš ichni lé kař i jsou š arlatá ni.“ Obrá zek 13 ná zorně ukazuje, ž e stejnou vě c je mož né pozorovat z rů zný ch hledisek a podle toho statisticky rů zně vyjá dř it. Jestliž e se tedy mluvı́ o lž i ve statistice, je nutno vž dy zjisti, o jaký druh lž i se jedná . • Existuje př edevš ı́m zdá nlivá lež , která nenı́ v podstatě nic jiné ho než nesprá vně pojatá př esná statistika. Je ovš em docela dobř e mož né , ž e je lstivě zamě řena na oklamá nı́ naivnı́ch lidı́, ale sama o sobě (svý mi ú daji a tvrzenı́mi) je nenapadnutelná . • Dá le existuje odvozená lež , charakterizovaná tı́m, ž e se manipulá tor „zmocnı́“ v podstatě sprá vný ch č ı́sel a buduje kolem nich konstrukce lži (vyhledá vá k nim vhodné příčiny č i následky), která je nesporný mi č ı́sly znamenitě udrž ová na a posilová na. • Koneč ně existuje forma lž i, př i nı́ž lze postupovat statisticky korektně jak př i zpracová nı́, tak př i vý kladu. Ovš em pracujeme se zfalš ovaný m prvotnı́m materiá lem. Použ itı́m nesprá vný ch vý chozı́ch ú dajů (nebo dokonce vě domý m falš ová nı́m „prvotnı́ho zá znamu“, např ı́klad — Irá k vyvı́jı́ nebo dokonce již vlastnı́ jaderné zbraně ⇒ operace Pouš tnı́ bouř e) je mož -


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Obrá zek 13: Př evzat z [14] Vlevo je př ı́pad, kdy jsme vzali ž ijı́cı́ obyvatelstvo a sledovali poč et sebevraž d pro vě kové kategorie. Uprostřed je př ı́pad, kdy jsme vzali poč ty ú mrtı́ v jednotlivý ch vě kový ch skupiná ch a sledovali, kolik z nich př ipadá na sebevraž dy. Vpravo jsme vzali „ú spě šné “ sebevrahy a sledovali, kolik jich je v jednotlivý ch vě kový ch skupiná ch.

V zá vislosti na volbě zá kladu vzniká zcela rozdı́lný obraz. no doká zat vš echno. I nekritické mu č tená ř i nebo posluchač i bude obtı́žné namluvit, ž e čtyři plus pět se rovná šest, ale jestliž e nejdř ıv́ e zfalš ujeme pětku na dvojku, mohu potom plný m prá vem tvrdit, ž e 2 + 4 = 6.


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Proto se doporuč uje vž dy nejdř ıv́ e zjistit, zda se (v nemocnici) setká vá me s vrá tný m, oš etř ovatelkou nebo primá ř em, zda s pseudostatistikou nebo se statistikou. Rozliš enı́ nenı́ na prvnı́ pohled vž dy snadné . I vrá tný mů ž e v bı́lé m plá š ti a v brý lı́ch prohodit pá r latinský ch slov a laikovi př edstı́rat lé kař e. Ješ tě snadně jš ı́ je pro (vě tš inou mladš ı́) pracovnı́ sı́lu osobnı́ho oddě lenı́ vypoč ı́tat na kalkulač ce procenta s př esnostı́ na ně kolik desetinný ch mı́st a tak vyrobit zdá nlivě „pravou“ statistiku. A jak to poznat, když vů bec nemusı́ jı́t o ú mysl? Jak jednoduché je ze sprá vný ch statistický ch ú dajů vyvodit nesmyslné zá vě ry, mů ž eme dokumentovat na ná sledujı́cı́m př ı́kladě : Je statisticky dokázáno, že každé čtvrté dítě, které se narodí, je Číňan. Znamená to vš ak ně co př i plá nová nı́ poč tu dě tı́ pro prů mě rnou č eskou rodinu? Vě tš ina č tená ř ů asi tuš ı́, ž e nikoliv. Jsme vš ak schopni takový rozpor vž dy odhalit? Vž dyť bě žná praxe je, ž e pů vodnı́ č ı́selný materiá l byl ně ký m (sprá vně ) interpretová n a v té to podobě př edá n do tisku. Potom ně jaký noviná ř nikoli ve zlé m ú myslu, ný brž aby nerozzlobil č tená ř e bojı́cı́ho se č ı́sel, č ást ú dajů vynechá a z komentované ho textu zvý raznı́ to, co pů sobı́ alespoň trochu senzač ně . W. J. Reichmann [14, 206] komentuje např ı́klad zprá vu vytiš tě nou tuč ný m pı́smem v jedně ch anglický ch noviná ch: „Každá druhá žena si stěžuje na bolesti v zádech“, a uvá dı́ pak, ž e již pů vodnı́ statistika obsahovala ně kolik slabin. Př edně neš lo o zá kladnı́ soubor „ž eny“ (mimo jiné by bylo zapotř ebı́ vyjasnit, zda např ı́klad patná cti– č i š estná ctileté sleč ny majı́ bý t zahrnuty č i nikoliv atd.), ný brž o pacientky. Zeny, které navš tı́vı́ lé kař e, jsou bezpochyby v prů mě ru mé ně zdravé a trpı́ vı́ce bolestmi než ty, které nejsou v č eká rná ch ordinacı́. Tedy sprá vně mě lo bý t jen: „Každá druhá si stěžuje na bolesti v zádech.“ Dá le se uká zalo, ž e tento vý sledek nebyl zı́ská n z reprezentativnı́ho anketnı́ho š etř enı́ mezi praktický mi lé kař i, ný brž byl vý sledkem soukromé statistiky jediné ho lé kař e. Sprá vně : „Každá druhá pacientka X si stěžuje na bolesti v zádech.“


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Reichmann k tomu již zlomyslně poznamená vá , ž e dotyč ný lé kař provozuje svoji praxi buď ve velmi vlhké krajině nebo má v č eká rně dost nepohodlné ž idle. Ale to zdaleka nenı́ vš echno … (a pů vodnı́ citá t pokrač uje dá le). Tak se scvrkává „statisticky podložené“ tvrzení, podle něhož si každá druhá žena stěžuje na bolesti v zádech na mnohem méně působivou skutečnost, že někde v Anglii je nějaký lékař, polovina jehož pacientek na otázku, zda také mají bolesti v zádech, odpovídá „ano“. V tomto př ı́padě bylo alespoň mož né vystopovat na zá kladě pů vodnı́ zprá vy vš echny zdroje chyb. Ale co má dě lat č tená ř, které mu se př edklá dá pod uvedený m titulkem hustý text, než se domnı́vat, ž e opravdu kaž dá druhá ž ena v Anglii si stě žuje na bolesti v zá dech? Nynı́ si na jiné m př ı́kladu uká ž eme manipulaci, která nemá demagogický zá mě r a př esto je znač ně matoucı́. V roce 1966 sdě lilo vı́deň ské letiš tě [14, str. 125]: «„Mezi 37 zá padoevropský mi letiš ti se Vı́deň ř adı́ … sice ješ tě mezi menš ı́ letiš tě , pokud vš ak jde o př ı́rů stky dopravy, je Vı́deň již na č tvrté m mı́stě . V roce 1964 bylo př i 22 818 startech odbaveno 725 049 cestujı́cı́ch … V nejsilně jš ı́ch dnech je registrová no až 5 000 cestujı́cı́ch.“ Zde je v ně kolika má lo slovech té mě ř vš e, na co je nutno brá t zř etel, chceme-li se nauč it zachá zet se statistikami. Já dro vý pově di (řadí se mezi menší) je odsunuto stranou slů vkem „sice“ a pak se vyná š ı́ trumf: již na č tvrté m mı́stě v př ı́rů stcı́ch. Toto „již “ je ale zcela nemı́stné , protož e př ı́rů stky jsou vysoké té mě ř vž dy, jestliž e je vý chozı́ zá kladna malá . Pak ná sledujı́ absolutnı́ č ı́sla pro urč ená pro laika, který nemá mož nost porovná nı́: 22 818 letů a 725 049 cestujı́cı́ch — to je př ece ohromné ! Absolutně ano, relativně nikoliv. Letiš tě Rý n–Mohan odbavilo ve stejné m obdobı́ té mě ř 4 miliony cestujı́cı́ch, nemluvě ani o Pař ı́ži, Londý ně č i americký ch letiš tı́ch. A nakonec jako zvlá š tnı́ pozoruhodnost poukaz na nejsilně jš ı́ dny a v nich dosahované absolutnı́ nejvyš šı́ („až “) hodnoty. Vě cně je jistě naprosto sprá vné , ž e v jednom takové m „nejsilně jš ı́m dnu“ bylo jednou zaregistrová no až 5 000 cestujı́cı́ch. Protož e se vš ak souč asně neuvá dı́ ž ádný dennı́ prů mě r, utkvı́ č tená ř i Vybrané statistické tabulky

Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

v mysli př edstava: „denně 5 000 cestujı́cı́ch“, i když toto tvrzenı́ nenı́ ve zprá vě vý slovně ř eč eno (zcela jistě ne!). Ctenı́ statistik se ješ tě nestalo vš eobecně ovlá daný m umě nı́m.» [konec citá tu] Př ı́kladem statistiky vı́deň ské ho letiš tě jsme se podrobně ji nezabý vali proto, ž e by byla obzvlá š ť rainovaná , zá ludná č i demagogická , ný brž proto, ž e umož ňuje zř etelně uká zat, č eho se př i č tenı́ ně jaké statistiky vyvarovat. Nesnažit se vyčíst více,než je uvedeno. „V nejsilně jš ı́ dny až …“ neznamená „denně “. Té mě ř vš echna č ı́sla — a proto i vš echny statistiky — je mož no zneuž ı́t. Kdo nechce padnout za obě ť takové mu zneuž itı́, kdo se nechce nechat od demagogů nebo př ehorlivý ch noviná ř ů vehnat do ú zký ch, bude se vž dy s pochybnostı́ ptá t: Co se s čím srovnává? Má toto porovnání smysl a je oprávněné? A př edevš ı́m: Netvrdí se v průvodním textu více, než dovolují čísla sama poznat? A koneč ně nikdy nemů ž e š kodit, jestliž e se zeptá me jako u soudu: Komu to slouží? Kdo se pomocí těchto čísel jeví ve zvlášť příznivém světle? A na které sta s ky se tedy můžeme spolehnout? Zpravidla na ú ř ednı́ statistiky, na statistiky velký ch institucı́ a organizacı́. Př edevš ı́m vš ak na ty, které uvá dě jı́ absolutnı́ ú daje, udá vajı́ rozsah vý bě rové ho souboru a pokud mož no i ně které ú daje o způ sobu zjiš ťová nı́ a pravdě podobnou teoretickou spolehlivost vzorku. Dobrá statistika poskytuje př ehledně zpracované ú daje, př ı́padně matematické souvislosti mezi tě mito č ı́sly, uvá dı́ prů mě rné hodnoty a smě rodatné odchylky, meze chyb, př ı́padně vysvě tlujı́cı́ pozná mky. Nedokazuje vš ak ž ádné hypoté zy — ani vě decky „č isté “, ani demagogicky „š pinavé “. Protož e vš ak demagogové a skrytı́ manipulá toř i statistiku tak rá di použ ıv́ ajı́, je už iteč né zeptat se v př ı́padě jaký chkoliv pochybnostı́ o serió znı́m vyjá dř enı́ ješ tě jednou nedů vě řivě cui bono? (Komu to prospı́vá ?) Tato otá zka pomá há již po staletı́ odhalovat zloč iny a osvě dč uje se č asto jako velmi už iteč ná i př i odhalová nı́ statistický ch podvodů .


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Použitá literatura [1] Český sta s cký úřad, www: http://www.czso.cz/ [2] D , M. Jak se vyrábí sociologická znalost. Praha : Univerzita Karlova v Praze – Karolinum, 4. nezmě ně né vydá nı́, 2011. 372 stran. ISBN 978–80–246–1966–8 [3] F

, V. Statistika pro ekonomy. Ostrava : VSB–TUO, [skripta]. 2006. 241 stran.

̌ ́ , P. Aplikovaná statistika. Brno : VSKE, a. s. [skripta], 2011. 181 stran. [4] K ISBN 978–80–86710–28–0 ́ ̌ , J. Statistika A. / Ná hodné jevy, Ná hodné velič iny, Ná hodné vektory, Indexnı́ analý za, Roz[5] K hodová nı́ za rizika. Brno : Vysoké uč enı́ technické v Brně , Fakulta podnikatelská , druhé opravené vydá nı́, 2007. 157 stran. ISBN 978–80–214–3194–6 ́ ̌ , J. Statistika B. / Jednorozmě rné a dvourozmě rné datové soubory, Regresnı́ analý za, Casové [6] K ř ady. Brno : Vysoké uč enı́ technické v Brně , Fakulta podnikatelská , 2007. 155 stran. ISBN 80–214–3295–0 ́ ̌ , J. Statistika C. / Statistická regulace, Indexy způ sobilosti, Rı́zenı́ zá sob, Statistické př ejı́mky. [7] K Brno : Vysoké uč enı́ technické v Brně , Fakulta podnikatelská , 2008. 103 stran. ISBN 978–80–214–3591–9 ́ , M. Úvod do statistiky. [interaktivnı́ uč ebnı́ text] Vysoká š kola bá ň ská — Technická [8] L univerzita Ostrava & Zá padoč eská univerzita v Plzni, 2012. Dostupné z: http://mi21.vsb.cz/sites/mi21.vsb.cz/files/unit/interaktivni_uvod_do_statistiky. pdf


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

́ , M. Vybrané kapitoly z pravděpodobnosti. [interaktivnı́ uč ebnı́ text] Vysoká š kola [9] L bá ň ská — Technická univerzita Ostrava & Zá padoč eská univerzita v Plzni, 2012. Dostupné z: http://mi21.vsb.cz/sites/mi21.vsb.cz/files/unit/interaktivni_vybrane_kapitoly_ pravdepodobnost.pdf

[10] O , P., S , P. Pravděpodobnost a statistika. http://homen.vsb.cz/~oti73/cdpast1/ [11] P , F., K ́ , J. Aplikovaná statistika. Zlı́n : VUT–FAME 2000. 132 stran. ISBN 80–214–1545–2. ́ J. [12] P . Aplikovaná statistika. Praha : Vysoká š kola chemicko–technologická v Praze. 2005, 1. vydá nı́, 173 stran. ISBN 80–7080–569–2 ́ , H., M [13] R , L., V http://iastat.vse.cz/ [14] S

, M. IASTAT — Interaktivní učebnice statistiky.

, H. Moderní statistika. Praha : Svoboda, 1977. 352 stran


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Vybrané sta s cké tabulky Na ná sledujı́cı́ch straná ch jsou uvedeny ně které statistické tabulky: Distribuční funkce 𝐹 (𝑢) normovaného normálního rozdělení 𝑁(0, 1) kdy využ ijeme postup, ž e kaž dé rozdě lenı́ 𝑁(𝜇, 𝜎 ) lze transformacı́ 𝑈 = př evé st na normované 𝑁(0, 1). Hodnoty lze také zı́skat pomocı́ Excelu 2010 prostř ednictvı́m funkce: =NORM.DIST(𝑥;𝜇;𝜎;1) Kvan ly rozdělení 𝜒 (𝑛) použ ıv́ ané např ı́klad př i Pearsonově testu shody (zda množ ina dat vyhovuje dané distribuč nı́ funkci). Platı́, ž e rozdě lenı́ 𝜒 (𝑛) se s rostoucı́m 𝑛 blı́žı́ normálnímu rozdělení se stř ednı́ hodnotou 𝑛 a rozptylem 2𝑛. Hodnoty lze také zı́skat pomocı́ Excelu 2010 prostř ednictvı́m funkce: =CHISQ.INV.RT(𝛼;𝑛) Kvan ly Studentova rozdělení Irský chemik a statistik W. S. Gosset roku 1908 poprvé publikoval toto rozdě lenı́ pod pseudonymem „Student“, protož e jeho zamě stnavatel, pivovar Guiness v Dublinu, zaká zal svý m zamě stnanců m publikovat pod svý m vlastnı́m jmé nem z obavy, ž e konkurence by odhalila tajemstvı́ jejich excelentnı́ho piva. Pro vysoký poč et stupň ů volnosti (v praxi pro 𝑛 > 30) se Studentovo rozdě lenı́ blı́žı́ normovanému normálnímu rozdělení. Hodnoty lze také zı́skat pomocı́ Excelu 2010 prostř ednictvı́m funkce: =T.INV.2T(𝛼;𝑛)


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Distribučni funkce 𝐹 (𝑢) normovaného normálního rozdělení 𝑁(0, 1)


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Kvan ly rozdělení 𝜒 (𝑛) — Excel 2010: „[=CHISQ.INV.RT(1 − 𝛼 ; 𝑛)]“


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Pokračování: Kvan ly rozdělení 𝜒 (𝑛) — Excel 2010: „[=CHISQ.INV.RT(1 − 𝛼 ; 𝑛)]“


Př edmluva

Literatura

Zá vě r


Pravdě podobnost



Regrese, korelace


Casové ř ady

Kvan ly 𝑇 (𝑘) Studentova rozdělení — Excel 2010: „[=T.INV.2T(2 ⋅ (1 − 𝛼) ; 𝑛)]“


Př edmluva

Literatura

Zá vě r


Aplikovaná statistika

Recommend Documents