ˇ ´ VYSOKE ´ UCEN ˇ ´I TECHNICKE ´ V PRAZE CESK E Fakulta dopravn´ı
ˇ PRAVDEPODOBNOST ´ STATISTIKA A MATEMATICKA
Doc. RNDr. Jana Novoviˇcov´a, CSc.
verze 12. dubna 2006 ˇ Vydavatelstv´ı CVUT
Lektor : Doc. Ing. Miloslav Voˇsvrda, CSc.
Pˇ redmluva Text je uspoˇra´d´an tak, ˇze prvn´ı ˇctyˇri kapitoly jsou vˇenov´any popisn´e statistice a poˇctu pravdˇepodobnosti, zb´ yvaj´ıc´ı kapitoly pak z´aklad˚ um matematick´e statistiky vˇcetnˇe regresn´ı a korelaˇcn´ı anal´ yzy. Tradiˇcn´ı l´atka o regresi a korelaci je rozdˇelena na dvˇe ˇca´sti, prvn´ı je vˇenov´ana popisn´ ym metod´am v regresi a korelaci, druh´a statistick´e indukci. Seznam literatury obsahuje prameny pouˇzit´e pˇri zpracov´an´ı tohoto textu. Shrnut´ı d˚ uleˇzit´ ych vzorc˚ u je zaˇrazeno na konci uˇcebn´ıho textu jako pˇr´ıloha. C´ılem tohoto uˇcebn´ıho textu je vysvˇetlit z´akladn´ı statistick´e pojmy a metody a nauˇcit se je aplikovat. Na zaˇca´tku kaˇzd´e kapitoly je struˇcnˇe pops´ano o ˇcem kapitola pojedn´av´a a jak obsah kapitoly souvis´ı s ostatn´ı l´atkou v uˇcebn´ım textu. K v´ ykladu nov´e l´atky jsou pouˇzity pˇr´ıklady. Obecn´a teorie je vykl´ad´ana teprve pot´e, co se z´ısk´a jasn´a pˇredstava o z´akladn´ıch pojmech. Studenti dostanou z´akladn´ı vˇedeck´e poznatky, kter´e jsou podrobnˇeji vysvˇetlen´e ve speci´aln´ıch textech. Podm´ınkou zvl´adnut´ı l´atky tohoto uˇcebn´ıho textu je znalost z´aklad˚ u matematick´e anal´ yzy a element´arn´ı algebry. Z hlediska matematick´ ych v´ ypoˇct˚ u jsou ilustraˇcn´ı pˇr´ıklady co nejjednoduˇsˇs´ı, aby se studenti mohli soustˇredit na podstatu probl´emu. Smyslem prov´adˇen´ı ruˇcn´ıch v´ ypoˇct˚ u je vypˇestovat ve studentech cit pro v´ yznam statistick´ ych pojm˚ u, nikoliv udˇelat z nich skvˇel´e poˇct´aˇre.
Podˇ ekov´ an´ı Moje vˇrel´e podˇekov´an´ı patˇr´ı pˇredevˇs´ım Ing. Pavlu Pacl´ıkovi, PhD (od roku 2000 Delft University of Technology, Faculty of Electrical Engineering, Mathematics and Computer Science, The Netherlands), kter´ y zhotovil vˇsechny obr´azky, navrhl a realizoval technickou formu tohoto textu a poskytl cenn´e podnˇety a n´avrhy pramen´ıc´ı z jeho zkuˇsenost´ı ze studia na fakultˇe ˇ dopravn´ı CVUT.
Praha, leden 2006 Doc.RNDr. Jana Novoviˇcov´a, CSc.
´ Ustav teorie informace a automatizace ˇ e republiky Akademie vˇed Cesk´
3
Oznaˇ cen´ı N
mnoˇzina nez´aporn´ ych cel´ ych ˇc´ısel
N+
mnoˇzina pˇrirozen´ ych ˇc´ısel
Nm
mnoˇzina {1, 2, · · · , m}, m ∈ N+
R
mnoˇzina re´aln´ ych ˇc´ısel
R+
mnoˇzina kladn´ ych re´aln´ ych ˇc´ısel
k
R
mnoˇzina k-rozmˇern´ ych re´aln´ ych vektor˚ u
n [m ]
cel´a ˇc´ast ˇc´ısla
AT
transponspozice matice A
I
jednotkov´a matice
uT
ˇr´adkov´ y vektor, transpozice sloupcov´eho vektoru u
F : R → R+
F je zobrazen´ı definovan´e na mnoˇzinˇe R s hodnotami v mnoˇzinˇe R+
t(ν)
Studentovo t-rozdˇelen´ı s ν stupni volnosti
χ2 (ν)
χ2 -rozdˇelen´ı s ν stupni volnosti
X ∼ N (µ, σ 2 )
n´ahodn´a veliˇcina m´a norm´aln´ı rozdˇelen´ı s parametry µ a σ 2
X ≈ N (µ, σ 2 )
n´ahodn´a veliˇcina m´a pˇribliˇznˇe norm´aln´ı rozdˇelen´ı s parametry µ a σ 2
(a, b)
{x ∈ R : a < x < b}, a ≤ b ∈ R
(a, bi
{x ∈ R : a < x ≤ b}, a ≤ b ∈ R
ha, bi
{x ∈ R : a ≤ x ≤ b}, a ≤ b ∈ R
n m
4
Obsah Pˇ redmluva
3
Oznaˇ cen´ı
4
1 Podstata statistiky 1.1 Dva z´akladn´ı typy statistiky . 1.2 V´ ybˇer a z´akladn´ı soubor . . . 1.2.1 Prost´ y n´ahodn´ y v´ ybˇer 1.2.2 Jin´e metody v´ ybˇeru . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
2 Popisn´ a statistika 2.1 Veliˇciny a data . . . . . . . . . . . . . . . . . . . 2.2 Element´arn´ı zpracov´an´ı statistick´ ych dat . . . . . 2.2.1 Tˇr´ıdˇen´ı dat . . . . . . . . . . . . . . . . . 2.2.2 Statistick´e grafy . . . . . . . . . . . . . . . 2.2.3 Tvar rozdˇelen´ı ˇcetnost´ı; symetrie a ˇsikmost 2.3 Popisn´e m´ıry statistick´ ych soubor˚ u . . . . . . . . 2.3.1 Kvantily . . . . . . . . . . . . . . . . . . . 2.3.2 M´ıry polohy . . . . . . . . . . . . . . . . . 2.3.3 M´ıry rozpt´ ylenosti . . . . . . . . . . . . . 2.3.4 M´ıry ˇsikmosti a ˇspiˇcatosti . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
. . . .
. . . . . . . . . .
3 Poˇ cet pravdˇ epodobnosti 3.1 Pojem pravdˇepodobnosti . . . . . . . . . . . . . . . . . . . . . . . 3.2 N´ahodn´e jevy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Vztahy mezi jevy . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Vz´ajemnˇe nesluˇciteln´e jevy . . . . . . . . . . . . . . . . . . 3.3 Axiomatick´a definice pravdˇepodobnosti . . . . . . . . . . . . . . . 3.4 Pravidla pro poˇc´ıt´an´ı s pravdˇepodobnostmi . . . . . . . . . . . . . 3.4.1 Pravidlo o sˇc´ıt´an´ı pravdˇepodobnost´ı . . . . . . . . . . . . . 3.4.2 Pravidlo pro pravdˇepodobnost opaˇcn´eho jevu . . . . . . . 3.4.3 Pravidlo o podm´ınˇen´e pravdˇepodobnosti . . . . . . . . . . 3.4.4 Pravidlo pro n´asoben´ı pravdˇepodobnost´ı; nez´avislost jev˚ u. 3.4.5 Vzorec u ´pln´e pravdˇepodobnosti a Bayes˚ uv vzorec . . . . . 3.5 Jin´e pohledy na pravdˇepodobnost . . . . . . . . . . . . . . . . . . 5
. . . .
. . . . . . . . . .
. . . . . . . . . . . .
. . . .
. . . . . . . . . .
. . . . . . . . . . . .
. . . .
. . . . . . . . . .
. . . . . . . . . . . .
. . . .
. . . . . . . . . .
. . . . . . . . . . . .
. . . .
. . . . . . . . . .
. . . . . . . . . . . .
. . . .
9 9 11 11 12
. . . . . . . . . .
13 13 14 14 18 21 22 23 24 27 30
. . . . . . . . . . . .
31 31 33 34 35 36 37 37 37 38 39 42 43
OBSAH
4 N´ ahodn´ a veliˇ cina 4.1 N´ahodn´a veliˇcina a jej´ı rozdˇelen´ı . . . . . . . . . . . 4.1.1 Distribuˇcn´ı funkce a hustota . . . . . . . . . 4.1.2 V´ıcerozmˇern´a rozdˇelen´ı pravdˇepodobnost´ı . 4.1.3 Nez´avislost n´ahodn´ ych veliˇcin . . . . . . . . 4.2 Charakteristiky n´ahodn´ ych veliˇcin . . . . . . . . . . 4.2.1 Stˇredn´ı hodnota . . . . . . . . . . . . . . . . 4.2.2 Rozptyl . . . . . . . . . . . . . . . . . . . . 4.2.3 Kvantily . . . . . . . . . . . . . . . . . . . . 4.2.4 Kovariance a korelace . . . . . . . . . . . . . 4.2.5 Vektor stˇredn´ıch hodnot, kovarianˇcn´ı matice 4.3 Nˇekter´a rozdˇelen´ı pravdˇepodobnost´ı . . . . . . . . . 4.3.1 Diskr´etn´ı rozdˇelen´ı . . . . . . . . . . . . . . 4.3.2 Spojit´a rozdˇelen´ı . . . . . . . . . . . . . . . 4.4 Nˇekter´e limitn´ı vˇety . . . . . . . . . . . . . . . . . . 4.4.1 Z´akon velk´ ych ˇc´ısel . . . . . . . . . . . . . . 4.4.2 Centr´aln´ı limitn´ı vˇety . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
5 N´ ahodn´ y v´ ybˇ er 5.1 Pojem n´ahodn´eho v´ ybˇeru . . . . . . . . . . . . . . . . . 5.2 V´ ybˇerov´e charakteristiky . . . . . . . . . . . . . . . . . . 5.3 Rozdˇelen´ı v´ ybˇerov´ ych charakteristik . . . . . . . . . . . . 5.3.1 Rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru . . . . . . . . . . 5.3.2 Rozdˇelen´ı v´ ybˇerov´eho rozptylu . . . . . . . . . . . 5.3.3 Rozdˇelen´ı v´ ybˇerov´eho pod´ılu . . . . . . . . . . . . 5.4 Nez´avisl´e n´ahodn´e v´ ybˇery . . . . . . . . . . . . . . . . . 5.4.1 Dva nez´avisl´e v´ ybˇery z norm´aln´ıho rozdˇelen´ı nebo 5.4.2 Dva nez´avisl´e v´ ybˇery z alternativn´ıho rozdˇelen´ı . 5.5 P´arov´e n´ahodn´e v´ ybˇery . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
44 44 45 49 50 51 51 53 53 54 55 56 56 59 64 64 66
68 . . . . . . . . . . . 68 . . . . . . . . . . . 69 . . . . . . . . . . . 69 . . . . . . . . . . . 70 . . . . . . . . . . . 71 . . . . . . . . . . . 72 . . . . . . . . . . . 73 velk´e rozsahy v´ ybˇer˚ u 73 . . . . . . . . . . . 75 . . . . . . . . . . . 75
6 Z´ aklady teorie odhadu parametr˚ u 6.1 Bodov´e a intervalov´e odhady . . . . . . . . . . . . . . . . . . . . 6.2 Vlastnosti bodov´ ych odhad˚ u . . . . . . . . . . . . . . . . . . . . 6.2.1 Nestrann´e odhady . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Konzistentn´ı odhady . . . . . . . . . . . . . . . . . . . . 6.2.3 Vydatnost odhad˚ u . . . . . . . . . . . . . . . . . . . . . 6.3 Nˇekter´e metody bodov´ ych odhad˚ u. . . . . . . . . . . . . . . . . 6.3.1 Metoda moment˚ u . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Metoda maxim´aln´ı vˇerohodnosti . . . . . . . . . . . . . . 6.4 Intervaly spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Sestrojen´ı intervalu spolehlivosti . . . . . . . . . . . . . . 6.5 Intervaly spolehlivosti pro stˇredn´ı hodnotu . . . . . . . . . . . . 6.5.1 Intervaly spolehlivosti pro stˇredn´ı hodnotu pˇri zn´am´em rozptylu . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.2 Intervaly spolehlivosti pro stˇredn´ı hodnotu pˇri nezn´am´e odchylce . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Intervaly spolehlivosti pro rozptyl . . . . . . . . . . . . . . . . . 6
. . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . smˇerodatn´e . . . . . . . . . . . . . .
77 77 78 78 79 80 81 82 82 85 85 86 86 89 90
OBSAH
6.7
Intervaly spolehlivosti pro pod´ıl . . . . . . . . . . . . . . . . . . . . . . . . .
92
7 Z´ aklady testov´ an´ı statistick´ ych hypot´ ez 7.1 Podstata testov´an´ı hypot´ez . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Formulace hypot´ez . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Volba testov´eho kriteria . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Z´akladn´ı pojmy a terminologie . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Testov´a statistika, obor pˇrijet´ı, obor zam´ıtnut´ı, kritick´e hodnoty . . 7.2.2 Chyba prvn´ıho a druh´eho druhu . . . . . . . . . . . . . . . . . . . . 7.2.3 Z´avˇery pˇri testov´an´ı hypot´ez a jejich interpretace . . . . . . . . . . 7.2.4 Kritick´ y obor pro zadanou hladinu v´ yznamnosti . . . . . . . . . . . 7.2.5 Formulace procesu testov´an´ı hypot´ez . . . . . . . . . . . . . . . . . 7.2.6 Klasick´ y pˇr´ıstup k testov´an´ı hypot´ez . . . . . . . . . . . . . . . . . 7.3 P -hodnoty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Pˇr´ıstup k testov´an´ı hypot´ez zaloˇzen´ y na P -hodnotˇe . . . . . . . . . 7.4 Nˇekter´e testy parametrick´ ych hypot´ez . . . . . . . . . . . . . . . . . . . . . 7.4.1 Test hypot´ezy o stˇredn´ı hodnotˇe µ . . . . . . . . . . . . . . . . . . 7.4.2 Test hypot´ezy o rozptylu . . . . . . . . . . . . . . . . . . . . . . . . 7.4.3 Testy hypot´ezy o pod´ılu p . . . . . . . . . . . . . . . . . . . . . . . 7.5 Testy hypot´ez o shodˇe dvou stˇredn´ıch hodnot . . . . . . . . . . . . . . . . 7.5.1 Testy hypot´ezy o shodˇe dvou stˇredn´ıch hodnot pro nez´avisl´e v´ ybˇery 7.5.2 Testy hypot´ezy pro dvˇe stˇredn´ı hodnoty uˇzit´ım p´arov´ ych v´ ybˇer˚ u . . 7.6 Test hypot´ezy o shodˇe dvou pod´ıl˚ u pˇri nez´avisl´ ych v´ ybˇerech . . . . . . . . 7.7 Ch´ı-kvadr´at test dobr´e shody . . . . . . . . . . . . . . . . . . . . . . . . . 7.8 Ch´ı-kvadr´at test nez´avislosti . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
95 95 96 97 97 97 97 99 99 100 101 101 102 103 103 106 107 108 109 112 113 115 118
8 Regresn´ı a korelaˇ cn´ı anal´ yza 8.1 Line´arn´ı rovnice s jednou nez´avislou promˇennou . . . . . . 8.2 Regresn´ı rovnice . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Extrapolace . . . . . . . . . . . . . . . . . . . . . . 8.2.2 Odlehl´a a vlivn´a pozorov´an´ı . . . . . . . . . . . . . 8.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . 8.4 Line´arn´ı korelace . . . . . . . . . . . . . . . . . . . . . . . 8.5 Line´arn´ı regresn´ı model . . . . . . . . . . . . . . . . . . . . 8.5.1 Bodov´ y odhad rozptylu σ 2 . . . . . . . . . . . . . . 8.5.2 Testy hypot´ez a intervaly spolehlivosti pro parametr 8.5.3 Odhad a predikce . . . . . . . . . . . . . . . . . . . 8.6 Testy hypot´ez o korelaˇcn´ım koeficientu . . . . . . . . . . . 8.7 Obecn´ y regresn´ı model . . . . . . . . . . . . . . . . . . . . 8.7.1 Maticov´e vyj´adˇren´ı modelu line´arn´ı regrese . . . . .
. . . . . . . . . . . . .
120 121 121 125 125 127 129 131 133 134 137 140 141 144
Statistisk´ e tabulky
. . . . . . . . . . . . . . . . β1 . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
146
Pˇ r´ıloha
i
7
8
Kapitola 1 Podstata statistiky Pod pojmem statistika si vˇetˇsina lid´ı pˇredstavuje ˇc´ıseln´a fakta, jako napˇr´ıklad poˇcet nezamˇestnan´ ych, ceny potravin, nebo mnoˇzstv´ı uzavˇren´ ych sˇ natk˚ u a rozvod˚ u atd. Statistika (n´azev z latinsk´eho slova status“ = st´at) p˚ uvodnˇe znamenala vˇedu zab´ yvaj´ıc´ı ” se shromaˇzd’ov´an´ım, tˇr´ıdˇen´ım a tabelov´an´ım takov´ ychto dat. Statistika ale znamen´a mnohem v´ıce, neˇz je obsaˇzeno v t´eto definici. Statistikov´e nejen data shromaˇzd’uj´ı, tˇr´ıd´ı a tabeluj´ı, ale tak´e analyzuj´ı za u ´ˇcelem formulov´an´ı obecn´ ych z´avˇer˚ u a rozhodov´an´ı. Na pˇr´ıklad politick´ y ˇ analytik m˚ uˇze pouˇz´ıt u ´daje z´ıskan´e z ˇc´asti opr´avnˇen´ ych voliˇc˚ u v CR k predikci volebn´ıch prefˇ Mˇestsk´e zastupitelstvo m˚ erenc´ı vˇsech opr´avnˇen´ ych voliˇc˚ u cel´e CR. uˇze rozhodnout o tom, kde postavit novou d´alnici, na z´akladˇe souhrnn´ ych zpr´av o ˇzivotn´ım prostˇred´ı a demografick´ ych zpr´av, kter´e zahrnuj´ı r˚ uzn´e statistick´e u ´daje. V t´eto kapitole zavedeme z´akladn´ı terminologii, takˇze r˚ uzn´e v´ yznamy slova statistika budou zˇrejmˇejˇs´ı.
1.1
Dva z´ akladn´ı typy statistiky
Pˇri statistick´ ych v´ yzkumech n´as zaj´ımaj´ı hromadn´e jevy a procesy, tj. jevy a procesy vyskytuj´ıc´ı se u velk´eho poˇctu prvk˚ u. Tyto prvky naz´ yv´ame statistick´ e jednotky a jsou to element´arn´ı jednotky statistick´eho zkoum´an´ı. Mohou to b´ yt osoby (napˇr. zamˇestnanci podniku pˇri sledov´an´ı mezd), organizace (napˇr. podniky pˇri zkoum´an´ı v´ yˇse v´ yroby), vˇeci, ud´alosti, zv´ıˇrata apod. Pouˇzijeme dobˇre zn´am´e pˇr´ıklady z oblasti sportu a z oblasti politick´ ych voleb k objasnˇen´ı dvou z´akladn´ıch typ˚ u statistiky: popisn´e statistiky a inferenˇcn´ı statistiky. Pˇ r´ıklad 1.1 Popisn´ a statistika
ˇ st´ı hokejist´e hrali ´ ´ celkem 6 zapas ´ ˚ V unoru 1998 se v Japonsku konaly zimn´ı olympijsk´e hry. Ceˇ u, ´ 5 zapas ´ ˚ a prohrali ´ 1 zapas. ´ ´ ´ zdili udaje ´ ´ vyhrali u Prace lid´ı, kteˇr´ı nashromaˇ o tˇechto zapasech ´ c´ıch (poˇcet nastˇr´ılenych ´ ´ u, ˚ prumˇ ˚ erny´ poˇcet gol ´ u˚ pˇripadaj´ıc´ı na jeden zapas, ´ ˚ erny´ i o hraˇ gol prumˇ ´ cu ˚ a pod.), je ilustrac´ı popisn´e statistiky. vˇek hraˇ
Form´aln´ı vymezen´ı term´ınu popisn´a statistika je d´ano n´asleduj´ıc´ı definic´ı 1.1. Definice 1.1
P OPISN A´ STATISTIKA
Popisna´ statistika se skl´ ad´a z metod pro zjiˇst’ov´an´ı a sumarizaci informac´ı.
9
K APITOLA 1
P ODSTATA STATISTIKY
Popisn´a statistika zahrnuje konstrukci graf˚ u, diagram˚ u a tabulek a v´ ypoˇcet r˚ uzn´ ych popisn´ ych charakteristik jako je aritmetick´ y pr˚ umˇer, m´ıry rozpt´ ylenosti a percentily, jimiˇz se budeme zab´ yvat kapitole 2. Inferenˇcn´ı statistika (nebo t´eˇz statistick´a indukce) je ilustrov´ana na pˇr´ıkladu 1.2. Pˇ r´ıklad 1.2 Inferenˇcn´ı statistika ˇ ´ ˚ Agentura STEM provedla v unoru 1998 v Cesk´ e republice pruzkum volebn´ıch preferenc´ı u 2000 ˇ ´ eny´ ch voliˇcu. ˚ Zjistila, zˇe 10% preferuje ODS, 29% CSSD, opravnˇ 11% US atd. Vy´ rok: V pˇredˇcasn´ych ˇ ´ volb´ ach v ˇcervnu 1998 zv´ıtˇez´ı CSSD a z´ısk´ a podporu od 25% voliˇc˚ u, kteˇr´ı se z˚ uˇcastn´ı voleb, je vyrokem inferenˇcn´ı statistiky.
Politick´e volby poskytuj´ı pˇr´ıklad inferenˇcn´ı statistiky. Bylo by pˇr´ıliˇs n´akladn´e a nerealistick´e dotazovat se vˇsech voliˇc˚ u na jejich volebn´ı preference. Statistikov´e, kteˇr´ı si pˇrej´ı ˇ se mohou dot´azat jen peˇclivˇe vybran´e skupiny odhadnout m´ınˇen´ı cel´e populace voliˇc˚ u CR, nˇekolika tis´ıc voliˇc˚ u. Takov´a skupina voliˇc˚ u se naz´ yv´a v´ybˇer z populace. Statistikov´e analyzuj´ı informace z´ıskan´e z v´ ybˇeru voliˇcsk´e populace, aby udˇelali z´avˇery o volebn´ıch preferenc´ıch cel´e voliˇcsk´e populace. Inferenˇcn´ı statistika poskytuje metody pro formulov´an´ı takov´ ych z´avˇer˚ u. Terminologie zaveden´a v kontextu politick´ ych voleb se bˇeˇznˇe uˇz´ıv´a ve statistice. Definice 1.2
´ ´I SOUBOR ( POPULACE ) Z AKLADN
´ EROV ˇ ´ SOUBOR ( V YB ´ ER ˇ ) A V YB Y
Zakladn´ ı soubor: Soubor vˇsech statistick´ ych jednotek, kter´e jsou pˇredmˇetem statistick´e ´
studie.
ˇ ast z´akladn´ıho souboru, kter´a slouˇzila k z´ısk´an´ı informac´ı. Vybˇ ´ erovy´ soubor: C´ Poˇcet vˇsech jednotek z´akladn´ıho souboru naz´ yv´ame rozsah z´ akladn´ıho souboru, je koneˇcn´ y nebo spoˇcetnˇe nekoneˇcn´ y, zpravidla je velk´ y. Poˇcet vˇsech jednotek v´ ybˇerov´eho souboru se naz´ yv´a rozsah v´ ybˇ erov´ eho souboru. Informace z´ıskan´e z v´ ybˇerov´eho souboru slouˇz´ı k formulov´an´ı z´avˇeru o z´akladn´ım souboru. Definice 1.3
ˇ ´I STATISTIKA I NFEREN CN
Inferenˇcn´ı statistika se skl´ ad´a z metod pro pˇrij´ım´an´ı a mˇeˇren´ı spolehlivosti z´avˇer˚ u o
populaci zaloˇzen´ ych na informac´ıch z´ıskan´ ych z v´ ybˇeru z t´eto populace. Popisn´a statistika a inferenˇcn´ı statistika jsou vz´ajemnˇe propojeny. T´emˇeˇr vˇzdy je nutn´e pouˇz´ıt metody popisn´e statistiky k organizov´an´ı a sumarizaci informac´ı z´ıskan´ ych z v´ ybˇeru dˇr´ıve neˇz provedeme statistick´e vyhodnocov´an´ı. Kromˇe toho pˇredbˇeˇzn´a popisn´a anal´ yza v´ ybˇeru ˇcasto odhal´ı rysy, kter´e vedou k volbˇe (nebo k pˇrehodnocen´ı volby) vhodn´ ych inferenˇcn´ıch metod. Statistick´e zkoum´an´ı lze zpravidla rozdˇelit do nˇekolika etap. Jde o etapu statistick´eho zjiˇst’ov´an´ı neboli ˇsetˇren´ı, statistick´eho zpracov´ an´ı zjiˇstˇen´ych u ´daj˚ u a koneˇcnˇe o etapu statistick´eho vyhodnocov´ an´ı. Pˇrestoˇze nejd˚ uleˇzitˇejˇs´ı je etapa tˇret´ı, je nezbytn´ ym pˇredpokladem jej´ı u ´spˇeˇsnosti, aby byly spr´avnˇe provedeny etapy pˇredchoz´ı. Pˇredmˇetem tˇechto skript nen´ı prvn´ı etapa statistick´eho zkoum´an´ı (viz napˇr. [10, 7]). 10
´ Eˇ R A Z AKLADN ´ ´I SOUBOR 1.2 V YB
1.2
V´ ybˇ er a z´ akladn´ı soubor
Jestliˇze informace potˇrebn´e k formulov´an´ı z´avˇer˚ u o z´akladn´ım souboru nejsou k dispozici, je tˇreba prov´est studii k z´ısk´an´ı informac´ı. Zhruba ˇreˇceno, existuj´ı dvˇe metody pro z´ısk´an´ı informac´ı: vz´ıt v´ ybˇer nebo shrom´aˇzdit u ´daje o cel´em z´akladn´ım souboru. V´ ybˇer je nejv´ıce rozˇs´ıˇren´ y zp˚ usob, nebot’ je levnˇejˇs´ı a rychlejˇs´ı neˇz sledov´an´ı cel´eho z´akladn´ıho souboru. Rozhodneme-li se pro v´ ybˇer, je tˇreba rozhodnout, jakou metodu pro v´ ybˇer ze z´akladn´ıho souboru zvol´ıme. V u ´vahu mus´ıme vz´ıt skuteˇcnost, ˇze na z´akladˇe informac´ı z´ıskan´ ych z v´ ybˇeru budeme dˇelat z´avˇery o cel´em z´akladn´ım souboru. Tud´ıˇz rozhoduj´ıc´ı je, aby v´ ybˇer byl reprezentativn´ı, to znamen´a, ˇze mus´ı odr´aˇzet co moˇzn´a nejvˇernˇeji relevantn´ı charakteristiky z´akladn´ıho souboru, kter´ y je pˇredmˇetem naˇseho zkoum´an´ı. Napˇr´ıklad by nemˇelo velk´ y v´ yznam pouˇz´ıt pr˚ umˇernou v´ yˇsku v´ ybˇeru hr´aˇc˚ u basketbalu ˇ k formulov´an´ı z´avˇer˚ u o pr˚ umˇern´e v´ yˇsce vˇsech dospˇel´ ych muˇz˚ u v CR. Prezidentsk´e volby v roce 1936 v USA n´am umoˇzn´ı uvˇedomit si, co se m˚ uˇze st´at, nen´ı-li v´ ybˇer reprezentativn´ı. Pˇred volbami se snaˇzili vydavatel´e ˇcasopisu Literary Digest pˇredpovˇedˇet v´ ysledek prezidentsk´ ych voleb. T´ ym pracovn´ık˚ u, zab´ yvaj´ıc´ı se pr˚ uzkumem, poloˇzil vybran´ ym voliˇc˚ um ot´azku, zda budou volit kandid´ata demokrat˚ u D. Roosvelta nebo kandid´ata republik´an˚ u A. Landona. Na z´akladˇe v´ ysledk˚ u pr˚ uzkumu ˇcasopis pˇredpovˇedˇel snadn´e v´ıtˇezstv´ı Landona. Skuteˇcn´ y v´ ysledek voleb byl, ˇze Roosvelt zv´ıtˇezil s takovou pˇrevahou, jak´a nemˇela obdoby v historii prezidentsk´ ych voleb v USA. Co se stalo? Existuj´ı dva d˚ uvody proˇc pr˚ uzkum selhal: (1) V´ ybˇer byl proveden mezi lidmi, kteˇr´ı vlastnili automobil a mˇeli telefon. V roce 1936 tato skupina voliˇc˚ u byla sloˇzena pouze ze z´amoˇznˇejˇs´ıch lid´ı a takov´a skupina lid´ı tradiˇcnˇe volila republik´any. (2) Jen asi 25% osloven´ ych voliˇc˚ u odpovˇedˇelo na dotazn´ık. N´asledkem toho byl v´ ybˇer tak vych´ ylen´ y a nereprezentativn´ı, ˇze jeho pouˇzit´ı vedlo ke ˇspatn´emu odhadu v´ıtˇezstv´ı republik´an˚ u. Nejmodernˇejˇs´ı postupy poˇrizov´an´ı v´ ybˇeru pouˇz´ıvaj´ı pravdˇ epodobnostn´ı v´ ybˇ ery, pˇri kter´ ych n´ahodn´e rozhodov´an´ı, napˇr´ıklad pomoc´ı tabulek n´ahodn´ ych ˇc´ısel, je vyuˇzito pro rozhodnut´ı, kter´e statistick´e jednotky z´akladn´ıho souboru budou tvoˇrit v´ ybˇer, m´ısto toho, aby se toto rozhodnut´ı ponechalo na lidsk´em posouzen´ı. Samozˇrejmˇe, ˇze i v tomto pˇr´ıpadˇe m˚ uˇzeme dostat nereprezentativn´ı v´ ybˇer. Avˇsak pravdˇepodobnostn´ı v´ ybˇer vyluˇcuje z´amˇernou jednostrannost v´ ybˇeru a dovoluje v´ yzkumn´ ym pracovn´ık˚ um kontrolovat moˇznost z´ısk´an´ı nereprezentativn´ıho v´ ybˇeru.
1.2.1
Prost´ y n´ ahodn´ y v´ ybˇ er
Statistick´e inferenˇcn´ı metody, kter´ ymi se budeme v r´amci tˇechto skript zab´ yvat, jsou urˇceny pouze pro pouˇzit´ı prost´ ych (jednoduch´ ych) n´ ahodn´ ych v´ ybˇ er˚ u. Definice 1.4
´ ´ V YB ´ ER ˇ P ROST Y´ N AHODN Y
Prosty´ nahodn y´ vybˇ y´ vybˇ y n´ahodn´ y v´ ybˇer, kdy pˇri jeho ´ ´ er nebo jen nahodn ´ ´ er je takov´
sestavov´an´ı mˇela kaˇzd´a statistick´a jednotka z´akladn´ıho souboru stejnou moˇznost b´ yt vybr´ana. Existuj´ı dva typy prost´eho n´ahodn´eho v´ ybˇeru. Prost´ y n´ ahodn´ y v´ ybˇ er s vracen´ım, ve kter´em kaˇzd´a jednotka z´akladn´ıho souboru m˚ uˇze b´ yt vybr´ana v´ıce neˇz jednou; jin´ y je prost´ y n´ ahodn´ y v´ ybˇ er bez vracen´ı, ve kter´em kaˇzd´a jednotka z´akladn´ıho souboru m˚ uˇze 11
K APITOLA 1
P ODSTATA STATISTIKY
b´ yt vybr´ana nejv´ yˇse jednou. Pokud nebude ˇreˇceno jinak, budeme pˇredpokl´ adat, ˇze prost´y n´ ahodn´y v´ybˇer je poˇr´ızen bez vracen´ı. Prost´ y n´ahodn´ y v´ ybˇer je nejjednoduˇsˇs´ı zp˚ usob v´ ybˇeru statistick´ ych jednotek. Prov´ad´ı se pˇr´ımo a bez pˇredbˇeˇzn´ ych omezen´ı. Proto lze ve v´ ybˇeru poˇc´ıtat se vˇsemi mysliteln´ ymi napˇr. n-ˇclenn´ ymi kombinacemi statistick´ ych jednotek. Prost´ y n´ahodn´ y v´ ybˇer m´a tak´e nˇekter´e nev´ yhody. Napˇr´ıklad n´am neuk´aˇze dokonale strukturu z´akladn´ıho souboru a m˚ uˇze b´ yt nepraktick´ y a drah´ y, jsou-li statistick´e jednotky geograficky ˇsiroce roztrouˇseny. Uvedeme nˇekter´e metody v´ ybˇeru, kter´e jsou ˇcasto vhodnˇejˇs´ı neˇz prost´ y n´ahodn´ y v´ ybˇer.
1.2.2
Jin´ e metody v´ ybˇ eru
Jedna metoda v´ ybˇeru, kterou lze snadnˇeji realizovat neˇz prost´ y n´ahodn´ y v´ ybˇer, je systematick´ y n´ ahodn´ y v´ ybˇ er. Lze ji uplatnit, jsou-li jednotky z´akladn´ıho souboru seˇrazeny n´ahodnˇe vzhledem ke sledovan´emu znaku. Tento v´ ybˇer prob´ıh´a ve tˇrech kroc´ıch: (1) Vydˇel´ıme rozsah z´akladn´ıho souboru rozsahem v´ ybˇeru a v´ ysledek zaokrouhl´ıme dol˚ u na nejbliˇzˇs´ı cel´e ˇc´ıslo m; (2) pomoc´ı tabulky n´ahodn´ ych ˇc´ısel (nebo obdobn´eho zaˇr´ızen´ı) urˇc´ıme ˇc´ıslo k leˇz´ıc´ı mezi 1 a m; (3) z posloupnosti n´ahodnˇe seˇrazen´ ych jednotek vybereme ty statistick´e jednotky z´akladn´ıho souboru, kter´e maj´ı pˇriˇrazena ˇc´ısla k, k + m, k + 2m, · · · . Jin´a alternativn´ı metoda k prost´emu n´ahodn´emu v´ ybˇeru je tzv. v´ ybˇ er skupin. Tato metoda prob´ıh´a v n´asleduj´ıc´ıch tˇrech kroc´ıch: (1) Z´akladn´ı soubor se rozdˇel´ı do skupin (klastr˚ u); provede se prost´ y n´ahodn´ y v´ ybˇer skupin; (3) vˇsechny statistick´e jednotky skupiny vybran´e v kroku (2) tvoˇr´ı n´ahodn´ y v´ ybˇer. Tento typ v´ ybˇeru ˇsetˇr´ı pen´ıze i ˇcas, ale m´a urˇcit´e nedostatky. V ide´aln´ım pˇr´ıpadˇe by vybran´a skupina mˇela odr´aˇzet charakteristick´e rysy cel´eho z´akladn´ıho souboru. Avˇsak to se vˇetˇsinou nestane, skupina je obvykle stejnorodˇejˇs´ı, neˇz z´akladn´ı soubor jako celek. Dalˇs´ı metoda v´ ybˇeru zn´am´a jako stratifikovan´ y v´ ybˇ er je ˇcasto spolehlivˇejˇs´ı neˇz v´ ybˇer skupin. Pˇri realizaci stratifikovan´eho v´ ybˇeru je nejprve cel´ y z´akladn´ı soubor rozdˇelen na nˇekolik d´ılˇc´ıch soubor˚ u, oblast´ı, pˇriˇcemˇz je snaha tvoˇrit tyto podsoubory tak, aby obsahovaly pokud moˇzno statistick´e jednotky stejn´ ych vlastnost´ı. T´ım doc´ıl´ıme, ˇze kaˇzd´a oblast je sama o sobˇe stejnorodˇejˇs´ım celkem, neˇz p˚ uvodn´ı z´akladn´ı soubor. V kaˇzd´e oblasti se pak provede prost´ y n´ahodn´ y v´ ybˇer. Oblastmi mohou b´ yt napˇr. univerzity tˇr´ıdˇen´e podle zamˇeˇren´ı, podniky tˇr´ıdˇen´e podle urˇcit´ ych hledisek, dom´acnosti o r˚ uzn´em poˇctu ˇclen˚ u apod. Oblastn´ı v´ ybˇer je n´aroˇcnˇejˇs´ı ˇcasovˇe i finanˇcnˇe neˇz prost´ y n´ahodn´ y v´ ybˇer, je-li vˇsak spr´avnˇe proveden, je u ´ˇcinnˇejˇs´ı a d´av´a kvalitnˇejˇs´ı informace o z´akladn´ım souboru neˇz prost´ y n´ahodn´ y v´ ybˇer. V´ıcestupˇ nov´ y n´ ahodn´ y v´ ybˇ er je kombinac´ı vˇsech pˇredch´azej´ıc´ıch n´ahodn´ ych v´ ybˇer˚ u vˇcetnˇe prost´eho n´ahodn´eho v´ ybˇeru. Problematika v´ ybˇerov´ ych ˇsetˇren´ı je velice rozs´ahl´a a pˇresahuje r´amec tohoto uˇcebn´ıho textu. V´ıce se lze doˇc´ıst ve specializovan´e statistick´e literatuˇre.
12
Kapitola 2 Popisn´ a statistika V t´eto kapitole se budeme zab´ yvat popisnou statistikou. Nejprve uk´aˇzeme, jak klasifikovat z´ıskan´e u ´daje podle typu, jak je uspoˇra´dat do tabulek a sumarizovat je pomoc´ı grafick´eho zobrazen´ı. Pokraˇcovat budeme zkoum´an´ım charakteristik, kter´e m˚ uˇzeme pouˇz´ıt k popisu datov´ ych soubor˚ u.
2.1
Veliˇ ciny a data
Vlastnosti statistick´ ych jednotek, kter´e se mˇen´ı od jedn´e jednotky ke druh´e se naz´ yvaj´ı statistick´ e znaky nebo veliˇ ciny, pˇr´ıpadnˇe promˇ enn´ e. Zvol´ıme-li za statistickou jednotku osobu, lze tuto jednotku charakterizovat napˇr. znaky: v´ yˇska, v´aha, poˇcet sourozenc˚ u, barva oˇc´ı, nejvyˇsˇs´ı dosaˇzen´e vzdˇel´an´ı, rodinn´ y stav apod. Statistick´e znaky m˚ uˇzeme rozdˇelit podle nˇekolika krit´eri´ı, zejm´ena podle toho, jak lze vyj´adˇrit jejich obmˇeny. Prvn´ı tˇri v´ yˇse zm´ınˇen´e veliˇciny charakterizuj´ıc´ı osobu lze vyj´adˇrit ˇc´ıselnou formou, poskytuj´ı tedy ˇc´ıselnou informaci a jsou pˇr´ıkladem kvantitativn´ıch veliˇ cin. Posledn´ı tˇri veliˇciny poskytuj´ı informaci, kter´a nen´ı ˇc´ıseln´a, je d´ana slovn´ı definic´ı a tyto veliˇciny jsou pˇr´ıkladem kvalitativn´ıch veliˇ cin. Kvantitativn´ı veliˇciny mohou b´ yt diskr´etn´ı (nespojit´e) nebo spojit´e. Diskr´ etn´ı veliˇ cina je takov´a veliˇcina, jej´ıˇz moˇzn´e hodnoty tvoˇr´ı koneˇcnou nebo spoˇcetnˇe nekoneˇcnou mnoˇzinu ˇc´ısel, obvykle mnoˇzinu cel´ ych ˇc´ısel. Poˇcet sourozenc˚ u nˇejak´e osoby je pˇr´ıkladem diskr´etn´ı veliˇciny. Spojit´e veliˇciny mohou nab´ yvat v r´amci urˇcit´eho intervalu libovoln´ ych hodnot. V´ yˇska osoby je pˇr´ıklad spojit´e veliˇciny. Spojit´ a veliˇ cina je tud´ıˇz veliˇcina, jej´ıˇz moˇzn´e hodnoty tvoˇr´ı nˇejak´ y ˇc´ıseln´ y interval. Pˇredchoz´ı diskuse je shrnuta v definici 2.1. Definice 2.1
ˇ V ELI CINY
Veliˇcina: Charakteristika, kter´ a se mˇen´ı od jedn´e statistick´e jednotky ke druh´e. Kvalitativn´ı veliˇcina: Veliˇ cina, kterou nelze vyj´adˇrit ˇc´ıselnˇe. Kvantitativn´ı veliˇcina: Veliˇ cina, kterou lze vyj´adˇrit ˇc´ıselnˇe. Diskretn´ cina, jej´ıˇz moˇzn´e hodnoty tvoˇr´ı koneˇcnou nebo ´ ı veliˇcina: Kvantitativn´ı veliˇ
spoˇcetnˇe nekoneˇcnou mnoˇzinu ˇc´ısel. Spojita´ veliˇcina: Kvantitativn´ı veliˇ cina, jej´ıˇz moˇzn´e hodnoty tvoˇr´ı nˇejak´ y ˇc´ıseln´ y interval. Pozorov´an´ım nebo mˇeˇren´ım hodnot veliˇciny na nˇekolika statistick´ ych jednotk´ach z´ısk´ame vstupn´ı data nebo jen data. Data jsou tud´ıˇz informace, kter´e statistikov´e shromaˇzd’uj´ı, tˇr´ıd´ı 13
K APITOLA 2
P OPISN A´ STATISTIKA
a analyzuj´ı. N´azvy kvalitativn´ı, kvantitativn´ı, diskr´etn´ı a spojit´e pouˇz´ıv´ame rovnˇeˇz k popisu dat stejnˇe jako veliˇcin: kvalitativn´ı data jsou data z´ıskan´a pozorov´an´ım, mˇeˇren´ım kvalitativn´ı veliˇciny, apod. Soubor vˇsech pozorovan´ ych hodnot sledovan´eho statistick´eho znaku, kter´e m´ame k dispozici, budeme naz´ yvat datov´ y soubor nebo mnoˇ zina dat. Mnoˇzinu vˇsech statistick´ ych jednotek, u nichˇz zkoum´ame pˇr´ısluˇsn´e statistick´e znaky, naz´ yv´ame statistick´ y soubor. Zjiˇst’ujeme-li u kaˇzd´e statistick´e jednotky pouze jeden statistick´ y znak, z´ısk´ame soubor jednorozmˇ ern´ y. Zjiˇst’ujeme-li u kaˇzd´e jednotky dva nebo v´ıce znak˚ u a zkoum´ame-li souˇcasnˇe jejich vz´ajemn´e vztahy, z´ısk´ame statistick´ y soubor v´ıcerozmˇ ern´ y. Statistick´ y soubor vˇsech jednotek, kter´ y je vlastn´ım pˇredmˇetem sledov´an´ı, o nˇemˇz chceme prov´adˇet z´avˇery, se naz´ yv´a z´ akladn´ı soubor nebo populace, jak jsme se jiˇz zm´ınili v kapitole 1.
2.2 2.2.1
Element´ arn´ı zpracov´ an´ı statistick´ ych dat Tˇ r´ıdˇ en´ı dat
V´ ysledkem statistick´eho ˇsetˇren´ı je zpravidla velk´e mnoˇzstv´ı ˇc´ıseln´ ych u ´daj˚ u, kter´e jsou vˇetˇsinou nepˇrehledn´e. Aby vynikly charakteristick´e rysy a z´akonitosti analyzovan´eho souboru a aby se u ´daje staly pˇrehledn´ ymi, mus´ıme je setˇr´ıdit. Tˇ r´ıdˇ en´ım tedy rozum´ıme rozdˇelen´ı statistick´ ych jednotek souboru do takov´ ych skupin, aby co nejl´epe vynikly charakteristick´e vlastnosti zkouman´ ych jev˚ u. Tˇr´ıdˇen´ı je tedy metoda pro uspoˇra´d´an´ı u ´daj˚ u do pˇrehledn´e formy a tak´e jejich zhuˇstˇen´ı. Prov´ad´ıme-li tˇr´ıdˇen´ı pouze podle obmˇen jednoho statistick´eho znaku, mluv´ıme o jednostupˇ nov´ em tˇ r´ıdˇ en´ı. Prov´ad´ıme-li tˇr´ıdˇen´ı podle v´ıce statistick´ ych znak˚ u najednou, jde o tˇ r´ıdˇ en´ı v´ıcestupˇ nov´ e. Pˇ r´ıklad 2.1 Tˇr´ıdˇen´ı dat ´ ´ ıc´ıch do splatnosti 40 kratkodob ´ ´ eru. ˚ Z´ıskali jsme udaje o poˇctu dn´ı zbyvaj´ y´ ch uvˇ 70 64 99 55 64 89 87 65 62 38 67 70 60 69 78 39 75 56 71 51 99 68 95 86 57 53 47 50 55 81 80 98 51 36 63 66 85 79 83 70 ´ ´ Tyto udaje jsou znaˇcnˇe nepˇrehledn´e a ani zkuˇsen´y pracovn´ık z nich nez´ıska´ zakladn´ ı infor´ eru˚ podle doby zby´ vaj´ıc´ı do splatnosti. Rozdˇelen´ım dat do skupin muˇ ˚ zeme mace o rozdˇelen´ı uvˇ ´ dosahnout toho, zˇe data se stanou mnohem pˇrehlednˇejˇs´ı. Nejprve rozhodneme, jak velk´e tˇr´ıdy ´ ery do tˇr´ıd o d´elce 10 dn´ı. Vzhledem k tomu, zˇe zvol´ıme. V tomto pˇr´ıkladu je vhodn´e rozdˇelit uvˇ ´ ´ nejmenˇs´ı udaj je 36 a nejvˇetˇs´ı 99, rozdˇelen´ım udaj u˚ do 10 tˇr´ıd dostaneme tˇr´ıdy 30–39, 40–49, 50–59, 60–69, 70–79, 80–89, 90–99. Dalˇs´ım a posledn´ım krokem pˇri tˇr´ıdˇen´ı dat je stanoven´ı, ´ eru ˚ pˇripada´ na kaˇzdou tˇr´ıdu. Napˇr´ıklad poˇcet uvˇ ´ eru, ˚ pro kter´e doba zbyvaj´ ´ ıc´ı do jaky´ poˇcet uvˇ splatnosti leˇz´ı mezi 60–69 dny je 10. Kdybychom provedli rozdˇelen´ı do tˇr´ıd 30–40, 40–50, 50–60 atd., mˇeli bychom probl´em, do ´ er, kter´emu chyb´ı 50 dn´ı do splatnosti. Tento probl´em nevznikne kter´e tˇr´ıdy zaˇradit napˇr´ıklad uvˇ ˚ pˇri zpusobu tˇr´ıdˇen´ı uveden´em vy´ sˇ e.
Pˇri tˇr´ıdˇen´ı dat do tˇr´ıd v pˇr´ıkladu 2.1 jsme se ˇridili urˇcit´ ymi z´asadami, kter´e maj´ı obecnou platnost. Uvedeme ty nejd˚ uleˇzitˇejˇs´ı. 1. Poˇcet tˇr´ıd nem´a b´yt pˇr´ıliˇs mal´y, aby to nevedlo k velmi zjednoduˇsen´emu pohledu na vlastnosti souboru a nemˇel by b´yt pˇr´ıliˇs velk´y, nebot’ by se mohlo st´at, ˇze se zpracov´ an´ı stane nepˇrehledn´ym a zaniknou z´akonitosti charakteristick´e pro dan´y soubor.
14
´ ´I ZPRACOV AN ´ ´I STATISTICK YCH ´ 2.2 E LEMENT ARN DAT
Pˇri urˇcov´an´ı poˇctu tˇr´ıd se snaˇz´ıme potlaˇcit n´ahodn´e kol´ıs´an´ı ˇcetnost´ı, ale z´aroveˇ n nesm´ıme setˇr´ıt charakteristick´e rysy. Na stanoven´ı poˇctu tˇr´ıd neexistuje jednotn´ y n´azor ani obecn´ y pˇredpis. 2. Jednotliv´e pozorovan´e hodnoty znaku patˇr´ı do jedn´e a jen jedn´e tˇr´ıdy. Tento probl´em je spojen s ot´azkou, jak urˇcovat hranice tˇr´ıd, aby bylo moˇzn´e jednotliv´e hodnoty zaˇradit do pˇr´ısluˇsn´ ych tˇr´ıd jednoznaˇcnˇe. 3. Pokud je to moˇzn´e, stanov´ıme shodnou ˇs´ıˇrku pro vˇsechny tˇr´ıdy. V pˇr´ıpadˇe jednostupˇ nov´eho tˇr´ıdˇen´ı tud´ıˇz uspoˇra´d´ame u ´daje o zkouman´em kvantitativn´ım znaku do rostouc´ı posloupnosti, rozd´ıl mezi maxim´aln´ı a minim´aln´ı zjiˇstˇenou hodnotou znaku rozdˇel´ıme na urˇcit´ y poˇcet interval˚ u, kter´e naz´ yv´ame tˇ r´ıdn´ı intervaly nebo tˇ r´ıdy a mluv´ıme o intervalov´ em tˇ r´ıdˇ en´ı. Kaˇzd´emu intervalu pˇriˇrad´ıme poˇcet statistick´ ych jednotek s hodnotou znaku, kter´ y patˇr´ı do pˇr´ısluˇsn´e tˇr´ıdy. Rozdˇ elen´ı ˇ cetnost´ı a relativn´ıch ˇ cetnost´ı Poˇcet statistick´ ych jednotek s hodnotou znaku, kter´ y patˇr´ı do urˇcit´e tˇr´ıdy, naz´ yv´ame absolutn´ı ˇ cetnost´ı nebo jen ˇ cetnost´ı tˇr´ıdy. V pˇr´ıkladu 2.1 o kr´atkodob´ ych u ´vˇerech je ˇc´ıslo 10 ˇcetnost tˇr´ıdy 60–69, zat´ımco ˇc´ıslo 7 je ˇcetnost tˇr´ıdy 70–79 a tak´e tˇr´ıdy 80–89. Pod´ıl pˇr´ısluˇsn´e ˇcetnosti a rozsahu datov´eho souboru se naz´ yv´a relativn´ı (pomˇ ern´ a) ˇ cetnost. Napˇr´ıklad relativn´ı ˇcetnost tˇr´ıdy 50–59 je 8/40 = 0.2. Poznamenejme, ˇze souˇcet relativn´ıch ˇcetnost´ı vˇsech tˇr´ıd je roven jedn´e. Tabulku, do kter´e uspoˇr´ad´av´ame ˇcetnosti resp. relativn´ı ˇcetnosti, naz´ yv´ame tabulkou rozdˇ elen´ı ˇ cetnost´ı resp. tabulkou rozdˇ elen´ı relativn´ıch ˇ cetnost´ı. Chceme-li mezi sebou porovn´avat r˚ uzn´e datov´e soubory, liˇsic´ı se sv´ ym rozsahem, je vhodnˇejˇs´ı pouˇz´ıt relativn´ı ˇcetnosti neˇz absolutn´ı ˇcetnosti. Je to z toho d˚ uvodu, ˇze relativn´ı ˇcetnost je ˇc´ıslo mezi 0 a 1 a tud´ıˇz m˚ uˇze b´ yt kriteriem pro porovn´an´ı. Dva datov´e soubory maj´ıc´ı shodn´e rozdˇelen´ı ˇcetnost´ı, budou m´ıt shodn´e rozdˇelen´ı relativn´ıch ˇcetnost´ı. Ale dva datov´e soubory maj´ıc´ı shodn´e rozdˇelen´ı relativn´ıch ˇcetnost´ı, budou m´ıt shodn´e rozdˇelen´ı ˇcetnost´ı jen v pˇr´ıpadˇe, ˇze oba datov´e soubory maj´ı stejn´ y rozsah. Kromˇe uveden´ ych dvou zp˚ usob˚ u konstrukce rozdˇelen´ı ˇcetnost´ı, konstruujeme t´eˇz rozdˇelen´ı kumulativn´ıch ˇcetnost´ı a kumulativn´ıch relativn´ıch ˇcetnost´ı, kter´e pod´avaj´ı informaci o tom, kolik jednotek souboru, resp. jak´a pomˇern´a ˇca´st souboru m´a hodnotu sledovan´e veliˇciny menˇs´ı nebo rovnu urˇcit´e dan´e hodnotˇe. Napˇr´ıklad pro data z pˇr´ıkladu 2.1 zjist´ıme, ˇze kumulativn´ı ˇcetnost u ´vˇer˚ u s dobou splatnosti kratˇs´ı neˇz 50 dn´ı je 3+1=4, takˇze 4 u ´vˇery maj´ı dobu splatnosti kratˇs´ı neˇz 50 dn´ı. D´ale zjist´ıme, ˇze kumulativn´ı relativn´ı ˇcetnost u ´vˇer˚ u s dobou splatnosti kratˇs´ı neˇz 50 dn´ı je 4/40 = 0.10, to znamen´a, ˇze 10% u ´vˇer˚ u m´a dobu splatnosti menˇs´ı neˇz 50 dn´ı. Terminologie pouˇ z´ıvan´ a pˇ ri tˇ r´ıdˇ en´ı Vrat’me se opˇet k pˇr´ıkladu 2.1. Uvaˇzujme napˇr´ıklad tˇr´ıdu 50–59. Nejmenˇs´ı poˇcet dn´ı do splatnosti je 50. Tato hodnota se naz´ yv´a doln´ı hranice tˇ r´ıdy. Nejvˇetˇs´ı doba splatnosti v t´eto tˇr´ıdˇe je 59. Tato hodnota se naz´ yv´a horn´ı hranice tˇ r´ıdy. Prostˇredn´ı hodnota tˇr´ıdy 50–59 je (50 + 59)/2 = 54.5 a naz´ yv´a se stˇ red tˇ r´ıdy. Stˇredy tˇr´ıd n´am umoˇzn ˇuj´ı reprezentaci jednotliv´ ych tˇr´ıd pomoc´ı jedin´eho ˇc´ısla a nˇekdy se pouˇz´ıvaj´ı pˇri grafick´em zobrazov´an´ı a pˇri poˇc´ıt´an´ı popisn´ ych mˇer. ˇ S´ıˇrka tˇr´ıdy 50–59 z´ıskan´a odeˇcten´ım sv´e doln´ı hranice od doln´ı hranice sousedn´ı vyˇsˇs´ı tˇr´ıdy, je 60 − 50 = 10 a naz´ yv´a se ˇ s´ıˇ rka tˇ r´ıdy. 15
P OPISN A´ STATISTIKA
K APITOLA 2
V definici 2.2 jsou shrnuty z´akladn´ı pojmy pouˇz´ıvan´e pˇri tˇr´ıdˇen´ı dat. Definice 2.2
ˇ P OJMY POU Zˇ ´I VAN E´ P RI
ˇ ´I D Eˇ N ´I DAT TR
Tˇr´ıdy: Skupiny, do kter´ ych jednotliv´a data rozdˇelujeme. Doln´ı hranice tˇr´ıdy: Nejmenˇs´ı hodnota kter´ a patˇr´ı do pˇr´ısluˇsn´e tˇr´ıdy. Horn´ı hranice tˇr´ıdy: Nejvˇ etˇs´ı hodnota, kter´a patˇr´ı do do pˇr´ısluˇsn´e tˇr´ıdy. Stˇred tˇr´ıdy: Stˇred pˇr´ısluˇsn´ e tˇr´ıdy. ˇ ıˇrka tˇr´ıdy: Doln´ı hranici dan´ S´ e tˇr´ıdy odeˇcteme od doln´ı hranice sousedn´ı vyˇsˇs´ı tˇr´ıdy. ˇ Cetnost tˇr´ıdy: Poˇ cet jednotliv´ ych dat v dan´e tˇr´ıdˇe. Relativn´ı cˇetnost tˇr´ıdy: Pod´ıl ˇ cetnosti tˇr´ıdy a celkov´eho poˇctu dat v datov´em souboru. Kumulativn´ı cˇetnost: Souˇ cet ˇcetnost´ı vˇsech tˇr´ıd reprezentuj´ıc´ıch vˇsechny hodnoty menˇs´ı
neˇz horn´ı hranice pˇr´ısluˇsn´e tˇr´ıdy. Kumulativn´ı relativn´ı cˇetnost tˇr´ıdy: Pod´ıl kumulativn´ı ˇ cetnosti a celkov´eho poˇctu dat
v souboru. Nyn´ı uvedeme v´ ypoˇcetn´ı vzorce pro ˇcetnosti. Necht’ {x1 , · · · , xn } jsou pozorov´an´ı urˇcit´eho statistick´eho znaku x, xj ∈ (a, bi, j = 1, · · · , n a = a0 < a1 < · · · < ak = b. Interval (a, bi ˇıˇrka i-t´e tˇr´ıdy je pak rozdˇel´ıme na k disjunktn´ıch podinterval˚ u (ai−1 , ai i, i = 1, 2, · · · , k. S´ rozd´ıl mezi horn´ı hranic´ı intervalu (ai−1 , ai i a horn´ı hranic´ı sousedn´ıho intervalu (ai−2 , ai−1 i. ˇ Cetnost i-t´e tˇr´ıdy ni je poˇcet pozorov´an´ı xj , pro kter´a plat´ı ai−1 < xj ≤ ai . Tabulka 2.1 Rozdˇelen´ı ˇcetnost´ı a kumulativn´ıch ˇcetnost´ı Interval (ai−1 , ai i (a0 , a1 i (a1 , a2 i ... (ak−1 , ak i Celkem
ˇ Cetnost absolutn´ı relativn´ı ni pi n1 p1 n2 p2 ... ... nk pk Pk Pk i=1 ni = n i=1 pi = 1
Kumulativn´ı ˇcetnost absolutn´ı relativn´ı Ni Pi n1 p1 n1 + n2 p1 + p2 ... ... Pk Pk n i=1 i i=1 pi
Stˇred tˇr´ıdy yi y1 y2 yk
V´ ypoˇ cetn´ı vzorce pro ˇ cetnosti a kumulativn´ı ˇ cetnosti Relativn´ı ˇcetnost i-t´e tˇr´ıdy pi : Pod´ıl ˇcetnosti ni i-t´e tˇr´ıdy a poˇctu n vˇsech dat v datov´em souboru. k X ni pi = 1. (2.1) pi = , n i=1 Kumulativn´ı ˇcetnost i-t´e tˇr´ıdy Ni : Poˇcet vˇsech xj , pro kter´a plat´ı a0 < xj ≤ ai : Ni =
i X
nr ,
1 ≤ r ≤ k.
(2.2)
r=1
Kumulativn´ı relativn´ı ˇcetnost i-t´e tˇr´ıdy Pi : Pod´ıl kumulativn´ı ˇcetnost i-t´e tˇr´ıdy, Ni a poˇctu n vˇsech dat v souboru. Nebo ekvivalentnˇe, souˇcet relativn´ıch ˇcetnost´ı vˇsech tˇr´ıd od 1. tˇr´ıdy aˇz po i-tou tˇr´ıdu. Pi =
i X
pr ,
1 ≤ r ≤ k.
r=1
16
(2.3)
´ ´I ZPRACOV AN ´ ´I STATISTICK YCH ´ 2.2 E LEMENT ARN DAT
Tabulku, ve kter´e jsou uvedeny tˇr´ıdy, ˇcetnosti, relativn´ı ˇcetnosti, kumulativn´ı ˇcetnosti, kumulativn´ı relativn´ı ˇcetnosti a stˇredy tˇr´ıd pro datov´ y soubor budeme naz´ yvat tabulkou intervalov´ eho tˇ r´ıdˇ en´ı dat. Oznaˇcme yi stˇred i-t´e tˇr´ıdy. Rozdˇelen´ı ˇcetnost´ı a kumulativn´ıch ˇcetnost´ı je uvedeno v n´asleduj´ıc´ı tabulce 2.1. Pro data z pˇr´ıkladu 2.1 nyn´ı uvedeme tabulku intervalov´eho tˇr´ıdˇen´ı. ˇ Tabulka 2.2 Cetnosti a kumulativn´ı ˇcetnosti pro dobu splatnosti kr´atkodob´ych u ´vˇer˚ u ˇ Poˇcet dn´ı Relativn´ı Kumulativn´ı Kumul.relativn´ı Stˇred Cetnost do splatnosti (poˇcet u ´vˇer˚ u) ˇcetnost ˇcetnost ˇcetnost tˇr´ıdy 30–39 3 0.075 3 0.075 34.5 40–49 1 0.025 4 0.100 44.5 50–59 8 0.200 12 0.300 54.5 60–69 10 0.250 22 0.550 64.5 70–79 7 0.175 29 0.725 74.5 80–89 7 0.175 36 0.900 84.5 90–99 4 0.100 40 1.000 94.5 Celkem 40 1 Jednoduch´ e tˇ r´ıdˇ en´ı Kaˇzd´a tˇr´ıda, kterou jsme doposud pouˇzili pˇri tˇr´ıdˇen´ı dat, reprezentovala nˇekolik moˇzn´ ych ˇc´ıseln´ ych hodnot. Pˇri zpracov´an´ı u ´daj˚ u diskr´etn´ıho statistick´eho znaku, kter´ y nab´ yv´a pouze urˇcit´eho poˇctu obmˇen, je nˇekdy vhodnˇejˇs´ı pouˇz´ıt takov´e tˇr´ıdy, kdy vˇsechny reprezentuj´ı jednu moˇznou ˇc´ıselnou hodnotu. Pak hovoˇr´ıme o jednoduch´ em tˇ r´ıdˇ en´ı. M´ame-li k dispozici u ´daje o spojit´em statistick´em znaku, nebo o znaku, kter´ y je sice diskr´etn´ı, ale m˚ uˇze nab´ yvat velk´eho poˇctu nejr˚ uznˇejˇs´ıch obmˇen, pak radˇeji konstruujeme intervalov´e rozdˇelen´ı ˇcetnost´ı. Pˇ r´ıklad 2.2 Jednoduch´e tˇr´ıdˇen´ı ˚ ´ V jednom mal´em mˇestˇe byl proveden pruzkum poˇctu dˇet´ı sˇ koln´ıho vˇeku v rodinˇe. Bylo nahodnˇ e ´ ´ vybrano 15 rodin. Poˇcet dˇet´ı sˇ koln´ıho vˇeku v kaˇzd´e z 15 vybrany´ ch rodin je nasleduj´ ıc´ı. 2 0 4 2 0 1 0 1 0 0 4 0 1 3 2 ´ ame ´ ´ Uspoˇrad tyto udaje do tabulky rozdˇelen´ı cˇ etnost´ı. Poˇcet dˇet´ı sˇ koln´ıho vˇeku 0 1 2 3 4 Celkem
ˇ Cetnost absolutn´ı relativn´ı 6 0.400 3 0.200 3 0.200 1 0.067 2 0.133 15 1.000
Kumulativn´ı cˇ etnost absolutn´ı relativn´ı 6 0.400 9 0.600 12 0.800 13 0.867 15 1.000
Rozdˇ elen´ı ˇ cetnost´ı pro kvalitativn´ı data Pojmy jako doln´ı a horn´ı hranice tˇr´ıdy nebo stˇred tˇr´ıdy jsou pouˇziteln´e pro kvantitativn´ı data, nejsou vˇsak vhodn´e pro kvalitativn´ı data jako napˇr´ıklad pˇri pr´aci s u ´daji pro zaˇrazov´an´ı lid´ı do tˇr´ıd podle toho, zda jde o muˇze nebo ˇzenu. I v tomto pˇr´ıpadˇe vˇsak m˚ uˇzeme urˇcovat ˇcetnosti a relativn´ı ˇcetnosti.
17
P OPISN A´ STATISTIKA
K APITOLA 2
Pˇ r´ıklad 2.3 Rozdˇelen´ı ˇcetnost´ı pro kvalitativn´ı data ´ ´ ´ ˚ bylo dotaz ´ ano, ´ ´ a´ 40 nahodnˇ e vybranych dospˇelych obˇcanu jak´emu dopravn´ımu prostˇredku dav ´ pˇrednost pˇri cestach na dovolenou do zahraniˇc´ı. Urˇcete rozdˇelen´ı cˇ etnost´ı pro data, ktera´ jsou ´ uvedena v nasleduj´ ıc´ı tabulce. (Osobn´ı automobil (A), autobus (B), letadlo (L), ostatn´ı (O)). O B A B B A B A L B B B A A A O O O B A A O L A L O B B A O O L B B B B B B A A ˚ Tabulka cˇ etnost´ı a relativn´ıch cˇ etnost´ı pouˇzit´ı dopravn´ıch prostˇredku: Dopravn´ı prostˇredek Osobn´ı automobil Autobus Letadlo Ostatn´ı Celkem
2.2.2
ˇ Cetnost 12 16 4 8 40
Relativn´ı cˇ etnost 0.30 0.40 0.10 0.20 1.000
Statistick´ e grafy
Vedle statistick´ ych tabulek je d˚ uleˇzitou formou zobrazov´an´ı statistick´ ych u ´daj˚ u graf. Grafick´e zobrazen´ı d´av´a rychlou a pˇrehlednou pˇredstavu o tendenc´ıch a charakteristick´ ych rysech analyzovan´ ych jev˚ u. Grafy jsou tak´e u ´ˇcinn´ ym popularizaˇcn´ım prostˇredkem statistick´ ych v´ ysledk˚ u. Z hlediska konstrukce lze grafy rozdˇelit do r˚ uzn´ ych skupin. O nˇekter´ ych se zde zm´ın´ıme. Histogramy pro intervalov´ e tˇ r´ıdˇ en´ı Uvaˇzujme pro ilustraci tˇr´ıdˇen´ı doby splatnosti kr´atkodob´ ych u ´vˇer˚ u (pˇr´ıklad 2.1). V tabulce 2.2 jsou data uspoˇra´dan´a do tˇr´ıd. C´ılem je grafick´e zobrazen´ı takto roztˇr´ıdˇen´ ych dat. Jeden zp˚ usob jak zobrazit tato data, je sestrojit graf, v nˇemˇz jsou tˇr´ıdy zobrazeny v pravo´ uhl´e souˇradnicov´e soustavˇe na vodorovnou osu a ˇcetnosti na svislou osu. M˚ uˇzeme to udˇelat pomoc´ı histogramu ˇ cetnost´ı. Je na obr. 2.1(a). Obr´ azek 2.1 Histogramy pro poˇcet dn´ı po splatnosti kr´atkodob´ych u ´vˇer˚ u 10
0.25
Relativn´ı ˇcetnost
9 8
ˇ Cetnost
7 6 5 4 3 2
0.20 0.15 0.10 0.05
1 10
30
50
70
90
10
Poˇcet dn´ı po splatnosti
30
50
70
90
Poˇcet dn´ı po splatnosti
(a) histogram ˇcetnost´ı
(b) histogram relativn´ıch ˇcetnost´ı
V´ yˇska kaˇzd´eho sloupce je rovna ˇcetnosti tˇr´ıdy, kterou reprezentuje. Kaˇzd´ y sloupek je um´ıstˇen 18
´ ´I ZPRACOV AN ´ ´I STATISTICK YCH ´ 2.2 E LEMENT ARN DAT
mezi doln´ı hranici tˇr´ıdy a doln´ı hranici nejbliˇzˇs´ı vyˇsˇs´ı tˇr´ıdy. Histogram ˇcetnost´ı zobrazuje ˇcetnosti tˇr´ıd. K zobrazen´ı relativn´ıch ˇcetnost´ı m˚ uˇzeme pouˇz´ıt histogram relativn´ıch ˇ cetnost´ı, kter´ y je podobn´ y histogramu ˇcetnost´ı. Jedin´ y rozd´ıl je v tom, ˇze v´ yˇska kaˇzd´eho sloupku v tomto histogramu je rovna relativn´ı ˇcetnosti tˇr´ıdy m´ısto ˇcetnosti tˇr´ıdy. Histogram relativn´ıch ˇcetnost´ı pro data z pˇr´ıkladu 2.1 je na obr. 2.1(b). Poznamenejme, ˇze tvary histogramu relativn´ıch ˇcetnost´ı na obr. 2.1(b) a histogramu ˇcetnost´ı na obr. 2.1(a) jsou shodn´e. Nyn´ı uvedeme form´aln´ı definice histogramu ˇcetnost´ı a histogramu relativn´ıch ˇcetnost´ı. Definice 2.3
ˇ ´I A RELATIVN ´I CH CETNOST ˇ ´I H ISTOGRAM CETNOST
Histogram cˇetnost´ı: Graf, kter´ y v pravo´ uhl´e souˇradnicov´e soustavˇe zobrazuje tˇr´ıdy na
ˇ vodorovnou osu a ˇcetnosti tˇr´ıd na svislou osu. Cetnost kaˇzd´e tˇr´ıdy je reprezentov´ana sloupcem, jehoˇz v´ yˇska je rovna ˇcetnosti tˇr´ıdy. Histogram relativn´ıch cˇetnost´ı: Graf, kter´ y v pravo´ uhl´em souˇradnicov´e soustavˇe zobrazuje tˇr´ıdy na vodorovnou osu a relativn´ı ˇcetnosti tˇr´ıd na svislou osu. Relativn´ı ˇcetnost kaˇzd´e tˇr´ıdy je reprezentov´ana svisl´ ym sloupcem, jehoˇz v´ yˇska je rovna relativn´ı ˇcetnosti tˇr´ıdy.
1.0 0.9
kumulativn´ı ˇcetnost relativn´ı ˇcetnost
0.8 0.7 0.6 0.5 0.4 0.3 0.2
Obr´ azek 2.3 Bodov´y graf Bodov´ e grafy Dalˇs´ı typ grafick´eho zn´azornˇen´ı pro kvantitativn´ı data je bodov´ y graf. Bodov´e grafy pouˇz´ıvaj´ı jako grafick´e prostˇredky body um´ıstˇen´e v souˇradnicov´e soustavˇe. Jsou zvl´aˇstˇe uˇziteˇcn´e pro zn´azornˇen´ı relativn´ı polohy jednoho u ´daje v souboru vˇsech dat, kter´a jsou k dispozici pro 1 2 3 4 5 danou u ´lohu, nebo pro porovn´an´ı dvou nebo v´ıce datov´ ych soubor˚ u. Bodov´ y graf pro data z pˇr´ıkladu 2.2 je na obr´azku 2.3.
19
94.5
84.5
74.5
64.5
54.5
44.5
34.5
0.1 24.5
Polygony ˇ cetnost´ı a kumulativn´ıch ˇ cetnost´ı Dalˇs´ı velice ˇcasto pouˇz´ıvan´e grafick´e zn´azornˇen´ı ˇcetnost´ı je polygon ˇcetnost´ı. Polygon ˇ cetnost´ı je graf, kter´ y vznikne tak, ˇze v pravo´ uhl´e souˇradnicov´e soustavˇe spoj´ıme u ´seˇckami body o souˇradnic´ıch (yi , ni ), resp. (yi , pi ), kde yi je stˇred i-t´e tˇr´ıdy a ni resp. (pi ) je ˇcetnost i-t´e tˇr´ıdy resp. relativn´ı ˇcetnost. Nahrad´ımeli ˇcetnosti odpov´ıdaj´ıc´ımi kumulativn´ımi ˇcetnostmi, dostaneme polygon kumulativn´ıch ˇ cetnost´ı. Pro u ´daje z pˇr´ıkladu 2.1 je polygon relativn´ıch ˇcetnost´ı a kumulativn´ıch relativn´ıch ˇcetnost´ı uveden na obr. 2.2.
Obr´ azek 2.2 Polygony ˇcetnost´ı
14.5
Histogramy pro jednoduch´ e tˇ r´ıdˇ en´ı Konstrukce histogramu je trochu odliˇsn´a pˇri jednoduch´em tˇr´ıdˇen´ı dat, kdy tˇr´ıdy jsou zaloˇzeny pouze na jedn´e hodnotˇe statistick´eho znaku. V tomto pˇr´ıpadˇe um´ıst´ıme stˇred kaˇzd´eho sloupce histogramu pˇr´ımo do jedin´e ˇc´ıseln´e hodnoty, kter´a reprezentuje tˇr´ıdu.
K APITOLA 2
P OPISN A´ STATISTIKA
Z obr´azku je patrn´e, ˇze bodov´e grafy jsou podobn´e histogram˚ um. Pokud provedeme jednoduch´e tˇr´ıdˇen´ı dat, pak oba jsou vpodstatˇe identick´e. Konstrukce bodov´ ych graf˚ u je jednoduˇsˇs´ı. Kruhov´ e diagramy a sloupkov´ e grafy Histogramy, polygony a bodov´e grafy slouˇz´ı k zn´azorˇ nov´an´ı kvantitativn´ıch dat. Kvalitativn´ı dat se zobrazuj´ı pomoc´ı odliˇsn´e techniky. Dvˇe nejˇcastˇeji pouˇz´ıvan´e metody pro zn´azornˇen´ı kvalitativn´ıch dat jsou kruhov´e diagramy nebo t´eˇz naz´ yvan´e kol´aˇcov´e grafy a sloupkov´e grafy. Kruhov´ y diagram je kruh rozdˇelen´ y na ˇc´asti ve tvaru kousk˚ u kol´aˇce“, kter´e z´ısk´ame ” rozdˇelen´ım stˇredov´eho u ´hlu kruˇznice u ´mˇernˇe k pod´ılu jednotliv´ ych ˇca´st´ı zobrazovan´eho jevu vyj´adˇren´ ych v procentech. Sloupkov´ y graf je podobn´ y histogramu aˇz na to, ˇze jeho sloupky se nedot´ ykaj´ı jeden druh´eho. Kruhov´ y diagram a sloupkov´ y graf pro rozdˇelen´ı relativn´ıch ˇcetnost´ı z pˇr´ıkladu 2.3 jsou zn´azornˇeny na obr. 2.4 (a) a (b). Obr´ azek 2.4 Dopravn´ı preference
Relativn´ı ˇcetnost
0.4
ostatn´ı (20%) letadlo (10%) autobus (40%)
0.3 0.2
ostatn´ı
letadlo
auto
(a) kruhov´ y diagram
autobus
0.1
auto (30%)
(b) sloupkov´ y graf
Stem-and-Leaf diagramy (stonek s listy, ˇ c´ıslicov´ y dendrogram) Stem-and-leaf diagram je obdoba histogramu ˇcetnost´ı. Konstrukce tohoto diagramu b´ yv´a ˇcasto jednoduˇsˇs´ı neˇz konstrukce histogramu ˇcetnost´ı a obecnˇe zobrazuje v´ıce informac´ı neˇz histogram ˇcetnost´ı. Pro u ´daje v tabulce k pˇr´ıkladu 2.1 z´ısk´ame tento diagram tak, ˇze si nejprve vybereme z dat tzv. ˇr´ıd´ıc´ı ˇc´ıslice. Dostaneme tak ˇc´ısla 3, 4, · · · , 9 a zap´ıˇseme je do 1. sloupce. Pak postupnˇe proch´az´ıme data a nap´ıˇseme koncovou ˇc´ıslici kaˇzd´eho ˇc´ısla vpravo ˇ ıd´ıc´ı ˇc´ıslice se naz´ od ˇr´ıd´ıc´ı ˇc´ıslice. R´ yvaj´ı stems (stonky) a koncov´e ˇc´ıslice leaves (listy). Jin´ y tvar stem-and-leaf diagramu je tzv. uspoˇ r´ adan´ y stem-and-leaf diagram. V tomto diagramu jsou listy v kaˇzd´em ˇra´dku uspoˇr´ad´any od nejmenˇs´ıho k nejvˇetˇs´ımu. Stem-and-leaf diagram resp. uspoˇra´dan´ y stem-and-leaf diagram je zobrazen pro data v pˇr´ıkladu 2.1 na obr. 2.5 (a) resp. (b).
20
´ ´I ZPRACOV AN ´ ´I STATISTICK YCH ´ 2.2 E LEMENT ARN DAT
Obr´ azek 2.5 Poˇcet dn´ı do splatnosti u ´vˇeru Stems 3 4 5 6 7 8 9
Leaves 8 6 9 7 7 1 6 2 4 7 0 5 1 5 9 1 9 9 5
3 3 0 7 8
5 6 9 0
1 4 8 3
0 5 0 9 8 5 0 6
(a) stem-and-leaf diagram
2.2.3
Stems 3 4 5 6 7 8 9
Leaves 6 8 9 7 0 1 1 0 2 3 0 0 0 0 1 3 5 8 9
3 4 1 5 9
5 4 5 6
5 5 8 7
6 7 6 7 8 9 9 9
(b) uspoˇr´ adan´ y stem-and-leaf diagram
Tvar rozdˇ elen´ı ˇ cetnost´ı; symetrie a ˇ sikmost
D˚ uleˇzit´ ym aspektem rozdˇelen´ı ˇcetnost´ı datov´eho souboru je jeho tvar. Pozdˇeji uvid´ıme, ˇze tvar rozdˇelen´ı ˇcetnost´ı hraje ˇcasto d˚ uleˇzitou roli pˇri urˇcen´ı vhodn´e metody statistick´e anal´ yzy. V odstavci 2.2.2 jsme se sezn´amili s metodami grafick´eho zn´azornˇen´ı dat, mezi nimi s histogramy, polygony a diagramy. Pˇri diskusi o tvarech rozdˇelen´ı je vhodnˇejˇs´ı pouˇz´ıvat hladkou kˇrivku jako aproximaci tvaru rozdˇelen´ı. Napˇr´ıklad obr. 2.1 zobrazuje histogram relativn´ıch ˇcetnost´ı pro poˇcet dn´ı zb´ yvaj´ıc´ıch do splatnosti kr´atkodob´ ych u ´vˇer˚ u. Z´aroveˇ n zn´azorˇ nuje i hladkou kˇrivku, kter´a aproximuje tvar rozdˇelen´ı. Tvary rozdˇ elen´ı ˇ cetnost´ı Obr´azek 2.6 na stranˇe 22 zobrazuje nˇekter´e bˇeˇzn´e tvary rozdˇelen´ı: tvar zvonu, troju ´ heln´ıkov´ y, rovnomˇ ern´ y (rektangul´arn´ı), ve tvaru p´ısmene J, tvaru obr´ acen´ eho J, vpravo seˇ sikmen´ e (vpravo protaˇzen´e), vlevo seˇ sikmen´ e (vlevo protaˇzen´e), bimod´ aln´ı, v´ıcemod´ aln´ı. V praxi maj´ı rozdˇelen´ı jen zˇr´ıdka tyto uveden´e idealizovan´e tvary. Modalita Zkoum´ame-li tvar rozdˇelen´ı, je vhodn´e zjistit poˇcet vrchol˚ u (nejvyˇsˇs´ıch bod˚ u) stejn´e v´ yˇsky. Rozdˇelen´ı naz´ yv´ame jednovrcholov´ e nebo unimod´ aln´ı, m´a-li jeden vrchol; dvouvrcholov´ e nebo bimod´ aln´ı, m´a-li dva vrcholy; a v´ıcevrcholov´ e nebo multimod´ aln´ı, jestliˇze m´a tˇri nebo v´ıce vrchol˚ u. Zvl´aˇstn´ım pˇr´ıpadem bimod´aln´ıho rozdˇelen´ı je rozdˇ elen´ı U, kter´e m´a vrcholy na dvou kraj´ıch. Rozdˇelen´ı s v´ yrazn´ ymi vrcholy ale ne nutnˇe stejn´e v´ yˇsky oznaˇcujeme v praxi ˇcasto tak´e jako bimod´aln´ı nebo v´ıcemod´aln´ı. Pozn´ amka: Poˇcet vrchol˚ u rozdˇelen´ı ˇcetnost´ı vˇetˇs´ı neˇz jeden m´a vˇetˇsinou p˚ uvod v nestejnorodosti zkouman´eho statistick´eho souboru, z nˇehoˇz b´ yv´a v takov´em pˇr´ıpadˇe moˇzn´e a vˇetˇsinou i nutn´e vytvoˇrit vhodn´ ym roztˇr´ıdˇen´ım tolik statistick´ ych soubor˚ u, kolik mˇelo p˚ uvodn´ı rozdˇelen´ı ˇcetnost´ı vrchol˚ u. Symetrie a ˇ sikmost Vˇsimnˇeme si, ˇze kaˇzd´e ze tˇr´ı rozdˇelen´ı na obr. 2.6(a)-(c) m´a tu vlastnost, ˇze je lze rozdˇelit na dvˇe ˇc´asti zrcadlovˇe shodn´e. Takov´a rozdˇelen´ı se naz´ yvaj´ı symetrick´ a. Bimod´aln´ı rozdˇelen´ı zobrazen´e na obr. 2.6(h) je tak´e symetrick´e, ale neplat´ı to obecnˇe pro bimod´aln´ı a v´ıcemod´aln´ı rozdˇelen´ı. Obr. 2.6(i) ukazuje nesymetrick´e tˇr´ımod´aln´ı rozdˇelen´ı. 21
K APITOLA 2
P OPISN A´ STATISTIKA
Pˇri klasifikaci rozdˇelen´ı podle tvaru si mus´ıme b´ yt vˇedomi toho, ˇze rozdˇelen´ı vyskytuj´ıc´ı se v praxi, povaˇzujeme za symetrick´e i kdyˇz nen´ı pˇresnˇe symetrick´e. Obr´ azek 2.6 Tvary rozdˇelen´ı
(a) Tvar zvonu
(b) Troj´ uheln´ık
(c) Rovnomˇern´ y
(d) Obr´acen´e J
(e) Tvar J
(f) Vpravo protaˇzen´e
(g) Vlevo protaˇzen´e
(h) Bimod´aln´ı
(i) V´ıcemod´aln´ı
Z´ akladn´ı soubor a v´ ybˇ erov´ a rozdˇ elen´ı Pˇri jednoduch´em n´ahodn´em v´ ybˇeru ze z´akladn´ıho souboru oˇcek´av´ame, ˇze rozdˇelen´ı relativn´ıch ˇcetnost´ı v´ ybˇeru bude podobn´e i kdyˇz ne identick´e s rozdˇelen´ım z´akladn´ıho souboru. V praxi vˇsak vˇetˇsinou rozdˇelen´ı z´akladn´ıho souboru nezn´ame. Za tˇechto okolnost´ı m˚ uˇzeme pouˇz´ıt rozdˇelen´ı n´ahodn´eho v´ ybˇeru ze z´akladn´ıho souboru, abychom si udˇelali hrubou pˇredstavu o rozdˇelen´ı cel´eho souboru dat. Jestliˇze tedy m´ame k dispozici n´ahodn´ y v´ ybˇer ze z´akladn´ıho souboru, pak rozdˇelen´ı relativn´ıch ˇcetnost´ı v´ ybˇeru bude aproximovat rozdˇelen´ı ˇ relativn´ıch ˇcetnost´ı z´akladn´ıho souboru. C´ım vˇetˇs´ı bude rozsah v´ ybˇeru, t´ım lepˇs´ı aproximace dos´ahneme.
2.3
Popisn´ e m´ıry statistick´ ych soubor˚ u
V odstavc´ıch 2.1 a 2.2 jsme se zaˇcali zab´ yvat popisnou statistikou. Dozvˇedˇeli jsme se, jak uspoˇr´adat data do tabulek a sumarizovat u ´daje pomoc´ı graf˚ u. Rozdˇelen´ı ˇcetnost´ı poskytuje uˇziteˇcnou informaci o struktuˇre zkouman´eho souboru, ale popisovat a zejm´ena porovn´avat nˇekolik soubor˚ u pouze pomoc´ı tabulek nebo graf˚ u by bylo pracn´e. Z tˇechto d˚ uvod˚ u se snaˇz´ıme shrnout informaci obsaˇzenou ve zjiˇstˇen´ ych u ´daj´ıch o statistick´em znaku a vyj´adˇrit ji v koncentrovan´e formˇe pomoc´ı urˇcit´ ych charakteristik. Pˇri popisu statistick´ ych soubor˚ u n´as zaj´ımaj´ı pˇredevˇs´ım poloha (´ uroveˇ n) rozdˇelen´ı ˇcetnost´ı a variabilita (rozpt´ ylenost). M´enˇe 22
´ ˚ 2.3 P OPISN E´ M´I RY STATISTICK YCH SOUBOR U
ˇ ısla, kter´a slouˇz´ı k popisu datov´ ˇcasto se zamˇeˇrujeme na ˇsikmost a ˇspiˇcatost. C´ ych soubor˚ u se naz´ yvaj´ı popisn´ e m´ıry. V t´eto ˇca´sti se budeme zab´ yvat nˇekter´ ymi nejd˚ uleˇzitˇejˇs´ımi popisn´ ymi m´ırami.
2.3.1
Kvantily
Kvantil datov´eho souboru je hodnota, kter´a rozdˇeluje soubor hodnot urˇcit´e veliˇciny na dvˇe ˇca´sti - jedna obsahuje ty hodnoty, kter´e jsou menˇs´ı (nebo stejn´e) neˇz kvantil, druh´a ˇca´st naopak obsahuje ty hodnoty, kter´e jsou vˇetˇs´ı (nebo stejn´e) neˇz kvantil. Pˇresnˇeji ˇreˇceno, kvantil je hodnota urˇcen´a tak, ˇze hodnoty, kter´e jsou menˇs´ı a stejn´e tvoˇr´ı urˇcitou stanovenou ˇca´st rozsahu statistick´eho souboru, napˇr. 1, 15, 50, 90% apod. zat´ımco hodnoty, kter´e jsou vˇetˇs´ı a stejn´e tvoˇr´ı zb´ yvaj´ıc´ı ˇca´st souboru tj. napˇr. 99, 85, 50, 10% atd. Kvantil veliˇciny x, kter´ y oddˇeluje zhruba 100p% mal´ ych hodnot znaku veliˇciny x (p je relativn´ı ˇcetnost mal´ ych hodnot) od 100(1 − p)% velk´ ych hodnot veliˇciny x, oznaˇcujeme x˜100p a naz´ yv´ame ho 100p% kvantil veliˇciny x. Mezi dalˇs´ı nejˇcastˇeji pouˇz´ıvan´e kvantily patˇr´ı percentily, decily a kvartily. Percentily x˜1 , · · · x˜99 datov´eho souboru rozdˇeluj´ı soubor na 100 stejn´ ych ˇca´st´ı, a decily x˜10 , · · · , x˜90 rozdˇeluj´ı soubor na 10 stejn´ ych ˇca´st´ı. Nejˇcastˇeji pouˇz´ıvan´e percentily jsou kvartily. Jsou celkem tˇri. Definice 2.4
K VARTILY
Kvartily jsou hodnoty, kter´ e dˇel´ı uspoˇra´dan´ y statistick´ y soubor na ˇctyˇri ˇca´sti, pˇriˇcemˇz
kaˇzd´a obsahuje 25% jednotek. Doln´ı kvartil x ˜25 oddˇeluje zhruba 25% nejniˇzˇs´ıch hodnot veliˇciny od ostatn´ıch. Prostˇredn´ı kvartil - median x50 ) rozdˇeluje obor hodnot veliˇciny na dvˇe stejn´e ˇca´sti, z ´ (˜ nichˇz kaˇzd´a obsahuje 50% jednotek. Horn´ı kvartil x ˜75 je takov´a hodnota znaku, kter´a oddˇeluje zhruba 75% nejniˇzˇs´ıch hodnot veliˇciny od zb´ yvaj´ıc´ıch 25%. Necht’ x1 , x2 , ..., xn jsou pozorovan´e hodnoty sledovan´e veliˇciny x, kter´e m´ame k dispozici a n je celkov´ y poˇcet pozorov´an´ı. Uspoˇr´adejme pozorovan´e hodnoty veliˇciny x do neklesaj´ıc´ı posloupnosti x(1) ≤ x(2) ≤ ... ≤ x(n) . Pak 100p% kvantil urˇc´ıme pro 0 < p < 1 podle n´asleduj´ıc´ıho vzorce: (
x˜100p =
x([np]+1) , 1 (x(np) + x(np+1) ) 2
pokud nen´ı np cel´e ˇc´ıslo pro np cel´e.
(2.4)
Pˇ r´ıklad 2.4 Ilustrace definice 2.4 ´ ´ u ˚ bylo poˇzad ´ ano, ´ ´ ´ 20 vybranych televizn´ıch divak aby si tyden zaznamenavali dobu vˇenovanou ´ ı televizn´ıch poˇradu. ˚ Nasleduj´ ´ ´ sledovan´ ı data uspoˇradan a´ podle velikosti. 5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66 Urˇcete kvartily datov´eho souboru. ˇ sen´ı: Poˇcet dat je sudy, ´ takˇze prostˇredn´ı kvartil je roven x Reˇ ˜50 = (30 + 31)/2 = 30.5. Doln´ı kvartil je roven prostˇredn´ımu kvartilu 50% nejniˇzsˇ´ıch dat, to je x ˜25 = (21 + 25)/2 = 23. Horn´ı kvartil je roven prostˇredn´ımu kvartilu 50% nejvˇetˇs´ıch dat, to je x ˜75 = (35 + 38)/2 = 36.5.
23
K APITOLA 2
2.3.2
P OPISN A´ STATISTIKA
M´ıry polohy
Popisn´e m´ıry, kter´e ukazuj´ı, kde leˇz´ı stˇred nebo nejtypiˇctˇejˇs´ı hodnota datov´eho souboru se naz´ yvaj´ı m´ıry polohy nebo m´ıry u ´ rovnˇ e. Nejd˚ uleˇzitˇejˇs´ı tˇri m´ıry polohy jsou: aritmetick´y pr˚ umˇer, medi´ an a modus. Term´ınem pr˚ umˇer budeme v dalˇs´ım textu oznaˇcovat aritmetick´ y pr˚ umˇer. Pr˚ umˇer a medi´an m˚ uˇzeme pouˇz´ıt pro kvantitativn´ı data, zat´ımco modus m˚ uˇze b´ yt pouˇzit jak pro kvantitativn´ı tak i kvalitativn´ı data. Pr˚ umˇ er Nejˇcastˇeji pouˇz´ıvanou m´ırou polohy je pr˚ umˇer. Definice 2.5
˚ ER ˇ DATOV E´ HO SOUBORU P R UM
Pr˚ umˇ er datov´eho souboru x¯ je definov´an jako pod´ıl souˇctu hodnot datov´eho souboru a poˇctu jednotliv´ ych hodnot datov´eho souboru. Pr˚ umˇer x¯ lze vypoˇc´ıtat podle vzorce x¯ =
n 1X xi . n i=1
(2.5)
Oznaˇcme yi , i = 1, ..., k, 1 ≤ k ≤ n r˚ uzn´e hodnoty sledovan´e veliˇciny x a ni odpov´ıdaj´ıc´ı ˇcetnosti, n necht’ znaˇc´ı rozsah v´ ybˇerov´eho souboru. Pak pro v´ ypoˇcet pr˚ umˇeru pouˇzijeme vzorec Pk k k X yi ni 1X = y n = yi pi . (2.6) x¯ = Pi=1 i i n n i=1 i=1 ni i=1 Relativn´ı ˇcetnosti pi ud´avaj´ı v´ahu, kter´a je pˇrisuzov´ana jednotliv´ ym r˚ uzn´ ym hodnot´am sledovan´e veliˇciny. Pr˚ umˇer poˇc´ıtan´ y podle vzorce (2.6) naz´ yv´ame v´ aˇ zen´ y aritmetick´ y pr˚ umˇ er. Aritmetick´ y pr˚ umˇer m´a ˇradu vlastnost´ı, z nichˇz nˇekter´e maj´ı teoretick´ y v´ yznam, jin´e se daj´ı s v´ yhodou pouˇz´ıt pˇri jeho v´ ypoˇctu. Uvedeme si je: Vlastnosti pr˚ umˇeru: P
1. Souˇcet jednotliv´ ych odchylek od pr˚ umˇeru je nulov´ y; tj. obecnˇe plat´ı ni=1 (xi − x¯) = 0. 2. Pˇriˇcteme-li ke kaˇzd´e hodnotˇe sledovan´e veliˇciny tut´eˇz konstantu c, zv´ yˇs´ı se o tuto P konstantu i aritmetick´ y pr˚ umˇer: n1 ni=1 (xi + c) = x¯ + c. 3. N´asob´ıme-li vˇsechny hodnoty sledovan´e veliˇciny stejnou konstantou c, je touto konP x. stantou n´asoben i pr˚ umˇer: n1 ni=1 cxi = c¯ Pˇ r´ıklad 2.5 Ilustrace definice 2.5 ´ a´ nˇekolik starˇs´ıch konzultantu, ˚ jejichˇz ty´ denn´ı plat je mezi 7000 Poradenska´ firma zamˇestnav ˚ s tydenn´ ´ ´ a 9500 Kˇc a nˇekolik mlady´ ch konzultantu ım platem od 3000 do 3500 Kˇc. Nasleduj´ ıc´ı ´ ´ ˚ (ve stovkach ´ dvˇe tabulky udavaj´ ı pˇrehled tydenn´ ıch v´ydˇelku Kˇc) v cˇ ervenci resp. v srpnu t´ehoˇz ˚ er pro kaˇzd´y datovy´ soubor. Jaky´ byl prumˇ ˚ erny´ tydenn´ ´ roku. Vypoˇctˇete prumˇ ı v´ydˇelek v cˇ ervenci a v srpnu? ´ Datov´y soubor I (ve stovkach Kˇc)
20 20 20 84 20 20 30 20 30 35 70 35 95
´ Datov´y soubor II (ve stovkach Kˇc) 20 20 84 35 30 30 20 20 95 20
24
´ ˚ 2.3 P OPISN E´ M´I RY STATISTICK YCH SOUBOR U ˇ sen´ı: Vzhledem k definici 2.5 dostav ´ ame: ´ Reˇ ˚ er datov´eho souboru I = Prumˇ
499 . = 38.40 13
˚ er datov´eho souboru II = a prumˇ
374 = 37.40. 10
˚ erny´ t´ydenn´ı vydˇ ´ elek tˇrinacti ´ ˚ poradensk´e firmy v datov´em souboru I Takˇze prumˇ zamˇestnancu ˚ v datov´em souboru II byl 3740 Kˇc. byl 3.840 Kˇc a deseti zamˇestnancu
Medi´ an Jinou ˇcasto pouˇz´ıvanou m´ırou polohy je medi´an. Jak jsme se dovˇedˇeli v odstavci 2.3.1, medi´ an datov´eho souboru je hodnota, kter´a rozdˇeluje soubor hodnot urˇcit´e veliˇciny na dvˇe ˇca´sti-jedna obsahuje 50% tˇech hodnot, kter´e jsou menˇs´ı (nebo stejn´e) neˇz medi´an, druh´a ˇca´st naopak obsahuje 50% hodnot, kter´e jsou vˇetˇs´ı (nebo stejn´e) neˇz medi´an. Definice 2.6
´ DATOV EHO ´ M EDI AN
SOUBORU
Uspoˇra´dejme pozorovan´e hodnoty sledovan´e veliˇciny do neklesaj´ıc´ı posloupnosti. Jestliˇze rozsah datov´eho souboru n je lichy´ , pak median a leˇz´ı pr´avˇe ´ je hodnota, kter´ uprostˇred uspoˇra´dan´e posloupnosti hodnot. Jestliˇze rozsah datov´eho souboru n je sudy´ , pak median umˇer dvou hodnot, kter´e ´ je pr˚ leˇz´ı uprostˇred uspoˇra´dan´e posloupnosti hodnot. Ze vzorce 2.4 pro v´ ypoˇcet 100p% kvantilu plyne, ˇze medi´an lze spoˇc´ıtat podle n´asleduj´ıc´ıho vzorce: ( pokud je n lich´e ˇc´ıslo x([ n ]+1) , (2.7) x˜50 = 1 2 n n + x ) pro n sud´e. (x ( 2 +1) (2) 2 Pˇ r´ıklad 2.6 Ilustrace definice 2.6 ´ pro oba soubory. Uvaˇzujme opˇet datov´e soubory I a II z pˇr´ıkladu 2.5. Urˇcete median ˇ ´ ame ´ Reˇsen´ı: Pouˇzijeme definici 2.6. Nejprve data uspoˇrad do neklesaj´ıc´ı posloupnosti: 20 20 20 20 20 20 30 30 35 35 70 84 95 ´ je tud´ızˇ roven sedm´e hodnotˇe Poˇcet dat v datov´em souboru I je 13, to je lich´e cˇ ´ıslo. Median ´ ´ ty´ denn´ıch platu ˚ 13 zamˇestnancu ˚ je 3000 v uspoˇradan´ e posloupnosti, to je hodnota 30. Median ´ ame: ´ Kˇc. Podobnˇe postupujeme i v pˇr´ıpadˇe datov´eho souboru II. Data uspoˇrad 20 20 20 20 20 30 30 35 84 95 ´ ty´ denn´ıch platu ˚ 10 Poˇcet dat v datov´em souboru II je 10, to je sud´e cˇ´ıslo. Tud´ızˇ median ˚ z datov´eho souboru II je (2000 + 3000)/2 = 2500 Kˇc. zamˇestnancu
Modus Posledn´ı m´ıra polohy, kterou se budeme zab´ yvat, je modus. Definice 2.7
M ODUS DATOV E´ HO
SOUBORU
Modus datov´ eho souboru xˆ je kaˇzd´a hodnota, jej´ıˇz ˇcetnost v´ yskytu je vˇetˇs´ı neˇz 1 a je
stejn´a nebo vˇetˇs´ı neˇz ˇcetnost v´ yskytu kter´ekoliv jin´e hodnoty. Jestliˇze ˇcetnost ˇz´adn´e hodnoty v datov´em souboru nen´ı vˇetˇs´ı neˇz 1, pak ˇr´ık´ame, ˇze datov´ y soubor nem´a modus. Jinak, kaˇzd´a hodnota, kter´a m´a nejvˇetˇs´ı ˇcetnost se naz´ yv´a modus datov´eho souboru. Datov´ y soubor m˚ uˇze m´ıt tud´ıˇz v´ıc neˇz jeden modus. 25
K APITOLA 2
P OPISN A´ STATISTIKA
K tomu, abychom urˇcili modus datov´eho souboru, konstruujeme nejprve tabulku rozdˇelen´ı ˇcetnost´ı dat pro jednoduch´e tˇr´ıdˇen´ı. Modus lze pak jednoduˇse urˇcit jak ukazuje n´asleduj´ıc´ı pˇr´ıklad. Pˇ r´ıklad 2.7 Ilustrace definice 2.7 Urˇcete modus kaˇzd´eho datov´eho souboru z pˇr´ıkladu 2.5. ˇ sen´ı: Nejprve uvaˇzujme soubor I. Pˇri jednoduch´em tˇr´ıdˇen´ı je rozdˇelen´ı cˇ etnost´ı pro data ze Reˇ ´ souboru I dano n´ızˇe: Plat ˇ Cetnost
2000 3000 3500 7000 8400 9500 6 2 1 1 1 1
Z tabulky je vidˇet, zˇ e nejˇcastˇeji se vyskytuj´ıc´ı hodnota v datov´em souboru je 2000. Tud´ızˇ modus ˚ v datov´em souboru I je 2000 Kˇc. Stejny´ m postupem bychom zjistili, zˇe modus 10 platu˚ 13 platu v datov´eme souboru II je 2000 Kˇc.
Porovn´ an´ı pr˚ umˇ eru, medi´ anu a modu datov´ eho souboru Pr˚ umˇer, medi´an a modus datov´eho souboru maj´ı obvykle r˚ uzn´e hodnoty. V obou datov´ ych souborech I a II, je pr˚ umˇer vˇetˇs´ı neˇz medi´an. Je to proto, ˇze pr˚ umˇer je silnˇe ovlivnˇen nˇekolika velk´ ymi hodnotami v kaˇzd´em souboru. Obecnˇe plat´ı, ˇze pr˚ umˇer je citliv´ y v˚ uˇci extr´em˚ um (to je v˚ uˇci mal´ ym nebo velk´ ym hodnot´am), zat´ımco medi´an ne. Tud´ıˇz medi´anu d´av´ame jako m´ıˇre polohy pˇrednost pˇred pr˚ umˇerem v pˇr´ıpadˇe, ˇze v datov´em souboru jsou extr´emn´ı hodnoty. Obr´azek 2.7 ukazuje vz´ajemnou polohu pr˚ umˇeru, medi´anu a modu pro vpravo seˇsikmen´e, symetrick´e a vlevo seˇsikmen´e rozdˇelen´ı. Jak je vidˇet, pr˚ umˇer leˇz´ı ve smˇeru extr´emn´ıch hodnot. Je-li rozdˇelen´ı vpravo seˇsikmen´e, pr˚ umˇer je vˇetˇs´ı neˇz medi´an; v pˇr´ıpadˇe symetrick´eho rozdˇelen´ı jsou si pr˚ umˇer a medi´an rovny; je-li rozdˇelen´ı vlevo seˇsikmen´e, pr˚ umˇer je menˇs´ı neˇz medi´an. Pro symetrick´e rozdˇelen´ı ˇcetnost´ı plat´ı: xˆ = x¯ = x˜50 . Pro nesymetrick´e rozdˇelen´ı ˇcetnost´ı plat´ı: vzhledem k modu leˇ z´ı medi´ an ve smˇ eru delˇ s´ı ˇ c´ asti rozdˇ elen´ı a pr˚ umˇ er d´ ale v tomto smˇ eru. Obr´ azek 2.7 Vz´ ajemn´ a poloha pr˚ umˇeru a medi´ anu
medi´an
pr˚ umˇer
(a) vpravo seˇsikmen´e
pr˚ umˇer
medi´an
(b) symetrick´e
pr˚ umˇer
medi´an
(c) vlevo seˇsikmen´e
Odlehl´ a pozorov´ an´ı Data, kter´a leˇz´ı daleko“ od vˇetˇsiny dat datov´eho souboru. Mohou to b´ yt chyby mˇeˇren´ı nebo ” z´aznamu dat, nebo prostˇe neobvykl´e extr´emn´ı hodnoty. Popisn´a m´ıra se naz´ yv´a rezistentn´ı, jestliˇze nen´ı citliv´a na vliv mal´eho poˇctu extr´emn´ıch pozorovan´ ych hodnot. Tud´ıˇz medi´an je rezistentn´ı, zat´ımco pr˚ umˇer nikoliv. Rezistence pr˚ umˇeru m˚ uˇze b´ yt zlepˇsena pouˇzit´ım useknut´ ych pr˚ umˇ er˚ u, kdy urˇcit´e procento nejmenˇs´ıch a nejvˇetˇs´ıch pozorovan´ ych hodnot je odstranˇeno z datov´eho souboru pˇredt´ım, neˇz poˇc´ıt´ame pr˚ umˇer.
26
´ ˚ 2.3 P OPISN E´ M´I RY STATISTICK YCH SOUBOR U
Modus obou datov´ ych soubor˚ u I a II je jin´ y neˇz pr˚ umˇer i medi´an. Zat´ımco pr˚ umˇer a medi´an se snaˇz´ı naj´ıt stˇred datov´eho souboru, modus nikoliv. Modus lze nejsnadnˇeji urˇcit, avˇsak nejˇcetnˇejˇs´ı hodnota m˚ uˇze leˇzet daleko od vˇetˇsiny dat souboru. Pr˚ umˇer je jedin´a m´ıra polohy, kter´a zahrnuje vˇsechny pozorovan´e hodnoty sledovan´e veliˇciny. Je zˇrejm´e, ˇze pr˚ umˇer, medi´an a modus obecnˇe poskytuj´ı r˚ uzn´e informace o datov´em souboru. Neexistuje jednoduch´e pravidlo pro rozhodnut´ı, kter´a z mˇer polohy by mˇela b´ yt pouˇzita v dan´e situaci. Pro nˇekter´e u ´ˇcely je vhodn´a jedna, pro druh´e jin´a. Dokonce i experti se mohou liˇsit v n´azoru na nejvhodnˇejˇs´ı m´ıru polohy pro urˇcit´ y soubor dat.
2.3.3
M´ıry rozpt´ ylenosti
ˇ Casto se setk´av´ame se situac´ı, ˇze rozdˇelen´ı ˇcetnost´ı maj´ı shodnou polohu, ale pˇresto se od sebe v´ yraznˇe liˇs´ı. I kdyˇz pr˚ umˇer m˚ uˇze b´ yt nejd˚ uleˇzitˇejˇs´ı charakteristikou polohy, je d˚ uleˇzit´e tak´e vˇedˇet, jak rozdˇelen´ı kolem pr˚ umˇeru kol´ıs´a. Obecnˇe je moˇzno ˇr´ıci, ˇze vypov´ıdac´ı schopnost pr˚ umˇeru je t´ım vˇetˇs´ı, ˇc´ım je rozpt´ylenost nebo variabilita sledovan´e veliˇciny menˇs´ı. Tak jako existuje nˇekolik mˇer polohy, byla zkonstruov´ana i cel´a ˇrada mˇer variability. Zm´ın´ıme se pouze o tˇech nejd˚ uleˇzitˇejˇs´ıch, kter´e se v praxi pouˇz´ıvaj´ı. M´ıry, kter´e charakterizuj´ı mˇenlivost statistick´eho souboru v absolutn´ı velikosti, naz´ yv´ame m´ırami absolutn´ı rozpt´ ylenosti. M´ıry tohoto typu mˇeˇr´ı rozpt´ ylenost ve stejn´ ych mˇern´ ych jednotk´ach, ve kter´ ych je vyjadˇrov´ana mˇeˇren´a veliˇcina. V pˇr´ıpadˇe, ˇze srovn´av´ame rozpt´ ylenost soubor˚ u liˇs´ıc´ıch se polohou, pouˇz´ıv´ame m´ıry relativn´ı rozpt´ ylenosti, kter´e mˇeˇr´ı variabilitu v pomˇeru k poloze sledovan´e veliˇciny v souboru. Tyto m´ıry jsou bezrozmˇern´a ˇc´ısla, coˇz dovoluje porovn´avat rozpt´ ylenost statistick´ ych znak˚ u liˇs´ıc´ıch se mˇernou jednotkou. M´ıry absolutn´ı rozpt´ ylenosti a) Variaˇcn´ı rozpˇet´ı Nejjednoduˇsˇs´ı m´ırou rozpt´ ylenosti je variaˇ cn´ı rozpˇ et´ı nebo jen rozpˇ et´ı, kter´e znaˇc´ıme R. Definice 2.8
´ ROZP Eˇ T ´I DATOV EHO
SOUBORU
Rozpˇet´ı datov´ eho souboru je definov´ano jako rozd´ıl mezi nejvˇetˇs´ı a nejmenˇs´ı hodnotou
v datov´em souboru R = xmax − xmin . Rozpˇet´ı datov´eho souboru se velmi snadno a rychle spoˇc´ıt´a a m´a jednoduchou interpretaci. Avˇsak, pouˇzit´ı rozpˇet´ı vede k tomu, ˇze znaˇcn´e mnoˇzstv´ı informace je ignorov´ano - jsou vyuˇzity pouze nejvˇetˇs´ı a nejmenˇs´ı hodnoty souboru a zbytek dat nen´ı vzat v u ´vahu. Kromˇe toho, krajn´ı hodnoty posloupnosti pozorov´an´ı, na nichˇz je rozpˇet´ı zaloˇzeno, mohou b´ yt nahodil´e. Pˇr´ıpadn´e extr´emn´ı vlivy se projev´ı pˇredevˇs´ım na tˇechto hodnot´ach. V´ yznamn´e pouˇzit´ı nach´az´ı rozpˇet´ı ve statistick´e kontrole jakosti, kde poskytuje dostateˇcnou informaci o variabilitˇe zkouman´eho znaku. Ve vˇetˇsinˇe pˇr´ıpad˚ u vˇsak d´av´a statistick´a teorie i praxe pˇrednost dvˇema jin´ ym m´ır´am rozpt´ ylenosti a sice smˇerodatn´e odchylce a mezikvartilov´emu rozpˇet´ı. b) Vy´ bˇerovy´ rozptyl Na rozd´ıl od variaˇcn´ıho rozpˇet´ı, rozptyl bere v u ´vahu vˇsechny hodnoty datov´eho souboru. D´av´a se j´ı pˇrednost v pˇr´ıpadech, kdy jako m´ıra polohy je pouˇzit pr˚ umˇer. Zhruba ˇreˇceno, rozptyl mˇeˇr´ı variabilitu hodnot datov´eho souboru tak, ˇze zjiˇstuje, jak daleko jsou v pr˚ umˇeru jednotky datov´eho souboru od aritmetick´eho pr˚ umˇeru. 27
P OPISN A´ STATISTIKA
K APITOLA 2
Prvn´ı krok k urˇcen´ı v´ ybˇerov´eho rozptylu je stanovit, jak je kaˇzd´a jednotka xi souboru vzd´alena od pr˚ umˇeru x¯, to je zjistit jej´ı odchylku od pr˚ umˇ eru xi − x¯. Druh´ y krok pˇri v´ ypoˇctu je urˇcit m´ıru celkov´e odchylky od pr˚ umˇeru pro vˇsechna data souboru. Pr˚ umˇern´a odchylka vˇsak nem´a ˇz´adn´ y v´ yznam pro urˇcen´ı rozpt´ ylenosti, protoˇze je P vˇzdy rovna nule (viz vlastnost 1 pr˚ umˇeru). Souˇcet ˇctverc˚ u odchylek od pr˚ umˇeru, (xi − x¯)2 se naz´ yv´a souˇ cet ˇ ctverc˚ u odchylek a je to m´ıra celkov´e odchylky od pr˚ umˇeru pro vˇsechna data. Tˇret´ı krok pˇri urˇcen´ı v´ ybˇerov´eho rozptylu je urˇcit pr˚ umˇernou hodnotu ˇctverc˚ u odchylek, to znamen´a vydˇelit souˇcet ˇctverc˚ u odchylek faktorem n − 1, nikoliv rozsahem v´ ybˇeru n. D˚ uvod, proˇc se m´ısto dˇelitele n pouˇz´ıv´a n − 1 bude vysvˇetlen pozdˇeji. T´ım z´ısk´ame charakteristiku variability, kterou naz´ yv´ame v´ ybˇ erov´ y rozptyl a znaˇc´ıme s2 . ´ EROV ˇ ´ ROZPTYL V YB Y
Definice 2.9
Vybˇ ybˇeru o rozsahu n je definov´an vztahem ´ erovy´ rozptyl s2 v´
s2 =
n 1 X (xi − x¯)2 . n − 1 i=1
ˇ ım vˇ C´ etˇ s´ı je variabilita datov´ eho souboru, t´ım vˇ etˇ s´ı je rozptyl. Rozptyl nen´ı rezistentn´ı, jeho hodnota m˚ uˇze b´ yt silnˇe ovlivnˇena nˇekolika extr´emn´ımi hodnotami. Pro praktick´e v´ ypoˇcty nen´ı vzorec ve v´ yˇse uveden´e definici 2.9 pˇr´ıliˇs vhodn´ y. Jednoduchou u ´pravou se d´a pˇrev´est na vhodnˇejˇs´ı tvar. n X
(xi − x¯)2 =
i=1
=
n X i=1 n X
x2i − 2¯ x
n X
xi + n(¯ x) 2 =
i=1
x2i
2
− n(¯ x) =
i=1
n X
n X
x2i − 2¯ x
i=1 n X
xi + x¯
i=1
n X i=1
xi =
n X i=1
x2i − x¯
n X
xi
i=1
xi )2 /n = nx2 − x¯2 .
x2i − (
i=1
n X
i=1
Pak m˚ uˇzeme pouˇz´ıvat tzv. v´ypoˇcetn´ı vzorec pro rozptyl. Vzorec 2.1
V´ypoˇcetn´ı vzorec pro v´ybˇerov´y rozptyl
Vybˇ ybˇeru o rozsahu n lze poˇc´ıtat podle vzorce: ´ erovy´ rozptyl s2 v´ 2
s =
Pn
i=1
P
x2i − ( ni=1 xi )2 /n . n−1
Vlastnosti v´ybˇerov´eho rozptylu: 1. Pˇriˇcteme-li ke kaˇzd´e hodnotˇe sledovan´e veliˇciny x konstantu c, rozptyl s2y veliˇciny y = uvodn´ı veliˇciny. x + c bude stejn´ y jako rozptyl s2x p˚ s2y
n n n 1 X 1 X 1 X 2 2 = (yi − y¯) = (xi + c − (¯ x + c)) = (xi − x¯)2 = s2x . n − 1 i=1 n − 1 i=1 n − 1 i=1
2. Vyn´asob´ıme-li vˇsechny hodnoty sledovan´e veliˇciny x konstantou c, pak rozptyl s2z veliˇciny z = cx vypoˇcteme vyn´asoben´ım rozptylu s2x veliˇciny x ˇctvercem konstanty c. s2z =
n n n 1 X 1 X 1 X (zi − z¯)2 = (cxi − c¯ x)2 = c2 (xi − x¯)2 = c2 s2x . n − 1 i=1 n − 1 i=1 n − 1 i=1
28
´ ˚ 2.3 P OPISN E´ M´I RY STATISTICK YCH SOUBOR U
Je d˚ uleˇzit´e si uvˇedomit, ˇze v´ ybˇerov´ y rozptyl je vyj´adˇren v mˇern´ ych jednotk´ach, kter´e jsou ˇctvercem p˚ uvodn´ıch jednotek. Proto se pouˇz´ıv´a tzv. v´ ybˇ erov´ a smˇ erodatn´ a odchylka s v u u s=t
n 1 X (xi − x¯)2 . n − 1 i=1
(2.8)
c) Mezikvartilov´e rozpˇet´ı Mezi dalˇs´ı m´ıry absolutn´ı variability, kter´e se nˇekdy v praxi pouˇz´ıvaj´ı patˇr´ı mezikvartilov´e rozpˇet´ı. T´eto m´ıˇre d´av´ame pˇrednost v pˇr´ıpadech, kdy jako m´ıra polohy je pouˇzit medi´an. Stejnˇe jako medi´an je mezikvartilov´e rozpˇet´ı rezistentn´ı charakteristika. Definice 2.10
M EZIKVARTILOV E´ ROZP Eˇ T ´I
Mezikvartilove´ rozpˇet´ı IQR, je definov´ ano jako rozd´ıl mezi horn´ım a doln´ım kvartilem
IQR = x˜75 − x˜25 . Zhruba ˇreˇceno IQR ud´av´a rozpˇet´ı stˇredn´ıch 50% dat. Nev´ yhodou t´eto m´ıry je, ˇze nezachycuje variabilitu vˇsech hodnot zkouman´e veliˇciny. Z tohoto hlediska jsou v´ ybˇerov´a smˇerodatn´a odchylka a rozptyl nejd˚ uleˇzitˇejˇs´ı charakteristiky variability. M´ıry relativn´ı rozpt´ ylenosti Charakteristiky variability uveden´e v pˇredch´azej´ıc´ım textu jsou vyj´adˇreny ve stejn´ ych mˇern´ ych jednotk´ach jako hodnoty analyzovan´e veliˇciny nebo jejich pr˚ umˇer. Mˇeˇr´ı tedy variabilitu absolutnˇe. Pomoc´ı tˇechto mˇer nelze srovn´avat variabilitu statistick´eho znaku u dvou nebo v´ıce soubor˚ u, kter´e se v´ yraznˇe liˇs´ı polohou ani variabilitu nˇekolika statistick´ ych veliˇcin vyj´adˇren´ ych v r˚ uzn´ ych mˇern´ ych jednotk´ach. V takov´ ych pˇr´ıpadech pouˇz´ıv´ame relativn´ı charakteristiky variability, kter´e vliv polohy nebo vliv mˇeˇr´ıc´ı jednotky vyluˇcuj´ı t´ım, ˇze charakteristiky absolutn´ı variability d´avaj´ı do pomˇeru k pr˚ umˇeru nebo k medi´anu. Nejzn´amnˇejˇs´ı m´ırou relativn´ı variability je variaˇcn´ı koeficient. Definice 2.11
ˇ ´I KOEFICIENT VARIA CN
Variaˇcn´ı koeficient je definov´ an jako pomˇer v´ ybˇerov´e smˇerodatn´e odchylky a pr˚ umˇeru
Vx =
s . x¯
Vx je bezrozmˇern´e ˇc´ıslo. Jeho ston´asobek (100Vx ) ud´av´a rozpt´ ylenost v procentech. Podle velmi hrub´eho pravidla, variaˇcn´ı koeficient vyˇsˇs´ı neˇz 0.5 je pˇr´ıznakem znaˇcn´e nesourodosti statistick´eho souboru. Variaˇcn´ı koeficient pro datov´ y soubor II z pˇr´ıkladu 2.5 je 0.7519. Tato hodnota je znakem znaˇcn´e nesourodosti souboru II. Pˇ eti–ˇ c´ıseln´ a charakteristika Pomoc´ı tˇr´ı kvartil˚ u z´ısk´ame m´ıru polohy datov´eho souboru (medi´an, x˜50 ) a m´ıru variability pro dvˇe prostˇredn´ı ˇctvrtiny uspoˇr´adan´eho datov´eho souboru (˜ x75 − x˜25 ). Tyto kvartily n´am vˇsak neposkytnou ˇz´adnou informaci o prvn´ı a ˇctvrt´e ˇctvrtinˇe datov´eho souboru. Abychom z´ıskali tuto informaci, je tˇreba uvaˇzovat tak´e maxim´aln´ı a minim´aln´ı hodnotu. Pak variabilita prvn´ı ˇctvrtiny souboru m˚ uˇze b´ yt mˇeˇrena pomoc´ı rozd´ılu mezi doln´ım kvartilem a minim´aln´ı 29
K APITOLA 2
P OPISN A´ STATISTIKA
hodnotou a variabilita ˇctvrt´e ˇctvrtiny souboru pomoc´ı rozd´ılu maxim´aln´ı hodnoty a horn´ıho kvartilu. Tud´ıˇz minim´aln´ı hodnota, maxim´aln´ı hodnota a tˇri kvartily poskytuj´ı, kromˇe jin´eho, informaci o poloze a variabilitˇe souboru. Dost´av´ame se tak k definici pojmu pˇeti–ˇc´ıseln´ a charakteristika. Definice 2.12
P Eˇ TI – Cˇ ´I SELN A´ CHARAKTERISTIKA
Pˇeti–ˇc´ıselnou charakteristiku datov´ eho souboru tvoˇr´ı minim´aln´ı hodnota, maxim´aln´ı hod-
nota a vˇsechny kvartily zapsan´e v poˇrad´ı: xmin , x˜25 , x˜50 , x˜75 , xmax . Napˇr. pˇeti–ˇc´ıseln´a charakteristika pro datov´ y soubor v pˇr´ıkladu 2.4 ud´avaj´ıc´ı dobu, kterou 20 vybran´ ych div´ak˚ u vˇenuje sledov´an´ı televize je 5, 23, 30.5, 36.5, a 66.
Obr´ azek 2.8 Krabicov´y diagram
xmin
x ˜25
˜75 x ˜50 x
xmax
Krabicov´ y graf Krabicov´ y graf tak´e naz´ yvan´ y box and whiskers plot neboli krabice s vousy, je zaloˇzen na pˇeti–ˇc´ıseln´e charakteristice a m˚ uˇze b´ yt pouˇzit ke grafick´emu zobrazen´ı polohy a variability dat. Krabicov´ y graf je zobrazen na obr´azku 2.8.
2.3.4
M´ıry ˇ sikmosti a ˇ spiˇ catosti
M´ıry ˇsikmosti jsou zaloˇzeny na porovn´an´ı stupnˇe nahuˇstˇenosti mal´ ych hodnot sledovan´eho statistick´eho znaku se stupnˇem nahuˇstˇenosti velk´ ych hodnot tohoto znaku. M´ıry ˇspiˇcatosti jsou zaloˇzeny na porovn´an´ı stupnˇe nahuˇstˇenosti hodnot prostˇredn´ı velikosti se stupnˇem nahuˇstˇenosti ostatn´ıch hodnot, respektive vˇsech hodnot sledovan´eho statistick´eho znaku. Definice 2.13
ˇ M ´I RA Sˇ IKMOSTI , M ´I RA Sˇ PI CATOSTI
Necht’ xi , i = 1, 2 · · · , n jsou namˇeˇren´e hodnoty sledovan´eho statistick´eho znaku x, x¯ je jejich aritmetick´ y pr˚ umˇer a s je smˇerodatn´a odchylka. M´ıra sˇ ikmosti α (struˇ cnˇe ˇsikmost) a m´ıra sˇ piˇcatosti β (struˇcnˇe ˇspiˇcatost) jsou definov´any n´asleduj´ıc´ımi vztahy Pn
α=
i=1 (xi
− x¯)3
ns3
Pn
a
β=
i=1 (xi − ns4
x¯)4
− 3.
Stejn´ y stupeˇ n hustoty mal´ ych a velk´ ych hodnot se zpravidla projevuje v symetrii tvaru rozdˇelen´ı ˇcetnost´ı. Vˇetˇs´ı stupeˇ n nahuˇstˇenosti mal´ ych hodnot v porovn´an´ı s hustotou velk´ ych hodnot se projev´ı vpravo seˇsikmen´ym tvarem rozdˇelen´ı ˇcetnost´ı, kter´e oznaˇcujeme tak´e kladnˇe seˇsikmen´ym tvarem rozdˇelen´ı (α je kladn´e ˇc´ıslo). Vˇetˇs´ı stupeˇ n nahuˇstˇenosti velk´ ych hodnot ve srovn´an´ı s hustotou mal´ ych hodnot se projev´ı zpravidla vlevo seˇsikmen´ym tvarem rozdˇelen´ı ˇcetnost´ı, kter´e tak´e naz´ yv´ame z´ apornˇe seˇsikmen´y tvarem rozdˇelen´ı (α je z´aporn´e ˇc´ıslo). Jsou-li ˇcetnosti prostˇredn´ıch hodnot srovnateln´e s ˇcetnostmi ostatn´ıch hodnot znaku, ˇspiˇcatost se zpravidla projevuje ploch´ ym tvarem rozdˇelen´ı ˇcetnost´ı. Vˇetˇs´ı stupeˇ n koncentrace prostˇredn´ıch hodnot ve srovn´an´ı s ˇcetnostmi vˇsech hodnot znaku se projev´ı ˇspiˇcat´ ym tvarem rozdˇelen´ı ˇcetnost´ı. Z vyˇsˇs´ı ˇc´ıseln´e hodnoty m´ıry β se zpravidla usuzuje na ˇspiˇcatˇejˇs´ı rozdˇelen´ı ˇcetnost´ı a t´ım z´aroveˇ n na vyˇsˇs´ı stupeˇ n koncentrace prostˇredn´ıch hodnot ve srovn´an´ı ˇ s ostatn´ımi hodnotami sledovan´eho znaku. Casto se pouˇz´ıvaj´ı r˚ uzn´e modifikace m´ıry ˇsikmosti α a m´ıry ˇspiˇcatosti β, kter´e zde nebudeme uv´adˇet (viz napˇr. [7]). 30
Kapitola 3 Poˇ cet pravdˇ epodobnosti Aˇz dosud jsme se soustˇredili na popisnou statistiku, to je na metody pro organizov´an´ı a sumarizaci dat. Avˇsak hlavn´ım c´ılem je sezn´amit se se z´aklady inferenˇcn´ı statistiky, s metodami formulov´an´ı z´avˇer˚ u o z´akladn´ım souboru na z´akladˇe informac´ı z´ıskan´ ych z v´ ybˇeru ze z´akladn´ıho souboru. Vzhledem k tomu, ˇze statistick´a indukce zahrnuje formulov´an´ı z´avˇer˚ u o cel´em z´akladn´ım souboru na z´akladˇe informac´ı z´ıskan´ ych pouze z ˇca´sti tohoto souboru, nem˚ uˇzeme si b´ yt nikdy jisti, ˇze naˇse z´avˇery jsou spr´avn´e – neurˇcitost je vlastn´ı inferenˇcn´ı statistice. Dˇr´ıve neˇz zaˇcneme odvozovat a aplikovat metody inferenˇcn´ı statistiky, mus´ıme se sezn´amit s pojmem neurˇcitost. Vˇeda o neurˇcitosti se naz´ yv´a teorie pravdˇ epodobnosti. Teorie pravdˇepodobnosti n´am umoˇzn´ı ohodnotit, zda naˇse statistick´e z´avˇery jsou spr´avn´e.
3.1
Pojem pravdˇ epodobnosti
Kaˇzd´a lidsk´a ˇcinnost spoˇc´ıvaj´ıc´ı v realizaci urˇcit´ ych pˇredem stanoven´ ych podm´ınek a sledov´an´ı pˇr´ısluˇsn´ ych d˚ usledk˚ u se naz´ yv´a pokus. V´ ysledek pokusu naz´ yv´ame jev. V pˇr´ırodˇe se setk´av´ame s pokusy, kter´e se ˇr´ıd´ı deterministick´ym sch´ematem: Vstoup´ı-li v platnost urˇcit´ y komplex okolnost´ı, pak nutnˇe nastane urˇcit´ y jev. Kromˇe toho se vˇsak vyskytuj´ı v pˇr´ırodˇe a bˇeˇzn´em ˇzivotˇe ˇcetn´e jevy, kter´e nelze popsat podobn´ ym sch´ematem a kter´e lze charakterizovat takto: V d˚ usledku komplexu okolnost´ı m˚ uˇze urˇcit´ y jev nastat, ale m˚ uˇze t´eˇz nenastat. Takov´e jevy se naz´ yvaj´ı n´ ahodn´ ymi jevy a sch´emata tohoto druhu se naz´ yvaj´ı stochastick´ymi sch´ematy. Pokusy tohoto typu naz´ yv´ame n´ ahodn´ e pokusy. Napˇr´ıklad pˇri sebelepˇs´ım dodrˇzen´ı v´ yrobn´ıch podm´ınek jsou nˇekter´e v´ yrobky vadn´e. Nebo pˇri jednom hodu minc´ı v´ ysledek, ˇze padne l´ıc, m˚ uˇze nastat, ale tak´e m˚ uˇze nenastat. Pravdˇepodobnost jevu je m´ıra vˇerohodnosti, ˇze jev nastane. Pravdˇepodobnost bl´ızk´a nule znamen´a, ˇze je velice nevˇerohodn´e, aby jev nastal, zat´ımco pravdˇepodobnost bl´ızk´a jedn´e znamen´a, ˇze je velice vˇerohodn´e, ˇze jev nastane. Abychom z´ıskali dalˇs´ı pohled na v´ yznam pojmu pravdˇepodobnost pouˇzijeme k tomu interpretaci pojmu pravdˇ epodobnost pomoc´ı relativn´ıch ˇ cetnost´ı. Pˇri t´eto interpretaci ch´apeme pravdˇepodobnost jevu jako relativn´ı ˇcetnost jeho v´ yskytu pˇri velk´em poˇctu opakov´an´ı t´ehoˇz pokusu. Pro ilustraci uvaˇzujme pokus spoˇc´ıvaj´ıc´ı v jednom hodu zcela pravidelnou minc´ı. Protoˇze mince je pravideln´a (zhotoven´a z homogenn´ıho materi´alu) usuzujeme, ˇze je ˇsance 1 ku 1, ˇze padne l´ıc. Tud´ıˇz pˇrisoud´ıme jevu, ˇze padne l´ıc, pravdˇepodobnost rovnou 0.5. Interpretace pomoc´ı relativn´ıch ˇcetnost´ı znamen´a, ˇze pˇri velk´em poˇctu hod˚ u jednou minc´ı padne l´ıc 31
P O Cˇ ET PRAVD Eˇ PODOBNOSTI
K APITOLA 3
pˇribliˇznˇe v polovinˇe pˇr´ıpad˚ u. Existuj´ı tedy n´ahodn´e jevy, jejichˇz relativn´ı ˇcetnost vykazuje urˇcitou stabilitu, tj. relativn´ı ˇcetnost kol´ıs´a kolem urˇcit´e hodnoty a jej´ı v´ ychylky se vˇetˇsinou zmenˇsuj´ı t´ım v´ıce, ˇc´ım v´ıce pokus˚ u je vykon´ano. Necht’ na je ˇcetnost urˇcit´eho jevu v serii n nez´avisl´ ych opakov´an´ı pokusu, pak na pravdˇepodobnost jevu ≈ . n Pˇrestoˇze interpretace pojmu pravdˇepodobnost pomoc´ı relativn´ıch ˇcetnost´ı je uˇziteˇcn´a pro pochopen´ı pojmu pravdˇepodobnost, nem˚ uˇze b´ yt pouˇzita jako definice pravdˇepodobnosti. Klasick´ a pravdˇ epodobnost Nejprve budeme diskutovat klasickou pravdˇ epodobnost, kter´a vyuˇz´ıv´a pojem pravdˇepodobnostn´ıho modelu, ve kter´em kaˇzd´ y jev m´a stejnou moˇznost, ˇze nastane. Pojem stejn´e moˇznosti vˇsech jev˚ u ch´apeme jako jakousi apriorn´ı rovnocenost vˇsech moˇzn´ ych v´ ysledk˚ u pokusu, jako objektivn´ı vlastnost moˇzn´ ych variant pr˚ ubˇehu pokusu. Zhruba ˇreˇceno, pˇredpokl´ad´a se, ˇze nen´ı d˚ uvod, abychom oˇcek´avali jeden z v´ ysledk˚ u sp´ıˇse neˇz jin´ y. Pˇ r´ıklad 3.1 Klasick´ a pravdˇepodobnost ´ r´ı 40 studentu ˚ v jednom roˇcn´ıku na nˇejak´e Uvaˇzujme tabulku cˇ etnost´ı a relativn´ıch cˇ etnost´ı staˇ ´ ´ univerzitˇe. Pˇredpokladejme, zˇe jsme vybrali jednoho studenta nahodnˇ e, m´ınˇeno t´ım, zˇe kaˇzdy´ ´ Urˇcete pravdˇepodobnost, zˇe nahodnˇ ´ student mˇel stejnou moˇznost, zˇe bude vybran. e vybran´emu studentovi je 20 let. ´ r´ı Staˇ ˇ Cetnost Relativn´ı cˇ .
18 2 0.050
19 9 0.225
20 7 0.175
21 7 0.175
22 5 0.125
23 3 0.075
24 4 0.100
26 1 0.025
35 1 0.025
36 1 0.025
ˇ sen´ı: Z druh´eho rˇadku ´ ˚ je ve vˇeku 20 let. Tud´ızˇ je sˇ ance 7 Reˇ tabulky je vidˇet, zˇe 7 ze 40 studentu ´ ku 40, zˇe nahodnˇ e vybran´emu studentovi bude 20 let. Pravdˇepodobnost je tud´ızˇ poˇcet 20 let stary´ ch studentu˚ 7 = . ˚ celkovy´ poˇcet studentu 40 ´ Vˇsimnˇeme si, zˇ e pravdˇepodobnost, zˇe nahodnˇ e vybran´emu studentovi je 20 let, je stejna´ jako rela˚ kterym ´ je 20 let (7/40 = 0.175). tivn´ı cˇ etnost studentu,
Definice 3.1
ˇ K LASICK A´ PRAVD EPODOBNOST
Pˇredpokl´adejme, ˇze existuje N stejnˇe moˇzn´ ych v´ ysledk˚ u nˇejak´eho pokusu, z nichˇz f m´a za n´asledek nastoupen´ı urˇcit´eho jevu, zat´ımco zbyl´ ych N − f je vyluˇcuje. Pak pravdˇepodobnost, ˇze urˇcit´ y jev nastane, je rovna poˇctu f opakov´an´ı pokusu, pˇri kter´ ych tento jev nastal, dˇelen´emu celkov´ ym poˇctem N moˇzn´ ych v´ ysledk˚ u. Jin´ ymi slovy, pravdˇepodobnost jevu =
f poˇcet pˇr´ıpad˚ u, kdy jev nastal = . celkov´ y poˇcet moˇzn´ ych v´ ysledk˚ u N
Klasickou definici“ pravdˇepodobnosti nepokl´ad´ame dnes jiˇz za definici, ale pouze za metodu ” v´ ypoˇctu pravdˇepodobnost´ı.
32
´ ´ JEVY 3.2 N AHODN E
Pˇ r´ıklad 3.2 Ilustrace definice 3.1 ´ ıme se opˇet k pˇr´ıkladu 3.1. Urˇcete pravdˇepodobnost, zˇ e nahodnˇ ´ Vrat´ e vybran´y student bude mladˇs´ı neˇz 21 let. ˇ sen´ı: Z tabulky k pˇr´ıkladu 3.1 je vidˇet, zˇe 18 (2+9+7) studentum ˚ Reˇ je m´enˇe neˇz 21 let. Takˇze f = 18 a pravdˇepodobnost je rovna f 18 = = 0.450. N 40
Pravdˇ epodobnosti a procenta V pˇr´ıkladu 3.1 jsme upozornili na to, ˇze pravdˇepodobnost, ˇze n´ahodnˇe vybran´ y student bude mladˇs´ı neˇz 20 let, je rovna relativn´ı ˇcetnosti dvacetilet´ ych student˚ u. Pˇredpokl´adejme, ˇze pokus spoˇc´ıv´a v n´ahodn´em v´ ybˇeru jedn´e statistick´e jednotky z koneˇcn´eho souboru. Pak pravdˇepodobnost, ˇze urˇcit´ y jev nastane, je rovna relativn´ı ˇcetnosti (procentu) poˇctu tˇech jednotek souboru, kter´e splˇ nuj´ı podm´ınky kladen´e na jev. ˇ je romsk´e n´arodnosti tak´e znamen´a, ˇze Tud´ıˇz, napˇr´ıklad skuteˇcnost, ˇze 10% obyvatel CR ˇ bude Rom, je rovna 0.10. pravdˇepodobnost, ˇze n´ahodnˇe vybran´ y obˇcan CR Z´ akladn´ı vlastnosti pravdˇ epodobnost´ı 1. Pravdˇepodobnost jevu je vˇetˇs´ı nebo rovna 0 a menˇs´ı nebo rovna 1. y nem˚ uˇze nastat, je rovna 0. Jev, kter´ y nem˚ uˇze nastat, se 2. Pravdˇepodobnost jevu, kter´ naz´ yv´a nemoˇ zn´ y jev. 3. Pravdˇepodobnost jevu, kter´ y mus´ı nastat, je rovna 1. Jev, kter´ y mus´ı nastat, se naz´ yv´a jist´ y jev. V nˇekter´ ych pˇr´ıpadech nen´ı splnˇen z´akladn´ı poˇzadavek klasick´e definice pravdˇepodobnosti, tj. pˇredpoklad stejn´e moˇznosti vˇsech jev˚ u. V takov´ ych pˇr´ıpadech mus´ıme pouˇz´ıt jin´e metody urˇcen´ı pravdˇepodobnost´ı. Nˇekter´ ymi metodami se budeme zab´ yvat pozdˇeji v t´eto kapitole.
3.2
N´ ahodn´ e jevy
Neˇz budeme pokraˇcovat ve studiu pravdˇepodobnosti, mus´ıme se sezn´amit podrobnˇeji s pojmem n´ahodn´y jev. Zat´ım jsme pouˇz´ıvali slovo jev intuitivnˇe. Necht’ pokus spoˇc´ıv´a v h´azen´ı pravidelnou kostkou, zhotovenou z homogenn´ıho materi´alu. Pak pˇri jednom hodu m˚ uˇze nastat jeden z 6 moˇzn´ ych v´ ysledk˚ u tohoto pokusu, to je, ˇze padne jedno z ˇc´ısel 1, 2, 3, 4, 5, 6. Tyto v´ ysledky pokusu naz´ yv´ame element´ arn´ı jevy dan´eho pokusu. Vˇsechny element´arn´ı jevy dan´eho pokusu tvoˇr´ı prostor element´ arn´ıch jev˚ u. Kaˇzdou podmnoˇzinu prostoru element´arn´ıch jev˚ u naz´ yv´ame n´ ahodn´ y jev. N´ahodn´ y jev m˚ uˇze b´ yt totoˇzn´ y s nˇekter´ ym jevem element´arn´ım. Syst´em vˇsech jev˚ u naz´ yv´ame jevov´ e pole pro dan´ y pokus. S naˇs´ım pokusem je spjato mnoho r˚ uzn´ ych jev˚ u. Budeme uvaˇzovat n´asleduj´ıc´ı tˇri a urˇc´ıme z kter´ ych element´arn´ıch jev˚ u jsou sloˇzeny : a ) Jev spoˇc´ıvaj´ıc´ı v tom, ˇze pˇri hodu jednou kostkou padne ˇc´ıslo 4. b ) Jev spoˇc´ıvaj´ıc´ı v tom, ˇze pˇri hodu jednou kostkou padne lich´e ˇc´ıslo. c ) Jev spoˇc´ıvaj´ıc´ı v tom, ˇze pˇri hodu jednou kostkou padne ˇc´ıslo dˇeliteln´e dvˇema. 33
K APITOLA 3
P O Cˇ ET PRAVD Eˇ PODOBNOSTI
Prvn´ı jev nastane, padne-li pˇri hodu kostkou ˇc´ıslo 4. Druh´ y jev je tvoˇren tˇremi v´ ysledky a sice: padne ˇc´ıslo 1, padne ˇc´ıslo 3, padne ˇc´ıslo 5. Tˇret´ı jev je tvoˇren tˇremi v´ ysledky a sice: padne ˇc´ıslo 2, padne ˇc´ıslo 4, padne ˇc´ıslo 6. Jestliˇze pˇri hodu jednou kostkou padne ˇc´ıslo 3, pak nastane druh´ y jev, zat´ımco prvn´ı a tˇret´ı jev nenastane. V n´asleduj´ıc´ı definici 3.2 je shrnuta terminologie, kterou jsme zavedli v tomto pˇr´ıkladu. Definice 3.2
´ ´I CH P ROSTOR ELEMENT ARN
˚ , JEVY, JEVOV E´ POLE JEV U
Prostor elementarn´ azdn´a mnoˇzina Ω vˇsech moˇzn´ ych v´ ysledk˚ u urˇcit´eho ´ ıch jevu: ˚ Nepr´ pokusu. Prvky Ω se naz´ yvaj´ı element´arn´ı jevy a znaˇc´ıme je ω. Jevove´ pole: Syst´ em A podmnoˇzin prostoru element´arn´ıch jev˚ u. Prvky A ∈ A se naz´avaj´ı n´ahodn´e jevy.
3.2.1
Vztahy mezi jevy
Jevy budeme oznaˇcovat velk´ ymi p´ısmeny A, B, C, · · · . Jev jist´ y budeme oznaˇcovat Ω a jev nemoˇzn´ y ∅. Mezi jevy existuj´ı nˇekter´e vztahy zn´am´e z teorie mnoˇzin. Dva jevy, kter´e pˇri kaˇzd´em v´ ysledku pokusu bud’to oba nastanou nebo ani jeden ani druh´ y nenastane, povaˇzujeme za sobˇe rovny. Okolnost, ˇze jevy A a B jsou rovnocenn´ e, zapisujeme A = B. Okolnost, ˇze jev A nenastal, je tak´e urˇcit´ y jev; oznaˇc´ıme jej A nebo Ac a nazveme jevem opaˇ cn´ ym. Kaˇzd´ ym dvˇema jev˚ um A a B m˚ uˇzeme pˇriˇradit dva nov´e jevy. Jeden jev je urˇcen podm´ınkou, ˇze oba jevy A a B nastanou souˇcasnˇe“, je oznaˇcov´an A ∩ B nebo AB a naz´ yv´ame ho ” pr˚ unikem jev˚ u A a B. Jev A ∩ B tvoˇr´ı vˇsechny v´ ysledky pokusu spoleˇcn´e obˇema jev˚ um. Druh´ y jev pˇriˇrazen´ y k obˇema jev˚ um A a B je urˇcen podm´ınkou, ˇze bud’ nastane jev A ” nebo jev B nebo nastanou oba“ nebo ekvivalentnˇe alespoˇ n jeden z jev˚ u A a B nastane“. ” Tento jev je oznaˇcov´an A ∪ B nebo A + B a naz´ yv´ame ho sjednocen´ım jev˚ u A a B. Jev A ∪ B tvoˇr´ı vˇsechny v´ ysledky, pˇri kter´ ych nastane jev A nebo jev B nebo oba jevy. Rozd´ılem jev˚ u A a B naz´ yv´ame jev spoˇc´ıvaj´ıc´ı v nastoupen´ı jevu A a v nenastoupen´ı jevu B. Oznaˇcujeme jej A − B. Na z´avˇer se zm´ın´ıme jeˇstˇe o jednom vztahu mezi jevy. Jestliˇze pˇri kaˇzd´e realizaci jevu A nast´av´a i jev B, pak ˇr´ık´ame, ˇze jev A m´a za n´asledek jev B, neboli jev A je ˇca´st´ı jevu B, symbolicky A ⊂ B. Jevy ˇcasto zapisujeme v´ yˇctem element´arn´ıch jev˚ u ve sloˇzen´e z´avorce nebo pomoc´ı logick´eho v´ yroku v hranat´e z´avorce, napˇr. pro hod kostkou A = {2, 4, 6} = [padlo sud´e ˇc´ıslo]. Definice 3.3 shrnuje pojmy popisuj´ıc´ı vztahy mezi jevy. Definice 3.3
V ZTAHY MEZI
JEVY
Necht’ A a B jsou jevy. Pak A je jev, ˇze A nenastal“. ” A ∩ B nebo AB je jev, A a B nastaly souˇcasnˇe“. ” A ∪ B nebo A + B je jev, bud’ A nebo B nebo oba nastaly“. ” A − B je jev, ˇze A nastal a z´aroveˇ n B nenastal“. ” A ⊂ B znamen´a, ˇze v´ yskyt jevu A m´a za n´asledek v´ yskyt jevu B. Protoˇze v´ yrok A a B nastaly souˇcasnˇe“ je stejn´ y jako v´ yrok B a A nastaly souˇcasnˇe“, jev ” ” A ∩ B je stejn´ y jako jev B ∩ A. Stejnˇe tak plat´ı A ∪ B = B ∪ A. 34
´ ´ JEVY 3.2 N AHODN E
ˇ Casto se uˇz´ıvaj´ı de Morganova pravidla (A ∪ B) = A B,
AB = A ∪ B,
kter´a plat´ı i pro sjednocen´ı ˇci pr˚ unik vˇetˇs´ıho poˇctu jev˚ u. Pˇ r´ıklad 3.3 Ilustrace definice 3.3 V pokusu spoˇc´ıvaj´ıc´ım v jednom hodu pravidelnou hrac´ı kostkou oznaˇcme: A = [ jev, zˇe padne cˇ´ıslo 4 ], B = [ jev, zˇe padne cˇ´ıslo vˇetˇs´ı neˇz 2 ], C = [ jev, zˇe padne lich´e cˇ´ıslo ], D = [ jev, zˇe padne cˇ´ıslo dˇeliteln´e 2 ]. ´ Urˇcete nasleduj´ ıc´ı jevy: a ) A, b ) B ∩ C, c ) B ∪ D, d ) D − A. ˇ Reˇsen´ı: V tomto pˇr´ıpadˇe je Ω = {1, 2, 3, 4, 5, 6} a ) A je jev, zˇe nenastal jen A, tj., zˇe nepadne cˇ´ıslo 4. Tud´ızˇ A = {1, 2, 3, 5, 6}. ´ ˇ zˇe padne b ) B ∩ C je jev, zˇ e nastaly jevy C a B souˇcasnˇe, tj., zˇe padne cˇ´ıslo vˇetˇs´ı neˇz 2 a zarove n, lich´e cˇ´ıslo. Tento jev nastane, pokud v´ysledkem pokusu bude jedno ze dvou cˇ´ısel 3 a 5, tj. B ∩ C = {3, 5}. c ) B ∪ D je jev, zˇ e bud’ padne cˇ´ıslo vˇetˇs´ı neˇz 2, nebo cˇ´ıslo dˇeliteln´e dvˇema nebo oba jevy. Takovy´ ´ a´ z pˇeti jednotlivy´ ch vysledk ´ ˚ a sice B ∪ D = {2, 3, 4, 5, 6}. jev se sklad u d ) D − A je jev, zˇe nastane D, ale nenastane A. Tento jev nastane, kdyˇz pˇri hodu kostkou padne ˇ D − A = {2, 6}. cˇ ´ıslo 2 nebo cˇ´ıslo 6. Cili
3.2.2
Vz´ ajemnˇ e nesluˇ citeln´ e jevy
Dva jevy A a B jsou vz´ ajemnˇ e nesluˇ citeln´ e (nebo disjunktn´ı), jestliˇze nejv´ yˇse jeden z nich m˚ uˇze nastat. Pro dva vz´ajemnˇe nesluˇciteln´e jevy A a B plat´ı A ∩ B = ∅. M´ame n´asleduj´ıc´ı definici. Definice 3.4
´ ˇ NESLU CITELN ˇ ´ JEVY DVA VZ AJEMN E E
O dvou jevech ˇrekneme, ˇze jsou vz´ ajemnˇ e nesluˇ citeln´ e, jestliˇze nastal jeden, nemohl nastat druh´ y, tj. nemaj´ı ˇz´adn´ y spoleˇcn´ y v´ ysledek. Pˇ r´ıklad 3.4 Ilustrace definice 3.4 V pokusu spoˇc´ıvaj´ıc´ım v jednom hodu pravidelnou hrac´ı kostkou oznaˇcme A = [ jev, zˇe padne cˇ´ıslo vˇetˇs´ı neˇz 2], B = [ jev, zˇe padne lich´e cˇ ´ıslo], C = [ jev, zˇe padne cˇ´ıslo dˇeliteln´e dvˇema]. ´ ˚ jsou vzajemnˇ ´ Urˇcete, kter´e z nasleduj´ ıc´ıch dvojic jevu e nesluˇciteln´e: a ) A, B ˇ Reˇsen´ı:
b ) A, C
c ) B, C.
a ) Jevy A a B nejsou nesluˇciteln´e. Oba jevy nastanou, kdyˇz padne cˇ´ıslo 3 nebo 5. b ) Jevy A a C nejsou nesluˇciteln´e. Oba jevy nastanou, kdyˇz padne cˇ´ıslo 4 nebo cˇ´ıslo 6. c ) Jevy B a C jsou nesluˇciteln´e. Oba nemohou souˇcasnˇe nastat pˇri hodu jednou kostkou, nebot’ ´ ˇ lich´e cˇ´ıslo a cˇ´ıslo dˇeliteln´e dvˇema. je nemoˇzn´e, aby padlo zarove n
35
K APITOLA 3
P O Cˇ ET PRAVD Eˇ PODOBNOSTI
Pojem vz´ajemnˇe nesluˇciteln´e jevy lze rozˇs´ıˇrit na v´ıce neˇz dva jevy. Definice 3.5
´ ˇ NESLU CITELN ˇ ´ JEVY V Z AJEMN E E
Jevy A1 , A2 , · · · , As jsou vz´ ajemnˇ e nesluˇ citeln´ e, jestliˇze ˇza´dn´e dva z nich nemohou nastat souˇcasnˇe, tj. kaˇzd´a dvojice Ai , Aj splˇ nuje podm´ınku Ai ∩ Aj = ∅, i 6= j , i, j = 1, 2, · · · , s.
3.3
Axiomatick´ a definice pravdˇ epodobnosti
Obecn´a teorie pravdˇepodobnosti, kter´a zahrnuje v pˇredch´azej´ıc´ıch ˇc´astech uveden´e v´ yklady pojmu pravdˇepodobnost, vych´az´ı z n´asleduj´ıc´ıch axiom˚ u: 1. Je d´an prostor element´arn´ıch jev˚ u Ω 6= ∅. 2. Je d´ano jevov´e pole A podmnoˇzin Ω splˇ nuj´ıc´ı podm´ınky: (a) Ω ∈ A (b) jestliˇze A ∈ A, potom A ∈ A (c) je-li A1 , A2 , · · · , An , · · · koneˇcn´a nebo spoˇcetn´a posloupnost jev˚ u patˇr´ıc´ıch do A, S∞ potom sjednocen´ı n=1 An ∈ A. 3. Kaˇzd´emu jevu A ∈ A je pˇriˇrazena pravdˇ epodobnost P (A) tohoto jevu; P je mnoˇzinov´a funkce zobrazuj´ıc´ı A na interval h0, 1i s vlastnostmi: (α) P (Ω) = 1 (β) pro kaˇzdou koneˇcnou nebo spoˇcetnou posloupnost vz´ajemnˇe nesluˇciteln´ ych jev˚ u S P∞ A1 , A2 , · · · , An , · · · patˇr´ıc´ıch do A plat´ı P ( ∞ A ) = P (A ). n n=1 n n=1 Je-li Ω koneˇcn´a nebo spoˇcetn´a mnoˇzina, potom je obyˇcejnˇe A syst´em vˇsech podmnoˇzin Ω. Definice 3.6
ˇ ´I PROSTOR ( PRAVD Eˇ PODOBNOSTN ´I MODEL ) P RAVD EPODOBNOSTN
Pravdˇepodobnostn´ım prostorem naz´ yv´ame trojici (Ω, A, P), kde Ω je nepr´azdn´a mnoˇzina,
A je syst´em podmnoˇzin Ω, na kter´em je definov´ana mnoˇzinov´a funkce P tak, ˇze jsou splnˇeny axiomy (a)–(c) a (α), (β). Z axiom˚ u uveden´ ych v´ yˇse lze odvodit n´asleduj´ıc´ı vlastnosti pravdˇepodobnosti: 1. P (∅) = 0 2. jestliˇze A ⊂ B =⇒ P (A) ≤ P (B) 3. jestliˇze A ⊂ B =⇒ P (B − A) = P (B) − P (A). Axiomatick´a teorie pravdˇepodobnosti vych´az´ı z axiom˚ u, na jejichˇz z´akladˇe formuluje obecnˇe platn´e vˇety a pod´av´a tak n´avod, jak ze znalosti pravdˇepodobnost´ı jednˇech jev˚ u urˇcit pravdˇepodobnosti jin´ ych jev˚ u, kter´e s nimi dan´ ym zp˚ usobem souvis´ı. 36
´ ´I S PRAVD Eˇ PODOBNOSTMI 3.4 P RAVIDLA PRO PO Cˇ ´I T AN
3.4
Pravidla pro poˇ c´ıt´ an´ı s pravdˇ epodobnostmi
V t´eto ˇc´asti se sezn´am´ıme s nˇekter´ ymi pravidly pro v´ ypoˇcet pravdˇepodobnost´ı.
3.4.1
Pravidlo o sˇ c´ıt´ an´ı pravdˇ epodobnost´ı
Prvn´ı pravidlo, kter´ ym se budeme zab´ yvat, je pravidlo pro sˇc´ıt´an´ı pravdˇepodobnost´ı pro libovoln´e jevy. Vzorec 3.1
Pravdˇepodobnost sjednocen´ı libovoln´ych jev˚ u
Necht’ A a B jsou dva libovoln´e jevy, pak P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Obecnˇe, jestliˇze A1 , A2 , · · · , As , s > 2 jsou libovoln´e jevy, pak P(
s [
)=
i=1
s X i=1
P (Ai ) −
s X
P (Ai Aj ) +
i<j
s X
P (Ai Aj Ak ) + ... + (−1)s−1 P (A1 A2 ...As ).
i<j
Pˇ r´ıklad 3.5 Ilustrace vzorce 3.1 ˚ ´ ´ ´ Pruzkum sledovanosti televizn´ıho poˇradu Ar´ena manˇzelskymi pary ukazal, zˇe pravidelnˇe tento ˚ Zarove ´ ˇ se ukazalo, ´ poˇrad sleduje 30% vˇsech manˇzelek a 50% vˇsech manˇzelu. n zˇe tento poˇrad ´ ´ u. ˚ Nahodnˇ ´ ´ Jaka´ je pravdˇepodobnost, zˇe sleduje 18% manˇzelskych par e vybereme manˇzelsky´ par. ˇ jeden z manˇzelu. ˚ poˇrad bude sledovat alespon ˇ sen´ı: Oznaˇcme A = [poˇrad sleduje manˇzelka] a B = [poˇrad sleduje manˇzel]. Ze zadan´ ´ ı pˇr´ıkladu Reˇ ˇ plyne, zˇe P (A) = 0.30 a P (B) = 0.50 a P (A ∩ B) = 0.18. Je zˇrejm´e, zˇ e jev [poˇrad sleduje alespon ˚ je roven sjednocen´ı jevu ˚ A a B. Podle vzorce 3.1 pro vypoˇ ´ cet pravdˇepodobnosti jeden z manˇzelu] ˚ dostaneme sjednocen´ı dvou jevu P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0.30 + 0.50 − 0.18 = 0.62. ´ ´ sleduje TV poˇrad Ar´ena, je rovna 0.62. Tud´ızˇ pravdˇepodobnost, zˇe nahodnˇ e vybran´y manˇzelsk´y par
3.4.2
Pravidlo pro pravdˇ epodobnost opaˇ cn´ eho jevu
Druh´e pravidlo, kter´ ym se budeme zab´ yvat je pravidlo pro v´ ypoˇcet pravdˇepodobnosti opaˇcn´eho jevu, kter´e stanov´ı, ˇze pravdˇepodobnost, ˇze jev nastal se rovn´a 1 minus pravdˇepodobnost, ˇze jev nenastal. Vzorec 3.2
Pravdˇepodobnost opaˇcn´eho jevu
Pro kaˇzd´ y jev A ∈ A plat´ı P (A) = 1 − P (A). Toto pravidlo je d˚ uleˇzit´e z toho d˚ uvodu, ˇze je nˇekdy jednoduˇsˇs´ı vypoˇc´ıtat pravdˇepodobnost P (A), ˇze jev nenastal, neˇz pravdˇepodobnost P (A), ˇze jev nastal.
37
K APITOLA 3
P O Cˇ ET PRAVD Eˇ PODOBNOSTI
Pˇ r´ıklad 3.6 Ilustrace vzorce 3.2 ´ ´ ´ Urˇcete praUvaˇzujme opˇet pˇr´ıklad 3.1. Pˇredpokladejme, zˇ e jeden student byl nahodnˇ e vybran. ´ r´ı nahodnˇ ´ vdˇepodobnost, zˇe staˇ e vybran´eho studenta bude m´enˇe neˇz 36 let. ˇ sen´ı: Necht’ A oznaˇcuje jev, zˇe staˇ ´ r´ı nahodnˇ ´ Reˇ e vybran´eho studenta bude m´enˇe neˇz 36 let. K tomu, abychom urˇcili P (A), pouˇzijeme pravidlo o pravdˇepodobnosti opaˇcn´eho jevu, nebot’ je jednoduˇssˇ´ı ´ r´ı nahodnˇ ´ spoˇc´ıtat P (A). Poznamenejme, zˇe jev A je jev, zˇe staˇ e vybran´eho studenta je 36 let. Z tabulky relativn´ıch cˇ etnost´ı snadno zjist´ıme, zˇe P (A) = 0.025. Pouˇzit´ım pravidla o pravdˇepodobnosti opaˇcn´eho jevu dostaneme, zˇ e P (A) = 1 − P (A) = 1 − 0.025 = 0.975. ´ r´ı nahodnˇ ´ Pravdˇepodobnost, zˇe staˇ e vybran´eho studenta bude niˇzsˇ´ı neˇz 36 let, je rovna 0.975.
3.4.3
Pravidlo o podm´ınˇ en´ e pravdˇ epodobnosti
V t´eto ˇca´sti zavedeme pojem podm´ınˇen´ a pravdˇepodobnost. Podm´ınˇ en´ a pravdˇ epodobnost jevu je pravdˇepodobnost, ˇze jev nastane za podm´ınky, ˇze jin´ y jev nastal. Definice 3.7
P ODM ´I N Eˇ N A´ PRAVD Eˇ PODOBNOST
Pˇredpokl´adejme, ˇze A, B jsou jevy. Potom pravdˇepodobnost, ˇze nastane jev A za podm´ınky, ˇze nastal jev B, se naz´ yv´a podm´ınˇ en´ a pravdˇ epodobnost. Oznaˇcujeme ji symbolem P (A|B), kter´ y ˇcteme pravdˇepodobnost jevu A za podm´ınky B“. ” Pˇ r´ıklad 3.7 Ilustrace definice 3.7 ´ pravidelnou hrac´ı kostkou, pak muˇ ˚ ze nastat 6 stejnˇe moˇzn´ych vysledk ´ ˚ Hod´ıme-li jedenkrat u, ´ tj. Ω = {1, 2, 3, 4, 5, 6}. Necht’ A = [padne cˇ´ıslo 5] a L = [padne lich´e cˇ´ıslo]. Urˇcete nasleduj´ ıc´ı pravdˇepodobnosti: a ) Pravdˇepodobnost, zˇ e padlo cˇ´ıslo 5. b ) Podm´ınˇenou pravdˇepodobnost, zˇe padne cˇ´ıslo 5, za podm´ınky, zˇe padlo lich´e cˇ´ıslo. c ) Podm´ınˇenou pravdˇepodobnost, zˇe padne lich´e cˇ´ıslo, za podm´ınky, zˇe nepadlo cˇ´ıslo 5. ˇ sen´ı: Reˇ a ) Vzhledem k tomu, zˇe je sˇ est moˇzn´ych v´ysledku˚ pˇri hodu jednou kostkou a jev A nastane jen pokud padne cˇ ´ıslo 5, je 1 P (A) = = 0.167. 6 ´ ˚ ale b ) V tomto pˇr´ıpadˇe nastal jev L, zˇe padlo lich´e cˇ´ıslo, tud´ızˇ uˇz nen´ı sˇ est moˇzn´ych vysledk u, ´ ´ ıch jevu ˚ je nyn´ı Ω1 = {1, 3, 5}. Tud´ızˇ podm´ınˇena´ pouze 3 moˇzn´e vysledky. Prostor elementarn´ pravdˇepodobnost je 1 P (A|L) = = 0.333. 3 ´ Porovname-li tuto pravdˇepodobnost s pravdˇepodobnost´ı vypoˇctenou v a ) vid´ıme, zˇe P (A|L) ´ v´ıme-li, zˇe padlo lich´e cˇ ´ıslo, pak to ma´ vliv na pravdˇepodobnost, zˇe 6 P (A); to znamena, = padne cˇ´ıslo 5.
38
´ ´I S PRAVD Eˇ PODOBNOSTMI 3.4 P RAVIDLA PRO PO Cˇ ´I T AN ´ ıch jevu ˚ je Ω2 = {1, 2, 3, 4, 6}. c ) Pokud padlo jin´e cˇ´ıslo neˇz 5, nastal jev A a prostor elementarn´ Za t´eto podm´ınky jev L nastane v pˇr´ıpadˇe, zˇe padlo cˇ´ıslo 1 nebo cˇ´ıslo 3. Tud´ızˇ podm´ınˇena´ pravdˇepodobnost, zˇe padne lich´e cˇ´ıslo za podm´ınky, zˇe nepadlo cˇ´ıslo 5 je P (L|A) =
2 = 0.40. 5
Pravidlo podm´ınˇ en´ e pravdˇ epodobnosti V pˇredch´azej´ıc´ım pˇr´ıkladu jsme poˇc´ıtali podm´ınˇen´e pravdˇepodobnosti pˇr´ımo, tj. nejprve jsme urˇcili nov´ y prostor element´arn´ıch jev˚ u za podm´ınky, ˇze nastal urˇcit´ y jev a pak jsme poˇc´ıtali pravdˇepodobnosti obvykl´ ym zp˚ usobem. Avˇsak nˇekdy nem˚ uˇzeme podm´ınˇen´e pravdˇepodobnosti urˇcit pˇr´ımo, ale mus´ıme je poˇc´ıtat pomoc´ı pravdˇepodobnost´ı nepodm´ınˇen´ ych. Vzorec 3.3
Pravidlo podm´ınˇen´e pravdˇepodobnosti
Jestliˇze A, B jsou dva jevy takov´e, ˇze P (B) > 0, potom P (A|B) =
P (A ∩ B) . P (B)
Jin´ ymi slovy, podm´ınˇen´a pravdˇepodobnost, ˇze nastane jev A za podm´ınky, ˇze nastal jev B, je rovna pravdˇepodobnosti pr˚ uniku jev˚ u A a B dˇelen´emu pravdˇepodobnost´ı jevu B. V pˇr´ıkladu 3.7 jsme podm´ınˇen´e pravdˇepodobnosti vypoˇc´ıtali pˇr´ımo, m˚ uˇzeme je vˇsak tak´e urˇcit pomoc´ı pravidla pro podm´ınˇenou pravdˇepodobnost. Pˇ r´ıklad 3.8 Ilustrace vzorce 3.3 Uvaˇzujme pˇr´ıklad 3.7. Vypoˇcteme pravdˇepodobnosti P (A|L) a P (L|A) pomoc´ı vzorce 3.3. ˇ sen´ı: Nejprve vypoˇcteme P (A|L). V tomto pˇr´ıpadˇe je jev A ∩ L rovnocenny´ s jevem A, tj. A ∩ L = Reˇ {5} = L. Pomoc´ı vzorce 3.3 dostaneme P (A|L) =
P (A ∩ L) P (A) = = P (L) P (L)
1 6 3 6
=
1 = 0.333. 3
2 6 5 6
=
2 . 5
V pˇr´ıpadˇe v´ypoˇctu P (L|A) je L ∩ A = {1, 3} a P (L|A) =
3.4.4
P (L ∩ A) = P (A)
Pravidlo pro n´ asoben´ı pravdˇ epodobnost´ı; nez´ avislost jev˚ u
Pravidlo pro podm´ınˇenou pravdˇepodobnost, vzorec 3.3 pouˇz´ıv´ame pro v´ ypoˇcet podm´ınˇen´ ych pravdˇepodobnost´ı pomoc´ı nepodm´ınˇen´ ych pravdˇepodobnost´ı. Vyn´asob´ıme-li obˇe strany rovnice ve vzorci 3.3 pravdˇepodobnost´ı P (B), dostaneme vzorec pro v´ ypoˇcet pravdˇepodobnosti pr˚ uniku jev˚ u A a B pomoc´ı nepodm´ınˇen´e pravdˇepodobnosti jevu B a podm´ınˇen´e pravdˇepodobnosti P (A|B). Vzorec, kter´ y dostaneme, se naz´ yv´a pravidlo pro n´asoben´ı a je uvedeno ve vzorci 3.4. 39
K APITOLA 3
Vzorec 3.4
P O Cˇ ET PRAVD Eˇ PODOBNOSTI
Pravidlo pro n´asoben´ı pravdˇepodobnost´ı
Jestliˇze A, B jsou dva jevy, pak P (A ∩ B) = P (B) · P (A|B). Jsou-li A1 , A2 , · · · , As jevy, P (A1 · · · As ) > 0, s ≥ 2, pak plat´ı P (A1 A2 · · · As ) = P (A1 )P (A2 |A1 )P (A3 |A1 A2 ) · · · P (As |A1 A2 · · · As−1 ).
Pˇ r´ıklad 3.9 Ilustrace vzorce 3.4 ´ ej´ıc´ı stejny´ vyrobek ´ ´ Dva dˇeln´ıci vyrabˇ se liˇs´ı produktivitou i kvalitou prace. Zat´ımco prvn´ı z nich ´ ı v prumˇ ˚ eru 60% a druhy´ 40% denn´ı produkce, je mezi vyrobky ´ ˚ eru 10% vyrab´ prv´eho v prumˇ ˚ a u druh´eho 5% zmetku. ˚ Urˇcit´eho dne vybereme z produkce nahodnˇ ´ ´ zmetku e jeden vyrobek. ´ ı od prvn´ıho dˇeln´ıka a je Jaka´ je pravdˇepodobnost, zˇe vybereme v´yrobek, ktery´ souˇcasnˇe pochaz´ zmetek? ˇ sen´ı: Oznaˇcme A jev, zˇe z produkce urˇcit´eho dne vybereme nahodnˇ ´ ´ Reˇ e vyrobek prvn´ıho dˇeln´ıka a B oznaˇcme jev, zˇe vybereme zmetek. Hodnoty pravdˇepodobnost´ı budou P (A) = 0.60, P (B|A) = ´ 0.10. Podle pravidla pro nasoben´ ı dostaneme P (A ∩ B) = P (A) · P (B|A) = 0.60 · 0.10 = 0.06. ´ ´ ı od prvn´ıho dˇeln´ıka a je zmePravdˇepodobnost, zˇ e vybereme vyrobek, ktery´ souˇcasnˇe pochaz´ tek je 0.06.
Nez´ avislost jev˚ u Dva jevy A a B se naz´ yvaj´ı statisticky nez´ avisl´ e, jestliˇze pravdˇepodobnost nastoupen´ı nebo nenastoupen´ı jednoho z jev˚ u neovlivˇ nuje pravdˇepodobnost nastoupen´ı nebo nenastoupen´ı druh´eho jevu. Definice 3.8
´ S TATISTICK A´ NEZ AVISLOST
Jev B je statisticky nezavisl y´ na jevu A, jestliˇ ze nastoupen´ı jevu A neovlivˇ nuje ´ pravdˇepodobnost, ˇze jev B nastoup´ı. Symbolicky P (B|A) = P (B). To znamen´a, ˇze informace o tom, ˇze nastal jev A, neposkytuje ˇz´adnou pravdˇepodobnostn´ı informaci o nastoupen´ı jevu B. Z d˚ uvodu struˇcnosti budeme napˇr´ıˇstˇe pouˇz´ıvat term´ın nez´ avisl´y m´ısto statisticky nez´avisl´y. Pˇ r´ıklad 3.10 Ilustrace definice 3.8 ´ hrac´ı kostkou. Uvaˇzujme nasleduj´ ´ Hod´ıme jedenkrat ıc´ı jevy: A = [padne cˇ´ıslo vˇetˇs´ı neˇz 4], B = ´ [padne sud´e cˇ ´ıslo], C = [padne cˇ´ıslo dˇeliteln´e 3]. Urˇcete, zda a ) jev A je nezavisl´ y na jevu B; ´ b ) jev A je nezavisl y´ na jevu C.
40
´ ´I S PRAVD Eˇ PODOBNOSTMI 3.4 P RAVIDLA PRO PO Cˇ ´I T AN ˇ sen´ı: Reˇ a ) Nepodm´ınˇena´ pravdˇepodobnost jevu A je P (A) = 26 = 0.333. K tomu, abychom zjistili, zda jev ´ A je nezavisl y´ na jevu B, mus´ıme vypoˇc´ıtat P (A|B) a porovnat ji s P (A). P (A|B) =
1 = 0.333. 3
ˇ Vid´ıme, zˇe P (A|B) = P (A). Tud´ızˇ nastoupen´ı jevu B neovlivnuje pravdˇepodobnost, zˇe nas´ zˇe jev A je nezavisl ´ tane jev A. To znamena, y´ na jevu B. b ) Nyn´ı potˇrebujeme spoˇc´ıtat P (A|C) a porovnat ji s P (A). P (A|C) =
1 = 0.5. 2
ˇ Tato pravdˇepodobnost se nerovna´ P (A). Tud´ızˇ nastoupen´ı jevu C ovlivnuje pravdˇepodobnost, ´ zˇe jev A nen´ı nezavisl´ ´ zˇe nastane jev A. To znamena, y na jevu C.
Jestliˇze jev B je nez´avisl´ y na jevu A, pak tak´e plat´ı, ˇze jev A je nez´avisl´ y na jevu B. Proto ˇcasto ˇr´ık´ame, ˇze jevy A a B jsou nez´ avisl´ e, nebo ˇze A a B jsou nez´ avisl´ e jevy. Definici nez´avislosti zobecn´ıme pro s > 2 jev˚ u. Jevy A1 , A2 , · · · , As jsou vz´ ajemnˇ e nez´ avisl´ e, jestliˇze pro kaˇzdou koneˇcnou podmnoˇzinu {s1 , s2 , · · · , sk } ⊂ N+ indexov´e mnoˇziny pˇrirozen´ ych ˇc´ısel plat´ı P (As1 ∩ As2 ∩ · · · ∩ Ask ) = P (As1 )P (As2 )...P (Ask ). Pravidlo o n´ asoben´ı pravdˇ epodobnost´ı pro vz´ ajemnˇ e nez´ avisl´ e jevy Jestliˇze jevy A a B jsou nez´avisl´e, pak plat´ı P (A|B) = P (A). Tud´ıˇz pro vz´ajemnˇe nez´avisl´e jevy dostaneme n´asleduj´ıc´ı pravidlo o n´asoben´ı pravdˇepodobnost´ı. Vzorec 3.5
Pravidlo o n´asoben´ı pravdˇepodobnost´ı pro vz´ajemnˇe nez´avisl´e jevy
Jestliˇze A, B jsou dva nez´avisl´e jevy, pak P (A ∩ B) = P (A) · P (B), a naopak, jestliˇze P (A ∩ B) = P (A)P (B), pak A a B jsou nez´avisl´e jevy. Jsou-li A1 , A2 , · · · , As vz´ajemnˇe nez´avisl´e jevy, pak plat´ı P (A1 A2 · · · As ) = P (A1 )P (A2 ) · · · P (As ). Jin´ ymi slovy, dva jevy jsou nez´avisl´e pr´avˇe tehdy, jestliˇze pravdˇepodobnost souˇcasn´eho nastoupen´ı obou jev˚ u je rovna souˇcinu pravdˇepodobnost´ı jednotliv´ ych jev˚ u. Pˇ r´ıklad 3.11 Ilustrace vzorce 3.5 ´ ˚ Pravdˇepodobnost, zˇe nˇeco proda, ´ je 0.20 u kaˇzd´eho Obchodn´ı cestuj´ıc´ı navˇst´ıv´ı dennˇe 12 zakazn´ ıku. ´ ˚ zakazn´ ıka. Jaka´ je pravdˇepodobnost, zˇe obchodn´ık neproda´ za den vubec nic?
41
K APITOLA 3
P O Cˇ ET PRAVD Eˇ PODOBNOSTI
ˇ sen´ı: Oznaˇcme Ai jev, zˇe i-ty´ zakazn´ ´ ´ ı je P (Ai ) = Reˇ ık nic nekoup´ı, i = 1, · · · , 12. Vzhledem k zadan´ T12 ´ oznaˇcme A jev, zˇe zˇadn ´ y´ zakazn´ ´ 1 − 0.20 = 0.80. Dale ık nic nekoup´ı. Potom P (A) = P ( i=1 Ai ) = Q12 12 = 0.0687. i=1 P (Ai ) = 0.80
Nez´ avislost versus nesluˇ citelnost Je d˚ uleˇzit´e si uvˇedomit, ˇze pojmy vz´ ajemnˇe nesluˇciteln´y a nez´ avisl´y jsou dva r˚ uzn´e pojmy. Vz´ajemnˇe nesluˇciteln´e jevy jsou takov´e jevy, kter´e nemohou nastat souˇcasnˇe. Nez´avisl´e jevy jsou takov´e jevy, pro kter´e plat´ı, ˇze pravdˇepodobnost jednoho z nich nez´avis´ı na tom, zda druh´ y jev nastal nebo nenastal. Jestliˇze dva jevy jsou nesluˇciteln´e, pak v´ yskyt jednoho znemoˇzn´ı v´ yskyt druh´eho, tj. dva nesluˇciteln´e jevy nejsou urˇcitˇe nez´avisl´e. Nen´ı moˇzn´e, aby dva jevy byly souˇcasnˇe nesluˇciteln´e a nez´avisl´e. Pouze jev jist´ y a jev nemoˇzn´ y jsou dva nesluˇciteln´e a nez´avisl´e jevy.
3.4.5
Vzorec u ´ pln´ e pravdˇ epodobnosti a Bayes˚ uv vzorec
Vz´ajemnˇe nesluˇciteln´e jevy Hi , Hi ∈ A, i = 1, 2, · · · , s tvoˇr´ı u ´ pln´ y syst´ em jev˚ u, jestliˇze Ss Hi ) = 1. P (Hi ) > 0 pro kaˇzd´e i = 1, 2, · · · , s a P ( i=1 Chceme urˇcit pravdˇepodobnost jevu A, kter´ y m˚ uˇze nastat jen ve spojen´ı s jedn´ım z jev˚ u H1 , H2 , · · · , Hs , kter´e tvoˇr´ı u ´pln´ y syst´em jev˚ u. V tomto pˇr´ıpadˇe se jev A rozpad´a na ˇc´asteˇcn´e pˇr´ıpady A ∩ H1 , A ∩ H2 , · · · , A ∩ Hs . Jevy A ∩ Hi , i = 1, 2, · · · , s jsou vz´ajemnˇe nesluˇciteln´e, S a A = si=1 (A ∩ Hi ). Protoˇze plat´ı P (A ∩ Hi ) = P (Hi )P (A|Hi ), dost´av´ame n´asleduj´ıc´ı vzorec. Vzorec 3.6
Vzorec u ´pln´e pravdˇepodobnosti
Necht’ jevy Hi ∈ A, i = 1, 2, · · · , s tvoˇr´ı u ´pln´ y syst´em jev˚ u. Potom pro jev A ∈ A plat´ı P (A) =
s X
P (Hi )P (A|Hi ).
i=1
V pˇr´ıpadˇe, ˇze jsou zn´amy nejen nepodm´ınˇen´e pravdˇepodobnosti P (Hi ) a podm´ınˇen´e pravdˇepodobnosti P (A|Hi ), ale je tak´e zn´amo, ˇze v´ ysledkem pokusu je nastoupen´ı jevu A, lze podm´ınˇen´e pravdˇepodobnosti P (Hi |A) vypoˇc´ıtat pomoc´ı Bayesova vzorce, kter´ y vypl´ yv´a z pravidla o n´asoben´ı pravdˇepodobnost´ı a ze vzorce u ´pln´e pravdˇepodobnosti. Vzorec 3.7
Bayes˚ uv vzorec
Necht’ jevy Hi ∈ A i = 1, 2, · · · , s tvoˇr´ı u ´pln´ y syst´em jev˚ u, A ∈ A, P (A) > 0. Potom P (Hi )P (A|Hi ) . P (Hi |A) = Ps i=1 P (Hi )P (A|Hi ) V aplikac´ıch Bayesova vzorce maj´ı jevy Hi v´ yznam hypot´ez, kter´e se navz´ajem vyluˇcuj´ı a pr´avˇe jedna je spr´avn´a. P (Hi ) jsou jejich pravdˇepodobnosti pˇred proveden´ım doplˇ nuj´ıc´ıho pokusu nebo testu, ˇr´ık´a se jim apriorn´ı pravdˇepodobnosti a jsou zn´amy. P (·|Hi ) je pravdˇepodobnostn´ı m´ıra v´ ysledk˚ u testu za platnosti hypot´ezy Hi , kter´a je ˇcasto zn´am´a. Bayes˚ uv 42
3.5 J IN E´ POHLEDY NA PRAVD Eˇ PODOBNOST
vzorec umoˇzn ˇuje vypoˇc´ıtat podm´ınˇen´e pravdˇepodobnosti hypot´ez po proveden´ı pokusu nebo testu, pˇri nˇemˇz nastal jev A, kter´e berou v u ´vahu i v´ ysledek pokusu. Jsou to aposteriorn´ı pravdˇepodobnosti. Pˇ r´ıklad 3.12 Ilustrace vzorc˚ u 3.6 a 3.7 ´ an´ ´ ı je organizovano ´ Havarovalo mal´e letadlo a patr podle tˇr´ı oblast´ı. Pravdˇepodobnost, zˇe letadlo ´ ı v dan´e oblasti, je: se nachaz´ Oblast Hory (H1 ) Buˇs (H2 ) Moˇre (H3 )
Apriorn´ı pravdˇepodobnost, zˇ e letadlo je zde 0.50 0.30 0.20
Pravdˇepodobnost pˇrehl´ednut´ı ˚ pˇri pruzkumu oblasti 0.30 0.20 0.90
V posledn´ım sloupci je uvedena pravdˇepodobnost, zˇe letadlo nebude nalezeno, pˇrestoˇze se v dan´e ´ ı. oblasti nachaz´ ´ a ) Urˇcete uplnou pravdˇepodobnost, zˇ e letadlo nebude nalezeno? ˚ Pruzkum byl proveden ve vˇsech tˇrech oblastech a letadlo nebylo nalezeno. ´ ı v horach? ´ b ) Jaka´ je nyn´ı pravdˇepodobnost, zˇe letadlo se pˇresto nachaz´ ˇ sen´ı: Oznaˇcme A jev, zˇe letadlo nebude nalezeno. Jevy H1 , H2 a H3 tvoˇr´ı upln ´ ˚ Reˇ y´ syst´em jevu. ´ ˚ A ∩ H1 , A ∩ H2 a A ∩ H3 a tud´ızˇ a ) Jev A je sjednocen´ım nesluˇcitelnych jevu P (A) =
3 X
P (A ∩ Hi ).
i=1
Pravdˇepodobnost, zˇe letadlo nebude nalezeno, dostaneme dosazen´ım do vzorce 3.6 P (A) =
3 X
P (Hi )P (A|Hi ) = 0.30 · 0.50 + 0.30 · 0.20 + 0.20 · 0.90 = 0.39.
i=1
´ ı v horach ´ ˚ b ) Pravdˇepodobnost P (H1 |A), zˇ e se letadlo nachaz´ i kdyˇz po pruzkumu vˇsech tˇr´ı oblast´ı nebylo nalezeno, dostaneme dosazen´ım do vzorce 3.7. P (H1 |A) =
3.5
P (H1 )P (A|H1 ) 0.50 · 0.30 = = 0.38. P (A) 0.39
Jin´ e pohledy na pravdˇ epodobnost
V odstavci 3.1 a 3.3 jsme uvedli interpretaci pravdˇepodobnosti pomoc´ı relativn´ıch ˇcetnost´ı, klasickou definici pravdˇepodobnosti a nakonec axiomatickou definici. Subjektivn´ı pravdˇ epodobnost je pokusem o ˇreˇsen´ı jedineˇcn´ ych historick´ ych jev˚ u, kter´e se nemohou opakovat, a tud´ıˇz pro nˇe nelze pouˇz´ıt interpretace ˇcetnostn´ı (napˇr. pravdˇepodobnost svrˇzen´ı urˇcit´e vl´ady pˇr´ıˇst´ı mˇes´ıc, nebo zdvojn´asoben´ı pr˚ umˇern´eho obratu na burze v pˇr´ıˇst´ım desetilet´ı). Takov´e jevy se povaˇzuj´ı za pravdˇepodobn´e“ nebo nepravdˇepo” ” dobn´e“, pˇresto, ˇze neexistuje zp˚ usob, jak tyto jevy pozorovat pomoc´ı relativn´ıch ˇcetnost´ı. Nicm´enˇe jejich pravdˇepodobnost silnˇe ovlivˇ nuje politick´a rozhodnut´ı a pro jejich z´avaˇznost je tˇreba je nˇejak´ ym zp˚ usobem odhadovat. Teprve pak lze ˇcinit rozumn´a rozhodnut´ı a uv´aˇzit, zda dan´e riziko stoj´ı za to.
43
Kapitola 4 N´ ahodn´ a veliˇ cina Dosud jsme se zab´ yvali v podstatˇe jen ot´azkou, zda uvaˇzovan´e n´ahodn´e jevy nastanou nebo nenastanou. V mnoha pˇr´ıpadech je vˇsak takov´ y kvalitativn´ı v´ yrok nepostaˇcuj´ıc´ı, a je nutn´e i kvantitativn´ı vyˇsetˇren´ı. Jin´ ymi slovy, k popisu hromadn´ ych n´ahodn´ ych jev˚ u budeme obecnˇe potˇrebovat tak´e ˇc´ıseln´e u ´daje; pˇritom tyto ˇc´ıseln´e u ´daje nejsou konstantn´ı, ale vykazuj´ı n´ahodn´e v´ ychylky. Takovou n´ahodnou ˇc´ıselnou hodnotou je napˇr´ıklad poˇcet aut, kter´e vlastn´ı n´ahodnˇe vybran´a praˇzsk´a dom´acnost, zrovna tak jako mnoˇzstv´ı spotˇrebovan´e elektˇriny za mˇes´ıc ve vybran´e dom´acnosti. Obˇe tyto veliˇciny jsou numerick´e a jejich hodnota z´avis´ı na tom, kter´a dom´acnost byla vybran´a. M˚ uˇzeme ˇr´ıci, ˇze v´ ysledek n´ahodn´eho pokusu, dan´ y re´aln´ ym ˇc´ıslem, je hodnotou veliˇciny, kterou nazveme n´ ahodn´ a veliˇ cina. Jinak ˇreˇceno, n´ahodn´a veliˇcina je veliˇcina, jej´ıˇz hodnota je jednoznaˇcnˇe urˇcena v´ ysledkem n´ahodn´eho pokusu. Rozliˇsujeme dva z´akladn´ı typy n´ahodn´ ych veliˇcin: diskr´etn´ı a spojit´e. Diskr´ etn´ı (ˇcili nespojit´ a) n´ahodn´a veliˇcina m˚ uˇze nab´ yvat pouze koneˇcnˇe nebo spoˇcetnˇe nekoneˇcnˇe mnoha hodnot. Poˇcet aut, kter´e vlastn´ı dom´acnost, je pˇr´ıklad diskr´etn´ı veliˇciny. Spojit´ a n´ahodn´a veliˇcina m˚ uˇze nab´ yvat vˇsech hodnot z nˇejak´eho koneˇcn´eho nebo nekoneˇcn´eho intervalu. Mnoˇzstv´ı elektˇriny spotˇrebovan´e za mˇes´ıc je pˇr´ıklad spojit´e n´ahodn´e veliˇciny.
4.1
N´ ahodn´ a veliˇ cina a jej´ı rozdˇ elen´ı
Nyn´ı uvedeme matematickou definici n´ahodn´e veliˇciny. Definice 4.1
´ ´ VELI CINA ˇ N AHODN A
Nahodn a´ veliˇcina je kaˇ zd´e zobrazen´ı X : Ω → R takov´e, ˇze pro kaˇzd´e x ∈ R je ´
A = {ω|X(ω) ≤ x} ∈ A. Jestliˇze A je syst´em vˇsech podmnoˇzin Ω, pak kaˇzd´a re´aln´a funkce X definovan´a na Ω je n´ahodn´a veliˇcina. N´ahodn´e veliˇciny budeme oznaˇcovat velk´ ymi p´ısmeny z konce abecedy, napˇr. X, Y, Z nebo X1 , X2 , · · · . Jejich konkr´etn´ı hodnoty pak mal´ ymi p´ısmeny x, y, z nebo x1 , x2 , · · · . Poˇcet ˇclen˚ u dom´acnosti v souboru praˇzsk´ ych dom´acnost´ı je n´ahodn´a veliˇcina napˇr. X, zat´ımco v urˇcit´e n´ahodnˇe vybran´e tˇreba ˇctyˇrˇclenn´e dom´acnosti jde uˇz o konkr´etn´ı hodnotu t´eto n´ahodn´e veliˇciny, o konkr´etn´ı poˇcet ˇclen˚ u t´eto dom´acnosti, tud´ıˇz X = 4. Oznaˇcen´ı [X = 4] 44
´ ´ VELI Cˇ INA A JEJ´I ROZD Eˇ LEN´I 4.1 N AHODN A
bude vyjadˇrovat jev, ˇze vybran´a dom´acnost m´a 4 ˇcleny, zat´ımco oznaˇcen´ı P (X = 4) je zjednoduˇsen´e oznaˇcen´ı pro pravdˇepodobnost tohoto jevu. N´ahodnou veliˇcinu povaˇzujeme za danou, zn´ame-li vˇsechny jej´ı moˇzn´e hodnoty a pravdˇepodobnosti v´ yskytu kaˇzd´e z nich. Pravidlo, kter´e kaˇzd´e hodnotˇe nebo mnoˇzinˇe hodnot z kaˇzd´eho intervalu pˇriˇrazuje pravdˇepodobnost, ˇze n´ahodn´a veliˇcina nabude t´eto hodnoty nebo hodnoty z urˇcit´eho intervalu, se naz´ yv´a z´ akon rozdˇ elen´ı n´ ahodn´ e veliˇ ciny nebo kr´atce rozdˇ elen´ı n´ ahodn´ e veliˇ ciny.
4.1.1
Distribuˇ cn´ı funkce a hustota
Z´akladn´ı formou popisu z´akona rozdˇelen´ı je distribuˇcn´ı funkce. Distribuˇ cn´ı funkce n´ahodn´e veliˇciny ud´av´a pravdˇepodobnost, ˇze n´ahodn´a veliˇcina X nabude hodnoty menˇs´ı nebo rovn´e neˇz zvolen´e x. Znaˇc´ıme ji F (x). Definice 4.2
ˇ ´I FUNKCE D ISTRIBU CN
Distribuˇcn´ı funkce n´ ahodn´e veliˇciny X je funkce F : R → h0, 1i definovan´a vztahem
F (x) = P (X ≤ x).
Z´ akladn´ı vlastnosti distribuˇ cn´ıch funkc´ı 1. F (x) je neklesaj´ıc´ı funkce, tj. pro kaˇzdou dvojici x1 < x2 plat´ı F (x1 ) ≤ F (x2 ). 2. F (x) je zprava spojit´a, tj. pro libovolnou distribuˇcn´ı funkci plat´ı lim F (x + h) = F (x).
h→0+
3. Pro kaˇzdou distribuˇcn´ı funkci plat´ı lim F (x) = 0 a
x→−∞
lim F (x) = 1,
x→∞
zkr´acenˇe F (−∞) = 0 a F (∞) = 1. Jestliˇze moˇzn´e hodnoty n´ahodn´e veliˇciny X patˇr´ı do intervalu (a, b) pak F (a) = 0, F (b) = 1. Kaˇzdou funkci, kter´a m´a vˇsechny vlastnosti 1.–3. m˚ uˇzeme pokl´adat za distribuˇcn´ı funkci. Pozn´ amka: Definujeme-li distribuˇcn´ı funkci vztahem F (x) = P (X < x) (tj. vynech´ame znam´enko (=)), pak F je zleva spojit´a. ˇ Casto se pouˇz´ıv´a i dalˇs´ı vlastnost distribuˇcn´ıch funkc´ı: necht’ x1 < x2 , potom plat´ı P (x1 < X ≤ x2 ) = P ([X ≤ x2 ] ∩ [X > x1 ]) = P ([X ≤ x2 ]) − P ([X ≤ x1 ]) = F (x2 ) − F (x1 ). 45
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
Distribuˇcn´ı funkce nemus´ı b´ yt spojit´a, ale bod˚ u nespojitosti m˚ uˇze m´ıt nanejv´ yˇs spoˇcetnˇe mnoho. Dva nejd˚ uleˇzitˇejˇs´ı typy distribuˇcn´ıch funkc´ı, kter´e maj´ı nejvˇetˇs´ı uplatnˇen´ı v matematick´e statistice, jsou diskr´etn´ı distribuˇcn´ı funkce a absolutnˇe spojit´e distribuˇcn´ı funkce. Diskr´ etn´ı distribuˇ cn´ı funkce Distribuˇcn´ı funkce F (x) se naz´ yv´a diskr´ etn´ı, existuje-li koneˇcn´a nebo spoˇcetn´a posloupnost P bod˚ u {xn } a posloupnost nez´aporn´ ych ˇc´ısel {pn } splˇ nuj´ıc´ıch podm´ınku n pn = 1 takov´a, ˇze X
F (x) =
pn , pro x ∈ R.
(4.1)
{n:xn ≤x}
Diskr´etn´ı distribuˇcn´ı funkce m´a schodovit´ y tvar se skoky velikosti pn v bodech xn . M´a-li n´ahodn´a veliˇcina X diskr´etn´ı distribuˇcn´ı funkci (4.1), tj. pn = P (X = xn ), ˇr´ık´ame, ˇze X m´a diskr´ etn´ı rozdˇ elen´ı pravdˇ epodobnost´ı, struˇcnˇe diskr´ etn´ı rozdˇ elen´ı. Grafu diskr´etn´ı distribuˇcn´ı funkce odpov´ıd´a v popisn´e statistice graf kumulativn´ıch ˇcetnost´ı. Diskr´etn´ı z´akon rozdˇelen´ı lze vedle distribuˇcn´ı funkce popsat i tzv. pravdˇ epodobnostn´ı funkc´ı P (x) = P (X = x), (4.2) kter´a kaˇzd´emu x pˇriˇrazuje jeho pravdˇepodobnost P (x). Tyto pravdˇepodobnosti P (x) splˇ nuj´ı P podm´ınku x P (x) = 1. Pomoc´ı pravdˇepodobnostn´ı funkce P (x) m˚ uˇzeme stanovit s pouˇzit´ım pravidla o sˇc´ıt´an´ı pravdˇepodobnost´ı pro nesluˇciteln´e jevy pravdˇepodobnost, ˇze n´ahodn´a veliˇcina nabude hodnoty z intervalu hx1 , x2 i. Tato pravdˇepodobnost je rovna souˇctu pravdˇepodobnost´ı hodnot z tohoto intervalu P (x1 ≤ X ≤ x2 ) =
x2 X
P (x).
(4.3)
x=x1
Specifikace diskr´etn´ıho rozdˇelen´ı n´ahodn´e veliˇciny X pomoc´ı pravdˇepodobnost´ı P (x) a pomoc´ı distribuˇcn´ı funkce je rovnocenn´a. Ze zn´am´ ych pravdˇepodobnost´ı P (x) je moˇzno odvodit distribuˇcn´ı funkci F (x) a naopak, jak vypl´ yv´a z definice 4.2. Pravdˇepodobnostn´ı funkci odpov´ıdaj´ı v popisn´e statistice relativn´ı ˇcetnosti. Pˇ r´ıklad 4.1 Diskr´etn´ı n´ahodn´ a veliˇcina, distribuˇcn´ı funkce ´ ıme-li tˇrikrat ´ po sobˇe minc´ı, dostaneme osm stejnˇe moˇzn´ych vysledk ´ ˚ jak ukazuje nasleduj´ ´ Haz´ u ıc´ı tabulka 4.1 Tabulka 4.1 Moˇzn´e v´ysledky pˇri tˇrech hodech minc´ı Pokus Moˇzn´e v´ysledky ω
LLL
LLR
´ ´ jednou minc´ı Hazen´ ı 3krat LRL RLL LRR RRL RLR
RRR
´ a´ celkovy´ poˇcet l´ıcu˚ pˇri tˇrech hodech jednou minc´ı. Pak X je nahodn ´ Necht’ X udav a´ veliˇcina, ˚ ze nabyvat ´ ktera´ muˇ hodnot 0, 1, 2 a 3. ´ rete pomoc´ı nahodn´ ´ ´ e dva l´ıce. Urˇcete P (X = 2), tj. a ) Vyjadˇ e veliˇciny jev, zˇe padly pravˇ ´ e dva l´ıce. pravdˇepodobnost, zˇe padnou pravˇ ´ b ) Najdˇete rozdˇelen´ı nahodn´ e veliˇciny X. ´ rete pomoc´ı nahodn´ ´ ´ se dva l´ıce. Vypoˇc´ıtejte P (X ≤ 2), tj. c ) Vyjadˇ e veliˇciny jev, zˇe padnou nejvyˇ pravdˇepodobnost, zˇe padnou nejv´ysˇ e dva l´ıce. ´ d ) Urˇcete distribuˇcn´ı funkci nahodn´ e veliˇciny X.
46
´ ´ VELI Cˇ INA A JEJ´I ROZD Eˇ LEN´I 4.1 N AHODN A ´ rete pomoc´ı nahodn´ ´ ˚ kter´e padnou, je nejvy´ sˇ e roven tˇrem e ) Vyjadˇ e veliˇciny jev, zˇe poˇcet l´ıcu, a vˇetˇs´ı neˇz jedna. Vypoˇc´ıtejte P (1 < X ≤ 3). ˇ sen´ı: Reˇ ´ e dva l´ıce lze vyjadˇ ´ rit [X = 2]. P (X = 2) je pravdˇepodobnost, zˇe padnou a ) Jev, zˇe padnou pravˇ ´ e dva l´ıce. Z tabulky 4.1 vid´ıme, zˇe jsou tˇri zpusoby ˚ pravˇ jak dostat celkovˇe dva l´ıce a zˇe je ´ ˚ Tud´ızˇ podle klasick´eho pravidla vy´ poˇctu pravdˇepodobnost´ı celkem osm moˇzn´ych vysledk u. dostaneme 3 P (X = 2) = = 0.375. 8 ´ ´ ˚ b ) Zb´yvaj´ıc´ı pravdˇepodobnosti pro X jsou vypoˇc´ıtany stejnym zpusobem a jsou uvedeny ´ v nasleduj´ ıc´ı tabulce 4.2. Tabulka 4.2 Rozdˇelen´ı veliˇciny X ud´ avaj´ıc´ı poˇcet l´ıc˚ u pˇri tˇrech hodech minc´ı. Poˇcet l´ıcu˚ x Pravdˇepodobnost P (X = x)
0 0.125
1 0.375
2 0.375
3 0.125
´ se dva l´ıce lze vyjadˇ ´ rit jako c ) Jev [X ≤ 2], zˇe padnou nejvyˇ [X ≤ 2] = ([X = 0] ∪ [X = 1] ∪ [X = 2]). ´ Protoˇze tˇri jevy na prav´e stranˇe rovnice jsou vzajemnˇ e nesluˇciteln´e, dostaneme aplikac´ı ´ ı pravdˇepodobnost´ı a z tabulky 4.2 pravidla pro sˇc´ıtan´ P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.125 + 0.375 + 0.375 = 0.875 Tud´ızˇ pravdˇepodobnost, zˇe padnou nejv´ysˇ e dva l´ıce je rovna 0.875. d ) Distribuˇcn´ı funkci F (x) vypoˇcteme podle vzorce F (x) =
x X
P (X = n) pro x = 0, 1, 2, 3.
n=0
´ Hodnoty F (x) jsou uvedeny v tabulce 4.3. a jej´ı graf na obrazku 4.1 Tabulka 4.3 Distribuˇcn´ı funkce rozdˇelen´ı poˇctu l´ıc˚ u pˇri 3 hodech minc´ı Poˇcet l´ıcu˚ x Distribuˇcn´ı funfce F (x)
0 0.125
1 0.500
2 0.875
3 1.000
Obr´ azek 4.1 Graf distribuˇcn´ı funkce 1.000 0.875
F (x)
Distribuˇcn´ı funkce ma´ schodovit´y tvar se skoky velikosti 0.375 v bodech x = 1 a x = 2 a se skoky velikosti 0.125 v bodech x = 0 a x = 3.
0.500 0.125
0
1
2
3
x
47
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
˚ ze byt ´ vyjadˇ ´ ren jako e ) Jev, zˇe padnou nejv´ysˇ e tˇri l´ıce a v´ıce neˇz 1 l´ıc muˇ [1 < X ≤ 3] = ([X ≤ 3] ∩ [X > 1]) = ([X ≤ 3] − [X ≤ 1]). Protoˇze, plat´ı [X ≤ 1] ⊂ [X ≤ 3] pouˇzijeme vlastnost 2. pravdˇepodobnosti (viz kapitola 3) k v´ypoˇctu P (1 < X ≤ 3): P (1 < X ≤ 3) = P (X ≤ 3) − P (X ≤ 1) = 1.000 − 0.500 = 0.500. ´ se tˇri l´ıce a v´ıce neˇz jeden l´ıc je rovna 0.5. Tud´ızˇ pravdˇepodopbnost, zˇe padnou nejvyˇ
Absolutnˇ e spojit´ a distribuˇ cn´ı funkce Zvl´aˇstn´ı pozornost zasluhuj´ı distribuˇcn´ı funkce, kter´e jsou nejen spojit´e, ale dokonce absolutnˇe spojit´e. Distribuˇcn´ı funkce F se naz´ yv´a absolutnˇ e spojit´ a, jestliˇze existuje nez´aporn´a funkce f (x) takov´a, ˇze plat´ı F (x) =
Z x −∞
f (u) du
pro kaˇzd´e x ∈ R.
(4.4)
Funkce f (x) se naz´ yv´a hustota rozdˇ elen´ı pravdˇ epodobnost´ı, definovan´eho distribuˇcn´ı funkc´ı F (x), struˇcnˇe hustota pravdˇepodobnosti nebo jen hustota. M´a-li n´ahodn´a veliˇcina X absolutnˇe spojitou distribuˇcn´ı funkci, ˇr´ık´ame, ˇze m´a spojit´ e rozdˇ elen´ı pravdˇ epodobnost´ı, zkr´acenˇe spojit´ e rozdˇ elen´ı. Hustota f (x) splˇ nuje rovnost Z ∞
−∞
f (x) dx = 1.
(4.5)
Existuje-li derivace F 0 distribuˇcn´ı funkce v bodˇe x, je F 0 (x) = f (x). Tato hustota pravdˇepodobnosti je definov´ana jako F (x + ∆x) − F (x) P (x < X ≤ x + ∆x) = lim , ∆x→0 ∆x→0 ∆x ∆x
f (x) = lim
tj. jako limita pravdˇepodobnosti, ˇze veliˇcina X padne do velmi mal´eho intervalu (x, x + ∆x), vydˇelen´a d´elkou tohoto intervalu v pˇr´ıpadˇe, ˇze se tato d´elka ∆x bl´ıˇz´ı nule. Souˇcin ∆xf (x) pak pˇribliˇznˇe vyjadˇruje pravdˇepodobnost, ˇze n´ahodn´a veliˇcina X padne do velmi mal´eho intervalu (x, x + ∆x), a to t´ım pˇresnˇeji, ˇc´ım je ∆x menˇs´ı. Pro a, b ∈ R, a < b plat´ı P (a < X ≤ b) =
Z b a
f (x) dx = F (b) − F (a).
Pravdˇepodobnost je tedy plocha pod kˇrivkou hustoty. Odtud plyne, ˇze pro n´ahodnou veliˇcinu se spojit´ ym rozdˇelen´ım je P (X = a) = 0 pro libovoln´e a ∈ R. Pˇ r´ıklad 4.2 Distribuˇcn´ı funkce a hustota pravdˇepodobnosti spojit´eho rozdˇelen´ı ˇ ´ Funkce F (x) = 1 − e−λx pro x > 0 a F (x) = 0 pro x ≤ 0, kde λ > 0 je konstanta, splnuje zakladn´ ı ´ vlastnosti 1. – 3. distribuˇcn´ı funkce a je distribuˇcn´ı funkc´ı nˇejak´e nahodn´ e veliˇciny X se spojity´ m rozdˇelen´ım. Odpov´ıdaj´ıc´ı hustota je f (x) = λe−λx pro x > 0 a f (x) = 0 pro x ≤ 0. P (1 < X ≤ 2) = R2 λ 1 e−λx dx = 1 − e−2λ − 1 + e−λ = e−λ (1 − e−λ ).
48
´ ´ VELI Cˇ INA A JEJ´I ROZD Eˇ LEN´I 4.1 N AHODN A
4.1.2
V´ıcerozmˇ ern´ a rozdˇ elen´ı pravdˇ epodobnost´ı
ˇ Casto se neomezujeme pouze na jednu n´ahodnou veliˇcinu, ale zkoum´ame cel´ y syst´em n´ahodn´ ych veliˇcin, tak zvanou v´ıcerozmˇernou pˇresnˇeji n-rozmˇernou n´ahodnou veliˇcinu. V´ıcerozmˇ ernou n´ ahodnou veliˇ cinou X = (X1 , X2 , · · · , Xn ) budeme naz´ yvat n-rozmˇern´ y vektor, jehoˇz vˇsechny sloˇzky Xi jsou n´ahodn´e veliˇciny. Pro v´ıcerozmˇernou n´ahodnou veliˇcinu se tak´e pouˇz´ıv´a n´azev n´ ahodn´ y vektor. Nad´ale budeme podle potˇreby pouˇz´ıvat obou n´azv˚ u. Vˇsimneme si podrobnˇeji dvourozmˇern´e n´ahodn´e veliˇciny (X, Y ). Z´akon rozdˇelen´ı t´eto n´ahodn´e veliˇciny m˚ uˇze b´ yt d´an ve formˇe sdruˇ zen´ e (simult´ ann´ı) distribuˇ cn´ı funkce F (x, y), kter´a je definovan´a jako pravdˇepodobnost, ˇze n´ahodn´a veliˇcina X, nabude hodnoty menˇs´ı neˇz x a souˇcasnˇe n´ahodn´a veliˇcina Y nabude hodnoty menˇs´ı neˇz y. Definice 4.3
ˇ A´ DISTRIBU CN ˇ ´I FUNKCE S DRU ZEN
´ ´ N AHODN EHO VEKTORU
(X, Y )
Sdruˇzena´ distribuˇcn´ı funkce n´ ahodn´eho vektoru (X, Y ) je funkce definovan´a vztahem
F (x, y) = P (X ≤ x, Y ≤ y) pro kaˇzd´e x ∈ R, y ∈ R. Z´ akladn´ı vlastnosti distribuˇ cn´ı funkce F (x, y) 1. F (x, y) je neklesaj´ıc´ı v kaˇzd´e sv´e promˇenn´e. 2. limx,y→∞ F (x, y) = 1. 3. limx→−∞ F (x, y) = 0, limy→−∞ F (x, y) = 0. 4. F (x, y) je zprava spojit´a v kaˇzd´e promˇenn´e. Kromˇe tˇechto trivi´aln´ıch vlastnost´ı m´a kaˇzd´a dvourozmˇern´a distribuˇcn´ı funkce jednu dalˇs´ı charakterizuj´ıc´ı vlastnost, kterou je moˇzn´e vyj´adˇrit ve tvaru P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = F (x1 , y1 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x2 , y2 ) pro kaˇzd´e x1 < x2 , y1 < y2 . Sdruˇzen´a distribuˇcn´ı funkce F (x, y) se naz´ yv´a diskr´ etn´ı, jestliˇze F (x, y) =
X X
P (X = xi , Y = yj ),
(4.6)
xi ≤x yj ≤y
kde {xi } respektive {yj } jsou koneˇcn´e nebo spoˇcetn´e posloupnosti vˇsech hodnot, kter´ ych nab´ yv´a X respektive Y . Pravdˇepodobnosti P (X = xi , Y = yj ) se naz´ yvaj´ı sdruˇ zen´ e pravdˇ epodobnosti a plat´ı XX P (X = xi , Y = yj ) = 1. xi
yj
N´ahodn´ y vektor (X, Y ) s diskr´etn´ı distribuˇcn´ı funkc´ı m´a diskr´ etn´ı sdruˇ zen´ e rozdˇ elen´ı (diskr´etn´ı rozdˇelen´ı). Souˇcty sdruˇzen´ ych pravdˇepodobnost´ı PX (xi ) =
X
P (X = xi , Y = yj ) resp. PY (yj ) =
yj
X xi
49
P (X = xi , Y = yj )
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
se naz´ yvaj´ı margin´ aln´ı pravdˇ epodobnosti n´ahodn´e veliˇciny X respektive Y a vyjadˇruj´ı pravdˇepodobnosti r˚ uzn´ ych hodnot jedn´e z veliˇcin bez ohledu na hodnotu veliˇciny druh´e. Z´akon rozdˇelen´ı, kter´ y popisuj´ı, se naz´ yv´a margin´ aln´ı z´ akon rozdˇ elen´ı. Omez´ıme-li se na dvˇe diskr´etn´ı n´ahodn´e veliˇciny X a Y , m˚ uˇzeme pravdˇepodobnosti souˇcasn´eho v´ yskytu r˚ uzn´ ych kombinac´ı dvojic hodnot (xi , yj ), i = 1, 2, · · · , r, j = 1, 2, · · · , s obou veliˇcin uspoˇr´adat do dvourozmˇern´e kombinaˇ cn´ı tabulky 4.4. Tabulka 4.4 Kombinaˇcn´ı tabulka X \Y x1 · xi · xr PY (yj )
y1 ··· P (x1 , y1 ) · · ·
yj ··· P (x1 , yj ) · · ·
ys PX (xi ) P (x1 , ys ) PX (x1 )
P (xi , y1 ) · · ·
P (xi , yj ) · · ·
P (xi , ys )
P (xr , y1 ) · · · PY (y1 ) ···
P (xr , yj ) · · · PY (yj ) ···
P (xr , ys ) PX (xr ) PY (ys ) 1
PX (xi )
Distribuˇcn´ı funkce F (x, y) se naz´ yv´a absolutnˇ e spojit´ a, jestliˇze existuje nez´aporn´a funkce f (x, y) naz´ yvan´a sdruˇ zen´ a hustota pravdˇ epodobnosti takov´a, ˇze F (x, y) =
Z x Z y −∞
−∞
f (u, v) dudv.
(4.7)
Hustota sdruˇzen´eho rozdˇelen´ı m´a tyto z´akladn´ı vlastnosti: 1. 2.
Z ∞ Z ∞ −∞
−∞
f (x, y) dx dy = 1.
∂ 2 F (x, y) = f (x, y) pokud derivace funkce F existuje. ∂x∂y
3. P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) =
Z x2 Z y2 x1
y1
f (x, y) dx dy
pro x1 < x2 , y1 < y2 .
N´ahodn´ y vektor (X, Y ) s absolutnˇe spojitou distribuˇcn´ı funkc´ı m´a spojit´ e sdruˇ zen´ e rozdˇ elen´ı. Z distribuˇcn´ı funkce F (x, y) m˚ uˇzeme odvodit margin´ aln´ı distribuˇ cn´ı funkce n´ahodn´e veliˇciny X respektive Y FX (x) = P (X ≤ x) = lim F (x, y), resp. FY (y) = P (Y ≤ y) = lim F (x, y). y→∞
x→∞
(4.8)
Podobnˇe z hustoty pravdˇepodobnosti f (x, y) m˚ uˇzeme odvodit margin´ aln´ı hustoty rozdˇ elen´ı pravdˇ epodobnost´ı n´ahodn´e veliˇciny X respektive Y fX (x) =
4.1.3
Z ∞ −∞
f (x, y) dy, resp. fY (y) =
Z ∞ −∞
f (x, y) dx.
(4.9)
Nez´ avislost n´ ahodn´ ych veliˇ cin
Budeme ˇr´ıkat, ˇze n´ahodn´e veliˇciny X a Y jsou nez´ avisl´ e, jestliˇze pro vˇsechna x,y ∈ R plat´ı P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y), 50
´ ´ ˇ IN 4.2 C HARAKTERISTIKY N AHODN YCH VELI C
tj. jestliˇze se dvourozmˇern´a distribuˇcn´ı funkce n´ahodn´ ych veliˇcin X a Y rovn´a souˇcinu distribuˇcn´ıch funkc´ı n´ahodn´e veliˇciny X a n´ahodn´e veliˇciny Y. Pro diskr´etn´ı rozdˇelen´ı to znamen´a tot´eˇz jako P (X = xi , Y = yj ) = PX (xi )PY (yj ),
i = 1, 2, · · · , r,
j = 1, 2, · · · , s
a pro rozdˇelen´ı s hustotou f (x, y) f (x, y) = fX (x)fY (y) pro vˇsechna x, y ∈ R. Nez´avislost v´ıce n´ahodn´ ych veliˇcin je moˇzno definovat obdobnˇe. N´ahodn´e veliˇciny X1 , X2 , · · · , Xn jsou nez´ avisl´ e, jestliˇze pro kaˇzdou n-tici x1 , x2 , · · · , xn re´aln´ ych ˇc´ısel plat´ı P (X1 ≤ x1 , · · · , Xn ≤ xn ) =
n Y
P (Xi ≤ xi ).
i=1
Pro nez´avisl´e n´ahodn´e veliˇciny plat´ı: 1. Jestliˇze X1 , X2 , · · · , Xn jsou nez´avisl´e n´ahodn´e veliˇciny, a hk (x), k = 1, 2, · · · , n funkce re´aln´e promˇenn´e, pak n´ahodn´e veliˇciny Yk = hk (X), k = 1, 2, · · · , n jsou tak´e nez´avisl´e. 2. Jestliˇze n´ahodn´e veliˇciny X1 , X2 , · · · , Xn jsou nez´avisl´e, a kaˇzd´a z nich m´a hustotu, pak plat´ı f (x1 , · · · , xn ) =
n Y
fi (xi ),
(4.10)
i=1
kde fi (xi ) je hustota n´ahodn´e veliˇciny Xi , i = 1, 2, · · · , n a f (x1 , · · · , xn ) je hustota nrozmˇern´e n´ahodn´e veliˇciny (X1 , X2 , · · · , Xn ). Ze vztahu (4.10) plyne naopak nez´avislost n´ahodn´ ych veliˇcin X1 , X2 , · · · , Xn .
4.2
Charakteristiky n´ ahodn´ ych veliˇ cin
Distribuˇcn´ı funkce pod´av´a o n´ahodn´e veliˇcinˇe u ´plnou informaci. Zn´ame-li tuto funkci, v´ıme jak´ ych hodnot m˚ uˇze uvaˇzovan´a n´ahodn´a veliˇcina nab´ yvat a jak´e jsou pravdˇepodobnosti jednotliv´ ych hodnot. V praxi ˇcasto potˇrebujeme koncentrovanˇejˇs´ı a pˇrehlednˇejˇs´ı vyj´adˇren´ı t´eto informace. K tomu pouˇz´ıv´ame podobnˇe jako v popisn´e statistice, ˇc´ıseln´e hodnoty, kter´e naz´ yv´ame charakteristiky n´ ahodn´ ych veliˇ cin. Nejˇcastˇeji pouˇz´ıvan´ ymi charakteristikami jsou stˇredn´ı hodnota, kter´a popisuje polohu (´ uroveˇ n) n´ahodn´e veliˇciny, a rozptyl kter´ y popisuje variabilitu (rozpt´ ylenost) n´ahodn´e veliˇciny. Struˇcnˇe se zm´ın´ıme i o dalˇs´ıch charakteristik´ach.
4.2.1
Stˇ redn´ı hodnota
Necht’ X je n´ahodn´a veliˇcina s distribuˇcn´ı funkc´ı F (x). Pak m´ame n´asleduj´ıc´ı definice stˇredn´ı hodnoty n´ahodn´e veliˇciny X s diskr´etn´ım respektive spojit´ ym rozdˇelen´ım. Budeme ji znaˇcit E(X). 51
K APITOLA 4
Definice 4.4
´ ´ VELI Cˇ INA N AHODN A
ˇ ´I HODNOTA N AHODN ´ ´ VELI CINY ˇ S T REDN E
Stˇredn´ı hodnota nahodn e´ veliˇciny X s diskretn´ ym pravdˇepodobnostn´ı ´ ´ ım rozdˇelen´ım dan´
funkc´ı P (x) je definov´ana vztahem E(X) =
X
xP (x).
x
Stˇredn´ı hodnota nahodn e´ veliˇciny se spojitym ana ´ ´ rozdˇelen´ım s hustotou f (x) je definov´
vztahem
Z ∞
E(X) =
−∞
xf (x) dx.
V diskr´etn´ım pˇr´ıpadˇe jde v podstatˇe o jak´ ysi v´aˇzen´ y pr˚ umˇer moˇzn´ ych hodnot veliˇciny X s vahami odpov´ıdaj´ıc´ımi jednotliv´ ym pravdˇepodobnostem. Ve spojit´em pˇr´ıpadˇe je stˇredn´ı hodnota n´ahodn´e veliˇciny X definov´ana obdobnˇe (souˇcet je nahrazen integr´alem). Pozn´ amka: V dalˇs´ım textu budeme oznaˇcovat stˇredn´ı hodnotu n´ahodn´e veliˇciny X tak´e symbolem µx . Stˇredn´ı hodnota se nˇekdy naz´ yv´a prvn´ı obecn´ y moment. Obecnˇe, k-t´ y obecn´ y moment E(X k ) n´ahodn´e veliˇciny X je definov´an jako X xk P (x) x
E(X k ) = Z
∞
−∞
pro diskr´etn´ı rozdˇelen´ı
xk f (x) dx pro spojit´e rozdˇelen´ı.
Pro pr´aci se stˇredn´ımi hodnotami jsou d˚ uleˇzit´e nˇekter´e jej´ı matematick´e vlastnosti, kter´e uvedeme. Z´ akladn´ı vlastnosti stˇ redn´ı hodnoty 1. Stˇredn´ı hodnota konstanty je rovna konstantˇe: E(c) = c. 2. Stˇredn´ı hodnota souˇcinu konstanty a n´ahodn´e veliˇciny je rovna souˇcinu t´eto konstanty a stˇredn´ı hodnoty dan´e veliˇciny, E(cX) = cE(X). 3. Stˇredn´ı hodnota souˇctu n n´ahodn´ ych veliˇcin je rovna souˇctu jejich stˇredn´ıch hodnot: n X
E(
Xi ) =
i=1
n X
E(Xi ).
i=1
Pojem stˇredn´ı hodnoty zobecn´ıme na nˇejakou funkci h(X) n´ahodn´e veliˇciny X E(h(X)) =
X
h(xj )P (xj ),
resp.
j
52
E(h(X)) =
Z ∞ −∞
h(x)f (x) dx.
´ ´ ˇ IN 4.2 C HARAKTERISTIKY N AHODN YCH VELI C
4.2.2
Rozptyl
Rozptyl je m´ırou variability n´ahodn´e veliˇciny. Definice 4.5
´ ´ VELI CINY ˇ ROZPTYL N AHODN E
Rozptyl nahodn e´ veliˇciny s diskretn´ epodobnostn´ı funkc´ı P (x) je ´ ´ ım rozdˇelen´ım s pravdˇ
definov´an vztahem D(X) =
X
(x − E(X))2 P (x).
x
Rozptyl nahodn e´ veliˇciny se spojitym an vztahem ´ ´ rozdˇelen´ım s hustotou f (x) je definov´
D(X) =
Z ∞ −∞
(x − E(X))2 f (x) dx.
Rozptyl se tak´e naz´ yv´a druh´ y centr´aln´ı moment. Obecnˇe, k-t´ y centr´ aln´ı moment E(X − µx )k n´ahodn´e veliˇciny X je definov´an jako X (x − µx )k P (x) x
E((X − µx )k ) = Z
∞
−∞
pro diskr´etn´ı rozdˇelen´ı
(x − µx )k f (x) dx pro spojit´e rozdˇelen´ı.
Rozptyl lze poˇc´ıtat podle vzorce D(X) = E(X − E(X))2 = E(X 2 − 2XE(X) + (E(X))2 ) = E(X 2 ) − [E(X)]2 .
(4.11)
Pozn´ amka: V dalˇs´ım textu budeme oznaˇcovat rozptyl n´ahodn´e veliˇciny X tak´e symbolem σx2 . Mˇern´e jednotky, ve kter´ ych je vyj´adˇren rozptyl D(X) jsou ˇctverce jednotek n´ahodn´e veliˇciny X. V p˚ uvodn´ıch jednotk´ach mˇeˇr´ı variabilitu odmocnina rozptylu, kterou naz´ yv´ame q smˇ erodatnou odchylkou a znaˇc´ıme σx = D(X). Z´ akladn´ı vlastnosti rozptylu 1. Rozptyl konstanty je rovna nule, D(c) = 0. 2. Rozptyl souˇcinu konstanty a n´ahodn´e veliˇciny je roven souˇcinu ˇctverce t´eto konstanty a rozptylu dan´e veliˇciny, D(cX) = c2 D(X). avisl´ych n´ahodn´ ych veliˇcin je roven souˇctu rozptyl˚ u tˇechto 3. Rozptyl souˇctu nez´ n´ahodn´ ych veliˇcin, n X
D(
Xi ) =
i=1
4.2.3
n X
D(Xi ).
i=1
Kvantily
Vedle uveden´ ych charakteristik n´ahodn´e veliˇciny se pˇri popisu spojit´e n´ahodn´e veliˇciny velmi ˇcasto pouˇz´ıvaj´ı kvantily. S t´ımto pojmem jsme se jiˇz sezn´amili v popisn´e statistice v ˇca´sti 2.3.1. Nyn´ı tuto charakteristiku uvedeme do souvislosti se spojitou n´ahodnou veliˇcinou. 53
K APITOLA 4
Definice 4.6
´ ´ VELI Cˇ INA N AHODN A
K VANTIL
Necht’ X je n´ahodn´a veliˇcina s distribuˇcn´ı funkc´ı F (x) a hustotou pravdˇepodobnosti f (x). p-kvantilem nahodn e´ veliˇciny X nebo 100p procentn´ım kvantilem je ˇ c´ıslo Qp , pro kter´e ´ plat´ı Z P (X ≤ Qp ) = F (Qp ) =
Qp
−∞
f (x) dx = p, 0 < p < 1.
50% kvantil naz´ yv´ame medi´ an. Medi´an Q0.5 n´ahodn´e veliˇciny je jednoznaˇcnˇe urˇcen podm´ınkou F (Q0.5 ) = 12 . Pˇ r´ıklad 4.3 Stˇredn´ı hodnota a rozptyl diskr´etn´ıho rozdˇelen´ı ´ Urˇcete E(X) a D(X) nahodn´ e veliˇciny, ktera´ naby´ va´ hodnot z mnoˇziny {0, 1} s pravdˇepodobnostn´ı funkc´ı P (X = 1) = p, P (X = 0) = 1 − p, 0 < p < 1. ˇ sen´ı: E(X) = 1p + 0(1 − p) = p a D(X) = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p) Reˇ
Pˇ r´ıklad 4.4 Stˇredn´ı hodnota, rozptyl a medi´ an spojit´eho rozdˇelen´ı ´ ´ t´eto Uvaˇzujme nahodnou veliˇcinu z pˇr´ıkladu 4.2. Urˇcete stˇredn´ı hodnotu, rozptyl a median veliˇciny. ˇ sen´ı: K vypoˇ Reˇ Z ∞´ ctu pouˇzijeme gama funkci : Γ(a) = xa−1 e−x dx, a > 0, Γ(a + 1) = aΓ(a), Γ(1) = 1. 0Z Z ∞ 1 ∞ −u Γ(2) 1 E (X ) = λ xe−λx dx = ue du = = . λ λ λ 0 0 ´ Rozptyl vypoˇc´ıtame pomoc´ı vzorce (4.11), tud´ızˇ mus´ıme spoˇc´ıtat E (X 2 ). Z ∞ Z 1 ∞ 2 −u Γ(3) 2 2 2 −λx E (X ) = λ x e dx = 2 u e du = 2 = 2 . D(X ) = λ22 − ( λ1 )2 = λ12 . λ λ λ 0 0 ´ Q0.5 se nalezne rˇeˇsen´ım rovnice 1 − e−λQ0.5 = 0.5, z n´ızˇ dostaneme Q0.5 = λ1 ln 2. Median
4.2.4
Kovariance a korelace
Kovariance a korelaˇcn´ı koeficient (koeficient korelace) patˇr´ı mezi nejˇcastˇeji pouˇz´ıvan´e charakteristiky sdruˇzen´eho rozdˇelen´ı dvou n´ahodn´ ych veliˇcin. Kovariance je stˇredn´ı hodnota souˇcinu odchylek obou n´ahodn´ ych veliˇcin X a Y od jejich stˇredn´ıch hodnot. Definice 4.7
KOVARIANCE
Kovariance σxy dvou n´ ahodn´ ych veliˇcin X a Y se stˇredn´ımi hodnotami µx a µy je defi-
nov´ana vztahem σxy = E(X − µx )(Y − µy ). K v´ ypoˇctu kovariance veliˇcin X a Y lze pouˇz´ıt stˇredn´ı hodnotu E(XY ) naz´ yvanou sm´ıˇ sen´ y obecn´ y moment a definovou vztahem : X xyP (X = x, Y = y) x,y
E(XY ) = Z
∞
Z ∞
−∞
−∞
pro diskr´etn´ı rozdˇelen´ı
xyf (x, y) dxdy pro spojit´a rozdˇelen´ı. 54
(4.12)
´ ´ ˇ IN 4.2 C HARAKTERISTIKY N AHODN YCH VELI C
Z definice 4.7 a z (4.12) plyne, ˇze σxy = E(XY ) − µx µy .
(4.13)
Z definice nez´avisl´ ych n´ahodn´ ych veliˇcin a ze vztahu (4.12) plyne, ˇze pro nez´avisl´e n´ahodn´e veliˇciny plat´ı E(XY ) = E(X)E(Y ). Kovariance dvou nez´avisl´ ych n´ahodn´ ych veliˇcin je tud´ıˇz rovna nule. Pomoc´ı kovariance m˚ uˇzeme v´ yj´adˇrit rozptyl souˇctu dvou n´ahodn´ ych veliˇcin X a Y . Je roven souˇctu rozptyl˚ u obou n´ahodn´ ych veliˇcin a dvojn´asobku kovariance obou veliˇcin. D(X + Y ) = E(X + Y − µx − µy )2 = E(X − µx )2 + E(Y − µy )2 + 2E(X − µx )(Y − µy ) = D(X) + D(Y ) + 2σxy . (4.14) Korelaˇcn´ı koeficient d´av´a urˇcitou informaci o stupni z´avislosti dvou n´ahodn´ ych veliˇcin. Je definov´an jako pomˇer kovariance k souˇcinu smˇerodatn´ ych odchylek obou n´ahodn´ ych veliˇcin. Definice 4.8
ˇ ´I KOEFICIENT KORELA CN
Korelaˇcn´ı koeficient ρxy dvou n´ ahodn´ ych veliˇcin X a Y s rozptyly σx2 > 0 a σy2 > 0 je
definov´an vztahem
ρxy =
σxy . σx σy
Je-li σx2 = 0 nebo σy2 = 0 pokl´ad´ame ρxy = 0. Pro korelaˇcn´ı koeficient plat´ı: 1. Hodnota korelaˇcn´ıho koeficientu je ˇc´ıslo z intervalu h−1, 1i, tj. −1 ≤ ρxy ≤ 1. 2. Jsou-li X a Y nez´avisl´e, je ρxy = 0. Pozn´ amka: Opaˇcn´e tvrzen´ı neplat´ı. Ze vztahu ρxy = 0 obecnˇe nevypl´ yv´a, ˇze veliˇciny X a Y jsou nez´avisl´e. Je-li ρxy = 0, ˇr´ık´ame, ˇze n´ahodn´e veliˇciny X a Y jsou nekorelovan´ e. 3. |ρxy | = 1 pr´avˇe tehdy, kdyˇz s pravdˇepodobnost´ı 1 plat´ı Y = a + bX, kde a, b, b 6= 0 jsou re´aln´e konstanty. Pˇritom je ρxy = 1 nebo −1 podle toho, je-li b > 0 nebo b < 0. S interpretac´ı a v´ ypoˇctem korelaˇcn´ıho koeficientu se podrobnˇeji sezn´am´ıme v kapitole o regresi a korelaci.
4.2.5
Vektor stˇ redn´ıch hodnot, kovarianˇ cn´ı matice
Z charakteristik n-rozmˇern´eho n´ahodn´eho vektoru X = (X1 , X2 , · · · , Xn ) jsou nejd˚ uleˇzitˇejˇs´ı stˇredn´ı hodnoty jednotliv´ ych veliˇcin Xi µi = E(Xi ), i = 1, 2, · · · , n, d´ale jejich rozptyly σi2 = D(Xi ), i = 1, 2, · · · , n a koneˇcnˇe kovariance dvojic veliˇcin σij = E(Xi − µi )(Xj − µj ), i = 1, 2, · · · , n; i 6= j. 55
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
Stˇredn´ı hodnoty zapisujeme ˇcasto ve formˇe vektoru stˇ redn´ıch hodnot µ = (µ1 , µ2 , · · · , µn )T a kovariance spolu s rozptyly ve formˇe kovarianˇ cn´ı matice
σ12 . . . σ1n . . . . .. Σ= . .. . 2 σn1 . . . σn Kovarianˇcn´ı matice je symetrick´a a positivnˇe definitn´ı.
4.3
Nˇ ekter´ a rozdˇ elen´ı pravdˇ epodobnost´ı
Rozdˇelen´ı jednorozmˇern´ ych i v´ıcerozmˇern´ ych n´ahodn´ ych veliˇcin se pouˇz´ıvaj´ı jako pravdˇepodobnostn´ı modely pˇri popisu konkr´etn´ıch praktick´ ych probl´em˚ u. V t´eto ˇca´sti se sezn´am´ıme s nejˇcastˇeji pouˇz´ıvan´ ymi pravdˇepodobnostn´ımi rozdˇelen´ımi.
4.3.1
Diskr´ etn´ı rozdˇ elen´ı
Alternativn´ı rozdˇ elen´ı A(p) Rozdˇelen´ı pravdˇepodobnost´ı na Ω = {0, 1} s pravdˇepodobnostn´ı funkc´ı P (x) = px (1 − p)1−x ,
(4.15)
kde p ∈ (0, 1) se naz´yv´ a alternativn´ı rozdˇelen´ı s parametrem p. Stˇredn´ı hodnota tohoto rozdˇelen´ı je E(X) = p a rozptyl D(X) = p(1 − p). Interpretace: Uvaˇzujme n´ahodn´ y pokus. Nastane-li sledovan´ y n´ahodn´ y jev A, nabude n´ahodn´a veliˇcina X hodnoty x = 1, nenastane-li tento jev A, nabude n´ahodn´a veliˇcina X hodnoty x = 0. N´ahodn´a veliˇcina X tedy vyjadˇruje, kolikr´at jev A v pokusu nastane. Binomick´ e rozdˇ elen´ı B(n, p) Rozdˇelen´ı pravdˇepodobnost´ı na Ω = {0, 1, ..., n} s pravdˇepodobnostn´ı funkc´ı Ã
P (x) =
n x
!
px (1 − p)n−x
(4.16)
pro p ∈ (0, 1) a n ∈ N+ se naz´yv´ a binomick´e rozdˇelen´ı s parametry n a p. Stˇredn´ı hodnota je E(X) = np a rozptyl D(X) = np(1 − p). Binomick´e rozdˇelen´ı je obecnˇe nesymetrick´e. S r˚ ustem n (n → ∞) nebo pˇribliˇzov´an´ım p k hodnotˇe 0.5 se st´av´a postupnˇe symetriˇctˇejˇs´ım. Pro p = 0.5 je symetrick´e. Pro n = 1 dostaneme A(p)-rozdˇelen´ı. Interpretace: Pˇredpokl´adejme, ˇze prov´ad´ıme n nez´avisl´ ych pokus˚ u, pˇri nichˇz m˚ uˇze nastat jev A s pravdˇepodobnost´ı p a nenastat s pravdˇepodobnost´ı q = 1 − p. Pravdˇepodobnost, ˇze se v takov´e s´erii pokus˚ u objev´ı jev A pr´avˇe x-kr´at, je d´ana v´ yrazem (4.16). 56
4.3 N Eˇ KTER A´ ROZD Eˇ LEN´I PRAVD Eˇ PODOBNOST´I
Pravdˇepodobnosti jednotliv´ ych hodnot n´ahodn´e veliˇciny s binomick´ ym rozdˇelen´ım jsou obecn´ ym ˇclenem binomick´eho rozvoje n
(p + q) =
n X
Ã
x=1
n x
!
px (1 − p)n−x .
Hypergeometrick´ e rozdˇ elen´ı Hg(N, M, n) Rozdˇelen´ı pravdˇepodobnost´ı s Ω = {0, 1, ..., min{M, n}} a pravdˇepodobnostn´ı funkc´ı Ã
P (x) =
M x
!Ã Ã
N −M n−x
N n
!
!
, max(n − N + M, 0) ≤ x ≤ min(M, n)
(4.17)
se naz´yv´ a hypergeometrick´e rozdˇelen´ı s parametry N, M, ³n. ´³ ´ M M N −n , a rozptyl D(X) = n 1 − . Stˇredn´ı hodnota je E(X) = n M N N N N −1 Interpretace: Uvaˇzujme situaci, kdy v souboru N prvk˚ u je jich M (N ≥ M ) s urˇcitou vlastnost´ı a zbyl´ ych N − M tuto vlastnost nem´a. Postupnˇe vybereme ze souboru n prvk˚ u, z nichˇz ˇz´adn´ y nevrac´ıme zpˇet. Poˇcet prvk˚ u se sledovanou vlastnost´ı mezi n vybran´ ymi prvky je n´ahodn´a veliˇcina X maj´ıc´ı hypergeometrick´e rozdˇelen´ı. Jestliˇze N je velk´e a n a M se nemˇen´ı, bl´ıˇz´ı se hypergeometrick´e rozdˇelen´ı binomick´emu. To N znamen´a, ˇze m˚ uˇzeme pro velk´a N zanedbat rozd´ıl mezi v´ ybˇerem bez vracen´ı a s vracen´ım. Prakticky postupujeme tak, ˇze vypoˇc´ıt´ame pomˇer Nn a je-li tento pomˇer vˇetˇs´ı neˇz 0.05, lze hypergeometrick´e rozdˇelen´ı nahradit rozdˇelen´ım binomick´ ym s parametry n a M . N Aplikace: Hypergeometrick´e rozdˇelen´ı se vyskytuje napˇr´ıklad ve statistick´e kontrole jakosti v pˇr´ıpadech, kdy zkoum´ame jakost mal´eho poˇctu v´ yrobk˚ u nebo kdyˇz kontrola m´a charakter destrukˇcn´ı zkouˇsky, tj. v´ yrobek je pˇri zkouˇsce zniˇcen. D´ale jako pravdˇepodobnostn´ı model nˇekter´ ych her jako Sportky. Geometrick´ e rozdˇ elen´ı G(p) Rozdˇelen´ı pravdˇepodobnost´ı na N+ s pravdˇepodobnostn´ı funkc´ı P (x) = p(1 − p)x−1 = pq x−1
(4.18)
pro p ∈ (0, 1) se naz´yv´ a geometrick´e rozdˇelen´ı s parametrem p. Stˇredn´ı hodnotu vypoˇc´ıt´ame: E(X) =
∞ X x=1
xpq
x−1
=p
∞ X x=1
xq
x−1
=p
∞ X dq x x=1
∞ d X p p 1 d 1 =p = = 2 = . qx = p 2 dq dq x=0 dq 1 − q (1 − q) p p
Rozptyl tohoto rozdˇelen´ı je D(X) = 1−p . Medi´an leˇz´ı mezi 0 a 1 pro p < 0.5 a je roven nule p pro p ≥ 0.5. Interpretace: Prov´adˇejme pokus se dvˇema moˇzn´ ymi v´ ysledky, kter´e nazveme u ´spˇech“ ” a ne´ uspˇech“. Pravdˇepodobnost u ´spˇechu necht’ je p. Poˇcet nez´avisl´ ych opakov´an´ı pokus˚ u ” do prvn´ıho u ´spˇechu je n´ahodn´a veliˇcina, kter´a m´a geometrick´e rozdˇelen´ı. P (x) ud´av´a pravdˇepodobnost, ˇze prvn´ıch (x − 1) pokus˚ u bude ne´ uspˇeˇsn´ ych a ˇze k u ´spˇechu dojde teprve v x-t´em pokusu. 57
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
Pˇ r´ıklad 4.5 Geometrick´e rozdˇelen´ı ´ ´ ıme vybˇ ´ er s vracen´ım. Necht’ X znaˇc´ı nahodnou Mezi N v´yrobky je M vadn´ych. Provad´ ´ ´ veliˇcinu, zˇe prvn´ıch x v´yrobku˚ bude dobrych a v (x + 1)-n´ım tahu jsme vytahli vadny´ ´ ´ vyrobek. Pak ma´ nahodn a´ veliˇcina X geometrick´e rozdˇelen´ı s parametrem p = M N.
Poissonovo rozdˇ elen´ı P(λ) Rozdˇelen´ı pravdˇepodobnost´ı na N s pravdˇepodobnostn´ı funkc´ı λx , x! kde λ > 0 je konstanta, se naz´yv´ a Poissonovo rozdˇelen´ı s parametrem λ. p(x) = e−λ
(4.19)
Stˇredn´ı hodnotu vypoˇc´ıt´ame n´asleduj´ıc´ım zp˚ usobem: E(X) =
∞ X x=0
−λ λ
xe
x
x!
= λe
−λ
Ã
∞ X
∞ λx−1 d X λx x = λe−λ dx x=1 x! x=1 (x − 1)!
!
= λe−λ
d λ e = λe−λ eλ = λ. dx
Podobnˇe odvod´ıme, ˇze E(X 2 ) = λ + λ2 a tud´ıˇz rozptyl D(X) = E(X) − (E(X))2 = λ. Jestliˇze je poˇcet pokus˚ u n dosti velk´ y (prakticky staˇc´ı n > 30) a p → 0 (prakticky p ≤ 0.01), pak lze binomick´e rozdˇelen´ı aproximovat Poissonov´ ym rozdˇelen´ım s parametrem λ = np. Aplikace: Toto rozdˇelen´ı pravdˇepodobnost´ı se ˇcasto uˇz´ıv´a k modelov´an´ı ˇcetnost´ı s jakou urˇcit´a ud´alost nastane bˇehem urˇcit´eho ˇcasov´eho u ´seku. Na pˇr´ıklad poˇcet telefonn´ıch vol´an´ı v urˇcit´em ˇcasov´em intervalu, poˇcet z´akazn´ık˚ u obslouˇzen´ ych za jednotku ˇcasu u pokladny v obchodˇe, poˇcet poruch nˇejak´eho zaˇr´ızen´ı za ˇcasovou jednotku, poˇcet vad na v´ yrobku. Pˇ r´ıklad 4.6 Poissonovo rozdˇelen´ı ´ ´ ˚ doˇslych ´ ´ rednu v jedn´e mal´e Pˇredpokladejte, zˇe poˇcet telefonickych hovoru bˇehem 1 hodiny na ustˇ firmˇe, ma´ Poissonovo rozdˇelen´ı s parametrem λ = 5.2. Vypoˇc´ıtejte pravdˇepodobnost, zˇe bˇehem ´ rednu a ) pravˇ ´ e dva hovory; b ) nejvyˇ ´ se sˇ est a nejm´enˇe 3 hovory; jedn´e hodiny pˇrijdou na ustˇ ˇ jeden hovor. d ) Jak´y je prumˇ ˚ erny´ poˇcet hovoru ˚ za jednu hodinu? c ) aspon ˇ sen´ı: Reˇ 2 a ) Protoˇze λ = 5.2 je podle (4.19) P (X = 2) = e−5.2 (5.2) = 0.0746. 2! b ) P (4 < X ≤ 6) = P (X ≤ 6) − P (X ≤ 4) = 0.7323 − 0.4060 = 0.3263. c ) P (X ≥ 1) = 1 − P (X = 0) = 1 − e−5.2 = 0.994. ˚ erny´ poˇcet hovoru ˚ za jednu hodinu je roven stˇredn´ı hodnotˇe Poissonova rozdˇelen´ı s parad ) Prumˇ metrem λ = 5.2, tud´ızˇ je roven 5.2.
Diskr´ etn´ı rovnomˇ ern´ e rozdˇ elen´ı DU(m) Rozdˇelen´ı pravdˇepodobnost´ı na Nm , kde m ∈ N+ , s pravdˇepodobnostn´ı funkc´ı 1 , m se naz´yv´ a diskr´etn´ı rovnomˇern´e rozdˇelen´ı nebo DU(m)-rozdˇelen´ı. Distribuˇcn´ı funkce 0 pro x < 1 x pro 1 ≤ x < m F (x) = m 1 pro x ≥ m. p(x) =
, rozptyl D(X) = Stˇredn´ı hodnota E(X) = m+1 2 a Q0.5 = [ m+1 ] pro m sud´ e . 2 58
m2 −1 , 12
(4.20)
medi´an Q0.5 = [ m2 ] + 1 pro m lich´e
4.3 N Eˇ KTER A´ ROZD Eˇ LEN´I PRAVD Eˇ PODOBNOST´I
4.3.2
Spojit´ a rozdˇ elen´ı
V dalˇs´ım v´ ykladu se zamˇeˇr´ıme na nˇekter´a spojit´a rozdˇelen´ı. Rovnomˇ ern´ e rozdˇ elen´ı U(a, b) Rovnomˇern´e rozdˇelen´ı na re´ aln´em intervalu (a, b) m´ a hustotu (
f (x) =
0 1 b−a
pro x < a a pro b < x pro a < x < b.
(4.21)
Pro pˇr´ısluˇsnou distribuˇcn´ı funkci plat´ı 0
F (x) =
pro x < a pro a ≤ x < b pro x ≥ b.
x−a b−a
1
(4.22)
Z´akladn´ı charakteristiky U(a, b)-rozdˇelen´ı jsou stˇredn´ı hodnota E(X) = 1 D(X) = 12 (b − a)2 a medi´an Q0.5 = b+a . 2
a+b , 2
rozptyl
Obr´ azek 4.2 Hustota a distribuˇcn´ı funkce U(a, b)-rozdˇelen´ı f (x)
F (x) 1
1 b−a
0
a
b
x
a
0
b (b) distribuˇcn´ı funkce
(a) hustota
x
Interpretace: Rovnomˇern´ ym rozdˇelen´ım se ˇr´ıd´ı takov´e n´ahodn´e veliˇciny, kter´e maj´ı stejnou moˇznost nab´ yt kter´ekoliv hodnoty z nˇejak´eho intervalu. Jsou to napˇr. chyby pˇri zaokrouhlov´an´ı ˇc´ısel, chyby pˇri odeˇc´ıt´an´ı u ´daj˚ u z line´arn´ıch stupnic mˇeˇr´ıc´ıch pˇr´ıstroj˚ u, doby ˇcek´an´ı na uskuteˇcnˇen´ı jevu opakuj´ıc´ıho se v pravideln´ ych ˇcasov´ ych intervalech. Pˇ r´ıklad 4.7 Rovnomˇern´e rozdˇelen´ı ´ m´ıstem vy´ robn´ı linky prochaz´ ´ ı kaˇzd´ych 5 minut polotovar. Pracovn´ık technick´e kontroly Urˇcitym ´ za den jeden polotovar, aby ho vyzkouˇsel. Pravdˇepodobnost pˇr´ıchodu praodeb´ıra´ nˇekolikrat ´ Jaka´ je pravdˇepodobnost, zˇe bude cˇ ekat na covn´ıka k lince je pro kaˇzd´y cˇ asovy´ okamˇzik stejna. polotovar nejvy´ sˇ e jednu minutu? ˇ sen´ı: Poˇzadovanou pravdˇepodobnost udav ´ a´ distribuˇcn´ı funkce (4.22), pˇriˇcemˇz a = 0, b = 5. Reˇ P (X ≤ 1) = F (1) = 15 .
Normovan´ e norm´ aln´ı rozdˇ elen´ı N (0, 1) Rozdˇelen´ı pravdˇepodobnost´ı na R s hustotou µ
¶
1 1 ϕ(z) = √ exp − z 2 , 2 2π 59
(4.23)
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
se naz´yv´ a normovan´e norm´aln´ı (Gaussovo) rozdˇelen´ı nebo N (0, 1)-rozdˇelen´ı. N´ahodn´a veliˇcina s N (0, 1)-rozdˇelen´ım se naz´ yv´a normovan´a norm´aln´ı n´ahodn´a veliˇcina. Hustota N (0, 1)-rozdˇelen´ı m´a tvar zvonovit´e kˇrivky a naz´ yv´a se normovan´a norm´aln´ı (Gaussova, gaussovsk´ a) kˇrivka. Z´ akladn´ı vlastnosti N (0, 1)-rozdˇ elen´ı 1. Plat´ı limz→±∞ ϕ(z) = 0. To znamen´a, ˇze pro z → ±∞ se normovan´a norm´aln´ı kˇrivka asymptoticky pˇribliˇzuje k nule. 2. Hustota ϕ(z) je sud´a funkce: ϕ(−z) = ϕ(z). Tud´ıˇz normovan´a norm´aln´ı kˇrivka je symetrick´a kolem 0. Hustota N (0, 1)-rozdˇelen´ı nab´ yv´a sv´eho maxima pro z = 0. 3. E(Z) = 0, D(Z) = 1, Q0.5 = 0. Stˇredn´ı hodnota tohoto rozdˇelen´ı charakterizuj´ıc´ı polohu rozdˇelen´ı je rovna nule, a rozptyl charakterizuj´ıc´ı rozpt´ ylen´ı hodnot kolem nuly je roven jedn´e. 4. P (−3 < Z ≤ 3) ≈ 0.997. To znamen´a, ˇze vˇetˇsina plochy pod normovanou norm´aln´ı kˇrivkou leˇz´ı mezi −3 a +3. Distribuˇcn´ı funkce N (0, 1)-rozdˇelen´ı se obvykle znaˇc´ı Φ Φ(z) =
Z z −∞
ϕ(u) du,
z∈R
(4.24)
a b´ yv´a tabelov´ana pouze pro hodnoty z > 0. Protoˇze vˇsak hustota ϕ je sud´a, plat´ı Φ(−z) = 1 − Φ(z).
(4.25)
Obr´ azek 4.3 Hustota a distribuˇcn´ı funkce N (0, 1)-rozdˇelen´ı f (x)
F (x) 1
√1 2π
1 2
x
0
-3
(a) hustota
-2
-1
0
1
2
3
x
(b) distribuˇcn´ı funkce
Z´aroveˇ n lze dok´azat, ˇze pro kvantily Qp normovan´eho norm´aln´ıho rozdˇelen´ı plat´ı: Qp = −Q1−p
(4.26)
Symbolem zα budeme znaˇcit hodnotu pro kterou plat´ı: α=
Z ∞ zα
ϕ(z) dz.
60
(4.27)
4.3 N Eˇ KTER A´ ROZD Eˇ LEN´I PRAVD Eˇ PODOBNOST´I
Norm´ aln´ı rozdˇ elen´ı N (µ, σ 2 ) Rozdˇelen´ı pravdˇepodobnost´ı na R se naz´yv´ a norm´aln´ı (Gaussovo) rozdˇelen´ı se stˇredn´ı hod2 2 notou µ a rozptylem σ nebo N (µ, σ )-rozdˇelen´ı, jestliˇze m´a hustotu Ã
!
1 (x − µ)2 √ f (x) = exp − , 2σ 2 2πσ
µ ∈ R, σ 2 ∈ R+ .
(4.28)
Norm´aln´ı rozdˇelen´ı m´a tvar zvonovit´e kˇrivky, kter´a nab´ yv´a maxima v bodˇe x = µ a pˇri n → ±∞ se pˇribliˇzuje k ose x. V´ ypoˇcet distribuˇcn´ı funkce tohoto rozdˇelen´ı je obt´ıˇzn´ y. Proto transformujeme n´ahodnou veliˇcinu X na normovanou norm´ aln´ı veliˇ cinu Z, kde Z=
X −µ . σ
(4.29)
Veliˇcina Z m´a pak N (0, 1)-rozdˇelen´ı. Distribuˇcn´ı funkci F (x) lze vyj´adˇrit pomoc´ı distribuˇcn´ı funkce N (0, 1)-rozdˇelen´ı µ ¶ x−µ F (x) = Φ . σ Obr´ azek 4.4 Hustota a distribuˇcn´ı funkce N (µ, σ 2 )-rozdˇelen´ı f (x)
F (x) 1
√ 1 2πσ 2
1 2
0
µ
x
0
(a) hustota
µ
x
(b) distribuˇcn´ı funkce
Empirick´ e pravidlo pro norm´ alnˇ e rozdˇ elen´ e n´ ahodn´ e veliˇ ciny Pro kaˇzdou norm´alnˇe rozdˇelenou n´ahodnou veliˇcinu X plat´ı: (a) P (µ − σ < X < µ + σ) = 0.6826, (b) P (µ − 2σ < X < µ + 2σ) = 0.9544, (c) P (µ − 3σ < X < µ + 3σ) = 0.9974. Tyto vlastnosti jsou graficky zn´azornˇeny na obr. 4.5. Obr´ azek 4.5 Empirick´a pravidla pro norm´alnˇe rozdˇelenou n´ ahodnou veliˇcinu 0.9544
0.6826 µ−σ
µ
µ+σ
µ − 2σ
µ
0.9974 µ + 2σ
µ − 3σ
µ
µ + 3σ
Aplikace: Norm´aln´ı rozdˇelen´ı m´a v teorii pravdˇepodobnosti mimoˇr´adn´ y v´ yznam. Slouˇz´ı jako pravdˇepodobnostn´ı model chov´an´ı velk´eho mnoˇzstv´ı n´ahodn´ ych jev˚ u v technice, pˇr´ırodn´ıch 61
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
vˇed´ach a v ekonomii. Mnoho n´ahodn´ ych veliˇcin vyskytuj´ıc´ıch se v praktick´ ych aplikac´ıch m´a alespoˇ n pˇribliˇznˇe norm´aln´ı rozdˇelen´ı. Norm´aln´ı rozdˇelen´ı b´ yv´a nˇekdy naz´ yv´ano z´akonem ” chyb“. Pˇri opakovan´em mˇeˇren´ı t´eˇze veliˇciny za stejn´ ych podm´ınek zp˚ usobuj´ı n´ahodn´e vlivy odchylky od skuteˇcn´e hodnoty mˇeˇren´e veliˇciny. Tyto n´ahodn´e chyby maj´ı ˇcasto norm´aln´ı rozdˇelen´ı. Velk´ y v´ yznam norm´aln´ıho rozdˇelen´ı spoˇc´ıv´a tak´e v tom, ˇze za urˇcit´ ych podm´ınek lze pomoc´ı nˇej aproximovat ˇradu diskr´etn´ıch i spojit´ ych rozdˇelen´ı. Pˇ r´ıklad 4.8 Norm´ aln´ı rozdˇelen´ı ´ ı testu na vysok´e sˇ kole ma´ normaln´ ´ ı rozdˇelen´ı se stˇredn´ı hodnotou Doba potˇrebna´ na vypracovan´ 110 minut a smˇerodatnou odchylkou 20 minut. ˚ dokonˇc´ı test do dvou hodin? b ) Jak dlouho by mˇel test trvat, aby ho a ) Kolik procent studentu ´ e 90% studentu? ˚ dokonˇcilo pravˇ ˇ sen´ı: Necht’ X znaˇc´ı dobu potˇrebnou na vypracovan´ ´ ı testu. Pak X ∼ N (110, 400). Reˇ ˚ a ) P (X ≤ 120) = F (120) = Φ( 120−110 ) = Φ( 10 20 20 ) = Φ(0.5) = 0.6915. Pouze 69.15% studentu ´ dokonˇc´ı test do dvou hodin. b ) P (X ≤ t) = F (t) = Φ( t−110 ) = 0.90. V tabulk ach najdeme, 20 zˇe pro z = 1.28 je P (X ≤ 1.28) = 0.90. Tud´ızˇ t−110 = 1.28 a z toho dostaneme t = 135.6. 20 ´ e 90% studentu˚ je 2hodiny a 15 minut. Doba potˇrebna´ k tomu, aby test dokonˇcilo pravˇ
Exponenci´ aln´ı rozdˇ elen´ı E(λ) Rozdˇelen´ı pravdˇepodobnost´ı na R+ se naz´yv´ a exponenci´ aln´ı rozdˇelen´ı s parametrem λ > 0 nebo E(λ)-rozdˇelen´ı, jestliˇze m´a hustotu (
f (x) =
λe−λx pro x > 0 0 pro x ≤ 0.
(4.30)
1 − e−λx pro x > 0 0 pro x ≤ 0.
(4.31)
Distribuˇcn´ı funkce je (
F (x) =
Stˇredn´ı hodnota tohoto rozdˇelen´ı E(X) = 1/λ, rozptyl D(X) = 1/λ2 a medi´an Q0.5 = ln 2/λ. Obr´ azek 4.6 Hustota a distribuˇcn´ı funkce E(λ)-rozdˇelen´ı f (x)
F (x) 1
λ
λe−λx
x
0
(a) hustota
0
x
(b) distribuˇcn´ı funkce
Aplikace: Toto rozdˇelen´ı m´a uplatnˇen´ı v teorii spolehlivosti a v teorii hromadn´e obsluhy, zejm´ena pˇri v´ ypoˇctu pravdˇepodobnosti ˇzivotnosti v´ yrobk˚ u a zaˇr´ızen´ı. Typick´ y pˇr´ıklad n´ahodn´e veliˇciny s E(λ)-rozdˇelen´ım je doba mezi v´ yskytem dvou po sobˇe n´asleduj´ıc´ıch n´ahodn´ ych jev˚ u. Ve fyzice je hodnota medi´anu Q0.5 = 1/λ ln 2 zn´am´a jako poloˇcas rozpadu radioaktivn´ıho prvku. 62
4.3 N Eˇ KTER A´ ROZD Eˇ LEN´I PRAVD Eˇ PODOBNOST´I
Pˇ r´ıklad 4.9 Exponenci´ aln´ı rozdˇelen´ı ˚ erna´ doba cˇ ekan´ ´ ı zakazn´ ´ Prumˇ ıka na obsluhu v urˇcit´e prodejnˇe je 50 sekund, pˇriˇcemˇz doba ´ ı se rˇ´ıd´ı exponencialn´ ´ ım rozdˇelen´ım. Jaka´ je pravdˇepodobnost, zˇe nahodn´ ´ ´ cˇ ekan´ y zakazn´ ık bude obslouˇzen za dobu ne delˇs´ı neˇz 30 sekund? ˇ sen´ı: Protoˇze λ = 1/50 = 0.02 je P (X ≤ 30) = 1 − e−(0.02).30 = 1 − e−0.6 ≈ 0.451. Reˇ
S norm´aln´ım rozdˇelen´ım jsou spjata nˇekter´a dalˇs´ı d˚ uleˇzit´a rozdˇelen´ı, kter´a budeme pouˇz´ıvat v dalˇs´ıch kapitol´ach. Jejich hustotu zde nebudeme uv´adˇet. ch´ı-kvadr´ at rozdˇ elen´ı χ2 (n) Jestliˇze Z1 , Z2 , · · · , Zn je posloupnost nez´avisl´ ych n´ahodn´ ych veliˇcin, z nichˇz kaˇzd´a m´a N (0, 1)-rozdˇelen´ı, pak souˇcet ˇctverc˚ u tˇechto veliˇcin, tj. veliˇcina χ2 =
n X
Zi2 ,
i=1
m´a ch´ı–kvadr´ at rozdˇ elen´ı s n stupni volnosti. Poˇctem stupˇ n˚ u volnosti se rozum´ı poˇcet nez´avisl´ ych sˇc´ıtanc˚ u. Je jedin´ ym parametrem rozdˇelen´ı. Stˇredn´ı hodnota tohoto rozdˇelen´ı je E(χ2 ) = n a rozptyl D(χ2 ) = 2n. Pro r˚ uzn´e poˇcty stupˇ n˚ u volnosti ν jsou tabelov´any hodnoty χ2α , splˇ nuj´ıc´ı vztah P (χ2 > χ2α ) = α, 0 < α < 1. Se vzr˚ ustaj´ıc´ım poˇctem stupˇ n˚ u volnosti se χ2 -rozdˇelen´ı bl´ıˇz´ı norm´aln´ımu rozdˇelen´ı. Obr´ azek 4.7 Hustota χ2 -rozdˇelen´ı a t-rozdˇelen´ı ν=5 ν = 10 ν = 19
χ2
(a) χ2 -rozdˇelen´ı
(b) t-rozdˇelen´ı
Studentovo t-rozdˇ elen´ı t(n) 2 Jestliˇze Z a χ jsou dvˇe nez´avisl´e n´ahodn´e veliˇciny takov´e, ˇze Z m´a N (0, 1)-rozdˇelen´ı a χ2 m´a χ2 (n)-rozdˇelen´ı, pak veliˇcina Z √ T =√ 2 n χ m´a Studentovo t-rozdˇ elen´ı s n stupni volnosti. Poˇcet stupˇ n˚ u volnosti je jedin´ y parametr tohoto rozdˇelen´ı. Pro n → ∞ se t-rozdˇelen´ı bl´ıˇz´ı normovan´emu norm´aln´ımu rozdˇelen´ı. Pˇri praktick´ ych aplikac´ıch pro n > 30 povaˇzujeme rozdˇelen´ı jiˇz za norm´aln´ı.
63
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
Z´ akladn´ı vlastnosti t-rozdˇ elen´ı s n stupni volnosti 1. Hustota gn (t) je sud´a funkce: gn (t) = gn (−t). 2. Distribuˇcn´ı funkce splˇ nuje podm´ınku Gn (t) = 1 − Gn (−t). 3. Pro kvantily plat´ı Qp (n) = −Q1−p (n), n = 1, 2, · · · , 0 < p < 1. Dvourozmˇ ern´ e norm´ aln´ı rozdˇ elen´ı N´ahodn´ y vektor (X, Y ) m´a dvourozmˇern´e norm´aln´ı rozdˇelen´ı s vektorem stˇredn´ıch hodnot µ, a kovarianˇcn´ı matic´ı Σ Ã
µ = (µx , µy )T ,
Σ=
σx2 σxy σxy σy2
!
,
jestliˇze jeho hustota f (x, y) m´a tvar f (x, y) =
2πσx σy
1 √
(
1 exp − 2 2(1 − ρ2 ) 1−ρ
Ã
(x − µx )2 (x − µx )(y − µy ) (y − µy )2 − 2ρ + σx2 σx σy σy2
!)
kde (x, y) ∈ R2 , a ρ = σxy /σx σy je korelaˇcn´ı koeficient sloˇzek X a Y n´ahodn´eho vektoru (X, Y ). Pro |ρ| = 1 nen´ı hustota definov´ana. Jestliˇze ρ = 0, pak veliˇciny X a Y jsou nekorelovan´e, ale v tomto pˇr´ıpadˇe tak´e i nez´avisl´e.
4.4
Nˇ ekter´ e limitn´ı vˇ ety
Limitn´ı vˇety teorie pravdˇepodobnosti se zab´ yvaj´ı chov´an´ım posloupnost´ı n´ahodn´ ych veliˇcin. Jsou d˚ uleˇzit´e pro popis pravdˇepodobnostn´ıch model˚ u v pˇr´ıpadˇe rostouc´ıho poˇctu n´ahodn´ ych pokus˚ u. V tomto odstavci zformulujeme z´akon velk´ ych ˇc´ısel a centr´aln´ı limitn´ı vˇety jen v jejich nejjednoduˇsˇs´ı podobˇe bez form´aln´ıho d˚ ukazu, pouze s ohledem na jejich vˇecn´ y obsah.
4.4.1
Z´ akon velk´ ych ˇ c´ısel
Obecn´e znˇen´ı z´akona velk´ ych ˇc´ısel je moˇzn´e zformulovat takto: Jestliˇze zvˇetˇsujeme poˇcet nez´avisl´ ych pokus˚ u, pˇribliˇzuje se empiricky zjiˇstˇen´a charakteristika, popisuj´ıc´ı v´ ysledky tˇechto pokus˚ u, charakteristice teoretick´e. Podm´ınky p˚ usoben´ı tohoto z´akona specifikuj´ı ˇ d´ılˇc´ı vˇety, z nichˇz nejd˚ uleˇzitˇejˇs´ı uvedeme. D´ılˇc´ı vˇety se dokazuj´ı pomoc´ı tzv. Cebyˇ sevovy nerovnosti. ˇ Cebyˇ sevova nerovnost. Necht’ X je n´ahodn´a veliˇcina se stˇredn´ı hodnotou E(X) a rozptylem D(X). Pak pro kaˇzd´e re´aln´e ˇc´ıslo ² > 0 plat´ı D(X) . (4.32) P (| X − E(X) |≥ ²) ≤ ²2 ˇ sevovy nerovnosti Pˇ r´ıklad 4.10 Ilustrace Cebyˇ ´ Necht’ nahodn a´ veliˇcina X ma´ libovoln´e rozdˇelen´ı se stˇredn´ı hodnotou µ = 2 a rozptylem ´ σ 2 = 1. Urˇcete pravdˇepodobnost, zˇe nahodn a´ veliˇcina nabude hodnoty, ktera´ se bude liˇsit od
64
,
4.4 N Eˇ KTER E´ LIMITN´I V Eˇ TY µ o m´enˇe neˇz ±2. ˇ sen´ı: V tomto pˇr´ıpadˇe je ² = 2. Poˇzadovana´ pravdˇepodobnost je Reˇ P (| X − 2 |< 2) = 1 − P (| X − 2 |≥ 2) ≥ 1 − 1/4 = 0.75.
Pˇristoup´ıme nyn´ı k jedn´e z d´ılˇc´ıch vˇet z´akona velk´ ych ˇc´ısel, a sice k Bernoulliho vˇetˇe. Bernoulliho vˇ eta (Bernoulliho z´ akon velk´ ych ˇ c´ısel). Necht’ X1 , X2 , · · · je posloupnost nez´avisl´ ych stejnˇe rozdˇelen´ ych n´ahodn´ ych veliˇcin s alternativn´ım rozdˇelen´ım A(p). Oznaˇcme P Sn = ni=1 Xi . Pak pro kaˇzd´e ² > 0 plat´ı: µ
¶
Sn lim P | − p |> ² = 0. n→∞ n ˇ Bernoulliho vˇeta je jednoduch´ ym d˚ usledkem Cebyˇ sevovy nerovnosti. V´ yraz Sn /n v pˇredchoz´ı vˇetˇe je relativn´ı ˇcetnost jevu A = [Xi = 1] v n nez´avisl´ ych opakov´an´ıch pokusu. Z´akon velk´ ych ˇc´ısel potvrzuje, ˇze pro n → ∞ konverguje relativn´ı ˇcetnost ke konstantˇe a sice k pravdˇepodobnosti p jevu A. Pojem konvergence posloupnosti n´ahodn´ ych veliˇcin lze definovat r˚ uzn´ ym zp˚ usobem, v Bernoulliho vˇetˇe jde o konvergenci podle pravdˇepodobnosti. ˇ Rekneme, ˇze posloupnost X1 , X2 , · · · n´ahodn´ ych veliˇcin konverguje podle pravdˇ epodobnosti ke konstantˇe c, jestliˇze pro kaˇzd´e ² > 0 plat´ı lim P (| Xn − c |> ²) = 0.
n→∞
Bernoulliho vˇetu m˚ uˇzeme nyn´ı pomoc´ı pojmu konvergence podle pravdˇepodobnosti formulovat takto: Relativn´ı ˇcetnost sledovan´eho jevu v posloupnosti nez´avisl´ych pokus˚ u konverguje podle pravdˇepodobnosti k pravdˇepodobnosti sledovan´eho jevu, roste-li poˇcet pokus˚ u nade vˇsechny meze. Jinak ˇreˇceno, pˇri dostateˇcnˇe velk´em poˇctu nez´avisl´ ych pokus˚ u velk´e odchylky relativn´ı ˇcetnosti od pravdˇepodobnosti jsou velmi nepravdˇepodobn´e. Praktick´ y v´ yznam t´eto vˇety spoˇc´ıv´a mimo jin´e v moˇznosti experiment´alnˇe odhadovat nezn´amou pravdˇepodobnost pomoc´ı napozorovan´e relativn´ı ˇcetnosti. Pˇ r´ıklad 4.11 Ilustrace Bernoulliho vˇety ´ ´ ´ ˚ pˇri urˇcit´em procesu vyroby ´ Z 2500 nezavisle vyrobenych vyrobk u jich bylo 100 vadn´ych. Pod´ıl ´ 100/2500 = 0.04 je bl´ızky´ cˇ´ıslu p, kter´e vyjadˇruje neznamou pravdˇepodobnost vyroben´ı vadn´eho ´ ´ vyrobku pˇri dan´em procesu vyroby.
N´asleduj´ıc´ı vˇeta ˇr´ık´a, ˇze aritmetick´ y pr˚ umˇer konverguje pro n → ∞ ke stˇredn´ı hodnotˇe. ’ To je zobecnˇen´ı Bernoulliho vˇety, nebot relativn´ı ˇcetnost je pr˚ umˇerem veliˇcin s alternativn´ım rozdˇelen´ım a pravdˇepodobnost jevu A je jejich stˇredn´ı hodnotou. Chinˇ cinova vˇ eta Necht’ X1 , X2 , · · · je posloupnost nez´avisl´ ych stejnˇe rozdˇelen´ ych n´ahodn´ ych veliˇcin se stˇredn´ı hodnotou µ. Pak pro kaˇzd´e ² > 0 plat´ı !
Ã
n 1X Xi − µ |> ² = 0. lim P | n→∞ n i=1
65
K APITOLA 4
´ ´ VELI Cˇ INA N AHODN A
Podle z´akona velk´ ych ˇc´ısel m˚ uˇzeme vypoˇcten´ım relativn´ı ˇcetnosti respektive aritmetick´eho pr˚ umˇeru (pokud se vztahuj´ı k dostateˇcnˇe velk´emu poˇctu pozorov´an´ı) z´ıskat velmi pˇresnou informaci o pravdˇepodobnosti nˇejak´eho jevu respektive o stˇredn´ı hodnotˇe nˇejak´e n´ahodn´e veliˇciny. Pˇ r´ıklad 4.12 Ilustrace Chinˇcinovy vˇety ˚ erna´ doba zˇivotnosti Necht’ doba Pn zˇivotnosti X urˇcit´eho vy´ robku ma´ E(λ)-rozdˇelen´ı. Potom prumˇ ´ ´ ´ ´ e doby vyrobenych vy´ robku˚ se jen velmi malo liˇs´ı od neznam´ X = n1 i=1 Xi nezavisle zˇivotnosti 1/λ.
4.4.2
Centr´ aln´ı limitn´ı vˇ ety
Centr´aln´ı limitn´ı vˇety tvrd´ı, ˇze souˇcty a tedy i pr˚ umˇery velk´eho poˇctu nez´avisl´ ych n´ahodn´ ych veliˇcin maj´ı za velmi obecn´ ych podm´ınek pˇribliˇznˇe norm´aln´ı rozdˇelen´ı. Tyto vˇety vysvˇetluj´ı, proˇc se v r˚ uzn´ ych oborech setk´av´ame tak ˇcasto s norm´aln´ım nebo pˇribliˇznˇe norm´aln´ım rozdˇelen´ım. Typick´ ym pˇr´ıkladem jsou nepˇresnosti pˇri mˇeˇren´ı; v´ ysledn´a chyba mˇeˇren´ı je sloˇzena z mnoha r˚ uzn´ ych mal´ ych chyb. Centr´aln´ı limitn´ı vˇety n´am umoˇzn ˇuj´ı pˇredpokl´adat, ˇze rozdˇelen´ı chyb mˇeˇren´ı je norm´aln´ı. Proto se norm´aln´ımu z´akonu rozdˇelen´ı ˇr´ık´a z´akon chyb. Zm´ınili jsme se o tom jiˇz v odstavci 4.3.2, kde jsme uv´adˇeli definici a vlastnosti norm´aln´ıho rozdˇelen´ı. Pozn´ amka: O n´ahodn´ ych veliˇcin´ach, jejichˇz limitn´ım z´akonem je norm´aln´ı rozdˇelen´ı ˇr´ık´ame, ˇze maj´ı asymptoticky norm´ aln´ı rozdˇ elen´ı. Nejjednoduˇsˇs´ı pˇr´ıpad centr´aln´ı limitn´ı vˇety je tzv. Moivreova-Laplaceova vˇeta, kter´a vyjadˇruje konvergenci binomick´eho rozdˇelen´ı k rozdˇelen´ı norm´aln´ımu a d´av´a tak moˇznost aproximovat binomick´e rozdˇelen´ı rozdˇelen´ım norm´aln´ım. Moivreova-Laplaceova vˇ eta. Necht’ X1 , X2 , · · · je posloupnost nez´avisl´ ych stejnˇe rozdˇePn len´ ych n´ahodn´ y ch veliˇ c in s alternativn´ ım rozdˇ e len´ ım A(p). Poloˇ z me S = n i=1 Xi a Zn = q (Sn − np)/ np(1 − p). Potom plat´ı lim P (Zn ≤ x) = Φ(x), x ∈ R.
n→∞
Pˇ r´ıklad 4.13 Aproximace binomick´eho rozdˇelen´ı norm´aln´ım rozdˇelen´ım ´ Student se podrob´ı zkouˇsce ve formˇe testu s 10 otazkami, na kter´e odpov´ıda´ ano nebo ne. ´ a´ odpovˇedi na vˇsechny otazky. ´ Student had Uˇzijte binomick´e rozdˇelen´ı ke stanoven´ı pˇresn´e ´ ´ e. Pak pouˇzijte aproximaci bipravdˇepodobnosti, zˇe student odpov´ı na 7 nebo 8 otazek spravnˇ ´ ım rozdˇelen´ım. nomick´eho rozdˇelen´ı normaln´ ˇ sen´ı: Necht’ S10 je poˇcet spravn ´ ych ´ ´ ´ a´ odpovˇedi, Reˇ odpovˇed´ı na 10 otazek. Protoˇze student had ´ e odpovˇedi p = 0.5, S10 ∼ B(10, 0.5). Z tabulky binomick´eho rozdˇelen´ı je pravdˇepodobnost spravn´ ´ vy´ poˇctem dostaneme nebo pˇr´ımym P (S10 = 7 ∨ 8) = P (7) + P (8) = 0.1172 + 0.0439 = 0.1611. p (X = 7 ∨ 8 oznaˇcuje vy´ rok X se rovn´ a 7 nebo 8). E(S10 ) = np = 10 · 0.5 = 5 a D(Sn ) = np(1 − p) = ´ ı aproximace prov´est korekci pro 1.58. Protoˇze n nen´ı pˇr´ıliˇs vysok´e, je tˇreba pˇri pouˇzit´ı normaln´
66
4.4 N Eˇ KTER E´ LIMITN´I V Eˇ TY ´ ´ nahrazen´ı diskr´etn´ıho rozdˇelen´ı spojitym, tzv. korekci na spojitost. Ulohu lze totiˇz formulovat jako urˇcen´ı P (6.5 ≤ S10 ≤ 8.5), nebot’ plat´ı P (6.5 ≤ S10 ≤ 8.5) = =
P (S10 ≤ 8.5) − P (S10 < 6.5) = P (S10 ≤ 8) − P (S10 ≤ 6) P (S10 = 8) + P (S10 = 7).
Pouˇzit´ım Moivreova-Laplaceovy vˇety dostaneme ¶ µ 8.5 − 5 6.5 − 5 ≤ Z10 ≤ = P (0.95 ≤ Z10 ≤ 2.22) = Φ(2.22) − Φ(0.95) P 1.58 1.58 = 0.9868 − 0.8289 = 0.1579. ´ ım t´eto hodnoty s hodnotou P (S10 = 7 ∨ 8) vid´ıme, zˇe normaln´ ´ ı aproximace je velice Porovnan´ dobrou aproximac´ı binomick´eho rozdˇelen´ı.
Centr´aln´ı limitn´ı vˇetu, kter´a je pˇr´ım´ ym zobecnˇen´ım Moivreovy-Laplaceovy vˇety, lze vyslovit takto: Linderbergova-L´ evyho vˇ eta Necht’ X1 , X2 , · · · jsou nez´avisl´e n´ahodn´e veliˇciny se stejn´ ym rozdˇelen´ım, kter´e maj´ √ ı Pn 2 koneˇcnou stˇredn´ı hodnotu µ a rozptyl σ . Poloˇzme Yn = i=1 Xi a Zn = (Yn − nµ)/σ n. Potom plat´ı lim P (Zn ≤ x) = Φ(x), x ∈ R. n→∞ Podle t´eto vˇety konverguje distribuˇcn´ı funkce normovan´ ych souˇct˚ u k distribuˇcn´ı funkci N (0, 1)-rozdˇelen´ı pro libovoln´e v´ ychoz´ı rozdˇelen´ı s koneˇcnou stˇredn´ı hodnotou a koneˇcn´ ym rozptylem. Jinak ˇreˇceno souˇcet a t´ım i pr˚ umˇer n nez´avisl´ ych n´ahodn´ ych veliˇcin, kter´e maj´ı stejn´e (libovoln´e) rozdˇelen´ı s koneˇcnou stˇredn´ı hodnotou a koneˇcn´ ym rozptylem m´a pro dosti velk´e n pˇribliˇznˇe norm´aln´ı rozdˇelen´ı. Pˇ r´ıklad 4.14 Ilustrace Linderbergovy-L´evyho vˇety ´ ˚ eru Necht’ P doba zˇivotnosti X urˇcit´eho vyrobku ma´ E(λ)-rozdˇelen´ı. Potom normovany´ tvar prumˇ n ´ ´ enych ´ ´ ˚ je X = n1 i=1 Xi dob zˇivotnosti X1 , X2 , · · · , Xn nezavisle vyrabˇ vyrobk u Zn =
X − 1/λ √ . 1/λ n
Zn se da´ pro dostateˇcnˇe velk´e n aproximovat rozdˇelen´ım N (0, 1).
67
Kapitola 5 N´ ahodn´ y v´ ybˇ er V pˇredch´azej´ıc´ıch kapitol´ach jsme se zab´ yvali popisnou statistikou, pravdˇepodobnost´ı, n´ahodn´ ymi veliˇcinami, nˇekter´ ymi rozdˇelen´ımi pravdˇepodobnost´ı a limitn´ımi vˇetami. Nyn´ı si uk´aˇzeme, ˇze tyto zd´anlivˇe r˚ uzn´e pojmy jsou z´akladem inferenˇcn´ı statistiky. Zavedeme pojem n´ahodn´ y v´ ybˇer z rozdˇelen´ı, kter´ y m´a v matematick´e statistice u ´stˇredn´ı postaven´ı a spojuje vˇetˇsinu teoretick´ ych v´ ysledk˚ u s praktick´ ymi situacemi.
5.1
Pojem n´ ahodn´ eho v´ ybˇ eru
Uvaˇzujme n´ahodn´ y pokus, jehoˇz v´ ysledkem je hodnota x jednorozmˇern´e n´ahodn´e veliˇciny X, kter´a m´a distribuˇcn´ı funkci F (x). Opakujeme-li n´ahodn´ y pokus nez´avisle n kr´at, dostaneme hodnoty x1 , x2 , · · · , xn . Pˇritom xi , i = 1, 2, · · · , n lze povaˇzovat za hodnotu n´ahodn´e veliˇciny Xi . Protoˇze n uvaˇzovan´ ych pokus˚ u je n nez´avisl´ ych opakov´an´ı t´ehoˇz pokusu, jsou n´ahodn´e veliˇciny X1 , X2 , · · · , Xn vz´ajemnˇe nez´avisl´e a vˇsechny maj´ı stejn´e rozdˇelen´ı, jak´e m´a n´ahodn´a veliˇcina X (tj. vˇsechny maj´ı tut´eˇz distribuˇcn´ı funkci F (x), jakou m´a n´ahodn´a veliˇcina X). Posloupnost nez´avisl´ ych a stejnˇe rozdˇelen´ ych n´ahodn´ ych veliˇcin X1 , X2 , · · · , Xn naz´ yv´ame n´ ahodn´ ym v´ ybˇ erem o rozsahu n z rozdˇelen´ı, kter´e m´a kaˇzd´a uvaˇzovan´a n´ahodn´a veliˇcina X1 , X2 , · · · , Xn (tj. z rozdˇelen´ı maj´ıc´ıho distribuˇcn´ı funkci F (x); m´ısto distribuˇcn´ı funkc´ı F (x) m˚ uˇzeme ovˇsem diskr´etn´ı rozdˇelen´ı popsat pravdˇepodobnostmi P (x) a spojit´a rozdˇelen´ı hustotou pravdˇepodobnosti f (x)). N´ahodn´ y v´ ybˇer budeme znaˇcit X = (X1 , X2 , · · · , Xn ). Posloupnost hodnot x1 , x2 , · · · , xn , kter´e nab´ yvaj´ı n´ahodn´e veliˇciny X1 , X2 , · · · , Xn nazveme v´ ybˇ erov´ ymi hodnotami nebo realizac´ı n´ ahodn´ eho v´ ybˇ eru. Mnoˇzina V hodnot, kter´e nab´ yvaj´ı n´ahodn´e veliˇciny X1 , X2 , · · · , Xn , se naz´ yv´a v´ ybˇ erov´ ym prostorem. V´ ybˇerov´ y prostor V je podmnoˇzinou Rn . Protoˇze n´ahodn´e veliˇciny X1 , X2 , · · · , Xn jsou vz´ajemnˇe nez´avisl´e a maj´ı stejn´e rozdˇelen´ı, plat´ı pro distribuˇcn´ı funkci H(x) n´ahodn´eho v´ ybˇeru H(x) = F (x1 )F (x2 )...F (xn ), xi ∈ R. Pˇ r´ıklad 5.1 Distribuˇcn´ı funkce n´ahodn´eho v´ybˇeru ´ ´ er ze spojit´eho rovnomˇern´eho rozdˇelen´ı na intervalu Necht’ X = (X1 , X2 , · · · , Xn ) je nahodn´ y vybˇ ´ (0,1). Urˇcete distribuˇcn´ı funkci H(x) nahodn´ eho vy´ bˇeru X. ˇ Reˇsen´ı: Xi ∼ U (0, 1) H(x) = H(x1 , x2 , · · · , xn ) = x1 · x2 · · · xn .
68
´ Eˇ ROV E´ CHARAKTERISTIKY 5.2 V YB
Pravdˇepodobnostn´ı funkce q(x) n´ahodn´eho v´ ybˇeru v pˇr´ıpadˇe diskr´etn´ıho rozdˇelen´ı n´ahodn´ ych veliˇcin X1 , X2 , · · · , Xn je q(x) = P (X1 = x1 , X2 = x2 , · · · , Xn = xn ) = p(x1 )p(x2 ) · · · p(xn ) Pˇ r´ıklad 5.2 Pravdˇepodobnostn´ı funkce n´ahodn´eho v´ybˇeru ´ Necht’ X = (X1 , X2 , · · · , Xn ) je nahodn´ y v´ybˇer z Poissonova rozdˇelen´ı s parametrem λ. Urˇcete pravdˇepodobnostn´ı funkci q(x). ˇ sen´ı: Xi ∼ P(λ), f (xi ) = λxi e−λ , xi = 0, 1 · · · , i = 1, 2, · · · , n Reˇ xi ! Pn 1 q(x) = λ i=1 xi e−nλ . x1 !x2 !...xn !
Hustota rozdˇelen´ı h(x) n´ahodn´eho v´ ybˇeru z rozdˇelen´ı s hustotou f (x) je h(x) = h(x1 , x2 , · · · , xn ) = f (x1 )f (x2 ) · f (xn ),
xi ∈ R, i = 1, 2, · · · , n.
Pˇ r´ıklad 5.3 Hustota rozdˇelen´ı n´ahodn´eho v´ybˇeru ´ ´ ıho rozdˇelen´ı N (µ, σ 2 ). Najdˇete hustotu Necht’ X = (X1 , X2 , · · · , Xn ) je nahodn´ y vy´ bˇer z normaln´ h(x). ˇ sen´ı: Xi ∼ N (µ, σ 2 ) Reˇ h(x) =
n Y i=1
5.2
√
n 1 1 xi − µ 2 1 1 X (xi − µ)2 }, exp{− ( ) }= exp{− 2 σ 2σ 2 i=1 (2π)n/2 σ n 2πσ
xi ∈ R.
V´ ybˇ erov´ e charakteristiky
Jak jiˇz v´ıme, statistick´ y soubor lze popsat pomoc´ı r˚ uzn´ ych popisn´ ych charakteristik. Mezi nejd˚ uleˇzitˇejˇs´ı charakteristiky patˇr´ı aritmetick´ y pr˚ umˇer, rozptyl a relativn´ı ˇcetnost. U spoˇcetn´ ych statistick´ ych soubor˚ u bychom mˇeli sp´ıˇse hovoˇrit o parametrech rozdˇelen´ı sledovan´eho znaku. K tˇemto charakteristik´am a parametr˚ um m˚ uˇzeme naj´ıt ve v´ ybˇerov´em souboru pˇr´ısluˇsn´e protˇejˇsky, tj. v´ ybˇ erov´ e charakteristiky neboli statistiky. Zat´ımco charakteristiky z´akladn´ıho souboru a parametry rozdˇelen´ı sledovan´eho znaku jsou pevn´e hodnoty, statistiky se mˇen´ı od jednoho n´ahodn´eho v´ ybˇeru ke druh´emu. Z pravdˇepodobnostn´ıho hlediska maj´ı charakter n´ahodn´ ych veliˇcin, nebot’ jsou vypoˇcteny z hodnot n´ahodn´eho v´ ybˇeru, kter´e jsou samy hodnotami n´ahodn´ ych veliˇcin. Tyto n´ahodn´e veliˇciny neobsahuj´ı parametry rozdˇelen´ı. Pˇr´ıklady v´ ybˇerov´ ych charakteristik jsou: v´ybˇerov´y pr˚ umˇer, v´ybˇerov´y rozptyl a v´ybˇerov´y pod´ıl.
5.3
Rozdˇ elen´ı v´ ybˇ erov´ ych charakteristik
Chceme-li na z´akladˇe v´ ybˇerov´e charakteristiky dˇelat z´avˇery o charakteristice z´akladn´ıho souboru nebo o parametru rozdˇelen´ı, je nutn´e vˇzdy zn´at pravdˇepodobnostn´ı rozdˇelen´ı v´ ybˇerov´e charakteristiky, kter´e se naz´ yv´a v´ ybˇ erov´ e rozdˇ elen´ı. V´ ybˇerov´a rozdˇelen´ı jsou teoretick´ ym z´akladem pro zpracov´an´ı v´ ysledk˚ u v´ ybˇerov´ ych ˇsetˇren´ı, jejich pozn´an´ı je rozhoduj´ıc´ım krokem, kter´ y teprve umoˇzn ˇuje aplikovat z´akonitosti poˇctu pravdˇepodobnosti na hodnocen´ı kvality u ´sudk˚ u op´ıraj´ıc´ıch se o n´ahodn´ y v´ ybˇer. 69
K APITOLA 5
´ ´ V YB ´ Eˇ R N AHODN Y
V t´eto ˇc´asti uvedeme v´ ybˇerov´a rozdˇelen´ı statistik, na jejichˇz z´akladˇe budeme v kapitole 6 odhadovat nezn´am´e parametry rozdˇelen´ı pravdˇepodobnost´ı a v kapitole 7 testovat hypot´ezy o tˇechto parametrech.
5.3.1
Rozdˇ elen´ı v´ ybˇ erov´ eho pr˚ umˇ eru
Je-li (X1 , X2 , · · · , Xn ) n´ahodn´ y v´ ybˇer o rozsahu n, pak v´ ybˇ erov´ y pr˚ umˇ er (nebo tak´e v´ ybˇerov´ y 1. obecn´ y moment) je statistika definovan´a jako X=
n 1X Xi . n i=1
(5.1)
Obecnˇe, v´ ybˇ erov´ y k-t´ y obecn´ y moment je statistika n 1X Mk = Xik . n i=1 0
(5.2)
Necht’ (X1 , X2 , · · · , Xn ) je n´ahodn´ y v´ ybˇer o rozsahu n z rozdˇelen´ı se stˇredn´ı hodnotou µ 2 a rozptylem σ , pak pro stˇredn´ı hodnotu µx¯ a rozptyl σx2¯ v´ ybˇerov´eho pr˚ umˇeru X plat´ı n n 1X 1X Xi ) = E(Xi ) = µ n i=1 n i=1
(5.3)
n n 1 X 1 1X Xi ) = 2 D(Xi ) = σ 2 . n i=1 n i=1 n
(5.4)
µx¯ = E( σx2¯ = D(
Zn´ame-li rozdˇelen´ı, z nˇehoˇz n´ahodn´ y v´ ybˇer poch´az´ı, m˚ uˇzeme stanovit rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru jako rozdˇelen´ı line´arn´ı funkce n´ahodn´ ych veliˇcin. Je-li napˇr. (X1 , X2 , · · · , Xn ) n´ahodn´ y v´ ybˇer z N (µ, σ 2 )-rozdˇelen´ı, pak X ∼ N (µ, σ 2 /n). Pokud n´ahodn´ y v´ ybˇer nepoch´az´ı z norm´aln´ıho rozdˇelen´ı, pak z centr´aln´ı limitn´ı vˇety (viz odst. 4.4.2) vypl´ yv´a, ˇze n´ahodn´a veliˇcina X m´a pˇribliˇznˇe norm´aln´ı rozdˇelen´ı za pˇredpokladu, ˇze rozsah v´ ybˇeru je relativnˇe velk´ y. Vˇseobecnˇe vzato, ˇc´ım v´ıce se rozdˇelen´ı, z nˇehoˇz v´ ybˇer poch´az´ı, liˇs´ı od norm´aln´ıho, t´ım vˇetˇs´ı rozsah v´ ybˇeru potˇrebujeme pro adekv´atn´ı aproximaci rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru. Na z´akladˇe experiment´aln´ıch v´ ysledk˚ u se doporuˇcuje, aby rozsah v´ ybˇeru n byl alespoˇ n 30. Tud´ıˇz m´ame n´asleduj´ıc´ı poznatek. Tvrzen´ı 5.1
ˇ ´I V YB ´ Eˇ ROV E´ HO PR UM ˚ ERU ˇ ROZD ELEN
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer o rozsahu n ≥ 30 z rozdˇelen´ı se stˇredn´ı 2 hodnotou µ, a rozptylem σ . Pak bez ohledu na rozdˇelen´ı, z nˇehoˇz v´ ybˇer poch´az´ı, m´a n´ahodn´a veliˇcina X pˇribliˇznˇe norm´aln´ı rozdˇelen´ı se stˇredn´ı hodnotou µx¯ = µ a rozptylem σx2¯ = σ 2 /n. V kapitol´ach 6 a 7 budeme pouˇz´ıvat normovan´ y tvar n´ahodn´e veliˇciny X, to je veliˇcinu Z=
X − µx¯ X −µ √ , = σx¯ σ/ n
(5.5)
kter´a m´a v d˚ usledku centr´aln´ı limitn´ı vˇety rozdˇelen´ı specifikovan´e pˇri r˚ uzn´ ych podm´ınk´ach v n´asleduj´ıc´ım tvrzen´ı. 70
´ Eˇ ROV YCH ´ 5.3 ROZD Eˇ LEN´I V YB CHARAKTERISTIK
Tvrzen´ı 5.2
ˇ ´I NORMOVAN EHO ´ ´ EROV ˇ ´ ˚ ERU ˇ ROZD ELEN TVARU V YB EHO PR UM
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer o rozsahu n z rozdˇelen´ı se stˇredn´ı hodnotou µ a smˇerodatnou odchylkou σ 2 . Pak normovan´y tvar v´ybˇerov´eho pr˚ umˇeru X Z=
X −µ √ σ/ n
1. m´a bez ohledu na rozsah v´ ybˇeru normovan´e norm´aln´ı rozdˇelen´ı, pokud v´ ybˇer poch´az´ı z norm´aln´ıho rozdˇelen´ı; 2. m´a pro n ≥ 30 pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı bez ohledu na rozdˇelen´ı, z nˇehoˇz v´ ybˇer poch´az´ı.
5.3.2
Rozdˇ elen´ı v´ ybˇ erov´ eho rozptylu
Je-li (X1 , X2 , · · · , Xn ) n´ahodn´ y v´ ybˇer o rozsahu n, pak v´ ybˇ erov´ y rozptyl je statistika definovan´a jako n 1 X S2 = (Xi − X)2 . (5.6) n − 1 i=1 Pozn´ amka : V´ ybˇ erov´ y k-t´ y centr´ aln´ı moment je statistika Mk =
n 1X (Xi − X)k . n i=1
(5.7)
Podobnˇe jako v pˇr´ıpadˇe v´ ybˇerov´eho pr˚ umˇeru, chceme-li z´ıskat informaci o rozptylu rozdˇelen´ı prostˇrednictv´ım v´ ybˇerov´eho rozptylu, mus´ıme zn´at jeho rozdˇelen´ı. Tvrzen´ı 5.3
ˇ ´I V YB ´ Eˇ ROV E´ HO ROZPTYLU ROZD ELEN
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer o rozsahu n z norm´aln´ıho rozdˇelen´ı s rozptylem σ 2 . Pak n´ahodn´a veliˇcina n−1 2 χ2 = S σ2 m´a χ2 -rozdˇelen´ı s n − 1 stupni volnosti. Nyn´ı pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer o rozsahu n z norm´aln´ıho rozdˇelen´ı se stˇredn´ı X−µ √ ∼ N (0, 1) a veliˇ hodnotou µ a s nezn´am´ ym rozptylem. Jelikoˇz n´ahodn´a veliˇcina Z = σ/ cina n q
χ2 = n−1 S 2 ∼ χ2 (n−1), pak z definice t-rozdˇelen´ı vypl´ yv´a ˇze n´ahodn´a veliˇcina Z/ χ2 /n − 1 σ2 m´a t-rozdˇelen´ı s n − 1 stupni volnosti. Vzhledem k tomu, ˇze plat´ı relace √ X −µ n−1 X −µ σ X −µ Z q √ ·q √ · = √ = = n−1 2 σ/ n σ/ n S S/ n S χ2 /n − 1 2 σ dost´av´ame pro statistiku T =
X −µ √ , S/ n
kterou budeme naz´ yvat t-statistikou, n´asleduj´ıc´ı tvrzen´ı. 71
K APITOLA 5
Tvrzen´ı 5.4
´ ´ V YB ´ Eˇ R N AHODN Y
ˇ ´I t- STATISTIKY ROZD ELEN
Mˇejme n´ahodn´ y v´ ybˇer o rozsahu n z norm´aln´ıho rozdˇelen´ı se stˇredn´ı hodnotou µ. Pak m´a n´ahodn´a veliˇcina X −µ √ T = S/ n t-rozdˇelen´ı s n − 1 stupni volnosti.
5.3.3
Rozdˇ elen´ı v´ ybˇ erov´ eho pod´ılu
Uvaˇzujme n´ahodn´ y v´ ybˇer ze z´akladn´ıho souboru, v nˇemˇz sledovan´ y statistick´ y znak nebo sledovan´a n´ahodn´a veliˇcina nab´ yv´a pouze hodnot nula a jedna. V tomto pˇr´ıpadˇe mluv´ıme o v´ ybˇeru z alternativn´ıho rozdˇelen´ı. T´ımto rozdˇelen´ım kvantifikujeme napˇr´ıklad takov´e situace, kdy hodnotˇe statistick´eho znaku, kter´ y n´as zaj´ım´a, pˇriˇrad´ıme ˇc´ıselnou hodnotu 1 a vˇsem dalˇs´ım ˇc´ıselnou hodnotu 0 a zaj´ım´a n´as, jak´e procento statistick´ ych jednotek ze z´akladn´ıho souboru m´a urˇcitou sledovanou vlastnost. Jde o tzv. dvoukategori´ aln´ı z´akladn´ı soubor. Napˇr´ıklad, jestliˇze z´akladn´ı soubor o rozsahu N , kter´ y uvaˇzujeme, tvoˇr´ı vˇsechny dom´acnosti ˇ v CR, sledovan´a vlastnost je vlastnictv´ı osobn´ıho poˇc´ıtaˇce“, (1 – dom´acnost m´a osobn´ı ” poˇc´ıtaˇc, 0 – dom´acnost nem´a osobn´ı poˇc´ıtaˇc), poˇcet dom´acnost´ı vlastn´ıc´ıch osobn´ı poˇc´ıtaˇc je ˇ kter´e vlastn´ı osobn´ı Nv , pak pod´ıl z´ akladn´ıho souboru je pod´ıl vˇsech dom´acnost´ı v CR, poˇc´ıtaˇc, tj. Nv /N . Pˇredpokl´adejme, ˇze rozdˇelen´ı v z´akladn´ım souboru je alternativn´ı a ˇze p znaˇc´ı bud’ relativn´ı ˇcetnost hodnoty 1 (pod´ıl statistick´ ych jednotek s hodnotou sledovan´eho znaku 1) v koneˇcn´em z´akladn´ım souboru, nebo pravdˇepodobnost hodnoty 1, uvaˇzujeme-li nekoneˇcn´ y z´akladn´ı soubor. M˚ uˇze-li sledovan´ y znak nebo sledovan´a n´ahodn´a veliˇcina nab´ yvat pouze ’ hodnot 0 a 1, pak tak´e v´ ybˇerov´ ymi hodnotami x1 , x2 , · · · , xn mohou b´ yt bud jedniˇcky nebo nuly. Protoˇze v´ ybˇer je n´ahodn´ y, je poˇcet jedniˇcek x ve v´ ybˇeru hodnotou n´ahodn´e veliˇciny X, kter´a se naz´ yv´a v´ ybˇ erovou absolutn´ı ˇ cetnost´ı. Pod´ıl pˆ = x/n, kde x znaˇc´ı poˇcet jednotek v´ ybˇeru maj´ıc´ıch specifikovanou vlastnost (naz´ yvan´ y ˇcasto poˇcet u ´spˇech˚ u“ a n − x poˇcet ” ” ne´ uspˇech˚ u“) a n je rozsah v´ ybˇeru, je pak hodnotou n´ahodn´e veliˇciny X Pˆ = , n kter´a se naz´ yv´a v´ ybˇ erovou relativn´ı ˇ cetnost´ı nebo ˇcastˇeji v´ ybˇ erov´ ym pod´ılem. Z toho, co bylo ˇreˇceno je zˇrejm´e, ˇze v´ ybˇerov´ y pod´ıl je roven v´ ybˇerov´emu pr˚ umˇeru n´ahodn´eho v´ ybˇeru z alternativn´ıho rozdˇelen´ı. Pozn´ amka: V dalˇs´ım textu budeme pouˇz´ıvat stejn´e oznaˇcen´ı pˆ pro n´ahodnou veliˇcinu Pˆ i jej´ı hodnotu pˆ . Podobnˇe jako v pˇr´ıpadˇe stˇredn´ı hodnoty, mus´ıme zn´at v´ ybˇ erov´ e rozdˇ elen´ı pod´ılu, (pravdˇepodobnostn´ı rozdˇelen´ı n´ahodn´e veliˇciny pˆ) , abychom mohli dˇelat z´avˇery o pod´ılu p. Z Moivreovy-Laplaceovy limitn´ı vˇety (viz odst. 4.4.1) vypl´ yv´a n´asleduj´ıc´ı tvrzen´ı. Tvrzen´ı 5.5
ˇ ´I V YB ´ Eˇ ROV E´ HO POD ´I LU ROZD ELEN
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer velk´eho rozsahu n z alternativn´ıho rozdˇelen´ı s pod´ılem p. Pak n´ahodn´a veliˇcina pˆ m´aqpˇribliˇznˇe norm´aln´ı rozdˇelen´ı se stˇredn´ı hodnotou µpˆ = p a smˇerodatnou odchylkou σpˆ = p(1 − p)/n.
72
´ ´ N AHODN ´ ´ V YB ´ Eˇ RY 5.4 N EZ AVISL E E
Z tvrzen´ı 5.4 lze odvodit, ˇze normovan´a n´ahodn´a veliˇcina pˆ − p
Z=q
p(1 − p)/n
(5.8)
m´a pro velk´a n pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı. Pˇresnost norm´aln´ı aproximace z´avis´ı na n a p. Pro p bl´ızk´e 0.5 je aproximace dostateˇcnˇe ˇ ım se p v´ıce liˇs´ı od 0.5, t´ım vˇetˇs´ı n potˇrebujeme k tomu, aby pˇresn´a pro rozumn´e n. C´ aproximace byla pˇresn´a. B´ yv´a zvykem pouˇz´ıvat aproximaci norm´aln´ım rozdˇelen´ım, pokud np ≥ 5 a z´aroveˇ n n(1 − p) ≥ 5, neboli min(np, n(1 − p)) ≥ 5.
5.4
Nez´ avisl´ e n´ ahodn´ e v´ ybˇ ery
Nˇekter´e metody, kter´ ymi se budeme v kapitole 7 zab´ yvat, nevyˇzaduj´ı pouze, aby v´ ybˇery byly n´ahodn´e, ale tak´e aby byly nez´avisl´e, zhruba ˇreˇceno, aby v´ ybˇer z jednoho rozdˇelen´ı nemˇel ˇza´dn´ y vliv na v´ ybˇer z jin´eho rozdˇelen´ı. Necht’ X1 = (X11 , X12 , · · · , X1n1 ) je n´ahodn´ y v´ ybˇer rozsahu n1 z rozdˇelen´ı s distribuˇcn´ı funkc´ı F1 (x) a X2 = (X21 , X22 , · · · , X2n2 ) je n´ahodn´ y v´ ybˇer rozsahu n2 z rozdˇelen´ı s distribuˇcn´ı funkc´ı F2 (x). N´ahodn´e v´ ybˇery X1 a X2 jsou nez´ avisl´ e, jestliˇze n´ahodn´e veliˇciny X11 , X12 , · · · , X1n1 , X21 , X22 , · · · , X2n2 jsou nez´avisl´e, pˇriˇcemˇz veliˇciny X11 , X12 , · · · , X1n maj´ı distribuˇcn´ı funkc´ı F1 (x) a X21 ,X22 ,· · · , X2n maj´ı distribuˇcn´ı funkc´ı F2 (x) (viz odst. 4.1.3). Jsou-li distribuˇcn´ı funkce F1 (x) a F2 (x) identick´e, jedn´a se o dva nez´avisl´e v´ ybˇery z t´ehoˇz rozdˇelen´ı.
5.4.1
Dva nez´ avisl´ e v´ ybˇ ery z norm´ aln´ıho rozdˇ elen´ı nebo velk´ e rozsahy v´ ybˇ er˚ u
Mˇejme n´ahodn´ y v´ ybˇer X1 = (X11 , X12 , · · · , X1n1 ) rozsahu n1 z rozdˇelen´ı N (µ1 , σ12 ) a n´ahodn´ y 2 ’ v´ ybˇer X2 = (X21 , X22 , · · · , X2n2 ) rozsahu n2 z rozdˇelen´ı N (µ2 , σ2 ). Necht v´ ybˇery X1 a X2 jsou nez´avisl´e. Potom statistiky X1 a X2 jsou nez´avisl´e (viz odstavec 4.1.3), X1 ∼ N (µ1 , σ12 /n1 ), X2 ∼ N (µ2 , σ22 /n2 ) a statistika X 1 −X 2 m´a rozdˇelen´ı N (µ1 −µ2 , σ12 /n1 +σ22 /n2 ) (viz odstavec 5.3.1). Bezprostˇredn´ım d˚ usledkem je n´asleduj´ıc´ı tvrzen´ı. Tvrzen´ı 5.6
ˇ ´I ROZD ´I LU V YB ´ Eˇ ROV YCH ´ ˚ Eˇ R U˚ ( NEZ AVISL ´ ´ V YB ´ ERY ˇ ) ROZD ELEN PR UM E
Pˇredpokl´adejme, ˇze m´ame dva nez´avisl´e n´ahodn´e v´ ybˇery o rozsaz´ıch n1 a n2 z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 a smˇerodatn´ ymi odchylkami σ1 a σ2 . D´ale pˇredpokl´adejme, ˇze bud’ obˇe rozdˇelen´ı jsou norm´aln´ı nebo oba v´ ybˇery maj´ı velk´ y rozsah. Pak n´ahodn´a aln´ı rozdˇelen´ı se stˇredn´ı hodnotou µ(¯x1 −¯x2 ) = µ1 − µ2 veliˇcina X 1 − X 2 m´a (pˇribliˇznˇe) norm´ q a smˇerodatnou odchylkou σ(¯x1 −¯x2 ) = σ12 /n1 + σ22 /n2 . Tud´ıˇz normovan´a n´ahodn´a veliˇcina Z=
(X 1 − X 2 ) − (µ1 − µ2 ) q
(σ12 /n1 ) + (σ22 /n2 )
(5.9)
m´a alespoˇ n pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı. Toto tvrzen´ı tvoˇr´ı teoretick´ y z´aklad pro odvozen´ı statistick´ ych indukˇcn´ıch metod pro porovn´an´ı stˇredn´ıch hodnot dvou z´akladn´ıch soubor˚ u. 73
K APITOLA 5
´ ´ V YB ´ Eˇ R N AHODN Y
Dva nez´ avisl´ e v´ ybˇ ery z rozdˇ elen´ı se shodn´ ymi rozptyly Nyn´ı pˇredpokl´adejme, ˇze σ12 = σ22 = σ 2 a rozptyl σ 2 nen´ı zn´am, coˇz je obvykl´e v praktick´ ych 2 2 2 pˇr´ıpadech. Dosazen´ım hodnoty σ za σ1 a σ2 do definice n´ahodn´e veliˇciny Z ve vztahu (5.9) dostaneme n´ahodnou veliˇcinu Z=
(X 1 − X 2 ) − (µ1 − µ2 ) q
σ (1/n1 ) + (1/n2 )
.
(5.10)
zen´ eho v´ ybˇ erov´ eho rozptylu SP2 V´ ybˇerov´e rozptyly S12 a S22 pouˇzijeme k sestrojen´ı tzv. sdruˇ SP2 =
(n1 − 1)S12 + (n2 − 1)S22 . n1 + n2 − 2
(5.11)
Sdruˇzen´ y v´ ybˇerov´ y rozptyl m˚ uˇzeme ch´apat jako v´aˇzen´ y rozptyl, ve kter´em jednotliv´e v´ ybˇerov´e 2 2 rozptyly S1 a S2 jsou v´aˇzeny odpov´ıdaj´ıc´ımi stupni volnosti. (Index P“ poch´az´ı z anglick´eho ” term´ınu pooled sample variance“, kter´ y znamen´a sdruˇzen´ y v´ ybˇerov´ y rozptyl). Nahrazen´ım ” nezn´am´eho rozptylu σ 2 v rovnici (5.10) sdruˇzen´ ym v´ ybˇerov´ ym rozptylem SP2 , dostaneme n´ahodnou veliˇcinu (X 1 − X 2 ) − (µ1 − µ2 ) q , (5.12) SP (1/n1 ) + (1/n2 ) kter´a na rozd´ıl od n´ahodn´e veliˇciny definovan´e v (5.10), nem´a normovan´e norm´aln´ı rozdˇelen´ı, ale t-rozdˇelen´ı. N´ahodnou veliˇcinu definovanou v (5.12) budeme naz´ yvat sdruˇ zen´ a t-statistika. Jej´ı rozdˇelen´ı specifikuje n´asleduj´ıc´ı tvrzen´ı. Tvrzen´ı 5.7
ˇ ´I SDRU Zˇ EN E´ t- STATISTIKY ROZD ELEN
Pˇredpokl´adejme, ˇze m´ame dva nez´avisl´e n´ahodn´e v´ ybˇery o rozsaz´ıch n1 a n2 z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 . D´ale pˇredpokl´adejme, ˇze smˇerodatn´e odchylky obou rozdˇelen´ı jsou shodn´e. Pak n´ahodn´a veliˇcina T =
X 1 − X 2 − (µ1 − µ2 ) q
SP 1/n1 + 1/n2
,
kde SP je definov´ano v (5.11), m´a t-rozdˇelen´ı s n1 + n2 − 2 stupni volnosti. Dva nez´ avisl´ e v´ ybˇ ery z rozdˇ elen´ı s r˚ uzn´ ymi rozptyly Podobnˇe jako v pˇr´ıpadˇe diskutovan´em v´ yˇse budeme pˇredpokl´adat, ˇze standardn´ı odchylky v obou v´ ybˇerech jsou nezn´am´e. Nahrad´ıme σ1 a σ2 v´ ybˇerov´ ymi smˇerodatn´ ymi odchylkami S1 a S2 a dostaneme n´ahodnou veliˇcinu, (X 1 − X 2 ) − (µ1 − µ2 ) q
(S12 /n1 ) + (S22 /n2 )
,
(5.13)
kter´a jiˇz nem´a normovan´e norm´aln´ı rozdˇelen´ı, ale m´a pˇribliˇznˇe t-rozdˇelen´ı. Tuto statistiku budeme naz´ yvat nesdruˇ zen´ a t-statistika . 74
´ ´ N AHODN ´ ´ V YB ´ Eˇ RY 5.5 P AROV E E
Tvrzen´ı 5.8
ˇ ´I NESDRU ZEN ˇ E´ t- STATISTIKY ROZD ELEN
Pˇredpokl´adejme, ˇze m´ame dva nez´avisl´e v´ ybˇery o rozsahu n1 a n2 z norm´aln´ıch rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 . Pak m´a n´ahodn´a veliˇcina (X 1 − X 2 ) − (µ1 − µ2 ) T = q (S12 /n1 ) + (S22 /n2 ) pˇribliˇznˇe t-rozdˇelen´ı s poˇctem stupˇ n˚ u volnosti δ, kde δ=
[(s21 /n1 ) + (s22 /n2 )]2 (s21 /n1 )2 n1 −1
+
(s22 /n2 )2 n2 −1
,
zaokrouhleno dol˚ u na nejbliˇzˇs´ı cel´e ˇc´ıslo.
5.4.2
Dva nez´ avisl´ e v´ ybˇ ery z alternativn´ıho rozdˇ elen´ı
M´ame-li dva nez´avisl´e n´ahodn´e v´ ybˇery o rozsahu n1 a n2 z alternativn´ıch rozdˇelen´ı s parametry (pod´ıly) p1 a p2 , pak je v´ ybˇerov´ y pod´ıl pˆi , i = 1, 2 roven v´ ybˇerov´emu pr˚ umˇeru Xi . Z tvrzen´ı 5.5 a 5.6 plyne n´asleduj´ıc´ı tvrzen´ı 5.9, kter´e tvoˇr´ı teoretick´ y z´aklad nutn´ y pro odvozen´ı statistick´ ych indukˇcn´ıch metod pro porovn´an´ı dvou dvoukategori´aln´ıch z´akladn´ıch soubor˚ u. Tvrzen´ı 5.9
ˇ ´I ROZD ´I LU DVOU V YB ´ Eˇ ROV YCH ´ ˚ ( NEZ AVISL ´ ´ V YB ´ Eˇ RY ) ROZD ELEN POD ´I L U E
Pˇredpokl´adejme, ˇze m´ame dva nez´avisl´e n´ahodn´e v´ ybˇery o rozsaz´ıch n1 a n2 z alternativn´ıch rozdˇelen´ı s pod´ıly p1 a p2 . Pak pro velk´e v´ ybˇery m´a n´ahodn´a veliˇcina pˆ1 − pˆ2 pˇribliˇznˇe norm´aln´ı q rozdˇelen´ı se stˇredn´ı hodnotou µ(ˆp1 −ˆp2 ) = p1 − p2 a smˇerodatnou odchylkou σ(ˆp1 −ˆp2 ) = p1 (1 − p1 )/n1 + p2 (1 − p2 )/n2 , kde pˆi = xi /ni je v´ ybˇerov´ y pod´ıl i-t´e populace, xi je poˇcet u ´spˇech˚ u v i-t´e populaci, i = 1, 2. Tud´ıˇz normovan´a n´ahodn´a veliˇcina (ˆ p1 − pˆ2 ) − (p1 − p2 )
Z=q
p1 (1 − p1 )/n1 + p2 (1 − p2 )/n2
m´a pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı.
5.5
P´ arov´ e n´ ahodn´ e v´ ybˇ ery
Necht’ X1 = (X11 , X12 , · · · , X1n ) je n´ahodn´ y v´ ybˇer rozsahu n z rozdˇelen´ı se stˇredn´ı hodno2 y v´ ybˇer stejn´eho rozsahu n tou µ1 a rozptylem σ1 , a X2 = (X21 , X22 , · · · , X2n ) je n´ahodn´ ybˇer˚ u utvoˇr´ıme v´ ybˇer z rozdˇelen´ı se stˇredn´ı hodnotou µ2 a rozptylem σ22 . Z tˇechto dvou v´ n dvojic (X11 , X21 ), (X12 , X22 ), ..., (X1n , X2n ). Kaˇzd´e dvojici veliˇcin (X1j , X2j ), j = 1, 2, · · · , n pˇriˇrad´ıme n´ahodnou veliˇcinu Dj = X1j − X2j , j = 1, 2, · · · , n, tzv. p´ arovou diferenci, kterou z´ısk´ame odeˇcten´ım pˇr´ısluˇsn´e p´arov´e hodnoty v druh´em v´ ybˇeru od p´arov´e hodnoty v prvn´ım v´ ybˇeru. Na posloupnost p´arov´ ych diferenc´ı D1 , D2 , · · · , Dn n´ahodnˇe vybran´ ych n dvojic se m˚ uˇzeme d´ıvat jako na n´ahodn´ y v´ ybˇer z rozdˇelen´ı vˇsech moˇzn´ ych p´arov´ ych diferenc´ı. Oznaˇcme stˇredn´ı hodnotu takov´eho rozdˇelen´ı p´arov´ ych diferenc´ı µd . 75
K APITOLA 5
´ ´ V YB ´ Eˇ R N AHODN Y
Pak lze uk´azat, ˇze µd = µ1 − µ2 .
(5.14)
O vztahu rozptylu σd2 rozdˇelen´ı p´arov´ ych diferenc´ı k rozptyl˚ um σ12 a σ22 nem˚ uˇzeme vzhledem ybˇerov´ y pr˚ umˇer p´arov´ ych diferenc´ı, k moˇzn´e z´avislosti veliˇcin nic pˇredpokl´adat. Oznaˇcme D v´ tud´ıˇz D = X 1 −X 2 , kde X i je v´ ybˇerov´ y pr˚ umˇer n´ahodn´eho v´ ybˇeru z i-t´eho rozdˇelen´ı, i = 1, 2. D´ale oznaˇcme Sd v´ ybˇerovou smˇerodatnou odchylku p´arov´ ych diferenc´ı pro kterou plat´ı v u u Sd = t
n 1 X (Dj − D)2 . n − 1 j=1
(5.15)
Je-li rozdˇelen´ı p´arov´ ych diferenc´ı norm´aln´ı, pak m˚ uˇzeme aplikovat tvrzen´ı 5.3, pouˇz´ıt rovnost (5.14) a dostaneme n´asleduj´ıc´ı v´ ysledek. Tvrzen´ı 5.10
ˇ ´I P AROV ´ ´ t- STATISTIKY ROZD ELEN E
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer n dvojic z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 . D´ale pˇredpokl´adejme, ˇze rozdˇelen´ı vˇsech p´arov´ ych dvojic je norm´aln´ı. Pak n´ahodn´a veliˇcina D − (µ1 − µ2 ) √ T = Sd / n m´a t-rozdˇelen´ı s n − 1 stupni volnosti.
76
Kapitola 6 Z´ aklady teorie odhadu parametr˚ u Tato kapitola vych´az´ı z v´ ysledk˚ u kapitoly 5. Budeme se zab´ yvat probl´emem odhadov´an´ı parametr˚ u rozdˇelen´ı. Vysvˇetl´ıme, jak´e vlastnosti by mˇely m´ıt odhady a jak je sestrojovat.
6.1
Bodov´ e a intervalov´ e odhady
Odhad nezn´am´eho parametru (charakteristiky) rozdˇelen´ı nebo z´akladn´ıho souboru lze prov´est dvˇema zp˚ usoby. Prvn´ı zp˚ usob spoˇc´ıv´a v tom, ˇze z hodnot v´ ybˇerov´eho souboru vypoˇc´ıt´ame jedno ˇc´ıslo - hodnotu statistiky a tu prohl´as´ıme za odhad odpov´ıdaj´ıc´ıho parametru (charakteristiky). Tento odhad jedn´ım ˇc´ıslem se naz´ yv´a bodov´ y odhad. Definice 6.1
B ODOV Y´ ODHAD
Bodovy´ odhad parametru je hodnota statistiky, kterou pouˇ zijeme pro odhad parametru.
Jak jsme se jiˇz zm´ınili v kapitole 5, nebylo by rozumn´e oˇcek´avat, ˇze v´ ybˇerov´a charakteristika bude pˇresnˇe rovna parametru rozdˇelen´ı nebo charakteristice z´akladn´ıho souboru. Potˇrebujeme vˇedˇet, jak pˇresn´ y bude n´aˇs odhad. Toho doc´ıl´ıme t´ım, ˇze bodov´ y odhad parametru pouˇzijeme k sestrojen´ı intervalu hodnot a stanov´ıme pravdˇepodobnost s jakou parametr leˇz´ı v tomto intervalu. Definice 6.2
I NTERVALOV Y´ ODHAD
Intervalovy´ odhad parametru je odhad pomoc´ı intervalu, kter´ y z´ısk´ame z bodov´eho
odhadu parametru a zad´an´ım pravdˇepodobnosti s jakou parametr leˇz´ı v tomto intervalu. Pˇredpokl´adejme, ˇze X = (X1 , X2 , ..., Xn ) je n´ahodn´ y v´ ybˇer z rozdˇelen´ı, kter´e z´avis´ı na nezn´am´em parametru θ =(θ1 , ..., θk ). Na z´akladˇe pozorovan´ ych hodnot vektoru X chceme odhadnout parametr θ, o kter´em je pˇredem zn´amo pouze tolik, ˇze patˇr´ı do mnoˇziny Θ ⊆ Rk . Tuto mnoˇzinu pˇr´ıpustn´ ych hodnot parametru θ budeme naz´ yvat parametrick´ y prostor. Statistika T = T (X1 , X2 , · · · , Xn ), kterou pouˇzijeme k odhadov´an´ı parametru θ se naz´ yv´a odhadov´ a statistika. Jej´ı hodnota T (x) je pak bodov´ y odhad parametru θ z´ıskan´ y na z´akladˇe konkr´etn´ı realizace x = (x1 , x2 , ..., xn ) n´ahodn´eho v´ ybˇeru. Pro jednoduchost se omez´ıme na pˇr´ıpad jednorozmˇern´eho parametru θ. 77
K APITOLA 6
6.2
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Vlastnosti bodov´ ych odhad˚ u
Provedeme-li v´ ybˇer rozsahu n ze z´akladn´ıho souboru, lze z nˇeho zpravidla z´ıskat nˇekolik r˚ uzn´ ych statistik, kter´e je moˇzno pouˇz´ıt k odhadu charakteristiky z´akladn´ıho souboru. Kdybychom napˇr´ıklad mˇeli odhadnout stˇredn´ı hodnotu symetrick´eho rozdˇelen´ı, lze k odhadov´an´ı pouˇz´ıt tˇri statistiky: medi´an, aritmetick´ y pr˚ umˇer z v´ ybˇerov´ ych pozorov´an´ı a poloviˇcn´ı souˇcet nejmenˇs´ı a nejvˇetˇs´ı v´ ybˇerov´e hodnoty. Tyto tˇri statistiky ned´avaj´ı zˇrejmˇe stejnˇe kvalitn´ı odhady stˇredn´ı hodnoty rozdˇelen´ı. K odhadu charakteristiky z´akladn´ıho souboru nevol´ıme tedy jakoukoliv statistiku, n´ ybrˇz takovou statistiku, kter´a splˇ nuje urˇcit´a krit´eria. Uvedeme ta nejd˚ uleˇzitˇejˇs´ı.
6.2.1
Nestrann´ e odhady
D˚ uleˇzit´ y poˇzadavek kladen´ y na zvolenou statistiku je, aby nevedla k systematick´emu nadhodnocov´an´ı nebo podhodnocov´an´ı odhadovan´e charakteristiky, tj. aby nevedla k systematick´ ym chyb´am. Chceme tedy, aby stˇredn´ı hodnota statistiky byla rovna odhadovan´emu parametru. Definice 6.3
N ESTRANN Y´ ODHAD
Statistika T je nestrannym ym, nezkreslenym) odhadem parametru θ, plat´ı-li ´ (nevychylen ´ ´ ´ pro kaˇzd´e θ ∈ Θ E(T ) = θ. Pozn´ amka: Ve vˇsech pˇr´ıkladech v tomto odstavci budeme pˇredpokl´adat, ˇze m´ame n´ahodn´ y v´ ybˇer (X1 , X2 , · · · , Xn ) z rozdˇelen´ı se stˇredn´ı hodnotou µ a koneˇcn´ ym rozptylem σ 2 . Pˇ r´ıklad 6.1 Nestrann´e odhady ˚ er X je nestrannym ´ odhadem stˇredn´ı hodnoty µ rozdˇelen´ı a zˇe v´ybˇerovy´ Ukaˇzte, zˇe vy´ bˇerov´y prumˇ rozptyl S 2 je nestranny´ m odhadem rozptylu σ 2 . ˇ sen´ı: Z rovnice (5.1) plyne, zˇe E(X) = µ. K urˇcen´ı E(S 2 ) vyuˇzijeme rovnosti S 2 = n M2 a nejprve Reˇ n−1 odvod´ıme E(M2 ).
E(M2 )
=
n n 1 X 1 X E( (Xi − X)2 ) = E( (Xi − µ + µ − X)2 ) n i=1 n i=1 n
= =
¤ 1 X£ E(Xi − µ)2 − 2E(Xi − µ)E(X − µ) + E(X − µ)2 n i=1 ¶ n µ 1X n−1 2 1 2 2 σ . σ − σ = n i=1 n n
(6.1)
n ´ ˇ jsme Z rovnice (6.1) vyply´ va´ E(S 2 ) = n−1 E(M2 ) = σ 2 . Tud´ızˇ S 2 je nestranny´ odhad σ 2 . Zarove n 2 ´ ´ ´ odhadem rozptylu σ . ukazali, zˇe M2 je vychylen ym
Rozd´ıl B(θ) = E(T ) − θ se naz´ yv´a vych´ ylen´ı (zkreslen´ı) odhadu T .
78
(6.2)
´ ˚ 6.2 V LASTNOSTI BODOV YCH ODHAD U
Pˇ r´ıklad 6.2 Vych´ylen´ı odhadu ´ ´ er pochaz´ ´ ı. Urˇcete vychylen´ ı odhadu M2 rozptylu σ 2 rozdˇelen´ı, z nˇehoˇz vybˇ 2 ˇ sen´ı: B(σ ) = E(M2 ) − σ 2 = n−1 σ 2 − σ 2 = 1 σ 2 . Vychy´ len´ı odhadu M2 rozptylu σ 2 je rovno σ 2 /n. Reˇ n n
Jestliˇze se pˇri rostouc´ım rozsahu v´ ybˇeru vych´ ylen´ı zmenˇsuje, tj. jestliˇze lim [E(T ) − θ] = 0,
(6.3)
n→∞
pak T se naz´ yv´a asymptoticky nestrann´ y odhad . Pˇ r´ıklad 6.3 Asymptoticky nestrann´y odhad ´ erovy´ centraln´ ´ ı moment je asymptoticky nestrannym ´ odhadem rozptylu. Ukaˇzte, zˇe druhy´ vybˇ ˇ sen´ı: Toto tvrzen´ı vyplyv ´ a´ pˇr´ımo z vysledku ´ Reˇ pˇr´ıkladu 6.1. Plat´ı 1 2 σ = 0. n→∞ n
lim [E(M2 ) − σ 2 ] = lim
n→∞
6.2.2
Konzistentn´ı odhady
V nˇekter´ ych pˇr´ıpadech jsme nuceni pracovat s vych´ ylen´ ymi odhady. Pak poˇzadujeme, aby odhad byl konzistentn´ı, tj. aby se pro rostouc´ı rozsah v´ ybˇeru bl´ıˇzil odhadovan´emu parametru. Definice 6.4
KONZISTENTN ´I ODHAD
Statistika T je konzistentn´ım odhadem parametru θ, plat´ı-li pro kaˇzd´e ² > 0 lim P (| T − θ |< ²) = 1.
n→∞
Jin´ ymi slovy, odhad T je konzistentn´ım odhadem parametru θ, jestliˇze konverguje podle pravdˇepodobnosti k θ. Podm´ınka konzistence tedy vyjadˇruje poˇzadavek, aby s rostouc´ım rozsahem v´ ybˇeru rostla i pravdˇepodobnost, ˇze pouˇzit´a statistika T bude m´ıt hodnotu liˇs´ıc´ı se od hodnoty odhadovan´eho parametru jen velmi m´alo (dokonce libovolnˇe m´alo). Tvrzen´ı 6.1
ˇ ´I C ´I PODM ´I NKA PRO P OSTA CUJ
KONZISTENCI
Necht’ pro T plat´ı lim B(θ) = 0 a
lim D(T ) = 0,
n→∞
n→∞
pak T je konzistentn´ı odhad θ. ˇ D˚ ukaz plyne z aplikace Cebyˇ sevovy nerovnosti (4.32) na P (| T − θ |) v definici 6.4. Pˇ r´ıklad 6.4 Konzistentn´ı odhad ´ erovy´ prumˇ ˚ er X je konzistentn´ım odhadem stˇredn´ı hodnoty µ. Ukaˇzte, zˇe vybˇ ˇ Reˇsen´ı: Vzhledem k tomu, zˇ e E(X) = µ a D(X) = σ 2 /n dostaneme B(µ) = E(X) − µ = 0,
σ2 =0 n→∞ n
lim D(X) = lim
n→∞
a tedy pˇredpoklady tvrzen´ı 6.1 jsou splnˇeny.
79
(6.4)
K APITOLA 6
6.2.3
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Vydatnost odhad˚ u
V nˇekter´ ych pˇr´ıpadech lze naj´ıt v´ıce statistik, kter´e jsou nestrann´e a konzistentn´ı. V takov´em pˇr´ıpadˇe pouˇzijeme k odhadov´an´ı parametru tu z nich, kter´a m´a nejmenˇs´ı rozptyl. O statistice, kter´a m´a ze vˇsech nestrann´ ych odhad˚ u nejmenˇs´ı rozptyl, ˇr´ık´ame, ˇze je vydatn´ ym (nejlepˇ s´ım nestrann´ ym) odhadem parametru θ. Necht’ T a U jsou dva nestrann´e odhady parametru θ, pak vydatnost odhadu T vzhledem k odhadu U je definov´ana vztahem e(T, U ) =
D(U ) . D(T )
(6.5)
I kdyˇz v´ ybˇerov´a charakteristika bude splˇ novat vˇsechny v´ yˇse uveden´e poˇzadavky, je zˇrejm´e, ˇze jej´ı hodnota vypoˇcten´a na z´akladˇe u ´daj˚ u z´ıskan´ ych n´ahodn´ ym v´ ybˇerem se bude prakticky vˇzdy urˇcit´ ym zp˚ usobem liˇsit od odhadovan´eho parametru rozdˇelen´ı nebo charakteristiky z´akladn´ıho souboru. D˚ usledkem t´eto odliˇsnosti je vznik tzv. v´ ybˇ erov´ e chyby , tj. rozd´ılu θ − T. Nyn´ı pˇredpokl´adejme, ˇze srovn´av´ame vych´ ylen´e i nestrann´e odhady parametru θ jako na obr´azku 6.1. V takov´em pˇr´ıpadˇe jiˇz nemus´ı b´ yt vhodn´e vybrat odhad s nejmenˇs´ım rozptylem. Odhad T m´a sice nejmenˇs´ı rozptyl, ale jako odhad se ned´a pouˇz´ıt, nebot’ m´a velk´e vych´ ylen´ı. Ani odhad s nejmenˇs´ım vych´ ylen´ım vˇsak nemus´ı b´ yt nejvhodnˇejˇs´ı. Odhad U m´a nulov´e vych´ ylen´ı, ale jako odhad nen´ı pˇr´ıliˇs uspokojiv´ y, nebot’ jeho rozptyl je pˇr´ıliˇs velk´ y. Jako nejlepˇs´ı se jev´ı odhad V , kter´ y m´a nejlepˇs´ı kombinaci mal´eho vych´ ylen´ı a mal´eho rozptylu. Obr´ azek 6.1 Odhad V s nejlepˇs´ı kombinac´ı mal´eho vych´ylen´ı a rozptylu p(t)
p(v) p(u) Θ skuteˇcn´a hodnota
Pˇresnost bodov´eho odhadu lze mˇeˇrit pomoc´ı stˇ redn´ı kvadratick´ e chyby M SE(T ) statistiky T . Definice 6.5
ˇ ´I KVADRATICK A´ CHYBA S T REDN
Stˇredn´ı kvadraticka´ chyba statistiky T pro odhad parametru θ je definov´ ana jako
M SE(T ) = E(T − θ)2 = D(T ) + B 2 (θ) (M SEodhadu = (rozptyl odhadu + (jeho vych´ ylen´ı)2 ). Na rozd´ıl od v´ ybˇerov´e chyby, stˇredn´ı kvadratick´a chyba neud´av´a velikost v´ ybˇerov´e chyby pˇri odhadov´an´ı na z´akladˇe u ´daj˚ u jednoho konkr´etn´ıho v´ ybˇeru, ale charakterizuje, jak´a je pr˚ umˇern´a“ v´ ybˇerov´a chyba odhad˚ u pˇrich´azej´ıc´ıch v u ´vahu pˇri vˇsech r˚ uzn´ ych v´ ybˇerech ” 80
´ ˚ 6.3 N Eˇ KTER E´ METODY BODOV YCH ODHAD U
dan´eho rozsahu. Protoˇze jde o kombinaci dvou poˇzadovan´ ych vlastnost´ı, totiˇz mal´eho vych´ ylen´ı a mal´eho rozptylu, st´av´a se pojem minim´aln´ı stˇredn´ı kvadratick´e chyby (neboli maxim´aln´ı vydatnosti) univerz´aln´ım krit´eriem pro posouzen´ı dvou odhad˚ u. Vyb´ır´ame odhad, kter´ y m´a nejmenˇs´ı stˇredn´ı kvadratickou chybu. Toto potvrzuje dva pˇredchoz´ı z´avˇery. Jestliˇze porovn´av´ame dva odhady se stejn´ ym rozptylem, d´av´ame pˇrednost odhadu s menˇs´ım vych´ ylen´ım. A pokud srovn´av´ame dva odhady se stejn´ ym vych´ ylen´ım, pak je vhodnˇejˇs´ı ten, kter´ y m´a menˇs´ı rozptyl. Je-li statistika T nestrann´ ym odhadem parametru θ, pak z (6.2) a z definice 6.5 plyne, ˇze stˇredn´ı kvadratick´a chyba odhadu jeqrovna rozptylu a tud´ıˇz pˇresnost nestrann´eho odhadu q q lze 2 mˇeˇrit pomoc´ı smˇerodatn´e odchylky D(T ) = E(T − E(T )) statistiky T. Veliˇcina D(T ) se naz´ yv´a stˇ redn´ı chyba. Pˇ r´ıklad 6.5 Stˇredn´ı kvadratick´ a chyba Spoˇctˇete stˇredn´ı kvadratickou chybu statistiky S 2 a statistiky M2 . ˇ sen´ı: Uvaˇzujme nejprve statistiku S 2 , ktera´ je nestranny´ m odhadem σ 2 . Plat´ı, zˇe Reˇ M SE(S 2 ) = D(S 2 ) = E(S 2 − σ 2 )2 = E(S 4 ) − 2σ 2 E(σ 2 ) + σ 4 = E(S 4 ) − σ 4 =
2σ 4 . n−1
Pro stˇredn´ı kvadratickou chybu statistiky M2 dostaneme M SE(M2 ) = E(M2 − σ 2 )2 = E(M22 ) − 2 to je m´enˇe neˇz M SE(S 2 ), nebot’ smyslu.
2n−1 n2
<
2 n−1 .
2−n 4 2n − 1 4 n−1 4 σ + σ 4 = E(M22 ) + σ = σ , n n n2
Kaˇzd´y z tˇechto dvou odhadu˚ rozptylu je lepˇs´ı v jin´em
Pro kaˇzd´e dva odhady T a U parametru θ, vych´ ylen´e i nestrann´e, definujeme relativn´ı vydatnost odhadu T vzhledem k U jako vydatnost odhadu T vzhledem k U =
M SE(U ) . M SE(T )
(6.6)
Pˇ r´ıklad 6.6 Relativn´ı vydatnost ´ ´ er 500 pozorovan´ ´ ı z rozdˇelen´ı s rozptylem σ 2 a ztratili zaznam ´ Ekonomov´e provedli nahodn´ y vybˇ ´ ı. Maj´ı tedy k dispozici pouze 300 pozorovan´ ´ ı, ze kterych ´ posledn´ıch 200 pozorovan´ budou poˇc´ıtat ´ erovy´ prumˇ ˚ er X 300 . Jaka´ je vydatnost tohoto prumˇ ˚ eru X 300 vzhledem k prumˇ ˚ eru X 500 , ktery´ vybˇ ˚ ´ eru o rozsahu n = 500 ? mohli z´ıskat z puvodn´ ıho vybˇ ˇ sen´ı: Oba odhady jsou nestrann´e. Tud´ızˇ stˇredn´ı kvadraticka´ chyba obou odhadu ˚ je rovna jejich Reˇ rozptylu a vydatnost X 300 vzhledem k X 500 je e(X 300 , X 500 ) =
6.3
D(X 500 ) = D(X 300 )
σ2 500 σ2 300
=
3 . 5
Nˇ ekter´ e metody bodov´ ych odhad˚ u
Zat´ım jsme pojedn´avali o vlastnostech r˚ uzn´ ych odhad˚ u a nezab´ yvali jsme se ot´azkou, jak odhady odvozovat. Nyn´ı pop´ıˇseme dvˇe z nejˇcastˇeji pouˇz´ıvan´ ych metod pro hled´an´ı odhad˚ u, a to metodu moment˚ u a metodu maxim´aln´ı vˇerohodnosti. 81
K APITOLA 6
6.3.1
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Metoda moment˚ u
Uvaˇzujme rozdˇelen´ı, kter´e z´avis´ı na r ≥ 1 re´aln´ ych parametrech θ1 , θ2 , · · · , θr a mˇejme n´ahodn´ y v´ ybˇer z tohoto rozdˇelen´ı. Odhady parametr˚ u θ1 , θ2 , · · · , θr metodou moment˚ u se naleznou tak, ˇze se pro k = 1, 2, · · · , r vypoˇcte na z´akladˇe konkr´etn´ı realizace (x1 , x2 , · · · , xn ) 0 0 n´ahodn´eho v´ ybˇeru hodnota m0k v´ ybˇerov´eho k-t´eho obecn´eho momentu Mk a mk se poloˇz´ı rovno k-t´emu obecn´emu momentu rozdˇelen´ı EXik = µ0k , tj. µ0k
n 1X xki , = n i=1
k = 1, 2, · · · , r.
(6.7)
T´ım dostaneme r rovnic, jejichˇz ˇreˇsen´ım najdeme odhady θˆ1 , θˆ2 , · · · , θˆr parametr˚ u θ1 , θ2 , · · · , θr . 0 V´ ybˇerov´ y moment Mk je aritmetick´ y pr˚ umˇer n n´ahodn´ ych veliˇcin, tedy existuje-li k-t´ y k 0 k obecn´ y moment EXi , pak Mk konverguje podle pravdˇepodobnosti k E(Xi ) podle Chinˇcinovy vˇety (viz odstavec 4.4.1), tud´ıˇz Mk0 je konzistentn´ım a tak´e nestrann´ ym odhadem EXik . Pˇ r´ıklad 6.7 Odhad parametru λ rozdˇelen´ı P (λ) metodou moment˚ u ´ ´ eru z Poissonova rozdˇelen´ı P(λ), dostaneme rovnici V pˇr´ıpadˇe nahodn´ eho vybˇ 0
λ = m1 , ˆ parametru λ z´ıskanym ˆ=x ´ metodou momentu ˚ je λ takˇze odhadem λ ¯.
Pˇ r´ıklad 6.8 Odhad parametr˚ u µ a σ 2 rozdˇelen´ı N (µ, σ 2 ) metodou moment˚ u ´ ´ eru z normaln´ ´ ıho rozdˇelen´ı vede metoda momentu˚ na rovnice V pˇr´ıpadˇe nahodn´ eho vybˇ 0
µ = m1 ,
0
σ 2 + (µ)2 = m2 ,
´ a, ´ zˇe odhady parametru ˚ µ a σ 2 , z´ıskan´e metodou momentu ˚ jsou odkud vyplyv n
µ ˆ=x ¯,
6.3.2
n
1X 2 1X n−1 2 σˆ2 = ¯2 = xi − x (xi − x ¯ )2 = s . n i=1 n i=1 n
(6.8)
Metoda maxim´ aln´ı vˇ erohodnosti
Necht’ (X1 , X2 , · · · , Xn ) je n´ahodn´ y v´ ybˇer z rozdˇelen´ı s hustotou f (x, θ), respektive s pravdˇepodobnostn´ı funkc´ı P (Xi = xi ) = p(xi , θ), obsahuj´ıc´ı nezn´am´ y jednorozmˇern´ y parametr θ patˇr´ıc´ı do nˇejak´eho nepr´azdn´eho otevˇren´eho intervalu Θ ⊆ R. Pak n´ahodn´ y vektor X = (X1 , X2 , · · · , Xn ) m´a sdruˇzenou hustotu rozdˇelen´ı respektive sdruˇzenou pravdˇepodobnostn´ı funkci g(x, θ) = g(x1 , x2 , · · · , xn , θ) = f (x1 , θ)f (x2 , θ) · · · f (xn , θ) (6.9) resp. g(x, θ) = g(x1 , x2 , · · · , xn , θ) = p(x1 , θ)p(x2 , θ) · · · p(xn , θ).
(6.10)
Hustota g(x, θ) reprezentuje funkci promˇenn´e x pˇri pevnˇe dan´e hodnotˇe θ. Pˇri kaˇzd´e pevn´e hodnotˇe x lze g(x, θ) ch´apat jako funkci promˇenn´e θ. Pro tuto funkci budeme pouˇz´ıvat 82
´ ˚ 6.3 N Eˇ KTER E´ METODY BODOV YCH ODHAD U
oznaˇcen´ı L(θ, x) a naz´ yvat ji vˇ erohodnostn´ı funkce. Pro libovolnou dvojici (x, θ) samozˇrejmˇe plat´ı L(θ, x) = g(x, θ). Jde jen o to, ˇze uˇzit´ım symbolu L poukazujeme na tuto funkci jako na funkci promˇenn´e θ pˇri dan´em x. Existuje-li takov´e θˆ ∈ Θ, ˇze pro kaˇzd´e θ ∈ Θ plat´ı ˆ x) ≥ L(θ, x), L(θ,
(6.11)
pak θˆ naz´ yv´ame maxim´ alnˇ e vˇ erohodn´ ym odhadem parametru θ. Maxim´alnˇe vˇerohodn´ y ˆ odhad parametru θ je takov´a hodnota θ ∈ Θ, pˇri kter´e hodnota vˇerohodnostn´ı funkce je maxim´aln´ı (tj. pˇri dan´e realizaci (x1 , x2 , · · · , xn ) je θˆ nejvˇerohodnˇejˇs´ı“). ” M´ısto vˇerohodnostn´ı funkce je nˇekdy v´ yhodnˇejˇs´ı pracovat s jej´ım logaritmem a potom budeme mluvit o logaritmick´ e vˇ erohodnostn´ı funkci L(θ, x) = ln L(θ, x). Jelikoˇz funkce ln L je rostouc´ı funkc´ı L, plat´ı pro maxim´alnˇe vˇerohodn´ y odhad θˆ tak´e ˆ x) ≥ L(θ, x) L(θ,
(6.12)
pro kaˇzd´e θ ∈ Θ. Obecnˇe nejsou maxim´alnˇe vˇerohodn´e odhady nestrann´e. Existuje-li pro kaˇzd´e x derivace ∂L(θ, x)/∂θ, pak θˆ mus´ı b´ yt ˇreˇsen´ım rovnice ∂L(θ, x) =0 ∂θ
(6.13)
a vzhledem k (6.12) je tak´e ˇreˇsen´ım rovnice ∂L(θ, x) = 0. ∂θ
(6.14)
V matematick´e statistice se rovnice (6.14) naz´ yv´a vˇ erohodnostn´ı rovnice. Pˇ r´ıklad 6.9 Maxim´ alnˇe vˇerohodn´y odhad parametru b rozdˇelen´ı U (0, b) ´ ´ er z U(0, b)-rozdˇelen´ı. Urˇcete maximalnˇ ´ e vˇerohodny´ odhad Necht’ (X1 , X2 , · · · , Xn ) je nahodn´ y vybˇ parametru b. ˇ sen´ı: Vˇerohodnostn´ı funkce ma´ v tomto pˇr´ıpadˇe tvar Reˇ L(b, x) = L(b, x1 , x2 , · · · , xn ) =
1 . bn
Protoˇze b > xi , i = 1, 2, · · · , n, plat´ı L(x(n) , x1 , x2 , · · · , xn ) = pro vˇsechna b > 0, takˇze
1 xn(n)
>
1 bn
ˆb = x(n)
´ e vˇerohodnym ´ odhadem parametru b. je maximalnˇ
Pˇ r´ıklad 6.10 Maxim´ alnˇe vˇerohodn´y odhad parametru λ rozdˇelen´ı P(λ) ´ ´ er z P(λ)-rozdˇelen´ı. Urˇcete maximalnˇ ´ e vˇerohodn´y odhad Necht’ (X1 , X2 , · · · , Xn ) je nahodn y´ vybˇ parametru λ. ˇ sen´ı: V pˇr´ıpadˇe vybˇ ´ eru z Poissonova rozdˇelen´ı ma´ vˇerohodnostn´ı funkce tvar Reˇ L(λ, x) = λ
Pn i=1
xi −nλ
e
83
1 . x1 !x2 ! · · · xn !
K APITOLA 6
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Logaritmicka´ vˇerohodnostn´ı funkce je pak n X
L(λ, x) =
xi ln λ − nλ −
i=1
n X
ln xi.
i=1
´ e vˇerohodn´y odhad nalezneme rˇeˇsen´ım vˇerohodnostn´ı rovnice (6.14) Maximalnˇ n
−n + ´ a´ odkud vyplyv
1X Xi = 0, λ i=1 n
X ˆ= 1 λ xi = x ¯. n i=1
Maxim´ alnˇ e vˇ erohodn´ e odhady pro k ≥ 2 parametr˚ u Necht’ (X1 , X2 , · · · , Xn ) je n´ahodn´ y v´ ybˇer z rozdˇelen´ı s r ≥ 2 nezn´am´ ymi parametry θ1 , · · · , θr . Maxim´alnˇe vˇerohodn´ ymi odhady parametr˚ u θ1 , θ2 , · · · , θr nazveme statistiky θˆ1 , θˆ2 , · · · , θˆr , pro nˇeˇz plat´ı L(θˆ1 , θˆ2 , · · · , θˆr , x) ≥ L(θ1 , θ2 , · · · , θr , x) (6.15) resp.
L(θˆ1 , θˆ2 , · · · , θˆr , x) ≥ L(θ1 , θ2 , · · · , θr , x)
(6.16)
pro kaˇzd´e (θ1 , θ2 , · · · , θr ) ∈ ⊆ Rr . Maxim´alnˇe vˇerohodn´ y odhad vektoru θ = (θ1 , θ2 , · · · , θr ) je urˇcen ˇreˇsen´ım soustavy vˇ erohodnostn´ıch rovnic ∂L(θ, x) = 0, i = 1, 2, · · · , r. ∂θi
(6.17)
Pˇ r´ıklad 6.11 Maxim´ alnˇe vˇerohodn´y odhad vektoru parametr˚ u (µ, σ 2 ) rozdˇelen´ı N (µ, σ 2 ) ´ ´ e vˇerohodny´ odhad Necht’ (X1 , X2 , · · · , Xn ) je nahodn´ y v´ybˇer z N (µ, σ 2 )-rozdˇelen´ı. Urˇcete maximalnˇ 2 ˚ µaσ . parametru ˇ sen´ı: V tomto pˇr´ıpadˇe ma´ logaritmicka´ vˇerohodnostn´ı funkce tvar Reˇ L(µ, σ 2 , x) = −
n n n 1 X ln 2π − ln σ 2 − 2 (xi − µ)2 . 2 2 2σ i=1
´ e vˇerohodn´e odhady parametru ˚ µ a σ 2 se naleznou rˇeˇsen´ım vˇerohodnostn´ıch rovnic Maximalnˇ 2 2 2 ∂L(µ, σ , x)/∂µ = 0 a ∂L(µ, σ , x)/∂σ = 0, tj. rˇeˇsen´ım rovnic n 1 X (xi − µ) = 0, σ 2 i=1
´ ame ´ Dostav tedy
n 1 X n − 2+ (xi − µ)2 = 0. 2σ 2(σ 2 )2 i=1
n
µ ˆ=x ¯,
σ2 =
1X n−1 2 s . (xi − x ¯)2 = n i=1 n
Vid´ıme, ˇze odhady parametr˚ u µ a σ 2 norm´aln´ıho rozdˇelen´ı metodou moment˚ u a metodou maxim´aln´ı vˇerohodnosti jsou shodn´e. 84
6.4 I NTERVALY SPOLEHLIVOSTI
6.4
Intervaly spolehlivosti
V pˇredch´azej´ıc´ıch odstavc´ıch jsme se zab´ yvali vlastnostmi a metodami urˇcen´ı bodov´ ych odhad˚ u parametru θ. Pˇri praktick´em pouˇz´ıv´an´ı odhadu parametru rozdˇelen´ı je tˇreba si uvˇedomit, ˇze se bodov´ y odhad parametru t´emˇeˇr vˇzdy liˇs´ı od skuteˇcn´e hodnoty parametru. Z toho d˚ uvodu potˇrebujeme z´ıskat informaci o pˇresnosti odhadu. To m˚ uˇzeme udˇelat pomoc´ı intervalov´eho odhadu parametru. Nyn´ı se tˇemito odhady budeme zab´ yvat. Definice 6.6
I NTERVAL SPOLEHLIVOSTI , KOEFICIENT SPOLEHLIVOSTI
Interval (θD , θH ) je 100(1 − α) procentn´ım intervalem spolehlivosti pro θ, 0 < α < 1, jestliˇze θD a θH jsou dvˇe statistiky takov´e, ˇze plat´ı: P (θD < θ < θH ) = 1 − α ˇ ıslo 1 − α se naz´ pro kaˇzd´e θ ∈ Θ. C´ yv´a koeficient spolehlivosti. Interval spolehlivosti se tak´e naz´ yv´a konfidenˇ cn´ı interval pro θ. Z definice 6.6 intervalu spolehlivosti vypl´ yv´a, ˇze pravdˇepodobnost toho, ˇze interval (θD , θH ) pokryje spr´avnou hodnotu parametru θ, je rovna 1 − α. Interval spolehlivosti pro parametr θ m˚ uˇzeme tak´e zadat nerovnost´ı θ > θD pˇr´ıp. θ < θH . Takto zadan´e intervaly spolehlivosti jsou jednostrann´e intervaly spolehlivosti, pˇriˇcemˇz prvn´ı interval se naz´ yv´a levostrann´ y a druh´ y pravostrann´ y. Dvoustrann´ e intervaly spolehlivosti, kter´e splˇ nuj´ı podm´ınku P (θH ≤ θ) = P (θ ≤ θD ) = α/2, se naz´ yvaj´ı symetrick´e intervaly spolehlivosti. V dalˇs´ım v´ ykladu se omez´ıme na dvoustrann´e symetrick´e intervaly spolehlivosti.
6.4.1
Sestrojen´ı intervalu spolehlivosti
Interval spolehlivosti stanov´ıme zpravidla tak, ˇze vyjdeme z nejlepˇs´ıho nestrann´eho odhadu ˆ θ), kter´a je takovou funkc´ı θ a θ, ˆ ˇze θˆ parametru θ a uvaˇzujeme n´ahodnou veliˇcinu U (θ, rozdˇelen´ı veliˇciny U nez´avis´ı na θ. Pomoc´ı tohoto rozdˇelen´ı nalezneme uD a uH takov´e, ˇze P (U ≤ uD ) =
α , 2
P (U ≥ uH ) =
α . 2
(6.18)
Z (6.18) vypl´ yv´a, ˇze P (uD < U < uH ) = P (U < uH ) − P (U ≤ uD ) = 1 − α.
(6.19)
Nerovnost uD < U < uH pˇrevedeme na ekvivalentn´ı nerovnost θD < θ < θH , takˇze plat´ı P (uD < U < uH ) = P (θD < θ < θH ) = 1 − α a tedy interval zadan´ y nerovnostmi (θD < θ < θH ) je 100(1 − α)% intervalem spolehlivosti pro parametr θ. Vztah mezi koeficientem spolehlivosti a d´ elkou intervalu spolehlivosti Koeficient spolehlivosti intervalu spolehlivosti ud´av´a spolehlivost odhadu, tj. vyjadˇruje, jak se m˚ uˇzeme spolehnout na to, ˇze hodnota odhadovan´eho parametru skuteˇcnˇe leˇz´ı uvnitˇr 85
K APITOLA 6
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
intervalu spolehlivosti. Tud´ıˇz spolehlivost odhadu je d´ana zvolenou pravdˇepodobnost´ı. D´elka intervalu spolehlivosti ud´av´a pˇ resnost odhadu. Velk´e intervaly spolehlivosti znamenaj´ı menˇs´ı pˇresnost odhadu, kdeˇzto mal´e intervaly spolehlivosti znamenaj´ı dobrou pˇresnost. Pˇ ri pevn´ em rozsahu v´ ybˇ eru plat´ı, ˇ ze ˇ c´ım vˇ etˇ s´ı je koeficient spolehlivosti, t´ım vˇ etˇ s´ı je i d´ elka intervalu spolehlivosti. To je logick´e, nebot’ ˇc´ım v´ıce si chceme b´ yt jisti, ˇze odhadovan´ y parametr leˇz´ı ve stanoven´em intervalu spolehlivosti, t´ım mus´ı b´ yt tento interval ˇsirˇs´ı. Jin´ ymi slovy, hodnota odhadovan´eho parametru bude leˇzet s vysokou pravdˇepodobnost´ı uvnitˇr intervalu, ale odhad bude m´enˇe pˇresn´ y a jeho praktick´a pouˇzitelnost bude mal´a. Tud´ıˇz mezi spolehlivost´ı a pˇresnost´ı odhadu pˇri dan´e realizaci n´ahodn´eho v´ybˇeru existuje nepˇr´ım´ a u ´mˇernost. Koeficient spolehlivosti vol´ıme bl´ızk´ y 1, doporuˇcovan´e hodnoty jsou 0.99; 0.95, tj. konstruujeme 99% resp. 95% interval spolehlivosti. Stanov´ıme-li 99% respektive 95% interval spolehlivosti na z´akladˇe dan´e realizace n´ahodn´eho v´ ybˇeru, pokryje s pravdˇepodobnost´ı 0.99 respektive 0.95 skuteˇcnou hodnotu odhadovan´eho parametru. V dalˇs´ıch odstavc´ıch zamˇeˇr´ıme pozornost na intervaly spolehlivosti nˇekter´ ych d˚ uleˇzit´ ych charakteristik rozdˇelen´ı a to stˇredn´ı hodnoty, rozptylu a pod´ılu.
6.5
Intervaly spolehlivosti pro stˇ redn´ı hodnotu
V tomto odstavci budeme ˇreˇsit probl´em sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu rozdˇelen´ı pˇri zadan´em koeficientu spolehlivosti. Vyuˇzijeme v´ ysledky uveden´e v kapitole 5 a sice kl´ıˇcov´e v´ ysledky 5.1 a 5.2 o asymptotick´em rozdˇelen´ı v´ ybˇerov´eho pr˚ umˇeru.
6.5.1
Intervaly spolehlivosti pro stˇ redn´ı hodnotu pˇ ri zn´ am´ em rozptylu
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer z rozdˇelen´ı se stˇredn´ı hodnotou µ a rozptylem σ 2 . D´ale pˇredpokl´adejme, ˇze rozdˇelen´ı je norm´aln´ı nebo rozsah v´ ybˇeru n je velk´ y. Pak podle X−µ √ tvrzen´ı 5.2 m´a n´ahodn´a veliˇcina Z = σ/ n (pˇribliˇznˇe) normovan´e norm´aln´ı rozdˇelen´ı. Tud´ıˇz pro Z plat´ı P (−zα/2 < Z < zα/2 ) = 1 − α. (6.20) R
Pˇripomeˇ nme, ˇze zα je takov´a hodnota n´ahodn´e veliˇciny Z, pro kterou plat´ı: z∞ φ(z)dz = α. α Ze vztahu (6.20) plyne, ˇze pro pozorovanou hodnotu x¯ n´ahodn´e veliˇciny X plat´ı σ σ P (µ − zα/2 √ < x¯ < µ + zα/2 √ ) = 1 − α. n n
(6.21)
Pˇrep´ıˇseme (6.21) pomoc´ı algebraick´ ych operac´ı na tvar σ σ P (¯ x − zα/2 √ < µ < x¯ + zα/2 √ ) = 1 − α. n n
(6.22)
Z rovnice (6.22) je vidˇet, ˇze jakmile m´ame k dispozici pozorovan´e hodnoty n´ahodn´eho v´ ybˇeru, interval ! Ã σ σ (6.23) x¯ − zα/2 √ , x¯ + zα/2 √ n n 86
6.5 I NTERVALY SPOLEHLIVOSTI PRO ST Rˇ EDN´I HODNOTU
je 100(1 − α)% intervalem spolehlivosti pro µ. Postup sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu µ pˇri zn´am´em rozptylu σ 2 , nˇekdy tak´e naz´ yvan´ y jednov´ ybˇ erov´ y z-interval nebo kr´atce z-interval pro µ, je n´asleduj´ıc´ı. Postup 6.1
Jednovy´ bˇerovy´ z-interval pro µ
Pˇredpoklady a. Norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n 2 b. Zn´am´ y rozptyl σ 1. Pro koeficient spolehlivosti 1 − α, najdˇete hodnotu zα/2 v tabulce II.kritick´ ych hodnot N (0, 1)-rozdˇelen´ı. 2. Krajn´ı body intervalu spolehlivosti jsou σ x¯ ± zα/2 √ , n kde zα/2 je hodnota, urˇcen´a v 1. kroku, n je rozsah v´ ybˇeru a x¯ je vypoˇcten ze zkouman´e realizace n´ahodn´eho v´ ybˇeru. V pˇr´ıpadˇe v´ ybˇeru z norm´aln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇresnˇe roven 1 − α, v pˇr´ıpadˇe v´ ybˇeru o velk´em rozsahu z jin´eho neˇz norm´aln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇribliˇznˇe roven 1 − α. Pozn´ amky: Jedn´ım z pˇredpoklad˚ u pro pouˇzit´ı tohoto postupu je, ˇze v´ ybˇer poch´az´ı z norm´aln´ıho rozdˇelen´ı nebo rozsah v´ ybˇeru je velk´ y. Tento postup je pouˇziteln´ y dokonce pˇri v´ ybˇeru o mal´em nebo pˇrimˇeˇrenˇe mal´em rozsahu z jin´eho neˇz norm´aln´ıho rozdˇelen´ı za pˇredpokladu, ˇze rozdˇelen´ı se neliˇs´ı pˇr´ıliˇs od norm´aln´ıho. Postupy, kter´e nejsou citliv´e na odchylky od pˇredpoklad˚ u, na kter´ ych jsou zaloˇzen´e, se naz´ yvaj´ı robustn´ı. Tud´ıˇz postup pro sestrojen´ı z-intervalu pro parametr µ je robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpokladu normality. Pˇri u ´vah´ach o sestrojen´ı intervalu spolehlivosti pro parametr µ je tak´e d˚ uleˇzit´e sledovat tzv. odlehl´a (vyboˇcuj´ıc´ı) pozorov´an´ı, o kter´ ych jsme se jiˇz zm´ınili v kapitole 2. To znamen´a ty hodnoty, kter´e byly chybnˇe namˇeˇreny nebo zaznamen´any nebo indikuj´ı nesrovnalosti v modelu normality. Dokonce pro velk´e rozsahy v´ ybˇeru, mohou odlehl´a pozorov´an´ı znaˇcnˇe ’ ovlivnit z-interval, nebot v´ ybˇerov´ y pr˚ umˇer nen´ı resistentn´ı v˚ uˇci odlehl´ ym pozorov´an´ım. Pˇ r´ıklad 6.12 Ilustrace postupu 6.1 ´ nahodn´ ´ Urˇcete 90% interval spolehlivosti pro stˇredn´ı hodnotu µ za pˇredpokladu, zˇe mate y v´ybˇer o ´ ıho rozdˇelen´ı se znamou ´ rozsahu n = 50 z normaln´ smˇerodatnou odchylkou σ = 12.1 a aritmeticky´ ˚ er je x prumˇ ¯ = 36.38. ˇ sen´ı: Koeficient spolehlivosti je 0.90 = 1 − 0.10. To znamena, ´ zˇe α = 0.10. Z tabulky II.urˇc´ıme Reˇ zα/2 = z0.10/2 = z0.05 = 1.645. ´ Mame σ = 12.1, n = 50, x ¯ = 36.38 a zα/2 = 1.645. Tud´ızˇ 90% interval spolehlivosti pro µ je µ ¶ 12.1 12.1 36.38 − 1.645 √ , 36.38 + 1.645 √ , 50 50 neboli interval (33.6, 39.2).
87
K APITOLA 6
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Urˇ cen´ı rozsahu v´ ybˇ eru pro odhad stˇ redn´ı hodnoty Probl´emem sestrojen´ı intervalov´eho odhadu pro parametr µ jsme se jiˇz zab´ yvali. Nyn´ı chceme urˇcit, jak rozsah v´ ybˇeru ovlivˇ nuje pˇresnost odhadu. Nejprve zavedeme pojmy a terminologii pouˇz´ıvan´e v problematice intervalov´ ych odhad˚ u. Definice 6.7
P Rˇ ´I PUSTN A´ CHYBA ODHADU PRO µ
Pˇr´ıpustna´ chyba odhadu pro µ je
σ ∆ = zα/2 √ , n Pˇr´ıpustn´a chyba je rovna polovinˇe d´elky intervalu spolehlivosti. Obecnˇe, pˇr´ıpustn´ a chyba odhadu reprezentuje pˇresnost, kter´e chceme dos´ahnout pˇri odhadov´an´ı nˇejak´eho parametru. Pro odhad stˇredn´ı hodnoty µ je ilustrov´ana na obr´azku 6.2. Pˇr´ıpustn´a chyba odhadu se tak´e naz´ yv´a azek 6.2 Pˇr´ıpustn´ a chyba odhadu pro µ horn´ı mez chyby odhadu pro µ. Z defi- Obr´ nice 6.7 a definice 6.6 intervalu spolehlivosti ∆ ∆ pro µ vid´ıme, ˇze d´elka intervalu spolehlivosti je urˇcena pˇr´ıpustnou chybou ∆. Pˇr´ıpustn´a chyba odhadu je tedy zα/2 n´asobek stˇredn´ı x x − zα/2 √σn x + zα/2 √σn chyby odhadu µ, nebot’ σ 2 /n je rozptyl odhadu X. D´elka intervalu spolehlivosti pro stˇredn´ı hodnotu µ a tud´ıˇz pˇresnost odhadu x¯ parametru µ je urˇcena pˇr´ıpustnou chybou odhadu ∆. Zmenˇsen´ı d´elky intervalu spolehlivosti a t´ım zvˇetˇsen´ı pˇresnosti odhadu µ vyˇzaduje pouze sn´ıˇzen´ı pˇr´ıpustn´e chyby odhadu. Vzhledem k tomu, ˇze se rozsah v´ ybˇeru n vyskytuje ve jmenovateli ve vzorci pro pˇr´ıpustnou chybu ∆, m˚ uˇzeme chybu ∆ sn´ıˇzit zvˇetˇsen´ım rozsahu v´ ybˇeru n. To d´av´a smysl, nebot’ oˇcek´av´ame, ˇze z´ısk´ame pˇresnˇejˇs´ı informace z v´ ybˇeru o vˇetˇs´ım rozsahu. Tud´ıˇz dost´av´ame n´asleduj´ıc´ı kl´ıˇcov´ y poznatek. Tvrzen´ı 6.2
ˇ P Rˇ ´I PUSTN A´ CHYBA A P RESNOST
ODHADU
µ
D´elka intervalu spolehlivosti pro stˇredn´ı hodnotu µ a tud´ıˇz pˇresnost odhadu x¯ parametru µ je urˇcena pˇr´ıpustnou chybou odhadu ∆. Pro dan´ y koeficient spolehlivosti m˚ uˇzeme zv´ yˇsit pˇresnost odhadu zvˇetˇsen´ım rozsahu v´ ybˇeru n. Pˇr´ıpustn´a chyba ∆ a koeficient spolehlivosti 1 − α b´ yvaj´ı ˇcasto zad´any pˇredem. Pak mus´ıme stanovit rozsah v´ ybˇeru, aby pˇredem stanoven´e poˇzadavky na pˇresnost a spolehlivost odhadu byly splnˇeny. Pro √ stanoven´ı minim´aln´ıho rozsahu v´ ybˇeru lze pouˇz´ıt vzorec pro pˇr´ıpustnou chybu ∆ = zα/2 σ/ n. To vede ke vzorci 6.1. Vzorec 6.1
Rozsah v´ybˇeru pro odhad µ
Rozsah v´ ybˇeru pro 100(1−α)% interval spolehlivosti pro µ se zadanou pˇr´ıpustnou chybou ∆ je urˇcen vzorcem µ ¶ zα/2 σ 2 n= , ∆ kde n zaokrouhlujeme nahoru na nejbliˇzˇs´ı cel´e ˇc´ıslo.
88
6.5 I NTERVALY SPOLEHLIVOSTI PRO ST Rˇ EDN´I HODNOTU
Pˇ r´ıklad 6.13 Ilustrace vzorce 6.1 ˇ byly sledovany ´ ´ ´ ´ U 30 nahodnˇ e vybran´ych domacnost´ ı v CR vydaje za spotˇrebovan´e pohonn´e hmoty ´ ˚ erny´ vydaj ´ pro dopravn´ı prostˇredky, kter´e domacnost vlastn´ı. Byl vypoˇcten prumˇ x ¯ = 1756.80 Kˇc za ´ ˚ ˚ muˇ ˚ zete udˇelat zavˇ ´ er, zˇe smˇerodatna´ odchylka mˇes´ıc. Pˇredpokladejte, zˇe z pˇredchoz´ıch pruzkum u ´ eru nutn´y k tomu, abychom mˇeli 95% spolehlivost, zˇe odhad µ je σ = 413 Kˇc. Urˇcete rozsah vybˇ leˇz´ı v intervalu (¯ x − 15, x ¯ + 15). ˇ sen´ı: Ze zadan´ ´ ı pˇr´ıkladu je zˇrejm´e, zˇe ∆ = 15 Kˇc. Protoˇze 1 − α = 0.95, je α = 0.05. V tabulce Reˇ II.najdeme zα/2 = z0.025 = 1.96. Tud´ızˇ poˇzadovan´y rozsah vy´ bˇeru je n=
³z
α/2
∆
· σ ´2
µ =
1.96 · 413 15
¶2 = 2912.26
´ kladn´e cel´e cˇ´ıslo, dostaneme n = 2913. Jestliˇze vybereme nahodnˇ ´ Protoˇze rozsah vy´ bˇeru mus´ı byt e ´ ´ ˚ zeme na 95% 2913 udaj u˚ o mˇes´ıcˇ n´ıch vydaj´ ıch za pohonn´e hmoty pro automobily, pak se muˇ ´ ˚ za pohonn´e hmoty pro automobily ve vˇsech domacnostech ´ spolehnout, zˇe stˇredn´ı hodnota µ vydaj u ˚ er vy´ daju ˚ za pohonn´e hmoty ve vybranych ´ leˇz´ı v intervalu (¯ x − 15, x ¯ + 15), kde x ¯ je prumˇ 2913 ´ domacnostech.
6.5.2
Intervaly spolehlivosti pro stˇ redn´ı hodnotu pˇ ri nezn´ am´ e smˇ erodatn´ e odchylce
V praxi vˇetˇsinou smˇerodatnou odchylku σ nezn´ame. Pak ovˇsem postup pro sestrojen´ı inter√ valu spolehlivosti nem˚ uˇze b´ yt zaloˇzen na statistice Z = X−µ n. V tomto pˇr´ıpadˇe pouˇzijeme σ X−µ √ k sestrojen´ı intervalu spolehlivosti t-statistiku T = S n, kter´a m´a t-rozdˇelen´ı s n − 1 stupni volnosti za pˇredpokladu, ˇze m´ame n´ahodn´ y v´ ybˇer z norm´aln´ıho rozdˇelen´ı se stˇredn´ı hodnotou µ (viz. tvrzen´ı 5.4). Obdobn´ ym zp˚ usobem jako v pˇr´ıpadˇe zn´am´eho rozptylu bychom stanovili krajn´ı body intervalu spolehlivosti pro µ. Uvedeme pouze postup pro sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu µ pˇri nezn´am´em rozptylu σ 2 , kter´ y budeme naz´ yvat jednov´ ybˇ erov´ y t-interval nebo kr´atce t-interval pro µ. Postup 6.2
Jednovy´ bˇerovy´ t-interval pro µ
Pˇredpoklady a. Norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n; b. Nezn´am´ y rozptyl σ 2 . 1. Pro koeficient spolehlivosti 1 − α, najdˇete hodnotu tα/2 v tabulce III. 2. Interval spolehlivosti pro µ je Ã
!
s s x¯ − tα/2 √ , x¯ + tα/2 √ , n n
kde tα/2 je hodnota, urˇcen´a v 1. kroku, n je rozsah v´ ybˇeru a x¯ a s jsou vypoˇcteny z uvaˇzovan´e realizace n´ahodn´eho v´ ybˇeru. V pˇr´ıpadˇe v´ ybˇeru z norm´aln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇresnˇe roven 1 − α, v pˇr´ıpadˇe v´ ybˇeru o velk´em rozsahu z jin´eho neˇz norm´aln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇribliˇznˇe roven 1 − α. 89
K APITOLA 6
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Aˇckoliv t-interval byl odvozen na z´akladˇe pˇredpokladu, ˇze jde o v´ ybˇer z norm´aln´ıho rozdˇelen´ı, aplikuje se i v pˇr´ıpadˇe n´ahodn´ ych v´ ybˇer˚ u velk´eho rozsahu z rozdˇelen´ı jin´ ych neˇz norm´aln´ıch. Podobnˇe jako v pˇr´ıpadˇe z-interval˚ u i t-intervaly pracuj´ı dobˇre pro mal´e nebo stˇrednˇe mal´e v´ ybˇery z jin´ ych neˇz norm´aln´ıch rozdˇelen´ı. Jin´ ymi slovy, postup pro sestrojen´ı t-intervalu je robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpokladu normality. Pˇri u ´vah´ach o sestrojen´ı tintervalu pro parametr µ je tak´e d˚ uleˇzit´e sledovat odlehl´a pozorov´an´ı. Pˇr´ıtomnost odlehl´ ych pozorov´an´ı se t´ yk´a pˇredpokladu normality. Dokonce pro velk´e rozsahy v´ ybˇeru, odlehl´a pozorov´an´ı mohou nˇekdy znaˇcnˇe ovlivnit t-interval, nebot’ v´ ybˇerov´ y pr˚ umˇer a v´ ybˇerov´a smˇerodatn´a odchylka nejsou rezistentn´ı v˚ uˇci odlehl´ ym pozorov´an´ım. Pˇripomeˇ nme, ˇze stejnˇe jako pˇri sestrojov´an´ı z-intervalu je tˇreba udˇelat pˇredbˇeˇznou anal´ yzu, abychom si byli jisti, ˇze m˚ uˇzeme postup pouˇz´ıt. Pˇ r´ıklad 6.14 Ilustrace postupu 6.2 ´ zˇr´ızeno nov´e vlakov´e spojen´ı mezi Prahou a Ostravou. V prubˇ ˚ ehu jednoho roku byl Ma´ byt ´ ´ poˇcet cestuj´ıc´ıch na trase Praha - Ostrava. Ze 30 shromaˇ ´ zdˇenych ´ v nahodnˇ e vybran´e dny zjiˇst’ovan ˚ er x ´ erova´ smˇerodatna´ odchylka s = 30. Urˇcete dat byly vypoˇcteny aritmeticky´ prumˇ ¯ = 450 a vybˇ 99% interval spolehlivosti pro stˇredn´ı hodnotu poˇctu cestuj´ıc´ıch. ˇ sen´ı: Pˇredpoklady pro pouˇzit´ı postupu 6.2 jsou splnˇeny, nebot’ n = 30. Reˇ ´ 1. Zadany´ koeficient spolehlivosti je 0.99 = 1 − 0.01, takˇze α = 0.01. Protoˇze n = 30, mame ν = n − 1 = 30 − 1 = 29. Z tabulky III.zjist´ıme, zˇe pro ν = 29 je tα/2 = t0.01/2 = t0.005 = 2.756. ´ 2. Je zadano x ¯ = 450, s = 30, n = 30 a v 1.kroku jsme urˇcili tα/2 = 2.756. Tud´ızˇ 99% interval spolehlivosti pro µ je µ ¶ 30 30 450 − 2.756. √ , 450 + 2.756. √ , 30 30 ˚ zeme tedy s 99% spolehlivost´ı rˇ´ıci, zˇe stˇredn´ıho hodnota poˇctu neboli interval (434.90, 465.09). Muˇ cestuj´ıc´ıch na trati Praha - Ostrava je mezi 434 a 465.
6.6
Intervaly spolehlivosti pro rozptyl
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer o rozsahu n z norm´aln´ıho rozdˇelen´ı s rozptylem σ 2 . Podle tvrzen´ı 5.3 m´a n´ahodn´a veliˇcina χ2 =
n−1 2 ·S σ2
(6.24)
χ2 -rozdˇelen´ı s n − 1 stupni volnosti. Vzhledem k tomu plat´ı pro n´ahodnou veliˇcinu χ2 P (χ21−α/2 < χ2 < χ2α/2 ) = 1 − α. Z toho plyne, ˇze pro pozorovanou hodnotu s2 n´ahodn´e veliˇciny S 2 plat´ı P (χ21−α/2 <
n−1 2 s < χ2α/2 ) = 1 − α. 2 σ
(6.25)
Pomoc´ı algebraick´ ych operac´ı pˇrep´ıˇseme rovnici na tvar
n − 1 2 n−1 · s = 1 − α. P 2 · s2 < σ 2 < 2 χα/2 χ1−α/2 90
(6.26)
6.6 I NTERVALY SPOLEHLIVOSTI PRO ROZPTYL
Z rovnice (6.26) je vidˇet, ˇze jakmile m´ame k dispozici pozorovan´e hodnoty n´ahodn´eho v´ ybˇeru, interval (n − 1) (n − 1) · s2 , 2 · s2 (6.27) χ2α/2 χ1−α/2 je 100(1−α)% intervalem spolehlivosti pro σ 2 . Interval nen´ı symetrick´ y. Interval spolehlivosti pro rozptyl nazveme χ2 -interval pro rozptyl σ 2 . Postup 6.3
χ2 -interval pro rozptyl σ 2
Pˇredpoklady Norm´aln´ı rozdˇelen´ı 1. Pro koeficient spolehlivosti 1−α, najdˇete χ21−α/2 a χ2α/2 pro n−1 stupˇ n˚ u volnosti v tabulce 2 IV. kritick´ ych hodnot χ -rozdˇelen´ı. 2. Interval spolehlivosti pro σ 2 je
(n − 1) 2 (n − 1) 2 ·s , 2 ·s , χ2α/2 χ1−α/2 kde χ21−α/2 a χ2α/2 jsou urˇceny v kroku 1, n je rozsah v´ ybˇeru a s2 je vypoˇctena ze zkouman´e realizace n´ahodn´eho v´ ybˇeru. Podobnˇe jako postupy pro sestrojen´ı z-intervalu a t-intervalu, postup pro sestrojen´ı χ2 intervalu nen´ı obecnˇe robustn´ı v˚ uˇci odchylk´am od pˇredpokladu normality. Pouˇzit´ı pro jin´a neˇz norm´aln´ı data by mohlo v´est k myln´ ym informac´ım. Pˇredchoz´ı anal´ yza dat je rovnˇeˇz nutn´a. Pˇ r´ıklad 6.15 Ilustrace postupu 6.3 ´ e se vyrab´ ´ ı sˇ rouby o prumˇ ˚ eru 10mm. Bylo nahodnˇ ´ ´ ˚ peˇclivˇe zjiˇstˇeny jeV tovarnˇ e vybrano 12 sˇ roubu, ˚ ery (prumˇ ˚ er ve smyslu specifikace sˇ roubu ˚ podle velikosti hlaviˇcky) a vypoˇctena vybˇ ´ erova´ jich prumˇ smˇerodatna´ odchylka s = 0.047mm. Sestrojte 95% interval spolehlivosti pro smˇerodatnou od˚ eru ˚ vˇsech 10mm sˇ roubu ˚ vyrabˇ ´ enych ´ ´ e za pˇredpokladu, zˇ e rozdˇelen´ı chylku σ prumˇ v tovarnˇ ˚ eru˚ sˇ roubu ˚ je normaln´ ´ ı. prumˇ ˇ sen´ı: Pˇredpoklady pro pouˇzit´ı postupu 6.3 jsou splnˇeny. Reˇ ´ zˇ e α = 0.05. Jelikoˇz n = 12, ν = 12 −1 = 11. 1. Koeficient spolehlivosti je 0.95 = 1 −0.05. To znamena, Z tabulky IV.nalezneme hodnoty χ21−α/2 = χ21−0.05/2 = χ20.975 = 3.816; χ2α/2 = χ20.05/2 = χ20.025 = 21.920. ´ ı pˇr´ıkladu v´ıme, zˇe n = 12, s = 0.047 a z 1. kroku zjiˇstˇen´e hodnoty χ21−α/2 = 3.816 2. Ze zadan´ 2 a χα/2 = 21.920. Tud´ızˇ 95% interval spolehlivosti pro σ je Ãr
(12 − 1) 0.047, 21.920
r
! (12 − 1) 0.047 3.816
˚ o nebo (0.033, 0.080). Takˇze 95% interval spolehlivosti pro smˇerodatnou odchylku σ vˇsech sˇ roubu ˚ eru 10mm vyroben´ych v tovarnˇ ´ e je (0.033, 0.080). prumˇ
91
K APITOLA 6
6.7
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Intervaly spolehlivosti pro pod´ıl
Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer o rozsahu n ze z´akladn´ıho souboru s pod´ılem p nebo ekvivalentnˇe z alternativn´ıho rozdˇelen´ı s parametrem p. Nestrann´ y odhad pod´ılu p, ze kter´eho vyjdeme pˇri konstrukci intervalu spolehlivosti je v´ ybˇerov´ y pod´ıl pˆ, diskutovan´ y v odstavci 5.3.3. Jak bylo ve v´ yˇse zm´ınˇ e n´ e m odstavci uk´ a z´ a no, z tvrzen´ ı 5.4 plyne, ˇze q normovan´a n´ahodn´a veliˇcina Z = (ˆ p − p)/ p(1 − p)/n m´a pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı. Tud´ıˇz pro Z plat´ı P (−zα/2 < Z < zα/2 ) = 1 − α.
(6.28)
Z (6.28) plyne, ˇze pro pozorovanou hodnotu pˆ plat´ı µ
q
q
P p − zα/2 ·
pˆ(1 − pˆ)/n < pˆ < p + zα/2 ·
¶
pˆ(1 − pˆ)/n = 1 − α.
(6.29)
Pomoc´ı algebraick´ ych operac´ı pˇrep´ıˇseme rovnici na tvar µ
q
P pˆ − zα/2 ·
q
pˆ(1 − pˆ)/n < p < pˆ + zα/2 ·
¶
pˆ(1 − pˆ)/n = 1 − α.
(6.30)
Z rovnice (6.30) je vidˇet, ˇze jakmile m´ame k dispozici pozorovan´e hodnoty n´ahodn´eho v´ ybˇeru, interval µ ¶ q q pˆ − zα/2 · pˆ(1 − pˆ)/n , pˆ + zα/2 · pˆ(1 − pˆ)/n (6.31) je 100(1 − α)% intervalem spolehlivosti pro pod´ıl p. Interval spolehlivosti pro pod´ıl p z´akladn´ıho souboru nebo parametr p alternatvn´ıho rozdˇelen´ı nazveme jednov´ ybˇ erov´ y z-interval nebo kr´atce z-interval pro p. Postup 6.4
Jednovy´ bˇerovy´ z-interval pro pod´ıl p
Pˇredpoklady Poˇcet u ´spˇech˚ u x a poˇcet ne´ uspˇech˚ u n − x je roven alespoˇ n 5 (min(x, n − x) ≥ 5.). 1. Pro koeficient spolehlivosti 1 − α, najdˇete zα/2 v tabulce II. 2. Interval spolehlivosti pro p je µ
q
q
¶
pˆ − zα/2 pˆ(1 − pˆ)/n, pˆ + zα/2 pˆ(1 − pˆ)/n , kde n je rozsah v´ ybˇeru a pˆ = x/n je v´ ybˇerov´ y pod´ıl vypoˇcten´ y ze zkouman´e realizace n´ahodn´eho v´ ybˇeru.
Pˇ r´ıklad 6.16 Ilustrace postupu 6.4 ˇ bylo 50 tˇech, kter´e jsou vybaveny osobn´ım ´ ´ ´ Mezi nahodnˇ e vybranymi 1000 domacnostmi CR ´ ´ poˇc´ıtaˇcem. Sestrojte 99% interval spolehlivosti pro pod´ıl poˇctu domacnost´ ı vybavenych osobn´ım poˇc´ıtaˇcem. ˇ sen´ı: Nejprve se pˇresvˇedˇc´ıme, zda je splnˇena podm´ınka pro pouˇzit´ı tohoto postupu. Rozsah Reˇ ´ eru je n = 1000, poˇcet PC je x = 50 a 1000 − 50 = 950, tud´ızˇ jak x a n − x jsou vˇetˇs´ı neˇz 5. vybˇ
92
6.7 I NTERVALY SPOLEHLIVOSTI PRO POD´I L ´ zˇe α = 0.01 a odtud zα/2 = z0.01/2 = z0.005 = 2.58. 1. Koeficient spolehlivisti je 0.99, to znamena, ´ ´ pˆ = x/n = 50/1000 = 0.05. 2. Je zadano n = 1000, v 1. kroku byla zjiˇstˇena hodnota z0.005 = 2.58. Dale ˚ zeme jiˇz stanovit 99% interval spolehlivosti pro p Muˇ ³ ´ p p 0.05 − 2.58 0.05(1 − 0.05)/1000, 0.05 + 2.58 0.05(1 − 0.05)/1000 , ˇ mezi 3.3% a 6.7%. ´ neboli (0.033, 0.067). S 99% spolehlivost´ı je pod´ıl domacnost´ ı vybaveny´ ch PC v CR
Urˇ cen´ı rozsahu v´ ybˇ eru pro odhad pod´ılu p Podobnˇe jako v pˇr´ıpadˇe odhadu stˇredn´ı hodnoty µ definujeme pˇr´ıpustnou chybu odhadu pod´ılu p. Definice 6.8
P Rˇ ´I PUSTN A´ CHYBA ODHADU POD ´I LU p
Pˇr´ıpustna´ chyba odhadu pod´ılu p je q
∆ = zα/2 pˆ(1 − pˆ)/n. Pˇr´ıpustn´a chyba je rovna polovinˇe d´elky intervalu spolehlivosti. Pˇr´ıpustn´a chyba reprezentuje pˇresnost s jakou v´ ybˇerov´ y pod´ıl pˆ odhaduje pod´ıl p z´akladn´ıho souboru pˇri dan´em koeficientu spolehlivosti. q
V pˇr´ıkladu 6.16 je pˇr´ıpustn´a chyba odhadu ∆ = 2.58 0.05(1 − 0.05)/1000 = 0.017, kterou bychom tak´e urˇcili z d´elky intervalu spolehlivosti (0.067 − 0.033)/2 = 0.017. Ze znalosti intervalu spolehlivosti m˚ uˇzeme urˇcit pˇr´ıpustnou chybu vydˇelen´ım d´elky intervalu dvˇema. Naopak, ze znalosti v´ ybˇerov´eho pod´ılu pˆ a pˇr´ıpustn´e chyby odhadu m˚ uˇzeme stanovit interval spolehlivosti, jeho krajn´ı body jsou pˆ ± ∆. Pˇr´ıpustn´a chyba odhadu a koeficient spolehlivosti pro interval spolehlivosti b´ yvaj´ı zad´any pˇredem. Mus´ıme pak urˇcit rozsah v´ ybˇeru nutn´ y ke splnˇen´ı pˇredepsan´ ych poˇzadavk˚ u na odhad. Z definice 6.8 plyne pro rozsah v´ ybˇeru µ
n = pˆ(1 − pˆ)
zα/2 ∆
¶2
.
(6.32)
Vzorec 6.32 nem˚ uˇzeme pouˇz´ıt k urˇcen´ı poˇzadovan´eho rozsahu v´ ybˇeru, protoˇze v´ ybˇerov´ y pod´ıl pˆ nezn´ame dokud nem´ame k dispozici v´ ybˇer. Vzhledem k tomu, ˇze nejvˇetˇs´ı moˇzn´a hodnota pˆ(1 − pˆ) je rovna 0.25, nejˇcastˇeji pouˇz´ıvan´ y pˇr´ıstup k urˇcen´ı rozsahu v´ ybˇeru je pouˇz´ıt tuto hodnotu v rovnici (6.32). Rozsah v´ ybˇeru takto z´ıskan´ y bude obecnˇe vˇetˇs´ı neˇz je nutn´e a pˇr´ıpustn´a chyba menˇs´ı neˇz poˇzadovan´a. Na druh´e stranˇe, jelikoˇz n´aklady na z´ısk´an´ı v´ ybˇeru o vˇetˇs´ım rozsahu rostou, je vhodnˇejˇs´ı nevolit rozsah v´ ybˇeru vˇetˇs´ı, neˇz je nutn´e. Jestliˇze udˇel´ame hrub´ y odhad pod´ılu p na z´akladˇe pˇredchoz´ıch zkuˇsenost´ı nebo teoretick´ ych u ´vah, m˚ uˇzeme tento hrub´ y odhad pouˇz´ıt k z´ısk´an´ı realistick´eho rozsahu v´ ybˇeru. Vzhledem k hodnot´am, kter´ ych m˚ uˇze nab´ yvat pˆ, je zˇrejm´e, ˇze n´aˇs hrub´ y odhad by mˇel b´ yt bl´ızko 0.5 V kaˇzd´em pˇr´ıpadˇe si mus´ıme b´ yt vˇedomi toho, ˇze kdyˇz pozorovan´a hodnota pˆ se liˇs´ı od 0.5 o m´enˇe neˇz n´aˇs hrub´ y odhad pod´ılu p, pak pˇr´ıpustn´a chyba bude vˇetˇs´ı neˇz poˇzadovan´a. 93
K APITOLA 6
´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U
Vzorec 6.2
Rozsah v´ybˇeru pro odhad pod´ılu p
100(1 − α)%-interval spolehlivosti pro pod´ıl s pˇr´ıpustnou chybou nejv´ yˇse rovnou ∆ z´ısk´ame, zvol´ıme-li rozsah v´ ybˇeru µ
zα/2 n = 0.25 ∆
¶2
,
zaokrouhlen´ y nahoru na nejbliˇzˇs´ı cel´e ˇc´ıslo. Jestliˇze na z´akladˇe pˇredchoz´ıch znalost´ı zvol´ıme hodnotu pˆg za odhad pod´ılu pˆ, pak m˚ uˇzeme zvolit rozsah v´ ybˇeru µ
zα/2 n = pˆg (1 − pˆg ) ∆
¶2
,
zaokrouhlen´ y nahoru na nejbliˇzˇs´ı cel´e ˇc´ıslo. Pˇ r´ıklad 6.17 Ilustrace vzorce 6.2 ˇ ˚ Byl proveden pruzkum mezi zamˇestnan´ymi obˇcany CR, zda pouˇz´ıvaj´ı osobn´ı automobil k cestˇe ´ ı. do zamˇestnan´ ´ eru nutny´ k tomu, aby pˇr´ıpustna´ chyba byla nejv´ysˇ e 0.01 pro 95% interval a ) Urˇcete rozsah vybˇ spolehlivosti. ´ eru urˇceny´ v cˇ asti ´ b ) Urˇcete 95% interval spolehlivosti pro pod´ıl p, jestliˇze pro rozsah vybˇ a) je pod´ıl tˇech, kteˇr´ı pouˇz´ıvaj´ı osobn´ı automobil, roven 0.194. ´ c ) Urˇcete pˇr´ıpustnou chybu odhadu urˇcen´eho v cˇ asti b) a porovnejte ji s pˇr´ıpustnou chybou ´ zadanou v cˇ asti a). ˇ sen´ı: Reˇ a ) Nejprve pouˇzijeme prvn´ı rovnici ve vzorci 6.2 K tomu mus´ıme urˇcit zα/2 . Je stanovena ´ eru pˇr´ıpustna´ chyba ∆ = 0.01. Koeficient spolehlivosti je 0.95, tud´ızˇ z0.025 = 1.96. Rozsah vybˇ nutn´y k tomu, aby pˇr´ıpustna´ chyba byla 0.01 pro 95% interval spolehlivosti je µ n = 0.25 ·
1.96 0.01
¶2 = 9604.
ˇ pak pˇr´ıpustna´ chyba naˇseho odhadu ´ ˚ CR, Vybereme-li nahodnˇ e 9604 zamˇestnan´ych obˇcanu ´ ´ ı, bude nejv´ysˇ e pod´ılu zamˇestnanych, kteˇr´ı pouˇz´ıvaj´ı osobn´ı automobil k cestˇe do zamˇestnan´ 0.01. b ) Aplikac´ı postupu 6.4 pro α = 0.05, n = 9604 a pˆ = 0.194 nalezneme, zˇe 95% interval spolehlivosti ma´ krajn´ı body 0.194 ± 0.008. ´ ´ zˇe je to m´enˇe, neˇz c ) Pˇr´ıpustna´ chyba odhadu urˇcena´ v cˇ asti b ) je 0.008. Nepˇrekvapuje nas, ´ pˇr´ıpustna´ chyba zadana´ v cˇ asti a ).
94
Kapitola 7 Z´ aklady testov´ an´ı statistick´ ych hypot´ ez V kapitole 6 jsme se zab´ yvali metodami bodov´ ych a intervalov´ ych odhad˚ u parametr˚ u rozdˇelen´ı pravdˇepodobnost´ı, zaloˇzen´ ymi na v´ ybˇerov´ ych statistik´ach. V t´eto kapitole se budeme zab´ yvat ˇreˇsen´ım ot´azky, jak pouˇz´ıt v´ ybˇerovou statistiku k rozhodnut´ı, ˇze n´aˇs pˇredpoklad o hodnotˇe parametru rozdˇelen´ı, je spr´avn´ y. Napˇr´ıklad, chceme pouˇz´ıt pr˚ umˇernou d´elku trestu n´ahodn´eho v´ ybˇeru osob odsouzen´ ych za prodej drog v loˇ nsk´em roce k rozhodnut´ı, ˇze loˇ nsk´a pr˚ umˇern´a d´elka trestu vˇsech osob odsouzen´ ych za uveden´ y zloˇcin je vyˇsˇs´ı neˇz pr˚ umˇern´a d´elka trestu v roce 1990. Statistick´e z´avˇery tohoto druhu se naz´ yvaj´ı testy hypot´ez. V t´eto kapitole se budeme zab´ yvat metodami testov´an´ı hypot´ez o stˇredn´ı hodnotˇe, rozptylu a pod´ılu a o tvaru rozdˇelen´ı zkouman´eho znaku. Budeme uvaˇzovat klasick´ y pˇr´ıstup a pˇr´ıstup s pouˇzit´ım P -hodnoty k testov´an´ı hypot´ez.
7.1
Podstata testov´ an´ı hypot´ ez
ˇ Casto pouˇz´ıv´ame inferenˇcn´ı statistiku k tomu, abychom udˇelali rozhodnut´ı o hodnotˇe urˇcit´eho parametru nebo tvaru rozdˇelen´ı zkouman´eho statistick´eho znaku. Napˇr´ıklad m´ame rozhodˇ nout, zda pr˚ umˇern´a spotˇreba benzinu na 100 ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, se liˇs´ı od spotˇreby ud´avan´e v´ yrobcem. Jednou z nejˇcastˇeji pouˇz´ıvan´ ych metod pro stanoven´ı takov´ ych rozhodnut´ı nebo z´avˇer˚ u, je test hypot´ ezy. Hypot´ ezou se pak rozum´ı tvrzen´ı, ˇze nˇeco je spr´avn´e. Tvrzen´ı, ˇze ˇ pr˚ umˇern´a spotˇreba benzinu na 100 ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, se liˇs´ı ” od spotˇreby ud´avan´e v´ yrobcem“ je hypot´eza. Test hypot´ezy zahrnuje dvˇe hypot´ezy. Jedna se naz´ yv´a nulov´ a hypot´ eza (nˇekdy tak´e testovan´ a hypot´ eza), druh´a alternativn´ı hypot´ eza. Definice 7.1
´ , N ULOV A´ HYPOT EZA
´ ZA ALTERNATIVN ´I HYPOT E
Nulova´ hypoteza H0 : Hypot´ eza, kter´a je testovan´a. ´ Alternativn´ı hypoteza HA : Hypot´ eza, kter´a je uvaˇzovan´a jako alternativa k nulov´e hy´
pot´eze, nˇejak´ ym zp˚ usobem pop´ır´a vlastnost vysloven´e nulov´e hypot´ezy. ˇ V ilustraˇcn´ım pˇr´ıkladu s automobily Skoda nulovou hypot´ezou m˚ uˇze b´ yt tvrzen´ı pr˚ umˇern´a ” ˇ spotˇreba benzinu na 100 ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, je shodn´a se spotˇrebou 95
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
ud´avanou v´ yrobcem“ a alternativn´ı hypot´ezou tvrzen´ı pr˚ umˇern´a spotˇreba benzinu na 100 ” ˇ ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, se liˇs´ı od spotˇreby ud´avan´e v´ yrobcem“. Probl´em ˇreˇsen´ y pˇri testu hypot´ezy je rozhodnout, zda zam´ıtnout nebo nezam´ıtnout nulovou hypot´ezu ve prospˇech alternativn´ı hypot´ezy.
7.1.1
Formulace hypot´ ez
Budeme se zab´ yvat nejprve testem hypot´ezy, kdy nulov´a i alternativn´ı hypot´eza se t´ ykaj´ı parametru θ rozdˇelen´ı sledovan´eho statistick´eho znaku. Nulov´ a hypot´ eza: Bˇeˇzn´e pojet´ı testov´an´ı hypot´ez tak, jak je zde vykl´ad´ano, vyˇzaduje, aby nulov´a hypot´eza byla jednoduch´ a, to je jednoznaˇcnˇe specifikovala jedinou hodnotu pro tento parametr. M˚ uˇzeme tedy nulovou hypot´ezu struˇcnˇe vyj´adˇrit jako H0 :
θ = θ0 ,
(7.1)
kde θ0 je nˇejak´e ˇc´ıslo. Alternativn´ı hypot´ eza: Vymezen´ı alternativn´ı hypot´ezy by mˇelo odr´aˇzet, jak´ ym zp˚ usobem pop´ır´a vlastnost vysloven´e nulov´e hypot´ezy. Proti v´ yˇse uveden´e nulov´e hypot´eze m˚ uˇzeme vymezit tˇri alternativn´ı hypot´ezy. 1. Jestliˇze alternativn´ı hypot´eza pop´ır´a platnost nulov´e hypot´ezy H0 bez dalˇs´ı specifikace oboru hodnot parametru, jinak ˇreˇceno stanov´ı, ˇze parametr θ je r˚ uzn´y od θ0 , pak takovou alternativn´ı hypot´ezu vyj´adˇr´ıme jako HA : θ 6= θ0 .
(7.2)
Test hypot´ezy, jehoˇz alternativn´ı hypot´eza m´a tento tvar se naz´ yv´a dvoustrann´ ym testem. 2. Jestliˇze alternativn´ı hypot´eza stanov´ı, ˇze parametr θ je menˇs´ı neˇz θ0 , pak takovou alternativn´ı hypot´ezu vyj´adˇr´ıme jako HA : θ < θ 0 .
(7.3)
Test hypot´ezy s takto formulovanou alternativn´ı hypot´ezou se naz´ yv´a levostrann´ ym testem. 3. Jestliˇze alternativn´ı hypot´eza stanov´ı, ˇze parametr θ je vˇetˇs´ı neˇz θ0 , pak takovou alternativn´ı hypot´ezu vyj´adˇr´ıme jako HA : θ > θ 0 .
(7.4)
Takto formulovan´a alternativn´ı hypot´eza se naz´ yv´a pravostrann´ a alternativa a test hypot´ezy s takto formulovanou alternativn´ı hypot´ezou se naz´ yv´a pravostrann´ ym testem. Test hypot´ezy se naz´ yv´a jednostrann´ ym testem , jestliˇze je bud’ levostrann´ y nebo pravostrann´ y, to je nen´ı-li dvoustrann´ y. 96
´ ´I POJMY A TERMINOLOGIE 7.2 Z AKLADN
7.1.2
Volba testov´ eho kriteria
Sezn´amili jsme se s t´ım, jak vhodnˇe vymezit nulovou a alternativn´ı hypot´ezu. Dalˇs´ı ot´azkou je, jak rozhodnout, kter´a z obou hypot´ez je spr´avn´a, to znamen´a, jak rozhodnout, zda nulovou hypot´ezu zam´ıtneme nebo nezam´ıtneme ve prospˇech alternativn´ı hypot´ezy? Pˇri ˇreˇsen´ı praktick´ ych u ´loh mus´ıme m´ıt pˇresn´e kriterium, na jehoˇz z´akladˇe udˇel´ame rozhodnut´ı, zda uvaˇzovan´a nulov´a hypot´eza je spr´avn´a. Testov´e kriterium je statistika, tedy funkce v´ ybˇeru. V´ ypoˇcet jej´ı hodnoty je pˇri testov´an´ı hypot´ez c´ılem zpracov´an´ı v´ ybˇerov´eho souboru. Jak pozdˇeji uvid´ıme, mus´ıme zn´at rozdˇelen´ı testov´e statistiky za platnosti nulov´e hypot´ezy, abychom mohli prov´est dalˇs´ı etapu testov´an´ı a to sestrojen´ı oboru hodnot testov´e statistiky, kter´e n´as opravˇ nuj´ı zam´ıtnout hypot´ezu.
7.2
Z´ akladn´ı pojmy a terminologie
Abychom zcela pochopili problematiku testov´an´ı hypot´ez, potˇrebujeme se sezn´amit s dalˇs´ımi pojmy a terminologi´ı. V tomto odstavci uvedeme definice dalˇs´ıch pojm˚ u pouˇz´ıvan´ ych pˇri testov´an´ı hypot´ez, budeme diskutovat dva z´akladn´ı typy chyb, kter´ ych se m˚ uˇzeme dopustit pˇri testu hypot´ezy a budeme interpretovat moˇzn´e z´avˇery testu hypot´ezy.
7.2.1
Testov´ a statistika, obor pˇ rijet´ı, obor zam´ıtnut´ı, kritick´ e hodnoty
Jako z´aklad pro rozhodnut´ı, zda zam´ıtneme nulovou hypot´ezu ve prospˇech alternativn´ı hypot´ezy, pouˇzijeme statistiku, kterou naz´ yv´ame testovou statistikou pro test hypot´ezy. Obor hodnot, kter´ ych statistika m˚ uˇze nab´ yt, rozdˇel´ıme na dva disjunktn´ı obory, na obor zam´ıtnut´ı neboli kritick´ y obor a na obor pˇ rijet´ı. Hodnoty testov´e statistiky, kter´e oddˇeluj´ı obor pˇrijet´ı od oboru zam´ıtnut´ı se naz´ yvaj´ı kritick´ e hodnoty. Jestliˇze hodnota testov´e statistiky vypoˇcten´a z v´ ybˇerov´ ych hodnot, padne do kritick´eho oboru, zam´ıt´ame testovanou hypot´ezu. Jestliˇze hodnota testov´e statistiky vypoˇcten´a z v´ ybˇerov´ ych hodnot, nepadne do kritick´eho oboru, testovanou hypot´ezu nezam´ıt´ame. Terminologie zaveden´a v t´eto ˇca´sti je shrnuta do n´asleduj´ıc´ı definice. Definice 7.2
T ESTOV A´ STATISTIKA , KRITICK Y´ OBOR ,
´ HODNOTY KRITICK E
Testova´ statistika: Statistika pouˇ zit´a jako z´aklad pro rozhodnut´ı, zda nulov´a hypot´eza
by mˇela b´ yt zam´ıtnuta. Obor zam´ıtnut´ı (kriticky´ obor): Mnoˇ zina hodnot testov´e statistiky, kter´a vede k zam´ıtnut´ı
hypot´ezy. Obor pˇrijet´ı: Mnoˇ zina hodnot testov´e statistiky, kter´a vede k pˇrijet´ı hypot´ezy. Kriticke´ hodnoty: Hodnoty testov´ e statistiky, kter´e oddˇeluj´ı obor pˇrijet´ı od oboru
zam´ıtnut´ı.
7.2.2
Chyba prvn´ıho a druh´ eho druhu
Protoˇze pˇri testov´an´ı hypot´ez jde o u ´sudek prov´adˇen´ y na z´akladˇe u ´daj˚ u z´ıskan´ ych z v´ ybˇerov´eho souboru, m˚ uˇzeme se ve sv´ ych u ´sudc´ıch dopustit i chybn´ ych z´avˇer˚ u. 97
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
Pˇri testov´an´ı hypot´ezy jsou ˇctyˇri moˇzn´e v´ ysledky, dva z nich vedou k nespr´avn´emu rozhodnut´ı. Nespr´avn´e rozhodnut´ı udˇel´ame, jestliˇze bud’ zam´ıtneme nulovou hypot´ezu H0 , aˇckoliv ve skuteˇcnosti je spr´avn´a, nebo nespr´avnou nulovou hypot´ezu nezam´ıtneme. Prvn´ı nespr´avn´e rozhodnut´ı se naz´ yv´a chyba prvn´ıho druhu a druh´e chyba druh´ eho druhu. Nˇekdy budeme pouˇz´ıvat zkr´acen´e oznaˇcen´ı chyba I. druhu a chyba II. druhu. Definice 7.3
C HYBA PRVN ´I HO
´ HO DRUHU A DRUH E
Chyba prvn´ıho druhu: Chyby prvn´ıho druhu se dopust´ıme zam´ıtnut´ım nulov´ e hypot´ezy,
kdyˇz je ve skuteˇcnosti spr´avn´a. Chyba druheho druhu: Chyby druh´ eho druhu se dopust´ıme pˇrijet´ım nulov´e hypot´ezy, ´
kdyˇz ve skuteˇcnosti nen´ı pravdiv´a. Pravdˇ epodobnosti chyb prvn´ıho a druh´ eho druhu Pravdˇepodobnost, ˇze se dopust´ıme chyby prvn´ıho druhu je pravdˇepodobnost zam´ıtnut´ı spr´avn´e nulov´e hypot´ezy. Je to pravdˇepodobnost, ˇze testov´a statistika bude v oboru zam´ıtnut´ı, jestliˇze ve skuteˇcnosti nulov´a hypot´eza je spr´avn´a. Pravdˇepodobnost, ˇze se dopust´ıme chyby prvn´ıho druhu, se naz´ yv´a hladina v´ yznamnosti testu hypot´ezy a oznaˇcujeme ji ˇreck´ ym p´ısmenem α. Definice 7.4
´ H LADINA V YZNAMNOSTI
Hladina vyznamnosti α testu hypot´ezy je definov´ana jako pravdˇepodobnost, ˇze se do´
pust´ıme chyby prvn´ıho druhu. Pravdˇepodobnost, ˇze se dopust´ıme chyby druh´eho druhu je pravdˇepodobnost nezam´ıtnut´ı nespr´avn´e nulov´e hypot´ezy. Jinak ˇreˇceno, je to pravdˇepodobnost, ˇze testov´a statistika bude v oboru pˇrijet´ı, jestliˇze ve skuteˇcnosti nulov´a hypot´eza je nespr´avn´a. Pravdˇepodobnost chyby II. druhu znaˇc´ıme p´ısmenem β. Pravdˇepodobnost 1 − β se naz´ yv´a s´ıla testu. S´ıla testu vlastnˇe vyjadˇruje, s jakou pravdˇepodobnost´ı zam´ıtneme nulovou hypot´ezu H0 , plat´ı-li alternativn´ı hypot´eza HA . Jin´ ymi slovy s´ıla testu ud´av´a pravdˇepodobnost, ˇze se nedopust´ıme chyby II. druhu. Ide´aln´ı stav by nastal, kdyby obˇe chyby mˇely malou pravdˇepodobnost. Potom ˇsance, ˇze udˇel´ame nespr´avn´e rozhodnut´ı by byla mal´a bez ohledu na to, zda nulov´a hypot´eza je spr´avn´a nebo alternativn´ı hypot´eza je spr´avn´a. Je-li d˚ uleˇzit´e, abychom nezam´ıtli spr´avnou nulovou hypot´ezu, pak bychom mˇeli zvolit malou hladinu v´ yznamnosti α. Mˇeli bychom vˇsak pˇri volbˇe hladiny v´ yznamnosti m´ıt na pamˇeti n´asleduj´ıc´ı kl´ıˇcov´ y fakt. Vztah mezi pravdˇ epodobnostmi chyb prvn´ıho a druh´ eho druhu Pˇri pevn´em rozsahu v´ ybˇerov´eho souboru plat´ı, ˇze ˇc´ım menˇs´ı je pravdˇepodobnost chyby prvn´ıho druhu, t´ım vˇetˇs´ı je pravdˇepodobnost chyby druh´eho druhu a naopak. Volbu hladiny v´ yznamnosti m˚ uˇze v praktick´ ych u ´loh´ach ovlivnit i pˇredstava o n´asledc´ıch chyb obou druh˚ u. Chyby I. a II. druhu si m˚ uˇzeme ilustrovat na n´asleduj´ıc´ım pˇr´ıkladu.
98
´ ´I POJMY A TERMINOLOGIE 7.2 Z AKLADN
Pˇ r´ıklad 7.1 Ilustrace chyb I. a II. druhu Vˇzijte se do situace v jak´e je letovy´ dispeˇcer na nˇejak´em letiˇsti. Objev´ı-li se na monitoru maly´ ´ nepravidelny´ obrazec, ktery´ kˇr´ızˇ´ı drahu velk´emu dopravn´ımu letadlu, dispeˇcer se mus´ı rychle rozhodnout zda: ´ H0 : Jde pouze o nepatrnou poruchu na obrazovce a jinak je vˇse v poˇradku. ´ zka dopravn´ıho letadla s malym ´ soukrom´ym sportovn´ım letadlem. HA : Hroz´ı sraˇ ´ pak muˇ ˚ ze vzniknout faleˇsn´y poplach, coˇz je chyba I.druhu s pravdˇepodobJestliˇze je H0 pravdiva, nost´ı oznaˇcovanou jako α. ´ pak muˇ ˚ ze doj´ıt k neˇstˇest´ı vlivem chyby II.druhu s pravdˇepodobnost´ı Jestliˇze je HA pravdiva, oznaˇcenou β.
7.2.3
Z´ avˇ ery pˇ ri testov´ an´ı hypot´ ez a jejich interpretace
Moˇ zn´ e z´ avˇ ery pˇ ri testov´ an´ı hypot´ ez • Jestliˇze nulov´a hypot´eza je zam´ıtnuta, dˇel´ame z´avˇer, ˇze alternativn´ı hypot´eza je pravdiv´a. • Jestliˇze nulov´a hypot´eza nen´ı zam´ıtnuta, dˇel´ame z´avˇer, ˇze data n´am neposkytla dostatek podklad˚ u k podpoˇre alternativn´ı hypot´ezy. Kdyˇz je nulov´a hypot´eza zam´ıtnuta na hladinˇe v´ yznamnosti α, pouˇz´ıv´ame ˇcasto k vyj´adˇren´ı t´eto skuteˇcnosti fr´azi: V´ ysledky testu jsou statisticky v´ yznamn´ e na hladinˇe v´ yznamnosti ” α.“ Podobnˇe, kdyˇz nulov´a hypot´eza nen´ı zam´ıtnuta na hladinˇe v´ yznamnosti α, pouˇz´ıv´ame fr´azi: V´ ysledky testu jsou statisticky nev´ yznamn´ e na hladinˇe v´ yznamnosti α.“ ” Tabulka 7.1 V´ysledky testu hypot´ez Rozhodnut´ı
7.2.4
Skuteˇcnost H0 je pravdiv´a
H0 se nezam´ıt´ a spr´avn´e rozhodnut´ı pravdˇepodobnost= 1 − α
H0 se zam´ıt´ a chyba I. druhu pravdˇepodobnost= α
H0 je nepravdiv´a
chyba II. druhu pravdˇepodobnost= β
spr´avn´e rozhodnut´ı pravdˇepodobnost= 1 − β
Kritick´ y obor pro zadanou hladinu v´ yznamnosti
Nyn´ı se budeme zab´ yvat probl´emem, jak stanovit kritick´e hodnoty (kritickou hodnotu) pro test hypot´ezy, kdyˇz hladina v´ yznamnosti α je pˇredem zadan´a. Pˇripomeˇ nme, ˇze hladina v´ yznamnosti α testu hypot´ezy je pravdˇepodobnost, ˇze se dopust´ıme chyby I.druhu, to je, ˇze zam´ıtneme pravdivou nulovou hypot´ezu. Ekvivalentnˇe, α je pravdˇepodobnost, ˇze hodnota testov´e statistiky bude v oboru zam´ıtnut´ı, jestliˇze ve skuteˇcnosti nulov´a hypot´eza je spr´avn´a. Tud´ıˇz pro kaˇzd´ y test hypot´ezy plat´ı n´asleduj´ıc´ı tvrzen´ı. 99
K APITOLA 7
Tvrzen´ı 7.1
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
K RITICK E´ HODNOTY
´ PRO ZADANOU HLADINU V YZNAMNOSTI
Pˇredpokl´adejme, ˇze testujeme hypot´ezu na zadan´e hladinˇe v´ yznamnosti α. Pak kritick´e hodnoty mus´ı b´ yt vybr´any tak, aby za platnosti nulov´e hypot´ezy, pravdˇepodobnost, ˇze testov´a statistika bude v oboru zam´ıtnut´ı, byla rovna α.
7.2.5
Formulace procesu testov´ an´ı hypot´ ez
Zat´ım jsme se omezili na vysvˇetlen´ı podstaty testu hypot´ezy a jednotliv´ ych pojm˚ u. Nyn´ı matematicky zformulujeme proces testov´an´ı hypot´ez. Mˇejme n´ahodn´ y v´ ybˇer X = (X1 , X2 , · · · , Xn ) a testujme hypot´ezu H0 proti alternativˇe HA na hladinˇe v´ yznamnosti α. K testov´an´ı hypot´ezy pouˇzijeme statistiku T (X) zaloˇzenou na n´ahodn´em v´ ybˇeru X. Necht’ T (x) je hodnota testov´e statistiky pˇri dan´e realizaci x = (x1 , x2 , · · · , xn ) n´ahodn´eho v´ ybˇeru. Mnoˇzinu hodnot, kter´ ych m˚ uˇze testov´a statistika nab´ yt, naz´ yv´ame v´ ybˇerov´ y prostor a oznaˇcujeme V (viz odstavec 5.1). Obor zam´ıtnut´ı Wα nulov´e hypot´ezy H0 pro danou hladinu v´ yznamnosti α je urˇcen tak, aby P (T (X) ∈ Wα | H0 ) = α,
(7.5)
(tj. pravdˇepodobnost, ˇze testov´a statistika nabude hodnoty z kritick´eho oboru za platnosti nulov´e hypot´ezy, je rovna α). Pravdˇepodobnost chyby prvn´ıho druhu α je tedy definov´ana vztahem (7.5). Pravdˇepodobnost chyby druh´eho druhu β je pak β = P (T (X) ∈ / Wα | HA ).
(7.6)
Rozhodovac´ı pravidlo d(T (X)) pro test nulov´e hypot´ezy je n´asleduj´ıc´ı: (
dW (T (x)) =
1 pokud T (x) ∈ Wα 0 pokud T (x) ∈ / Wα .
(7.7)
Je-li hodnota rozhodovac´ıho pravidla rovna 1, pak hypot´ezu H0 zam´ıt´ame, je-li hodnota rozhodovac´ıho pravidla rovna 0, pak ˇr´ık´ame, ˇze hypot´ezu H0 nelze zam´ıtnout. Pˇredpokl´adejme, ˇze zn´ame rozdˇelen´ı F (t) testov´e statistiky T za platnosti H0 . Pak kritick´ y obor Wα pro zadanou pravdˇepodobnost α vymezuj´ı kritick´ e hodnoty tα rozdˇelen´ı testov´e statistiky n´asleduj´ıc´ım zp˚ usobem: α = P (T > tα ) = 1 − F (tα ).
(7.8)
Oznaˇc´ıme-li nejmenˇs´ı moˇznou hodnotu testov´e statistiky tmin a nejvˇetˇs´ı moˇznou hodnotu tmax , pak v pˇr´ıpadˇe pravostrann´eho testu bude kritick´ y obor Wα = (tα , tmax ), v pˇr´ıpadˇe levostrann´eho testu Wα = (tmin , t1−α ) 100
7.3 P - HODNOTY
a nakonec v pˇr´ıpadˇe dvoustrann´eho testu Wα = (tmin , t1−α/2 ) ∪ (tα/2 , tmax ) = W1,α/2 ∪ W2,α/2 . Obor pˇrijet´ı Wα je ve vˇsech uveden´ ych pˇr´ıpadech doplnˇekem kritick´eho oboru (Wα ∪Wα = V ). Pro jednoduchost budeme v dalˇs´ım textu pouˇz´ıvat oznaˇcen´ı T = T (X) pro testovou statistiku a tc = T (x) pro jej´ı hodnotu vypoˇctenou z konkr´etn´ı realizace n´ahodn´eho v´ ybˇeru.
7.2.6
Klasick´ y pˇ r´ıstup k testov´ an´ı hypot´ ez
Klasick´ y pˇr´ıstup k testov´an´ı hypot´ez spoˇc´ıv´a v tom, ˇze pˇredem zvol´ıme pevnou hladinu v´yznamnosti. Testovac´ı postup je odvozen tak, aby pˇri dan´e hladinˇe v´ yznamnosti zajiˇst’oval minim´aln´ı pravdˇepodobnost chyby II. druhu a t´ım maxim´aln´ı s´ılu testu. V dalˇs´ıch odstavc´ıch t´eto kapitoly se budeme zab´ yvat metodami testov´an´ım hypot´ez o nˇekter´ ych parametrech rozdˇelen´ı. Urˇcit´e z´akladn´ı kroky pˇri testov´an´ı hypot´ez o parametrech rozdˇelen´ı jsou spoleˇcn´e vˇsem metod´am testov´an´ı hypot´ez zaloˇzen´ ym na klasick´em pˇr´ıstupu. Tyto kroky jsou uvedeny v n´asleduj´ıc´ım postupu 7.1. Postup 7.1
Test hypotezy pouˇzit´ım klasickeho pˇr´ıstupu ´ ´
1. 2. 3. 4. 5.
Formulujte nulovou a alternativn´ı hypot´ezu. Zvolte hladinu v´ yznamnosti α. Urˇcete kritickou hodnotu (kritick´e hodnoty). Vypoˇctˇete hodnotu testov´e statistiky. Jestliˇze hodnota testov´e statistiky padne do oboru zam´ıtnut´ı, zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 . 6. Formulujte slovnˇe z´avˇer. Vztah mezi testov´ an´ım hypot´ ez a intervaly spolehlivosti
Vˇsimneme si souvislosti mezi testy hypot´ez o parametru θ a intervalem spolehlivosti pro tento parametr. Z definice rozhodovac´ıho pravidla (7.7) pro test hypot´ezy a z definice 100(1 − α)% intervalu spolehlivosti (6.6 na stranˇe 85) pro parametr vypl´ yv´a, ˇze nulov´ a hypot´eza o urˇcit´em parametru bude zam´ıtnuta tehdy a jen tehdy, jestliˇze hodnota parametru dan´a nulovou hypot´ezou leˇz´ı vnˇe 100(1 − α)% intervalu spolehlivosti pro testovan´y parametr.
7.3
P -hodnoty
Pˇri klasick´em pˇr´ıstupu k testov´an´ı hypot´ez (viz postup 7.1) je hladina v´ yznamnosti stanovena pˇredem a z´avˇery jsou pak formulov´any v pojmech zam´ıtnut´ı nebo nezam´ıtnut´ı nulov´e hypot´ezy. Tento pˇr´ıstup m´a nˇekter´e nev´ yhody: nedovoluje uˇzivatel˚ um, kteˇr´ı maj´ı k dispozici pouze z´avˇery o testovan´e hypot´eze, uˇcinit sv´e vlastn´ı ohodnocen´ı (tj. vybrat si svoji vlastn´ı hladinu v´ yznamnosti); ani jim neposkytuje informaci nutnou k zjiˇstˇen´ı, jak siln´e jsou argumenty proti nulov´e hypot´eze. Z tohoto d˚ uvodu mnoho v´ yzkumn´ ych pracovn´ık˚ u a vˇetˇsina statistick´ ych programov´ ych syst´em˚ u ud´av´a tzv. P -hodnotu hypot´ezy. Vypoˇcteme hodnotu testov´e statistiky a k n´ı nejmenˇs´ı obor zam´ıtnut´ı, pˇri kter´em bychom mohli na z´akladˇe t´eto hodnoty zam´ıtnout nulovou hypot´ezu proti dan´e alternativˇe. Hladina v´ yznamnosti odpov´ıdaj´ıc´ı tomuto kritick´emu oboru je P -hodnota. 101
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
K APITOLA 7
Definice 7.5
P - HODNOTA
Necht’ T je testov´a statistika, tc je pozorovan´a hodnota testov´e statistiky. Pak P -hodnota testu hypot´ezy se rovn´a • 2. min{P (T ≤ tc ), P (T ≥ tc )} pro dvoustrann´ y test, • P (T ≤ tc ) pro levostrann´ y test, • P (T ≥ tc ) pro pravostrann´ y test, kde pravdˇepodobnosti jsou poˇc´ıt´any za podm´ınky, ˇze nulov´a hypot´eza je spr´avn´a. Pozn´ amka: Obvykle nem˚ uˇzeme urˇcit pˇresnou P -hodnotu pomoc´ı odpov´ıdaj´ıc´ı tabulky kritick´ ych hodnot, m˚ uˇzeme ji pouze odhadnout. Ke stanoven´ı pˇresn´e P -hodnoty pouˇzijeme poˇc´ıtaˇc. Obr´ azek 7.1 P -hodnota P -hodnota
P -hodnota
t
0 −tc
t
0
tc
(a) dvoustrann´ y test
7.3.1
P -hodnota
tc
(b) levostrann´ y test
t
0 tc
(c) pravostrann´ y test
Pˇ r´ıstup k testov´ an´ı hypot´ ez zaloˇ zen´ y na P -hodnotˇ e
P -hodnota m˚ uˇze b´ yt interpretov´ana jako pozorovan´ a hladina v´ yznamnosti testu hypot´ezy. Ilustrujme si to na pˇr´ıkladu. Uvaˇzujme pravostrann´ y test zaloˇzen´ y na testov´e statistice, kter´a m´a normovan´e norm´aln´ı rozdˇelen´ı. Pˇredpokl´adejme, ˇze hodnota testov´e statistiky je 1.88. Pak P -hodnota testu hypot´ezy je 0.0301, jak je zn´azornˇeno na n´asleduj´ıc´ım obr´azku. Obr´ azek 7.2 P -hodnota jako pozorovan´ a hladina v´yznamnosti
P-hodnota=0.0301
z0.05
z 0 = 1.645 z0.01 = 2.33 zc = 1.88
Jak vid´ıme z obr´azku 7.2, nulov´a hypot´eza by mˇela b´ yt zam´ıtnuta na hladinˇe v´ yznamnosti α = 0.05, ale nemˇela by b´ yt zam´ıtnuta na hladinˇe α = 0.01. Ve skuteˇcnosti, jak je zˇrejm´e z obr´azku, P -hodnota je pˇresnˇe nejmenˇs´ı hladina v´ yznamnosti, na kter´e by nulov´a hypot´eza mˇela b´ yt zam´ıtnuta. 102
´ ´Z 7.4 N Eˇ KTER E´ TESTY PARAMETRICK YCH HYPOT E
P -hodnota jako pozorovan´ a hladina v´ yznamnosti P -hodnota testu hypot´ezy je rovna nejmenˇs´ı hladinˇe v´ yznamnosti, na kter´e nulov´a hypot´eza m˚ uˇze b´ yt zam´ıtnuta, to je nejmenˇs´ı hladinˇe v´ yznamnosti, pˇri kter´e v´ ybˇerov´a data vedou k zam´ıtnut´ı nulov´e hypot´ezy. S ohledem na pˇredch´azej´ıc´ı skuteˇcnost m˚ uˇzeme formulovat n´asleduj´ıc´ı kriterium pro rozhodnut´ı, zda nulov´a hypot´eza by mˇela b´ yt zam´ıtnuta ve prospˇech alternativn´ı hypot´ezy. Rozhodovac´ı kriterium pro test hypot´ ezy pomoc´ı P -hodnoty Jestliˇze P -hodnota je menˇs´ı nebo rovna zadan´e hladinˇe v´ yznamnosti, pak zam´ıtnˇete nulovou hypot´ezu; jinak nezam´ıtejte nulovou hypot´ezu. Obecn´a metoda testu hypot´ezy zaloˇzen´a na P -hodnotˇe je uvedena v n´asleduj´ıc´ım postupu, kter´ y budeme naz´ yvat pˇr´ıstup k testov´an´ı hypot´ezy zaloˇzen´ y na P -hodnotˇe. Postup 7.2 1. 2. 3. 4. 5. 6.
Test hypotezy zaloˇzeny´ na P -hodnotˇe ´
Formulujte nulovou a alternativn´ı hypot´ezu. Zvolte hladinu v´ yznamnosti α. Vypoˇctˇete hodnotu testov´e statistiky. Urˇcete P -hodnotu. Jestliˇze P ≤ α zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 . Formulujte slovnˇe z´avˇer.
7.4
Nˇ ekter´ e testy parametrick´ ych hypot´ ez
V tomto odstavci se budeme zab´ yvat jednak jednov´ ybˇerov´ ymi testy o nˇekter´ ych parametrech rozdˇelen´ı (stˇredn´ı hodnota, rozptyl, pod´ıl), jednak testy o shodˇe nˇekter´ ych parametr˚ u, zaloˇzen´ ymi na nez´avisl´ ych respektive p´arovˇe z´avisl´ ych v´ ybˇerech. Pˇritom budeme vych´azet z v´ ysledk˚ u kapitoly 5 o n´ahodn´em v´ ybˇeru, zejm´ena o v´ ybˇerov´em rozdˇelen´ı statistik. Vzhledem k tomu, ˇze jsme v pˇredch´azej´ıc´ı ˇc´asti uvedli obecn´ y postup pro test hypot´ezy zaloˇzen´ y jak na klasick´em pˇr´ıstupu, tak na P -hodnotˇe, uvedeme v dalˇs´ım textu u jednotliv´ ych test˚ u pouze pˇredpoklady, testovou statistiku a kritick´ y obor, a v nˇekter´ ych pˇr´ıpadech i P hodnotu.
7.4.1
Test hypot´ ezy o stˇ redn´ı hodnotˇ eµ
Na z´akladˇe u ´daj˚ u o n´ahodn´em v´ ybˇeru z norm´aln´ıho rozdˇelen´ı nebo o n´ahodn´em v´ ybˇeru velk´eho rozsahu z libovoln´eho rozdˇelen´ı, chceme ovˇeˇrit pˇredpoklad, ˇze stˇredn´ı hodnota n´ahodn´e veliˇciny µ (pr˚ umˇer z´akladn´ıho souboru) se rovn´a urˇcit´e hodnotˇe µ0 . Nulovou hypot´ezu tedy formulujeme jako H0 : µ = µ0 . Alternativn´ı hypot´eza je v pˇr´ıpadˇe dvoustrann´eho testu HA : µ 6= µ0 . V pˇr´ıpadˇe jednostrann´ ych test˚ u HA : µ > µ0 nebo HA : µ < µ0 . Budeme se zab´ yvat dvˇema metodami, jednu lze aplikovat v pˇr´ıpadˇe, kdy je rozptyl rozdˇelen´ı zn´am, druhou v pˇr´ıpadˇe neznalosti rozptylu rozdˇelen´ı.
103
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
Test hypot´ ezy o stˇ redn´ı hodnotˇ e µ pˇ ri zn´ am´ em rozptylu σ 2 Za pˇredpokladu, ˇze zn´ame rozptyl rozdˇelen´ı, zvol´ıme testovou statistiku Z=
X − µ0 √ , σ/ n
(7.9)
kter´a m´a za platnosti nulov´e hypot´ezy (pˇribliˇznˇe) normovan´e norm´aln´ı rozdˇelen´ı (viz tvrzen´ı 5.2). Postup 7.3 pro test hypot´ezy H0 : µ = µ0 pˇri zn´am´em σ 2 budeme naz´ yvat jednov´ ybˇ erov´ y z-test pro µ nebo struˇcnˇeji z-test pro µ. Postup 7.3
Jednovybˇ H 0 : µ = µ0 ´ erovy´ z-test pro stˇredn´ı hodnotu µ s nulovou hypotezou ´
• Pˇredpoklady a. Norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru (n ≥ 30). 2 b. Zn´am´ y rozptyl σ . • Testov´ a statistika: Z =
¯ X−µ √0 σ/ n
∼ N (0, 1) nebo Z ≈ N (0, 1)
• Kritick´e hodnoty H0 : pro levostrann´ y test: −zα pro dvoustrann´ y test: ±zα/2 pro pravostrann´ y test: zα Wα
W1, α2
Wα
Wα
W2, α2
α 2
α −zα
0
Wα
Wα
α 2
−z α2
0
z α2
α 0
zα
Skuteˇcn´a hladina v´ yznamnosti je rovna α pro norm´aln´ı rozdˇelen´ı a je pouze pˇribliˇznˇe rovna α pro v´ ybˇery z jin´ ych neˇz norm´aln´ıch rozdˇelen´ı. Stejnˇe jako metoda sestrojen´ı z-intervalu je i z-test robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpokladu normality rozdˇelen´ı. Co se t´ yˇce odlehl´ ych pozorov´an´ı, mohou m´ıt znaˇcn´ y vliv na z-test dokonce pˇri velk´em rozsahu v´ ybˇeru, nebot’ v´ ybˇerov´ y pr˚ umˇer nen´ı rezistentn´ı v˚ uˇci odlehl´ ym pozorov´an´ım. Pˇ r´ıklad 7.2 Ilustrace postupu 7.3 ´ ´ em rozptylu pln´ıc´ıho Odbˇeratel s dodavatelem uzavˇreli smlouvu o dodavce pytlu˚ obil´ı. Pˇri znam´ ´ stˇredn´ı hodnota hmotnosti pytlu˚ 10 kg. Pro ovˇerˇen´ı toho, zˇe plnic´ı stroj stroje σ 2 = 0.1 mus´ı byt ´ ´ ˚ a z´ıskan ´ aritmeticky´ prumˇ ˚ er jejich hmotnosti pracuje dobˇre, bylo nahodnˇ e vybrano 40 pytlu ´ ˚ je 10 kg. x ¯ = 9.8 kg. Rozhodnˇete na 5% hladinˇe vy´ znamnosti, zda hmotnost dodavan´ ych pytlu ˇ Reˇsen´ı: Vzhledem k tomu, zˇ e n = 40 je splnˇena podm´ınka n ≥ 30. ´ ˚ je pˇresnˇe 10 kg) 1. H0 : µ = 10 kg (stˇredn´ı hodnota dodavan´ ych pytlu ´ ˚ nen´ı pˇresnˇe 10 kg). Test hypot´ezy je dvousHA : µ 6= 10 kg (stˇredn´ı hodnota dodavan´ ych pytlu ´ tranny. ´ 2. Hladina vyznamnosti α = 0.05 ´ 3. Kritick´e hodnoty ±zα/2 pro dvoustranny´ test najdeme v tabulce II.kritickych hodnot N (0, 1)rozdˇelen´ı, ±z0.025 = ±1.96
104
´ ´Z 7.4 N Eˇ KTER E´ TESTY PARAMETRICK YCH HYPOT E ´ ´ ´ 4. Mame zadano µ0 = 10, x ¯ = 9.8, σ 2 = 0.1, n = 40 a z 3. kroku ±z0.025 = ±1.96. Vypoˇc´ıtame hodnotu testov´e statistiky 9.8 − 10 x ¯ − µ0 √ =p zc = = −4 σ/ n 0.1/40 ´ zˇe leˇz´ı v kritick´em oboru nulov´e hypot´ezy, 5. Hodnota testov´e statistiky je zc = −4. To znamena, ´ ´ tud´ızˇ nulovou hypot´ezu zam´ıtame na hladinˇe vyznamnosti 0.05. ´ ´ ´ ´ davaj´ ´ 6. Vysledky testu jsou statisticky vyznamn´ e na 5% hladinˇe vyznamnosti. Tud´ızˇ data nam ı ˚ k tomu, abychom udˇelali zavˇ ´ er, zˇ e stˇredn´ı hodnota hmotnosti dodavan´ ´ dostatek argumentu ych ˚ nen´ı pˇresnˇe 10 kg. pytlu
Test hypot´ ezy o stˇ redn´ı hodnotˇ e µ pˇ ri nezn´ am´ em rozptylu σ 2 Rozptyl rozdˇelen´ı, z nˇehoˇz v´ ybˇer poch´az´ı obvykle nezn´ame. Pˇri odvozen´ı metody pro test hypot´ezy o stˇredn´ı hodnotˇe µ pˇri nezn´am´em rozptylu σ 2 , vyjdeme z tvrzen´ı 5.2, kter´e pˇripomeneme. Je-li k dispozici n´ahodn´ y v´ ybˇer o rozsahu n z norm´aln´ıho rozdˇelen´ı se stˇredn´ı X−µ hodnotou µ, pak n´ahodn´a veliˇcina T = S/√n m´a t-rozdˇelen´ı s n − 1 stupni volnosti. M˚ uˇzeme tud´ıˇz prov´est test hypot´ezy s nulovou hypot´ezou: H0 : µ = µ0 za pomoci testov´e statistiky T =
X − µ0 √ S/ n
a s pouˇzit´ım tabulky III.urˇcit kritick´e hodnoty. N´asleduj´ıc´ı postup pro test hypot´ezy o stˇredn´ı hodnotˇe budeme naz´ yvat jednov´ ybˇ erov´ y t-test nebo zkr´acenˇe t-test pro µ . Postup 7.4
Jednovybˇ H 0 : µ = µ0 ´ erovy´ t-test o stˇredn´ı hodnotˇe µ s nulovou hypotezou ´
• Pˇredpoklady a. Norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru (n > 30). b. Nezn´am´ y rozptyl σ 2 . • Testov´ a statistika: T =
X−µ √0 s/ n
∼ t(n − 1) nebo T ≈ t(n − 1)
• Kritick´e hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα Test hypot´ezy je pˇresn´ y pro norm´aln´ı rozdˇelen´ı a pouze pˇribliˇzn´ y pro v´ ybˇery z jin´ ych neˇz norm´aln´ıch rozdˇelen´ı. Aˇckoliv t-test byl odvozen za pˇredpokladu, ˇze m´ame v´ ybˇery z norm´aln´ıho rozdˇelen´ı, pouˇz´ıv´a se i pro v´ ybˇery o velk´em rozsahu z jin´ ych neˇz norm´aln´ıch rozdˇelen´ı. Test pracuje dobˇre i pˇri pomˇernˇe mal´ ych v´ ybˇerech z jin´ ych neˇz norm´aln´ıch rozdˇelen´ı, pokud se rozdˇelen´ı neliˇs´ı pˇr´ıliˇs od norm´aln´ıho. Jin´ ymi slovy, t-test je robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpokladu normality rozdˇelen´ı. Co se t´ yˇce odlehl´ ych pozorov´an´ı, mohou m´ıt dokonce pˇri velk´em rozsahu v´ ybˇeru znaˇcn´ y vliv na t-test, nebot’ v´ ybˇerov´ y pr˚ umˇer a v´ ybˇerov´ y rozptyl nejsou v˚ uˇci nim rezistentn´ı.
105
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
Pˇ r´ıklad 7.3 Ilustrace postupu 7.4 ´ ´ ´ inteligenˇcn´ı kvocient. Ze z´ıskany´ ch U 30 nahodnˇ e vybranych obyvatel mˇesta Prahy byl testovan ´ ´ ´ erovy´ prumˇ ˚ er x udaj u˚ byly vypoˇc´ıtany vybˇ ¯ = 101.8 a v´ybˇerova´ smˇerodatna´ odchylka s = 6.2. a) Tes´ tujte na 5% hladinˇe vyznamnosti, zda je stˇredn´ı hodnota IQ obyvatel Prahy vˇetˇs´ı neˇz 100. b) Urˇcete P -hodnotu pro uvaˇzovany´ test. ˇ sen´ı: Reˇ a ) Pˇredpoklady pro aplikaci postupu 7.4 jsou splnˇeny, nebot’ n = 30. 1. H0 : µ = 100 (µ0 = 100) (stˇredn´ı hodnota IQ vˇsech obyvatel Prahy nen´ı vˇetˇs´ı neˇz 100) HA : µ > 100 (stˇredn´ı hodnota IQ vˇsech obyvatel Prahy je vˇetˇs´ı neˇz 100) ´ Test hypot´ezy je pravostranny. ´ 2. Hladina vyznamnosti α = 0.05 3. Kriticka´ hodnota pro pravostranny´ test je tα s n − 1 stupni volnosti. V tabulce III.najdeme, zˇe . pro ν = n − 1 = 29 je t0.05 = 1.699 = 1.7 ´ ´ ´ 4. Mame zadano µ0 = 100, x ¯ = 101.8, s = 6.2, n = 30 a z 3. kroku t0.05 = 1.7. Vypoˇc´ıtame hodnotu testov´e statistiky x ¯ − µ0 101.8 − 100 √ √ = tc = = 1.59 s/ n 6.2/ 30 5. Hodnota testov´e statistiky je menˇs´ı neˇz kriticka´ hodnota 1.7, tud´ızˇ tc neleˇz´ı v kritick´em oboru ´ nulov´e hypot´ezy a proto nulovou hypot´ezu nezam´ıtame na 5% hladinˇe v´yznamnosti. ´ ˚ 6. Vy´ sledky testu nejsou statisticky vyznamn´ e na 5% hladinˇe. V dusledku toho vy´ bˇerova´ data ´ nedavaj´ ´ ´ er, zˇe stˇredn´ı hodnota IQ obyvatel nam ı dostatek argumentu˚ k tomu, abychom udˇelali zavˇ Prahy je vˇetˇs´ı neˇz 100. ˚ zeme urˇcit pˇresnou P b ) P -hodnota je pro pravostranny´ test P (T ≥ 1.59). Z tabulky III. nemuˇ ˇu ˚ volnosti 29 plat´ı 0.05 < P (T ≥ 1.59) < 0.1. Protoˇze P hodnotu. Zjist´ıme pouze, zˇe pro poˇcet stupn ´ ˚ zeme H0 zam´ıtnout. hodnota je menˇs´ı neˇz poˇzadovana´ hladina vyznamnosti, muˇ
7.4.2
Test hypot´ ezy o rozptylu
V tomto odstavci uvedeme postup pro test hypot´ezy H0 : σ 2 = σ02 . Alternativn´ı hypot´eza je v pˇr´ıpadˇe dvoustrann´eho testu HA : σ 2 6= σ02 . V pˇr´ıpadˇe jednostrann´ ych test˚ u HA : σ 2 > σ02 nebo HA : σ 2 < σ02 . Pˇripomeˇ nme, ˇze v pˇr´ıpadˇe test˚ u hypot´ez o stˇredn´ı hodnotˇe norm´aln´ıho rozdˇelen´ı nepouˇz´ıv´ame jako testovou statistiku v´ ybˇerov´ y pr˚ umˇer X, ale normovan´ y tvar v´ ybˇerov´eho pr˚ umˇeru. Podobnˇe, nepouˇzijeme ani v pˇr´ıpadˇe testu hypot´ezy o rozptylu norm´aln´ıho rozdˇelen´ı n´ahodnou veliˇcinu S 2 jako testovou statistiku, ale n´ahodnou veliˇcinu χ2 =
n−1 2 S , σ02
kter´a vzhledem k tvrzen´ı 5.3 m´a χ2 -rozdˇelen´ı s n − 1 stupni volnosti. Metodu testu hypot´ezy o rozptylu uvedenou n´ıˇze budeme naz´ yvat χ2 -test o rozptylu. Postup 7.5
χ2 -test hypotezy o rozptylu σ 2 s nulovou hypotezou H0 : σ 2 = σ02 ´ ´
• Pˇredpoklad Norm´aln´ı rozdˇelen´ı. • Testov´ a statistika: χ2 =
(n−1) 2 S σ02
∼ χ2 (n − 1). 106
´ ´Z 7.4 N Eˇ KTER E´ TESTY PARAMETRICK YCH HYPOT E
• Obor zam´ıtnut´ı H0 : pro levostrann´ y test: (0; χ21−α ), pro dvoustrann´ y test: (0; χ21−α/2 ) ∪ (χ2α/2 ; ∞), pro pravostrann´ y test: (χ2α ; ∞). Wα
Wα
W1, α2
Wα
W2, α2
α 2
α
χ21−α
Wα
Wα
α 2
χ2 χ21−α/2
χ2α/2
χ2
α χ2α
χ2
• P -hodnota testu H0 : pro levostrann´ y test: P (χ2 ≤ χ2c ), pro dvoustrann´ y test: 2 min{P (χ2 ≤ χ2c ), P (χ2 ≥ χ2c )}, pro pravostrann´ y test: P (χ2 ≥ χ2c ). Na rozd´ıl od t-testu pro stˇredn´ı hodnotu, χ2 -test pro rozptyl nen´ı robustn´ı v˚ uˇci odchylk´am od pˇredpokladu normality. Je dokonce tak nerobustn´ı, ˇze je doporuˇcov´an pouze v pˇr´ıpadˇe v´ ybˇeru z norm´aln´ıho rozdˇelen´ı nebo z rozdˇelen´ı liˇsic´ıho se nepatrnˇe od norm´aln´ıho. Dˇr´ıve neˇz pouˇzijeme χ2 -test je nutn´a pˇredbˇeˇzn´a anal´ yza. Pˇ r´ıklad 7.4 Ilustrace postupu 7.5 ´ ec´ıho stroje se zjist´ı z rozptylu d´elky vyrabˇ ´ enych ´ Pˇresnost nastaven´ı automatick´eho obrabˇ sou´ cˇ astek. Je-li jeho hodnota vˇetˇs´ı neˇz 380 µm2 , je tˇreba stroj znovu nastavit. Vybrali jsme 15 ´ ´ erovy´ rozptyl byl 680 µm2 . Testujte tvrzen´ı stroj je dostateˇcnˇe pˇresn´y proti souˇcastek a jejich vybˇ ´ ıho tvrzen´ı stroj je tˇreba znovu nastavit, a to na hladinˇe α = 0.01 za pˇredpokladu, zˇ e vy´ bˇeru z normaln´ rozdˇelen´ı. ˇ sen´ı: Reˇ 1. H0 : σ 2 = 380 (stroj je dostateˇcnˇe pˇresn´y), ´ HA : σ 2 > 380 (stroj je tˇreba znovu nastavit). Test je pravostranny. 2. α = 0.01. 2 3. Kriticka´ hodnota je χα s ν = n − 1 stupni volnosti. Z tabulek pro ν = 15 − 1 = 14 dostaneme 2 2 χα = χ0.01 = 29.14. W0.01 = (29.14, ∞). 4. s2 = 680 tud´ızˇ χ2c = 14 · 680/380 = 25.05. ´ 5. Vypoˇctena´ hodnota testov´e statistiky neleˇz´ı v kritick´em oboru, tud´ızˇ nezam´ıtame H0 . ´ data nedavaj´ ´ ˚ proto, abychom udˇelali 6. Na 1% hladinˇe vy´ znamnosti nam ı dostatek argumentu ´ er, zˇe stroj je tˇreba znovu nastavit. zavˇ
7.4.3
Testy hypot´ ezy o pod´ılu p
Tvrzen´ı 5.5 v kapitole 5 umoˇzn ˇuje pouˇz´ıt jako testovou statistku pro test nulov´e hypot´ezy H0 : p = p0 n´ahodnou veliˇcinu pˆ − p0 , Z=q p0 (1 − p0 )/n kter´a m´a pro velk´a n pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı. Kritick´e hodnoty najdeme v tabulce II. Z´akladn´ı u ´daje pro test zm´ınˇen´e nulov´e hypot´ezy pro pod´ıl (parametr alternativn´ıho rozdˇelen´ı) jsou uvedeny v postupu 7.6. 107
K APITOLA 7
Postup 7.6
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
Jednovybˇ o pod´ılu p s nulovou hypotezou H0 : p = p 0 ´ erovy´ z-test hypotezy ´ ´
• Pˇredpoklady Pro n a p0 plat´ı, ˇze np0 a z´aroveˇ n n(1 − p0 ) jsou rovny alespoˇ n 5. pˆ − p0
• Testov´ a statistika: Z = q
p0 (1 − p0 )/n
≈ N (0, 1)
• Kritick´e hodnoty H0 : pro dvoustrann´ y test: ±zα/2 pro levostrann´ y test: −zα pro pravostrann´ y test: zα Pˇ r´ıklad 7.5 Ilustrace postupu 7.6 ˇ se 650 vyslovilo pro pˇr´ımou volbu prezidenta. Muˇ ´ ˚ zeme na zakladˇ ´ Z 1250 dotazan´ ych voliˇcu˚ CR e ˇ si pˇreje pˇr´ımou volbu prezidenta? Testujte na 5% ´ ´ er, zˇe vˇetˇsina voliˇcu ˚ CR tˇechto udaj u˚ udˇelat zavˇ ´ hladinˇe vyznamnosti. ˇ Reˇsen´ı: Nejprve ovˇerˇ´ıme podm´ınku pro pouˇzit´ı testu. Rozsah v´ybˇeru je n = 1250 a p0 = 0.50. Tud´ızˇ np0 = 1250 · 0.50 = 625 > 5 a n(1 − p0 ) = 1250 · 0.50 = 625 > 5. Podm´ınka je splnˇena. ˚ chce pˇr´ımou volbu prezidenta) 1. H0 : p = 0.50 (nen´ı pravda, zˇe vˇetˇsina voliˇcu ˚ chce pˇr´ımou volbu). HA : p > 0.50 (vˇetˇsina voliˇcu ´ Test hypot´ezy je pravostranny. 2. α = 0.05 3. Kriticka´ hodnota pro pravostrann´y test je zα = z0.05 = 1.645. ˚ je pˆ = 650/1250 = 0.52. Takˇze hodnota 4. Vzhledem k tomu, zˇ e pro pˇr´ımou volbu je 650 voliˇcu, testov´e statistiky je 0.52 − 0.50 zc = p = 1.41. 0.50(1 − 0.50)/1250 ´ 5. Vypoˇctena´ hodnota zc = 1.41 < 1.645, neleˇz´ı v kritick´em oboru, a proto nezam´ıtame H0 . ´ 6. Vy´ sledky testu nejsou statisticky v´yznamn´e na 5% hladinˇe; to je na 5% hladinˇe vyznamnosti ´ data nedavaj´ ´ ˚ proto, abychom udˇelali zavˇ ´ er, zˇe vˇetˇsina obˇcanu ˚ chce nam ı dostatek argumentu pˇr´ımou volbu prezidenta. ˚ zeme sice zam´ıtnout na P -hodnota pro test. Z tabulky II. najdeme P = 0.0793. Hypot´ezu nemuˇ ´ ˚ zeme ji zam´ıtnout na 8% hladinˇe, pˇresnˇeji na kter´ekoliv hladinˇe 5% hladinˇe vyznamnosti, ale muˇ vˇetˇs´ı nebo rovn´e 7.93%.
7.5
Testy hypot´ ez o shodˇ e dvou stˇ redn´ıch hodnot
Nyn´ı se budeme zab´ yvat testem hypot´ezy pro dvˇe stˇredn´ı hodnoty. Tyto metody jsou jedny z nejˇcastˇeji pouˇz´ıvan´ ych, at’ v pr˚ umyslov´ ych aplikac´ıch, tak v r˚ uzn´ ych marketingov´ ych pr˚ uzkumech apod. Umoˇzn ˇuj´ı totiˇz porovn´avat r˚ uzn´e situace ve v´ yrobˇe, ve financov´an´ı, v prodeji. Jde o pˇr´ıpady, kdy neprov´ad´ıme u ´sudky pouze z jednoho n´ahodn´eho v´ ybˇeru, ale porovn´av´ame mezi sebou v´ ybˇery dva. Na z´akladˇe porovn´an´ı tˇechto v´ ybˇer˚ u prov´ad´ıme u ´sudky o dvou z´akladn´ıch souborech, z nichˇz byly v´ ybˇery poˇr´ızeny. V tomto odstavci se budeme zab´ yvat tˇremi metodami pro porovn´an´ı dvou stˇredn´ıch hodnot, dvˇema metodami pro nez´avisl´e v´ ybˇery (odstavec 7.5.1) a jednou metodou pro p´arov´e v´ ybˇery (odstavec 7.5.2). 108
7.5 T ESTY HYPOT E´ Z O SHOD Eˇ DVOU ST Rˇ EDN´I CH HODNOT
7.5.1
Testy hypot´ ezy o shodˇ e dvou stˇ redn´ıch hodnot pro nez´ avisl´ e v´ ybˇ ery
Metody, kter´ ymi se budeme nejprve zab´ yvat vyˇzaduj´ı, aby v´ ybˇery byly nez´avisl´e (viz odstavec 5.4). Pˇredpokl´adejme, ˇze m´ame dva nez´avisl´e n´ahodn´e v´ ybˇery o rozsahu n1 a n2 z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 a smˇerodatn´ ymi odchylkami σ1 a σ2 . D´ale pˇredpokl´adejme, ˇze bud’ obˇe rozdˇelen´ı jsou norm´aln´ı nebo oba v´ ybˇery jsou velk´e. Budeme uvaˇzovat dva pˇr´ıpady a sice pˇr´ıpad, kdy rozptyly rozdˇelen´ı, z nichˇz v´ ybˇery poch´az´ı, jsou shodn´e a druh´ y pˇr´ıpad, kdy rozptyly jsou r˚ uzn´e. Vzhledem k tomu, ˇze rozptyly rozdˇelen´ı obvykle nezn´ame, nebudeme se zab´ yvat postupy sestrojen´ ymi za pˇredpokladu znalosti rozptyl˚ u. Test hypot´ ezy µ1 = µ2 (nez´ avisl´ e v´ ybˇ ery, σ1 = σ2 ) Se zˇretelem na tvrzen´ı 5.7 m˚ uˇzeme pro test hypot´ezy s nulovou hypot´ezou H0 : µ1 = µ2 (stˇredn´ı hodnoty rozdˇelen´ı jsou shodn´e) pouˇz´ıt n´ahodnou veliˇcinu T =
X1 − X2
q
SP 1/n1 + 1/n2
,
(7.10)
kde
(n1 − 1)S12 + (n2 − 1)S22 , (7.11) n1 + n2 − 2 jako testovou statistiku a urˇcit kritick´e hodnoty t-rozdˇelen´ı z tabulky III. N´asleduj´ıc´ı postup pro test hypot´ezy pro dvˇe stˇredn´ı hodnoty budeme naz´ yvat sdruˇ zen´ y t-test. SP2 =
Postup 7.7
Sdruˇzeny´ t-test pro dvˇe stˇredn´ı hodnoty s nulovou hypotezou H0 : µ1 = µ2 ´
• Pˇredpoklady a. Nez´avisl´e v´ ybˇery b. Norm´aln´ı rozdˇelen´ı nebo velk´e rozsahy v´ ybˇer˚ u c. Smˇerodatn´e odchylky v obou rozdˇelen´ıch shodn´e ale nezn´am´e • Testov´ a statistika: T =
X1 − X2
q
SP 1/n1 + 1/n2
∼ t(n1 + n2 − 2)
• Kritick´e hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα Pozn´ amky: 1. Ze vztahu (7.11) lze snadno odvodit, ˇze sdruˇzen´ y v´ ybˇerov´ y rozptyl s2P leˇz´ı vˇzdy mezi dvˇema v´ ybˇerov´ ymi rozptyly s21 a s22 . Tato skuteˇcnost je uˇziteˇcn´a jako kontrola, zda jsme s2P spoˇc´ıtali dobˇre. 2. Sdruˇzen´ y t-test pracuje pˇrimˇeˇrenˇe dobˇre dokonce pˇri mal´ ych nebo stˇrednˇe mal´ ych v´ ybˇerech z jin´ ych neˇz norm´aln´ıch rozdˇelen´ı za pˇredpokladu, ˇze odchylky od norm´aln´ıho rozdˇelen´ı nejsou pˇr´ıliˇs velk´e. Jin´ ymi slovy sdruˇzen´ y t-test je robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpokladu normality. 109
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
3. Sdruˇzen´ y t-test je tak´e robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpokladu shodnosti smˇerodatn´ ych odchylek v obou rozdˇelen´ıch, pokud se rozsahy v´ ybˇer˚ u pˇr´ıliˇs neliˇs´ı. 4. Jsou-li rozdˇelen´ı, z nichˇz poˇrizujeme v´ ybˇer, jen pˇribliˇznˇe norm´aln´ı, pak shodnost smˇerodatn´ ych odchylek b´ yt ovˇeˇrena testem naz´ yvan´ ym F -testem shodnosti smˇerodatn´ ych odchylek nebo rozptyl˚ u. Mnoho statistik˚ u tento test nedoporuˇcuje z toho d˚ uvodu, ˇze aˇckoliv t-test je robustn´ı v˚ uˇci mal´ ym odchylk´am od normality, F -test je extr´emnˇe nerobustn´ı v˚ uˇci takov´ ym odchylk´am: i kdyˇz se rozdˇelen´ı jen m´alo liˇs´ı od norm´aln´ıho, F -test m˚ uˇze d´avat nespolehliv´e v´ ysledky. Statistik George E.P. Box ˇrekl: Testovat pˇredem hypot´ezu o rozptylech je ob” dobn´e, jako kdybychom pˇredt´ım, neˇz zaoce´ansk´ y parn´ık vypluje z pˇr´ıstavu na ˇsir´ y oce´an, spustili na moˇre ˇclun, abychom si ovˇeˇrili, ˇze jsou vhodn´e povˇetrnostn´ı podm´ınky pro vyplut´ı parn´ıku.“ 5. Pˇri u ´vah´ach o sdruˇzen´em testu je tˇreba tak´e sledovat pˇr´ıtomnost odlehl´ ych pozorov´an´ı, kter´a souvis´ı s pˇredpokladem normality. Dokonce pˇri velk´ ych rozsaz´ıch v´ ybˇer˚ u mohou m´ıt nˇekdy odlehl´a pozorov´an´ı znaˇcn´ y vliv na sdruˇzen´ y t-test, nebot’ v´ ybˇerov´ y pr˚ umˇer a v´ ybˇerov´a smˇerodatn´a odchylka nejsou resistentn´ı v˚ uˇci tˇemto odchylk´am. Pˇ r´ıklad 7.6 Ilustrace postupu 7.7 Profesora psychologie na jedn´e velk´e universitˇe zaj´ımalo, zda se liˇs´ı stˇredn´ı hodnota IQ studentek ˚ zapsany´ ch na universitˇe. Nahodnˇ ´ ´ ´ er) a 20 a studentu e a nezavisle vybral 20 studentek (1. vybˇ ˚ (2. v´ybˇer) a podrobil je testu inteligence. Pˇredbˇezˇna´ analyza ´ ´ studentu ukazala, zˇe je rozumn´e ´ ˚ maj´ı normaln´ ´ ı rozdˇelen´ı a pˇribliˇznˇe stejn´e smˇerodatn´e pˇredpokladat, zˇe IQ studentek i studentu ´ ´ odchylky. Z dat, ktera´ mˇel profesor k dispozici, vypoˇc´ıtal nasleduj´ ıc´ı udaje: x ¯1 = 118.45, s1 = 7.61 ´ er. Muˇ ˚ zeme udˇelat zavˇ ´ er, zˇe stˇredn´ı hodnota IQ pro 1. vy´ bˇer a x ¯2 = 115.40, s2 = 8.02 pro 2. vybˇ studentek a studentu˚ se liˇs´ı? ´ a ) Testujte na 5% hladinˇe v´yznamnosti. b ) Urˇcete P -hodnotu. c ) Urˇcete nejmenˇs´ı hladinu vyzna˚ ze byt ´ zam´ıtnuta. mnosti, na kter´e H0 muˇ ˇ sen´ı: Pˇredpoklady a.-c. jsou splnˇeny. a ) 1. H0 : µ1 = µ2 , HA : µ1 6= µ2 ; 2.α = 0.05; 3. n1 = n2 = 20, Reˇ ν = 20+20−2 = 38, kritick´e hodnoty ±tα/2 = ±t0.025 = ±2.025; 4. sP = 7.82, tc = 1.234; 5. tc = 1.234 < ´ ´ ´ data nedavaj´ ´ 2.025; Nezam´ıtame H0 ; 6. Na 5% hladinˇe vyznamnosti nam ı dostatek argumentu˚ pro ´ er, zˇe se na univerzitˇe liˇs´ı stˇredn´ı hodnota IQ vˇsech studentu˚ od stˇredn´ı to, abychom udˇelali zavˇ hodnoty IQ vˇsech studentek. b ) P -hodnota: P (|T | ≥ 1.234) = 2.(0.11) = 0.22. c ) 0.22.
Test hypot´ ezy µ1 = µ2 (nez´ avisl´ e v´ ybˇ ery, σ1 6= σ2 ) Jako v pˇr´ıpadˇe diskutovan´em v´ yˇse budeme pˇredpokl´adat, ˇze standardn´ı odchylky v obou v´ ybˇerech nejsou zn´am´e, coˇz je obvykl´e v praktick´ ych pˇr´ıpadech. Vzhledem k tvrzen´ı 5.8 m˚ uˇzeme k testu hypot´ezy s nulovou hypot´ezou H0 : µ1 = µ2 pouˇz´ıt jako testovou statistiku n´ahodnou veliˇcinu (X 1 − X 2 ) , T =q (s21 /n1 ) + (s22 /n2 ) kter´a m´a pˇribliˇznˇe t-rozdˇelen´ı s poˇctem stupˇ n˚ u volnosti δ (delta), kde δ=
[(s21 /n1 ) + (s22 /n2 )]2 (s21 /n1 )2 n1 −1
+
110
(s22 /n2 )2 n2 −1
,
(7.12)
7.5 T ESTY HYPOT E´ Z O SHOD Eˇ DVOU ST Rˇ EDN´I CH HODNOT
zaokrouhleno dol˚ u na nejbliˇzˇs´ı cel´e ˇc´ıslo. Dost´av´ame tak n´asleduj´ıc´ı postup, kter´ y budeme naz´ yvat nesdruˇ zen´ y t-test. Postup 7.8
Nesdruˇzeny´ t-test pro dvˇe stˇredn´ı hodnoty s nulovou hypotezou H 0 : µ1 = µ2 ´
• Pˇredpoklady a. Nez´avisl´e v´ ybˇery b. Norm´aln´ı rozdˇelen´ı nebo velk´e v´ ybˇery • Testov´ a statistika: T = q
X1 − X2 (s21 /n1 )
+ (s22 /n2 )
∼ t(δ) (δ definov´ano v (7.12))
• Kritick´e hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα Pˇ r´ıklad 7.7 Ilustrace postupu 7.8 ´ ˚ pro jednu Bylo vybrano 12 hotelu˚ ve mˇestˇe A a 15 hotelu˚ ve mˇestˇe B a zjiˇstˇeny ceny noclehu ´ ´ ˚ erna´ cena noclehu v hotelu ve mˇestˇe A je osobu za noc. Byly vypoˇcteny nasleduj´ ıc´ı udaje: prumˇ ˚ erna´ cena x ¯1 = 641 Kˇc a smˇerodatna´ odchylka s1 = 72.20 Kˇc; ve mˇestˇe B byla vypoˇctena prumˇ ˚ zeme na zakladˇ ´ ´ noclehu x ¯2 = 718.60 Kˇc a smˇerodatna´ odchylka s2 = 146.60 Kˇc. Muˇ e tˇechto udaj u˚ ´ er, zˇe stˇredn´ı hodnota ceny za nocleh ve vˇsech hotelech ve mˇestˇe A je niˇzsˇ´ı neˇz stˇredn´ı udˇelat zavˇ ´ hodnota v hotelech ve mˇestˇe B? Testujte na 5% hladinˇe vyznamnosti za pˇredpokladu, zˇe jde ´ ery z normaln´ ´ ıho rozdˇelen´ı. o vybˇ ˇ sen´ı: V´ybˇery jsou nezavisl´ ´ Reˇ e, takˇze podm´ınky pro pouˇzit´ı testu jsou splnˇeny. 1. H0 : µ1 = µ2 (stˇredn´ı hodnota cen noclehu ve mˇestˇe A nen´ı menˇs´ı neˇz ve mˇestˇe B ) HA : µ1 < µ2 (stˇredn´ı hodnota cen noclehu ve mˇestˇe A je menˇs´ı neˇz ve mˇestˇe B) Test hypot´ezy je levostrann´y. 2. α = 0.05 ´ ˚ kter´e jsou k dispozici vypoˇcteme 3. Z udaj u, δ=
£ ¤2 (72.22 /12) + (146.62 /15) (72.22 /12)2 12−1
+
(146.62 /15)2 15−1
= 21.
ˇu ˚ volnosti 21 je −t0.05 = −1.721. Kriticka´ hodnota −tα pro poˇcet stupn 4. Vypoˇcteme hodnotu testov´e statistiky 641.0 − 718.6
tc = p
(72.22 /12)2 + (146.62 /15)2
= −1.796.
´ 5. Hodnota testov´e statistiky spada´ do kritick´eho oboru. Tud´ızˇ zam´ıtame H0 . ´ data davaj´ ´ 6. Vy´ sledky jsou statisticky vy´ znamn´e na 5% hladinˇe; na 5% hladinˇe nam ı dostatek ˚ k tomu, abychom udˇelali zavˇ ´ er, zˇe stˇredn´ı hodnota ceny noclehu za osobu a argumentu noc je ve mˇestˇe A niˇzsˇ ´ı neˇz ve mˇestˇe B.
111
K APITOLA 7
7.5.2
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
Testy hypot´ ezy pro dvˇ e stˇ redn´ı hodnoty uˇ zit´ım p´ arov´ ych v´ ybˇ er˚ u
Aˇz dosud jsme se zab´ yvali metodami porovn´avaj´ıc´ımi stˇredn´ı hodnoty dvou v´ ybˇer˚ u zaloˇzen´ ymi na nez´avisl´ ych v´ ybˇerech. V tomto odstavci se budeme zab´ yvat metodami pro porovn´an´ı stˇredn´ıch hodnot uˇzit´ım p´arov´ ych v´ ybˇer˚ u. Pˇredpokl´adejme napˇr´ıklad, ˇze chceme rozhodnout, zda novˇe vyvinut´a pˇr´ısada Super“ do ” benzinu, zv´ yˇs´ı poˇcet kilometr˚ u ujet´ ych osobn´ım automobilem pˇri stejn´e spotˇrebˇe benzinu. Necht’ µ1 znaˇc´ı stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u na 100 litr˚ u benzinu, kdyˇz pouˇzijeme pˇr´ısadu a µ2 stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u na 100 litr˚ u bez pouˇzit´ı pˇr´ısady. Chceme testovat nulovou hypot´ezu H0 : µ1 = µ2 (stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u s pˇr´ıpravkem nen´ı vˇetˇs´ı) HA : µ1 < µ2 (stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u bez pouˇzit´ı pˇr´ısady je vˇetˇs´ı). Jeden ze zp˚ usob˚ u, jak prov´est tento test, je n´asleduj´ıc´ı: Vybereme zcela n´ahodnˇe a nez´avisle dvˇe skupiny ˇreknˇeme o 10 autech v kaˇzd´e. Jedna skupina bude pouˇz´ıvat pˇr´ısadu, druh´a nikoliv a pak budeme aplikovat test hypot´ezy na z´ıskan´e u ´daje o poˇctu ujet´ ych kilometr˚ u. V tomto pˇr´ıpadˇe pouˇzijeme nez´avisl´e v´ ybˇery. N´asleduj´ıc´ı metoda proveden´ı testu vˇsak m˚ uˇze b´ yt vhodnˇejˇs´ı: n´ahodnˇe vybereme jednu skupinu o 10 autech, kaˇzd´e auto pouˇzije benzin jak s pˇr´ısadou tak bez pˇr´ısady a pak provedeme test hypot´ezy, kter´ y bude pops´an v tomto odstavci na 10-ti p´arech u ´daj˚ u o poˇctu ujet´ ych kilometr˚ u pˇri spotˇrebˇe 100 litr˚ u benzinu. Tato metoda pouˇz´ıv´a tzv. p´arov´e v´ ybˇery, kter´ ymi jsme se zab´ yvali v odstavci 5.5. T´ım, ˇze v´ ybˇery p´arujeme, m˚ uˇzeme odstranit vlivy na poˇcet ujet´ ych kilometr˚ u zp˚ usoben´e pouˇzit´ ym autem a ˇridiˇcem. V d˚ usledku toho pak chyby odhadu diference mezi stˇredn´ımi hodnotami budou obecnˇe menˇs´ı. S ohledem na tvrzen´ı 5.10 m˚ uˇzeme zformulovat postup pro porovn´an´ı stˇredn´ıch hodnot dvou rozdˇelen´ı s pouˇzit´ım p´arov´ ych v´ ybˇer˚ u, za pˇredpokladu norm´aln´ıho rozdˇelen´ı vˇsech p´arov´ ych diferenc´ı. Budeme pouˇz´ıvat term´ın norm´ aln´ı diference pro pˇr´ıpad, kdy rozdˇelen´ı p´arov´ ych diferenc´ı je norm´aln´ı. Z tvrzen´ı 5.10 plyne, ˇze pro test hypot´ezy s nulovou hypot´ezou H0 : µ1 = µ2 , m˚ uˇzeme pouˇz´ıt n´ahodnou veliˇcinu D T = q (7.13) Sd 1/n jako testovou statistiku a z´ıskat tak kritick´e hodnoty z tabulky III. Tud´ıˇz dostaneme n´asleduj´ıc´ı tzv. p´ arov´ y t-test. Postup 7.9
Parov y´ t-test pro dvˇe stˇredn´ı hodnoty s hypotezou H 0 : µ1 = µ2 ´ ´
• Pˇredpoklady a. P´arov´e v´ ybˇery b. Norm´aln´ı diference nebo velk´e v´ ybˇery • Testov´ a statistika: T =
Sd
D √
1/n
∼ t(n − 1)
• Kritick´e hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα 112
´ ´ ´ Eˇ RECH 7.6 T EST HYPOT E´ ZY O SHOD Eˇ DVOU POD´I L U˚ P Rˇ I NEZ AVISL YCH V YB
Test hypot´ezy je pˇresn´ y, jestliˇze rozdˇelen´ı p´arov´ ych diferenc´ı je norm´aln´ı a pˇribliˇzn´ y, jestliˇze rozdˇelen´ı diferenc´ı nen´ı norm´aln´ı, ale rozsah v´ ybˇeru je velk´ y. Pozn´ amky: 1. Stejnˇe jako jednov´ ybˇerov´ y t-test, p´arov´ y t-test pracuje rozumnˇe pro mal´e nebo pˇrimˇeˇrenˇe mal´e rozsahy v´ ybˇer˚ u pˇri mal´ ych odchylk´ach od pˇredpoklad˚ u normality. Je tedy robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpokladu normality. 2. Pˇredpoklad normality se t´ yk´a pouze p´arov´ ych diferenc´ı. Jednotliv´e v´ ybˇery nemus´ı poch´azet z norm´aln´ıho rozdˇelen´ı. Pˇ r´ıklad 7.8 Ilustrace postupu 7.9 Snaˇz´ıme se posoudit, jaky´ vliv ma´ na spotˇrebu auta opotˇrebovanost motoru. U 4 aut byla zjiˇstˇena ˚ erna´ diference d¯ = −0.025. spotˇreba (v l/100 km) pˇred a po ujet´ı 30 000 km, a vypoˇctena prumˇ ´ Testujte na 5% hladinˇe vyznamnosti hypot´ezu, zˇe se spotˇreba aut vlivem vˇetˇs´ı opotˇrebovanosti ´ ıch diferenc´ı. motoru nemˇen´ı za pˇredpokladu normaln´ ˇ Reˇsen´ı: Pˇredpoklady pro pouˇzit´ı postupu jsou splnˇeny. 1. H0 : µ1 = µ2 (opotˇrebovanost motoru nema´ vliv na spotˇrebu benzinu) HA : µ1 6= µ2 (opotˇrebovanost motoru ma´ vliv na spotˇrebu benzinu) Test hypot´ezy je dvoustrann´y. 2. α = 0.05. ˇu ˚ volnosti n − 1, tj. ±t0.025 = ±3.18. 3. Kritick´e hodnoty jsou ±tα/2 s poˇctem stupn ´ ˚ vypoˇcteme 4. Z dany´ ch udaj u −1 , d¯ = 40
s2d =
a tud´ızˇ tc =
2 · 0.00625 + 0.0306 + 0.000255 3
−1 2 · = −0.21 40 0.055825
´ 5. Protoˇze −3.18 < tc < 3.18, nezam´ıtame H0 . ´ ´ data nedavaj´ ´ ˚ pro to, abychom udˇelali 6. Na 5% hladinˇe vyznamnosti nam ı dostatek argumentu ´ er, zˇe na spotˇrebu benzinu ma´ vliv opotˇrebovanost motoru. zavˇ
7.6
Test hypot´ ezy o shodˇ e dvou pod´ıl˚ u pˇ ri nez´ avisl´ ych v´ ybˇ erech
Tento odstavec pojedn´av´a o metodˇe porovn´an´ı pod´ıl˚ u dvou z´akladn´ıch soubor˚ u, kter´a vyuˇz´ıv´a informac´ı z´ıskan´ ych ze dvou nez´avisl´ ych v´ ybˇer˚ u. Pouˇzijeme v´ ysledk˚ u kapitoly 5, zvl´aˇstˇe pak tvrzen´ı 5.9, kter´e stanov´ı rozdˇelen´ı rozd´ılu dvou v´ ybˇerov´ ych pod´ıl˚ u pro nez´avisl´e v´ ybˇery velk´ ych rozsah˚ u. Toto tvrzen´ı je teoretick´ y z´aklad nutn´ y pro odvozen´ı statistick´ ych indukˇcn´ıch metod pro porovn´an´ı dvou dvoukategori´aln´ıch rozdˇelen´ı. Pˇredpokl´adejme, ˇze m´ame n´ahodn´ y v´ ybˇer o rozsahu n1 z dvoukategori´aln´ıho z´akladn´ıho souboru s pod´ılem p1 a n´ahodn´ y v´ ybˇer o rozsahu n2 z dvoukategori´aln´ıho z´akladn´ıho souboru s pod´ılem p2 . D´ale pˇredpokl´adejme, ˇze v´ ybˇery jsou nez´avisl´e a rozsahy v´ ybˇer˚ u jsou velk´e. C´ılem je porovnat pod´ıly obou z´akladn´ıch soubor˚ u. Nejprve pouˇzijeme tvrzen´ı 5.9 ke stanoven´ı testov´e statistiky. 113
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
Nulov´a hypot´eza pro test umoˇzn ˇuj´ıc´ı porovn´an´ı pod´ıl˚ u dvou dvoukategori´aln´ıch z´akladn´ıch soubor˚ u je H0 : p1 = p2
(pod´ıly z´akladn´ıch soubor˚ u jsou shodn´e).
Je-li tato hypot´eza spr´avn´a, pak p1 − p2 = 0 a tud´ıˇz normovan´a n´ahodn´a veliˇcina v tvrzen´ı 5.9 je pˆ1 − pˆ2 Z=q , p(1 − p)/n1 + p(1 − p)/n2 kde p znaˇc´ı spoleˇcnou hodnotu p1 a p2 . Jednoduchou u ´pravou dostaneme n´ahodnou veliˇcinu pˆ1 − pˆ2
Z=q
q
p(1 − p) (1/n1 ) + (1/n2 )
.
(7.14)
Tuto statistiku vˇsak nem˚ uˇzeme pouˇz´ıt jako testovou charakteristiku, nebot’ p nezn´ame. Odhadneme p pomoc´ı v´ ybˇerov´e informace. Nejlepˇs´ı odhad p z´ısk´ame sdruˇzen´ım dat a z´ısk´ame pod´ıl pP , kter´ y budeme naz´ yvat sdruˇ zen´ y v´ ybˇ erov´ y pod´ıl pˆP = (x1 + x2 )/(n1 + n2 ). Nahrazen´ım p v rovnici (7.14) jeho odhadem pˆP dostaneme n´ahodnou veliˇcinu q
(ˆ p1 − pˆ2 ) q
pˆP (1 − pˆP ) (1/n1 ) + (1/n2 )
.
Tato veliˇcina m˚ uˇze b´ yt pouˇz´ıta jako testov´a statistika a stejnˇe jako n´ahodn´a veliˇcina v (7.14) m´a za platnosti nulov´e hypot´ezy pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı pro velk´e v´ ybˇery. N´asleduj´ıc´ı postup pro test hypot´ezy o shodˇe dvou pod´ıl˚ u budeme naz´ yvat dvouv´ ybˇ erov´ y z-test pro dva pod´ıly . Postup 7.10
Dvouvybˇ H0 : p1 = p2 ´ erovy´ z-test pro dva pod´ıly s nulovou hypotezou ´
• Pˇredpoklady a. Nez´avisl´e v´ ybˇery b. Vˇsechny v´ ybˇerov´e hodnoty x1 , n1 − x1 , x2 a n2 − x2 alespoˇ n rovny 5. (ˆ p1 − pˆ2 ) q • Testov´ a statistika: Z = q ≈ N (0, 1) pˆP (1 − pˆP ) (1/n1 ) + (1/n2 ) • Kritick´e hodnoty H0 : pro dvoustrann´ y test: ±zα/2 pro levostrann´ y test: −zα pro pravostrann´ y test: zα Pˇ r´ıklad 7.9 Ilustrace postupu 7.10 ˇ byly poˇr´ızeny ´ celem porovnan´ ´ ı pod´ılu muˇzu-kuˇ ˚ ´ u ˚ a pod´ılu zˇ en-kuˇraˇcek v populaci CR Za uˇ rak ´ ˚ a 2200 zˇen. Mezi vybranymi ´ ´ u ˚ a mezi vybrany´ mi nahodn´ e vy´ bˇery 2000 muˇzu muˇzi bylo 500 kuˇrak ´ data dostatek informace pro to, abychom udˇelali zavˇ ´ er, zˇe zˇenami 440 kuˇraˇcek. Poskytuj´ı nam ˇ pˇrevyˇsuje pod´ıl vˇsech zˇ en-kuˇraˇcek v CR? ˇ ˚ ´ u˚ v CR pod´ıl vˇsech muˇzu-kuˇ rak Testujte na 5% hladinˇe
114
´ TEST DOBR E´ SHODY 7.7 C H´I - KVADR AT ´ vyznamnosti. ˇ ˇ respektive vˇsech kuˇraˇcek v CR. ˇ ´ u˚ v CR Reˇsen´ı: Necht’ p1 respektive p2 oznaˇcuje pod´ıl vˇsech kuˇrak ˚ ´ u ˚ nen´ı vyˇssˇ´ı) 1. H0 : p1 = p2 (pod´ıl muˇzu-kuˇ rak ˚ ´ u ˚ je vyˇssˇ ´ı). HA : p1 > p2 (pod´ıl muˇzu-kuˇ rak ´ Test hypot´ezy je pravostranny. 2. α = 0.05 3. Kriticka´ hodnota pro pravostrann´y test je z0.05 = 1.645. ´ erov´e pod´ıly a sdruˇzeny´ vybˇ ´ erovy´ pod´ıl pˆP : pˆ1 = 500/2000 = 0.25, pˆ2 = 440/2200 = 0.20 4. Urˇc´ıme vybˇ a 500 + 440 pP = = 0.2238. 2000 + 2200 Tud´ızˇ hodnota testov´e statistiky je 0.25 − 0.20 p = 3.8828. 0.224(1 − 0.224) (1/2000) + (1/2200)
zc = p
´ 5. Vypoˇctena´ hodnota testov´e statistiky je zc = 3.8828. Tedy je zc > 1.645 a tud´ızˇ zam´ıtame H0 . ´ ´ 6. V´ysledky testu jsou statisticky vyznamn´ e na 5% hladinˇe vyznamnosti Na t´eto hladinˇe poskytuj´ı ˇ je vˇetˇs´ı ´ er, zˇe pod´ıl vˇsech muˇzu-kuˇ ˚ ´ u˚ v CR data dostatek informace pro to, abychom udˇelali zavˇ rak ˇ neˇz pod´ıl vˇsech zˇen-kuˇraˇcek v CR.
7.7
Ch´ı-kvadr´ at test dobr´ e shody
Testy dobr´e shody je kategorie test˚ u, kter´e umoˇzn ˇuj´ı na pˇredem zvolen´e hladinˇe v´ yznamnosti α testovat nulovou hypot´ezu H0 , ˇze dan´ y n´ahodn´ y v´ ybˇer byl proveden z rozdˇelen´ı stanoven´eho typu, ale pˇr´ıpadnˇe s nezn´am´ ymi parametry. Je tedy napˇr´ıklad moˇzn´e testovat hypot´ezu, ˇze pˇr´ısluˇsn´e rozdˇelen´ı je N (µ, σ 2 ) se zn´am´ ymi nebo nezn´am´ ymi parametry µ a σ 2 . Ch´ı-kvadr´at test dobr´e shody se pouˇz´ıv´a k testov´an´ı hypot´ezy o procentn´ım rozdˇelen´ı v z´akladn´ım souboru nebo o pravdˇepodonostn´ım rozdˇelen´ı n´ahodn´e veliˇciny. Je to jednoduch´ y test zaloˇzen´ y na rozd´ılu mezi pozorovan´ymi (empirick´ymi) a oˇcek´ avan´ymi (teoretick´ymi) ˇcetnostmi. Necht’ X je n´ahodn´a veliˇcina z rozdˇelen´ı s distribuˇcn´ı funkc´ı F0 (x). Rozdˇelme obor hodnot ha, bi, kter´ ych m˚ uˇze n´ahodn´a veliˇcina nab´ yvat na k ≥ 2 disjunktn´ıch tˇr´ıd Ii = (ai−1 , ai i, i = 1, 2, ..., k, a = a0 < a1 < ... < ak = b, krajn´ı intervaly I1 a Ik jsou ˇcasto neohraniˇcen´e. Pˇredpokl´adejme, ˇze pi je pravdˇepodobnost toho, ˇze n´ahodn´a veliˇcina, kter´a m´a testovan´e Pk ale necht’ (X1 , · · · , Xn ) rozdˇelen´ı nabude hodnoty z i-t´e tˇr´ıdy Ii , pi > 0, i=1 pi = 1. D´ je n´ahodn´ y v´ ybˇer z rozdˇelen´ı s distribuˇcn´ı funkc´ı F0 (x) a (x1 , · · · , xn ) pozorovan´a hodnota tohoto v´ ybˇeru. Oznaˇcme ni poˇcet n´ahodn´ ych veliˇcin X1 , · · · , Xn , kter´e nabyly hodnoty z it´e tˇr´ıdy, i = 1, · · · , k. Tyto tˇr´ıdn´ı ˇcetnosti odpov´ıdaj´ıc´ı interval˚ um Ii (i = 1, · · · , k ) se P naz´ yvaj´ı v r´amci dan´eho testu pozorovan´ e (empirick´ e) ˇ cetnosti . Plat´ı ki=1 ni = n. V´ yrazy npi se naz´ yvaj´ı v r´amci dan´eho testu oˇ cek´ avan´ e (teoretick´ e) ˇ cetnosti. Je zˇrejm´e, Pk ˇze i=1 npi = n. Na pˇredem zvolen´e hladinˇe v´ yznamnosti budeme testovat nulovou hypot´ezu H0 , ˇze n´ahodn´a veliˇcina (z´akladn´ı soubor) m´a urˇcit´e rozdˇelen´ı pˇri alternativn´ı hypot´eze HA , ˇze n´ahodn´a veliˇcina (z´akladn´ı soubor) m´a rozdˇelen´ı jin´e neˇz to, kter´e je specifikovan´e nulovou hypot´ezou. Chceme-li zjistit, jak dobˇre se pozorovan´e a oˇcek´avan´e ˇcetnosti shoduj´ı, je logick´e zkoumat rozd´ıly ni − npi . Seˇc´ıst tyto rozd´ıly za u ´ˇcelem z´ıskat celkov´ y rozd´ıl“ nen´ı uˇziteˇcn´e vzhledem ” 115
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
k tomu, ˇze souˇcet je roven nule. M´ısto toho ˇctverec kaˇzd´e odchylky vydˇel´ıme pˇr´ısluˇsnou oˇcek´avanou ˇcetnost´ı. Dostaneme tak hodnoty (ni − npi )2 /npi . Souˇcet tˇechto veliˇcin k X
(ni − npi )2 /npi
(7.15)
i=1
je statistika, kter´a je pouˇzita k tomu, abychom zjistili jak dobˇre nebo ˇspatnˇe se shoduj´ı pozorovan´e a oˇcek´avan´e ˇcetnosti. Je-li nulov´a hypot´eza pravdiv´a, pak pozorovan´e a oˇcek´avan´e ˇcetnosti by mˇely b´ yt zhruba Pk 2 stejn´e a tud´ıˇz statistika i=1 (ni − npi ) /npi bude m´ıt malou hodnotu. Jin´ ymi slovy velk´e hodnoty poskytuj´ı argumenty proti nulov´e hypot´eze. Tvrzen´ı 7.2
T ESTOV A´ STATISTIKA
´ SHODY PRO TEST DOBR E
Uvaˇzujme ch´ı-kvadr´at test dobr´e shody, ve kter´em nulov´a hypot´eza je specifikovan´a rozdˇelen´ım pravdˇepodobnost´ı n´ahodn´e veliˇciny. Pˇredpokl´adejme, ˇze rozsah v´ ybˇeru je velk´ y. Za platnosti nulov´e hypot´ezy m´a n´ahodn´a veliˇcina 2
χ =
k X (ni − npi )2
npi
i=1
=
k X n2i i=1
npi
−n
pˇribliˇznˇe χ2 -rozdˇelen´ı s k − 1 stupni volnosti. Jelikoˇz nulov´a hypot´eza bude zam´ıtnuta pouze kdyˇz testov´a statistika bude velk´a, obor zam´ıtnut´ı je vˇzdy vpravo; to je test hypot´ezy je vˇzdy pravostrann´ y. Ch´ı-kvadr´at test dobr´e shody prob´ıh´a obecnˇe v n´asleduj´ıc´ıch kroc´ıch. Postup 7.11
Ch´ı-kvadrat ´ test dobre´ shody
Pˇredpoklady a. Vˇsechny oˇcek´avan´e ˇcetnosti jsou alespoˇ n rovny 1. b. Nejv´ yˇse 20% oˇcek´avan´ ych ˇcetnost´ı je menˇs´ı neˇz 5. 1. Formulujte nulovou a alternativn´ı hypot´ezu. 2. Vypoˇctˇete oˇcek´avan´e ˇcetnosti npi , kde n znaˇc´ı rozsah v´ ybˇeru a pravdˇepodobnost tˇr´ıdy pi je specifikovan´a nulovou hypot´ezou, i = 1, 2, · · · , k. 3. Ovˇeˇrte, zda oˇcek´avan´e ˇcetnosti splˇ nuj´ı pˇredpoklady a a b. Pokud nesplˇ nuj´ı, test hypot´ezy by nemˇel b´ yt pouˇzit. 4. Zvolte hladinu v´ yznamnosti α. 5. Kritick´a hodnota je χ2α , s k − 1 stupni volnosti. Obor zam´ıtnut´ı H0 je (χ2α ; ∞). 6. Vypoˇctˇete hodnotu testov´e statistiky χ2c =
k X (ni − npi )2 i=1
npi
kde ni jsou pozorovan´e ˇcetnosti. 116
=
k X n2i i=1
npi
− n,
´ TEST DOBR E´ SHODY 7.7 C H´I - KVADR AT
7. Jestliˇze hodnota testov´e statistiky χ2c padne do oboru zam´ıtnut´ı, zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 . Test je pouze pˇribliˇzn´ y s t´ım, ˇze pˇresn´a hladina v´ yznamnosti α je dosaˇzena aˇz pˇri n → ∞. Test je pouze pˇribliˇzn´ y s t´ım, ˇze pˇresn´a hladina v´ yznamnosti α je dosaˇzena aˇz pˇri n → ∞. Pozn´ amka: Pokud jde o pˇredpoklad b, v mnoha uˇcebnic´ıch se doporuˇcuje, aby vˇsechny oˇcek´avan´e ˇcetnosti byly nejm´enˇe rovny 5. V´ yzkumy uk´azaly, jak poznamenal statistik W.G. Cochran, ˇze tento poˇzadavek je pˇr´ıliˇs omezuj´ıc´ı. Ch´ı-kvadr´at test dobr´e shody je metoda, kter´a se tak´e pouˇz´ıv´a pro test hypot´ezy o rozdˇelen´ı z´akladn´ıch soubor˚ u, v nichˇz kaˇzd´a statistick´a jednotka je klasifikovan´a do jedn´e z k disjunktn´ıch tˇr´ıd. Jestliˇze poˇcet tˇr´ıd je 2, to je k = 2, pak z´akladn´ı soubor je dvoukategori´aln´ı. V tomto pˇr´ıpadˇe ch´ı-kvadr´at test dobr´e shody je ekvivalentn´ı s jednov´ ybˇerov´ ym z-testem pro pod´ıl z´akladn´ıho souboru. Pˇ r´ıklad 7.10 Ilustrace postupu 7.7 ˇ edsku, rozdˇelen´e ´ ´ k dispozici udaje ´ ´ Pˇredpokladejte, zˇe mate o nahodn´ em vy´ bˇeru 88 porodu˚ ve Sv´ ˚ e dlouh´ych sezon do 4 tˇr´ıd. Muˇ ˚ zete na zakladˇ ´ ´ ´ ˚ uvedeny´ ch podle ruznˇ e danych i vypoˇcten´ych udaj u ˇ edsku rod´ı rovnomˇernˇe po cely´ rok? ´ ´ er, zˇe se dˇeti ve Sv´ v nasleduj´ ıc´ı tabulce udˇelat zavˇ ´ Dan´e udaje obdob´ı jaro (4-6) l´eto (7-8) podzim (9-10) zima (11-3)
ni 27 20 8 33 88
pi 0.250 0.170 0.167 0.413 1.000
´ Vypoˇcten´e udaje npi ni − npi (ni − npi )2 /npi 22.0 5.0 1.14 15.0 5.0 1.67 14.7 -6.7 3.05 36.3 -3.3 0.30 88 0.0 χ2c = 6.16
ˇ sen´ı: Reˇ ´ y rozd´ıl v porodnosti mezi sezonami. 1. H0 : Nen´ı zˇadn´ HA : Je rozd´ıl v porodnosti mezi sezonami. ´ ˚ ze uskuteˇcnit v kteroukoNejprve uvaˇzujme vyznam nulov´e hypot´ezy, zˇe se kaˇzd´y porod muˇ liv roˇcn´ı dobu s pravdˇepodobnost´ı odpov´ıdaj´ıc´ı d´elce obdob´ı. Napˇr´ıklad z tabulky zjist´ıme, zˇe pravdˇepodobnost narozen´ı d´ıtˇete na jaˇre je 91/365 = 0.25 = p1 za pˇredpokladu, zˇe poˇcet dn´ı v roce je 365. Podobnˇe vypoˇcteme i ostatn´ı pravdˇepodobnosti v tabulce. ´ 2. Teoretick´e cˇ etnosti narozen´ı za platnosti nulov´e hypot´ezy dostaneme vynasoben´ ım rozsahu ´ eru (n = 88) pˇr´ısluˇsnou pravdˇepodobnost´ı pi . Napˇr. pro letn´ı obdob´ı dostaneme 88 · 0.17 = vybˇ 15.0 = np2 . 3. Pˇredpoklady a,b postupu 7.11 jsou splnˇeny. Dokonce vˇsechny teoretick´e cˇ etnosti jsou vˇetˇs´ı neˇz 5. 4. α = 0.05 ´ ˇu ˚ volnosti ν = 4 − 1 = 3. V tabulce IV. najdeme 5. Protoˇze mame 4 kategorie, je poˇcet stupn χ20.05 = 7.81. 6. Seˇcten´ım vˇsech hodnot v posledn´ım sloupci tabulky dostaneme hodnotu testov´e statistiky χ2c = 6.16. 7. Vypoˇctena´ hodnota testov´e statistiky je menˇs´ı neˇz kriticka´ hodnota, tj. χ2c = 6.16 < 7.81 = χ20.05 . ´ Tud´ızˇ H0 nezam´ıtame. ´ ´ zˇe na 5% hladinˇe 8. Vysledky testu nejsou statisticky v´yznamn´e na 5% hladinˇe. To znamena,
117
K APITOLA 7
´ ´ ´I STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E
´ ´ ˚ pro to, abychom udˇelali zavˇ ´ er, zˇe se dˇeti ve vyznamnosti data nedavaj´ ı dostatek argumentu ˇ edsku nerod´ı rovnomˇernˇe po cely´ rok. Sv´
7.8
Ch´ı-kvadr´ at test nez´ avislosti
Nez´avislost dvou n´ahodn´ ych veliˇcin byla v kapitole 4 charakterizov´ana pomoc´ı srovn´an´ı sdruˇzen´eho rozdˇelen´ı s margin´aln´ım rozdˇelen´ım obou veliˇcin. Uvaˇzujme dvˇe n´ahodn´e veliˇciny X a Y a necht’ pij je sdruˇzen´e rozdˇelen´ı pravdˇepodobnost´ı (dvourozmˇern´e) tˇechto veliˇcin a qi a rj jsou pˇr´ısluˇsn´a margin´aln´ı rozdˇelen´ı. Pak veliˇciny X a Y jsou statisticky nez´avisl´e, jestliˇze pij = qi · rj . V praktick´ ych situac´ıch m´ame k dispozici pouze n´ahodn´ y v´ ybˇer z dvourozmˇern´eho rozdˇelen´ı a mus´ıme pouˇz´ıt inferenˇcn´ı metodu, abychom rozhodli zda sledovan´e n´ahodn´e veliˇciny jsou statisticky z´avisl´e. Jednou z nejˇcastˇeji pouˇz´ıvan´ ych metod je ch´ı-kvadr´at test nez´avislosti. Tvrzen´ı 7.3
T ESTOV A´ STATISTIKA
´ PRO TEST NEZ AVISLOSTI
Uvaˇzujme ch´ı-kvadr´at test nez´avislosti, ve kter´em nulov´a hypot´eza stanov´ı, ˇze dvˇe charakteristiky X a Y z´akladn´ıho souboru jsou statisticky nez´avisl´e. Pˇredpokl´adejme, ˇze rozsah v´ ybˇeru n je velk´ y. Je-li nulov´a hypot´eza o statistick´e nez´avislosti pravdiv´a, pak n´ahodn´a veliˇcina k X c X (nij − noij )2 2 χ = noij i=1 j=1 m´a pˇribliˇznˇe χ2 -rozdˇelen´ı s (k−1)(c−1) stupni volnosti, kde k je poˇcet ˇr´adk˚ u a c je sloupc˚ u v kombinaˇcn´ı (kontingenˇcn´ı) tabulce. Pozorovan´e ˇcetnosti jsou znaˇceny nij a oˇcek´avan´e ˇcetnosi noij . Ch´ı-kvadr´at test nez´avislosti prob´ıh´a obecnˇe v n´asleduj´ıc´ıch kroc´ıch: Postup 7.12
Ch´ı-kvadrat ´ test nezavislosti ´
Pˇredpoklady a. Vˇsechny oˇcek´avan´e ˇcetnosti jsou alespoˇ n rovny 1. b. Nejv´ yˇse 20% oˇcek´avan´ ych ˇcetnost´ı je menˇs´ı neˇz 5. 1. Formulujte nulovou a alternativn´ı hypot´ezu. 2. Vypoˇctˇete oˇcek´avan´e ˇcetnosti noij =
ni• n•j , i = 1, · · · , k, j = 1, · · · , c, n
(7.16)
kde n znaˇc´ı rozsah v´ ybˇeru a ni• =
c X
nij ,
j=1
n•j =
k X
nij .
(7.17)
i=1
3. Ovˇeˇrte, zda oˇcek´avan´e ˇcetnosti splˇ nuj´ı pˇredpoklady a a b Pokud nesplˇ nuj´ı, test hypot´ezy by nemˇel b´ yt pouˇzit. 118
´ TEST NEZ AVISLOSTI ´ 7.8 C H´I - KVADR AT
4. Zvolte hladinu v´ yznamnosti α. 5. Kritick´a hodnota je χ2α s (k − 1)(c − 1) stupni volnosti, kde k je poˇcet ˇra´dk˚ u a c je poˇcet sloupc˚ u v kombinaˇcn´ı tabulce. Pouˇzijte tabulku IV. Obor zam´ıtnut´ı H0 je (χ2α , ∞). 6. Vypoˇctˇete hodnotu testov´e statistiky χ2c =
k X c X (nij − noij )2 i=1 j=1
noij
,
kde nij jsou pozorovan´e ˇcetnosti a noij jsou oˇcek´avan´e ˇcetnosti. 7. Jestliˇze hodnota testov´e statistiky χ2c padne do oboru zam´ıtnut´ı, zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 .
Pˇ r´ıklad 7.11 Ilustrace postupu 7.8 ´ k dispozici nahodn ´ ˚ vysoky´ ch sˇ kol, rozdˇeleny´ nasleduj´ ´ ˚ Mate y´ vy´ bˇer 1367 absolventu ıc´ım zpusobem Pohlav´ı Muˇz ˇ Zena Celkem
ˇ vysokoˇskolsk´eho vzdˇelan´ ´ ı Stupen Bc Mgr Dr Celkem 534 144 22 700 515 141 11 667 1049 285 33 1367
ˇ vzdˇelan´ ´ ı zavis´ ´ ı na pohlav´ı. Testujte na 5% hladinˇe vyznamnosti. ´ Rozhodnˇete, zda stupen ˇ Reˇsen´ı: ˇ vzdˇelan´ ´ ı a pohlav´ı jsou statisticky nezavisl´ ´ 1. H0 : Stupen e. ˇ vzdˇelan´ ´ ı a pohlav´ı jsou statisticky zavisl´ ´ HA : Stupen e. ´ ´ 2. Oˇcekavan´ e cˇ etnosti vypoˇcteme podle vzorce (7.16). Dostaneme nasleduj´ ıc´ı hodnoty: n11 = 537.16, n12 = 145.94, n13 = 16.90, n21 = 511.84, n13 = 139.06, n23 = 16.10. ´ 3. Vˇsechny oˇcekavan´ e cˇ etnosti jsou vˇetˇs´ı neˇz 1 a dokonce vˇsechny jsou vˇetˇs´ı neˇz 5, takˇze podm´ınky pro pouˇzit´ı postupu jsou splnˇeny. 4. α = 0.05 ˇ u˚ volnosti ν = (3 − 1)(2 − 1) je χ20.05 = 5.99. Kriticky´ obor je 5. Kriticka´ hodnota pro poˇcet stupn (5.99, ∞) 6. Hodnota testov´e statistiky je χ2c = 3.247. 7. Vypoˇctena´ hodnota testov´e statistiky nepadne do kritick´eho oboru. ´ ´ ı na pohlav´ı nezam´ıtame. ´ 8. Hypot´ezu o nezavislosti stupnˇe dosaˇzen´eho vysokoˇskolsk´eho vzdˇelan´
119
Kapitola 8 Regresn´ı a korelaˇ cn´ı anal´ yza ˇ Casto potˇrebujeme vˇedˇet, zda dvˇe nebo v´ıce veliˇcin jsou spolu v´az´any a pokud ano, jak´ y je jejich vz´ajemn´ y vztah. V t´eto kapitole se zamˇeˇr´ıme na hled´an´ı, zkoum´an´ı a hodnocen´ı souvislost´ı, z´avislost´ı mezi dvˇema statistick´ ymi znaky. Rozliˇsujeme tzv. pevn´e a voln´e z´avislosti mezi veliˇcinami. Pevnou z´ avislost´ı rozum´ıme vztah, kdy kaˇzd´e hodnotˇe jedn´e veliˇciny odpov´ıd´a jedna a jen jedna hodnota jin´ ych veliˇcin a podobnˇe i naopak. S takov´ ymi z´avislostmi se vˇetˇsinou setk´av´ame v teoretick´e oblasti. R˚ uzn´e obory formuluj´ı z´akonitosti vztah˚ u mezi promˇenn´ ymi na z´akladˇe deduktivn´ıch u ´vah a v souladu s empirick´ ymi zkuˇsenostmi. Takov´ ym zp˚ usobem vznikly napˇr´ıklad fyzik´aln´ı z´akony (Newton˚ uv gravitaˇcn´ı z´akon, Ohm˚ uv z´akon). Volnou z´ avislost´ı rozum´ıme vztah, kdy hodnot´am napˇr´ıklad jedn´e veliˇciny odpov´ıdaj´ı r˚ uzn´e hodnoty jin´e veliˇciny, ale pˇri zmˇen´ach hodnot tˇechto veliˇcin se projevuje urˇcit´a obecn´a tendence. V pˇr´ıpadˇe, ˇze se jedn´a o volnou z´avislost mezi kvantitavn´ımi statistick´ ymi znaky, hovoˇr´ıme o statistick´ e z´ avislosti. S voln´ ymi z´avislostmi se setk´av´ame t´emˇeˇr v´ yhradnˇe v praktick´ ych situac´ıch. Z´avislost m˚ uˇze b´ yt jednostrann´ a nebo vz´ajemn´a. K pozn´an´ı, matematick´emu popisu statistick´ ych z´avislost´ı a k hodnocen´ı z´avˇer˚ u o vztahu zkouman´ ych veliˇcin slouˇz´ı metody regresn´ı a korelaˇcn´ı anal´yzy. Jednostrann´ ymi z´avislostmi se zab´ yv´a regresn´ı anal´ yza. Jedn´a se o situaci, kdy proti sobˇe stoj´ı nez´avisl´a veliˇcina a z´avisl´a veliˇcina nebo veliˇciny a obvykle se zkoum´a obecn´a tendence ve zmˇen´ach z´avisl´e veliˇciny vzhledem ke zmˇen´am nez´avisl´ ych veliˇcin. Vz´ajemn´ ymi, vˇetˇsinou line´arn´ımi z´avislostmi se zab´ yv´a korelaˇ cn´ı anal´ yza. V korelaˇcn´ı anal´ yze se klade d˚ uraz v´ıce na s´ılu (intenzitu) vz´ajemn´eho vztahu mezi veliˇcinami. Z v´ ypoˇcetn´ıch a interpretaˇcn´ıch hledisek doch´az´ı ke znaˇcn´emu prol´ın´an´ı obou pˇr´ıstup˚ u. V odstavc´ıch 8.1-8.4 se budeme zab´ yvat popisn´ ymi metodami v line´arn´ı regresi a korelaci. Uk´aˇzeme, jak urˇcit regresn´ı pˇr´ımku pro mnoˇzinu dvojic dat a jak ji pouˇz´ıt k predikci hodnot z´avisl´e veliˇciny. Zavedeme pojmy koeficient determinace a line´arn´ı korelaˇcn´ı koeficient pro mnoˇzinu dvojic dat a budeme diskutovat jejich interpretaci. V zb´ yvaj´ıc´ıch odstavc´ıch se budeme zab´ yvat inferenˇcn´ımi metodami v line´arn´ı regresi a korelaci. Uk´aˇzeme, jak m˚ uˇzeme regresn´ı rovnici pouˇz´ıt k urˇcen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu z´avisl´e veliˇciny pro urˇcitou konkr´etn´ı hodnotu nez´avisl´e veliˇciny a jak line´arn´ı korelaˇcn´ı koeficient r m˚ uˇzeme pouˇz´ıt k stanoven´ı, zda existuje z´aporn´a ˇci kladn´a line´arn´ı korelace mezi z´avislou a nez´avislou veliˇcinou. Nakonec pop´ıˇseme obecn´ y regresn´ı model a struˇcnˇe se zm´ın´ıme o nˇekter´ ych speci´aln´ıch pˇr´ıpadech. Na z´avˇer t´eto kapitoly pop´ıˇseme aplikaci regresn´ıho modelu pˇri modelov´an´ı denn´ı automobilov´e dopravy. 120
´ ´I ROVNICE S JEDNOU NEZ AVISLOU ´ ˇ NNOU 8.1 L INE ARN PROM E
8.1
Line´ arn´ı rovnice s jednou nez´ avislou promˇ ennou
K tomu, abychom pochopili line´arn´ı regresi, je tˇreba si pˇripomenout line´arn´ı rovnice s jednou nez´avislou promˇennou. Obecn´ y tvar line´ arn´ı rovnice s jednou nez´avislou promˇennou m˚ uˇzeme vyj´adˇrit ve tvaru y = b0 + b1 x, (8.1) kde b0 a b1 jsou konstanty (pevn´a ˇc´ısla), x je nez´avisl´a veliˇcina a y je z´avisl´a veliˇcina. Grafem line´arn´ı rovnice s jednou nez´avislou promˇennou je pˇ r´ımka; kaˇzd´a pˇr´ımka, kter´a nen´ı kolm´a na osu x, m˚ uˇze b´ yt urˇcena takovou rovnic´ı. azek 8.1 Graf y = b0 + b1 x ˇ ısla b0 a b1 v line´arn´ı rovnici y = b0 + b1 x maj´ı Obr´ C´ y ˇ ıslo b0 je takov´a d˚ uleˇzitou geometrickou interpretaci. C´ hodnota veliˇciny y, ve kter´e pˇr´ımka urˇcen´a rovnic´ı (8.1) y = b0 + b1 x ˇ ıslo b0 budeme naz´ ˇ ıslo b1 prot´ın´a osu y. C´ yvat y-´ usek. C´ je m´ırou strmosti (ˇsikmosti) pˇr´ımky; pˇresnˇeji b1 ud´av´a jak vzroste (klesne) hodnota veliˇciny y na pˇr´ımce, kdyˇz b1 ˇ ıslo se hodnota veliˇciny x zvˇetˇs´ı (zmenˇs´ı) o jednotku. C´ (0, b0 ) b1 naz´ yv´a smˇ ernice (sklon) pˇr´ımky y = b0 + b1 x. b0 Line´arn´ı rovnice s jednou nez´avislou promˇennou se ˇcasto pouˇz´ıvaj´ı pˇri aplikac´ıch matematiky v r˚ uzn´ ych obx lastech, vˇcetnˇe managementu, v bˇeˇzn´em ˇzivotˇe, v soci´aln´ıch a stejnˇe tak i ve fyzik´aln´ıch vˇed´ach. Pˇ r´ıklad 8.1 Line´ arn´ı rovnice Poradenska´ firma nab´ız´ı sv´e sluˇzby. Cena za poskytnut´e sluˇzby je 300 Kˇc za hodinu plus pevna´ ´ ´ ı ovˇsem na poˇctu hodin, potˇrebn´ych sazba 350 Kˇc. Celkova´ cena, kterou zakazn´ ık zaplat´ı, zavis´ ´ ı t´eto sluˇzby.Urˇcete rovnici, ktera´ urˇcuje celkovou cenu za poskytnutou sluˇzbu v za´ k vykonan´ ´ ´ ı poˇzadovan´e sluˇzby. vislosti na poˇctu hodin nutnych k vykonan´ ˇ sen´ı: Necht’ x vyjadˇruje poˇcet hodin potˇrebnych ´ ´ ı poˇzadovan´e sluˇzby a y necht’ je Reˇ k vykonan´ ´ celkova´ cena, kterou zaplat´ı zakazn´ ık. Rovnice, ktera´ vyjadˇruje celkovou cenu za vykonanou ´ v zavislosti ´ ´ ı rovnice; praci na poˇctu hodin je pak y = 350 + 300x. Rovnice y = 350 + 300x je linearn´ ˚ zeme urˇcit pˇresnou cenu za praci, ´ ´ b0 = 350 a b1 = 300. Pomoc´ı t´eto rovnice muˇ zname-li celkovy´ ´ ı prace. ´ poˇcet hodin nutny´ k vykonan´
8.2
Regresn´ı rovnice
V pˇr´ıkladu 8.1 jsme pro danou dobu nutnou k vykon´an´ı urˇcit´e pr´ace, mohli pouˇz´ıt rovnici y = 350+300x ke stanoven´ı pˇresn´e ceny za pr´aci. V praxi vˇsak nejsou obvykl´e tak jednoduch´e vztahy mezi veliˇcinami, ve kter´ ych je jedna veliˇcina pˇresnˇe urˇcena jinou veliˇcinou. Mnohem ˇcastˇeji se setk´av´ame se situacemi, kdy se mus´ıme spokojit pouze s hrub´ ymi odhady (predikcemi). Napˇr´ıklad nem˚ uˇzeme pˇresnˇe stanovit pˇresnou cenu y auta urˇcit´e znaˇcky a typu, pokud nezn´ame jeho st´aˇr´ı x. Dokonce pˇri zvolen´em st´aˇr´ı auta, napˇr´ıklad 5 let, je cena auta r˚ uzn´a pro r˚ uzn´a auta t´eˇze znaˇcky a t´ehoˇz typu. Mus´ıme se spokojit s hrub´ ym odhadem ceny 3 roky star´eho auta urˇcit´e znaˇcky a typu nebo s odhadem pr˚ umˇern´e ceny vˇsech 3 roky star´ ych aut zm´ınˇen´e znaˇcky a typu. ˇ V tabulce 8.1 jsou uvedeny u ´daje o st´aˇr´ı a cenˇe 11 vybran´ ych automobil˚ u znaˇcky Skoda Forman. St´aˇr´ı je vyj´adˇreno poˇctem rok˚ u od roku v´ yroby a cena v tis´ıc´ıch Kˇc. 121
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
ˇ Tabulka 8.1 St´aˇr´ı a cena pro v´ybˇer 11 aut znaˇcky Skoda Forman Auto St´aˇr´ı x (roky) Cena y (v tis´ıc´ıch Kˇc)
1 5 85
2 4 103
3 6 70
4 5 82
5 5 89
6 5 98
7 6 66
8 6 95
9 10 11 2 7 7 169 70 48
Abychom z´ıskali urˇcitou pˇredstavu o moˇzn´em vztahu mezi st´aˇr´ım a cenou auta, zobraz´ıme dvojice dat. Takov´e zobrazen´ı se naz´ yv´a bodov´ y diagram. Bodov´ y diagram pro datov´e body (x, y) z pˇredch´azej´ıc´ı tabulky je zobrazen v obr. 8.2. Aˇckoliv z bodov´eho diagramu je zˇrejm´e, ˇze datov´e body neleˇz´ı na pˇr´ımce, zd´a se, ˇze jsou soustˇredˇeny kolem pˇr´ımky. Pokus´ıme se proloˇzit tˇemito datov´ ymi body pˇr´ımku. Pak bude ˇ moˇzn´e pouˇz´ıt tuto pˇr´ımku k urˇcen´ı ceny auta Skoda Forman pro zvolen´e st´aˇr´ı auta. Vzhledem k tomu, ˇze shlukem datov´ ych bod˚ u bychom mohli proloˇzit mnoho r˚ uzn´ ych pˇr´ımek, potˇrebujeme metodu k urˇcen´ı nejlepˇs´ı“ pˇr´ımky. Metoda, kterou pouˇzijeme, je ” zaloˇzena na kriteriu naz´ yvan´em kriterium nejmenˇ s´ıch ˇ ctverc˚ u. Podstatou tohoto kriteria je anal´ yza chyb, kter´e udˇel´ame, kdyˇz datov´ ymi body proloˇz´ıme pˇr´ımku. S t´ımto kriteriem se sezn´am´ıme na numericky velice jednoduch´em pˇr´ıkladˇe. Pˇ r´ıklad 8.2 Kriterium nejmenˇs´ıch ˇctverc˚ u ´ ´ Uvaˇzujme dvojice dat zaznamenanych v nasleduj´ ıc´ı tabulce. x y
1 1
1 2
2 2
4 6
˚ zeme proloˇzit (nekoneˇcnˇe) mnoho pˇr´ımek cˇ tyˇrmi dvojicemi dat (x, y) z uveden´e tabulky. Napˇr´ıklad Muˇ pˇr´ımku A : y = 0.50 + 1.25x nebo pˇr´ımku B : y = −0.25 + 1.50x. Oznaˇcme yˆ hodnotu veliˇciny y odpov´ıdaj´ıc´ı hodnotˇe veliˇciny x na pˇr´ımce. Napˇr´ıklad hodnota veliˇciny y urˇcena´ pˇr´ımkou A pro x = 2 je yˆ = 3 a hodnota veliˇciny y urˇcena´ pˇr´ımkou B pro x = 2 je yˆ = 2.75. Abychom mohli kvantitativnˇe zmˇerˇit, jak dobˇre pˇr´ımka vystihuje data, uvaˇzujme chyby e, ´ kterych se dopust´ıme, jestliˇze pˇr´ımku pouˇzijeme k predikci hodnot y dvojic dat (x, y). Skuteˇcna´ hodnota veliˇciny y pro x = 2 je y = 2. Tud´ızˇ chyba, kter´e se dopust´ıme, pouˇzijeme-li pˇr´ımku A k predikci hodnoty y datov´eho bodu (2, 2) je e = y − yˆ = 2 − 3 = 1. ´ ´ Spoˇc´ıtame chyby, kterych se dopust´ıme pouˇzit´ım pˇr´ımky A a pˇr´ımky B, pro vˇsechna data ´ v tabulce. K tomu, abychom mohli rozhodnout, ktera´ z tˇechto pˇr´ımek l´epe vystihuje data, spoˇc´ıtame P ˚ chyb e2 . Pˇr´ımka, ktera´ dav ´ a´ menˇs´ı souˇcet cˇ tvercu ˚ chyb, v naˇsem pˇr´ıpadˇe pˇr´ımka souˇcet cˇ tvercu B, l´epe vystihuje data. Mezi vˇsemi pˇr´ımkami je nejlepˇs´ı ta, pro kterou je souˇcet cˇ tvercu˚ chyb nejmenˇs´ı.
Kriterium nejmenˇ s´ıch ˇ ctverc˚ u Pˇr´ımka, kter´a nejl´epe vystihuje vztah mezi dvojicemi dat je ta, pro kterou je souˇcet P ˇctverc˚ u chyb S(b0 , b1 ) = ni=1 [yi − (b0 + b1 xi )]2 nejmenˇs´ı. 122
8.2 R EGRESN´I ROVNICE
Definice 8.1
R EGRESN ´I P Rˇ ´I MKA A REGRESN ´I ROVNICE
Regresn´ı pˇr´ımka: Pˇr´ımka, kter´ a ze vˇsech pˇr´ımek nejl´epe vystihuje danou z´avislost mezi
zkouman´ ymi veliˇcinami ve smyslu kriteria nejmenˇs´ıch ˇctverc˚ u. Regresn´ı rovnice: Rovnice regresn´ı pˇr´ımky. Kriterium nejmenˇs´ıch ˇctverc˚ u n´am ˇr´ık´a, jakou vlastnost mus´ı m´ıt regresn´ı pˇr´ımka, kterou prokl´ad´ame daty, ale neˇr´ık´a n´am, jak naj´ıt takovou pˇr´ımku. Dˇr´ıve neˇz odvod´ıme vzorce pro urˇcen´ı regresn´ı rovnice (rovnice regresn´ı pˇr´ımky), zavedeme oznaˇcen´ı, kter´e budeme v dalˇs´ım pouˇz´ıvat. Definice 8.2
ˇ ´I POU Zˇ ´I VAN E´ V REGRESI A KORELACI O ZNA CEN P
P
Definujme veliˇciny Sxx , Sxy a Syy : Sxx = ni=1 (xi − x¯)2 , Sxy = ni=1 (xi − x¯)(yi − y¯) P a Syy = ni=1 (yi − y¯)2 . Tyto tˇri veliˇciny se snadnˇeji poˇc´ıtaj´ı uˇzit´ım n´asleduj´ıc´ıch vzorc˚ u. Sxx = Sxy = Syy =
Pn
i=1
Pn
i=1
Pn
i=1
Pn
x2i − (
i=1
xi )2 /n,
Pn
xi yi − (
i=1
Pn
yi2 − (
i=1
Pn
xi )(
i=1
yi )/n,
yi )2 /n.
Nyn´ı uvedeme vzorce, kter´e n´am umoˇzn´ı urˇcit regresn´ı pˇr´ımku pro mnoˇzinu dvojic dat. Vzorec 8.1
Regresn´ı rovnice
Regresn´ı rovnice pro mnoˇzinu n dvojic dat, neboli rovnice regresn´ı pˇr´ımky nejlepˇs´ı ve P smyslu minimalizace kriteria nejmenˇs´ıch ˇctverc˚ u S(b0 , b1 ) = ni=1 [yi − (b0 + b1 xi )]2 , je yˆ = b0 + b1 x, kde Sxy b1 = Sxx
a
n n X 1 X b0 = ( yi − b1 xi ) = y¯ − b1 x¯. n i=1 i=1
Nutn´a podm´ınka pro extr´em funkce S(b0 , b1 ) dvou promˇenn´ ych b0 a b1 je, aby se obˇe parci´aln´ı derivace rovnaly nule n X ∂S = −2 (yi − b0 − b1 xi ) = 0 , ∂b0 i=1
n X ∂S = −2 (yi − b0 − b1 xi )xi = 0, ∂b1 i=1
coˇz vede k tak zvan´e soustavˇ e norm´ aln´ıch rovnic nb0 + b1
n X i=1
xi =
n X
yi ,
i=1
b0
n X i=1
xi + b 1
n X i=1
x2i =
n X
xi y i ,
i=1
jej´ımˇz ˇreˇsen´ım dostaneme Pn
b1 =
¯)yi i=1 (xi − x , Pn ¯)2 i=1 (xi − x
Pn
(xi − x¯)yi x¯. ¯)2 i=1 (xi − x
b0 = y¯ − Pi=1 n
Odtud vzhledem k definici 8.2 dostaneme vzorce pro urˇcen´ı b1 a b0 ve tvaru uveden´em v´ yˇse. Postaˇcuj´ıc´ı podm´ınku pro extr´em nen´ı tˇreba vyˇsetˇrovat, nebot’ funkce S(b0 , b1 ) je ryze konvexn´ı. 123
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
Pˇ r´ıklad 8.3 Ilustrace vzorce 8.1 ˇ ´ ´ r´ı a ceny aut znaˇcky Skoda Tabulka 8.1 zobrazuje data tykaj´ ıc´ı se staˇ Forman. a ) Urˇcete regresn´ı pˇr´ımku pro data z tabulky. b ) Nakreslete regresn´ı pˇr´ımku a jednotliv´e dvojice dat. ˇ c ) Co reprezentuje smˇernice regresn´ı pˇr´ımky cen aut Skoda Forman. d ) Pouˇzijte regresn´ı rovnici pro predikci ceny 3 a 4 roky star´eho auta. ˇ sen´ı: Reˇ ´ cet b0 a b1 . a ) K urˇcen´ı regresn´ı pˇr´ımky pouˇzijeme vzorce (8.1) pro vypoˇ Smˇernice regresn´ı pˇr´ımky je tud´ızˇ Pn Pn Pn 4732 − (58)(975)/11 i=1 xi yi − ( i=1 xi )( i=1 yi )/n b1 = = −20.26. = Pn Pn 2 2 326 − (58)2 /11 i=1 xi − ( i=1 xi ) /n ´ Usek, ktery´ vyt´ına´ pˇr´ımka na ose y je b0 =
n n X 1 X 1 ( yi − b1 [975 − (−20.26) · 58] = 195.47. xi ) = n i=1 11 i=1
Tud´ızˇ regresn´ı rovnice je yˆ = 195.47 − 20.26x. ˚ e hodnoty x do b ) K tomu, abychom sestrojili graf regresn´ı rovnice, mus´ıme dosadit dvˇe ruzn´ ˚ e body. Pouˇzijeme hodnoty x = 2 a x = 8. Odpov´ıdaj´ıc´ı regresn´ı rovnice, abychom dostali dva ruzn´ hodnoty y jsou yˆ = 195.47 − 20.26 · 2 = 154.95 a yˆ = 195.47 − 20.26 · 8 = 33.39. ´ ı dvˇema body (2, 154.95) a (8, 33.39) a jej´ı graf je na obr. 8.2 (b). Tud´ızˇ regresn´ı pˇr´ımka prochaz´ ˇ ´ zˇe pokles ceny auta Skoda c ) Smˇernice −20.26, nebo −20260 Kˇc znamena, Forman je pˇribliˇznˇe ˇ pro auta v rozpˇet´ı dvou aˇz sedmi let staˇ ´ r´ı. 20260 Kˇc za rok, alespon
y
y
180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10
180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10
Cena (v 1000 Kˇc)
Cena (v 1000 Kˇc)
ˇ Obr´ azek 8.2 Bodov´y diagram a regresn´ı pˇr´ımka pro st´ aˇr´ı a cenu aut znaˇcky Skoda Forman
1
2
3
4
5
6
St´ aˇr´ı (poˇcet rok˚ u)
7
8
x
yˆ = b0 + b1 x = 195.47 − 20.26x
1
(a) bodov´ y diagram
2
3
4
5
6
St´ aˇr´ı (poˇcet rok˚ u)
(b) regresn´ı pˇr´ımka
124
7
8
x
8.2 R EGRESN´I ROVNICE ´ d ) Nakonec mame pouˇz´ıt regresn´ı rovnici yˆ = 195.47 − 20.26x k odhadu (predikci) ceny 3 roky a 4 ˇ ´ roky star´eho auta znaˇcky Skoda Forman. Pro 3 roky star´e auto, mame x = 3 a tud´ızˇ predikovana´ cena je yˆ = 195.47 − 20.26 · 3 = 134.69, neboli 134690 Kˇc. Podobnˇe cena predikovana´ pomoc´ı regresn´ı rovnice pro 4 roky star´e auto ˇ Skoda Forman je yˆ = 195.47 − 20.26 · 4 = 114.43, neboli 114430 Kˇc.
Ot´azky t´ ykaj´ıc´ı se pˇresnosti a vhodnosti takov´ ych predikc´ı budou diskutov´any pozdˇeji.
8.2.1
Extrapolace
Jestliˇze bodov´ y diagram naznaˇcuje line´arn´ı z´avislost mezi dvˇema veliˇcinami, je rozumn´e pouˇz´ıt regresn´ı rovnici k odhadov´an´ı z´avisl´e veliˇciny y pˇri zvolen´e hodnotˇe nez´avisl´e veliˇciny x, kter´a leˇz´ı uvnitˇr oboru pozorovan´ ych hodnot x, ale ne nutnˇe pro hodnotu x, kter´a leˇz´ı ’ vnˇe tohoto oboru, nebot line´arn´ı vztah mezi veliˇcinami tam nemus´ı platit. Regresn´ı rovnice odpov´ıd´a u ´daj˚ um, ze kter´ ych byla urˇcena. Zvol´ıme-li hodnoty nez´avisl´e veliˇciny jin´e, neˇz ty, kter´e jsme pouˇz´ıvali pˇri urˇcen´ı regresn´ı rovnice, nemus´ı b´ yt naˇse predikce hodnot veliˇciny y dobr´e. Riziko je t´ım vˇetˇs´ı, ˇc´ım je zvolen´a hodnota veliˇciny x vzd´alenˇejˇs´ı od aritmetick´eho pr˚ umˇeru x¯. Pouˇzit´ı regresn´ı rovnice k urˇcen´ı hodnot y odpov´ıdaj´ıc´ıch hodnot´am x vnˇe oboru pozorovan´ ych hodnot x, se naz´ yv´a extrapolace. Extrapolac´ı m˚ uˇzeme z´ıskat zcela nespr´avn´e hodnoty pro y. Pˇr´ıklad z´avislosti ceny ojet´eho auta na jeho st´aˇr´ı m˚ uˇze b´ yt pˇr´ıkladem toho, ˇze extrapolace m˚ uˇze d´at nesmysln´e v´ ysledky. Regresn´ı rovnice je yˆ = 195.47 − 20.26x a obor pozorovan´ ych hodnot veliˇciny x je od 2 do 7 let. Pˇredpokl´adejme, ˇze udˇel´ame extrapolaci pouˇzit´ım regresn´ı ˇ rovnice, abychom odhadli cenu 11 let star´eho auta Skoda Forman. Predikovan´a cena je yˆ = −27.39, neboli −27390 Kˇc. Nikdo n´am zˇrejmˇe nezaplat´ı 27390 Kˇc, abychom si vzali jeho 11let star´e auto. Tud´ıˇz, aˇckoliv vztah mezi st´aˇr´ım a cenou auta se zd´a b´ yt line´arn´ı v oboru od x = 2 do x = 7, nen´ı rozhodnˇe takov´ y mimo tento obor hodnot.
8.2.2
Odlehl´ a a vlivn´ a pozorov´ an´ı
Pojem odlehl´e pozorov´an´ı jsme vysvˇetlili jiˇz v kapitole 1. V souvislosti s regres´ı je odlehl´ e pozorov´ an´ı datov´ y bod leˇz´ıc´ı relativnˇe daleko od regresn´ı pˇr´ımky vzhledem k ostatn´ım bod˚ um. Obr´azek 8.2 ukazuje, ˇze v pˇr´ıkladu 8.3 nen´ı ˇz´adn´ y odlehl´ y bod. Odlehl´e pozorov´an´ı m˚ uˇze m´ıt v´ yznamn´ y vliv na regresn´ı anal´ yzu. Tud´ıˇz je d˚ uleˇzit´e identifikovat odlehl´a pozorov´an´ı a odstranit je, pokud je to moˇzn´e (napˇr´ıklad, jsou-li to chyby mˇeˇren´ı nebo z´aznamu dat). Mus´ıme tak´e d´avat pozor na vlivn´a pozorov´ an´ı. V regresn´ı anal´ yze je vlivn´ e pozorov´ an´ı datov´ y bod, jehoˇz odstranˇen´ı zp˚ usob´ı, ˇze se regresn´ı rovnice (a pˇr´ımka) znaˇcnˇe zmˇen´ı. Datov´ y bod, kter´ y ve smˇeru osy x leˇz´ı daleko od ostatn´ıch datov´ ych bod˚ u je ˇcasto vlivn´e pozorov´an´ı, nebot’ t´ahne“ regresn´ı pˇr´ımku k sobˇe a ostatn´ı datov´e body nep˚ usob´ı proti nˇemu. ” Jako v pˇr´ıpadˇe odlehl´ ych pozorov´an´ı bychom se mˇeli pokusit zjistit d˚ uvod vlivn´ ych pozorov´an´ı. Jestliˇze zjist´ıme, ˇze vlivn´a pozorov´an´ı jsou v datov´em souboru z d˚ uvodu mˇeˇr´ıc´ıch 125
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
nebo z´aznamov´ ych chyb nebo z nˇejak´eho jin´eho d˚ uvodu, je zˇrejm´e, ˇze nepatˇr´ı do datov´eho souboru, pak je m˚ uˇzeme bez dalˇs´ıho odstranit. Avˇsak, nen´ı-li ˇza´dn´e zˇrejm´e vysvˇetlen´ı pro vlivn´a pozorov´an´ı, pak rozhodnut´ı o tom, zda odstranit ˇci neodstranit toto pozorov´an´ı z datov´eho souboru je obt´ıˇzn´e a vyˇzaduje vyj´adˇren´ı pracovn´ıka, kter´ y datov´ y soubor poˇr´ıdil. Pro data v pˇr´ıkladu 8.3 ukazuje obr. 8.3(b), ˇze datov´ y bod (2, 169) je potenci´aln´ı vlivn´e pozorov´an´ı, jelikoˇz hodnota x = 2 leˇz´ı daleko od hodnot veliˇciny x ostatn´ıch datov´ ych bod˚ u. Odstran´ıme-li tento bod z datov´eho souboru a znovu urˇc´ıme regresn´ı rovnici, dostaneme yˆ = 160.33 − 14.24x. Z obr. 8.3(b) je vidˇet, ˇze tato rovnice se znaˇcnˇe liˇs´ı od regresn´ı rovnice yˆ = 195.47 − 20.26x, kterou jsme vypoˇc´ıtali z p˚ uvodn´ıch dat. Takˇze bod (2, 169) je skuteˇcnˇe vlivn´e pozorov´an´ı. Vlivn´e pozorov´an´ı (2, 169) nen´ı chyba z´aznamu, ale legitimn´ı datov´ y bod. Nicm´enˇe, m˚ uˇze ’ b´ yt vhodn´e bud tento bod odstranit a tud´ıˇz omezit anal´ yzu na auta star´a 4 aˇz 7 let, nebo z´ıskat dodateˇcn´e u ´daje o autech star´ ych 2 nebo 3 roky tak, aby regresn´ı anal´ yza nebyla tak z´avisl´a na jednom datov´em bodu. Odlehl´e pozorov´an´ı m˚ uˇze nebo nemus´ı b´ yt vlivn´e pozorov´an´ı; a vlivn´e pozorov´an´ı m˚ uˇze nebo nemus´ı b´ yt odlehl´e pozorov´an´ı. Mnoho statistick´ ych softwar˚ u identifikuje potencion´aln´ı odlehl´a i vlivn´a pozorov´an´ı. ˇ Obr´ azek 8.3 Extrapolace a vlivn´e pozorov´ an´ı v pˇr´ıkladu s auty Skoda Forman y oblast extrapolace
Cena (v 1000 Kˇc)
Cena (v 1000 Kˇc)
y 180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 -10 -20 -30
1
2
3
4
5
6
St´ aˇr´ı (poˇcet rok˚ u)
7
8
9
10
(a) extrapolace
11 x
180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10
vlivn´e pozorov´ an´ı yˆ = 195.47 − 20.26x (vˇsechna data)
yˆ = 160.33 − 14.24x (bez vlivn´eho pozorov´an´ı)
1
2
3
4
5
6
St´ aˇr´ı (poˇcet rok˚ u)
7
8
x
(b) vlivn´e pozorov´an´ı
Prediktor a vysvˇ etluj´ıc´ı veliˇ cina Uvaˇzujeme-li line´arn´ı rovnici y = b0 + b1 x, pak x je nez´avisl´a veliˇcina a y je z´avisl´a veliˇcina. V regresn´ı anal´ yze se y naz´ yv´a vysvˇ etlovan´ a veliˇ cina a x prediktor nebo vysvˇ etluj´ıc´ı veliˇ cina, nebot’ ji pouˇz´ıv´ame k predikov´an´ı nebo vysvˇetlov´an´ı veliˇciny y. V pˇr´ıkladu 8.3 je st´aˇr´ı“ auta prediktor a cena“ je vysvˇetlovan´a veliˇcina. ” ” Nˇ ekter´ au ´ skal´ı pˇ ri pouˇ zit´ı line´ arn´ı regrese Myˇslenka nalezen´ı regresn´ı pˇr´ımky je zaloˇzena na pˇredpokladu, ˇze datov´e body jsou m´alo rozpt´ ylen´e kolem pomysln´e pˇr´ımky (jsou soustˇredˇeny kolem pomysln´e pˇr´ımky). V nˇekter´ ych 126
8.3 KOEFICIENT DETERMINACE
pˇr´ıpadech mohou b´ yt datov´e body soustˇredˇeny kolem kˇrivky m´ısto pˇr´ımky. Bohuˇzel vzorce pro urˇcen´ı b0 a b1 budou dobˇre pracovat i pro takov´e datov´e soubory a tud´ıˇz m˚ uˇzeme proloˇzit takov´ ymi body nevhodnou pˇr´ımku. Z toho co bylo ˇreˇceno, m˚ uˇzeme vyslovit kriterium pro nalezen´ı regresn´ı pˇr´ımky. Kriterium pro urˇ cen´ı regresn´ı pˇ r´ımky Dˇr´ıve neˇz pˇristoup´ıte k urˇcen´ı regresn´ı pˇr´ımky pro mnoˇzinu dvojic dat, udˇelejte bodov´ y diagram. Pokud body nejsou soustˇredˇeny kolem pˇr´ımky, nepouˇz´ıvejte regresn´ı pˇr´ımku.
8.3
Koeficient determinace
Jedn´ım z u ´kol˚ u regresn´ı a korelaˇcn´ı anal´ yzy je posouzen´ı kvality regresn´ı rovnice a zjiˇstˇen´ı intenzity (s´ıly, tˇesnosti) z´avislosti. Posuzovan´ y vztah je t´ım silnˇejˇs´ı a regresn´ı rovnice t´ım lepˇs´ı, ˇc´ım v´ıce jsou napozorovan´e hodnoty vysvˇetlovan´e veliˇciny y soustˇredˇen´e kolem regresn´ı pˇr´ımky urˇcen´e z dat a naopak t´ım slabˇs´ı, ˇc´ım v´ıce jsou pozorovan´e hodnoty vysvˇetlovan´e veliˇciny y vzd´aleny od hodnot yˆ vypoˇcten´ ych pomoc´ı regresn´ı rovnice. V pˇr´ıkladu 8.3 m˚ uˇzeme regresn´ı rovnici pouˇz´ıt k predikci ceny auta pˇri zvolen´em st´aˇr´ı auta. Na pˇr´ıklad m˚ uˇzeme predikovat, ˇze cena 4 roky star´eho auta bude zhruba yˆ = 195.47 − 20.26 · 4 = 114.43, neboli 114430 Kˇc. Jak hodnotn´a je takov´a predikce? Je regresn´ı rovnice uˇziteˇcn´a pro predikov´an´ı ceny, nebo m˚ uˇzeme predikovat cenu stejnˇe dobˇre bez ohledu na st´aˇr´ı auta? Uvaˇzujme opˇet pˇr´ıklad 8.3. Jeden zp˚ usob, jak vyuˇz´ıt informaci obsaˇzenou v datov´em souboru k predikci ceny auta, je ignorovat st´aˇr´ı a jednoduˇse pouˇz´ıt pr˚ umˇernou cenu y¯ vˇsech 11 vybran´ ych aut. Jin´ ymi slovy pouˇz´ıt P11
y¯ =
i=1
yi
= 88.64 (88640 Kˇc) 11 jako predikovanou hodnotu pro cenu auta bez ohledu na st´aˇr´ı. K tomu, abychom z´ıskali kvantitativn´ı m´ıru celkov´e chyby, kter´e jsme se t´ım dopustili, vypoˇc´ıt´ame celkov´ y souˇcet ˇctverc˚ u odchylek pozorovan´ ych hodnot y od pr˚ umˇern´e hodnoty. Tento celkov´ y souˇcet ˇctverc˚ u chyb naz´ yv´ame celkov´ y souˇ cet ˇ ctverc˚ u Sy . V naˇsem pˇr´ıpadˇe je celkov´ y souˇcet ˇctverc˚ u chyb roven 9708.50, pr˚ umˇern´a cena y¯ = 88.64 je pouˇzita jako predikovan´a cena kaˇzd´eho z 11 vybran´ ych aut Sy =
11 X
(yi − y¯)2 = 9708.50.
i=1
Jestliˇze st´aˇr´ı auta je uˇziteˇcn´e pro predikov´an´ı ceny auta, pak by mˇelo doj´ıt ke sn´ıˇzen´ı v celkov´em souˇctu ˇctverc˚ u pˇri pouˇzit´ı regresn´ı rovnice yˆ = 195.47 − 20.26x m´ısto pr˚ umˇern´e ceny k predikci ceny auta. Vypoˇc´ıtejme nyn´ı celkov´ y souˇcet ˇctverc˚ u chyb, kter´ ych se dopust´ıme, jestliˇze regresn´ı rovnici pouˇzijeme k predikci ceny kaˇzd´eho z 11 vybran´ ych aut. Tento souˇcet ˇctverc˚ u chyb se naz´ yv´a rezidu´ aln´ı souˇ cet S(y−ˆy) . Pro auta v naˇsem pˇr´ıkladu dostaneme S(y−ˆy) =
11 X
(yi − yˆi )2 = 1423.50.
i=1
Tud´ıˇz pouˇzit´ım regresn´ı rovnice k predikci ceny auta m´ısto pr˚ umˇern´e ceny y¯ jsme v´ yraznˇe sn´ıˇzili celkov´ y souˇcet ˇctverc˚ u chyb. Charakteristika vyjadˇruj´ıc´ı pomˇern´e sn´ıˇzen´ı celkov´eho 127
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
souˇctu ˇctverc˚ u chyb se naz´ yv´a koeficient determinace. Dost´av´ame r2 =
Sy − S(y−ˆy) S(y−ˆy) 1423.5 =1− =1− = 0.853. Sy Sy 9708.5
Pouˇzit´ım regresn´ı rovnice m´ısto pr˚ umˇern´e ceny y¯ jsme tud´ıˇz dos´ahli 85.3% sn´ıˇzen´ı celkov´eho souˇctu ˇctverc˚ u chyb predikce cen vˇsech 11 vybran´ ych aut. To znamen´a, ˇze st´aˇr´ı auta je uˇziteˇcn´a charakteristika pro stanoven´ı ceny ojet´eho auta. Pojmy definovan´e v´ yˇse shrneme do definice 8.3. Definice 8.3
ˇ ˇ ˚ S OU CTY CTVERC U
Celkovy´ souˇcet cˇtvercu: ˚
Sy =
Rezidualn´ ´ ı souˇcet cˇtvercu: ˚ Koeficient determinace:
Pn
i=1 (yi
S(y−ˆy) =
− y¯)2
Pn
− yˆi )2
i=1 (yi
r2 = 1 − S(y−ˆy) /Sy
Koeficient determinace je popisn´a m´ıra uˇziteˇcnosti regresn´ı rovnice pro predikov´an´ı. Koeficient determinace ud´av´a pomˇern´e sn´ıˇzen´ı celkov´eho souˇctu ˇctverc˚ u chyb, kter´eho doc´ıl´ıme pouˇzit´ım regresn´ı rovnice pro predikci pozorovan´ ych hodnot veliˇciny y m´ısto pr˚ umˇeru y¯. Koeficient determinace m˚ uˇzeme tak´e interpretovat jako ˇc´ast celkov´ ych zmˇen v pozorovan´ ych hodnot´ach veliˇciny y, kter´e jsou vysvˇetleny regresn´ı pˇr´ımkou, tzv. vysvˇ etliteln´ e zmˇ eny. Definice 8.4
ˇ ˇ ˚ R EGRESN ´I SOU CET CTVERC U P
Regresn´ı souˇ cet ˇ ctverc˚ u Syˆ je definov´an Syˆ = ni=1 (yˆi − y¯)2 a vyjadˇruje mnoˇzstv´ı zmˇen pozorovan´e veliˇciny y, kter´e je vysvˇetleno regres´ı. Regresn´ı identita ˇ Pro data t´ ykaj´ıc´ı se automobilu Skoda Forman m´ame Sy = 9708.5, Syˆ = 8285.0 a S(y−ˆy) = 1423.5. Protoˇze 9708.5 = 8285.0 + 1423.5, dost´av´ame Sy = Syˆ + S(y−ˆy) . Tato rovnice je vˇzdy splnˇena a naz´ yv´a se regresn´ı identita. Tvrzen´ı 8.1
R EGRESN ´I IDENTITA
Celkov´ y souˇcet ˇctverc˚ u Sy je roven souˇctu regresn´ıho souˇctu ˇctverc˚ u Syˆ a rezidu´aln´ımu souˇctu ˇctverc˚ u S(y−ˆy) ; to je Sy = Syˆ + S(y−ˆy) . Interpretace koeficientu determinace Koeficient determinace r2 je definov´an vztahem r2 = 1 −
S(y−ˆy) Sy
a je roven procentn´ımu sn´ıˇzen´ı celkov´eho souˇctu ˇctverc˚ u v d˚ usledku pouˇzit´ı regresn´ı rovnice k predikci hodnoty y m´ısto v´ ybˇerov´eho pr˚ umˇeru y¯. Koeficient determinace m˚ uˇze b´ yt tak´e poˇc´ıt´an podle vzorce r2 =
Syˆ . Sy
128
´ ´I KORELACE 8.4 L INE ARN
Tud´ıˇz je tak´e roven procentn´ımu sn´ıˇzen´ı celkov´e zmˇeny v pozorovan´e veliˇcinˇe y, kter´a je vysvˇetlena regres´ı. V kaˇzd´em pˇr´ıpadˇe r2 leˇz´ı mezi 0 a 1 a je to popisn´a m´ıra vhodnosti pouˇzit´ı regresn´ı rovnice pro predikov´an´ı. Hodnoty r2 bl´ızk´e 0 naznaˇcuj´ı, ˇze regresn´ı rovnice nen´ı pˇr´ıliˇs uˇziteˇcn´a pro predikov´an´ı. Naproti tomu, hodnoty r2 bl´ızk´e 1 naznaˇcuj´ı, ˇze regresn´ı rovnice je velice uˇziteˇcn´a pro predikov´an´ı. D˚ uleˇ zit´ e ! Pˇri hodnocen´ı intenzity z´avislosti na z´akladˇe koeficientu determinace r2 je tˇreba m´ıt na zˇreteli, ˇze jeho velikost je ovlivnˇena t´ım, zda se n´am podaˇrilo naj´ıt vhodn´ y 2 typ regresn´ı funkce pro popis dan´e z´avislosti. To znamen´a, ˇze mal´a hodnota r nemus´ı jeˇstˇe znamenat n´ızk´ y stupeˇ n z´avislosti mezi promˇenn´ ymi, ale m˚ uˇze to signalizovat chybnou volbu regresn´ı funkce. Na z´avˇer tohoto odstavce jeˇstˇe uvedeme zjednoduˇsen´e vzorce pro tˇri definovan´e souˇcty ˇctverc˚ u. Vzorec 8.2
V´ypoˇcetn´ı vzorce pro souˇcty ˇctverc˚ u
Tˇri souˇcty ˇctverc˚ u Sy , Syˆ a S(y−ˆy) mohou b´ yt vypoˇc´ıt´any uˇzit´ım n´asleduj´ıc´ıch vzorc˚ u: Celkovy´ souˇcet cˇtvercu: ˚
Sy = Syy
Regresn´ı souˇcet cˇtvercu: ˚ Rezidualn´ ´ ı souˇcet cˇtvercu: ˚
2 Syˆ = Sxy /Sxx 2 S(y−ˆy) = Syy − Sxy /Sxx
Vzorce pro v´ ypoˇcet Syy , Sxy a Sxx jsou uvedeny v definici 8.2.
8.4
Line´ arn´ı korelace
ˇ Casto sl´ ych´av´ame v´ yroky t´ ykaj´ıc´ı se korelace nebo nedostatku korelace mezi dvˇema veliˇcinami: Existuje pozitivn´ı korelace mezi v´ydaji za reklamu a prodejem“ nebo IQ a spotˇreba alkoholu ” ” nejsou korelovan´e“. R˚ uzn´e statistiky mohou b´ yt pouˇzity jako popisn´e m´ıry korelace mezi dvˇema veliˇcinami. Nejv´ıce se pouˇz´ıv´a v´ ybˇ erov´ y line´ arn´ı korelaˇ cn´ı koeficient r, kter´ y je popisnou m´ırou s´ıly line´arn´ıho (pˇr´ımkov´eho) vztahu mezi dvˇema veliˇcinami. Definice 8.5
´ EROV ˇ ´ LINE ARN ´ ´I KORELA CN ˇ ´I KOEFICIENT V YB Y
Vybˇ an vztahem ´ erovy´ linearn´ ´ ı korelaˇcn´ı koeficient r je definov´
r=
sxy , sx sy
kde sx a sy jsou v´ ybˇerov´e smˇerodatn´e odchylky veliˇcin x respektive y a sxy je v´ ybˇerov´a kovariance v´ ybˇeru n dvojic dat veliˇcin x a y Pn
sxy =
i=1 (xi
− x¯)(yi − y¯) . n−1
N´ıˇze je uveden vzorec pro v´ ypoˇcet v´ ybˇerov´eho line´arn´ıho korelaˇcn´ıho koeficientu. 129
K APITOLA 8
Vzorec 8.3
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
V´ybˇerov´y line´arn´ı korelaˇcn´ı koeficient r
Line´arn´ı korelaˇcn´ı koeficient r pro n dvojic dat m˚ uˇze b´ yt poˇc´ıt´an podle n´asleduj´ıc´ıho vzorce Sxy r=q . Sxx Syy Vzorce pro Sxx , Sxy a Syy jsou uvedeny v definici 8.2. V´ ybˇerov´ y line´arn´ı korelaˇcn´ı koeficient r leˇz´ı mezi −1 a 1. Hodnoty r bl´ızk´e −1 nebo 1 naznaˇcuj´ı silnou line´arn´ı z´avislost mezi veliˇcinami a to, ˇze veliˇcina x je dobr´ ym line´arn´ım prediktorem pro veliˇcinu y (tj. regresn´ı rovnice je velice vhodn´a pro predikov´an´ı). Na druh´e stranˇe, hodnoty r bl´ızk´e nule naznaˇcuj´ı slabou line´arn´ı z´avislost mezi veliˇcinami a to, ˇze veliˇcina x je ˇspatn´ ym line´arn´ım prediktorem pro veliˇcinu y ( tj. regresn´ı rovnice nen´ı pˇr´ıliˇs vhodn´a pro predikov´an´ı) Kladn´e hodnoty r naznaˇcuj´ı, ˇze veliˇciny jsou kladnˇ e line´ arnˇ e korelovan´ e v tom smyslu, ˇze y m´a tendenci line´arnˇe klesat s klesaj´ıc´ım x. Z´aporn´e hodnoty r naznaˇcuj´ı, ˇze veliˇciny jsou z´ apornˇ e line´ arnˇ e korelovan´ e v tom smyslu, ˇze y m´a tendenci line´arnˇe klesat s rostouc´ım x. Znam´enko r je shodn´e jako znam´enko smˇernice regresn´ı pˇr´ımky. Pˇredch´azej´ıc´ı diskusi m˚ uˇzeme shrnout do n´asleduj´ıc´ıho z´avˇeru: • Jestliˇze v´ ybˇerov´ y line´arn´ı korelaˇcn´ı koeficient r m´a hodnotu bl´ızkou ±1, pak dvojice dat jsou soustˇredˇeny kolem regresn´ı pˇr´ımky. ybˇerov´ y line´arn´ı korelaˇcn´ı koeficient r m´a hodnotu dost odliˇsnou od ±1, pak • Jestliˇze v´ dvojice dat jsou znaˇcnˇe roztrouˇseny kolem regresn´ı pˇr´ımky. • Jestliˇze v´ ybˇerov´ y line´arn´ı korelaˇcn´ı koeficient r m´a hodnotu bl´ızkou 0, pak smˇernice regresn´ı pˇr´ımky m´a tak´e hodnotu bl´ızkou nule, coˇz naznaˇcuje, ˇze pravdˇepodobnˇe nen´ı line´arn´ı vztah mezi veliˇcinami. Vztah mezi v´ ybˇ erov´ ym korelaˇ cn´ım koeficientem a koeficientem determinace V odstavci 8.3 byl diskutov´an koeficient determinace r2 jako popisn´a m´ıra uˇziteˇcnosti regresn´ı rovnice pro predikov´an´ı. Nyn´ı jsme zavedli v´ ybˇerov´ y korelaˇcn´ı koeficient r jako popisnou m´ıru s´ıly line´arn´ıho vztahu mezi dvˇema veliˇcinami. Oˇcek´av´ame, ˇze s´ıla line´arn´ı z´avislosti tak´e naznaˇcuje pouˇzitelnost regresn´ı rovnice pro predikov´an´ı. Koeficient determinace je roven ˇctverci v´ ybˇerov´eho korelaˇcn´ıho koeficientu. V´ ybˇerov´ y line´arn´ı korelaˇcn´ı koeficient r, kter´ y se vyuˇz´ıv´a k popisu s´ıly line´ arn´ı z´avislosti mezi dvˇema veliˇcinami, by mˇel b´ yt pouˇzit pouze tehdy, kdyˇz bodov´ y diagram naznaˇcuje, ˇze data jsou soustˇredˇena kolem pˇr´ımky. Korelace nen´ı pˇ r´ıˇ cinnost Veliˇciny mohou b´ yt silnˇe korelovan´e, to vˇsak neznamen´a, ˇze je mezi nimi vztah pˇr´ıˇcinn´ y. Napˇr´ıklad v tabulce 8.2 jsou uvedena data t´ ykaj´ıc´ı se poˇctu hodin, kter´e kaˇzd´ y z osmi n´ahodnˇe vybran´ ych student˚ u (veliˇcina x) vˇenoval pˇr´ıpravˇe na test z matematiky, kter´ y se mˇel uskuteˇcnit za 14 dn´ı a poˇcet bod˚ u z´ıskan´ ych pˇri testu (veliˇcina y). 130
´ ´I REGRESN´I MODEL 8.5 L INE ARN
ˇ vˇenovan´y studiu a bodov´e v´ysledky testu 8 vybran´ych student˚ Tabulka 8.2 Cas u x y
10 15 12 20 8 16 14 22 92 81 84 74 85 80 84 80
I kdyˇz jsou obˇe sledovan´e veliˇciny silnˇe z´apornˇe korelovan´e (r = −0.779 ), neznamen´a to, ˇze vˇetˇs´ı poˇcet hodin vˇenovan´ y pˇr´ıpravˇe na test je pˇr´ıˇcinou horˇs´ıho v´ ysledku testu. Dvˇe veliˇciny mohou b´ yt silnˇe korelovan´e z toho d˚ uvodu, ˇze obˇe jsou v´az´any s jin´ ymi veliˇcinami, naz´ yvan´ ymi skryt´ e veliˇ ciny, kter´e jsou pˇr´ıˇcinou zmˇen veliˇcin, kter´e zkoum´ame. Napˇr´ıklad v´ yˇse plat˚ u uˇcitel˚ u a v´ yˇse v´ ydaj˚ u za alkohol mohou b´ yt kladnˇe line´arnˇe korelovan´e. Moˇzn´e vysvˇetlen´ı t´eto kuriozn´ı skuteˇcnosti m˚ uˇze b´ yt, ˇze obˇe veliˇciny, jak v´ yˇse uˇcitelsk´ ych plat˚ u tak prodej alkoholu jsou tˇesnˇe sv´azan´e s jin´ ymi veliˇcinami jako je stupeˇ n inflace, kter´ y ovlivˇ nuje obˇe veliˇciny.
8.5
Line´ arn´ı regresn´ı model
K tomu, abychom mohli dˇelat z´avˇery v regresi a korelaci, mus´ı veliˇciny, kter´e uvaˇzujeme, splˇ novat urˇcit´e podm´ınky. Uvaˇzujme dvˇe veliˇciny X a Y . Pˇritom necht’ Y je n´ahodn´a veliˇcina, zat´ımco o X pˇredpokl´ad´ame, ˇze je nen´ahodn´a. Uvaˇzujme opˇet pˇr´ıklad 8.3 o vztahu ceny a st´aˇr´ı ojet´eho auta. Regresn´ı rovnici m˚ uˇzeme pouˇz´ıt k predikci ceny auta pro zvolen´e st´aˇr´ı auta. Nem˚ uˇzeme vˇsak oˇcek´avat, ˇze naˇse predikce budou pˇresn´e, jelikoˇz ceny auta se od sebe liˇs´ı dokonce pˇri stejn´em st´aˇr´ı ojet´eho auta. ˇ Napˇr´ıklad v tabulce 8.1 jsou uvedeny celkem 4 r˚ uzn´e ceny pro 5 let star´e auto Skoda Forman. Tuto variabilitu v cenˇe auta stejn´eho st´aˇr´ı bychom mˇeli oˇcek´avat, nebot’ auta budou m´ıt najet´ y r˚ uzn´ y poˇcet kilometr˚ u, r˚ uznˇe udrˇzovan´ y interi´er, r˚ uznou kvalitu laku a tak podobnˇe. Tud´ıˇz kaˇzd´emu st´aˇr´ı auta (hodnotˇe veliˇciny X) odpov´ıd´a cel´ y soubor cen (hodnot veliˇciny Y) a sice ceny vˇsech aut t´ehoˇz st´aˇr´ı. Dva roky star´ ym aut˚ um pˇr´ısluˇs´ı urˇcit´e rozdˇelen´ı cen, jin´e rozdˇelen´ı cen dostaneme pro auta star´a tˇri roky, atd. Na z´akladˇe t´eto diskuse je moˇzn´e zformulovat podm´ınky nutn´e k tomu, abychom mohli aplikovat inferenˇcn´ı metody v regresn´ı anal´ yze. Pˇ redpoklady uvaˇ zovan´ e pˇ ri klasick´ e line´ arn´ı regresi 1. Teoretick´ a (skuteˇ cn´ a) regresn´ı pˇ r´ımka: Existuje pˇr´ımka y = β0 + β1 x takov´a, ˇze pro kaˇzdou hodnotu x veliˇciny X, stˇredn´ı hodnota veliˇciny Y leˇz´ı na pˇr´ımce y = β0 + β1 x. Tuto pˇr´ımku naz´ yv´ame teoretickou regresn´ı pˇr´ımkou a jej´ı rovnici teoretickou regresn´ı rovnic´ı. e smˇ erodatn´ e odchylky: Smˇerodatn´a odchylka rozdˇelen´ı veliˇciny Y odpov´ı2. Shodn´ daj´ıc´ı urˇcit´e hodnotˇe x veliˇciny X je stejn´a bez ohledu na hodnotu x. aln´ı rozdˇ elen´ı: Pro kaˇzdou hodnotu x, pˇr´ısluˇsn´e rozdˇelen´ı veliˇciny Y je norm´aln´ı. 3. Norm´ Aby pˇredpoklady 1. 2. a 3. byly splnˇeny, mus´ı existovat konstanty β0 , β1 a σ takov´e, ˇze pro kaˇzdou hodnotu x odpov´ıdaj´ıc´ı rozdˇelen´ı veliˇciny Y je norm´aln´ı se stˇredn´ı hodnotou β0 + β1 x a rozptylem σ 2 . Tyto pˇredpoklady jsou oznaˇcov´any jako line´ arn´ı regresn´ı model. Z d˚ uvodu struˇcnosti budeme pouˇz´ıvat n´azev regresn´ı model. 131
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
Pozn´ amka: V literatuˇre se nˇekdy v´ yˇse uveden´ y model oznaˇcuje jako klasick´ y line´arn´ı regresn´ı model a jsou-li splnˇeny pˇredpoklady 1. a 2. pak mluv´ıme o line´arn´ım regresn´ım modelu. Symbolicky m˚ uˇzeme regresn´ı model vyj´adˇrit n´asledovnˇe: Y = β0 + β1 X + ²,
(8.2)
kde ² reprezentuje norm´alnˇe rozdˇelenou n´ahodnou veliˇcinu s nulovou stˇredn´ı hodnotou a smˇerodatnou odchylkou σ. Parametry β0 , β1 naz´ yv´ame parametry regrese nebo regresn´ı parametry. Pozorovan´e hodnoty y1 , y2 , · · · , yn lze povaˇzovat za hodnoty nez´avisl´ ych n´ahodn´ ych veliˇcin Y1 , Y2 , · · · , Yn , pˇriˇcemˇz kaˇzd´e Yi m´a norm´aln´ı rozdˇelen´ı N (β0 + β1 xi , σ 2 ). Parametry β0 , β1 a konstanta σ jsou obecnˇe nezn´am´e a proto mus´ı b´ yt odhadnuty z v´ ybˇerov´ ych dat, kter´a jsou k dispozici. Bodov´ ym odhadem σ se budeme zab´ yvat v pˇr´ıˇst´ım odstavci. Bodov´e odhady b0 a b1 parametr˚ u β0 a β1 teoretick´e regresn´ı pˇr´ımky z´ısk´ame metodou nejmenˇs´ıch ˇctverc˚ u ve tvaru uveden´em ve vzorci 8.1. Z tohoto hlediska jsou b0 a b1 statistiky. Pˇr´ımku yˆ = b0 + b1 x budeme naz´ yvat v´ ybˇ erovou (empirickou) regresn´ı pˇ r´ımkou. V´ ybˇerovou regresn´ı pˇr´ımku m˚ uˇzeme povaˇzovat za odhad teoretick´e regresn´ı pˇr´ımky z´ıskan´ y na z´akladˇe v´ ybˇerov´ ych pozorov´an´ı. Rozd´ıly mezi pozorovanou hodnotou yi a predikovanou hodnotou yˆi veliˇciny Yi , tj. hodnoty ei = yi − yˆi pro i = 1, 2, · · · , n se naz´ yvaj´ı rezidua. Rezidua ei je moˇzn´e povaˇzovat za odhad n´ahodn´e veliˇciny ² v regresn´ım modelu (8.2). Na obr´azku 8.4 je grafick´a reprezentace rezidu´ı pro jednu dvojici dat. Obr´ azek 8.4 Reziduum dvojice dat
pozorovan´ a hodnota y
(x, y) e = y − yˆ
predikovan´ a hodnota yˆ
v´ ybˇerov´a regresn´ı pˇr´ımka yˆ = b0 + b1 x x
P
Snadno lze dok´azat, ˇze souˇcet rezidu´ı ni=1 ei = 0, tud´ıˇz e¯ = 0. D´ale souˇcet ˆi )2 je identick´ y s rezidu´aln´ım souˇctem ˇctverc˚ u v definici 8.3. i=1 (yi − y
Pn
Pn
2 i=1 ei
=
Pˇ r´ıklad 8.4 Line´ arn´ı regresn´ı model ˇ ˇ ´ r´ı a cena auta Skoda Uvaˇzujte opˇet pˇr´ıklad 8.3, staˇ Favorit (SF). a) Vysvˇetlete, co znamenaj´ı pˇredpoklady regresn´ıho modelu. ´ b) Znazornˇ ete pˇredpoklady graficky. ˇ sen´ı: Reˇ a) Aby pˇredpoklady regresn´ıho modelu byly splnˇeny, mus´ı existovat konstanty β0 , β1 a σ takov´e, ˇ tohoto staˇ ´ r´ı x ceny vˇsech aut SF ´ r´ı, jsou normalnˇ ´ e rozdˇelen´e se stˇredn´ı hodnotou zˇe pro kaˇzd´e staˇ ˇ maj´ı ´ zˇe napˇr´ıklad ceny vˇsech dva roky stary´ ch aut SF β0 + β1 x a rozptylem σ 2 . To znamena, N (β0 + β1 · 2, σ 2 )-rozdˇelen´ı.
132
´ ´I REGRESN´I MODEL 8.5 L INE ARN ˇ tohoto staˇ ´ r´ı x, stˇredn´ı hodnota vˇsech aut SF ´ r´ı leˇzela b) Pˇredpoklad 1 poˇzaduje, aby pro kaˇzd´e staˇ ´ na pˇr´ımce y = β0 + β1 x, jak ukazuje obrazek 8.5(a). ´ ´ erov´e regresn´ı Protoˇze regresn´ı pˇr´ımku obvykle nezname, mus´ıme ji odhadnout pomoc´ı vybˇ pˇr´ımky, ktera´ v tomto pˇr´ıpadˇe je yˆ = 195.47 − 20.26x a obvykle nebude shodna´ s teoretickou re´ gresn´ı pˇr´ımkou. Tato situace je znazornˇ ena na obr. 8.5(b). Tˇret´ı pˇredpoklad regresn´ıho modelu ˇ pro ruzn ˚ a´ staˇ ´ r´ı byla normaln´ ´ ı se stejnou smˇerodatnou odpoˇzaduje, aby rozdˇelen´ı ceny aut SF chylkou. Obr´ azek 8.5 Teoretick´ a a v´ybˇerov´ a regresn´ı pˇr´ımka y y = β0 + β1 · 3 stˇredn´ı hodnota ceny vˇsech 3 roky star´ ych aut Cena (v 1000 Kˇc)
Cena (v 1000 Kˇc)
y 180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10
y = β0 + β1 · 6 stˇredn´ı hodnota ceny vˇsech 6 let star´ ych aut y = β0 + β1 x
1
2
3
4
5
6
St´ aˇr´ı (poˇcet rok˚ u)
7
8
180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10
x
9
(a)
8.5.1
yˆ = b0 + b1 x = 195.47 − 20.26x v´ ybˇerov´ a regresn´ı pˇr´ımka
y = β0 + β1 x teoretick´a regresn´ı pˇr´ımka
1
2
3
4
5
6
St´ aˇr´ı (poˇcet rok˚ u)
7
8
x
(b)
Bodov´ y odhad rozptylu σ 2
Pˇredpokl´adejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1, 2 a 3 klasick´eho regresn´ıho modelu. Jak jsme se jiˇz zm´ınili, rozptyl obvykle nezn´ame a mus´ı b´ yt odhadnut z dat, kter´a jsou k dispozici. Statistika, kter´a se pouˇz´ıv´a k sestrojen´ı bodov´eho odhadu pro σ 2 , se naz´ yv´a rezidu´ aln´ı rozptyl a je definov´ana n´asledovnˇe. Definice 8.6
´ ´I ROZPTYL R EZIDU ALN
an vztahem Rezidualn´ ´ ı rozptyl Se2 je definov´ Se2 = kde S(y−ˆy) =
Pn
i=1 (yi
S(y−ˆy) , n−2
− yˆi )2 .
Pˇripomeˇ nme, ˇze S(y−ˆy) je rezidu´aln´ı souˇcet ˇctverc˚ u a reprezentuje celkovou kvadratickou chybu, kter´e se dopust´ıme, jestliˇze v´ ybˇerovou regresn´ı rovnici pouˇzijeme k predikci pozorovan´e hodnoty veliˇciny Y . Zhruba ˇreˇceno, rezidu´aln´ı rozptyl vyjadˇruje, jak moc se v pr˚ umˇeru predikovan´a hodnota yˆ veliˇciny Y liˇs´ı od pozorovan´e hodnoty y.
133
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
Pˇ r´ıklad 8.5 Ilustrace definice 8.6 ´ ı rozptyl pro data z tabulky 8.1. Vypoˇctˇete rezidualn´ ˇ ´ ı rozptyl je Reˇsen´ı: V odstavci 8.3 na stranˇe 127 jsme zjistili, zˇe S(y−ˆy) = 1423.5. Tud´ızˇ rezidualn´ s2e =
1423.5 . = 158.17 11 − 2
´ ı smˇerodatna´ odchylka se = 12.58. Muˇ ˚ zeme rˇ´ıci, zˇe v prumˇ ˚ eru se predikovana´ cena aut a rezidualn´ ˇ predikovana´ na zakladˇ ´ ´ eru, liˇs´ı od zjiˇstˇen´e (pozorovan´e) ceny o 12580 Kˇc. SF e vybˇ
8.5.2
Testy hypot´ ez a intervaly spolehlivosti pro parametr β1
V tomto odstavci se budeme se zab´ yvat nˇekter´ ymi inferenˇcn´ımi metodami pouˇz´ıvan´ ymi v regresn´ı anal´ yze. Tyto metody vyˇzaduj´ı, aby zkouman´e veliˇciny splˇ novaly pˇredpoklady regresn´ıho modelu. V praxi tyto metody pracuj´ı dobˇre i pˇri mal´ ych odchylk´ach od tˇechto pˇredpoklad˚ u, tj. jsou robustn´ı v˚ uˇci mal´ ym odchylk´am od pˇredpoklad˚ u. Prvn´ı inferenˇcn´ı metody, kter´ ymi se budeme zab´ yvat, jsou testy hypot´ez o parametru β1 teoretick´e regresn´ı pˇr´ımky. Testy hypot´ ez o parametru β1 line´ arn´ıho regresn´ıho modelu Pˇredpokl´adejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady regresn´ıho modelu. Pak pro kaˇzdou hodnotu x veliˇciny X m´a veliˇcina Y norm´aln´ı rozdˇelen´ı se stˇredn´ı hodnotou β0 + β1 x a smˇerodatnou odchylku σ. Zaj´ım´a n´as hlavnˇe pˇr´ıpad, kdy β1 = 0, nebot’ potom stˇredn´ı ˇ adn´ hodnota veliˇciny Y je β0 a smˇerodatn´a odchylka σ. Z´ y z tˇechto parametr˚ u nez´avis´ı na x. To ale znamen´a, ˇze kdyˇz β1 = 0, pak veliˇcina X neposkytuje ˇz´adnou informaci o rozdˇelen´ı veliˇciny Y. Z toho vypl´ yv´a, ˇze neexistuje line´arn´ı vztah mezi X a Y a tud´ıˇz veliˇcina X nem˚ uˇze b´ yt pouˇzita jako prediktor hodnoty y veliˇciny Y. O tom, zda je mezi veliˇcinami X a Y line´arn´ı vztah a n´aslednˇe zda veliˇcina X je uˇziteˇcn´a jako prediktor hodnoty y veliˇciny Y , m˚ uˇzeme rozhodnout na z´akladˇe testu hypot´ezy H0 : β1 = 0 HA : β1 6= 0
(X nen´ı vhodn´a pro predikci Y ) (X je vhodn´a pro predikci Y ).
K testu hypot´ezy o parametru β1 teoretick´e regresn´ı pˇr´ımky pouˇzijeme statistiku b1 v´ ybˇerov´e regresn´ı pˇr´ımky. Jsou-li splnˇeny pˇredpoklady regresn´ıho modelu, m˚ uˇzeme urˇcit v´ ybˇ erov´ e rozdˇ elen´ı smˇ ernice regresn´ı pˇ r´ımky β1 N´ahodn´a veliˇcina b1 m´a norm´aln´ı rozdˇelen´ı se stˇredn´ı hodnotou µb1 = β1 a rozptylem 2 σb1 = σ 2 /Sxx , tud´ıˇz normovan´a n´ahodn´a veliˇcina Z=
b1 − β1 √ σ/ Sxx
m´a normovan´e norm´aln´ı rozdˇelen´ı. Vzhledem k tomu, ˇze rozptyl σ 2 je nezn´am´ y, nahrad´ıme σ 2 jeho odhadem s2e a dostaneme n´asleduj´ıc´ı v´ ysledek. 134
´ ´I REGRESN´I MODEL 8.5 L INE ARN
Tvrzen´ı 8.2
t- ROZD Eˇ LEN ´I PARAMETRU β1
´ ´I HO REGRESN ´I HO MODELU LINE ARN
Pˇredpokl´adejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady regresn´ıho modelu. Pak T =
b1 − β1 √ Se / Sxx
m´a t-rozdˇelen´ı s n − 2 stupni volnosti. Tvrzen´ı 8.2 umoˇzn ˇuje pouˇz´ıt pro test hypot´ezy H0 : β1 = 0 n´ahodnou veliˇcinu T =
b √1 Se / Sxx
jako testovou statistiku a naj´ıt kritick´e hodnoty v tabulce III. Proces testov´an´ı hypot´ezy o nulovosti koeficientu β1 regresn´ıho modelu lze prov´est podle obecn´eho sch´ematu na z´akladˇe specifick´ ych u ´daj˚ u uveden´ ych n´ıˇze. Postup 8.1
Test nulovosti parametru β1
• Pˇredpoklady: 1 − 3 pro regresn´ı model b √1 • Testov´ a statistika: T = ∼ t(n − 2) Se / Sxx • Kritick´e hodnoty: ±tα/2 . Pouˇzijte tabulku III. Pˇ r´ıklad 8.6 Ilustrace postupu 8.1 ˇ ´ ´ r´ı a cenˇe 11 ojetych ´ ´ Udaje o staˇ aut Skoda Forman jsou uvedeny v tabulce 8.1. Na zakladˇ e ´ anal´yzy rezidu´ı lze usoudit, zˇe pˇredpoklady 1-3 regresn´ıho modelu jsou splnˇeny. Poskytuj´ı nam ´ ˚ pro to, abychom udˇelali na 5% hladinˇe vy´ znamnosti zavˇ ´ er, zˇe staˇ ´ r´ı udaje dostatek argumentu ˇ ´ prediktorem ceny auta znaˇcky Skoda auta je vhodnym Forman? ˇ sen´ı: Reˇ ´ r´ı auta nen´ı vhodn´e pro predikci ceny) 1. H0 : β1 = 0 (staˇ ´ r´ı auta je vhodn´e pro predikci ceny). HA : β1 6= 0 (staˇ 2. α = 0.05 3. Kritick´e hodnoty jsou ±t0.025 s ν = n − 2. Tedy n = 11, ν = 11 − 2 = 9. Z tabulky III. najdeme t0.025 = 2.262. P 2 P ´ ´ v pˇr´ıkladu 8.5 jsme urˇcili 4. Z pˇr´ıkladu 8.3 mame xi = 326, xi = 58 a b1 = −20.26. Dale se = 12.58. Jelikoˇz n = 11, je hodnota testov´e statistiky tc =
−20.26 p = −7.235 . 12.58/ 326 − (58)2 /11
5. Protoˇze hodnota tc je menˇs´ı neˇz −t0.025 = −2.262, padne do kritick´eho oboru hypot´ezy H0 a tud´ızˇ ´ H0 zam´ıtame. ´ ´ zˇe na 5% hladinˇe 6. V´ysledky testu jsou statisticky vyznamn´ e na 5% hladinˇe. To znamena, ´ ´ ´ ˚ proto, abychom udˇelali zavˇ ´ er, zˇ e parametr vyznamnosti nam data davaj´ ı dostatek argumentu ˇ ´ ´ r´ı auta vhodn´e jako prediktor ceny auta Skoda regrese β1 nen´ı roven nule a nasledkem toho je staˇ Forman.
135
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
Pomoc´ı pˇr´ıstupu k testov´an´ı hypot´ez zaloˇzen´em na P -hodnotˇe bychom tak´e z´ıskali argumenty pro zam´ıtnut´ı nulov´e hypot´ezy. Jelikoˇz tc = −7.235 a ν = 9, najdeme v tabulce III., ˇze P -hodnota je menˇs´ı neˇz 0.01. Protoˇze je menˇs´ı neˇz poˇzadovan´a hladina v´ yznamnosti 0.05, m˚ uˇzeme zam´ıtnout H0 . V odstavci 8.3 jsme zavedli koeficient determinace r2 jako m´ıru vhodnosti pouˇzit´ı regresn´ı rovnice pro predikov´an´ı. Statistiku r2 m˚ uˇzeme tak´e pouˇz´ıt jako z´aklad pro test hypot´ezy, zda regresn´ı pˇr´ımka je vhodn´a pro predikce. Test zaloˇzen´ y na r2 je ekvivalentn´ı s testem zaloˇzen´ ym na b1 . Intervaly spolehlivosti pro regresn´ı parametr β1 Pˇripomeˇ nme, ˇze smˇernice β1 teoretick´e regresn´ı pˇr´ımky reprezentuje zmˇenu veliˇciny Y v d˚ usledku zvˇetˇsen´ı x o jednotku. D´ale pˇripomeˇ nme, ˇze teoretick´a regresn´ı pˇr´ımka se smˇernic´ı β1 je stˇredn´ı hodnotou rozdˇelen´ı veliˇciny Y odpov´ıdaj´ıc´ı r˚ uzn´ ym hodnot´am x. Tud´ıˇz β1 reprezentuje zmˇenu stˇredn´ı hodnoty rozdˇelen´ı veliˇciny Y , kdyˇz se hodnota veliˇciny x zvˇetˇs´ı ˇ o jednotku. Uvaˇzujeme-li napˇr´ıklad st´aˇr´ı (X) a cenu (Y ) auta znaˇcky Skoda Forman, β1 je ˇ stˇredn´ı hodnota roˇcn´ıho poklesu ceny auta Skoda Forman. Tud´ıˇz je vidˇet, ˇze m´a smysl odhadnout smˇernici β1 teoretick´e regresn´ı pˇr´ımky. Jiˇz v´ıme, ˇze bodov´ ym odhadem smˇernice β1 je smˇernice b1 v´ ybˇerov´e regresn´ı pˇr´ımky. Intervalov´ y odhad parametru β1 dostaneme aplikac´ı tvrzen´ı 8.2. Postup 8.2
Interval spolehlivosti pro parametr β1 regresn´ıho modelu
Pˇredpoklady: 1 − 3 pro regresn´ı model 1. Pro koeficient spolehlivosti 1 − α, najdˇete v tabulce III. tα/2 s ν = n − 2. 2. Krajn´ı body intervalu spolehlivosti pro β1 jsou se b1 ± tα/2 · √ . Sxx
Pˇ r´ıklad 8.7 Ilustrace postupu 8.2 ´ Pouˇzijte udaje z tabulky 8.1 a sestrojte 95% interval spolehlivosti pro β1 teoretick´e regresn´ı ˇ ´ r´ım auta Skoda pˇr´ımky, ktera´ vyjadˇruje vztah mezi cenou a staˇ Favorit. ˇ Reˇsen´ı: 1. Pro 95% interval spolehlivosti je α = 0.05. Jelikoˇz n = 11, ν = 11 − 2 = 9. V tabulce III. najdeme t0.05/2 = t0.025 = 2.262. P 2 P ´ ´ z pˇr´ıkladu 8.5 mame ´ 2. Z pˇr´ıkladu 8.3 mame b1 = −20.26, xi = 326, xi = 58. Dale se = 12.58. Z toho urˇc´ıme krajn´ı body intervalu spolehlivosti pro β1 −20.26 ± 2.262 · p
12.58 326 − (58)2 /11
= −20.26 ± 6.33,
˚ zeme by´ t jisti, zˇe neboli 95% interval spolehlivosti je (−26.59, −13.93). S 95% spolehlivost´ı si muˇ ´ parametr β1 teoretick´e regresn´ı pˇr´ımky leˇz´ı mezi −26.59 a −13.93. Jinymi slovy, s 95% spolehlivost´ı ˇ ˚ zeme byt ´ jisti, zˇe roˇcn´ı sn´ızˇen´ı stˇredn´ı hodnoty ceny auta Skoda si muˇ Forman je mezi 13930 Kˇc a 26590 Kˇc.
136
´ ´I REGRESN´I MODEL 8.5 L INE ARN
8.5.3
Odhad a predikce
V t´eto ˇca´sti si uk´aˇzeme, jak v´ ybˇerov´a regresn´ı pˇr´ımka m˚ uˇze b´ yt pouˇzita jednak pro odhad stˇredn´ı hodnoty rozdˇelen´ı n´ahodn´e veliˇciny Y pˇri urˇcit´e hodnotˇe x nez´avisl´e veliˇciny a jednak pro predikci hodnoty veliˇciny Y pro urˇcitou hodnotu x nez´avisl´e veliˇciny. Pouˇzijeme pˇr´ıklad 8.3 k ilustraci z´akladn´ı myˇslenky. Abychom to mohli udˇelat, pˇredpoˇ kl´adejme, ˇze veliˇciny st´aˇr´ı a cena auta Skoda Forman splˇ nuj´ı pˇredpoklady 1 − 3 pro regresi. Pˇ r´ıklad 8.8 Odhad stˇredn´ı hodnoty v regresi ˇ Pouˇzijte data z pˇr´ıkladu 8.3 pro odhad stˇredn´ı hodnoty ceny vˇsech 3 roky stary´ ch aut Skoda Forman. ˇ sen´ı: Vzhledem k pˇredpokladu 1 pro regresn´ı model, teoreticka´ regresn´ı rovnice urˇcuje stˇredn´ı Reˇ ˇ ˚ a´ staˇ ´ r´ı aut Skoda hodnotu cen pro ruzn Forman. Tud´ızˇ stˇredn´ı hodnota ceny vˇsech 3 roky stary´ ch ˇ ´ aut Skoda Forman je pˇresnˇe rovna β0 + β1 · 3. Protoˇze β0 a β1 nezname, odhadneme stˇredn´ı ˇ ´ hodnotu ceny vˇsech 3 roky starych aut Skoda Forman β0 + β1 · 3 pomoc´ı pˇr´ısluˇsn´e hodnoty b0 + b1 · 3 na v´ybˇerov´e regresn´ı pˇr´ımce. Protoˇze v´ybˇerova´ regresn´ı rovnice pro uvaˇzovana´ data je yˆ = −195.47 − 20.26x, je odhad stˇredn´ı ceny pro vˇsechna 3 roky stara´ auta yˆ = −195.47 − 20.26 · 3 = 134.69, nebo 134690 Kˇc.
ˇ Pozn´ amka: Odhad stˇredn´ı hodnoty ceny vˇsech 3 roky star´ ych aut Skoda Forman je rovna ˇ predikovan´e cenˇe 3 roky star´eho auta Skoda Forman. Obˇe hodnoty z´ısk´ame dosazen´ım x = 3 do v´ ybˇerov´e regresn´ı rovnice. Odhad stˇredn´ı hodnoty vˇsech 3 roky star´ ych aut je bodov´ y odhad. Jak v´ıme, mohl by poskytnout v´ıce informac´ı, pokud bychom mˇeli nˇejakou pˇredstavu, jak pˇresn´ y je tento bodov´ y odhad. Jin´ ymi slovy, bylo by vhodn´e stanovit interval spolehlivosti ˇ pro odhad stˇredn´ı hodnoty vˇsech 3 roky star´ ych aut Skoda Forman. Intervaly spolehlivosti pro stˇ redn´ı hodnoty v regresi Sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu rozdˇelen´ı veliˇciny Y odpov´ıdaj´ıc´ı urˇcit´e hodnotˇe xp veliˇciny Y se op´ır´a o n´asleduj´ıc´ı poznatek. Tvrzen´ı 8.3
t- ROZD Eˇ LEN ´I PRO INTERVALY SPOLEHLIVOSTI V REGRESI
Necht’ veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1−3 pro regresn´ı model. D´ale necht’ xp oznaˇcuje urˇcitou hodnotu prediktoru X a yˆp = b0 + b1 xp . Pak m´a n´ahodn´a veliˇcina T =
Yˆp − (β0 + β1 xp ) q
Se
1 n
+
(xp −¯ x)2 Sxx
t-rozdˇelen´ı s n − 2 stupni volnosti. Vzhledem k tomu, ˇze β0 + β1 xp je stˇredn´ı hodnota rozdˇelen´ı veliˇciny Yp odpov´ıdaj´ıc´ı zadan´e hodnotˇe xp , m˚ uˇzeme aplikac´ı tvrzen´ı 8.3 odvodit n´asleduj´ıc´ı postup pro interval spolehlivosti pro stˇredn´ı hodnotu v regresi.
137
K APITOLA 8
Postup 8.3
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
Interval spolehlivosti pro stˇredn´ı hodnotu Y odpov´ıdaj´ıc´ı hodnotˇe xp
Pˇredpoklady: 1 − 3 pro regresn´ı model 1. Pro koeficient spolehlivosti 1 − α, pouˇzijte tabulku III.k stanoven´ı t α2 s ν = n − 2. 2. Urˇcete bodov´ y odhad yˆp = b0 + b1 xp , pro stˇredn´ı hodnotu rozdˇelen´ı hodnot veliˇciny Y odpov´ıdaj´ıc´ıch hodnotˇe xp . 3. Krajn´ı body intervalu spolehlivosti pro stˇredn´ı hodnotu jsou s
yˆp ± t α2 · se
1 (xp − x¯)2 . + n Sxx
Pˇ r´ıklad 8.9 Ilustrace postupu 8.3 ˇ ´ Sestrojte 95% interval spolehlivosti pro stˇredn´ı hodnotu ceny vˇsech 3 roky starych aut Skoda ´ Forman na zakladˇ e dat z pˇr´ıkladu 8.3. ˇ sen´ı: Reˇ 1. Pro koeficient spolehlivosti 0.95 je α = 0.05. Protoˇze n = 11 je ν = 9. V tabulce III. nalezneme, zˇe t0.025 = 2.262. ´ erova´ regresn´ı 2. Nyn´ı potˇrebujeme spoˇc´ıtat hodnotu yˆp pro xp = 3. Z pˇr´ıkladu 8.3 v´ıme, zˇe vybˇ rovnice je yˆ = 195.47 − 20.26x, takˇze yˆp = 195.47 − 20.26 · 3 = 134.69. Pn Pn 3. V pˇr´ıkladu 8.3 jsme vypoˇc´ıtali i=1 xi = 58 a i=1 x2i = 326; v pˇr´ıkladu 8.5 jsme urˇcili se = 12.58. ´ Z 1. kroku mame t0.025 = 2.262a z 2. kroku yˆp = 134.69. Z toho dostaneme, zˇe krajn´ı body intervalu spolehlivosti pro stˇredn´ı hodnotu jsou s 134.69 ± 2.262 · 12.58
(3 − 58/11)2 1 + = 134.69 ± 16.76 11 326 − (58)2 /11
˚ zeme se na 95% spolehnout, zˇe stˇredn´ı hodnota neboli interval spolehlivosti je (117.93, 151.45). Muˇ ˇ ceny vˇsech 3 roky star´ych aut Skoda Forman bude mezi 117930 Kˇc a 151450 Kˇc.
Intervaly predikce V´ ybˇerov´a regresn´ı rovnice se pˇredevˇs´ım pouˇz´ıv´a pro predikci. Regresn´ı rovnice pro data st´aˇr´ı ˇ a cena auta Skoda Forman je yˆ = 195.47 − 20.26x. Tud´ıˇz napˇr´ıklad predikovan´a cena pro 3 roky star´e auto uvaˇzovan´e znaˇcky je 134690 Kˇc. Vzhledem k tomu, ˇze se ceny takov´ ych aut ˇ mˇen´ı, m´a vˇetˇs´ı v´ yznam urˇcit interval predikce pro cenu 3 roky star´ ych aut Skoda Forman neˇz stanovit pouze jednu predikovanou hodnotu. N´azev interval spolehlivosti je obvykle vyhrazen pro intervalov´ y odhad parametr˚ u, takoˇ v´ ych jako napˇr´ıklad stˇredn´ı hodnota ceny vˇsech 3 roky star´ ych aut znaˇcky Skoda Forman. N´azev interval predikce je pouˇzit pro intervalov´ y odhad n´ahodn´e veliˇciny, takov´e jako je ˇ napˇr´ıklad cena n´ahodnˇe vybran´eho 3 roky star´eho auta Skoda Forman. Postup pro sestrojen´ı intervalu predikce je podobn´ y jako postup sestrojne´ı intervalu spolehlivosti. Interval predikce je zaloˇzen na n´asleduj´ıc´ı skuteˇcnosti. 138
´ ´I REGRESN´I MODEL 8.5 L INE ARN
Tvrzen´ı 8.4
t- ROZD Eˇ LEN ´I PRO INTERVALY PREDIKCE V REGRESI
Pˇredpokl´adejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1 − 3 pro regresn´ı model. Necht’ xp oznaˇcuje urˇcitou hodnotu prediktoru X, a necht’ yˆp = b0 + b1 xp . Pak n´ahodn´a veliˇcina T =
yˆp − (β0 + β1 xp ) q
Se 1 +
1 n
+
(xp −¯ x)2 Sxx
m´a t-rozdˇelen´ı s n − 2 stupni volnosti. Pomoc´ı tvrzen´ı 8.4 m˚ uˇzeme odvodit n´asleduj´ıc´ı postup sestrojen´ı intervalu predikce pro veliˇcinu Y odpov´ıdaj´ıc´ı urˇcit´e hodnotˇe veliˇciny X. Postup 8.4
Interval predikce pro hodnotu veliˇciny Y odpov´ıdaj´ıc´ı urˇcite´ hodnotˇe xp
Pˇredpoklady: 1 − 3 pro regresn´ı model 1. Pro koeficient spolehlivosti 1 − α pouˇzijte tabulku III.k urˇcen´ı tα/2 s ν = n − 2. 2. Vypoˇc´ıtejte predikovanou hodnotu yˆp = b0 + b1 xp n´ahodn´e veliˇciny Y . 3. Krajn´ı body intervalu predikce pro hodnotu y veliˇciny Y jsou s
yˆp ± t α2 .se 1 +
1 (xp − x¯)2 + . n Sxx
Pˇ r´ıklad 8.10 Ilustrace postupu 8.4 ˇ ´ Sestrojte 95% interval predikce ceny nahodnˇ e vybran´eho 3 roky star´eho auta Skoda Forman na ´ zakladˇ e dat z pˇr´ıkladu 8.3. ˇ sen´ı: Reˇ 1. Koeficient spolehlivosti je 0.95, tud´ızˇ α = 0.05. Protoˇze n = 11 je ν = 9. V tabulce III. nalezneme, zˇe t0.025 = 2.262. ´ 2. Hodnotu yˆp pro xp = 3 jsme vypoˇc´ıtali v pˇredchaxej´ ıc´ım pˇr´ıkladu yp = 134.69. Z pˇr´ıkladu 8.3 v´ıme, zˇe v´ybˇerova´ regresn´ı rovnice je yˆ = 195.47 − 20.26x, takˇze yˆp = 195.47 − 20.26 · 3 = 134.69. Pn Pn 3. V pˇr´ıkladu 8.3 jsme vypoˇc´ıtali i=1 xi = 58 a i=1 x2i = 326; v pˇr´ıkladu 8.5 jsme urˇcili se = ´ 12.58.Z 1. kroku mame t0.025 = 2.262 a z 2. kroku yˆp = 134.69. Z toho dostaneme, zˇe krajn´ı body intervalu predikce jsou s 1 (3 − 58/11)2 134.69 ± 2.262 · 12.58 1 + + = 134.69 ± 33.02, 11 326 − (58)2 /11 ˚ zeme se na 95% spolehnout, zˇe cena nahodnˇ ´ neboli interval predikce je (101.67, 167.71). Muˇ e vyˇ bran´eho 3 roky star´eho auta Skoda Forman bude mezi 101670 Kˇc a 167710 Kˇc.
Interval predikce je ˇsirˇs´ı neˇz interval spolehlivosti. To je pochopiteln´e z n´asleduj´ıc´ıho ˇ d˚ uvodu: Chyba v odhadu stˇredn´ı hodnoty ceny vˇsech 3 roky star´ ych aut Skoda Forman 139
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
je zp˚ usobena t´ım, ˇze teoretick´a regresn´ı pˇr´ımka je odhadnuta pomoc´ı v´ ybˇerov´e regresn´ı pˇr´ımky. Na druh´e stranˇe, chyba v predikci ceny n´ahodnˇe vybran´eho 3 roky star´eho auta ˇ Skoda Forman je zp˚ usobena v´ yˇse zm´ınˇenou chybou v odhadu stˇredn´ı hodnoty ceny plus ˇ variabilita v cen´ach vˇsech 3 roky star´ ych aut Skoda Forman.
8.6
Testy hypot´ ez o korelaˇ cn´ım koeficientu
ˇ Casto potˇrebujeme rozhodnout, zda dvˇe veliˇciny jsou line´arnˇe korelovan´e, tj. zda existuje line´arn´ı vztah mezi dvˇema veliˇcinami. V odstavci 8.5.2 jsme uk´azali, ˇze toto rozhodnut´ı m˚ uˇzeme udˇelat na z´akladˇe testu hypot´ezy o smˇernici β1 teoretick´e regresn´ı pˇr´ımky. Stejnˇe tak m˚ uˇzeme testovat hypot´ezu o korelaˇcn´ım koeficientu ρ. Korelaˇcn´ı koeficient jsme definovali v kapitole 4, def. 4.8 jako m´ıru line´arn´ı korelace mezi n´ahodn´ ymi veliˇcinami a v odstavci 8.4, jsme zavedli v´ ybˇerov´ y line´arn´ı korelaˇcn´ı koeficient r (viz. def. 8.5), kter´ y lze spoˇc´ıtat na z´akladˇe dvojic pozorovan´ ych hodnot veliˇcin X a Y jako m´ıru line´arn´ı korelace mezi vybran´ ymi dvojicemi dat. Zat´ımco ρ popisuje s´ılu line´arn´ıho vztahu mezi dvˇema veliˇcinami; r je pouze odhad ρ. Pˇripomeˇ nme, ˇze line´arn´ı korelaˇcn´ı koeficient ρ leˇz´ı mezi −1 a 1. Hodnoty ρ bl´ızk´e −1 nebo 1 naznaˇcuj´ı siln´ y line´arn´ı vztah mezi veliˇcinami, zat´ımco hodnoty ρ bl´ızk´e nule naznaˇcuj´ı slab´ y line´arn´ı vztah mezi veliˇcinami. Jestliˇze ρ > 0 veliˇciny jsou kladnˇ e (pozitivnˇ e) line´ arnˇ e korelovan´ e ve smyslu, ˇze y m´a tendenci line´arnˇe r˚ ust s r˚ ustem x a to t´ım v´ıce, ˇc´ım je ρ bl´ıˇze k 1. Je-li ρ < 0, veliˇciny jsou z´ apornˇ e (negativnˇ e) line´ arnˇ e korelovan´ e v tom smyslu, ˇze y m´a tendenci line´arnˇe klesat s r˚ ustem x a to t´ım v´ıce, ˇc´ım je ρ bl´ıˇze k −1. Je-li ρ = 0, pak veliˇciny jsou line´ arnˇ e nekorelovan´ e v tom smyslu, ˇze mezi nimi nen´ı ˇza´dn´ y line´arn´ı vztah. Protoˇze v´ ybˇerov´ y korelaˇcn´ı koeficient r je odhadem korelaˇcn´ıho koeficientu ρ, m˚ uˇze b´ yt vyuˇzit jako z´aklad pro test hypot´ezy o ρ. Pro test s nulovou hypot´ezou H0 : ρ = 0 (to je dvˇe veliˇciny jsou line´arnˇe nekorelovan´e), pouˇzijeme n´asleduj´ıc´ı poznatek. Tvrzen´ı 8.5
t- ROZD Eˇ LEN ´I PRO TEST
´ HYPOT EZY O KOEFICIENTU KORELACE
Pˇredpokl´adejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1 − 3 pro regresn´ı model. Jestliˇze ρ = 0, pak m´a n´ahodn´a veliˇcina r T =q 2 1−r n−2
t-rozdˇelen´ı s n − 2 stupni volnosti. S ohledem na tvrzen´ı 8.5 lze test hypot´ezy s nulovou hypot´ezou H0 : ρ = 0 pouˇz´ıt q pro 1−r2 n´ahodnou veliˇcinu T = r/ n−2 jako testovou statistiku a urˇcit kritick´e hodnoty z tabulky III. pro linearn´ Postup 8.5 Test hypotezy ´ ´ ı korelaˇcn´ı koeficient s H0 : ρ = 0 • Pˇredpoklady: 1 − 3 pro regresn´ı model • Testov´ a statistika: T = q r 2 ∼ t(n − 2) 1−r n−2
• Kritick´e hodnoty H0 : pro oboustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα 140
8.7 O BECN Y´ REGRESN´I MODEL
Pˇ r´ıklad 8.11 Ilustrace postupu 8.5 ˇ ´ ´ r´ı a cenˇe 11 ojety´ ch aut Skoda ´ Uvaˇzujme opˇet udaje o staˇ Forman z tabulky 8.1. Poskytuj´ı nam ´ ˚ pro to, abychom udˇelali na 5% hladinˇe vy´ znamnosti zavˇ ´ er, zˇe staˇ ´ r´ı udaje dostatek argumentu ˇ ´ ´ e korelovan´e, jestliˇze vybˇ ´ erovy´ korelaˇcn´ı a cena auta znaˇcky Skoda Forman jsou zapornˇ e linearnˇ koeficient je roven −0.924? ˇ sen´ı: Reˇ ˇ ´ ı korelaˇcn´ı koeficient pro veliˇciny staˇ ´ r´ı a cena auta Skoda 1. Necht’ ρ je linearn´ Forman. Pak nulova´ a alternativn´ı hypot´ezy jsou ´ r´ı a cena auta jsou linearnˇ ´ e nekorelovan´e) H0 : ρ = 0 (staˇ ´ r´ı a cena auta jsou zapornˇ ´ ´ e korelovan´e). Test je levostrann´y. HA : ρ < 0 (staˇ e linearnˇ 2. α = 0.05 . 3. Kriticka´ hodnota pro levostrann´y test je −t0.05 s ν = 11 − 2 = 9. Z tabulky III. najdeme −t0.05 = −1.833. ´ erovy´ korelaˇcn´ı koeficient r = −0.924. Tud´ızˇ hodnota vybˇ ´ erov´e statistiky je 4. Vybˇ tc = q
−0.924 1−(−0.924)2 11−2
= −7.249 .
5. Protoˇze hodnota tc je menˇs´ı neˇz −t0.05 = −1.833, padne do kritick´eho oboru hypot´ezy H0 a tud´ızˇ ´ H0 zam´ıtame. ´ ´ zˇe na 5% hladinˇe 6. V´ysledky testu jsou statisticky vyznamn´ e na 5% hladinˇe. To znamena, ´ ´ ´ ˚ k tomu, abychom udˇelali zavˇ ´ er, zˇe staˇ ´ r´ı a vyznamnosti nam data davaj´ ı dostatek argumentu ˇ ´ ´ e korelovan´e. cena auta Skoda Forman jsou zapornˇ e linearnˇ
8.7
Obecn´ y regresn´ı model
Doposud jsme se zab´ yvali metodami, jak popisovat a dˇelat z´avˇery o pr˚ ubˇehu a tˇesnosti z´avislosti v pˇr´ıpadˇe, ˇze zkoum´ame line´arn´ı vztah dvou kvantitavn´ıch statistick´ ych znak˚ u. Zkoumali jsme line´arn´ı z´avislost z´avisl´e, vysvˇetlovan´e veliˇciny Y na jedin´e nez´avisl´e, vysvˇetluj´ıc´ı veliˇcinˇe X. V ˇradˇe pˇr´ıpad˚ u se n´am nepodaˇr´ı vysvˇetlit zmˇeny vysvˇetlovan´e veliˇciny pouze jedinou vysvˇetluj´ıc´ı veliˇcinou. Pak mus´ıme rozˇs´ıˇrit poˇcet vysvˇetluj´ıc´ıch veliˇcin, jimiˇz je moˇzn´e vysvˇetlit chov´an´ı z´avisl´e veliˇciny. V tomto pˇr´ıpadˇe tedy zkoum´ame, jak z´avis´ı veliˇcina Y na vysvˇetluj´ıc´ıch veliˇcin´ach X1 , X2 , · · · , Xr . Metody zkoum´an´ı z´avislost´ı tohoto typu se naz´ yvaj´ı v´ıcen´ asobnou (velmi ˇcasto pouˇz´ıv´ame term´ın mnohon´ asobnou) regres´ı a korelac´ı. Pˇredpokl´adejme, ˇze zkouman´a n´ahodn´a veliˇcina Y z´avis´ı na veliˇcin´ach X1 , X2 , · · · , Xr tak, ˇze jej´ı stˇredn´ı hodnota E(Y ) je funkc´ı tˇechto veliˇcin a nezn´am´ ych parametr˚ u θ1 , θ2 , · · · , θs E(Y ) = f (x1 , x2 , · · · , xr ; θ1 , θ2 , · · · , θs ),
(8.3)
kde x1 , x2 , · · · , xr jsou namˇeˇren´e hodnoty veliˇcin X1 , X2 , · · · , Xr a θ1 , θ2 , · · · , θs jsou parametry. Funkce f se naz´ yv´a regresn´ı funkce a θ1 , θ2 , · · · , θs se naz´ yvaj´ı parametry regrese nebo regresn´ı parametry. Uveden´ y model (8.3) m˚ uˇzeme tak´e vyj´adˇrit ve tvaru Y = f (x1 , x2 , · · · , xr ; θ1 , θ2 , · · · , θs ) + ²,
141
(8.4)
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
kde ² je n´ahodn´a veliˇcina, (tzv. ruˇsiv´a sloˇzka) se stˇredn´ı hodnotou E(²) = 0. Pˇri vyˇsetˇrov´an´ı regresn´ı z´avislosti je regresn´ı funkce zpravidla zn´am´a (z teoretick´ ych u ´vah) nebo se jej´ı tvar pˇredpokl´ad´a. Potom se m˚ uˇzeme omezit na odhad regresn´ıch parametr˚ u. K tomu nejˇcastˇeji pouˇz´ıv´ame metodu nejmenˇ s´ıch ˇ ctverc˚ u. Metoda nejmenˇ s´ıch ˇ ctverc˚ u pro obecn´ y regresn´ı model Necht’ y1 , y2 , · · · , yn je n nez´avisl´ ych pozorov´an´ı n´ahodn´e veliˇciny Y a x1j , x2j , · · · xnj jsou dan´e hodnoty veliˇciny Xj , j = 1, 2, · · · , r. Parametry θ1 , θ2 , · · · , θs regresn´ıho modelu (8.3) odhadneme metodou nejmenˇs´ıch ˇctverc˚ u, tj. urˇc´ıme parametry θˆ1 , θˆ2 , · · · , θˆs pˇri nichˇz funkce S(θ1 , θ2 , · · · , θs ) =
n X
[yi − f (x1 , x2 , · · · , xr ; θ1 , θ2 , · · · , θs )]2
(8.5)
i=1
nab´ yv´a sv´eho minima. Podle tvaru regresn´ı funkce mluv´ıme o line´ arn´ı, exponenci´ aln´ı, kvadratick´e, polynomick´e a jin´ ych regres´ıch. Uvedeme ty, kter´e maj´ı nejˇcastˇejˇs´ı praktick´e pouˇzit´ı [7]. Jednoduch´ a regrese V pˇr´ıpadˇe, ˇze uvaˇzujeme jednu nez´avislou veliˇcinu, mluv´ıme o jednoduch´e regresi a tento typ m˚ uˇzeme zapsat ve tvaru E(Y ) = f (x, β0 , β1 , · · · , βk )
(8.6)
Nejˇcastˇejˇs´ı pouˇz´ıvan´e jsou ty jednoduch´e regresn´ı funkce, kter´e jsou line´arn´ı z hlediska parametr˚ u. Naz´ yvaj´ı se line´ arn´ı regresn´ı funkce a maj´ı tvar E(Y ) = β0 + β1 f1 (x) + · · · + βk fk (x),
(8.7)
kde β0 , β1 , · · · , βk jsou nezn´am´e parametry a f1 , f2 , · · · , fk jsou zn´am´e funkce nez´avisl´e veliˇciny X. D´ale uvedeme nˇekolik pˇr´ıpad˚ u line´arn´ı regresn´ı funkce: a) Dosad´ıme-li do (8.7) k = 1 a f1 (x) = x, dostaneme pˇ r´ımkovou regresi, kterou jsme se podrobnˇe zab´ yvali v odstavci 8.1 E(Y ) = β0 + β1 x.
(8.8)
b) Dosad´ıme-li do (8.7) f1 (x) = x a f2 (x) = x2 , dostaneme parabolickou regresi E(Y ) = β0 + β1 x + β2 x2 .
(8.9)
c) Obecnˇe, dosad´ıme-li do (8.7) fi (x) = xi , pro kaˇzd´e i = 1, 2, · · · , k, dostaneme polynomickou regresi k-t´ eho stupnˇ e E(Y ) = β0 + β1 x + β2 x2 + · · · + βk xk .
(8.10)
d) V pˇr´ıpadˇe, ˇze dosad´ıme do (8.7) f1 (x) = x−1 dostaneme hyperbolickou regresi prvn´ıho stupnˇe β1 (8.11) E(Y ) = β0 + . x 142
8.7 O BECN Y´ REGRESN´I MODEL
e) Obecnˇe, dosad´ıme-li do (8.7) fi (x) = x−i , pro kaˇzd´e i = 1, 2, · · · , k, dostaneme hyperbolickou regresi k-t´ eho stupnˇ e E(Y ) = β0 +
β1 β2 βk + 2 + ··· + k. x x x
(8.12)
f ) Dosazen´ım k = 1 a f1 (x) = log x do (8.7), dostaneme logaritmickou regresi E(Y ) = β0 + β1 log x.
(8.13)
Vedle jednoduch´ ych regresn´ıch funkc´ı typu (8.7), kter´e jsou line´arn´ımi funkcemi parametr˚ u, se setk´av´ame s jednoduch´ ymi regresn´ımi funkcemi, kter´e nejsou line´arn´ı z hlediska parametr˚ u. Mezi nejˇcastˇeji pouˇz´ıvan´e funkce tohoto typu patˇr´ı exponenci´ aln´ı regresn´ı funkce f (x) f2 (x) β2
E(Y ) = β0 β1 1
f (x)
· · · βkk
.
(8.14)
Pro k = 1 a f1 (x) = x dostaneme exponenci´ aln´ı regresi prvn´ıho stupnˇe E(Y ) = β0 β1x .
(8.15)
Parametry funkce (8.14) a jin´ ych funkc´ı, kter´e nejsou line´arn´ımi funkcemi parametr˚ u, nelze odhadovat pˇr´ımo metodou nejmenˇs´ıch ˇctverc˚ u, nebot’ jej´ı pouˇzit´ı vede k soustavˇe neline´arn´ıch rovnic, z nichˇz zpravidla nedok´aˇzeme odhadnout pˇr´ımo parametry ve formˇe vhodn´ ych v´ ypoˇcetn´ıch vzorc˚ u. V pˇr´ıpadˇe nˇekter´ ych regresn´ıch funkc´ı m˚ uˇzeme pouˇz´ıt vhodnou transformaci a pˇrev´est je do tvaru (8.7). Podrobnˇeji o regresn´ı a korelaˇcn´ı anal´ yze z hlediska praktick´eho pouˇzit´ı pojedn´av´a publikace [7]. Line´ arn´ı regresn´ı model denn´ı automobilov´ e dopravy Praktick´e vyuˇzit´ı jednoduch´eho line´arn´ıho modelu si uk´aˇzeme na statistick´em pˇr´ıstupu k modelov´an´ı denn´ı automobilov´e dopravy, jak´ y byl pouˇzit v roce 1991 v Oslo. C´ılem bylo odhadnout u ´ˇcinnost zaveden´ı poplatk˚ u na vybran´ ych frekventovan´ ych silnic´ıch v Oslo [1]. Poplatky za uˇz´ıv´an´ı nˇekter´ ych silnic byly v Oslo zavedeny od 1.2.1990. Jeden rok pˇred zaveden´ım poplatk˚ u byly instalov´any mˇeˇr´ıc´ı stanice na 16 m´ıstech, kde mˇely b´ yt poplatky vyb´ır´any. Necel´ y rok po zaveden´ı poplatk˚ u bylo v Oslo rozm´ıstˇeno 50 mˇeˇr´ıc´ıch stanic na 30 siln´ıc´ıch a zjiˇst’ov´an poˇcet proj´ıˇzdˇej´ıc´ıch automobil˚ u v obdob´ı od 1.1.1991 do 31.1.1992, celkovˇe 762 dn´ı. Na nejd˚ uleˇzitˇejˇs´ıch silnic´ıch byl poˇcet proj´ıˇzdˇej´ıc´ıch automobil˚ u sledov´an nepˇretrˇzitˇe aˇz na kr´atk´a obdob´ı, kdy selhalo automatick´e zaˇr´ızen´ı. Na nˇekter´ ych silnic´ıch se prov´adˇela mˇeˇren´ı pouze po nˇekolik t´ ydn˚ u v kaˇzd´em roce. Kaˇzd´a mˇeˇr´ıc´ı stanice zaznamen´avala poˇcet aut proj´ıˇzdˇej´ıc´ıch v jednom smˇeru. Protoˇze vˇetˇsina silnic byla dvousmˇernn´ ych, byly stanice ˇcasto instalov´any na stejn´ ych m´ıstech v obou smˇerech, ale byly povaˇzov´any za dvˇe r˚ uzn´e stanice. Poˇcet mˇeˇren´ı v kaˇzd´e stanici se pohyboval od 15 do 640. Zvolen´ y matematick´ y model popisuje denn´ı dopravu pomoc´ı ˇsesti komponent: – Obecn´a u ´roveˇ n – Trend, dlouhodobˇe tato sloˇzka vykazuje pokles nebo r˚ ust – Sezonn´ı efekt (variabilita opakuj´ıc´ı se kaˇzd´ y rok) – Vliv zp˚ usoben´ y dnem v t´ ydnu 143
K APITOLA 8
´ R EGRESN´I A KORELA Cˇ N´I ANAL YZA
– Zvl´aˇstn´ı dny (velikonoce, v´anoce a ostatn´ı voln´e dny) – Chyba mˇeˇren´ı Tyto komponenty charakterizuj´ı denn´ı dopravu prostˇrednictv´ım n´asleduj´ıc´ıho multiplikativn´ıho modelu: Denn´ı doprava = u ´roveˇ n · trend · sez´ona · den v t´ ydnu · zvl´aˇstn´ı dny · chyba. Model pro (pˇrirozen´ y) logaritmus denn´ı dopravy je pak aditivn´ı a je to model typu vyj´adˇren´ y vztahem (8.7) . Pro kaˇzdou mˇeˇr´ıc´ı stanici je model denn´ı dopravy formulov´an jako line´arn´ı regresn´ı model log(denn´ı doprava v den t) = yt = β0 +
46 X
βi Xit + ²t ,
i=1
kde yt je logaritmus denn´ı dopravy v den t, Xit , (i = 1, 2, · · · , 46) je vysvˇetluj´ıc´ı veliˇcina v den t reprezentuj´ıc´ı systematick´e zmˇeny (trend, sezonn´ı vlivy, vliv dne v t´ ydnu a speci´aln´ı dny), a ² je chyba v den t. Parametr β0 je konstantn´ı ˇclen reprezentuj´ıc´ı u ´roveˇ n, zat´ımco βi (i = 1, 2, · · · , 46) urˇcuj´ı vliv vysvˇetluj´ıc´ıch veliˇcin. Mˇeˇren´ı byla prov´adˇena prostˇrednictv´ım 50 mˇeˇr´ıc´ıch stanic se 47 nezn´am´ ymi regresn´ımi parametry pro kaˇzdou stanici. Tud´ıˇz bylo celkem 2 350 parametr˚ u, kter´e bylo tˇreba odhadnout na z´akladˇe namˇeˇren´ ych u ´daj˚ u. To samozˇrejmˇe nebylo jednoduch´e, protoˇze na nˇekter´ ych stanic´ıch bylo k dispozici jen 15 mˇeˇren´ı. Byla pouˇzita metoda odhadu nezn´am´ ych parametr˚ u, kter´a simult´annˇe odhaduje parametry pro vˇsechny mˇeˇr´ıc´ı stanice. Na z´akladˇe u ´daj˚ u o denn´ı dopravˇe bylo zjiˇstˇeno, ˇze se provoz sn´ıˇzil na vˇsech silnic´ıch, kde se zaˇcali vyb´ırat poplatky (aˇz na jednu, kter´a byla po zaveden´ı poplatk˚ u uzavˇrena).
8.7.1
Maticov´ e vyj´ adˇ ren´ı modelu line´ arn´ı regrese
Maticov´ y zp˚ usob z´apisu regresn´ıho modelu je vhodn´e pouˇz´ıvat v pˇr´ıpadˇe velk´eho poˇctu pozorov´an´ı a pˇri vˇetˇs´ım poˇctu nez´avisl´ ych veliˇcin. Uvaˇzujme regresn´ı model line´arn´ı v parametrech i v nez´avisle promˇenn´ ych. Mˇejme n´ahodn´e veliˇciny Y1 , Y2 , · · · , Yn a matici dan´ ych ˇc´ısel X typu (n × (k + 1)), k + 1 < n tvaru
1 x11 . . . x1k . .. . . . . X= . .. . .. 1 xn1 . . . xnk Pˇredpokl´adejme, ˇze pro n´ahodn´ y vektor Y = (Y1 , Y2 , · · · , Yn )T plat´ı Y = Xβ + ²,
(8.16)
kde β = (β0 , β2 , · · · , βk )T je vektor nezn´am´ ych parametr˚ u a ² = (²1 , ²2 , · · · , ²n )T je vektor n´ahodn´ ych veliˇcin splˇ nuj´ıc´ı podm´ınky E(²) = 0,
Σ² = σ 2 I.
(8.17)
Pˇredpokl´adejme, ˇze hodnost matice X je rovna k + 1, z toho pak vypl´ yv´a, ˇze matice X je regul´arn´ı. Vektor Xβ nen´ı n´ahodn´ y vektor. Z (8.16) a (8.17) plyne E(Y) = Xβ, 144
ΣY = σ 2 I.
(8.18)
8.7 O BECN Y´ REGRESN´I MODEL
Parametry β0 , β2 , · · · , βk se odhaduj´ı na z´akladˇe pozorov´an´ı y = (y1 , y2 , · · · , yn )T metodou nejmenˇs´ıch ˇctverc˚ u tj. z podm´ınky, ˇze v´ yraz S(β) = (y − Xβ)T (y − Xβ) m´a b´ yt minim´aln´ı. Oznaˇcme tyto odhady b = (b0 , b1 , · · · , bk )T . Plat´ı, ˇze odhady b = (b0 , b1 , · · · , bk )T parametr˚ u β = (β0 , β2 , · · · , βk )T metodou nejmenˇs´ıch ˇctverc˚ u jsou d´any vzorcem b = (XT X)−1 XT y. (8.19) Odhad b je nestrann´ y a m´a kovarianˇcn´ı matici Σb = σ 2 (XT X)−1 .
145
Tabulka I: Distribuˇcn´ı funkce normovan´eho norm´aln´ıho rozdˇelen´ı N (0, 1)
z
0
Pro z < 0.0 poul’ijte vztah Φ(z) = 1 − Φ(−z). z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
0.000 0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841 0.864 0.885 0.903 0.919 0.933 0.945 0.955 0.964 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.997 0.997 0.998
0.010 0.504 0.544 0.583 0.622 0.659 0.695 0.729 0.761 0.791 0.819 0.844 0.867 0.887 0.905 0.921 0.934 0.946 0.956 0.965 0.972 0.978 0.983 0.986 0.990 0.992 0.994 0.995 0.997 0.998 0.998
0.020 0.508 0.548 0.587 0.626 0.663 0.698 0.732 0.764 0.794 0.821 0.846 0.869 0.889 0.907 0.922 0.936 0.947 0.957 0.966 0.973 0.978 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998
0.030 0.512 0.552 0.591 0.629 0.666 0.702 0.736 0.767 0.797 0.824 0.848 0.871 0.891 0.908 0.924 0.937 0.948 0.958 0.966 0.973 0.979 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998
0.040 0.516 0.556 0.595 0.633 0.670 0.705 0.739 0.770 0.800 0.826 0.851 0.873 0.893 0.910 0.925 0.938 0.949 0.959 0.967 0.974 0.979 0.984 0.987 0.990 0.993 0.994 0.996 0.997 0.998 0.998
0.050 0.520 0.560 0.599 0.637 0.674 0.709 0.742 0.773 0.802 0.829 0.853 0.875 0.894 0.911 0.926 0.939 0.951 0.960 0.968 0.974 0.980 0.984 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998
0.060 0.524 0.564 0.603 0.641 0.677 0.712 0.745 0.776 0.805 0.831 0.855 0.877 0.896 0.913 0.928 0.941 0.952 0.961 0.969 0.975 0.980 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998
0.070 0.528 0.567 0.606 0.644 0.681 0.716 0.749 0.779 0.808 0.834 0.858 0.879 0.898 0.915 0.929 0.942 0.953 0.962 0.969 0.976 0.981 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.999
0.080 0.532 0.571 0.610 0.648 0.684 0.719 0.752 0.782 0.811 0.836 0.860 0.881 0.900 0.916 0.931 0.943 0.954 0.962 0.970 0.976 0.981 0.985 0.989 0.991 0.993 0.995 0.996 0.997 0.998 0.999
Tabulka II: Kritick´e hodnoty normovan´eho norm´aln´ıho rozdˇelen´ı N (0, 1) α zα
0.2 0.1 0.842 1.282
0.05 1.645
0.025 1.960
0.01 0.005 2.326 2.576
146
0.0025 2.807
0.001 3.090
0.090 0.536 0.575 0.614 0.652 0.688 0.722 0.755 0.785 0.813 0.839 0.862 0.883 0.901 0.918 0.932 0.944 0.954 0.963 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.996 0.997 0.998 0.999
z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
Tabulka III: Kritick´e hodnoty t-rozdˇelen´ı α
0
ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
t0.2 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.849 0.848 0.847 0.846 0.846 0.845
t0.1 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.299 1.296 1.294 1.292 1.291 1.290
tα
t0.05 t0.025 t0.01 t0.005 t0.0025 6.314 12.706 31.821 63.656 127.321 2.920 4.303 6.965 9.925 14.089 2.353 3.182 4.541 5.841 7.453 2.132 2.776 3.747 4.604 5.598 2.015 2.571 3.365 4.032 4.773 1.943 2.447 3.143 3.707 4.317 1.895 2.365 2.998 3.499 4.029 1.860 2.306 2.896 3.355 3.833 1.833 2.262 2.821 3.250 3.690 1.812 2.228 2.764 3.169 3.581 1.796 2.201 2.718 3.106 3.497 1.782 2.179 2.681 3.055 3.428 1.771 2.160 2.650 3.012 3.372 1.761 2.145 2.624 2.977 3.326 1.753 2.131 2.602 2.947 3.286 1.746 2.120 2.583 2.921 3.252 1.740 2.110 2.567 2.898 3.222 1.734 2.101 2.552 2.878 3.197 1.729 2.093 2.539 2.861 3.174 1.725 2.086 2.528 2.845 3.153 1.721 2.080 2.518 2.831 3.135 1.717 2.074 2.508 2.819 3.119 1.714 2.069 2.500 2.807 3.104 1.711 2.064 2.492 2.797 3.091 1.708 2.060 2.485 2.787 3.078 1.706 2.056 2.479 2.779 3.067 1.703 2.052 2.473 2.771 3.057 1.701 2.048 2.467 2.763 3.047 1.699 2.045 2.462 2.756 3.038 1.697 2.042 2.457 2.750 3.030 1.684 2.021 2.423 2.704 2.971 1.676 2.009 2.403 2.678 2.937 1.671 2.000 2.390 2.660 2.915 1.667 1.994 2.381 2.648 2.899 1.664 1.990 2.374 2.639 2.887 1.662 1.987 2.368 2.632 2.878 1.660 1.984 2.364 2.626 2.871
147
t0.001 318.289 22.328 10.214 7.173 5.894 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.307 3.261 3.232 3.211 3.195 3.183 3.174
ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
Tabulka IV: Kritick´e hodnoty χ2 -rozdˇelen´ı
α 0
ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
χ20.995 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328
χ2α
χ20.99 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.647 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.878 13.565 14.256 14.953 22.164 29.707 37.485 45.442 53.540 61.754 70.065
χ20.975 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222
148
χ20.95 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929
χ20.9 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.041 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 29.051 37.689 46.459 55.329 64.278 73.291 82.358
ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
Tabulka IV: Kritick´e hodnoty χ2 -rozdˇelen´ı (pokraˇcov´ an´ı)
χ20.01 χ20.025 χ20.05 ν χ20.1 1 2.706 3.841 5.024 6.635 2 4.605 5.991 7.378 9.210 3 6.251 7.815 9.348 11.345 4 7.779 9.488 11.143 13.277 5 9.236 11.070 12.832 15.086 6 10.645 12.592 14.449 16.812 7 12.017 14.067 16.013 18.475 8 13.362 15.507 17.535 20.090 9 14.684 16.919 19.023 21.666 10 15.987 18.307 20.483 23.209 11 17.275 19.675 21.920 24.725 12 18.549 21.026 23.337 26.217 13 19.812 22.362 24.736 27.688 14 21.064 23.685 26.119 29.141 15 22.307 24.996 27.488 30.578 16 23.542 26.296 28.845 32.000 17 24.769 27.587 30.191 33.409 18 25.989 28.869 31.526 34.805 19 27.204 30.144 32.852 36.191 20 28.412 31.410 34.170 37.566 21 29.615 32.671 35.479 38.932 22 30.813 33.924 36.781 40.289 23 32.007 35.172 38.076 41.638 24 33.196 36.415 39.364 42.980 25 34.382 37.652 40.646 44.314 26 35.563 38.885 41.923 45.642 27 36.741 40.113 43.195 46.963 28 37.916 41.337 44.461 48.278 29 39.087 42.557 45.722 49.588 30 40.256 43.773 46.979 50.892 40 51.805 55.758 59.342 63.691 60 74.397 79.082 83.298 88.379 50 63.167 67.505 71.420 76.154 70 85.527 90.531 95.023 100.425 80 96.578 101.879 106.629 112.329 90 107.565 113.145 118.136 124.116 100 118.498 124.342 129.561 135.807 149
χ20.005 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.558 46.928 48.290 49.645 50.994 52.335 53.672 66.766 91.952 79.490 104.215 116.321 128.299 140.170
ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 50 70 80 90 100
Literatura [1] M. Aldrin (1995). A statistical approach to the modelling of daily car traffic. Traffic Engineering and Control, Vol. 36, Nb. 3, pp. 489–493. [2] J.Andˇel (1985). Matematick´a statistika. SNTL, Alfa. [3] V. Beneˇs, G. Dohnal (1993). Pravdˇepodobnost a matematick´a statistika. Vydavatelstv´ı ˇ CVUT. [4] P. Br´emaud (1994). An Introduction to Probabilistic Modeling. Springer Verlag, New York. [5] J.H´atle, J. Likeˇs (1972). Z´aklady poˇctu pravdˇepodobnosti a matematick´e statistiky. SNTL/Alfa, Praha [6] A.R´enyi (1972). Teorie pravdˇepodobnosti. Academia, Praha. [7] J. Seger, R. Hindls (1995). Statistick´e metody v trˇzn´ım hospod´aˇrstv´ı. Victoria Publishing, Praha. ˇ ep´an (1987). Teorie pravdˇepodobnosti. Matematick´e z´aklady. Akademia, Praha. [8] J.Stˇ [9] N.A. Weiss (1996). Elementary Statistics, Addison-Wesley Publishing Company. [10] T.H. Wonnacott, R.J. Wonnacott (1995). Statistika pro obchod a hospod´aˇrstv´ı. (pˇreklad z americk´eho origin´alu Introductory Statistics for Business and Economics), J. Wiley & Sons, New York.
150
Rejstˇ r´ık P -hodnota, 101
kritick´a, 97 stˇredn´ı, 51 hustota, 48 margin´aln´ı, 50 sdruˇzen´a, 50 hypot´eza, 95 alternativn´ı, 95 jednoduch´a, 96 nulov´a, 95
chyba I. druhu, 98 II. druhu, 98 stˇredn´ı kvadratick´a, 80 v´ ybˇerov´a, 80 ch´ı-kvadr´at test dobr´e shody, 115 nez´avislosti, 118
inferenˇcn´ı statistika, 10 interval predikce, 138 interval spolehlivosti, 85 χ2 -interval pro rozptyl, 91 t-interval pro sˇredn´ı hodnotu, 89 z-interval pro pod´ıl, 92 z-interval pro stˇredn´ı hodnotu, 87 dvoustrann´ y, 85 levostrann´ y, 85 pravostrann´ y, 85
decil, 23 diagram kruhov´ y, 20 Stem-and-Leaf, 20 extrapolace, 125 funkce distribuˇcn´ı, 45 diskr´etn´ı, 46 margin´aln´ı, 50 sdruˇzen´a (simult´ann´ı), 49 spojit´a, 48 gama, 54 logaritmick´e vˇerohodnostn´ı, 83 pravdˇepodobnostn´ı, 46 regresn´ı, 141 line´arn´ı, 142 vˇerohodnostn´ı, 83
jednotka statistick´a, 9 jevy element´arn´ı, 33 jevov´e pole, 33 nez´avisl´e, 40 n´ahodn´e, 31 vz´ajemnˇe nesluˇciteln´e, 35 u ´pln´ y syst´em, 42 koeficient determinace, 128 korelaˇcn´ı, 55 v´ ybˇerov´ y, 129 spolehlivosti, 85 variaˇcn´ı, 29 konvergence podle pravdˇepodobnosti, 65 kovariance, 54 krit´erium nejmenˇs´ıch ˇctverc˚ u, 122
graf bodov´ y, 19 krabicov´ y, 30 sloupkov´ y, 20 histogram ˇcetnost´ı, 18 hladina v´ yznamnosti, 98 pozorovan´a, 102 hodnota 151
ˇ ´IK REJST R
kvantil, 23, 53 kvartil doln´ı, 23 horn´ı, 23 prostˇredn´ı, 23
v´ ybˇerov´ y, 72 sdruˇzen´ y, 114 z´akladn´ıho souboru, 72 pokus n´ahodn´ y, 31 polygon ˇcetnost´ı, 19 popisn´a statistika, 9 pozorov´an´ı odlehl´e, 26, 125 vlivn´e, 125 pravdˇepodobnost aposteriorn´ı, 43 apriorn´ı, 42 axiomatick´a definice, 36 klasick´a, 32 margin´aln´ı, 50 podm´ınˇen´a, 38 sdruˇzen´a, 49 subjektivn´ı, 43 pravidlo o podm´ınˇen´e pravdˇepodobnosti, 38 o sˇc´ıt´an´ı pravdˇepodobnost´ı, 37 pro n´asoben´ı pravdˇepodobnost´ı, 39 pro pravdˇepodobnost opaˇcn´eho jevu, 37 prediktor, 126 prostor element´arn´ıch jev˚ u, 33 parametrick´ y, 77 pravdˇepodobnostn´ı, 36 pr˚ umˇer, 24 useknut´ y, 26 v´ ybˇerov´ y, 70 pˇeti–ˇc´ıseln´a charakteristika, 29 pˇr´ıpustn´a chyba odhadu pod´ılu, 93 stˇredn´ı hodnoty, 88
matice kovarianˇcn´ı, 56 medi´an, 54 v´ ybˇerov´ y, 23, 25 metoda maxim´aln´ı vˇerohodnosti, 82 moment˚ u, 82 nejmenˇs´ıch ˇctverc˚ u, 142 model regresn´ı line´arn´ı, 131 modus, 25 moment centr´aln´ı, 53 v´ ybˇerov´ y, 71 obecn´ y, 52 sm´ıˇsen´ y, 54 v´ ybˇerov´ y, 70 m´ıra popisn´a, 22 polohy, 24 rezistentn´ı, 26 rozpt´ ylenosti absolutn´ı, 27 relativn´ı, 29 ˇsikmosti, 30 ˇspiˇcatosti, 30 ˇ nerovnost Cebyˇ sevova, 64 obor kritick´ y (zam´ıtnut´ı), 97 pˇrijet´ı, 97 odchylka smˇerodatn´a, 53 v´ ybˇerov´a, 29 odhad bodov´ y, 77 asymptoticky nestrann´ y, 79 konzistentn´ı, 79 nestrann´ y, 78 vydatn´ y (nejlepˇs´ı nestrann´ y), 80 intervalov´ y, 77
regrese jednoduch´a, 142 line´arn´ı, 126 regresn´ı pˇr´ımka, 122 teoretick´a, 131 v´ ybˇerov´a, 132 reziduum, 132 robustnost, 87 rovnice norm´aln´ı, 123 regresn´ı, 121, 123
parametr regrese, 132, 141 percentil, 23 pod´ıl 152
ˇ ´IK REJST R
vˇerohodnostn´ı, 83 rozdˇelen´ı diskr´etn´ı, 56 alternativn´ı, 56 binomick´e, 56 geometrick´e, 57 hypergeometrick´e, 57 Poissonovo, 58 rovnomˇern´e diskr´etn´ı, 58 spojit´e, 59 χ2 , 63 exponenci´aln´ı, 62 norm´aln´ı (Gaussovo), 61 norm´aln´ı dvourozmˇern´e, 64 norm´aln´ı normovan´e, 59 rovnomˇern´e, 59 Studentovo, 63 rozptyl, 53 rezidu´aln´ı, 133 v´ ybˇerov´ y, 28, 71 sdruˇzen´ y, 74 rozpˇet´ı mezikvartilov´e, 29 variaˇcn´ı, 27 rozsah v´ ybˇerov´eho souboru, 10 z´akladn´ıho souboru, 10
jednov´ ybˇerov´ y, 105 nesdruˇzen´ y, 111 p´arov´ y, 112 sdruˇzen´ y, 109 z-test dvouv´ ybˇerov´ y, 114 jednov´ ybˇerov´ y, 104, 108 dvoustrann´ y, 96 jednostrann´ y, 96 levostrann´ y, 96 o korelaˇcn´ım koeficientu, 140 pravostrann´ y, 96 tˇr´ıda doln´ı hranice, 16 horn´ı hranice, 16 stˇred, 16 ˇs´ıˇrka, 16 tˇr´ıdˇen´ı intervalov´e, 15 jednoduch´e, 17 jednostupˇ nov´e, 14 v´ıcestupˇ nov´e, 14 vektor n´ahodn´ y, 49 stˇredn´ıch hodnot, 56 veliˇcina, 13 kvalitativn´ı, 13 kvantitativn´ı, 13 diskr´etn´ı, 13 spojit´a, 13 vysvˇetlovan´a, 126 vysvˇetluj´ıc´ı, 126 veliˇcina n´ahodn´a diskr´etn´ı, 44 spojit´a, 44 veliˇciny nekorelovan´e, 55 nez´avisl´e, 50 vych´ ylen´ı (zkreslen´ı) odhadu, 78 vydatnost odhadu, 80 vzorec Bayes˚ uv, 42 u ´pln´e pravdˇepodobnosti, 42 vˇeta Bernoulliho, 65 centr´aln´ı limitn´ı, 66
soubor statistick´ y, 10 z´akladn´ı, 10 souˇcet ˇctverc˚ u celkov´ y, 127 regresn´ı, 129 rezidu´aln´ı, 127 statistika, 69 t-statistika, 71 nesdruˇzen´a, 74 sdruˇzen´a, 74 odhadov´a, 77 testov´a, 97 symetrie, 21 s´ıla testu, 98 tabulka kombinaˇcn´ı, 50 test hypot´ezy, 95 χ2 -test, 106 t-test 153
ˇ ´IK REJST R
Chinˇcinova, 65 Linderbergova-L´evyho, 67 Moivreova-Laplaceova, 66 v´ ybˇer n´ahodn´ y prost´ y, 11 stratifikovan´ y, 12 systematick´ y, 12 v´ıcestupˇ nov´ y, 12 v´ ybˇery n´ahodn´e nez´avisl´e, 73 p´arov´e, 75 znak statistick´ y, 13 z´akon rozdˇelen´ı, 45 velk´ ych ˇc´ısel, 64 ˇcetnost absolutn´ı, 16 kumulativn´ı, 16 oˇcek´avan´a (teoretick´a), 115 pozorovan´a (empirick´a), 115 relativn´ı, 16 kumulativn´ı, 16
154
Pˇ r´ıloha 1) Inference pro stˇ redn´ı hodnotu µ
• Sdruˇzen´a t-testov´a statistika pro hypot´ezu H0 : µ1 = µ2 (nez´avisl´e v´ ybˇery, norm´aln´ı rozdˇelen´ı nebo velk´e rozsahy v´ ybˇer˚ u, a shodn´e smˇerodatn´e odchylky):
• Stˇredn´ı hodnota pr˚ umˇeru x¯ : µx¯ = µ • Smˇerodatn´ umˇeru x¯ : √ a odchylka pr˚ σx¯ = σ/ n y tvar x¯ : z = • Normovan´
x ¯−µ √ σ/ n
t=
• z-interval pro µ (σ zn´am´e, norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n):
• Sdruˇzen´ y t-interval pro µ1 − µ2 (nez´avisl´e v´ ybˇery, norm´aln´ı rozdˇelen´ı nebo velk´e rozsahy v´ ybˇer˚ u, a shodn´e smˇerodatn´e odchylky):
• Pˇr´ıpustn´a chyba odhadu pro µ: σ ∆ = zα/2 √ n
q
x¯1 − x¯2 ± tα/2 sP (1/n1 ) + (1/n2 )
• t−interval pro µ (σ nezn´am´e, norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n):
s ν = n1 + n2 − 2. • Stupnˇe volnosti pro nesdruˇzen´e t-postupy:
s x¯ ± tα/2 √ n s ν = n − 1.
δ=
• z-testov´a statistika pro H0 : µ = µ0 (σ zn´am´e, norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n):
[(s21 /n1 ) + (s22 /n2 )]2 (s21 /n1 )2 (s22 /n2 )2 + n1 − 1 n2 − 1
zaokrouhleno dol˚ u na nejbliˇzˇs´ı cel´e ˇc´ıslo.
x¯ − µ0 √ n σ
• Nesdruˇzen´a t-testov´a statistika pro hypot´ezu H0 : µ1 = µ2 (nez´avisl´e v´ ybˇery a norm´aln´ı rozdˇelen´ı nebo velk´e rozsahy v´ ybˇer˚ u):
• t-testov´a statistika pro H0 : µ = µ0 (σ nezn´am´e, norm´aln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n): t=
sP (1/n1 ) + (1/n2 )
s ν = n1 + n2 − 2
σ x¯ ± zα/2 √ n
z=
x¯1 − x¯2
q
x¯ − µ0 √ n s
t= q
s ν = n − 1.
(¯ x1 − x¯2 ) (s21 /n1 )
+ (s22 /n2 )
s ν = δ. • Nesdruˇzen´ y t-interval pro µ1 − µ2 (nez´avisl´e v´ ybˇery a norm´aln´ı rozdˇelen´ı nebo velk´e rozsahy v´ ybˇer˚ u):
2) Inference pro dvˇ e stˇ redn´ı hodnoty • Sdruˇzen´a v´ ybˇerov´a smˇerodatn´a odchylka: s
sP =
q
x¯1 − x¯2 ± tα/2 (s21 /n1 ) + (s22 /n2 )
(n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2
s ν = δ. i
• Sdruˇzen´ y v´ ybˇerov´ y pod´ıl: pˆP =
• P´arov´a t-testov´a statistika pro hypot´ezu H0 : µ1 = µ2 (p´arov´e v´ ybˇery a norm´aln´ı diference nebo velk´e rozsahy v´ ybˇer˚ u): d¯ √ t= sd / n
• Dvouv´ ybˇerov´a z-testov´a statistika pro H0 : p1 = p2 : pˆ1 − pˆ2 q z=q pˆP (1 − pˆP ) (1/n1 ) + (1/n2 )
s ν = n − 1.
(Pˇredpoklady: nez´avisl´e v´ ybˇery; x1 ≥ 5 ∧ n1 − x1 ≥ 5 ∧ x2 ≥ 5 ∧ n2 − x2 ≥ 5)
• P´arov´ y t-interval pro µ1 − µ2 (p´arov´e v´ ybˇery a norm´aln´ı diference nebo velk´e rozsahy v´ ybˇer˚ u):
• Dvouv´ ybˇerov´ y z-interval pro p1 − p2 : s
sd d¯ ± tα/2 √ . n
(ˆ p1 −ˆ p2 )±zα/2
s ν = n − 1.
• Pˇr´ıpustn´a chyba odhadu pro p1 − p2 :
x n
q
∆ = zα/2 pˆ1 (1 − pˆ1 )/n1 + pˆ2 (1 − pˆ2 )/n2
ybˇerov´ y z-interval pro p : • Jednov´ s
pˆ ± zα/2
pˆ(1 − pˆ) n
4) χ2 -postupy
(Pˇredpoklad: x ≥ 5 ∧ n − x ≥ 5)
• χ2 -testov´a statistika pro H0 : σ 2 = σ02 (norm´aln´ı rozdˇelen´ı):
• Pˇr´ıpustn´a chyba odhadu pro p: s
∆ = zα/2
pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 ) + n1 n2
(Pˇredpoklady: nez´avisl´e v´ ybˇery; x1 ≥ 5 ∧ n1 − x1 ≥ 5 ∧ x2 ≥ 5 ∧ n2 − x2 ≥ 5)
3) Inference pro pod´ıly • V´ ybˇerov´ y pod´ıl: pˆ =
x1 +x2 n1 +n2
χ2 =
pˆ(1 − pˆ) n
(n − 1) 2 s σ02
s ν = n − 1. • Rozsah v´ ybˇeru n pro odhadov´an´ı p : µ
n = pg (1−pg )
zα/2 ∆
¶2
µ
∨ n = 0.25
zα/2 ∆
• χ2 -interval pro σ 2 (norm´aln´ı rozdˇelen´ı):
¶2
,
(n − 1)s2 (n − 1)s2 , χ2α/2 χ21−α/2
zaokrouhleno nahoru na nejbliˇzˇs´ı cel´e ˇc´ıslo (pg znaˇc´ı odhad pod´ılu z´ıskan´ y na z´akladˇe pˇredchoz´ıch znalost´ı nebo dosad´ıme pg (1 − pg ) = 0.25 = maxp∈(0,1) p(1 − p)).
• Oˇcek´av´an´e ˇcetnosti pro χ2 test dobr´e shody: npi
ybˇerov´a z-testov´a statistika pro • Jednov´ H0 : p = p0 :
• testov´a statistika pro χ2 test dobr´e shody:
s ν = n − 1.
pˆ − p0
z=q
χ2 =
p0 (1 − p0 )/n
k X (ni − npi )2 i=1
(Pˇredpoklad: np0 ≥ 5 ∧ n(1−p0 ) ≥ 5)
s ν = k − 1. ii
npi
=
k X n2i i=1
npi
−n
• Oˇcek´av´an´e ˇcetnosti pro χ2 test nez´avislosti: ni• n•j , i = 1, · · · , k, j = 1, · · · , c noij = n kde n znaˇc´ı rozsah v´ ybˇeru a ni• =
c X
nij , n•j =
j=1
c X
nij test
s ν = (k−1)(c−1), kde k je poˇcet ˇra´dk˚ u a c je poˇcet sloupc˚ u v kontingenˇcn´ı tabulce. • Sxx , Sxy a Syy : Sxx =
n X
i=1
i=1
(xi − x¯)2 = n X
Sxy =
n X
i=1
Syy =
xi )2 /n
i=1
xi y i − (
i=1
n X
n X
i=1
i=1
(yi − y¯)2 =
n X
xi )(
yi )/n
n X
yi )2 /n
s
yˆp ± t α2 .se
• Predikˇcn´ı interval pro hodnotu n´ahodn´e veliˇciny Y odpov´ıdaj´ıc´ı urˇcit´e hodnotˇe xp :
n X
(yi − y¯)2 = Syy
s
i=1
yˆp ± t α2 .se 1 +
• Regresn´ı souˇcet ˇctverc˚ u: n X
• Testov´a statistika pro H0 : ρ = 0 : r t= q 2
• Residu´aln´ı souˇcet ˇctverc˚ u: n X
1 (xp − x¯)2 + n Sxx
s ν = n − 2.
2 (yˆi − y¯)2 = Sxy /Sxx
i=1
S(y−ˆy) =
1 (xp − x¯)2 + n Sxx
s ν = n − 2.
• Celkov´ y souˇcet ˇctverc˚ u:
Syˆ =
S(y−ˆ y) n−2
• Interval spolehlivosti pro stˇredn´ı hodnotu rozdˇelen´ı n´ahodn´e veliˇciny Y odpov´ıdaj´ıc´ı urˇcit´e hodnotˇe xp :
i=1
• Regresn´ı rovnice: yˆ = b0 + b1 x, kde Sxy b1 = Sxx n n X 1 X b0 = ( yi − b1 xi ) = y¯ − b1 x¯ n i=1 i=1
Sy =
• Teoretick´a regresn´ı rovnice: y = β0 + β1 x
• Interval spolehlivosti pro β1 : se b1 ± tα/2 √ Sxx s ν = n − 2.
i=1
yi2 − (
6) Inferenˇ cn´ı metody v regresi a korelaci
• Testov´a statistika pro H0 : β1 = 0 : b √1 t= se / Sxx s ν = n − 2.
(xi − x¯)(yi − y¯)
i=1 n X
=
x2i − (
n X
• Koeficient determinace: S(y−ˆy) Syˆ r2 = 1 − = Sy Sy
• Reziud´aln´ı rozptyl: s2e =
5) Popisn´ e metody v regresi a korelaci n X
Sy = Syˆ + S(y−ˆy)
• Line´arn´ı korelaˇcn´ı koeficient: Sxy r=q Sxx Syy
i=1
• Testov´a statistika pro χ2 nez´avislosti: k X c X (nij − noij )2 2 χ = noij i=1 j=1
• Regresn´ı identita:
1−r n−2
2 /Sxx (yi − yˆi )2 = Syy − Sxy
s ν = n − 2.
i=1
iii